Сюда попадают все материалы, которые не входят в книгу «Рациональность: от ИИ до Зомби». Также здесь могут встречаться материалы, которые в упомянутую книгу входят, но как часть «Цепочек», которые почти не переведены на русский.
Подробное руководство по эпистемологии от Элиезера Юдковского. Включает практические приложения и задачи для читателя.
Помню, как я однажды сдавала письменную работу по экзистенциализму. Преподаватель вернула мне её с оценкой «плохо». Она подчеркнула слова «истина» и «истинный» везде, где они встречались в эссе, примерно двадцать раз, и рядом с каждым поставила вопросительный знак. Она хотела узнать, что я понимаю под истиной.
— Даниэлла Эган
Я понимаю, что значит называть гипотезу элегантной, или фальсифицируемой, или соответствующей экспериментальным данным. Мне кажется, что называть убеждение «истинным», или «настоящим», или «действительным» — это всего лишь делать различие между утверждением, что вы во что-то верите, и утверждением, что вы во что-то очень-очень сильно верите.
— Дейл Каррико
Итак, что такое истина? Движущаяся толпа метафор, метонимий, антропоморфизмов, — короче, сумма человеческих отношений, которые были возвышены, перенесены и украшены поэзией и риторикой и после долгого употребления кажутся людям каноническими и обязательными.
— Фридрих Ницше
Задача на ложные убеждения «Салли–Анна» — это эксперимент, который используется, чтобы установить, понимает ли ребёнок разницу между убеждением и реальностью. Проводится он так:
Дети до четырёх лет говорят, что Салли будет искать шарик в коробке, а более старшие дети — что в корзине.
Человеческие дети, начиная с возраста (обычно) в четыре года, впервые начинают понимать, что это значит, когда убеждения утрачивают связь с реальностью. Трёхлетний ребёнок моделирует только то, где находится шарик. Четырёхлетний ребёнок, начиная вырабатывать теорию сознания, отдельно моделирует, где находится шарик, и отдельно — где находится шарик по убеждению Салли, и может заметить, когда эти понятия конфликтуют — когда у Салли есть ложное убеждение.
Любое осмысленное убеждение имеет условие истинности, то есть реальность может каким-то образом быть такой, чтобы это убеждение было истинным или наоборот, ложным. Если мозг Салли содержит мысленный образ шарика в корзине, то в реальности шарик действительно может лежать в корзине — и в этом случае убеждение Салли называется «истинным», поскольку реальность удовлетворяет его условию истинности. Либо же возможно, что Анна вынула шарик и спрятала его в коробке, и в этом случае убеждение Салли называется «ложным», поскольку реальность не удовлетворяет его условию истинности.
Математик Альфред Тарский однажды описал понятие «истины» как бесконечную серию условий истинности:
Теперь кажется, что различие тут тривиально: зачем вообще говорить о предложениях, если предложение выглядит настолько похожим на реальность, когда и предложение, и реальность описаны на одном и том же языке?
Но когда мы оглядываемся на задачу «Салли–Анна», это различие становится куда яснее: убеждение Салли закодировано конфигурацией нейронов и нейронных путей в мозгу Салли, во влажной и чрезвычайно сложной органической ткани массой в килограмм с третью, находящейся внутри черепа Салли. Сам же шарик — это маленькая пластиковая сфера, которая перемещается между корзиной и коробкой. Сравнивать убеждение Салли с шариком — значит сравнивать совершенно разные вещи.
Тогда зачем вообще говорить об абстрактных «предложениях», а не об убеждениях, закодированных нейронами? Может быть так, что Салли и Фред верят «в одно и то же», то есть их мозги содержат внутренние модели шарика в корзине — то есть оба утверждения, каждое в своём мозге, имеют одинаковое условие истинности. В этом случае можно абстрагировать то, что эти убеждения имеют между собой общего, то есть общее условие истинности, в виде предложения или утверждения, которое мы считаем истинным или ложным отдельно от каких-либо верящих в него мозгов.
Некоторые мыслители выражают панику по поводу того, что любое суждение об истине — любое сравнение убеждения с реальностью — является частью чьего-то мышления, и, казалось бы, всего лишь сравнивает чужое убеждение со своим собственным:
То есть получается, что все эти разговоры об истине — это всего лишь сравнение чужих убеждений со своими и попытка установить свой авторитет? Получается, что слово «истина» — всего лишь оружие в борьбе за власть?
Мало того, мы даже не можем напрямую сравнить чужие убеждения с своими собственными. Мы можем только сравнить, внутри себя, наше убеждение о чьём-то чужом убеждении с нашим собственным убеждением — сравнить нашу карту их карты с нашей картой территории.
Аналогично получается, что когда мы говорим о наших собственных убеждениях, что они «истинны», это означает, что мы сравниваем свою карту своей карты со своей картой территории. Обычно люди не ошибаются в своём представлении о том, во что они верят. Хотя из этого правила есть определённые исключения, обычно карта карты верна, то есть люди обычно имеют верные убеждения о том, какие убеждения они имеют:
Следовательно, сказать «Я считаю, что небо голубое, и это верно!» — обычно значит выразить ту же информацию, которую выражают предложения «Я считаю, что небо голубое» или просто «Небо голубое», то есть информацию о том, что ваша мысленная модель мира содержит голубое небо.
Подумайте над вопросом:
Если это так, то получается, что постмодернисты правы? Получается, что все эти рассуждения об «истине» — это всего лишь попытка установить приоритет ваших собственных убеждений над чужими, и нет способа сравнить убеждение с самой реальностью, а не с содержимым чьей-то головы?
Здесь и далее я буду вставлять вопросы, над которыми читателям предлагается найти ответ самостоятельно, прежде чем двигаться дальше. Это моя несколько неуклюжая попытка отразить результаты исследований, показавших, что читатели значительно чаще запоминают какой-то факт или решение проблемы, если сначала пытаются решить проблему сами, прежде чем прочитать решение. Удастся вам решить проблему или нет, главное — попытаться и только затем читать дальше. Здесь отражена также проблема, существующая по мнению Майкла Вассара: поскольку статьи такого рода часто кажутся очевидными после прочтения, читателям зачастую сложно визуализировать разницу между «до» и «после», и для целей обучения эту разницу полезно себе представлять. Поэтому, пожалуйста, попытайтесь сначала высказать свой собственный ответ на вопрос — в идеале прошепчите его себе, либо двигайте губами, представляя, как вы его проговариваете, чтобы сделать его явным и доступным для вашей памяти — прежде чем продолжать. Попытайтесь также осознанно заметить разницу между вашим ответом и ответом, приведённым в статье, включая любые дополнительные или отсутствующие детали, и не пытайтесь увеличить или уменьшить это различие.
…
…
…
Ответ:
Ответ, который я дал Дейлу Каррико — который заявил мне, что знает, что означает фальсифицируемость убеждения, но не знает, что означает его истинность, — состоял в том, что мои убеждения определяют мои экспериментальные предсказания, но только реальность может определять мои экспериментальные результаты. Если я очень сильно верю в то, что я умею летать, то это убеждение может сподвигнуть меня сделать шаг с обрыва, ожидая, что он безопасен; но только истинность этого убеждения может спасти меня от смертельного падения.
Поскольку мои ожидания иногда конфликтуют с тем, что я затем вижу и ощущаю происходящим вокруг меня, мне нужны разные названия для того, что определяет мои экспериментальные предсказания, и для того, что определяет мои экспериментальные результаты. Первое я называю «убеждениями», а второе — «реальностью».
Вы не получите прямого столкновения между убеждениями и реальностью — или между чужими убеждениями и реальностью — если будете сидеть в комнате с закрытыми глазами. Но если вы откроете глаза, ситуация изменится!
Давайте проследим за тем, как ваш мозг получает информацию о том, что ваши шнурки развязаны:
Так ваш мозг обновляет свою картину мира, включая в неё тот факт, что ваши шнурки развязаны. Даже если до этого он ожидал увидеть их связанными! У вашего мозга нет никакой причины не обновлять свою картину мира, если только в этом не замешана политика. Когда фотоны, направляющиеся в сторону глаза, преобразуются в нервные сигналы, они принимают форму, совместимую с другой содержащейся в мозгу информацией, и могут сравниваться с предыдущими убеждениями.
Убеждения и реальность взаимодействуют постоянно. Если бы мозг и его окружение никогда не соприкасались, нам не нужны были бы ни глаза, ни руки, и мозг мог бы иметь намного более простое строение. Организмам вообще не нужны были бы мозги.
Хорошо, убеждения и реальность — это разные сущности, которые пересекаются и взаимодействуют. Но из того, что нам нужны отдельные понятия для «убеждений» и «реальности», ещё не следует потребность в понятии «истины», то есть сравнения между ними. Возможно, мы могли бы говорить отдельно (а) о представлениях некоего разумного существа о том, что небо голубое, и (б) о самом небе. Вместо того, чтобы говорить «Джейн считает, что небо голубое, и она права», мы могли бы сказать «Джейн считает, что небо голубое; кроме того, небо голубое» и тем самым выразить ту же информацию (а) о наших убеждениях относительно неба и (б) о наших убеждениях относительно убеждений Джейн. Мы всегда могли бы, применяя схему Тарского «Предложение “X“ истинно тогда и только тогда, когда X», заменить любое утверждение об истинном предложении утверждением о его условии истинности, о соответствующем состоянии реальности (неба или чего-нибудь ещё). Так мы могли бы вообще избежать этого надоедливого слова «истина», о котором философы ведут бесконечные споры и которым злоупотребляют разные раздражающие личности.
Пусть есть некое разумное существо — для определённости пусть это будет искусственный интеллект, который занимается своей работой в одиночку и которому никогда не требовалось ни с кем спорить о политике. ИИ знает, что «Моя модель полагает с вероятностью 90%, что небо голубое»; он уверен в том, что эта вероятность — это именно то предложение, которое сохранено в его оперативной памяти. Отдельно ИИ моделирует, что «Вероятность того, что мои оптические датчики обнаружат за окном голубой цвет, равна 99% при условии, что небо голубое», и не путает это утверждение с утверждением о том, что его оптические датчики обнаружат голубой цвет, когда он полагает, что небо голубое. Значит, этот ИИ определённо может отличать карту от территории; он знает, что разные состояния его оперативной памяти имеют последствия и причинно-следственные связи, отличные от тех, какими обладают разные состояния неба.
Но может ли этому ИИ понадобиться общее понятие истины — может ли ему понадобиться придумать слово «истина»? Почему, если бы у него было это понятие, он мог бы работать лучше?
Подумайте над вопросом: Если мы имеем дело с искусственным интеллектом, которому не нужно ни с кем спорить о политике, может ли ему когда-нибудь понадобиться слово или понятие «истина»?
…
…
…
Ответ: Абстрактное понятие «истины» — общая идея о соответствии карты и территории — нужно, чтобы выразить такие идеи, как:
В этом и состоит главное преимущество рассуждений и размышлений об «истине»: мы можем обобщать правила составления карт, соответствующих территориям, и извлекать уроки, которые можно распространять на другие области, а не только на цвет того или иного неба.
Как и всегда, тотальная философская паника оказалась в данном случае необоснованной. Но наша внутренняя оценка «истины» как сравнения между картой карты и картой реальности есть ключевая практическая проблема: в этой схеме мозгу очень просто принять за истину абсолютно бессмысленное предложение.
Пусть некий профессор литературы рассказывает на лекции, что знаменитые писатели Кэрол, Дэнни и Элейн являются «пост-утопистами», что следует из того, что их произведения имеют признаки «колониального отчуждения». Для большинства студентов типичным результатом будет то, что в аналоги ассоциативных массивов в их мозгах к объектам «Кэрол», «Дэнни» и «Элейн» будет добавлено свойство «пост-утопист». Когда в последующей контрольной работе встретится вопрос «Приведите пример писателя — пост-утописта», студент напишет «Элейн». Что, если студент напишет «Я думаю, что Элейн — не пост-утопист»? Тогда профессор смоделирует…
…и пометит ответ как неправильный.
В конце концов…
…правильно?
Может, конечно, быть и так, что этот термин действительно что-то означает (хотя я сам его выдумал). Может даже быть и так, что, хотя профессор не может дать хорошего и явного ответа на вопрос «А что вообще такое пост-утопизм?», тем не менее можно показать многим разным профессорам литературы новые произведения неизвестных им авторов, и все они независимо придут к одному и тому же ответу, из чего последует, что какое-то доступное чувствам свойство текста они явно обнаруживают. Мы не всегда знаем, как работают наши мозги, и мы не всегда знаем, что мы видим, и небо было голубым задолго до того, как появилось слово «голубой»; чтобы часть картины мира в вашем мозгу имела смысл, не требуется, чтобы вы могли объяснить её словами.
С другой стороны, может быть и так, что профессор узнал о «колониальном отчуждении», зазубрив то, что ему в своё время говорил его профессор. Может быть так, что единственный человек, чей мозг когда-то вкладывал в эту фразу реальный смысл, уже умер. Так что к тому времени, как студенты узнают, что слово «пост-утопист» — это пароль, который требуется называть в ответ на запрос «колониальное отчуждение», обе фразы стали не более чем словесными ответами. которые требуется заучивать, не более чем набором ответов для теста.
Эти две фразы не выглядят «оторванными» от реальности сами по себе, потому что они не оторваны друг от друга: пост-утопизм как будто имеет последствие в виде колониального отчуждения, а если вы спросите, что следует из колониального отчуждения, то это означает, что автор, скорее всего, пост-утопист. Но если вы очертите кругом эти два понятия, то обнаружите, что ни с чем больше они не связаны. Это плавающие убеждения, никак не связанные со всей остальной моделью. И тем не менее нет никакого внутреннего тревожного сигнала, который бы звучал, когда такое происходит. Точно так же, как «неправота ощущается как правота» — так же, как обладание ложным убеждением ощущается как обладание истинным убеждением, по крайней мере до проведения эксперимента, — так и бессмысленное убеждение может ощущаться как осмысленное.
Группы, обладающие совершенно бессмысленными убеждениями, могут даже враждовать. Если кто-то спросит «Является ли Элейн пост-утопистом?» и одна группа закричит «Да!», а вторая — «Нет!», они могут подраться просто из-за разных кричалок: для начала вражды необязательно, чтобы слова что-то значили. С тем же успехом может начаться драка между группой, кричащей «Ку!», и группой, кричащей «Кю!» Говоря более общо, важно различать видимые последствия высказанного убеждения, содержащегося в мозгу профессора (студенты должны написать на контрольной то, что нужно, иначе профессор посчитает их ответ неверным) и видимые последствия состояния реальности, не оформленного словесно (то есть состояния территории, при котором Элейн действительно является пост-утопистом).
Одним классическим ответом на эту проблему был верификационизм, который считал, что предложение «Элейн — пост-утопист» является бессмысленным, если оно не говорит нам, какие сенсорные ощущения мы ожидаем испытать, если это предложение истинно, и как эти ощущения будут отличаться в случае, когда предложение ложно.
Но теперь представьте, что я направляю фотон в пустоту между галактиками, и он улетает далеко в глубины космоса. В расширяющейся Вселенной этот фотон в конце концов пересечёт космологический горизонт, за которым, даже если фотон упадёт на зеркало, которое отразит его обратно в направлении Земли, он никогда не вернётся сюда, потому что за это время Вселенная расширится слишком быстро. Следовательно, после того, как фотон пересечёт определённую черту, у утверждения «Фотон продолжает существовать вместо того, чтобы исчезнуть» не будет совершенно никаких экспериментальных последствий.
И тем не менее мне кажется — и, надеюсь, вам тоже, — что утверждение «Фотон внезапно исчезает из мироздания сразу же, как только у нас пропадает возможность его когда-либо увидеть, и тем самым нарушает закон сохранения энергии и ведёт себя не так, как все видимые нам фотоны» ложно, а утверждение «Фотон продолжает существовать, улетая в никуда» истинно. И подобные вопросы могут иметь важные последствия в контексте принятия решений: представьте, что мы думаем о снаряжении околосветового корабля, летящего как можно дальше, так что он пересечёт космологический горизонт до того, как он замедлится, чтобы колонизировать какое-нибудь далёкое сверхскопление галактик. Если бы мы думали, что корабль исчезнет из Вселенной, как только пересечёт космологический горизонт, мы бы не стали и рассматривать возможность отправить его в полёт.
Спрашивать себя об ощутимых последствиях наших убеждений полезно и мудро, но они не подходят на роль фундаментального определения осмысленных утверждений. Это отличная подсказка, сигнализирующая о том, что что-то может быть оторванным от реальности «плавающим убеждением», но не абсолютное правило.
Можно попробовать ответить, что для того, чтобы утверждение было осмысленным, реальность должна иметь возможность быть такой, чтобы это утверждение могло быть истинным или ложным; а поскольку Вселенная состоит из атомов, должна существовать такая конфигурация атомов Вселенной, чтобы это утверждение было истинным или ложным. Например, чтобы утверждение «Я в Париже» было истинным, нужно переместить в Париж составляющие меня атомы. Литературный критик может заявлять, что Элейн имеет свойство, называемое пост-утопизмом, но нет никакого способа перевести это заявление в способ перераспределить атомы Вселенной так, чтобы сделать его истинным или же ложным; следовательно, у него нет условия истинности, то есть оно бессмысленно.
И действительно, существуют такие заявления, при которых, если вы остановитесь и подумаете: «Как можно перестроить Вселенную так, чтобы это было истинным или ложным?», то вы внезапно осознаете, что вы не так хорошо понимаете условие истинности этого заявления, как вы думали. Например, «Страдание закаляет дух» или «Все экономические кризисы — результат плохой денежной политики». Эти утверждения необязательно бессмысленны, но их гораздо проще высказать, чем представить себе мир, в котором они истинны или ложны. Точно так же, как и вопрос об ощутимых последствиях, вопрос о способе конфигурации Вселенной является важным индикатором осмысленности или бессмысленности.
Но если бы вы сказали, что для осмысленности утверждения должна существовать конфигурация атомов, делающая его истинным или ложным…
Тогда такая теория, как квантовая механика, изначально была бы бессмысленной, поскольку нет никакого способа распределить атомы так, чтобы сделать её истинной.
И наше открытие, что Вселенная состоит не из атомов, а из квантовых полей, обратило бы все осмысленные утверждения во всём мире в бессмысленные — потому что оказалось бы, что нет никаких атомов, которые можно было бы перераспределить, чтобы выполнить их условия истинности.
Подумайте над вопросом: Какое правило могло бы ограничить наши убеждения только теми, которые могут иметь смысл, не отсекая при этом раньше времени ничего, что в принципе может быть истинным?
Существует распространённая ошибка (которая меня довольно сильно раздражает), когда человек начинает вещать о важности «Истины». Обычно при этом подразумевается, что Истина — это нечто возвышенное, а не какие-нибудь скучные мирские истины о гравитации, радугах или о том, что ваш коллега сказал о вашем начальнике.
Поэтому довольно полезно упражняться в том, чтобы убирать слово «истина» из всех предложений, где оно появляется. (Замечу, что это один из видов рационалистского табуирования.) Например, вместо утверждения «Я считаю, что небо синее, и это истина!» можно просто сказать «Небо синее». Собеседник при этом получит совершенно одинаковую информацию о том, какой цвет неба с вашей точки зрения. А если утверждения «Я считаю, что демократы выиграют выборы» и «Демократы выиграют выборы» ощущаются для вас по-разному, то это важный сигнал о расхождении ваших сознательных и интуитивных убеждений.
Попробуйте попрактиковаться на следующих утверждениях:
Если «истина» определяется как бесконечное семейство предложений вида «Предложение „небо синее“ истинно тогда и только тогда, когда небо синее», то зачем нам вообще рассуждать об «истине»?
Мы не сможем убрать «истину» из предложения «Истинные убеждения с большей вероятностью позволяют делать предсказания, подтверждаемые экспериментом». Это предложение говорит о свойствах связи между картой и территорией. Словосочетание «истинные убеждения» можно заменить на «точная карта», однако это будет отсылкой к тому же понятию.
Слово «истина» можно удалить из большинства предложений лишь потому, что эти предложения не говорят ничего о связи между картой и территорией.
Теперь зададимся вопросом: когда необходимо использовать слово «рациональный»?
Как и в случае слова «истина», существует очень мало предложений, в которых действительно необходимо слово «рациональный». Рассмотрим следующие упрощения. Ни при каком из них практически не происходит потери информации.
«Рационально считать, что небо синее».
-> «Я думаю, что небо синее».
-> «Небо синее».
«Рациональное питание: почему стоит придерживаться палеодиеты»
-> «Почему вы должны считать, что палеодиета приведёт к самым лучшим последствиям для здоровья».
-> «Мне нравится палеодиета».
Практически всегда, когда люди объявляют что-то рациональным, можно без потери смысла заменить это слово словом «оптимальный». В тех случаях, когда речь идёт об убеждениях, а не стратегиях, — словами «истинный» или чем-то вроде «я считаю, что это так».
Попробуйте попрактиковаться на следующих утверждениях:
Подумайте над вопросом: В каких редких случаях из предложения нельзя убрать слово «рациональный»?
…
…
…
Ответ: Слово «рациональный» нам нужно, чтобы разговаривать о когнитивных алгоритмах или мыслительных процессах, обладающих свойствами «систематически улучшают связь между картой и территорией» (эпистемическая рациональность) или «систематически обеспечивают лучшие пути к цели» (инструментальная рациональность).
Например:
»(Эпистемически) рационально придерживаться гипотез, которые позволяют делать предсказания лучше».
или
«Цепляться за невозвратные затраты (инструментально) иррационально».
Из этих предложений нельзя убрать понятие рациональности без потери смысла. Можно найти способ перефразировать их без использования слова «рационально», однако придётся передавать то же самое понятие другими словами. Например:
«Если вы больше придерживаетесь гипотез, которые позволяют делать предсказания лучше, то ваша карта со временем лучше соответствует реальности».
или
«Если вы цепляетесь за невозвратные потери, вам это будет мешать достигать своих целей».
Слово «рационально» подходит для разговора о когнитивных алгоритмах, которые систематически улучшают связь карты и территории или помогают достижению целей.
Аналогично, рационалист — это не просто человек, который уважает Истину.
Слишком многие уважают Истину.
Некоторые уважают Истину о том, что правительство США заложило взрывчатку во Всемирный торговый центр, Истину о том, что судьбу человека решают звёзды (забавно, но если всё пойдёт как надо, правдой окажется противоположное утверждение), Истину о том, что глобальное потепление — это ложь, и так далее.
Рационалист — это человек, который уважает процессы поиска истины. Рационалисты — это люди, которые демонстрируют настоящее любопытство, даже если это любопытство касается давно всем понятных вопросов, вроде взрывчатки во Всемирном торговом центре. Ведь истинное любопытство — это часть излюбленного алгоритма и уважаемого процесса. Рационалисты уважают Стюарта Хамероффа за попытки проверить, действительно ли в нейронах могут происходить квантовые вычисления, пусть даже эта идея априори кажется крайне маловероятной и появилась как следствие ужасного гёделевского аргумента о том, что мозг не может быть механизмом. Однако Хамерофф попытался проверить свои странные убеждения экспериментально. И если бы «странные» убеждения никогда не проверялись экспериментально, человечество до сих пор обитало бы в саванне.
Или вспомним полемику о том, как CSICOP (Комитет по научному расследованию заявлений о паранормальных явлениях) разбирался с так называемым эффектом Марса. Эта полемика привела к тому, что CSICOP покинул его основатель, Деннис Роулинз. Действительно ли положение планеты Марс в небе во время часа рождения человека влияет на то, станет ли он знаменитым атлетом? Я скажу «нет», пусть даже кто-нибудь со мной не согласится. И если вы уважаете лишь Истину, то совершенно не важно, что CSICOP в процессе повысил требования к астрологу Гоклену — в смысле, объявил об эксперименте, а затем придумал новые причины отвергнуть результаты Гоклена, после того, как они оказались положительными. Выводы астролога почти наверняка неверны, конечно же, эти выводы отвергли, Истина восторжествовала.
Однако рационалиста волнуют утверждения, которые нарушают процессы рациональности. Байесианец в ситуации, похожей на описанную чуть-чуть сместил бы свои убеждения в сторону астрологии, однако априорные шансы против астрологии слишком велики. В большей степени байесианец сместил бы свои убеждения в сторону того, что Гоклен случайно наткнулся на какое-то явление, которое стоит исследовать подробнее. И уж точно он не стал бы требовать эксперимента, а затем игнорировать результаты или, когда результаты оказались не такими, как он ожидал, придумывать оправдания, почему эксперимент был неправильным. Такое поведение систематически плохо влияет на поиски истины. А рационалист ценит не просто красоту Истины, но красоту процессов и алгоритмов познания, позволяющих её находить.
У рационалистов получается вести необычайно продуктивные и дружественные разговоры (по крайней мере, пока всё идёт нормально) не потому, что все участники очень сильно уважают то, что они считают Верным или Оптимальным. В обычных условиях люди яростно спорят не потому, что знают правду, но не уважают её. Разговоры рационалистов (потенциально) более продуктивны в той степени, в какой все участники уважают процесс и соглашаются, каким именно этот процесс должен быть - что достигается явным изучением предметов вроде когнитивной психологии и теории вероятностей. Когда Анна говорит мне: «Меня беспокоит, что, судя по всему, тебе не слишком любопытен этот вопрос», речь идёт о состоянии ума, которое мы оба считаем важным. И я понимаю, что когда уважаемая мной рационалистка говорит мне, что я должен проявить любопытство, я должен задуматься, оценить свой уровень любопытства и попытаться его увеличить. Это часть рационалистского процесса, и она находится на мета-уровне относительно конкретного обсуждаемого вопроса.
Нужно ли любить рациональность, чтобы её использовать? Я могу представить мир, в котором миллионы людей учатся в школе правильно использовать Искусство, но лишь горстка любит его настолько, что пытается его развивать, а все остальных Искусство интересует лишь в связи с практическими результатами. Точно также я могу представить компетентного прикладного математика, который работает на инвестиционный фонд исключительно ради денег - он никогда не любил ни математику, ни программирование, ни оптимизацию. Я могу представить компетентного музыканта, который не испытывает особой любви к композиции или наслаждения от музыки, и которого заботит лишь продажа альбомов и поклонницы. Если какое-то явление можно вообразить, это ещё не означает, что его вероятно встретить в реальной жизни… Однако, если где-то существуют множество детей, которые учатся играть на фортепьяно, хотя и не любят это занятие, «музыкантом» будет считаться тот, кто играет необычайно хорошо, а не просто нормально.
Однако пока в нашем мире, где Искусство ещё ни навязывается насильно школьникам, ни приносит явного вознаграждения на обыденном карьерном пути, почти все владеющие какими-то рациональными навыками — это люди, которых захватывает Искусство само по себе. И это — возможно, тут стоит сказать «увы» — многое объясняет, как о рационалистских сообществах, так и о мире.
Самая ранняя известная мне рационалистская фантастика — это серия «Нуль-А» Альфреда ван Вогта. (Я знаю всего два примера рационалистской фантастики, не произошедшей от «ГПиМРМ», и второй — это «Праща Давида» Марка Стиглера.) У главного героя книг ван Вогта, Гилберта Госсейна, множество невоспроизводимых способностей: хотя они якобы относятся к мыслительным, вы не в состоянии им научиться. Например, благодаря своим тренировкам, герой умеет использовать всю свою силу в чрезвычайных ситуациях. Главный же рационалистский навык, которому, читая о приключениях Госсейна, научиться всё-таки можно, заключён в его девизе:
Карта — не территория.
Меня до сих пор иногда поражает мысль, что эту поговорку пришлось придумать: это сделал парень по фамилии Коржибски, причём лишь в двадцатом веке. Я читал книги ван Вогта в раннем детстве, поэтому для меня эта фраза звучит как аксиома, без которой существовать невозможно.
Однако поскольку Байесовский заговор вступает во вторую стадию своего развития, мы должны приучиться переводить просто красивые мысли в техники, которые можно применить на практике. Начнём.
Подумайте над вопросом. При каких обстоятельствах полезно осознанно думать о различиях между картой и территорией, то есть осознанно представлять мысленный пузырь, содержащий убеждение, и реальность вокруг него вместо того, чтобы с помощью карты напрямую размышлять о реальности? Как именно это поможет и в каких задачах?
…
…
…
Навык 1. Вообразить собственную неправоту.
В книге ван Вогта Гилберт Госсейн вспоминает о поговорке про карту и территорию, когда не уверен в каких-то убеждениях: «Ты так считаешь, но мир не обязательно так устроен». Это высказывание может казаться базовой истиной, но именно с него часто начинается обучение начинающих рационалистов. Они прыгают из мира, где небо просто синее, трава просто зелёная, а люди из Другой Политической Партии просто одержимы злобными демонами, в мир, где, возможно, реальность не совпадает с этими убеждениями и способна когда-нибудь вас удивить. В случае «трава зелёная» этому можно присвоить достаточно низкую вероятность, однако в мире, где территория отделена от карты по крайней мере допустимо, что однажды реальность не согласится с вами. Некоторые люди способны практиковать этот навык. Например, в случаях, когда им хочется полностью отвергнуть вероятность, что, возможно, они ошибаются, эти люди мысленно представляют себя сначала в мире, где их убеждения верны, а потом в мире, где их убеждения неверны. Убеждения относительно мотивов других людей — например, «Он меня ненавидит!» — судя по всему, лучше перефразировать как: «Я считаю, что он меня ненавидит» или «Я предполагаю, что он меня ненавидит». Результат иногда получается гораздо лучше.
По тем же причинам часто помогает рассуждение на языке вероятностей. Если вероятность Х — 75%, значит вероятность не-Х — 25%. Таким образом вы автоматически рассматриваете больше одного мира. Присваивание вероятностей также неминуемо напоминает, что сейчас вы работаете лишь со знаниями о мире. Ведь вероятностными могут быть лишь убеждения. Реальность всегда либо одна, либо другая.
Навык 2. Рассмотреть убеждение с другой точки зрения.
Если мы действительно в чём-то убеждены, нам кажется, что мир такой и есть. Если смотреть изнутри, другим людям кажется, что они живут в другом мире, не в таком же, как вы. Другие не соглашаются с вами не потому, что они беcпричинно упрямы, они не соглашаются, потому что ощущают мир по-другому, пусть даже вы и находитесь в одной и той же реальности.
Книга «Гарри Поттер и методы рационального мышления» написана, в том числе, с использованием этого навыка. Когда я создавал того или иного персонажа, например, Драко Малфоя, я не просто представлял, как он думает, я представлял окружающий его субъективный мир, который вращается вокруг него. Всё остальное считалось важным (или вообще принималось во внимание) лишь в зависимости от того, насколько оно важно для этого персонажа. Большинство книг показывают лишь одну точку зрения. Часто, даже если в книге представлено несколько точек зрения, второстепенные персонажи живут во вселенной главного героя и думают в основном о том, что важно главному герою. В «ГПиМРМ», когда вы встаёте на место Драко Малфоя, вас выдёргивают в субъективную вселенную Драко Малфоя, где у Пожирателей Смерти есть веские причины для их действий, а Дамблдор — внешнее беспричинное зло. Поскольку я не планировал писать постмодернистское произведение, персонажи всё же определённо жили в одной и той же реальности и оправдания действий Пожирателей Смерти убедительно звучали лишь для Драко — я не старался их как-то улучшить, чтобы убедить читателя. Речь не идёт о том, что каждый персонаж в буквальном смысле живёт в своей вселенной, и не о том, что все стороны моральны в равной степени, что бы они не делали. Речь о том, что разные элементы реальности для разных персонажей имеют разный смысл и разное значение.
Джошуа Грин однажды заметил (кажется, это было в его статье «Ужасная, кошмарная, нехорошая, очень плохая мораль»), что дискуссии о политике почти всегда выглядят как чтение нотаций непослушным детям, отказывающимся признавать очевидные истины. Отмечу, что если ошибающийся не в состоянии проверить свои убеждения экспериментально, то он может внутренне ощущать себя также, как и в тех случаях, когда он прав.
Навык 3. Вы с меньшей вероятностью примете анти-эпистемологию и подход «мотивированной нейтральности», утверждающие, что истины не существует.
Это навык избегания: он не позволяет принять решение о том, что именно делать, а лишь указывает на один из многих способов совершить ошибку. При обучении стоит уделять меньше внимания подобным навыкам. Тем не менее, если вы уже потратили какое-то время на то, чтобы представить Салли и Анну с их разными убеждениями, а также как с их убеждениями соотносится положение мячика, вам легче не поддаться на чьи-то рассуждения об отсутствии объективной истины. Салли и Анна представляют мир по-разному, но реальность — настоящее положение мячика, — с которой сравниваются их убеждения, лишь одна, поэтому здесь нет «различных правд». Настоящее убеждение (в отличие от веры в убеждение) всегда ощущается как верное, и, да, действительно, у двух людей действительно могут быть разные ощущения истины, но ощущение истины — не территория.
Предположу, что для усвоения этого навыка стоит замечать, когда ты сталкиваешься с подобной анти-эпистемологией, и, возможно, представлять в ответ две фигуры в мысленных пузырях и их единое окружение. Впрочем, по-моему, большинству людей, которые понимают основную идею, не нужны дополнительные аргументы и тренировки, чтобы избежать описанной ошибки.
Навык 4. Принимать решения, рассуждая о последствиях для мира (метод Тарского, он же литания Тарского).
Предположим, вы размышляете, стоит ли стирать свои белые спортивные носки с тёмными вещами. Вы беспокоитесь, что носки могут покраситься, но, с другой стороны, вам очень не хочется запускать стиральную машину второй раз только из-за белых носок. Не исключено, что ваш мозг начнёт придумывать причины, почему вряд ли с вашими носками что-то произойдёт — например, скажет, что тут же нет совсем новых тёмных вещей. В таких случаях помогает литания:
Если на моих носках появятся пятна, я хочу верить, что на носках появятся пятна.
Если на моих носках не появятся пятна, я хочу верить, что на носках не появятся пятна.
Я не буду цепляться за веру, которую не хочу.
Чтобы ваш мозг прекратил убеждать сам себя, представьте, что вы уже в мире, где ваши носки в результате стирки потемнеют, или уже в мире, где с ними ничего не случится, и в обоих случаях вам лучше считать, что вы находитесь именно в том мире, в котором находитесь. Помогают мантры: «То, что может быть разрушено правдой, должно быть разрушено» и «Реальность — это то, что не исчезает, когда вы прекращаете в неё верить». Признание, что убеждение — это ещё не реальность, может помочь нам признать первичность реальности и либо перестать с ней спорить и принять её, либо проявить любопытство.
Анна Саламон и я обычно используем метод Тарского так: мы представляем мир, который нам не нравится или который отличается от наших убеждений, в нём себя, который верит в противоположное, и катастрофу, которая в результате последует. Например, представьте, что вы уже какое-то время едете на машине, вы до сих пор не доехали до своего отеля и начинаете беспокоиться, не пропустили ли вы нужный поворот. Если вы его всё-таки пропустили, вам придётся разворачиваться и ехать ещё 60 километров в противоположном направлении, а это очень неприятная мысль и ваш мозг изо всех сил пытается убедить себя, что вы не заблудились. Анна и я в этом случае представим мир, где мы заблудились, но продолжаем ехать вперёд.
Замечу, что это всего лишь одна из ячеек в матрице 2 х 2:
На самом деле вы едете в нужном направлении | На самом деле вы заблудились | |
Вы считаете, что едете в нужном направлении | Не надо ничего менять: просто продолжаете движение и вы приезжаете в отель на свою конференцию | Просто продолжаете движение и в какой-то момент заезжаете на своей арендованной машине в море |
Вы считаете, что вы заблудились | Увы! Вы тратите целых пять минут своей жизни на ненужные вам распросы | Вы тратите пять минут на расспросы, разворачиваетесь и едете 40 минут в противоположном направлении |
Майкл «Валентайн» Смит говорит, что он применяет обсуждаемый навык, представляя все четыре ячейки по очереди. Практика позволяет делать это очень быстро, и он считает, что представлять все варианты полезно.
Мне очень нравится метафора, что рациональность — это боевое искусство для разума. Чтобы изучать боевые искусства, не обязательны огромные мускулы. Безусловно, люди спортивного телосложения чаще занимаются боевыми искусствами, однако боевые искусства можно изучать по самым разным причинам, в том числе и ради удовольствия. Если у вас есть рука, и все сухожилия и мускулы на месте, вы можете научиться сжимать кулак.
Аналогично, если у вас есть мозг, и с корой больших полушарий всё в порядке, вы можете научиться правильно его использовать. Если у вас есть способности, наверное, вы научитесь быстрее. Однако, искусство рациональности — это не про скорость обучения. Искусство рациональности — это тренировки машины, которая есть в голове у каждого из нас. Наши мозги склонны совершать систематические ошибки (как пример такой ошибки можно привести пренебрежение масштабом). Рациональность предназначена, чтобы исправлять такие ошибки или находить способы их обойти.
Увы, наш разум подчиняется нашей воле гораздо хуже, чем руки. По меркам эволюции способность управлять мускулами у нас появилась очень давно, способность же рассуждать о собственном процессе рассуждения — гораздо более свежее изобретение. Таким образом не стоит удивляться, что применять мускулы гораздо проще, чем применять мозги. Однако вряд ли разумно пренебрегать тренировками только потому, что они сложные. Люди захватили Землю не благодаря большим мускулам.
Если вы живёте в городе, наверняка у вас где-нибудь поблизости есть школа боевых искусств. Почему нет таких школ, где обучают рациональности?
Наверное, одна из причин заключается в том, что в рациональности сложно определить наличие навыков. Чтобы перейти на следующий уровень в тхэквондо, обычно нужно сломать доску определённой толщины. Если у вас получилось, все наблюдатели аплодируют. Если у вас не получилось, ваш учитель смотрит, как вы сжимаете кулак, и проверяет, правильно ли вы это делаете. Если неправильно, учитель вытягивает руку, сжимает кулак правильно и вы можете понаблюдать, как надо делать.
В школах боевых искусств техники владения мускулами вырабатывались и оттачивались поколениями. Передать техники рациональности гораздо сложнее, даже если ученик очень-очень хочет их освоить.
Совсем недавно — меньше полувека назад — люди узнали довольно много нового о человеческой рациональности. Например, экспериментальная психология рассказала об эвристиках и искажениях — наверное, это самое важное знание. Также появилась байесианская систематизация теории вероятностей и статистики, произошли новые открытия в эволюционной и социальной психологии. Мы получили эмпирические данные о человеческой психологии, у нас есть теория вероятностей, чтобы интерпретировать результаты экспериментов, и теория эволюции, чтобы объяснять результаты. Всё это дало нам новые способы заглянуть в наш собственный разум. С помощью этих наук мы теперь способны более чётко разглядеть «мускулы» наших мозгов и «пальцы» наших мыслей. У нас появился общий словарь для описания задач и их решений. Человечество может наконец построить боевое искусство для разума: придумать техники личной рациональности, делиться ими, систематизировать их и передавать следующим поколениям.
Я стал лучше понимать рациональность благодаря своим попыткам решать задачи, связанные с сильным искусственным интеллектом (чтобы по-настоящему построить работающего рационалиста из подручных материалов придётся самому овладеть рациональностью на достаточно высоком уровне). Зачастую задачи, связанные с ИИ, требуют намного большего, чем искусство личной рациональности, но иногда этого может хватить. Чтобы овладеть боевым искусством для разума нам нужно научиться в нужное время нажимать на нужные рычаги в гигантской уже существующей думающей машине, внутренности которой мы не в состоянии изменить. Часть этой машины оптимизирована в результате эволюционного отбора для достижения целей, которые противоречат нашим собственным. Мы объявляем, что нас интересует только правда, но в наши мозги зашит механизм рационализации лжи. То, что мы считаем недостатками машины, мы можем попробовать компенсировать, но мы не в состоянии по-настоящему перестроить наши нервные цепи. Впрочем, мастера боевых искусств тоже не в состоянии заменить свои кости титановыми, во всяком случае, пока.
Попытка создать искусство личной рациональности, опираясь на науку о рациональности, может показаться глупой. Кто-нибудь скажет, что это всё равно что пытаться изобрести боевое искусство на основе теоретической физики, теории игр и анатомии человека.
Однако люди способны к рефлексии. У нас есть природная склонность к интроспекции. Мы в состоянии заглянуть внутрь себя, пусть даже наше внутреннее зрение склонно к систематическим искажениям. Таким образом, нам нужно разобраться, что говорит наука по поводу нашей интуиции, с помощью абстрактных знаний исправить ход наших мыслей и улучшить наши метакогнитивные навыки.
Мы не пишем компьютерную программу, чтобы заставить марионетку показывать приёмы боевых искусств. Мы должны заставить двигаться «конечности» нашего собственного мозга. Для этого нам нужно связать теорию с практикой. Нужно выяснить, как использовать науку для нас самих, для повседневной работы нашего разума.
Знание задним числом это искажение, при котором люди, знающие ответ, значительно переоценивают его предсказуемость или очевидность в сравнении с оценками тех, кто данный ответ заранее не знает. Иногда это искажение называют эффектом «я-знал-это-наперед».
Фишхофф и Бейт [Fischhoff и Beyth, 1975] представили студентам исторические отчеты о малоизвестных событиях, таких, как конфликт между гуркхами и англичанами в 1814 году. Пять групп студентов, получивших эту информацию, были опрошены в отношении того, как бы они оценили степень вероятности каждого из четырех исходов: победа англичан, победа гуркхов, патовая ситуация с мирным соглашением или пат без соглашения. Каждое из этих событий было описано как реальный итог ситуации одной из четырех экспериментальных групп. Пятой, контрольной группе, о реальном исходе не говорили ничего. Каждая экспериментальная группа приписала сообщенному ей итогу гораздо большую вероятность, чем любая другая или контрольная группа.
Эффект знания «задним числом» важен в суде, где судья или присяжные должны определить, виновен ли обвиняемый в преступной халатности, не предвидев опасность. [Sanchiro, 2003]. В эксперименте, основанном на реальном деле, Камин и Рахлинский [Kamin and Rachlinski, 1995] попросили две группы оценить вероятность ущерба от наводнения, причиненного закрытием принадлежащего городу разводного моста. Контрольной группе сообщили только базовую информацию, бывшую известной городу, когда власти решили не нанимать мостового смотрителя. Экспериментальной группе была дана эта же информация плюс сведения о том, что наводнение действительно случилось. Инструкции устанавливают, что город проявляет халатность, если поддающаяся предвидению вероятность наводнения больше 10 процентов. 76 % опрашиваемых из контрольной группы заключили, что наводнение было настолько маловероятным, что никакие предосторожности не были нужны. 57 % экспериментальной группы заключили, что наводнение было настолько вероятно, что неспособность принять меры предосторожности была преступной халатностью. Третьей группе сообщили итог и также ясным образом инструктировали избегать оценки задним числом, что не привело ни к каким результатам: 56 % респондентов этой группы заключили, что город был преступно халатен.
Рассматривая историю сквозь линзы нашего последующего знания, мы сильно недооцениваем затраты на предотвращения катастрофы. Так, в 1986 году космический челнок Челленджер взорвался по причине того, что кольцевой уплотнитель потерял гибкость при низкой температуре [Rogers, 1986]. Были предупреждающие сигналы о проблемах, связанных с кольцевым уплотнителем. Но предотвращение катастрофы Челленджера должно было потребовать не только внимания к проблемам с кольцевым уплотнителем, но и озабоченности каждым аналогичным предупреждающим сигналом, который бы казался столь же серьезным, как проблема уплотнителей, без преимущества последующего знания.
Вскоре после 11 сентября я подумал про себя, что сейчас кто-либо вспомнит про предупреждавшие сигналы разведки или наподобие этого, после чего знание задним числом начнет свою работу. Да, я уверен, что были предупреждения об Аль-Каиде, но вероятно были такие же предупреждения и об активности мафии, незаконной продаже ядерных материалов и вторжении с Марса.
Поскольку мы не видим цену всей картины, мы склонны выучивать только частные уроки. После 11 сентября Федеральное авиационное агенство запретило пользоваться на самолетах ножами для бумаг - словно бы проблема заключалась в том, что была пропущена эта частная «очевидная» мера предосторожности. Мы не выучили главный урок: цена эффективных мер предосторожности крайне высока, поскольку вам нужно стараться понять, что проблемы не так очевидны, какими кажутся прошлые трудности в свете знания задним числом.
Тестирование модели подразумевает под собой рассмотрение, насколько вероятен наблюдаемый исход. Знание задним числом систематически искажает этот тест; мы думаем, что у нашей модели больше вероятность быть истинной, чем на самом деле. И простое знание об этом когнитивном искажении не помогает убрать его влияние. Вам нужно выписывать ваши предсказания заранее. Или как говорит Фишхофф (1982):
Когда мы пытаемся понять прошлые события, мы неявно тестируем гипотезы или правила, которые используем для интерпретации и предсказания мира вокруг нас. Если, в свете знания задним числом, мы систематически недооцениваем сюрпризы, которые прошлое готовило и готовит для нас, мы подвергаем эти гипотезы слишком слабым тестам, и, возможно, не находим достаточно причины менять их.
Я могу понять многих комментирующих в «Пытки против песчинок в глазу»(English), которые утверждают, что предпочтительней песчинки в глазах у 3^^^3 (удивительное большое, но конечное число) людей, чем пятидесятилетняя пытка одного человека. Если вы думаете, что песчинка просто не имеет значения, пока нет других посторонних эффектов — если вы буквально не предпочитаете отсутствие песчинки ее наличию — тогда ваша позиция последовательна. (Хотя я подозреваю, что многие сторонники песчинок выразили бы иное предпочтение, если бы не знали о жале дилеммы.)
Так что хоть я и на стороне тех, кто выбирает ПЫТКУ, но я могу понять и тех, кто выбирает ПЕСЧИНКИ.
Но некоторые из вас говорят, что вопрос бессмысленен; или что вся мораль относительна и субъективна; или что вам нужно больше информации, прежде чем вы можете решить; или вы говорите о других запутывающих аспектах проблемы; и тогда вы не хотите выражать свои предпочтения.
Простите. Не могу поддержать вас в этом.
Если вы на самом деле отвечаете на дилемму, тогда не имеет значения какой выбор вы сделаете, все равно придется от чего-то отказаться. Если вы скажете ПЕСЧИНКИ, вы откажетесь от вашего утверждения на основании определенного вида утилитаризма; вы можете волноваться, что вы недостаточно рациональны, или что другие обвинят вас в приверженности большим числам. Если вы скажете ПЫТКА, вы примете исход, что там есть пытка.
Я фальсифицируемо предсказываю, что большинство тех, кто уходит от ответа, на самом деле уже знают свой ответ — либо ПЫТКА, либо ПЕСЧИНКИ — от высказывания которого они уходят. Возможно просто на долю секунды прежде чем запутывающе-вопросная операция закончится, но я предсказываю, что уход есть. (для большей конкретности: я не предсказываю, что вы знали и выбрали и имели в сознании прямо сейчас некоторый определенный ответ, который осознанно не даете. Я предсказываю, что ваше мышление склонно к определенному неудобному ответу, по крайней мере на долю секунды, прежде чем вы начнете искать причины, чтобы поставить под вопрос саму дилемму.)
В дискуссиях на тему биоэтики, вы очень часто можете видеть экспертов, обсуждающих то, что они видят как за и против, скажем, для исследований по стволовым клеткам; и тогда, в заключение своей речи, они рассудительно объявляют, что срочно требуется больше обсуждений, с участием всех заинтересованных сторон. Если вы на самом деле приходите к некому заключению, если вы на самом деле делаете вывод, что нужно запретить эти исследования, то на вас ополчатся родственники умирающих от болезни Паркинсона. Если вы выскажетесь за продолжение исследований, то на вас обрушится гнев религиозных фундаменталистов. Но кто будет спорить с призывом к дальнейшим обсуждениям?
Не нравится то, к чему ведут свидетельства в споре дарвинистов и креационистов? Рассмотрите вопрос трезво и решите, что нужно больше свидетельств; вы хотите, чтобы археологи нашли еще миллиард окаменелостей, прежде чем вы придете к единому выводу. Таким образом вы никогда не скажете ничего кощунственного, и в то же время не порушите свой образ как рационалиста. Продолжайте делать это во всех вопросах, которые могут выглядеть как ведущие в неудобном направлении, и вы сможете поддерживать в своем сознании всю религию.
Настоящая жизнь часто запутана, и нам приходится выбирать все равно, поскольку отказаться от выбора — это тоже выбор. План ничего не делать — это тоже план. Мы всегда что-то делаем, даже бездействуя. Как сказали Рассел и Норвиг, «Отказываться выбирать это все равно что отказываться, чтобы время шло».
Уворачиваться от неудобных выборов — опасная привычка для сознания. Есть определенные случаи, когда мудро отложить суждение (на час, но не на год). Но когда вы встаете перед дилеммой, где все ответы кажутся неподходящими, это не такой случай! Выберите один из неудобных ответов как наилучший по степени неудобности. Если информации недостает, заполните пробелы правдоподобными предположениями или вероятностными распределениями. Делайте все, что угодно, чтобы превозмочь простой уход в сторону от неудобства. Поскольку при этом вы просто пытаетесь убежать.
Пока вы не выбрали промежуточное лучшее предположение, неудобство будет поглощать ваше внимание, отвлекать вас от поиска, искушать вас запутаться в вопросе всякий раз, когда ваш анализ будет приводить вас к определенному направлению.
В реальной жизни, когда люди уклоняются от неудобных выборов, они часто вредят другим точно так же, как и себе. Отказаться от выбора очень часто наихудший выбор, который вы можете сделать. Предвзятое продолжение — это не привычка мышления которую кто-либо может себе позволить, независимо от того, эгоист это или же альтруист. Цена удобства слишком велика. Важно овладеть привычкой стискивать зубы и выбирать — так же важно как впоследствии искать лучшие альтернативы.
«Утопия? Вот это? Надо же…
По-моему, на Ад походит больше».
сэр Макс Бирбом, стихотворение, названное
«Надпись на экземпляре Утопии Мора (или Шоу, или Уэллса, или Платона, или кого угодно другого)»
Это краткое изложение цепочки «Теория удовольствия». Оно состоит из советов для авторов или футурологов, желающих описать мир, в котором людям действительно хотелось бы жить. Вся теория осталась «за кадром».
Подумайте о типичном дне человека, который живёт в Утопии уже не первый день. Не зацикливайтесь на первых мгновениях «о-я-услышал-хорошую-новость». Усталый, измученный бедностью крестьянин обрадуется, услышав в раю, что «тебе больше не нужно работать, а улицы вымощены золотыми плитками!», но, скорее всего, спустя пару месяцев он уже будет не настолько счастлив от этого. (Prolegomena to a Theory of Fun1.)
Хорошо подумайте перед тем, как внедрять в вашу Утопию какие-то занятия, которые вы считаете обязательными, хотя они не являются приятными. Взгляните на тот же христианский рай: пение гимнов не выглядит сверхудовольствием, но раз молитвой положено наслаждаться, никто не заостряет на этом внимание. (Prolegomena to a Theory of Fun.)
Упрощение компьютерной игры не всегда её улучшает. То же самое верно и для жизни. Думайте не о полном уничтожении работы, а о том, как избавить людей от «низкокачественной» рутины, чтобы они могли заниматься «высококачественными» сложными делами. (High Challenge.)
В жизни нужны новые ощущения и опыт, и лучше, чтобы он учил чему-то новому. Если новый опыт поступает слишком медленно (по сравнению со скоростью его усвоения и обобщения), будет скучно. (Complex Novelty.)
Люди должны умнеть со скоростью, достаточной для интеграции старого опыта. Но они не должны умнеть настолько быстро, что им некуда будет применить свой новый интеллект. Чем умнее человек, тем быстрее ему становится скучно, но умный человек может решать задачи, которых раньше просто не понимал. (Complex Novelty.)
Люди должны жить в мире, в котором их чувства, тела и мозги используются на полную катушку. Либо мир должен больше напоминать первобытную саванну, чем, скажем, офис без окон, либо мозги и тела должны быть модифицированы, чтобы различные разновидности сложных задач и окружений задействовали их полностью. (Для развлекательной фантастики предпочтителен первый вариант.) (Sensual Experience.)
Тимоти Феррисс писал: «Что противоположно счастью – горе? Нет. Любовь и ненависть – две стороны одной и той же монеты, то же самое справедливо для счастья и горя… Антитеза любви – безразличие, противоположность счастья – скука, в том-то и вся загвоздка… Следует задаваться не вопросами „Чего я хочу?“ или „В чем заключается моя цель“, а вопросом „Что по-настоящему увлекает меня?“… „Жить как миллионер“ – значит заниматься интересными делами, а не просто владеть имуществом, вызывающим зависть».2 (Existential Angst Factory.)
Жизнь каждого человека должна становиться всё лучше и лучше. (Continuous Improvement.)
Вам не надо точно знать, что именно станет лучше в будущем, но вы должны постоянно пытаться это предсказать. В итоге будущее должно оказаться приятным сюрпризом. (Justified Expectation of Pleasant Surprises.)
Наши предки, охотники и собиратели, сами мастерили свои луки, плели свои корзины и строгали свои флейты. Затем они самостоятельно охотились, собирали и играли свою музыку. В Утопиях будущего часто изображается всё больше и больше удобных кнопок, но что именно они делают — понятно всё меньше и меньше. Не спрашивайте о том, что Утопия может сделать для людей. Подумайте лучше, чем интересным могут заниматься её жители — используя свой мозг, своё тело и понятные им инструменты. (Living By Your Own Strength.)
Живя в Эутопии3, люди должны становиться сильнее, а не слабее. Её обитатели должны впечатлять больше, чем обитатели нашего мира, а не наоборот. (Living By Your Own Strength. Также см. Цуёку наритаи.)
Жизнь не должна дробиться на серию несвязанных между собой эпизодов, не имеющих долгосрочных последствий. Нельзя построить жизнь, играя в самые лучшие компьютерные игры, и неважно, насколько эти игры сложны и реалистичны. (Emotional Involvement.)
Люди должны сами вершить свою судьбу. В их жизни всегда должно оставаться место их планам, воображению и возможности управлять своим будущим. Нельзя делать граждан пешками в руках могучих богов, и тем более — их материалом для лепки. Есть простой способ решить эту проблему: мир должен работать по стабильным правилам, которые для всех одинаковы, и Эутопия должна держаться на хорошем выборе начальных правил, а не на каком бы то ни было оптимизационном давлении на жизни людей. (Free to Optimize.)
Человеческие разумы не должны играть на одном поле со значительно превосходящими их сущностями. Большинство людей не любит быть в тени. При взаимодействии с богами человек теряет статус «главного персонажа». Это нежелательно в фантастике, а возможно, и в реальной жизни. (См. “Нарния” К.С. Льюиса, “Культура” Иэна Бэнкса). Либо измените эмоциональную организацию людей так, чтобы они не чувствовали себя ненужными, либо не допускайте богов на их игровое поле. Художественное произведение, предназначенное для людей, не может использовать первый путь. (И в реальной жизни, вероятно, могут быть ИИ, не относящиеся ни к разумным, ни к мешающим. См. основной пост и предшествующее ему.) (Amputation of Destiny.)
Также сложно придумать, как человек может соревноваться на одном поле с ещё шестью миллиардами других людей. Наши первобытные предки жили в группах примерно по 50 человек. Сегодня же СМИ постоянно бомбардируют нас новостями о необычайно богатых и милых людях, и возникает ощущение, будто они живут по соседству. Однако очень немногие люди имеют шанс стать лучшими в чём бы то ни было. (Dunbar’s Function.)
Наши первобытные предки в какой-то степени могли по-настоящему влиять на политику своего племени. Сравните с современным миром национальных государств, в котором почти никто не знает Президента лично и не может убедить Конгресс в том, что он принял плохое решение. (Впрочем, это не мешает людям спорить так, будто они всё ещё живут в племени из полусотни человек.) (Dunbar’s Function.)
Слишком большой выбор не всегда оказывается благом (особенно, если люди не в состоянии получить предлагаемые возможности самостоятельно). Боль от потери сильнее, чем удовольствие от эквивалентного приобретения, и потому, если варианты выбора различаются по многим параметрам, а доступен только один вариант, люди будут фокусироваться на потере невыбранного. Если у людей есть способ избежать неких трудностей, то трудности кажутся менее серьёзными, даже если человек не пользуется этим способом. Также, к сожалению, люди предсказуемо совершают определённые ошибки. Не стоит думать, что больше вариантов — это всегда лучше, потому что «люди всегда могут просто сказать „нет“ ». Больше вариантов выбора обнадёжит лишь читателя художественной книги. «Не волнуйся, ты сделаешь выбор! Ты же доверяешь себе?» Однако жить в условиях большого выбора не всегда настолько забавно. (Harmful Options.)
Экстремальный пример для предыдущего пункта: постоянное искушение невероятно опасными соблазнами, вроде абсолютно реалистичного виртуального мир, или наркотик, дарующий невероятно приятные ощущения и вызывающий сильнейшую зависимость. Вы не сможете позволить себе ни минуты слабости. (См. трилогию Джона Райт «Золотой век»). (Devil’s Offers.)
Однако, если люди развиты настолько, что способны отстрелить себе ноги без посторонней помощи, останавливать их — это чересчур. Можно лишь надеяться, что он достаточно умны, чтобы это не делать, ведь к тому времени, когда они создают пистолет, они уже знают, что происходит при нажатии на курок, и им не нужно удушающее «защитное одеяло». Если это верно, то опасные возможности должны быть ограждены преградами соответствующей «высоты». (Devil’s Offers.)
Если сказать людям правду, до которой они пока не дошли самостоятельно, это не всегда им поможет. (Joy in Discovery.)
Мозг — одна из сложнейших штук во вселенной. Поэтому нам редко приходится взаимодействовать с чем-то сложнее, чем другие люди (другие разумы). И это взаимодействие уникально из-за эмпатии, которую мы испытываем друг к другу: наш мозг считает другие мозги чем-то похожим на себя, а не воспринимает их как большие и сложные машины, у которых нужно дёргать рычажки. Если людям нужно будет меньше взаимодействовать с другими людьми, сложность человеческого существования понизится. Это шаг в неверном направлении. Поэтому не стоит поддаваться искушению упростить жизнь людей, например, дав им идеальных искусственных сексуальных/романтических партнёров. (Interpersonal Entanglement.)
Однако следует признать, что статистически у людей есть проблемы с сексуальными взаимодействиями: распределение мужских характеристик не соответствуют распределению женских желаний и наоборот. Не всё в Эутопии должно быть просто, однако в ней не должно быть ничего бессмысленного и не должно быть разочарований, с которыми ничего нельзя поделать. (Это общий принцип.) Поэтому лучше подумать, как можно повлиять на распределения, чтобы задача оказалась разрешима, а не решать её взмахом волшебной палочки. (Interpersonal Entanglement.)
Вообще, менять мозги, разумы, эмоции и личные качества гораздо опаснее (и с точки зрения этики, и с точки зрения сложности), чем менять тела и условия обитания. Всегда стоит подумать, что вы можете сделать с окружающей средой, перед тем как придумывать изменения в сознании, а если уж решили заняться сознанием, начинайте с маленьких изменений. В противном случае за полётом вашей мысли не успеют не только ваши читатели, но и ваше собственное воображение. (Changing Emotions.)
В нашем мире наслаждение и боль не сбалансированы. Неопытный палач с простыми инструментами за тридцать секунд причинит больше боли, чем сверхискушенный секс-мастер сможет доставить удовольствия за тридцать минут. Один из вариантов — устранить этот дисбаланс: пусть в мире будет больше радости, чем печали. Боль допустима, но только не бесцельная бесконечная невыносимая боль. Наказание должно быть пропорционально ошибке: человек может коснуться горячей плиты и получить болезненный ожог, но он не должен оказываться в инвалидном кресле из-за того, что отвлёкся на пару секунд. Люди становятся сильнее и меньше мучаются. Также в этом варианте следует устранить боль, убивающую разум, и сделать удовольствия более доступными. Другой вариант — полное устранение боли. Возможно, с точки зрения реального мира у него есть серьёзные преимущества, но в художественной литературе его выбирать нельзя ни в коем случае. (Serious Stories.)
Джордж Оруэлл однажды заметил, что Утопии крайне озабочены тем, как бы избежать беспокойства. Не бойтесь написать громкую Эутопию, которая разбудит ваших соседей. (Eutopia is Scary, Джордж Оруэлл, «Почему социалисты не верят в счастье».)
Джордж Оруэлл также заметил, что «Жители идеальных вселенных не способны на спонтанное веселье и обычно отвратительно торгуются». Если в вашей истории персонажи ведут себя именно так, возможно, вы упустили что-то серьёзное и ситуацию нельзя исправить, обязав Государство нанять несколько клоунов. (Джордж Оруэлл, «Почему социалисты не верят в счастье».)
Если бы Бен Франклин попал в наше время, чему-то он бы удивился и обрадовался. Что-то наоборот показалось бы ему ужасающим и отвратительным, и не потому что наш мир развивался как-то неправильно, а потому что наш мир стал лучше по сравнению с эпохой Франклина. Очень мало вещей оказались бы именно такими, как он ожидал. Если вы воображаете мир, который кажется вам знакомым и комфортным, он мало кого вдохновит. Этот мир будет казаться ненастоящим. Попробуйте изобрести по-настоящему лучший мир, который шокировал бы вас (по крайней мере, поначалу), и в котором бы вы чувствовали себя не в своей тарелке (по крайней мере, поначалу). (Eutopia is Scary.)
Утопия и антиутопия — две стороны одной медали: обе подтверждают ваши исходные моральные убеждения. Неважно, либертарианская это утопия с невмешивающимся правительством, или адская антиутопия, в которой государство вторгается во всё, вы скажете: «Я всегда был прав.» Не стоит придумывать мир, который будет соответствовать вашим текущим идеалам государства, отношений, политики, работы или повседневной жизни. Не надо плыть ни по течению, ни против, создайте что-нибудь ещё. (Чтобы обезопасить свои идеалы, скажите себе: «Наверняка это хороший мир, но он не лучше моей любимой стандартной Утопии…». Однако, если ваши идеалы начнут меняться, вы поймёте, что всё сделали правильно.) (Building Weirdtopia.)
Если ваша Утопия оказалась мрачным местом, задыхающимся под тяжестью экзистенциальной тоски, и у вас ничего не получается с этим поделать, значит, есть как минимум одна серьёзная проблема, на которую вы совсем не обратили внимания. (Existential Angst Factory.)
Жалок тот разум, который заботится лишь о себе и ни о чём другом. В нашем мире, чтобы заметить множество людей, находящихся в отчаянном положении, альтруисту стоит лишь оглянуться. У людей в лучшем мире картина иная: в настоящей Эутопии не так легко найти жертв, которых нужно спасать. Из этого не следует, что жители Эутопии оглянувшись вокруг, ничего не увидят: они смогут заботиться о друзьях и семье, правде и свободе, совместных проектах, а также других разумах, общих целях и высоких идеалах. (Higher Purpose.)
В то же время, не стоит для своей истории об Эутопии использовать удобный сюжет «Тёмный Лорд Саурон собирается напасть и всех убить». Потенциальный автор обязан придумать какие-то чуть менее ужасные вызовы для своих персонажей. Ведь прогресс человечества не мешает рассказывать истории об отдельных людях, и люди могут интересно жить даже в отсутствие неминуемой угрозы смерти. Показать это — интересная и сложная задача. Тем же, кому интересны катастрофы планетарного масштаба, стоит сосредоточиться на наших современных реалиях. (Higher Purpose.)
Найти решение, которое удовлетворит всем вышеизложенным условиям, — упражнение для читателя. По крайней мере, пока.
Упоминание в данном списке определённых законов не должно быть истолковано как отрицание или принижение неупомянутых. Например, я не написал о юморе, но мир без смеха был бы тосклив, и т.д.
Каждому, кто всерьёз хочет написать Эутопию с применением этих законов, я хочу сказать: сначала научитесь писать. Существует очень много книг о том, как писать. Вам нужно прочесть минимум три. В любой из них будет упомянуто о важности практики. Тренироваться лучше на чём-нибудь полегче, чем Эутопия. Тем не менее, мой второй совет авторам таков: вашим персонажам никогда не будет скучно и просто, пока они могут создавать друг другу трудности.
И напоследок хочу предупредить: детальная проработка мира, который лучше, чем ваша жизнь, может высосать вашу душу как дементор. Теория Удовольствий опасна. Применяйте её осторожно, вас предупредили.
Время от времени нам задают вопросы из серии «Какая польза от того, чтобы постоянно быть недовольным по поводу того, что Бога нет?». С другой стороны, мы слышим такие фразы, как «Младенцы — атеисты от природы». Мне кажется, что такие замечания и довольно глупые дискуссии, которые вокруг них разгораются, показывают, что понятие «атеизм» на самом деле состоит из двух отдельных компонентов. Назовём их «не-теизм» и «анти-теизм».
Чистый «не-теист» — это человек, выросший в обществе, в котором понятие «Бог» просто никогда не было изобретено — письменность в этом обществе изобрели раньше сельского хозяйства, и одомашивание растений и животных было делом рук ранних учёных. В таком мире суеверие добралось только до первобытного этапа, на котором мир кажется наполненным множеством духов, почти не имеющих собственной морали. Затем суеверие вступило в конфликт с наукой и сошло на нет.
Суеверия первобытных охотников и собирателей не очень похожи на то, что мы обычно понимаем под «религией». Ранние западные комментаторы часто высмеивали их, утверждая, что они и вовсе религией не являются; эти комментаторы, на мой взгляд, были правы. У охотников и собирателей сверхъестественные агенты не имеют никакой особенной моральной грани, и не следят за соблюдением каких-то правил. Их можно умилостивить церемониями, но им не поклоняются. И, что самое главное, охотники и собиратели ещё не успели расщепить свою эпистемологию. У первобытных культур нет специальных правил для рассуждений о «сверхъестественных» сущностях, или даже явного разграничения между сверхъестественным и естественным; духи грома просто существуют в рамках естественного мира, о чём свидетельствует молния, и наш ритуальный танец вызова дождя призван управлять ими. Это, наверно, не идеальный танец вызова дождя, но это лучший из всех, что пока придумали — был ещё тот знаменитый случай, когда он сработал…
Если бы вы показали первобытным людям ритуал для вызова дождя, который работал бы со стопроцентной гарантией посредством взывания к другому духу (или завод по опреснению воды, что в принципе одно и то же), они, скорее всего, быстро избавились бы от старого. У них нет специальных правил для рассуждения (English) о духах — ничего, что могло бы оправдать результат теста имени пророка Илии, который прошёл новый ритуал и не прошёл старый. Для отрицания этого теста нужна вера, религиозные убеждения — а это концепция, возникшая уже после аграрного периода. Перед этим не было государств, в которых священнослужители были ветвью власти, боги не являлись моральным стандартом и не следили за соблюдением установленных вождями правил, и за сомнения в них и их существовании не было специального наказания.
И поэтому цивилизация не-теистов, изобретя науку, просто самым обычным образом делает вывод, что дождь, оказывается, вызван конденсацией в облаках, а не духами. Они ощущает некоторую неловкость по поводу старого суеверия и без промедления выбрасывают его прочь. Они не испытывают никаких трудностей, потому что у них есть лишь суеверия, они ещё не успели добраться до анти-эпистемологии (English) (дополнительных правил мышления в определённых категориях, обычно для защиты существующих убеждений от опровержения).
Не-теисты не знают, что они «атеисты», потому что им никто не рассказал, во что они должны не верить — никто не изобрел «высшего бога», который был бы главным в пантеоне, не говоря уже о монолатрии или монотеизме.
Тем не менее, не-теисты уже знают, что они не верят в существование духов деревьев. Мы можем даже предположить, что они не только не верят в лесных духов, но и в целом имеют хорошую, развитую эпистемологию, и поэтому понимают, что постулировать онтологически базовые ментальные сущности (сущности, которые нельзя редукционистски свести к не-ментальным сущностям, таким, как атомы) — не очень хорошая идея.
Как не-теисты встретят идею Бога?
— Вселенная была создана Богом.
— Кем?
— Э-э, гм, Богом. Бог есть Творец — разум, который решил создать вселенную, и…
— А, так вы утверждаете, что вселенная была создана разумным агентом. Похоже, вы говорите о стандартной гипотезе о том, что мы живём в компьютерной симуляции. Вы, кажется, весьма уверены в этом — у вас что, есть какие-то сильные свидетельства?..
— Нет, я не имею ввиду Матрицу! Бог — это не житель другой Вселенной, запустивший симулятор этой, он просто… Его невозможно описать. Он есть Первопричина, Творец всего, и…
— Кажется, вы постулируете онтологически базовую мыслящую сущность. К тому же, то, что вы предложили — это просто таинственный ответ на таинственный вопрос. Вообще, откуда вы всё это взяли? Не могли бы вы начать рассказ со своих свидетельств — какие новые наблюдения Вы пытаетесь объяснить?
— Мне не нужно никаких свидетельств, у меня есть Вера!
— У вас есть что?
И в этот самый момент не-теисты впервые стали атеистами. То, благодаря чему произошла эта трансформация и есть приобретение анти-теизма — формулирование явных аргументов против теизма. Если вы ни разу не слышали о Боге, вы можете быть не-теистом, но не анти-теистом.
Конечно же, не-теисты не собираются изобретать какие-то новые правила для опровержения Бога — они просто применяют стандартные эпистемологические принципы, которые были разработаны их цивилизацией в процессе отказа от других теорий и концепций — таких, скажем, как витализм. Рационалисты утверждают, что именно так и должен выглядеть анти-теизм в нашем мире: анализ религии при помощи стандартных, общих правил. Этот анализ, как становится ясно достаточно скоро, приводит к её полному отбрасыванию — как с точки зрения познания мира, так и с точки зрения морали. Каждый анти-теистический аргумент должен быть частным случаем общего правила эпистемологии или морали, применимого и вне религии — к примеру, в столкновении науки и витализма.
Если принять во внимание различие между не-теизмом и анти-теизмом, то многие современные споры становятся более понятными — например, вопрос «Зачем придавать столько значения тому, что Бога не существует?» можно перефразировать в «Какова польза обществу от попыток распространения анти-теизма?» Или вопрос «Какой толк от того, чтобы быть просто против чего-то? Где ваша позитивная программа?» превращается в «Меньше анти-теизма и больше не-теизма!». И становится понятно, почему фраза «дети рождаются атеистами» звучит странновато — просто дети не имеют понятия об анти-теизме.
Теперь что касается утверждения о том, что религия совместима с разумным познанием: найдётся ли хоть одно религиозное утверждение, которое не будет отвергнуто хорошо развитой, продвинутой цивилизацией не-теистов? Не будет отвергнуто в ситуации, когда ни у кого нет причин быть осторожным с выводами, нет специальных правил, выделяющих религию в отдельный магистерий, и нет последователей существующих традиционных религий, которых не хотелось бы расстраивать?
Борьба против богизма не имеет никакой самостоятельной ценности — общество не-теистов забудет об этом споре на следующий же день.
Но, по крайней мере, в нашем мире безумие — это не очень хорошо, и здравомыслие стоит защищать, и поэтому открытый анти-теизм (такой как, например, у Ричарда Докинза) приносит пользу обществу — разумеется, при условии того, что он действительно работает (вполне возможно, так и есть: в новом поколении всё больше и больше атеистов).
Тем не менее, цель в долгосрочной перспективе — это не общество атеистов. Это общество не-теистов, в котором на вопрос «Если Бога нет, то что же остается?» люди с недоумением отвечают «А разве чего-то не хватает?».
В «Трех школьных вещах, от которых нужно отучиться» (English) Бен Касноча ссылается на список из трех вредных привычек мышления, составленный Биллом Буллардом: считать важными частные мнения, решать выданные задачи, зарабатывать одобрение других. Альтернативы, предлагаемые Буллардом, не кажутся мне хорошими, однако он уверенно выделил некоторые важные проблемы.
Я могу назвать многие другие вредные привычки мышления, привитые школой (и их будет слишком много, чтобы озвучить здесь), но ограничусь двумя из наиболее нелюбимых.
I. Полагаю, что самая опасная привычка мышления, которую прививает школа, заключается в том, что вы, даже не понимая чего-то, можете просто воспроизвести это, как попугай. Один из базовых навыков, полезных в жизни, — уметь осознать свое замешательство, и школа активно сводит эту способность на нет, приучая школьников думать, что они «понимают», если они в состоянии успешно ответить на аттестационные вопросы, что крайне, невероятно далеко от полноценного усвоения знаний, когда они становятся частью вас. Ученики привыкают, что «питание» означает «класть еду в рот»; экзамен не требует разжевывать ее или проглатывать, и они остаются голодными.
Основной причиной этой проблемы может быть необходимость параллельно изучать несколько предметов (каждый из них, разумеется, требует прочитывать большие объемы текстов и выполнять немалое количество домашних работ); расписание запланировано под неистовую зубрежку, за это время невозможно глубоко разжевать и неторопливо переварить знания. Ученикам колледжей не позволяется быть озадаченными; если кто-то из них решит сказать «Постойте, а понимаю ли я это на самом деле? Может, лучше будет, если я проведу несколько дней, читая статьи на эту тему, или обращусь к другому учебнику», он провалится на всех курсах, которые взял на четверть. Через месяц он смог бы понять материал куда лучше и запомнить надолго, но месяц после экзаменов — слишком поздно; в безумной функции полезности, принятой в университетах, это пустой звук.
Многие учащиеся, прошедшие через этот процесс, после этого даже не осознают, если что-то озадачивает их, и не замечают белых пятен в своем мышлении. Их отучили брать паузу на размышление.
II. Я где-то читал (не помню, где именно), что в некой стране физики, казалось, всё больше становились похожими на фанатичных религиозных экстремистов. Это озадачивало меня, пока автор не предположил, что студенты-физики воспринимают услышанные знания как твёрдую истину и таким образом усваивают привычку доверять авторитету.
Выдавать людям авторитетные знания в огромных объемах может быть опасно, особенно если эти знания верны. Это может навредить критическому мышлению.
Но как же нужно поступать? Рассказывать учащимся историю физики, как одни идеи, в свою очередь, сменялись другими, верными? «Вот старая идея, вот новая, вот эксперимент: новая идея победила!» Повторите этот урок десять раз, и какой навык мышления вы привьете? «Новые идеи всегда выигрывают; каждая новая мысль в физике оказывается верной». Так вы по-прежнему не научите никого критическому мышлению, потому что только покажете, как выглядит история задним числом. Вы привьете студентам мысль, что различать справедливые и ложные идеи — это совершенно прозрачно и прямолинейно, и даже если нет ничего, что подтвердило бы новую блестящую мысль, она, похоже, верна.
Не исключено, что возможно преподавать историю физики с исторически реалистичной точки зрения (не опираясь на ретроспективный взгляд) и показывать студентам различные альтернативы, казавшиеся вероятными в свое время, воспроизводя имевшие тогда место разногласия и дискуссии.
Возможно, вы смогли бы избежать подачи знаний студентам на блюдечке с голубой каемочкой: покажите им различные версии уравнений (выглядящие похожими на правду!) и попросите объяснить, какие из них справедливы, или разработать эксперименты, которые смогут различить альтернативы. Это не настолько затруднительно, как если бы мы требовали замечать необычное без подсказок и изобретать объяснения с нуля, но этот способ был бы громадным улучшением по сравнению с тем, чтобы просто запоминать авторитетные знания.
Пожалуй, вы смогли бы выработать привычку думать так: «Мысли, изложенные в авторитетных источниках, зачастую несовершенны, но необходимо приложить огромные усилия, чтобы найти идею лучше. Большинство возможных изменений привело бы к худшему, хотя каждое улучшение — это обязательно изменение».
Есть целый литературный жанр, предлагающий продать вам секретный ингредиент успеха Билла Гейтса или Уоррена Баффета, создателя сверхуспешной холдинговой компании Berkshire Hathaway. Основная идея: вы, да-да, именно вы можете стать следующим Ларри Пейджем.
Но скорее всего даже Уоррен Баффет не сможет сделать из вас следующего Уоррена Баффета. Настолько невероятный успех потому и называется невероятным, что никто ещё не догадался, как достичь его наверняка.
Эти книги в большинстве своём – пустая трата надежды. Они скармливают нам исступление от близкой, но недостижимой возможности славы; поэтому я называю их «порнографией превосходства», с поджанрами вроде «порнографии инвестирования» или «порнографии бизнеса», рассказывающими, как любой бариста может основать следующий Старбакс, а любой экономист - попасть в список Fortune 500. Называть эти произведения «порнографией превосходства», наверное, нехорошо по отношению к настоящей порнографии, которая, по крайней мере, явная фикция.
В нашем мире есть невероятно мощные техники, которые наша цивилизация научилась преподавать, техники наподобие «проверяй идеи экспериментом» или «используй капитал, чтобы добыть больше капитала». Вы, да-да, именно вы, можете стать учёным! Может, не совсем каждый, но достаточно людей могут стать учёными, используя выучиваемые техники и передаваемое знание, чтобы поддержать нашу техногенную цивилизацию.
«Вы можете заново инвестировать выручку от предыдущих инвестиций!» Может, вы и не взорвёте рынок, как Уоррен Баффет, но подумайте о цивилизации в целом, практикующей это правило. Мы справляемся намного лучше, чем это делали древние общества без банков и бирж. (Нет, серьёзно, в целом мы до сих пор лучше.) Потому что приём Реинвестирования может быть передан, может быть записан словами, может работать даже для обычных людей без экстраординарной удачи… мы не считаем его невероятным триумфом. Каждый может его применить, значит, наверное, не так уж он и важен (English).
Уоррен Баффет сумел заставить многих людей ценить инвестирование. Он выдал череду советов, и действенных советов притом, исходя из тех, что я читал. По крайней мере, у меня сложилось впечатление, что если бы он знал, как рассказать, что осталось, он бы попросту рассказал.
Но Berkshire Hathaway и Баффет лично до сих пор тратят огромное количество времени, высматривая выдающихся менеджеров. Зачем? Потому что они не знают никакого систематически надёжного способа брать смышлёных детей и превращать их в обитателей Fortune 500.
Есть вещи, которым можно научиться у звёзд. Но вы не можете ожидать так просто поглотить всю их душу; последние кусочки экстраординарности будут самыми сложными. В лучшем случае, вы выучите несколько полезных трюков, которые также могут выучить немало других людей, но так и не подберётесь к желаемому статусу звезды. Если, конечно, у вас самих нет правильного набора генов, годов усилий, вложенных в тренировки, гор удачи на всём пути, и т.д., и т.п.; идея в том, что вам не добраться туда, читая порнографию.
(Если кто-то и в самом деле изобретёт новый выучиваемый суперприём, способный двинуть нашу цивилизацию далеко вперёд, то уже к тому моменту, как вы его закончите учить, появятся сотни других звёзд, применяющих этот трюк!)
Есть много уроков, которые можно извлечь отсюда, но один из главных - история учит не тому, как побеждать, а тому, как не проигрывать (English).
Намного легче избегать повторения легендарных провалов, чем повторять легендарные успехи. Также ошибки намного легче обобщать между областями. Предполагаемые инструкции «как стать звездой» крайне конкретные (Баффет != Эйнштейн), тогда как уроки «как не быть идиотом» в разных профессиях имеют много общего.
Кен Лэй, может научить, как не погубить ещё один Enron, намного надёжнее, чем Уоррен Баффет – как основать ещё один Berkshire Hathaway. Кейси Серин может научить, как терять надежду, лорд Кельвин - как не поклоняться своему невежеству…
Но такие уроки не сделают из вас звезды. Они могут предотвратить вашу жизнь от несчастий, но это не то же самое, что великие победы. Ещё хуже, эти уроки могут показать, что вы делаете что-то не так, что вы, да-да, именно вы вот-вот пополните списки дураков.
Намного легче продавать порнографию превосходства.
Взглянем на последовательность {1, 4, 9, 16, 25, …}. Можно заметить, что это квадраты: A[k] = k^2. Предположим, однако, что вы не увидели закономерности с первого взгляда. Есть ли способ предсказать следующий элемент последовательности? Да, можно найти разности между соседними элементами (разности первого порядка) и получить следующе:
{4 – 1, 9 – 4, 16 – 9, 25 – 16, …} = {3, 5, 7, 9, …}
Даже если вы не заметили, что это последовательные нечётные числа, сдаваться пока рано. Если вы найдете разности соседних чисел ещё раз (назовем это разностями второго порядка), то у вас получится следующее:
{5 – 3, 7 – 5, 9 – 7, …} = {2, 2, 2, …}
Если вы не сможете увидеть, что это повторяющаяся двойка, то в этом случае вы действительно безнадежны.
Но если вы предскажете, что и следующая разность второго порядка — это тоже 2, то это позволит предположить, что следующая разность первого порядка — 11, а следующий элемент исходной последовательности должен равняться 36. И это, как вы вскоре убедитесь, верно.
Копнув достаточно глубоко, можно обнаружить скрытую закономерность, внутреннюю структуру, устойчивые соотношения под переменчивой поверхностью.
Исходная последовательность была получена возведением в квадрат идущих друг за другом чисел. Однако нам удалось продолжить её, используя, казалось бы, совершенно другой подход — такой, который мы, в принципе, могли бы применить, даже не осознавая, что получаем квадраты. Можете ли вы доказать, что эти способы всегда равносильны? (Ведь до сих пор, как вы заметили, мы этого не доказывали, а только предполагали по индукции.) Можете ли вы, как любил спрашивать Пойя, упростить доказательство так, чтобы оно было ясным с первого взгляда?
По современным стандартам это очень простой пример, но это пример такой вещи, в поисках которой математики порой тратят целые жизни.
Радость математики заключается в том, что мы изобретаем некоторые объекты, а затем обнаруживаем, что они обладают всевозможными удивительными свойствами, которые мы не намеревались им прививать. Это как сконструировать тостер и увидеть, что ваше изобретение по какой-то неясной причине работает ещё и как реактивный ранец и mp3-плеер.
Числа открывали и переоткрывали множество раз на протяжении истории человечества. (Похоже, что на некоторых артефактах, датируемых 30000 г. до н.э., действительно находятся насечки, подозрительно напоминающие счетные.) Но я сомневаюсь, что кто-нибудь из людей, придумавших счёт, представлял себе, какой работой он обеспечит будущие поколения математиков. Или то возбуждение, которое однажды будет окружать Великую теорему Ферма или проблему факторизации в RSA-криптографии… И тем не менее всё это неявно уже содержится в определении натуральных чисел, как разности первого и второго порядка — в последовательности квадратов.
Именно это создает впечатление математической вселенной, существующей «где-то там», в платоновском Идеальном, которое люди скорее изучают, нежели создают. Наши определения переносят нас в различные участки Идеального, но мы не создаем там ничего самостоятельно. Так кажется, как минимум, потому, что мы не помним создания всех тех замечательных вещей, которые мы открыли. Первооткрыватели натуральных чисел отправились в Страну счёта, но не создали её, а последующие математики потратили столетия, изучая эту Страну и обнаруживая в ней всевозможные вещи, которые никто не мог даже попытаться себе представить в 30 000 г. до Р. Х.
Сказать, что люди «изобрели числа» (или неявную сущность, скрытую в числах) — всё равно, что заявить, будто Нил Армстронг своими руками слепил Луну. Вселенная существовала до того, как появились разумные существа, её изучающие, и это подразумевает, что физика предшествовала физикам. Это головоломка, я знаю; но если вы заявите, что физики были первыми, то все станет еще запутаннее, ведь возникновение физика требует, хм, достаточно много физики. Физика опирается на математику, так что последняя (или хотя бы та её часть, которая используется физикой) должна предшествовать математикам. Иначе не было бы структурированной вселенной, существующей достаточно долго, чтобы за миллиарды лет организмы, не знающие даже сложения, смогли эволюционировать в математиков.
Удивительно, что математика — это игра без разработчика, и, тем не менее, в неё в полной мере можно играть.
О, а вот и доказательство, что закономерность, которую мы обсуждали выше, верна:
(k + 1)^2 = k^2 + (2k + 1)
Или, более наглядно:
Думаете, задача квадратов настолько тривиальна, что не заслуживает вашего внимания? Думаете, что нет ничего удивительного в разностях первого и второго порядка? Думаете, они так очевидно подразумеваются в квадратах, что не могут считаться отдельным открытием? Тогда рассмотрите кубы:
1, 8, 27, 64…
А теперь — без прямых вычислений и каких-либо математических действий — можете ли вы с первого же взгляда сказать, какой будет разность третьего порядка?
И, конечно, когда вы узнаете, какова у последовательности кубов разность третьго порядка, вы осознаете, что по-другому и быть не могло.
Основная причина гибели хороших интернет-сообществ — отказ от самозащиты.
Где-нибудь в необъятных недрах интернета это происходит прямо сейчас. Когда-то на этом месте был чистый ухоженный сад для интеллектуальных бесед, куда приходили образованные и заинтересованные люди, привлечённые высоким уровнем доносящихся оттуда речей. Но вот в сад прибывает глупец и уровень бесед чуточку падает — или даже не на чуточку, если глупец вмешивается в разговоры с упорством, достойным лучшего применения. (Плохо дело, если глупец изъясняется достаточно внятно — тогда завсегдатаи сада считают себя обязанными ответить, рассеять его заблуждения. И с этого момента глупец безраздельно властвует беседой.)
Сад гниёт и теперь присоединение к его участникам доставляет не так много удовольствия. Он всё ещё полон обитателей, когда-то вложивших усилия в становление сада, но новые люди уже не так охотно приходят сюда. Качество вновь прибывших (если таковые и есть) тоже снижается.
Затем приходит ещё один глупец, и два глупца начинают общаться уже друг с другом, после чего часть старожилов — людей самых высоких требований и с самыми радужными перспективами — уходят…
Я успел застать ныне забытый USENET1, хоть я и был тогда очень молод. Тот пре-интернет пал жертвой Вечного Сентября2 в незапамятные времена. В отличие от тех времён, в современном интернете всегда имеется хоть какой-нибудь способ бороться с нежелательным контентом. В первую очередь дело в спаме — преступлении столь тяжком, что у него не найдётся защитников, и столь распространённом, что никто не может его просто игнорировать — везде просто обязан быть банхаммер3.
Однако, когда дело касается вторжения глупцов, то некоторые сообщества не считают себя способными опуститься до использования банхаммера — ведь это цензура(ужас!).
В конце концов, любой воспитанник мира академической науки в курсе, что цензура считается смертным грехом… внутри огороженных неприступной стеной садов, вход в которые стоит огромных денег, где студенты в страхе ждут оценок от своих преподавателей, а заглянувшим в кабинет уборщицам не позволено открывать рта во время идущего семинара.
Как же легко наивно возмущаться ужасами цензуры, уже живя в холёном саду. Точно также легко наивно восхищаться добродетелью безусловного ненасильственного пацифизма, когда на страже границ твоей страны уже стоят вооружённые солдаты, а покой твоего города охраняет полиция. До тех пор, пока полиция делает свою работу, благочестивость не налагает на вас никаких серьёзных обязательств и не стоит практически никаких усилий.
Однако, в интернет-сообществах нельзя рассчитывать, что полиция сможет делать свою работу и игнорировать вас. Добродетельность сообщества обычно оплачивается им самим.
В самом начале, пока сообщество ещё цветёт, цензура кажется ужасающей и надуманной обузой. Дела пока что идут довольно неплохо. Это просто один глупец, и если мы не способны вынести всего лишь одного глупца, то, видимо, терпимость не входит в список наших сильных сторон. Ну и потом, глупцу ведь может надоесть и он сам уйдёт — нет нужды вводить цензуру. И пускай принадлежность к сообществу приносит уже не так много удовольствия — разве какое-то там банальное удовольствие может быть достаточным оправданием для цензуры(ужас!)? Это ведь всё равно что бить людей, чей внешний вид вам чем-то не понравился.
(Стоит учесть, что решение о вступлении в сообщество принимается исключительно добровольно, и если потенциальному новому участнику не понравится «внешний вид» старожилов, то он просто не захочет вступать).
В конце концов, кто будет цензором? Кому вообще можно доверить такую власть?
Скорее всего, если сад ухожен, то довольно многим. Но если сад хоть чуточку разделён внутри, если в нём есть фракции, если в нём найдутся люди, которые продолжают тусоваться в сообществе и при этом не слишком-то доверяют модератору или другому потенциальному владельцу банхаммера…
(в глазах таких людей внутренняя политика часто представляется чем-то намного более важным, чем какое-то там нашествие варваров)
…то тогда попытка защитить сообщество обычно объявляется попыткой захвата власти. Да как он посмел объявить себя судией и палачом? Он что, считает, что владеть сервером — значит владеть людьми? Владеть нашим сообществом? Он думает, что доступ к управлению исходниками сайта делает его богом?
Должен признаться: долгое время я совершенно не понимал, почему самозащита сообществ постоянно проваливается и считал, что причина кроется в наивности. Мне даже не в приходила в голову мысль о том, что это следствие уравнительского инстинкта, предохраняющего племена от концентрации слишком большого количества власти в руках вождя. «Нет среди нас лучших, все мы боеспособные мужчины — есть у меня свои стрелы» — такая поговорка ходила в каком-то из племён охотников-собирателей (в отличие от шимпанзе, у людей есть «уравнители» — оружие. Похоже, что вожди появились лишь ко времени открытия земледелия — в момент, когда пропала возможность просто взять и покинуть племя).
Возможно, всё потому, что я вырос в тех областях интернета, где всегда был управляющий сервером системный оператор, и потому-то мне кажется естественным считать, что владелец сервера несёт определённую ответственность. Возможно, всё потому, что я интуитивно ощущаю: противоположность цензуры — не университетская подсеть, а анонимный двач(да и у того всё равно есть какие-то способы борьбы со спамом). Возможно, я вырос на том просторе, где единственной важной свободой была свобода выбрать ухоженный сад себе по нраву, и которому по нраву придёшься ты — это всё равно, что найти, наконец, страну с хорошими законами. Возможно, я принимал за должное, что если тебе не нравится местный главный волшебник, то правильно будет просто уйти (такое случилось со мной однажды и я действительно просто взял и ушёл).
А, возможно, потому, что владельцем сервера часто был я. Но я последователен и поддерживаю решения модераторов, даже если внутренняя политика развела нас в разные партии. Уж я-то знаю, к чему приводит, когда онлайн-сообщество начинает сомневаться в собственных модераторах. Если речь идёт о списке почтовой рассылки, то ни один из моих политических врагов, чья популярность действительно может представлять опасность, скорее всего не принадлежит к числу тех, кто станет злоупотреблять цензурой ради власти. Когда такой человек надевает шляпу модератора4, то я его вербально поддерживаю: модераторам требуются поощрения, а не ограничения. Воспитанные в университетской среде люди попросту не осознают, насколько велика толщина стен недопущения, удерживающих троллей за пределами их холёного сада с так называемой «свободой слова».
Если у сообщества действительно есть основания для сомнения в модераторах, если его модераторы в самом деле используют свою власть в личных целях — то, наверное, это сообщество не стоит того, чтобы его спасать. Но, насколько мне известно, такое чаще встречается на словах, и почти никогда — на деле.
В любом случае, озарение касательно эгалитаризма (глубинного стремления не допускать сосредоточения власти в руках одного лидера), убивающего интернет-сообщества, пришло ко мне совсем недавно. Если быть точным, то во время чтения какого-то комментария(не помню, какого именно) на LessWrong.
Но я наблюдал, как это происходит — снова и снова, был одним из участников, подталкивал модераторов и поддерживал все их решения, нравились они мне как люди, или нет. И всё равно, модераторы прилагали недостаточно усилий для того, чтобы предотвратить медленное угасание сообщества. Они были слишком скромны и степень их сомнения в себе была на порядок выше, чем моя степень сомнения в них. Дело происходило в прибежище рационалистов, а третье главное искушение рационалистов — грех недоуверенности.
Такова суть интернета: войти может любой. И любой может выйти. И поэтому в пребывании в интернет-сообществе всегда должно быть удовольствие — без этого сообщество погибнет. Если надеяться до последнего, терпеть до тех пор, пока не столкнёшься с абсолютным, неприкрытым, неопровержимым кошмаром (то есть, вести себя, как ведёт полицейский, прежде чем открыть огонь на поражение), потакать своей совести и добродетелям, взращенным внутри полностью защищённой крепости, и начать действовать лишь в момент полной уверенности в собственной правоте и без страха перед вопрошающими взглядами — в этот момент будет уже слишком поздно.
Я видел, как сообщества рационалистов погибали из-за того, что они слишком мало доверяли своим модераторам.
Но это — не то же самое, что и система кармы.
В случае с системой кармы доверять следует себе.
Мне хочется привести небезызвестную цитату: «Ты можешь не верить в себя. Но поверь в то, что я верю в тебя!»5
Потому что я искренне считаю, что, если ты хочешь минусануть комментарий, который кажется тебе низкокачественным — но всё же ты медлишь, боясь, что на самом деле желание минусануть возникло лишь из-за того, что ты не согласен с его выводом или из-за нелюбви к его автору, переживая из-за того, что кто-то может обвинить тебя в конформизме, бездумном поддакивании или в цензуре(ужас!) — то (я готов поставить на это деньги), как минимум в девяти случаях из десяти этот комментарий действительно будет низкокачественным.
Тебе дана минусовалка. Голосуй, или про-USENET-ишь6.
Если вы посмотрите на последовательность {1, 4, 9, 16, 25, …} и не увидите в ней квадраты чисел, то вы все еще можете успешно предсказать последующие числа, если заметите разности первого порядка — {3, 5, 7, 9, …}. Действительно, ваше предсказание может попасть в точку, хотя у вас нет никакой возможности это проверить, не посмотрев на выдачу генератора. Соответствие может быть выражено алгебраически или даже геометрически. Это и вправду довольно изящно.
Что бы ни прославляли люди, они будут склонны прославлять это еще сильнее; поэтому некоторые скептики считают, что погоня за изящностью подобна болезни; она создает стройную математику вместо того, чтобы разбираться в беспорядке реального мира. «Тебе повезло», — скажут они, — «но тебе не будет везти всегда. Если ты ожидаешь подобной изящности, то ты исказишь видение мира в угоду своим представлениям и отсечешь те куски реальности, которые не вписываются в твою милую картинку».
Я имею в виду, например, следующее. К вам в руки попадает последовательность {1, 8, 27, 64, 125, …}. Отыскав разности первого порядка, вы получите {7, 19, 37, 61, …}. Все эти числа объединяет лишь то, что они простые, но они даже не идут в последовательности простых чисел подряд. Тут, очевидно, нет изящного порядка, какой мы видели у квадратов чисел.
Вы можете попытаться заставить последовательность вести себя, по-вашему, правильно, настаивая, что разности первого порядка должны быть равномерно распределены, а любые отклонения — ошибки измерения (впрочем, лучше о них просто не думать). «Вы решите», — скажет скептик, — «что разности первого порядка отстоят друг от друга примерно на двадцать, являясь простыми числами, так что следующая разность, вероятно, 83, тогда следующим числом в исходной последовательности будет 208. Но действительность с вами не согласится — это 216».
Сами виноваты, раз ожидали ясности и изящества там, где их нет. Вы оказались чересчур привержены абсолютам, слишком нуждались в совершенстве. Здесь-то и зарыта собака (уф… внимание!) редукционизма!
Уже из выбранного мной примера вы могли догадаться, что я не считаю это хорошим подходом к задаче. Ведь здесь не то чтобы совсем не было закономерности, просто нужно было копнуть немного глубже. Последовательность {7, 19, 37, 61, …} непримечательная (встреть вы ее на улице, могли бы и не узнать), но найдите разности второго порядка, и получите {12, 18, 24, …}. Теперь третьего, и у вас будет {6, 6, …}.
Вы забрались глубже, отыскав устойчивый уровень, но он уже был в примере всё это время.
Если вы слишком быстро хватаетесь за увиденную закономерность, допытываетесь совершенства здесь и сейчас, пытаетесь взломать модель, то, возможно, вам никогда не удастся добраться до устойчивого уровня. Если вы подправляете разности первого порядка, чтобы сделать их «более равномерными» в соответствии со своими эстетическими понятиями (еще до того, как обнаружите настоящий закон, заключенный в самой математике), то найденные вами разности второго и третьего порядков окажутся неверными. Может быть, вы даже не затрудните себя найти их. С того момента, как вы приведете разности первого порядка в соответствие со своими представлениями о прекрасном, вы обретете счастье. Или будете громогласно заявлять, что его обрели.
Ничего из вышесказанного никак не противоречит редукционизму. Порядок заключен здесь, просто спрятан глубже. Мораль моей басни в том, что не надо искать прекрасного? Или в том, чтобы горделиво исповедовать это повсеместное мировоззрение об уродливости мироздания? Нет; мораль в том, чтобы своевременно переходить на более глубокий уровень; сначала отмерять, а уж потом резать; не прерывать исследование ради красоты раньше времени. Пока вы в состоянии не принимать преждевременную иллюзорную красоту за чистую монету, все необходимые меры предосторожности на случай, что реальность окажется неизящной, уже соблюдены.
Но разве это не (уф…) вера — искать красоту там, где ее еще не видно?
Как я недавно подметил, если вы скажете «Я много раз видел смену времен года и ожидаю, что завтра солнце взойдет вон в той точке горизона», это будет недостоверно. И если вы скажете, «Я предполагаю, что мне явится джинн и подарит мне сказочное богатство», то это также будет недостоверно. Но это не одна и та же степень недостоверности; недостаточно справедливо называть то и другое одним словом «вера».
Искать математическую красоту, где ее пока не видно, не столь же надежно, как ожидать, что солнце поднимется на востоке. Но, однако, не кажется, что это та же градация неуверенности, что и в случае с джинном, особенно если перед этим вы изучили последние 57 тысяч случаев, когда человечеству удалось найти скрытую закономерность.
И все же постулаты и аксиомы математики — самодостаточные и закрытые структуры. Можем ли мы рассчитывать, что беспорядочный реальный мир обнаружит скрытую красоту? В следующем выпуске нашей радиопередачи мы расскажем об этом. Не переключайтесь!
Из статьи Майкла Рьюза:
Ричард Докинз однажды назвал меня подонком. Он сделал это весьма публично, но не подразумевал желание меня обидеть. Я и не обиделся: мы были и остаёмся друзьями. Причиной его гнева — или даже страданий — было то, что я в ходе публичной дискуссии защищал позицию, которой по-настоящему не придерживался. Мы, философы, все время так делаем; это вариант аргумента «reductio ad absurdum». Отчасти мы делаем это, чтобы подстегнуть дебаты (особенно на уроках), отчасти, чтобы увидеть, насколько далеко можно завести позицию, пока она не разрушится, (и увидеть, почему разрушится), и, отчасти, (будем честны) излить кровожадность, поскольку нам нравится возмущать оппонентов.
Докинз тем не менее, обладает моральной непорочностью — кто-то даже сказал бы моральной закостенелостью — пылкого христианина или идейного феминиста. Даже во имя спора он не может поддержать то, что считает неверным. Делать так не просто ошибочно, считает он; это неправильно в каком-то очень глубоком смысле. Жизнь серьёзна, и есть зло, с которым нужно бороться. Здесь нет места компромиссам или неоднозначностям, даже в педагогических целях. Как говорят квакеры: «Да будет слово ваше: да, да; нет, нет».
Майкл Рьюз ничего не понял.
Когда я был ребёнком, мой отец учил меня скептицизму —
(Папа был в той же степени заядлым скептиком и поклонником Мартина Гарднера и Джеймса Рэнди, в какой и ортодоксальным евреем. Пусть это будет доводом в пользу анти-лечебной силы отделения религии от повседневной жизни.)
— он приводил в пример гипотезу: «Есть объект в поясе астероидов, состоящий целиком из шоколадного торта». Тебе придется изучить каждый объект пояса, чтобы опровергнуть эту гипотезу. Однако, несмотря на то, что эту гипотезу невероятно тяжело опровергнуть, нет и ни одного довода в её пользу.
И маленький Элиезер попросил свой разум поискать аргументы в пользу существования шоколадного торта в поясе астероидов. И вот его разум выдал ответ: «Так как шоколадный торт в поясе астероидов - один из классических примеров плохой гипотезы, если кто-нибудь когда-нибудь изобретёт машину времени, то какой-нибудь шутник подбросит шоколадный торт в пояс астероидов в двадцатом веке, чтобы всё это оказалось правдой».
Так — в очень раннем возрасте — я обнаружил, что мой разум способен, если постараться, придумать аргументы в пользу чего угодно.
Я знаю людей, которых это открытие лишило здравого смысла. Они пришли к выводу, что Разум может быть использован, чтобы отстаивать что угодно. Тогда бессмысленно доказывать, что Бога не существует, потому что вы с тем же успехом могли бы доказывать, что он существует. Ничего не остаётся, кроме как верить, во что захотите.
Сдавшись, они разрабатывают целые философские системы, чтобы их отчаяние выглядело Глубокой Мудростью. Если они заметят, что вы пытаетесь использовать Разум, они просто улыбнутся, погладят вас по голове и скажут: «О, когда-нибудь ты поймёшь, что можешь аргументировать за что угодно».
Быть может, даже сейчас мои читатели думают: «Ох, Элиезер может рационализировать что угодно, это дурной знак».
Но вы знаете… быть ментально гибким не всегда обрекает вас на катастрофу. Я имею в виду, вы этого ожидаете. Но оказывается, что практика отличается от теории.
Рационализация пришла ко мне слишком просто. Было заметно, что это просто игра.
Если бы у меня было хуже с воображением или меня легче было бы поставить в тупик - если бы я не обнаружил, что могу аргументировать любое предположение, и неважно, насколько оно бредовое - тогда, возможно, я бы мог перепутать это занятие с мышлением.
Но я могу даже привести аргументы в пользу существования шоколадного торта в поясе астероидов. Это даже не было трудно; мой мозг сразу же выдал аргумент. Было совершенно ясно, что это мышление — поддельное, а не настоящее. Я ни на мгновение не перепутал игру с реальной жизнью. Я не начал думать, что в поясе астероидов действительно может оказаться шоколадный торт.
Можно было бы ожидать, что любой ребёнок, обладающий достаточно живым умом, чтобы придумать аргументы в пользу чего угодно, точно обречён. Но интеллект не всегда приносит столько вреда, как вы могли бы подумать. В данном случае он просто помог мне в очень раннем возрасте начать различать «рассуждение» и «рационализацию». Между ними ощущалась разница.
Возможно, память меня обманывает… но мне кажется, что даже в таком юном возрасте я посмотрел на предложенный моим мозгом удивительно умный аргумент в пользу путешествующего во времени шоколадного торта и подумал: я должен избегать этого.
(Хотя существуют другие, гораздо более тонкие когнитивные воплощения процессов рационализации, чем бесстыдный, очевидный, сознательный поиск подходящих аргументов. Бессловесное уклонение от рассмотрения той или иной идеи может сбить вас с пути не хуже, чем преднамеренный поиск аргументов против неё. Эти коварные процессы я начал замечать только годы спустя).
Интуитивно я ощущал, что настоящее мышление - это нечто, что дает вам правильный ответ, нравится он вам или нет, а поддельное мышление — это способность доказать что угодно.
Это был невероятно ценный урок —
(хотя, как и многие другие принципы, которые молодой я приобрёл путём анализа вещей, обратных глупости. Он был хорош, когда требовался совет по конкретным проблемам, но мог завести в страшные дебри, когда я пытался применять его, чтобы сделать абстрактные выводы, например, о природе морали)
— который был одним из главных факторов, приведших к моему разрыву с иудаизмом. Тщательно продуманные аргументы и контраргументы древних раввинов были похожи на то фальшивое мышление, которое помогло мне придумать историю про шоколадный торт в поясе астероидов. Только раввины забыли, что это игра, и действительно воспринимали всё всерьёз.
Поверьте, я понимаю традиционный довод в пользу практики адвоката дьявола. Защищая противоположную позицию, вы делаете свой ум более гибким. Вы вытряхиваете себя из привычных рамок. У вас появляется шанс собрать свидетельства против своей позиции, вместо того чтобы защищать её. Вы поворачиваете стол и видите вещи с другой точки зрения. Переход на другую сторону — это честная игра, так что вы разворачиваетесь на 180 градусов, чтобы играть честно.
Возможно, именно это Майкл Рьюз имел в виду, когда обвинил Ричарда Докинза в «моральной ригидности».
Конечно, я не намерен учить людей говорить: «Так как я верю в фей, я не должен ожидать, что мне удастся найти хорошие доказательства того, что фей не существует, так что я не буду искать, потому что это умственное усилие имеет невысокую ожидаемую полезность». Всё это происходит под лозунгом «если вы хотите отстрелить себе ногу, нет ничего проще».
Может быть, существуют какие-то этапы жизни или состояния ума, когда игра в адвоката дьявола может вам помочь. Студенты, которые никогда не задумывались о том, чтобы попробовать искать доводы в пользу обеих сторон проблемы, могут извлечь пользу из понятия «адвокат дьявола».
Но с кем-то, кто находится в этом состоянии ума, я бы скорее начал с того, что политические прения не должны выглядеть односторонними. Нет оснований не ожидать, что с обеих сторон дебатов существуют сильные доводы; одно и то же действие может иметь разные последствия. Если вы не можете представить себе хороших доводов против политического курса, к которому вы благосклонны, или хороших доводов за тот курс, который вы ненавидите, но другие люди одобряют, тогда очень вероятно, что у вас проблема, которая называется «неспособность увидеть другие точки зрения».
Вы, дорогой читатель, вероятно, достаточно хороши в искусстве рассуждения, что если вы смогли закрепиться на правильной дороге, вы не сойдете с нее, если будете играть адвоката дьявола по необходимости. Вы просто будете подсознательно избегать любых аргументов Дьявола, которые будут заставлять вас всерьез нервничать, а затем поздравите себя с выполнением необходимого. Людям на таком уровне нужно более сильное средство. (Пока я рассказал только о средне-сильном средстве).
Если вы можете привести себя в состояние настоящего сомнения и искреннего любопытства, вам уже не нужен адвокат дьявола. Вы можете исследовать противоположную позицию потому что думаете, что она может и правда быть истинной, а не потому что вы играете в игры с шоколадным тортом, путешествующим сквозь время. А если вы не можете привести себя в такое состояние, то может ли вам помочь игра в адвоката дьявола?
У меня нет проблемы придумать аргументы, почему Сингулярность не настанет в ближайшие 50 лет. С некоторыми усилиями я могу представить случай, в котором ее не будет и через 100 лет. Еще я могу придумать правдоподобные сценарии, в которых Сингулярность настанет через две минуты, например, если кто-то делает тайный проект, и он завершается вот прямо сейчас. Я могу придумать правдоподобные аргументы для 10, 20, 30 и 40 лет.
Это не потому что я хорошо играю в адвоката дьявола и придумываю умные аргументы. Это потому что я правда не знаю. Настоящие сомнения присутствуют в каждом случае и я могу их проследить до источника настоящего аргумента. Или, если хотите, я правда не знаю, потому что я могу придумать все эти правдоподобные аргументы.
С другой стороны, мне действительно сложно визуализировать утверждение, что нет типа разума, принципиально более сильного, чем человеческий. Мне сложно поверить, что человеческий мозг, которого едва хватило на то чтобы построить технологическую цивилизацию и придумать компьютеры, теоретически является потолком эффективности интеллекта. Я не могу хорошо аргументировать за это, потому что я сам этому не верю. Или, если хотите, я не верю в это, потому что я не могу за это хорошо аргументировать. Если вы хотите, чтобы кто-то за это аргументировал, найдите того, кто правда в это верит. С очень раннего возраста я стремлюсь избегать образа мыслей, в котором вы можете аргументировать за что угодно.
В состоянии ума и этапе жизни, в котором вы пытаетесь отличить друг от друга рациональность и рационализацию и пытаетесь понять разницу между сильными и слабыми аргументами, игра в адвоката дьявола не может привести вас к неподдельным способам мышления. Ее единственная сила в том, что в некоторых случаях она может показать вам поддельные способы, которые одинаково хорошо работают за обе стороны, и показать вам места, в которых вы не уверены.
Не бывает гроссмейстеров, которые умеют играть только за белых или только за черных. Но в битвах Разума солдат, который дерется за обе стороны с одинаковой силой, имеет нулевую силу.
Так что Ричард Докинз понимает кое-что, чего не понимает Майкл Рьюз: что Разум - это не игра.
Добавлено: Брэндон утверждает, что адвокатура Дьявола это важный социальный, а не индивидуальный процесс. Я об этом, признаюсь, не подумал.
«Рационалисты должны выигрывать», сказал я, и, похоже, мне придется прекратить так говорить, потому что под этим понимают не то, что я хотел сказать.
Откуда вообще взялась эта фраза? Из обсуждения задачи Ньюкома: сверхсущество Омега дает вам на выбор две коробки, прозрачную коробку А с тысячей долларов (или аналогичной ценностью) и непрозрачную коробку Б, в которой может быть либо ничего, либо миллион долларов. Омега говорит вам: «В коробке Б есть миллион долларов только в том случае, если я предсказал, что вы возьмете только коробку Б, оставив А». Омега играл в эту игру много раз и предсказывает правильно 99 раз из 100. Вы возьмете обе коробки или только Б?
Распространенная позиция — на деле она вообще доминирующая в современной философии и теории принятия решений — что единственным разумным выбором будет взять обе коробки; Омега уже принял решение и ушел, так что ваше действие не повлияет на содержимое коробок в любом случае (их аргументация). Теперь, так получилось, что определенные типы безрассудных людей вознаграждаются Омегой (который делает это даже до того, как они приняли решение), но это не меняет заключения, что разумнее всего взять две коробки, что сделает вас богаче на тысячу долларов в любом случае, вне зависимости от содержимого Б.
Именно такой тип мышления я хотел раскритиковать, говоря что рационалисты должны выигрывать.
Миямото Мусаси сказал: «Помни, когда в твоих руках меч — ты должен поразить противника, чего бы тебе это ни стоило. Когда ты парируешь удар, наносишь его, делаешь выпад, отбиваешь клинок или касаешься атакующего меча противника, ты должен сразить противника тем же движением. Достигай цели. Если ты будешь думать только о блокировании ударов, выпадах и касаниях, ты не сможешь действительно достать врага».1
Я сказал: «Если тебе не удалось найти правильный ответ, бессмысленно говорить, что ты действовал правильно».
Вот что я на самом деле хотел донести, когда говорил, что рационалисты должны выигрывать.
Существует точка зрения, которая говорит, что определенный ритуал процесса познания — это образец разумности; таким образом он определяет, что должны делать разумные люди. Но, увы, часто разумные люди проигрывают неразумным, потому что вселенная не всегда разумна. Интеллект это лишь один из путей делать что-либо, не всегда самый подходящий; как если бы профессора разговаривали друг с другом в дискуссионном зале, что иногда срабатывает, иногда нет. Если же толпа варваров атакует дискуссионный зал, по-настоящему толковый и гибкий агент оставит разумность.
Нет. Если «иррациональный» агент превосходит вас систематическим и предсказуемым образом, тогда самое время посмотреть, думаете ли вы «рационально».
Я опасаюсь, что «рационалист» будет держаться за свой метод познания, даже если он терпит неудачу за неудачей, утешая себя: «Я веду себя так добродетельно и разумно, просто ужасно нечестно, что вселенная не дает мне того, что я заслуживаю. Другие просто жульничают, делая все нерационально, вот почему они меня обходят».
Это то, от чего я стараюсь предостеречь, говоря, что рационалисты должны выигрывать. Не скулить, а выигрывать. Если вы продолжаете проигрывать, возможно, вы делаете что-либо не так. Не утешайте себя тем, как вы были замечательно рациональны, если вы проиграли. Это не то, как должно все идти. Это не рациональность неправильна, это вы неправильно используете рациональность.
Это касается и эпистемологической рациональности, если вы осознаете, что думаете о убеждении Х как о разумном (потому что большинство людей верят в это же или просто потому что оно звучит привлекательно), хотя сам по себе мир определенно демонстрирует Y.
Но люди, похоже, понимают это иначе, нежели я имею в виду — словно любой, кто объявляет себя рационалистом, мгновенно преисполняется непобедимого духа, что позволяет им получать все что угодно без усилий и без каких-либо помех или чего-то подобного, я не знаю.
Возможно, альтернативную фразу можно найти у Мусаси, который сказал: «Дух школы Ити — дух победы, вне зависимости от вида оружия и его длины».2
«Рациональность — это дух выигрывания»?
«Рациональность — это путь выигрывания»?
«Рациональность — это систематизированное выигрывание»?
Предыдущий в минисерии: Непередаваемое превосходство
Следует за: Искусственное сложение (English)
Литературный конвейер, который я называю «порнографией превосходства» не слишком хорош в том, что делает. Но это провал довольно важной задачи. Сравнив пользу цивилизации в целом от звёздных навыков Уоррена Баффета и от менее гламурного, но более передаваемого трюка «инвестируйте заново ваши доходы», вряд ли вы будете сомневаться. Легко заметить, как сильно изменится мир, если придумать, как выразить всего лишь ещё один навык, до сих пор бывшим секретным ингредиентом успеха. Не порнографическое обещание постичь душу звезды. Всего лишь способ надёжно передать ещё одну мысль, даже если она не означает всего…
Что делает успех таким сложным для повторения?
Голые статистические шансы всегда непередаваемы. Неважно, что вы можете сказать насчёт удачи, вы не можете научить кого-нибудь иметь её. Искусство хватать возможности и открывать себя положительным случайностям (English) обычно недооценивают. Я видел людей, останавливающихся на своём пути из-за «неудачи», которую предприниматель из Силиконовой долины раздавил бы, словно паровой каток – лежачего полицейского… Но даже так, остаётся чистый элемент случайности.
Успех Эйнштейна (English) зависел от его генов, давших ему потенциал, чтобы развить навыки сверх обычного уровня. Если навыки зависят от умственных способностей, вы не можете передать их большинству людей… но даже если такой потенциал – один-на-миллион, то шесть тысяч Эйнштейнов, разгуливающих по планете - совсем не плохо. (А если немного пофантазировать, то кто сказал, что гены непередаваемы? Просто требуется немного более продвинутая технология, чем школьная доска, только и всего.)
Итак, мы исключили истинно непередаваемое - что осталось? До куда можно отодвинуть границу? Чему возможно научить – пусть и очень сложно – но чему не учат?
Мне однажды сказали, что половина Нобелевских лауреатов были учениками других Нобелевских лауреатов. Этот источник (English, pdf) утверждает, что 155 из 503. (Интересно, что тот же источник подсказывает, что число Нобелевских лауреатов с «Нобелевскими дедушками» (учителями учителей) всего лишь 60.) Даже если сделать поправку на отбор выдающихся учеников и политическое проталкивание кандидатов, факты подсказывают, что можно перенимать вещи, находясь в ученичестве – наблюдение из-за плеча, беседы в свободной форме, постоянная правка ошибок в течение работы. Ни один Нобелевский лауреат ещё не преуспел в том, чтобы поместить всё это в книгу.
Что же это такое, чему учатся преемники Нобелевских лауреатов, но не может быть выражено словами?
Этот предмет притягивает меня, так как он сообщается с мета-уровнем, с источником в глубине, с пропастью между генератором и его выходом (English). Мы можем объяснить эйнштейнову теорию относительности студентам, но не можем сделать из них Эйнштейнов. (Если посмотреть на это с правильного угла, то весь гений человеческого интеллекта ничто иное как непередаваемое прозрение, которое есть у людей, но которое мы не можем объяснить компьютеру.)
Количество бессловесного интеллекта в нашей работе обычно недооценивается, потому что сами по себе слова намного легче анализировать (English). Но когда я обращаю внимание, я вижу, что большая часть моих поисковых способностей проявляется во вспышках восприятия, говорящих мне, что именно важно, какую мысль нужно думать следующей.
Когда я встретил своего ученика Марселло, он уже был лучше в математических доказательствах, чем я, по крайней мере, намного быстрее. Он соревновался на национальном уровне, но на подобных соревнованиях вам говорят, какие задачи важны. (А ещё на соревнованиях вы сразу сдаёте листочек с решениями и перескакиваете к следующей задаче, не анализируя, можно ли упростить доказательство, объять его целиком, получить из него ещё что-нибудь.) Но действительно важная вещь, которой я пытался научить – проверяя, можно ли вообще ей научить – было ощущение, какие проблемы ИИ куда-нибудь ведут, а какие - пустышки. «Ты можешь жать на педали так же хорошо, как и я, - сказал я ему, когда он спросил меня, хорошо ли справляется, - но девяносто процентов времени рулю до сих пор я» Это были постоянные упорные попытки облечь в слова причины, почему я думал, что мы ещё не нашли по-настоящему важного прозрения, таящегося где-то в задаче, почему мы должны отбросить текущее доказательство Марселло, переформулировать задачу и попытаться ещё раз, с другого угла, чтобы узнать поймём ли мы проблему по-настоящему в этот раз.
Мы проходим через череду событий, и наш мозг использует неявный алгоритм, чтобы размолоть полученный опыт в сухой остаток, а затем - ещё один неявный алгоритм, чтобы сформировать из него нейронную сеть: процедурный навык, источник бессловесной интуиции, который вы знаете настолько быстро, что вы не знаете, что знаете его. «Нулевой шаг», - так я его называю, шаг в обуславливании вещей, который идёт до первого шага в решении и пролетает настолько быстро, что вы не понимаете, что он был.
Я горжусь умением облекать вещи в словесную формулировку, вникать в одномоментные вспышки озарений и высматривать в них узор и направление, даже если я не могу указать на механизмы, ответственные за них. Но когда я пытался передать остриё, фронт моих работ, где я расширял знание, слова были бессильны, и мне оставалось разбирать с Марселло задачу за задачей, надеясь, что его мозг уловит невыразимый ритм пилотирования: налево, направо; вот это, наверное, достойно развития, это – нет; это кажется ценным озарением, а это – всего лишь чёрная коробка вокруг нашего незнания.
Я ожидал, что так и будет; я никогда не надеялся, что самые главные части мыслей можно будет легко переложить на слова. Если бы это было так просто, то мы бы действительно создали искусственный интеллект в семидесятых.
Цивилизация продвигается, обучая выходу из генератора, а не генерированию. Эйнштейн произвёл многочисленные открытия, затем сгенерировал знание достаточно словесное, чтобы быть переданным студентам в университетах. Когда же нужен ещё один Эйнштейн, цивилизация может лишь затаить дыхание и надеяться.
Но если эти бессловесные навыки есть продукт опыта, то почему не передать опыт (English)? Или, если книги не слишком хороши, а они, наверное, и близко к этому не подходят, то почему бы не провести людей через череду тех же событий, чтобы передать опыт?
Звёзды могут и не знать, что было критически важным опытом.
Критически важные события могут быть сложными для воспроизведения. Например, каждый уже знает ответ к специальной теории относительности, и теперь мы не можем тренировать людей, давая им эту же задачу. Даже знание, что там что-то о взаимосвязи между пространством и временем, уже довольно сильный спойлер. Самая важная часть задачи и есть та, где ученик сверлит взглядом белый лист бумаги до тех пор, пока капли крови не выступят на лбу, пытаясь сообразить, о чём думать дальше. Навыки гениев редки, я уже упоминал (English), потому что мало возможностей практиковать их.
В дело может быть вовлечена удача или природный талант, подсказывая правильные вещи для изучения – нахождения высококачественного решения в пространстве бессловесных процедурных умений. Даже если мы проведём человека через те же испытания, останутся компоненты чистой случайности, влияющие на вероятность изучения того же невыразимого навыка.
Но, я думаю, всё ещё есть причина, продолжать описывать неописываемое и учить невыучиваемому.
Представьте развитие умений играть в азартные игры с изобретением теории вероятности несколько веков назад. В покере до сих пор сохранилась часть искусства, которое звёзды покера могут лишь частично передать на словах. Но в прошлом никто и понятия не имел, как вычислить шанс выпадения одних единиц на трёх кубиках. Может, опытный игрок и имел невыразимое понятие, что некоторые вещи более вероятны, чем другие, но не мог высказать его словами – не мог передать никому, что он узнал о вероятности, кроме как, может, через долгий процесс наблюдения за учеником из-за плеча и корректирования его ставок.
Чем больше мы узнаём что-либо в определённой области и наблюдаем звёзд за работой, тем больше мы узнаём о человеческом разуме в целом, тем больше мы можем надеяться, что новый навык превратится из непередаваемого в выучиваемый, а затем в публицируемый.
Вы можете объединить некоторые пути в семейство, даже если не способны выразить их словами. И даже если сами вы получили что-то благодаря удаче (включая генетическую удачу), вы можете уменьшить роль слепого случая.
Предупреждения о тупиках, задержавших вас. Это очевидный способ помочь.
Если вы выложите на стол набор мыслей, являющихся продуктом невыразимого навыка, кто-нибудь, читая их, может уловить ритм и сделать скачок к невысказанной вещи стоящей за мыслями. Это потребует намного меньше удачи, чем события, которые изначально и привели вас к приобретению этого навыка.
Есть хорошие аттракторы в пространстве решений – кластеризованные под-решения, которые дают доступ к остальным решениям в аттракторе. Тогда – даже если некоторые мысли не могут быть помещены в слова и требуется удача, чтобы набрести на них изначально – объяснения, как найти дверь, может быть достаточно, чтобы заякорить аттрактор.
Некоторый важный опыт вполне дублируем: например, можно советовать людям, какие книги читать или какие области изучать.
Наконец, прогресс науки в целом может лучше объяснить определённую область, и в некоторый момент вы внезапно поймёте, что именно вы знаете и как правильно высказать свои мысли.
И конечно, коронная фраза этой статьи: это те изменения, которые я надеюсь увидеть в некоторых аспектах человеческой рациональности, навыках, которые были до сих пор непередаваемыми или передаваемыми только от учителя к ученику напрямую. За последние несколько десятилетий мы немало узнали о них, и, я думаю, пора бы попытаться систематизировать полученные сведения.
Я жажду уменьшить роль удачи и таланта в обучении рационалистов высшего разряда.
Психологи определяют «якорение» как способность раздражителя активировать мозг таким образом, что это влияет на ответы на последующие раздражители. Если это звучит недостаточно зловеще, можете переформулировать это как «любая случайная вещь, произошедшая с вами, может перехватить ваши суждения и личность на следующие несколько минут».
К примеру, вы входите в комнату и замечаете в углу чемодан-«дипломат». Ваш мозг теперь — гордый владелец активированного концепта «дипломат». Он на какое-то время настроен думать о дипломатах, и если уж на то пошло, об офисах, бизнесе, конкуренции и амбициях. На следующие несколько минут вы будете склонны воспринимать все социальные взаимодействия как конкурентные и вести себя соответственно. Эти небольшие сдвиги будут достаточно значительны, чтобы их можно было измерять, например, тем сколько денег Вы готовы поставить в игре «Ультиматум». Если это звучит как странная эзотерическая ерунда типа симпатической магии, я только могу отослать Вас к исследованию Кея, Уиллера, Барга и Росса от 2004 года (English)1.
Мы недавно обсуждали плюсы и минусы веры в Санта-Клауса. Вот, к примеру, один из плюсов: датские дети, которым показали изображение шапки Санта-Клауса, были более склонны делиться конфетами с другим ребенком. Почему? Исследователи предположили, что шапка активирует концепт Санта-Клауса, а Санта-Клаус активирует идеализированный концепт дарения и щедрости. Ребёнок после этого склонен относиться к щедрости положительно. Естественно, тот же эффект может быть использован и в обратном направлении. В том же исследовании дети, которым показали логотип известного магазина игрушек, были менее склонны делиться конфетами.
Но ведь этот эффект ограничен исследованиями в паре психологических лабораторий, так? Он не использовался для чего-нибудь вроде, скажем, изменения результатов крупных выборов?
Я знаю о двух хороших исследованиях эффекта прайминга в политике. В первом (English) субъектам подсознательно2 подсказывали буквенно-числовые комбинации, которые напоминали об атаках 11 сентября (например «911» или «WTC»), или случайные буквенно-цифровые сочетания. После этого их просили оценить деятельность администрации президента Буша. Те, кто видел случайные строки, оценивали Буша на неутешительные 42%. Те, кто подвергся якорению, напоминавшему о войне с террором, давали ему оценку в среднем 75%. Изменение довольно значительное, даже при том что никто из испытуемых не смог сознательно вспомнить какие либо упоминания о терроризме.
Во втором исследовании (English) учёные проанализировали данные из 2000 выборов в штате Аризона и выяснили, что место сбора подписей оказывает заметный эффект на результаты голосования. То есть люди, голосовавшие в школах, были более склонны поддерживать политики, направленные на улучшение образования, те, кто голосовал в церкви, были более склонны поддерживать социально консервативные предложения. Сдвиг предпочтений составляет примерно три процента. Подумайте обо всех выборах, завершившихся с перевесом менее чем в три процента…
Возражение: после не значит вследствие! Религиозные люди, возможно, просто живут ближе к церквям и знают, где находится местная церковь, и так далее. Именно поэтому учёные провели большую работу по регрессионному анализу и поправкам к данным. Результат получился тем же.
Возражение: возможно, поправки были не слишком хорошими! Те же учёные собрали голосовавших в своей лаборатории, показали им фотографии зданий и пригласили участвовать в условном голосовании по образовательным вопросам. Те, кому показывали фотографии школ, были более склонны голосовать за образовательные инициативы, чем те, кто видел обычные здания.
Какие техники эти исследования предлагают рационалистам? Мне хочется сказать, что лучший способ защититься — никогда не покидать своей комнаты, но есть и менее радикальные методы. Во-первых, избегайте сильных раздражителей за несколько минут до принятия важного решения. Все знают о террористических атаках 11 сентября, но эти события влияли только на решения тех людей, которые были подвергнуты действию соответствующих раздражителей прямо перед ответом 3.
Во-вторых, постарайтесь принимать решения в нейтральной обстановке и придерживаться их. Самый простой способ нейтрализовать влияние места голосования — это решить, за кого голосовать, пока ещё не вышел из дома, и потом придерживаться этого решения (кроме случаев, когда вас посещает какое-то внезапное озарение на пути к кабинке для голосования). Вместо того, чтобы не покидать свою комнату, лучше принимать решения в ней и выносить их в готовом виде в наполненный раздражителями мир.
Я не могу не вспомнить о старой традиции рационалистов «очищать свой разум» перед принятием важного решения. Или совет «утро вечера мудренее».
Независимо от того, будете ли вы применять какие нибудь формальные техники, отдых в свободном от раздражителей окружении в течение нескольких минут будет неплохим выбором.
«Все делают общие выводы из одного примера. По крайней мере, я делаю именно так.» — Влад Талтош, «Исола», Стивен Браст
Мой старый преподаватель, Дэвид Берман, любил говорить о том, что он называл «заблуждением о типичном разуме». Иллюстрировал он это следующим примером:
В конце 19 века происходили споры о том, чем является «воображение» — просто речевым оборотом или реальным феноменом. То есть, способны ли люди действительно создавать в уме изображения, которые они наглядно видят, или они просто используют фразу «Я мысленно себе это представил» в качестве метафоры?
Когда я это услышал, моей первой реакцией было «Как, #@$%, можно об этом спорить? Естественно, мы можем представлять вещи в уме. Любой кто так не думает — либо настолько фанатичный бихевиорист, что не доверяет собственному опыту, либо просто безумен». К сожалению, профессор мог привести огромный список достаточно известных людей, отрицавших существование мысленных образов, включая видных людей той эпохи. И всё это до того как бихевиоризм вообще появился.
Спор был разрешён Фрэнсисом Галтоном, удивительным человеком, который помимо прочих достижений изобрёл евгенику, «мудрость толпы» и стандартное отклонение. Галтон давал людям очень детальные опросники и выяснил, что некоторые люди способны пользоваться мысленными образами, а некоторые — нет. Те, кто мог, попросту предполагали что все могут так же, те же кто не мог, предполагали что никто не может представлять вещи в уме. Уверенность людей в своей правоте была столь непоколебима, что временами они придумывали совершенно абсурдные объяснения — например, что другие врут или просто не понимают вопроса. Способность представлять вещи в уме варьировалась в широких пределах: примерно пять процентов опрошенных обладали абсолютным эйдетическим воображением1, и примерно пять процентов были совершенно неспособны формировать изображение в уме2.
Доктор Берман назвал эту тенденцию людей считать, что структура их мышления может быть обобщена для применения к другим людям, «заблуждением о типичном разуме».
Он взялся за эту идею и развил её. Он интерпретировал некоторые отрывки биографии Джорджа Беркли, чтобы показать что у Беркли было эйдетическое воображение, и именно поэтому идея Вселенной как чувственного восприятия так его интересовала. Он также предположил, что опыт сознания и квалиа варьируется так же, как воображение, и что философы, отрицавшие их существование (Райл? Деннет? Бихевиористы?), просто были людьми, чей мозг был лишён возможности легко испытывать квалиа. В целом, он верил, что философия разума полна примеров философов, взявших за образец собственный умственный опыт и строивших теории на его основе, и других философов с другим умственным опытом, критикующих первых и не понимающих, как можно было так ошибиться.
Формально, термин «заблуждение о типичном разуме» можно применять лишь к моделям структуры нашего мышления. Но я находил и множество примеров, связанных скорее с психикой, нежели с разумом: тенденцию обобщать на основе собственной личности и поведения.
К примеру, я — один из самых глубоких интровертов, которых вам, скорее всего, доводилось встречать; более замкнутые люди вообще ни с кем не контактируют. В течении всей школьной жизни я подозревал, что другие дети имеют что-то против меня. Они постоянно хватали меня, когда я был чем-то занят, и пытались втянуть меня в какие-то свои игры с друзьями. Когда я протестовал, они не обращали внимания и говорили мне, что я должен бросить свои бессмысленные занятия и пойти с ними. Я считал их хулиганами, специально пытающимися достать меня, и постоянно придумывал способы спрятаться от них или отпугнуть.
В конце концов я понял, что это было двойным непониманием. Они считали, что я должен быть таким же, как они, и единственное, что мешало мне участвовать в их играх — это стеснительность. Я же считал, что они — такие же, как я, и единственное, что может заставить их отрывать занятого человека от дела, — это желание ему досадить.
Также: я не переношу шум. Если кто-нибудь шумит, я не могу спать, не могу учиться, не могу сконцентрироваться, не могу делать ничего — только биться головой в стену и надеяться, что они прекратят шуметь. Одно время у меня была шумная соседка по дому. Когда я просил её быть потише, она говорила, что я слишком чувствительный, и мне стоит просто отдохнуть. Я не скажу, что был сильно лучше неё: она была жуткой чистюлей и постоянно возмущалась из-за того, что я оставлял вещи где попало. Я же, в свою очередь, говорил, что ей стоит просто отдохнуть, и всё равно незаметно, есть на комоде пыль или нет. Мне не приходило в голову, что эта чистоплотность была для неё так же необходима и безусловна, как тишина для меня, и дело действительно было в разнице способов обработки информации у нас в мозге, а не просто в тараканах у неё в голове.
Фразы «просто тараканы в её голове» и «просто слишком чувствителен» говорят нам о проблеме, связанной с заблуждением о типичной психике, а именно: заблуждение о типичной психике невидимо. Мы склонны преуменьшать роль разной организации мышления в разногласиях, и приписывать проблемы тому, что другой участник конфликта намеренно или случайно действует нам наперекор. Я знаю, что громкий шум серьёзно мучит и изнуряет меня, но когда я говорю об этом с другими, они думают что я просто немного помешан на тишине. Подумайте о тех бедолагах, неспособных создавать визуальные образы, которые считают, что все остальные просто метафорически рассуждают об образах в своём воображении и не собираются отказываться от этих метафор.
Я пишу сюда потому, что именно рациональность может помочь нам справиться с этими проблемами.
Есть определённые доказательства тому, что наш обычный способ взаимодействия с людьми включает в себя что-то вроде моделирования их внутри нашего собственного мозга. Мы думаем о том, как бы мы отреагировали, делаем поправку на различия между людьми, и предполагаем, что другой человек будет действовать именно так. Этот способ взаимодействия очень привлекателен, и часто кажется, будто он должен неплохо работать.
Но если статистика говорит нам, что метод, который работает с вами, необязательно сработает с кем-нибудь другим, то вера своему внутреннему чутью — это именно заблуждение о типичной психике. Надо быть хорошим рационалистом, отбросить внутреннее чутье и следовать за данными.
Я понял это, когда недавно работал школьным учителем. Много книг посвящены методам преподавания, которые нравятся студентам и способствуют лучшему усвоению материала. В свои школьные годы я был, эм-м… подвергнут ряду этих методов, и у меня не осталось никакого желания мучить своих студентов подобным образом. И когда я попробовал разные креативные подходы, которые, как мне казалось, понравились бы мне-ученику… всё окончилось полной неудачей. Что же в конце концов сработало? Методы, близкие к тем, которые я так ненавидел в детстве. Ох. Ладно. Теперь я знаю, почему они так широко используются. А я-то всю жизнь думал, что мои учителя — просто ужасные педагоги, не понимая, что я просто странный статистический выброс, на которого подобные методы не действуют.
Я пишу сюда ещё и потому, что мне кажется эта тема имеет отношение к обсуждению соблазнения, которое проходит в обсуждении Bardic, начатом MBlume. Там есть много не слишком лестных вещей о женщинах, в которые тем не менее верят мужчины. Некоторые считают, что женщины никогда не согласятся на романтические отношения со своими друзьями-мужчинами, предпочитая альфа-самцов, которые к ним в итоге плохо относятся. Другие считают, что женщины сами хотят, чтобы им врали и обманывали их. Я мог бы продолжать, но думаю в том обсуждении всё это и так неплохо представлено.
Тем не менее, от большинства женщин я слышу, что это полная ерунда и женщины вовсе не такие. Что же тут происходит?
Ну, боюсь, я в чём-то верю «соблазнителям». Они вложили много сил и времени в своё «искусство» и, по крайней мере по собственным заявлениям, довольно в этом успешны. И все эти несчастные романтически разочарованные парни, которых я встречаю, не могут полностью ошибаться.
Моя теория состоит в том, что женщины в данном случае становятся жертвой заблуждения о типичной психике. Те женщины, которых я об этом спрашивал — далеко не репрезентативная выборка из всех женщин. Это такие женщины, с которыми стеснительный и довольно замкнутый парень знаком и может поговорить о психологии. Точно так же, женщины, которые пишут в Интернете на эту тему — не репрезентативная выборка. Это женщины с хорошим образованием, у которых есть чётко выраженное мнение по гендерным вопросам и время, чтобы писать о своём мнении в блог.
И, чтобы не показаться шовинистом, то же самое справедливо и для мужчин. Я слышу много плохого о мужчинах (особенно с точки зрения их отношения к романтике), но я не могу сказать такого о себе, своих близких друзьях или о ком-либо, кого я знаю. Но эти мнения настолько распространены и так широко поддерживаются, что у меня есть определённый повод им верить.
Эта статья становится всё менее строгой и всё дальше уходит от темы заблуждения о типичном разуме. Сначала я перешёл к заблуждению о типичной психике, чтобы обсудить материи скорее психологического и социального плана, нежели умственного. А теперь она расширилась так, чтобы включить в себя и другую похожую ошибку — суждение о всех людях по собственному социальному кругу, убеждение в том, что твоё окружение репрезентативно; такое убеждение очень редко оказывается верным3.
Изначально статья называлась «Заблуждение о типичном разуме», но я убрал из названия все намёки и переименовал её в «Обобщение на одном примере», потому что именно это связывает все перечисленные ошибки. Мы непосредственно знаем только один разум, одну психику, один социальный круг, и нам хочется считать их типичными даже в присутствии доказательств обратного.
Для читателей LessWrong это, думаю, особенно важно, так как эти люди, насколько я могу судить, в большинстве своём выпадают из общего ряда на любом из изобретённых психометрических тестов.
Некоторое время назад Дэвид Стоув провёл конкурс на самый худший аргумент в мире, но учитывая, что он отметил победителем собственного номинанта, да ещё и поддерживающего его философские взгляды, едва ли процесс отбора можно назвать объективным.
Если он может вот так единолично объявить худший аргумент в мире, то могу и я. Я назначаю самым худшим аргументом в мире приём: «X относится к категории, чей типичный представитель вызывает у нас определённую эмоциональную реакцию. Следовательно такую же эмоциональную реакцию должен вызывать и X, даже если это далеко не самый обычный представитель категории.»
Назовём это «презумпцией типичности». Звучит довольно глупо, когда выражаешь этот принцип так. Да кто вообще так делает?
Но звучит он глупо, только если мы рассуждаем исключительно в терминах категорий и признаков. Когда этот софизм облачают в разговорные слова, он становится столь силён, что большая часть плохих доводов в истории политики, философии и культуры чем-то походит на презумпцию типичности. До них мы ещё доберёмся, а пока рассмотрим простой пример.
Предположим, что кто-то захотел поставить памятник Мартину Лютеру Кингу за его ненасильственное сопротивление расизму. Несогласные могут возразить так: «Но ведь Мартин Лютер Кинг был преступником!»
Любой историк может это подтвердить. Технически, преступник — это человек, нарушивший закон. Как известно, Кинг действовал вопреки закону, запрещающему проведение демонстраций против сегрегации. За это он попал в Бирмингемскую тюрьму, где и написал своё знаменитое письмо.
В этом случае Мартин Лютер Кинг — нетипичный преступник. Классическим примером преступника можно считать, скажем, грабителя. Он гонится за наживой, обманывает ни в чём неповинных людей, подрывает основы общества. Всё это мы осуждаем, и потому, назвав человека преступником, мы автоматически начинаем относиться к нему хуже.
Всё те же несогласные скажут: «Мартин Лютер Кинг — преступник, а так как преступников все ненавидят, ненавидеть нужно и Кинга». Но у Кинга нет тех признаков, которые и заставляют нас плохо относиться к преступникам, а именно лживости, асоциальности и жажды наживы. Следовательно, несмотря на то, что он преступник, нет причин его презирать.
Всё это звучит логично и последовательно, когда подаётся в таком формате. К сожалению, это на сто процентов противоречит инстинктивному побуждению ответить: «Мартин Лютер Кинг? Преступник? Он не был преступником! А ну возьми свои слова обратно!» Вот почему презумпция типичности столь успешна. Как только ты это сказал, ты попался в ловушку. Спор больше не о статуе, а о том, был ли Мартин Лютер Кинг преступником. А так как, технически, преступником он был, спор заранее проигран.
В идеале нужно суметь ответить: «Ну, Мартин Лютер Кинг был хорошим преступником.» Увы, это довольно сомнительный дискуссионный манёвр, его сложно применить в некоторых случаях, где обычно используется вышеописанный софизм.
Теперь я хочу рассмотреть несколько частных случаев. Многие имеют политическую подоплёку 1, за что я извиняюсь, но довольно сложно вычленить плохой аргумент из конкретных споров. Ни один из них не призван намекнуть, что позиция, которую он поддерживает, неверна (на самом деле, я разделяю некоторые из них). Примеры лишь показывают, что некоторые конкретные аргументы ошибочны. Например:
«Аборт — это убийство!» Типичный пример убийства — это Чарльз Мэнсон, врывающийся к тебе домой и стреляющий в тебя. Такой тип убийств плох по многим причинам: ты предпочитаешь не умирать, у тебя есть определённые мечты и надежды, которые погибнут вместе с тобой, твои семья и друзья испытают определённые душевные страдания, а остальное общество будет жить в страхе, пока Мэнсона не поймают. Если определить убийство как «забирание жизни другого человека», тогда, технически, аборт — убийство. Но у него нет многих отрицательных последствий убийства в стиле Чарльза Мэнсона. Хотя аборты можно критиковать по многим другим причинам, фраза «аборт — это убийство» призывает испытывать одинаковые негативные чувства в случае Мэнсона и в случае аборта, игнорируя отсутствие многих характерных черт при последних обстоятельствах. Тех черт, которые изначально и породили эти негативные чувства 2.
«Модификация генов для лечения болезней — это евгеника!» Окей, тут ты меня поймал: если определять евгенику как «попытки улучшить генетический пул человечества», это действительно верно. Но что не так с евгеникой? «Что не так с евгеникой? Гитлер занимался евгеникой! Неэтичные учёные из пятидесятых годов, которые стерилизовали чёрных женщин без их согласия, занимались евгеникой!» А что не так с Гитлером и теми учёными? «Что значит, „что с ними не так“? Гитлер убил миллионы людей! Те учёные тоже разрушили жизни многих.» Разве использование модификации генома для лечения болезней делает что-то подобное? «Ну… не совсем.» Тогда что с ним не так? «Это евгеника!»
«Эволюционная психология — это сексизм!» Если определять «сексизм» как «веру в различие между полами», это верно по крайней мере про часть эволюционной психологии. Например, принцип Бейтмэна постулирует, что у видов, где женские особи инвестируют больше усилий в воспитание потомства, ритуалы спаривания предполагают, что мужские особи будут ухаживать за женскими чтобы основать пару, а это закладывает фундаментальное психологическое различие между полами. «Отлично, значит, ты признаешь, что это сексизм!» Напомни, почему именно сексизм — это плохо? «Потому что сексизм утверждает, что мужчины лучше женщин, и что у женщин должно быть меньше прав!» Это как-то следует из принципа Бейтмэна? «Ну… не совсем.» Так что же с ним не так? «Это сексизм!»
Второй, чуть более изящный способ использования презумпции типичности выглядит так: «X принадлежит к категории, чей типичный представитель вызывает некоторую эмоциональную реакцию. Следовательно, мы должны применять ту же эмоциональную реакцию к X, даже если X приносит пользу, которая перевешивает вред.»
«Смертный приговор — это убийство!» Убийство в стиле Чарльза Мэнсона приносит только вред. Поэтому оно вызывает столь сильное отторжение. Сторонники высшей меры наказания считают, что оно позволяет уменьшить преступность или принести другую сопутствующую пользу. Другими словами, они считают, что это «хорошее убийство» 3, как во вводном примере Мартин Лютер Кинг был «хорошим преступником». Но так как обычное убийство — это табу, сложно воспринять выражение «хорошее убийство» всерьёз, ведь даже само упоминание слова «убийство» может вызывать точно такую же негативную реакцию, как и в стандартном случае.
«Позитивная дискриминация — это расизм!» Верно, если вы определяете расизм, как «благоволение определённым людям на основе расовой принадлежности», но, снова, нашу мгновенную негативную реакцию на типичный пример расизма (Ку-Клукс-Клан) нельзя обобщить на этот случай. Перед тем как распространять негативные эмоции на позитивную дискриминацию, следует проверить, обладает ли она всем тем, что заставляет нас ненавидеть Ку Клус Клан (насилие, унижение, отсутствие в обществе разнообразия и зависимости благосостояния человека в первую очередь от его поступков). И даже если мы найдём какие-то из них (подрыв меритократии, например), следует так же доказать, что они не приносят больше пользы, перевешивающей вред.
«Взимание налогов — это воровство!» Верно, если под воровством вы подразумеваете присвоение чьих-либо денег без согласия человека. Но в отличие от типичного примера воровства (проникновение в чей-либо дом и кража украшений) у налогообложения всё же есть положительные стороны. Воровство обычно несправедливо и наносит ущерб обществу. Первое можно применить и к налогообложению. Второе — нет, если вы согласны, что важнее спонсировать государство, чем оставлять деньги именно у тех людей, которые их заработали. Речь идет об относительной важности обоих пунктов. Следовательно, нельзя просто отказаться от налогообложения из-за того, что воровство как таковое вызывает неприязнь. Вам также придется доказать, что предполагаемые затраты этой формы воровства превышают пользу.
Должен заметить, так как большинство споров всё же представляют собой скорострельный обмен доводами и контрдоводами а ля клуб дебатов, иногда всё же следует отвечать «Налоги — это не воровство!». По крайней мере это лучше, чем сказать: «Налоги — воровство, но хорошее», оставляя для противоборствующей стороны ответ: «По всей видимости, мой достопочтимый оппонент считает, что воровство может быть полезным, мы же будем храбро отстаивать противоположную точку зрения», после чего модератор ударит в гонг, не давая полнее раскрыть точку зрения. Если ты в клубе дебатов, делай что должен. Но если у тебя есть роскошь философской ясности, лучше отринь Тёмное Искусство и взгляни чуть глубже на происходящее.
Бывают ли случаи, когда этот аргумент полезен? Да. Например, в качестве попытки установить на ощупь забор Шеллинга; скажем, принцип, что никто не должен воровать, даже если воровство может быть полезным, потому что тогда будет сложнее вычленить и противостоять действительно плохим видам воровства. Или в качестве попытки зажечь разговор, указывая на потенциальное противоречие: «Замечали ли вы, что налогообложение содержит многие черты типичного воровства? Должно быть вы об этом даже никогда не думали? Почему различаются морально интуитивно правильные поступки в обоих случаях? Не лицемерны ли мы?» Но такое использование довольно ограничено. Как только собеседник ответит: «Да, я думал об этом, но налогообложение отличается от воровства по причинам X, Y и Z», разговор уйдёт вперёд; нет особого смысла настаивать: «Но это воровство!»
Но в большинстве случаев, я думаю, что это больше аргумент, опирающийся на эмоции, или даже скорее аргумент вида «ты будешь выглядеть глупо, ответив на него». Нельзя просто взять и ответить: «Он хороший преступник», так что если у тебя потенциально склонная к критике аудитория и не так уж много времени для объяснений, ты в ловушке. Тебя только что принудили использовать типичный пример для слова, чтобы отнять самую важную информацию.
Во всех остальных случаях адекватная реакция на попытку убрать значимую информацию это «Нет, спасибо, зачем?» И именно поэтому это самый худший аргумент в мире.
Авторские примечания
Отредактировано, август 2013. После того как получил комментарии и жалобы, я немного отредактировал эту статью. В частности, я попытался убрать жаргон с LessWrong, который отпугнул некоторых незнакомых с сайтом людей, которым просто перешли на статью по ссылке.
Отредактировано, август 2013. Также некоторые читатели жаловались, что это просто неинтересная новая формулировка уже обсуждённых софизмов (каких конкретно непонятно, но чаще всего ссылаются на poisoning the well — «отравление источника»). Меня это не особо задевает, ведь я и не утверждал, что открываю Америку. Многие софизмы перекликаются друг с другом, и разбираться в том, где кончается один и начинается другой — не самое увлекательное занятие. Но хочу отметить, что с самой жалобой я не согласен. «Отравление источника» — это представление двух разных фактов. Например: «Мартин Лютер Кинг был плагиатором… и, кстати, что вы думаете о его взглядах на гражданские права?» Утверждения могут быть не связаны вообще, и обычно это делается осознанно в качестве уловки. В случае презумпции типичности утверждение только одно, но сформулировано оно таким образом, чтобы представлять информацию неверным образом. И его употребление часто несознательно. Приведенный пример про плагиат не подходит под презумпцию типичности. Если вам кажется, что это эссе об обыкновенном «отравлении источника», то либо у этого термина есть незнакомое мне значение, либо вы не понимаете сути статьи.
Как часто вы делаете предсказания (о будущих событиях или об информации, которая вам пока недоступна)? Если вы регулярно читаете тексты LessWrong, вероятно, вы уже знакомы с идеей, что убеждения должны окупаться, что вы должны уметь сказать: «Вот, что я ожидаю увидеть, если мои убеждения точны, и вот, насколько я в этом уверен», и что вы должны обновлять свои убеждения, в зависимости от того, как сбываются ваши предсказания.
Однако… у меня складывается впечатление, что мало кто из нас регулярно делает предсказания. У меня самой всегда существовало расхождение между тем, насколько полезными, теоретически, я считаю предсказания, и тем, как часто я их делаю.
Не думаю, что дело всего лишь в лени. Я считаю, что на самом деле не так уж просто придумать, какие предсказания можно сделать, чтобы улучшить свою модель тех областей, которые для вас важны.
Здесь мне стоит пояснить, что предсказания могут помочь в достижении двух больших целей:
Если вы просто хотите получше откалиброваться, то не важно, какие именно предсказания вы будете делать. Поэтому для упражнений на калибровку обычно берутся вопросы с ответами, которые легко найти, например: «Какова высота горы Эверест?» или «Доживёт ли Дон Дрейпер до конца «Безумцев»?» Можете ознакомиться, например, c сайтом predictionbook.com или недавней записью про калибровку. Упражнения на калибровку действительно работают.
Но даже если предсказания по поводу тривиальных вопросов улучшат мои способности к калибровке, они не помогут улучшить мою модель мира. То есть, не помогут мне стать более точной, по крайней мере в важных для меня областях. Если я отвечу на уйму вопросов про высоту гор, возможно, я стану более точной в этой теме, однако, мне это не слишком поможет в жизни.
Поэтому я думаю, что сложность с предсказаниями в следующем: Множество {вопросы, ответы на которые легко узнать} — это малое подмножество всех возможных вопросов. И множество {вопросы, ответы на которые меня волнуют} — тоже малое подмножество всех возможных вопросов. А пересечение этих двух подмножеств таким образом оказывается ещё меньше, и его не так легко найти. В итоге кажется, что предсказания делать довольно трудно, ну или по крайней мере польза от них не стоит затрачиваемых усилий.
Однако, это пересечение не пустое. Нужно лишь применить немного стратегического мышления, чтобы определить, какие из вопросов, на которые можно легко ответить, относятся к интересующим вас областям, или — если подойти к задаче с другой стороны — как выделить проблемы, которые для вас важны, и превратить их в вопросы, ответы на которые можно получить.
Я решила разобраться, что входит в это пересечение. Ниже приводятся 16 видов предсказаний, которые я сама применяю, чтобы улучшить свои суждения о важных для меня вопросах. (Впрочем, я уверена, что таких видов гораздо больше, и надеюсь, что вы поделитесь и своими.)
Предсказывайте, сколько у вас уйдёт времени на текущую задачу. Очень важный вопрос, учитывая, как часто встречается ошибка планирования и какие от неё бывают последствия.
Примеры: «Сколько я буду писать эту запись в блог?», «Когда наша компания станет приносить прибыль?»
Предсказывайте, как вы будете себя чувствовать в предстоящих ситуациях. Аффективное прогнозирование — наша способность предсказывать, как мы будем себя чувствовать — часто даёт сбои, и об этом хорошо известно.
Примеры: «Насколько мне понравится вечеринка?», «Почувствую ли я себя лучше, если выйду из дома?», «Буду ли я по-прежнему расстраиваться через две недели, если не получу эту работу?»
Предсказывайте, насколько успешно вы справитесь с задачей.
Такие предсказания помогают мне замечать, когда я безуспешно пытаюсь повторять один и тот же подход. Сделанное предсказание даже само по себе может намекнуть, что мне нужен план получше.
Примеры: «Буду ли я придерживаться моего плана тренировок хотя бы месяц?», «Как пройдёт событие, которое я организовываю?», «Сколько я сделаю за сегодня?», «Смогу ли я убедить Боба в том, что моя точка зрения по обсуждаемому вопросу верна?»
Предсказывайте, как ваша аудитория отреагирует на конкретную запись в социальных сетях (фейсбуке, твиттере, тумблере, блоге и так далее).
Это поможет вам лучше разбираться, как создавать успешный контент, а также лучше понимать взгляды на мир ваших друзей (или читателей).
Примеры: «Наберёт ли это видео необычно высокое количество лайков?», «Приведёт ли ссылка на эту статью к ругани в комментариях?»
Когда вы пробуете новое занятие или новый способ что-нибудь делать, предсказывайте, как много вы получите пользы благодаря этому.
Я заметила, что в этой области я часто ошибаюсь по обоим направлениям. По поводу некоторых «лайфхаков» мне кажется, что они решат все мои проблемы (а на самом деле такое случается редко). И наоборот, я часто с излишним скепсисом отношусь к занятиям, которые находятся вне моей зоны комфорта, и часто оказываюсь приятно удивлена, когда я всё-таки их пробую.
Примеры: «Насколько „помодорки“ увеличат мою продуктивность?», «Насколько мне понравится танцевать свинг?»
Когда вы что-то покупаете, предсказывайте, как много вы получите от этого пользы.
Из исследований по поводу денег и счастья можно сделать два основных вывода: 1) в общем случае на деньги нельзя купить счастье; 2) есть уйма случаев, когда первый пункт не работает. Таким образом, судя по всему, в этой области есть большой потенциал для развития своих способностей к предсказанию, и в результате можно научиться тратить деньги более эффективно, чем люди в среднем.
Примеры: «Сколько я буду носить эти новые туфли?», «Как часто я буду использовать мою клубную карту?», «Буду ли я думать через два месяца, что действительно стоило перекрасить кухню?», «Буду ли я через два месяца по-прежнему получать удовольствие от новой машины?»
Предсказывайте, как другие люди ответят на вопросы о себе.
Я часто замечаю, что делаю предположения о других людях, и мне нравится проверять эти предположения. В идеальном случае я получаю интересную обратную связь и о самом предмете вопроса, и о моей модели человека в целом.
Примеры: «Тебя не беспокоит, что наши встречи длятся дольше, чем запланировано?», «Ты считал себя популярным, когда учился в старших классах?», «Как по-твоему, нормально ли лгать, чтобы защитить чьи-нибудь чувства?»
Предсказывайте, насколько вы сможете продвинуться в решении задачи за пять минут.
У меня часто появляется впечатление, что задача, с которой я столкнулась, — очень сложная, или что я уже думала над ней и рассмотрела все очевидные варианты решения. Однако, когда я решаю (или кто-то меня подталкивает) устроить пятиминутный мозговой штурм, к моему удивлению, у меня появляется новая многообещающая идея.
Пример: «Мне кажется, будто я перепробовала уже всё, чтобы решить свои проблемы со сном, и ничего не помогает. Если я прямо сейчас потрачу пять минут на размышления, смогу ли я придумать хотя бы одну новую идею, которую имело бы смысл попробовать?»
Предсказывайте, подтвердят ли данные из вашей памяти ваше впечатление.
Память нас нередко подводит, и я регулярно удивляюсь, как часто я не в состоянии вспомнить конкретные примеры, которые подтвердили бы то, в чём я достаточно сильно уверена (или как часто я вспоминаю конкретные примеры, которые на самом деле противоречат моему впечатлению).
Пример: «У меня есть впечатление, будто люди, которые бросают академическую науку, счастливы, что они это сделали. Если я попробую вспомнить нескольких людей, которые бросили академическую науку, и оценить, насколько они счастливы от этого, какое получится соотношение счастливых и несчастливых?»
«Кажется, что Боб никогда не слушает мои советы. Если я попробую вспомнить примеры, когда Боб последовал моему совету, сколько у меня получится вспомнить?»
Выбирайте один экспертный источник и предсказывайте, как он ответит на вопрос.
Это быстрый способ проверить утверждение или разрешить спор.
Примеры: «Поддержит ли Cochrane Medical утверждение, что витамин D помогает росту волос?», «Согласится ли Боб — управлявший несколькими компаниями, похожими на нашу, — что наша стартовая заработная плата слишком мала?»
Когда вы знакомитесь с новым человеком, фиксируйте своё первое впечатление о нём. Предсказывайте, насколько вероятно, что, когда вы узнаете этого человека получше, вы посчитаете своё первое впечатление достаточно точным.
Выпускница CFAR Лорен Ли предложила мне свою вариацию на эту тему: делайте предсказание о человеке до встречи с ним на основании тех данных, которые у вас уже есть.
Примеры: «Я знаю о парне, с которым собираюсь встретиться, только то, что он банкир. Я в средней степени уверена, что он окажется самоуверенным.», «Судя по моему единственному диалогу с Лизой, она очень проницательна. Я предсказываю, что у меня сохранится это впечатление, когда я узнаю её получше.»
Предсказывайте, как ваши друзья в фейсбуке ответят на опрос.
Пример: Я часто задаю в фейсбуке вопросы по поводу этикета. Например, недавно я устроила опрос: «Если беседа идёт как-то неловко, для вас будет лучше или хуже, если собеседник это как-то прокомментирует?» Я была достаточно уверена, что большинство людей ответит «хуже», и ошиблась.
Предсказывайте, насколько правильно вы поняли позицию собеседника. Для проверки пробуйте сформулировать эту позицию своими словами и пересказывайте собеседнику.
Иллюзия прозрачности очень опасна.
Примеры: «Ты утверждаешь, что проводить воркшоп в следующем месяце — плохая идея. Полагаю, ты так думаешь, потому что у нас не будет времени на рекламу, верно?»
«Я знаю, что ты считаешь, что поедание мяса не является проблемой с точки зрения морали. Это потому, что ты думаешь, что животные не страдают?»
Когда вы с кем-то не согласны, предсказывайте, насколько вероятно, что сторонний наблюдатель займёт вашу позицию, если ему объяснить суть вопроса.
Для лучших результатов, когда вы объясняете суть вопроса, не раскрывайте, кто на какой стороне находится.
Пример: «Сегодня на работе я и Боб поспорили, стоит ли стажёрам присутствовать на собеседованиях. Что ты думаешь?»
Предсказывайте, окажется ли удивительная для вас новость правдой.
Это хороший способ откалибровать свой бредодетектор и в целом улучшить ваши модели мира, которые использует ваш здравый смысл.
Примеры: «Этот заголовок утверждает, что какие-то учёные загрузили в компьютер мозг червя. После того, как я прочту статью, посчитаю ли я, что заголовок точно передаёт смысл реально случившегося?»
«Это вирусное видео утверждает, что изображает незнакомых людей, которых уговорили поцеловаться. Окажется ли оно постановочным?»
Предсказывайте, найдётся ли в результате быстрого поиска в Сети заслуживающий доверия источник, подтверждающий обсуждаемое утверждение.
Пример: «Боб утверждает, что после того, как он надевает часы, они вскоре останавливаются. Если я потрачу пару минут на поиск в Сети, найду ли я хоть один заслуживающий доверия источник, утверждающий, что такое явление на самом деле существует?»
И напоследок выскажу ещё одну мысль о том, как извлечь максимум пользы из предсказаний.
Рационалисты часто обращают внимание на важность объективных метрик. А, как вы могли заметить, большинство моих примеров не удовлетворяет этому критерию. Например, «Предсказывайте, случится ли ругань в комментариях? Не существует объективного способа определить, засчитывается ли происходящее в комментариях как „ругань“ или нет…» Или, «Предсказывайте, смогу ли я найти заслуживающие доверия источники, поддерживающие X? А кто скажет, что такое „заслуживающий доверия источник“ и что засчитывается за „поддержку“ X?»
Безусловно, при прочих равных условиях, следует предпочитать объективные метрики. Однако, не всегда прочие условия равны. Субъективные метрики гораздо проще придумать, и они вовсе не бесполезны. В подавляющем большинстве случаев, когда вы видите результаты, вы можете достаточно ясно понять, оказалось ваше предсказание верным или нет — пусть даже вы не сформулировали заранее точные, объективно проверяемые критерии успеха. Обычно здравый смысл говорит, что вы получили «да» или «нет». Иногда будет получаться «э-э… в некотором роде», однако, если вы уверено предсказывали, что результат будет ясно показывать в сторону «да» или «нет», получить подобный сюрприз тоже достаточно интересно.
Также скажу, что я обычно не присваиваю своим предсказаниям вероятности в численной форме. Я просто отмечаю, что моя уверенность попадает в качественные границы «очень уверена», «достаточно уверена», «слабо уверена» (что примерно соответствует вероятностям 90%/75%/60%, если я вынуждена всё-таки переходить к числам).
Возможно, вы сможете извлечь дополнительную пользу, если вы будете не просто полагаться на субъективные впечатления, а станете записывать уровни уверенности в числах и придумывать объективные метрики, которые нельзя обмануть. Однако, по-моему, в большинстве случаев эта дополнительная польза не перевесит того, что предсказания станут для вас достаточно тяжёлой задачей. Другими словами, не позволяйте, чтобы лучшее стало врагом хорошего. Или совсем другими словами: самая большая проблема с вашими предсказаниями прямо сейчас заключается в том, что их не существует.
Почти всегда, если в предложении используется слово «истина», его можно убрать, применив формулу Тарского. Например, если кто-то говорит: «Я убеждён, что небо синее, и это истина!», то это можно перефразировать как: «Я убеждён, что небо синее, и небо синее». Для любого «Предложение Х — истина» можно просто сказать Х и передать ту же самую информацию о своих убеждениях. Просто говорите о территории, которой карта предположительно соответствует, а не о карте.
Когда слово «истина» убрать нельзя? Когда вы говорите об общих принципах, касающихся соответствия между картой и территорией. Например: «Истинные теории с большей вероятностью дадут верные предсказания об исходах эксперимента». В этом предложении невозможно избавиться от слова «истинные», потому что здесь речь идёт о соответствии между картой и территорией в общем случае.
Аналогично можно убрать слово «рационально» из почти всех предложений, где оно используется. «Рационально считать, что небо синее», «Истина в том, что небо синее» и «Небо синее» передают абсолютно одинаковую информацию о цвете неба с вашей точки зрения. Не больше, не меньше.
Когда из предложения нельзя убрать слово «рационально»?
Когда вы формулируете общие принципы для алгоритмов мышления, которые приводят к соответствию между картой и территорией (эпистемическая рациональность) или направляют будущее туда, куда вы хотите (инструментальная рациональность). Можно убрать слово «рационально» из предложения «Рационально считать, что небо синее». Нельзя убрать слово «рационально» из предложения «Эпистемически рационально повышать свою уверенность в гипотезах, которые делают успешные предсказания». Табуировать это слово, конечно, можно, но вы получите что-то вроде: «Чтобы увеличить соответствие между картой и территорией, следуйте алгоритму, который требует увеличивать уверенность в гипотезе, которая делает успешные предсказания». Можно избавиться от слова, но не получится избавиться от самого понятия, не изменив смысла предложения, поскольку речь фактически идёт об универсальных алгоритмах мышления, которые строят соответствие между картой и территорией.
Никогда не следует использовать слово «рационально» без необходимости, то есть, если мы не обсуждаем алгоритмы мышления как алгоритмы.
Если вы хотите поговорить о том, как применить рациональность, чтобы купить самую крутую машину, но в первую очередь собираетесь рассуждать о машинах, а не о том, какие алгоритмы мышления самые лучшие, назовите свой пост «Как лучше покупать машину», а не «Как рационально покупать машину».
Спасибо за то, что соблюдаете технику безопасности.
Я полагаю, что большинство читателей знают меня либо как сооснователя MIRI и автора множества исходных задач в области соответствия ИИ1, либо как автора «Гарри Поттера и методов рационального мышления», популярного фанфика по Гарри Поттеру. В книге «Неадекватное равновесие»2 я рассказал, как я применяю в жизни описанные там идеи. Возможно, многим читателям интересно, как эти идеи связаны с моей работой в области ИИ и моими художественными произведениями. И я подумал, что здесь действительно можно найти интересные примеры неадекватности, используемости и скромности.
Нижеприведённый диалог — никогда не происходивший — дополняет «Неадекватное равновесие»3. Большей частью он написан в 2014 году, а в 2017 я его отредактировал и выложил в интернет.
(2010 год. Элиезер-2010
сидит на скамейке, уткнувшись в ноутбук, в несуществующем парке в Редвуд-Сити, Калифорния. К нему подходит Человек
.)
Человек
: Простите, вы случайно не Элиезер Юдковский?
Элиезер-2010
: Мне принадлежит эта сомнительная честь.
Человек
: Меня зовут Пат. Пат Модесто4. Мы не встречались, но я читал вас в интернете. Над чем вы работаете сейчас?
Элиезер-2010
: Пытаюсь написать научно-популярную книгу по рациональности. Мои записи в блоге на Overcoming Bias5, в смысле на Less Wrong, довольно длинны, нуждаются в редактуре, и, хотя они как-то повлияли на мир, мне кажется, что книгу по рациональности прочитало бы больше людей и она повлияла бы на мир сильнее.
Пат
: Как интересно! Вы не возражаете, если я загляну в ваш экран и…
Элиезер
(закрывая экран): Возражаю!
Пат
: Простите. Гм… То, что я мельком заметил, как по мне, не слишком похоже на научно-популярную книгу по рациональности.
Элиезер
: Ну, да, работа над этой книгой шла очень медленно. Поэтому я решил попробовать в свободные часы писать что-нибудь другое, чтобы разобраться: у меня проблемы со скоростью написания вообще или дело именно в этой конкретной книге.
Пат
: Вообще-то, я увидел нечто похожее на фанфик по Гарри Поттеру. По-моему, я заметил слова «Гарри» и «Гермиона» в сочетаниях, не похожих на те, что были у Джоан Роулинг.
Элиезер
: Да, и вроде бы у меня получается писать его довольно быстро. К тому же, кажется, у меня на него уходит меньше сил, чем обычно.
(Загадочный незнакомец в маске
, наблюдающий за этой сценой, завистливо вздыхает.)
Элиезер
: Теперь мне надо разобраться, почему моя основная книга пишется настолько медленнее и требует гораздо больше сил… Я бы мог написать столько книг, если бы всегда писал с такой же скоростью, с какой пишу этот фанфик…
Пат
: Простите, если мой вопрос покажется глупым. Не хочу сказать, что фанфики по Гарри Поттеру — это плохо. Я и сам в своё время их читал. Однако, насколько я понимаю, ваша философия заключается в том, что мир уже горит и с этим нужно что-то делать. Если это правда, почему вы пишете фанфик по Гарри Поттеру, а не занимаетесь чем-то ещё?
Элиезер
: Я занимаюсь чем-то ещё. Я пишу научно-популярную книгу по рациональности. Просто сейчас у меня свободное время.
Пат
: Понятно. Но меня интересует, почему в свободное время вы занимаетесь именно этим.
Элиезер
: Потому что сил мне не хватает гораздо больше, чем времени. Этот фанфик мне обходится довольно дёшево, поэтому его я могу создавать быстро.
Пат
: Я пытаюсь понять, почему вы пишете фанфик по Гарри Поттеру, даже при том, что вам это довольно легко даётся. Разве что действительно дело исключительно в том, что вам нужно понаблюдать, как у вас получается писать быстро, чтобы понять, как быстро писать другие вещи. В этом случае я бы спросил, как вы оцениваете вероятность, что вам действительно удастся это понять. Просто я думаю, что вы могли бы использовать свободное время более эффективно.
Элиезер
: Я не уверен, что вы правильно понимаете идею «свободного времени». Существуют причины, почему оно необходимо, и эти причины не сводятся к тому, что люди ленивы. Да, Анне Саломон6 и Люку Мюльхаузеру7 свободное время не нужно, но я не уверен, что их точно можно назвать людьми.
(Загадочный незнакомец в маске вступает в разговор.)
Незнакомец
: Прошу прощения.
Элиезер
: Вы кто такой?
Незнакомец
: Вряд ли это важно.
Пат
: И почему вы в маске?
Незнакомец
: Ну, я точно не версия Элиезера из 2014 года, тайно вернувшаяся в прошлое, если вы думаете об этом.
Пат
: Справедливости ради, об этом я вовсе не думал.
Незнакомец
: Пат и Элиезер-2010! По-моему, вы не понимаете друг друга. Разногласие между вами гораздо больше, чем вам кажется.
Пат
и Элиезер
: Продолжайте.
Незнакомец
: Если в феврале 2010 года спросить Элиезера, почему он пишет «Гарри Поттера и методы рационального мышления», он, конечно же, ответит, что, по его предположению, написание «Методов» повлияет к лучшему на его попытки написать «Искусство рациональности» — его предполагаемое руководство по освоению рациональности. Это вызвано тем, что у нас — в смысле, у Элиезера — есть эвристика «планируй главное», которая подразумевает, что любая деятельность оправдана в той мере, в какой она положительно влияет на «нормальный» вариант будущего, а не на маловероятные побочные сценарии.
Элиезер
: Конечно.
Пат
: Подождите. Разве не вся ваша жизнь…
Элиезер
: Нет.
Незнакомец
: У Элиезера-2010 также есть эвристика, которую можно сформулировать как: «Деятельность имеет смысл, лишь если ты можешь достичь в ней множества Парето». Другими словами, если Элиезер-2010 ожидает, что работа кого-то другого будет во всех отношениях лучше, чем его работа, ему не придёт в голову тратить на это время. Элиезер-2010 считает, что он способен делать то, что попадёт во множество Парето, поэтому зачем ему вообще заниматься чем-то иным? Поэтому, хоть в свободное время, хоть нет, Элиезер не стал бы писать этот фанфик, если бы считал, что какой-нибудь другой — или даже какая-нибудь другая книга — окажется лучше во всех отношениях.
Пат
: Гм…
Элиезер
: Я бы не стал использовать именно такие слова.
Незнакомец
: Да, потому что если бы вы сказали это вслух, люди бы начали многократно повторять слово «самонадеянность», а вы бы не до конца понимали, почему они так себя ведут. Поэтому вы красиво играете словами и пытаетесь уводить разговор от этой темы.
Пат
: Это правда?
Элиезер
: Мне кажется, будто незнакомец в маске хочет использовать эффект Барнума. В смысле, большинство людей, если их спрашивать поодиночке, признали бы, что это описание подходит и к ним.
Пат
: …… Я совершенно не считаю, что ко мне подходит такое описание.
Элиезер
: Я всерьёз удивлюсь, если таких окажется меньше десяти процентов от всего населения.
Незнакомец
: Элиезер, за следующие четыре года вы научитесь немного лучше понимать эмоции людей, связанные со статусом. Впрочем, всерьёз их учитывать вы всё равно будете лишь в тех случаях, когда вам нужно будет донести точку зрения, которую невозможно донести никак иначе, то есть, увы, очень часто, поскольку эпистемология скромности слишком быстро распространяется в вашем сообществе. В любом случае, Пат, факт, что Элиезер-2010 тратит очень много времени на «Гарри Поттера и методы рационального мышления» действительно позволяет вам сделать вывод, что Элиезер-2010 считает, что «Методы» могут достичь значительного успеха в каких-то важных для него аспектах. Что они выйдут за границы сделанного кем угодно другим. Хотя, возможно, он в этом и не признается до того, как реально достигнет успеха.
Элиезер
: Ну, да, да, так и есть. Меня расстраивает, как в художественной литературе показывают «интеллектуальных» и/или «рациональных» персонажей. И я хочу увидеть правильных «рациональных» персонажей, даже если мне придётся написать про них историю самому. Я чётко представляю, что именно другие писатели делают не так, и как сделать лучше. Если бы я этого не представлял, перспектива написать «Методы» меня бы интересовала гораздо меньше.
Незнакомец
(в сторону): Наше мировоззрение настолько заражено неадекватностью цивилизации, что мы почти никогда её не замечаем. По этому поводу даже не стоит переживать, ведь, так уж получилось, мы в самом деле живём в неадекватной цивилизации.
Элиезер
(по-прежнему обращаясь к Пату): Однако, я не говорю о том, какими могут получиться «Методы», не только из скромности. Я действительно не уверен, что я смогу сделать «Методы» такими, какими, с моей точки зрения, они могут стать. Я не хочу обещать больше, чем могу сделать. И поскольку нужно планировать главное, я пробую писать «Методы», исключительно чтобы выяснить, могу ли я писать быстрее.
Незнакомец
(в сторону): Задним числом я несколько сомневаюсь, что дело именно в этом, хотя рассуждения вполне разумны.
Пат
: Можете рассказать больше о том, почему вы думаете, что в вашей истории о Гарри Поттере получатся чрезвычайно «интеллектуальные» персонажи?
Элиезер
: А нужно? В литературе я должен показывать, а не рассказывать. Само собой, мои персонажи не будут учить пятьдесят семь языков, потому что они суперумные. Я считаю, что большинство попыток написать «интеллектуальных персонажей» упираются в их поверхностные качества, вроде количества языков, которые они знают, или сводятся к созданию стереотипных поверхностных черт, которые автор видел у других персонажей-«гениев», например, ощущение чуждости. В кино такие персонажи говорят с британским акцентом. Кажется, подавляющее большинство авторов не в курсе про рассуждение Винджа, почему сложно создать персонажа, который окажется умнее автора. Например, чтобы знать, как в шахматной партии походит прекрасный шахматист, нужно играть в шахматы не хуже него. И по этой же причине тяжело написать персонажа, который окажется гораздо рациональнее автора.
По-моему, понятия «интеллект» и «рациональность» у типичных персонажей не имеет ничего общего с умением делать правильный выбор или делать хорошие предсказания. С моей точки зрения, в литературе просто нет идеи персонажа, который достигает успехов в оптимизации своего мышления, отличающейся от идеи персонажа, который побеждает, просто потому что у него в мозги встроен волшебный меч. Кроме того, по-моему, большинство авторов персонажей-«гениев» не уважают их предполагаемый гений настолько, чтобы всерьёз поставить себя на их место — всерьёз попытаться почувствовать, на что похожа их внутренняя жизнь, и подумать хотя бы чуть дальше первого пришедшего в голову клише. Автор просто ставит себя выше «гения», наделяет гения каким-то вариантом очевидной глупости, позволяющей автору сохранять эмоциональную дистанцию…
Незнакомец
(в сторону): Подавляющее большинство авторов с трудом могут вообразить персонажа, который по-настоящему умнее автора. Подавляющее большинство футуристов с трудом могут представить ИИ, который по-настоящему умнее человека. И действительно, люди часто пренебрегают гипотезой, что чрезвычайно умный человек уж точно примет во внимание факторы, которые они сами считают очевидными. Однако, когда речь идёт о достаточно компетентных личностях, принимающих решения исходя из собственных знаний и компетенций (я здесь не рассматриваю поведение бюрократических комиссий или коллективное поведение в произвольной области), часто стоит задаваться вопросом, не могут ли они оказаться умнее, чем вы думаете, и нет ли у их действий оправданий лучше, чем те, что приходят вам на ум в первую очередь.
Пат
: Хорошо, предположим, вы сможете написать книгу, где персонажи будут демонстрировать интеллект по-настоящему. Как именно это поможет спасти мир?
Элиезер
: Почему вы делаете акцент на слове «интеллект», а не на слове «рациональность»? Впрочем, отвечая на ваш вопрос: научно-популярная литература передаёт факты, художественная литература передаёт опыт. За два предыдущих года блоггерства8 я смог передать людям явно недостаточное количество мыслительных навыков, и это меня тревожит. Я надеюсь, что книга, где описывается внутренний опыт персонажа, пытающегося быть рациональным, сообщит людям то, что я не смогу настолько легко сообщить своими эссе в блоге.
Незнакомец
: (смеётся).
Элиезер
: В чём дело, Незнакомец в маске?
Незнакомец
: Просто… вы чересчур скромны.
Элиезер
: Вы это мне?
Незнакомец
: Там, где я живу сейчас, это довольно очевидно. Вы так тщательно не говорите о своих надеждах относительно «Гарри Поттера и методов рационального мышления», потому что понимаете, что люди вроде Пата не поверят, что это возможно, и вы не сможете убедить их в обратном.
Пат
: Этот парень — странный.
Элиезер
(пожимает плечами): Это не редкость.
Пат
: Давайте не обращать на него внимание. Вы сказали, что сейчас тратите много времени…
Элиезер
: Но удивительно мало сил.
Незнакомец
: Там, откуда я пришёл, мы бы сказали, что вы тратите удивительно мало «ложек».
Пат
: …тем не менее, вы тратите много времени на создание истории о Гарри Поттере с, как вы надеетесь, исключительно рациональными персонажами. Что приведёт к тому, что ваши читатели впитают опыт, как быть рациональными. Что, по-вашему, окажется важным для спасения мира.
Элиезер
: М-м, примерно так.
Пат
: Как вы думаете, что взгляд извне сказал бы…
Элиезер
: О, кстати, я вспомнил, что мне пора бежать. (Начинает закрывать ноутбук.)
Незнакомец
: Подождите. Останьтесь, пожалуйста. Вы мне поверите, что это важно?
Элиезер
: …Хорошо. Кажется, мне редко что-нибудь советовали незнакомцы в масках, поэтому в этот раз я попробую послушаться и посмотрю, что получится.
Пат
: Что я сказал не так?
Незнакомец
: Вы сказали, что этот разговор ни к чему полезному не приведёт.
Элиезер
: Я бы не был столь радикален. Впрочем, да, по моему опыту, люди, которые используют словосочетание «взгляд извне», обычно не дают полезных советов, и на разговор с ними уходит много сил — как вы сказали, «ложек»? Но раз уж я поверил незнакомцу в маске на слово, я попробую продолжить. Что, по-вашему, говорит о проекте «Методы рационального мышления» взгляд извне?
Пат
: Ну, я как раз собирался спросить вас, что удаётся передать читателям средней истории с рациональным персонажем.
Элиезер
: Так я не пытаюсь написать среднюю историю. Весь смысл в том, что я считаю, что средняя история с «рациональным» персонажем никуда не годится.
Пат
: То есть, вы считаете, что ваши персонажи будут рациональны по-настоящему. Однако, возможно, другие авторы тоже думают, что их персонажи рациональны…
Элиезер
(шёпотом Незнакомцу в маске): Можно я уйду?
Незнакомец
: Нет. Серьёзно, это важно.
Элиезер
: Ладно. Пат, ваша предпосылка ошибочна. Гипотетических авторов, которые всерьёз стараются создать рациональных персонажей, не существует. Авторы не понимают, что для создания рациональных персонажей, нужно прикладывать усилия, и всего лишь изображают очередного «соломенного вулканца», практически не думая в процессе.
Незнакомец
: Я бы это перефразировал так: создание рациональных персонажей — не та область, в которую наша цивилизация вкладывает достаточные усилия, и поэтому не стоит ожидать там адекватности.
Пат
: Послушайте, я не спорю с тем, что наверняка вы напишете персонажей более рациональных, чем удаются этим средним авторам. Я просто считаю, что важно помнить, что всегда неправота изнутри ощущается так же, как правота.
Незнакомец
: Элиезер, пожалуйста, объясните Пату, что вы думаете про это замечание.
Элиезер
: На самом деле вы далеко не всегда помните, что «неправота изнутри ощущается так же, как правота». Вы вспоминаете об этом в исключительно избирательных случаях, когда вы уже скептично относитесь к чужим доводам. Просто кажется, будто вы вспоминаете об этом в каждом подходящем случае, поскольку, в конце концов, всякий раз, когда вы считаете нужным подумать об этом, вы об этом думаете. Вы просто использовали абсолютно универсальный контраргумент, а такие аргументы с точки зрения байесианства не позволяют различить случаи, когда мы ошибаемся, и случаи, когда мы правы. Фраза «неправота изнутри ощущается так же, как правота» похожа на фразу «но у меня есть вера». Её одинаково легко произнести как в ситуации, когда ваш собеседник прав, так и в ситуации, когда он ошибается.
Незнакомец
: На определённой стадии когнитивного развития людям нужно задумываться о том, почему карта — это не территория. Особенно если им раньше никогда не приходило в голову, как ощущается идея о том, что вселенная в их воображении на самом деле построенная их мозгом реконструкция настоящей вселенной. Просто Элиезер прошёл эту стадию, прочитав примерно в одиннадцать лет книгу С. И. Хаякавы «Язык в мысли и действии»9. Когда умение различать карту и территорию полностью усвоено, отсылка к их разнице при обсуждении идей, которые вам не нравятся, это (абсолютно универсальный) мотивированный скептицизм.
Пат
: Хорошо, однако есть исследование, показывающее полезность метода «предсказание на основании референтного класса»…
Элиезер
: Я в курсе.
Пат
: И мне интересно, какое можно сделать предсказание на основании референтного класса о ваших попытках принести пользу миру с помощью фанфика по Гарри Поттеру?
Элиезер
(Незнакомцу в маске): Пожалуйста, можно я всё-таки убегу?
Незнакомец
: Нет.
Элиезер
(вздыхая): Хорошо, допустим, за данным вопросом кроется нечто большее, чем обычный скепсис. Если вспоминать книги, в которых, с моей точки зрения, хорошо написаны рациональные персонажи, то у них довольно неплохие результаты. Когда я был ребёнком, на меня сильно повлиял «Мир Нуль-А» Альфреда ван Вогта. «Нуль-А» не просто научил меня фразе «карта - не территория». Оттуда я почерпнул идею, что люди, которые применяют рациональные техники, должны быть крутыми, а если они не круты, значит, они делают что-то не так. Уйма учёных и инженеров выросли на одах, в которых Роберт Хайнлайн восхвалял науку и инженерию. Да, я знаю, что Хайнлайн не идеален, но тем не менее.
Незнакомец
: Интересно, в каких взрослых вырастут умные дети, читающие в двенадцать лет «Гарри Поттера и методы рационального мышления»?..
Пат
: Но ведь книги ван Вогта про Нуль-А — это исключительный пример книг с персонажами-рационалистами. Мой первый вопрос: почему вы считаете, что вы сможете написать что-то подобное? А второй вопрос: даже если ваш рациональный персонаж будет вдохновлять людей не хуже персонажей Хайнлайна, насколько он повлияет на среднего читателя, и как много людей в лучшем случае, по-вашему, прочтут ваш фанфик по Гарри Поттеру?
Элиезер
: Скажу честно, по-моему, вы задаёте неправильные вопросы. В смысле, когда я решил писать «Методы», я ни о чём подобном не думал.
Незнакомец
(в сторону): Кстати, это правда. В своё время мне не приходил в голову ни один из этих вопросов. Сейчас я их задаю исключительно потому, что я пишу персонажа Пата Модесто. С моей точки зрения, наличие в голове голоса кого-то вроде Пата Модесто — непродуктивно, поэтому мне не приходят спонтанные мысли, что бы он сказал.
Элиезер
: С моей точки зрения, чтобы создать как можно лучшую книгу, имеет смысл задаться вопросом, что в плане рациональных персонажей делают неправильно другие авторы, и что правильно сделал Альфред ван Вогт. Я не понимаю, зачем мне нервничать, смогу ли я достичь большего, чем ван Вогт, который мог опереться лишь на работу Альфреда Коржибски, написанную за десятилетия до рождения Даниела Канемана10. Если честно, я всерьёз полагаю, что я уже вышел за пределы так называемого референтного класса, в который вы собираетесь меня запихнуть…
Пат
: Что?! Как вообще можно «выйти за пределы» референтного класса?
Элиезер
: …что, в свою очередь не гарантирует мне успеха, потому что оказаться за пределами референтного класса — не то же самое, что оказаться лучше него. В смысле, я не делаю выводов на основании этого референтного класса о себе. Я просто попробую написать эту книгу и посмотрю, что получится.
Пат
: Вы считаете, что вы автоматически лучше любого автора, который когда-либо пытался написать рациональных персонажей?
Элиезер
: Нет! Послушайте, моя голова организована так, что я о таких вещах просто не думаю. В моей голове есть лишь книга, и я задаю себе вопрос, смогу ли я воплотить её в реальность. Я строю в голове модель книги, а не модель себя.
Пат
: Но если книга в вашей голове подразумевает, что уровень вашего мастерства относительно среднего автора попадает в очень высокий процентиль, то, как по мне, вполне разумно спросить, почему вы уже считаете, что можете на этот процентиль претендовать.
Незнакомец
: Давайте я ещё немного вброшу. Элиезер-2010, предположим, я скажу вам, что в начале 2014 года «Методы» достигли примерно следующего уровня. Во-первых, в них примерно полмиллиона слов, но книга пока не закончена…
Элиезер
: Чёрт. Это печально. Значит, я серьёзно замедлился и уж точно не научился всегда писать так быстро, как сейчас. Интересно, что пошло не так? Кстати, а почему я продолжаю писать эту книгу вместо того, чтобы сдаться?
Незнакомец
: Потому что она вышла в лидеры на fanfiction.net (где опубликованы 500 тысяч историй) по числу отзывов. У неё есть группы почитателей во многих университетах и колледжах. На сайте, который уже перестал быть основным местом выкладки, у неё больше 15 миллионов просмотров. Поклонники создали проект по созданию аудиоверсии этой книги, при этом вы сами этим проектом не занимались совершенно. «Методы» прекрасно знают в Калтехе и МТИ, у них есть популярный сабреддит с 6 тысячами подписчиков, их часто называют самым известным или самым популярным фанфиком по Гарри Поттеру. Значительная часть читателей утверждает, что это лучшая книга, которую они прочитали в своей жизни, а как минимум одного золотого медалиста международной олимпиады по математике она вдохновила поучаствовать во множестве математических воркшопов MIRI.
Элиезер
: Мне нравится этот сценарий. Он странный, а мне нравятся странности. Внедрять такое состояние дел в реальность и вынуждать людей мириться с ним доставило бы мне бесконечное удовольствие.
Незнакомец
: Возвращаясь к теме. Какова, по-вашему, вероятность того, что дела будут идти так или лучше?
Элиезер
: Гм… надо подумать. Очевидно, что именно такой сценарий невероятен в силу коньюнкции. Однако если поделить исходы в зависимости, будут ли они с точки зрения моей функции полезности лучше или хуже этого, и спросить, какую вероятность я присвою лучшим исходам, то я бы сказал, что примерно 10%. То есть, подобный успех находится примерно на 90-м процентиле моих надежд.
Пат
(издаёт нечленораздельные звуки).
Элиезер
: Ой. Упс. Я про вас забыл.
Пат
: 90-й процентиль?! Вы всерьёз считаете, что такое может случиться с шансами 1 к 10?!
Элиезер
: Гм-м…
Незнакомец
: Да, он всерьёз так считает. Если бы я не поставил вопрос таким образом, он вряд ли бы думал о подобном прогнозе: не потому что этот прогноз чересчур конкретен, а потому что Элиезер Юдковский просто не пытается продумывать такие подробности заранее. Он называет такое занятие «фантазиями о деталях» и считает, что в подобные фантазии обычно лишь утекает эмоциональная энергия. Но если бы такой прогноз сбылся, Элиезер сказал бы, что присвоил бы исходам такого рода или лучше вероятность в 10% от всех возможных исходов. Хотя он беспокоился бы об искажении задним числом.
Пат
: По-моему, вероятность такого исхода скорее ближе к 0,1%, и даже эта оценка — слишком щедра!
Элиезер
: Да, «сторонники взгляда извне» часто говорят мне примерно то же самое почти всякий раз, когда я пытаюсь сделать что-нибудь интересное. Впрочем, ваша оценка меня всё же удивила. В смысле, моя базовая гипотеза о том, как работает этот ваш «взгляд извне», заключается в том, что это способ выразить скепсис по любому поводу, подобрав референтный класс, который предрекает неудачу. Затем вокруг этого референтного класса можно построить идеальную эпистемическую ловушку, рассуждая про эффект Даннинга-Крюгера и опасности взгляда изнутри. Однако попытка написать фанфик по Гарри Поттеру, пусть даже очень хороший фанфик по Гарри Поттеру, для большинства людей обычно не выглядит замахом на высокий статус. Я бы ожидал, что люди в основном будут реагировать на фрагмент про золотого медалиста международной олимпиады по математике, хотя априорная вероятность оказаться золотым медалистом международной олимпиады по математике выше, чем априорная вероятность оказаться автором фанфика по Гарри Поттеру с наибольшим количеством отзывов.
Пат
: Вы раньше когда-нибудь вообще пытались написать фанфик по Гарри Поттеру? Вы знаете какие-нибудь существующие награды, которые помогают продвигать лучшие фанфики, или сайты, которые рекомендуют фанфики? Вы представляете, что именно хочет значительная часть фэндома по Гарри Поттеру? Например, просто факт публикации на FanFiction.net уже оттолкнёт множество людей. Лучшие работы обычно выкладываются на ArchiveOfOurOwn.Org или на других, ещё более специализированных сайтах.
Элиезер
: А, я понял. Вы всерьёз знакомы с существующим фэндомом по Гарри Поттеру. У вас в голове есть модель уже существующей иерархии в этом фэндоме. Поэтому, когда в незнакомец в маске говорит о том, что «Методы» станут самым популярным фанфиком по Гарри Поттеру, вы это воспринимаете как заявку на слишком завышенный статус, и с помощью «взгляда извне» обосновываете, почему это звучит крайне неправдоподобно. Такой трюк можно проделать с любым высказыванием.
Пат
: Сомневаюсь, что с помощью взгляда извне или предсказания на основе референтного класса можно продемонстрировать неправдоподобность любого высказывания. По-моему, неправдоподобно выглядят утверждения о событиях, которые вряд ли произойдут. Да, я действительно знаком с сообществом любителей фанфиков по Гарри Поттеру. Как это может обесценить моё мнение? Я разбираюсь в этой области. Я представляю, сколько тысяч авторов — среди которых есть очень хорошие авторы — пишут фанфики по Гарри Поттеру. И только один из них может оказаться автором фанфика с максимальным количеством отзывов. И я спрашиваю снова, вы хотя бы пробовали понять, как реально устроено сообщество? Можете ли вы назвать хотя бы одну ежегодную награду, вручаемую в фэндоме?
Элиезер
: Гм… Навскидку точно нет.
Пат
: Просили ли вы какого-нибудь из авторов лучших существующих фанфиков по Гарри Поттеру оценить ваш предполагаемый сюжет или предполагаемые идеи истории? Например, Нонджона11 — автора «Чёрной комедии»12? Или Сару-128113, или Джей-Берна14, или любого другого автора, создавшего множество работ, признанных превосходными?
Элиезер
: Честно признаюсь, что, хотя я читал этих авторов и мне нравятся их истории, мне ни разу не приходила в голову подобная мысль.
Пат
: То есть, вы не консультировались ни с кем, кто разбирается в фэндоме Гарри Поттера лучше вас.
Элиезер
: Не-а.
Пат
: И раньше вы не писали фанфиков по Гарри Поттеру, даже очень коротких.
Элиезер
: Вы правы.
Пат
: Вы не предпринимали никаких усилий, чтобы познакомиться с существующим сообществом людей, которые читают или пишут фанфики по Гарри Поттеру, и узнать о том, от чего вообще зависит успех вашей работы.
Элиезер
: Я читал некоторые известные фанфики по Гарри Поттеру, потому что мне нравилось их читать. Собственно, именно поэтому у меня в голове появилась идея написать свой фанфик.
Пат
: Что бы вы подумали о человеке, который прочитал несколько известных книг по физике и захотел стать величайшим физиком в мире?
Незнакомец
(в сторону): По-моему, обычно «взгляд извне» на самом деле касается иерархии статусов и если люди считают, что вы не уважаете существующую иерархию, они реагируют сильнее. И если вы заявляете, что преодолеете некую высокую планку, но людям кажется, что вы делаете это без уважения, то они склонны предрекать вам провал гораздо чаще, чем если бы вы сделали более уважительное по отношению к текущей иерархии заявление. Судя по всему, чокнутый «непризнанный гений» в физике в этом контексте воспринимается как подходящая аналогия не просто потому, что у него неверная «карта». Обычные заблуждения считаются чем-то трагикомическим, они не вызывают презрения. «Непризнанные гении» в физике отличаются тем, что они не уважают физиков — людей с высоким статусом в важной иерархии. Поэтому они кажутся подходящим референтным классом для понимания других очевидных примеров неуважительных претензий на высокий статус. У людей возникают примерно одинаковые чувства, несмотря на то, что эти явления во многом отличаются.
Элиезер
: Чтобы стать великим физиком, нужно открыть настоящие законы физики, которые уже существуют в мире, но вам неизвестны. А этого невозможно достичь, не работая вместе с другими физиками — вы должны найти экстраординарно уникальный ключ к экстраординарно уникальному замку. Однако очень много возможных книг могут превзойти все уже существующие фанфики по Гарри Поттеру, и, чтобы их написать, не нужно строить ускоритель.
Незнакомец
: Элиезер, насколько я понял, когда вы пытаетесь оценить сложность задачи «стать величайшим физиком», вы оцениваете соответствующую задачу с точки зрения познания. Кажется, вы не обращаете внимание на вопросы, связанные со славой.
Пат
: Элиезер, по-моему, вы умышленно игнорируете основную мысль: что именно неправильно в попытке прочитать несколько книг по физике и захотеть стать величайшим физиком в мире. Неужели вы не видите, что это ошибка того же рода, что и ваши воздушные замки о фанфике по Гарри Поттеру? Да, конечно, стремящийся стать физиком ошибается гораздо внушительнее. Вы не понимаете, что критик скажет вам то же самое? Да, стать величайшим физиком в мире намного сложнее. Однако вы пытаетесь решить менее сложную задачу в свободное время, потому что считаете, что она простая.
Элиезер
: В случае успешного развития событий, которое описал незнакомец в маске, на последние главы я потрачу гораздо больше усилий, потому что их полезность будет уже доказана.
Незнакомец
: Кстати, Пат, а вы знаете, что Элиезер не читал четвёртую, пятую и шестую книги Роулинг о Гарри Поттере? И лишь ограничился просмотром фильмов? И даже когда он начал писать свой фанфик, он не потрудился их прочитать.
Пат
(издаёт бессвязные звуки).
Элиезер
: Ну… я прочитал первые три книги, когда они вышли, а потом попытался прочитать четвёртую. Проблема в том, что к тому времени я уже прочитал много фанфиков и привык, что вселенная Гарри Поттера — это место для «взрослых» историй. Поэтому, когда я начал читать «Гарри Поттер и кубок огня», мне уже сложно было его воспринимать, мой мозг привык к другому. Но я прочитал достаточно фанфиков по этой вселенной, поэтому я довольно неплохо её знаю. Я могу сказать, как зовут младшую сестру Флёр Делакур. Вообще-то я прочитал целый роман про Габриель Делакур. Я всего лишь не прочитал все исходные книги.
Незнакомец
: А в случае необходимости узнать какие-то важные факты из канона Элиезер может заглянуть в Harry Potter Wikia. Поэтому, как вы понимаете, у него есть все знания, которые ему, по его мнению, могут понадобиться.
Пат
(издаёт ещё больше бессвязных звуков).
Элиезер
: …Зачем вы рассказываете всё это Пату?
Незнакомец
: Потому что, с точки зрения Пата, это чертовски важный факт, указывающий на ваш будущий провал. А для меня это иллюстрация очень важного жизненного урока. Можно прочитать ряд работ из некоторой области и тем самым продемонстрировать уважение к людям, которые их написали или считают их важными. А можно собрать ключевую информацию в этой области, необходимую для собственной работы. Без последнего успех немыслим. Первое же важно лишь до тех пор, пока для вас важны публичные отношения. Однако кажется, что люди, у которых нет слепого пятна в отношении статусов, с трудом видят эту разницу.
Пат
: Да, я действительно испытал чувство негодования. Когда вы сказали, что Элиезер не прочитал все книги канона и что он считает, что для работы ему хватит вики, я воспринял это как явное неуважение к Дж.К.Роулинг и авторам лучших фанфиков по Гарри Поттеру на данный момент.
Элиезер
: Что ж, я попробую немного компенсировать ущерб, нанесённый публичным отношениям. Если бы я считал, что смогу писать книги для детей, которые станут настолько же популярны, как и книги Роулинг, я бы занялся именно этим. Роулинг стала миллиардером, а ещё она научила мою младшую сестру наслаждаться чтением. Люди, обесценивающие умение «писать детские книжки» наверняка никогда не пытались написать что-нибудь сами, и уж тем более не писали детские книжки. Писать хорошие книги для детей сложно. Именно поэтому «Методы» будут нацелены на взрослых. Хотя ваша модель меня, судя по всему, утверждает обратное, но я хорошо представляю и собственные возможности, и собственные ограничения. И я понимаю, что сейчас я недостаточно хорош как автор, чтобы писать книги для детей.
Пат
: Я могу вообразить ситуацию, в которой я решу, что у некоего человека есть прекрасные шансы написать лучший фанфик по Гарри Поттеру в мире, пусть даже он прочитал лишь первые три книги канона. Например, если это попытается сделать Нил Гейман. (Впрочем, я чертовски уверен, что Нил Гейман наверняка прочитал бы все книги канона.) Вы считаете, что можете сравниться с Нилом Гейманом?
Элиезер
: Вряд ли я когда-нибудь смогу потратить столько времени на совершенствование писательского мастерства, чтобы сравняться с Нилом Гейманом.
Пат
: Я читал ваш «Тройной контакт». По-моему, это ваше лучшее произведение. Я знаю, что о нём положительно отозвался Питер Уоттс, обладатель премии «Хьюго». Но, с моей точки зрения, «Тройной контакт» всё же не дотягивает до, скажем, фанфика «Always and Always Part 1: Backwards With Purpose». Так какие же писательские достижения позволяют вам думать, что с десятипроцентной вероятностью ваш проект станет лучшим фанфиком по Гарри Поттеру по числу отзывов?
Элиезер
: То, чем вы сейчас занимаетесь, я обычно называю «предъяви свою лицензию героя». Грубо говоря, я обозначил свои намерения попытаться взять высоту, которая, с вашей точки зрения, превосходит моё текущее социальное положение, а вы хотите, чтобы я доказал, что у меня уже хватает на это действие статуса.
Пат
: Вы переходите на личности вместо ответа на мой вопрос. Я не понимаю, каким образом при тех знаниях и тех свидетельствах, которые у вас уже есть, вы позволяете себе назначить в этой ситуации вероятность в 10%. Впрочем, давайте убедимся, что мы разговариваем об одном и том же. Вы предполагаете, что эти «10%» реальная хорошо откалиброванная вероятность?
Элиезер
: Да. Когда я задумываюсь о шансах, я считаю, что я согласился бы на пари 20:1 — в смысле, если бы вы предложили мне 20 долларов против одного за то, что мой фанфик не получит успеха. И мне было бы неуютно заключать пари при ставке 4 доллара против одного. Возьмём примерно геометрическое среднее и получим шансы 9:1.
Пат
: А вы считаете себя хорошо откалиброванным? То, чему вы присваиваете вероятность 9:1 должно происходить в 9 случаях из 10?
Элиезер
: Да, думаю, я смог бы сформулировать 10 утверждений, которым я присваиваю вероятность 90%, и ошибиться в среднем примерно один раз. Я не проверяю собственную калибровку так часто, как некоторые из рационалистов, однако когда я последний раз проходил калибровочный тест CFAR на 10 вопросов и пытался указать доверительные интервалы в 90%, вне моих интервалов оказался ровно один правильный ответ. Сносная калибровка случается вовсе не так редко, как думают сторонники взгляда извне. Достаточно лишь кое-что выучить и немного попрактиковаться.
Незнакомец
(в сторону): Элиезер-2010 не использует PredictionBook так же часто, как Гверн Бранвен15, не играет в игры на калибровку так же часто, как Анна Саламон и Карл Шульман. Он не присоединился к исследованию Филиппа Тетлока, посвящённому суперпредсказаниям. Однако я заключал пари при любой возможности — и до сих пор это делаю. Кроме того, я всегда стараюсь выразить свою неуверенность численно, если я её замечаю и понимаю, что в ближайшем будущем я узнаю правильный ответ.
Недавно я увидел на доске для заметок на холодильнике загадочный набор утверждений о паровом котле вместе с непонятными числами и диаграммами. На пять секунд меня это озадачило, а потом я предположил, что это записки Бриенны, касающиеся её прохождения игры «Myst». Поскольку я чувствовал собственную неуверенность, но мог довольно скоро выяснить правду, я потратил тридцать секунд на оценку вероятности, что эти записки действительно относятся к игре Бриенны. Сперва я назначил этому вероятность 90%. Это показалось мне очень уж сверхуверенным, поэтому я понизил её до 80%, то есть, до 4:1. Затем я подумал о том, какие другие компактные возможные объяснения я не учёл, и понизил шансы до 3:1. Позже я поговорил с Бриенной и выяснил, что записки действительно касались игры «Myst». После чего я потратил тридцать секунд на размышления о том, действительно ли прочие компактные возможные объяснения загадочных записей были настолько вероятны. Возможно, если я быстро придумал разумное объяснение, мне стоило меньше беспокоиться о возможных неучтённых вариантах.
Я потратил на эти размышления не так много времени. Это лишь один пример из моей жизни. Весь смысл таких историй в том, что их случается много, каждая новая немножко дополняет интуицию. Постепенно накапливается опыт. Размышлять об этом настолько долго, как я об этом сейчас пишу, обычно не слишком хорошая идея. (Если вы знакомы с нейронными сетями и дельта-правилом, то должны были догадаться, чего я пытаюсь добиться от своего мозга.) Мне немножко стыдно, что я не занимаюсь ставками более систематично, но учитывая мой ограниченный запас «ложек», вряд ли меня хватило на что-то большее, чем мои нынешние упражнения, которые пусть и случайны, но достаточно регулярны.
Сейчас, когда я редактирую этот текст, могу сказать, что недавно я присвоил шансы 5:1 против того, что два персонажа из «Карточного домика» займутся сексом друг с другом, но это случилось. Это всерьёз подтолкнуло меня делать поправки против сверхуверенности. (Ведь согласно дельта-правилу, это была большая ошибка.)
Пат
: Но ведь исследования показывают, что даже если людей предупреждают о сверхуверенности, дают им прочесть исследования о сверхуверенности и немного попрактиковаться, то сверхуверенность уменьшается, но не исчезает полностью. Так?
Элиезер
: Если мы усредняем по всем испытуемым, да, сверхуверенность уменьшается, но не исчезает полностью. Это не означает, что сверхуверенность уменьшается, но не исчезает полностью для любого человека.
Пат
: Что заставляет вас считать, что вы справляетесь со сверхуверенностью лучше среднего человека?
Незнакомец
: …
Элиезер
: То, что я практиковался гораздо больше этих испытуемых. И я не верю, что уровень усилий, прикладываемый средним испытуемым, даже испытуемым, которого предупредили о сверхуверенности и один раз дали попрактиковаться, — это предел человеческих способностей. И всерьёз меня заставляет верить в собственные успехи то, что я проверял. Вряд ли существует «референтный класс», полный сверхуверенными людьми с галлюцинациями о том, как они занимаются калибровкой и обнаруживают, что их интервалы доверия становятся хорошо откалиброванными.
Незнакомец
: Я подкину некоторую информацию, которую я узнал из эссе Сары Константин «Существуют ли рациональные люди?». Станович и Уэст в исследовании 1997 года обнаружили, что 88% участников исследования продемонстрировали систематическую сверхуверенность. Это означает, что для оставшихся 12% они не смогли обнаружить сверхуверенность. И это не слишком удивительно: в своей работе 1998 года они указывают, что во многих тестах обнаруживалось, что около 10% студентов не проявляют то или иное искажение.
Элиезер
: Верно. Поэтому вопрос в том, могу ли я при наличии некоторой практики добиться такого же отсутствия сверхуверенности, как лучшие 10% студентов. По-моему, это не какая-то супер-сложная задача. Да, конечно, усилия нужны. Мне приходится осознанно увеличивать доверительные интервалы. Думаю, лучшим студентам-испытуемым тоже приходилось это делать. Проблема не в способностях, нужно по-настоящему прикладывать усилия. Но когда я считаю, что увеличил интервалы достаточно, я останавливаюсь.
Пат
: То есть, вы в самом деле считаете, что когда вы назначаете шансы в 9:1 против того, что «Методы» достигнут суперуспеха, описанного Незнакомцем в маске, вы хорошо откалиброваны. Будете ли вы настаивать на том, что я должен расширить собственные доверительные интервалы о том, каких успехов могут достичь «Гарри Поттер и методы рационального мышления», чтобы избежать собственной сверхуверенности?
Элиезер
: Нет. С моей точки зрения, это ничем не отличается от заявления, что вы не должны назначать успеху «Методов» вероятность в 0,1%, потому что шансы 1000:1 — это слишком мало. Так аргументировать нельзя, и я тщательно стараюсь этого не делать. Подобное мышление приводит к статьям вроде работы Орда, Хиллербранда и Сандберга «Как узнать вероятность невероятного»16, которую я считаю неверной. В общем, если существует 500 тысяч фанфиков и лишь один из них может набрать больше всего отзывов, нельзя случайно взять один из них и заявить, что шансы 500 000:1 — это слишком мало.
Пат
: Рад, что вы с этим согласны. Конечно, я не дурак, я понимаю, что ваши книги лучше средних. 90% фанфиков по Гарри Поттеру — это полная хрень (в соответствии с законом Старджона), а 90% оставшихся 10% не хватает вдохновения. Таким образом остаётся примерно 5000 фанфиков, с которыми вам придётся соревноваться всерьёз. Я даже признаю, что если вы будете стараться всерьёз, вы окажетесь среди лучших 10% из них. Таким образом шансы, что вы станете лучшим автором фанфика по Гарри Поттеру на fanfiction.net - 1 из 500. Ещё нам надо учесть, что есть и другие сайты с фанфиками по Гарри Поттеру, где работ меньше, но эти работы в среднем лучше. Получается, что ваши шансы написать самый лучший фанфик примерно 1 к 1000, и, по-моему, это довольно щедрая оценка, с учётом того, насколько удивительно несерьёзно вы отнеслись к подготовке… Гм, с вами всё в порядке, Незнакомец в маске?
Незнакомец
: Извините, пожалуйста. Я отвлёкся на мысль о мире, где я мог бы зайти на fanfiction.net и обнаружить там 1000 историй, сравнимых с «Гарри Поттером и методами рационального мышления». Я думаю об этом мире и стараюсь не заплакать. Не то, что я не в состоянии вообразить мир, где ваше скромно звучащее вычисление Ферми корректно… Просто мир, который вы описываете, кажется, очень отличается от нашего.
Элиезер
: Пат, я понимаю, к чему вы клоните, и я действительно не знаю, что вам ответить, пока у меня не будет возможности показать вам книгу.
Пат
: Вы понимаете, что я хочу до вас донести? На вас вообще мои слова действуют? Да, моя оценка довольно приблизительная, но мне кажется, что мой подход к вычислению Ферми вполне разумен. Если вы не согласны с выводом, мне хотелось бы узнать, какие дополнительные факторы приводят к тому, что ваше вычисление Ферми даёт результат в 10%.
Незнакомец
: Вы недооцениваете, насколько по-разному вы думаете. Когда Элиезер говорил о своей оценке в 10%, ни один из перечисленных вами факторов ему даже не пришёл в голову.
Элиезер
: Вынужден признать, что это правда.
Пат
: И какие же, по-вашему, самые важные факторы, влияющие на то, преуспеете вы или нет?
Элиезер
: Гм. Хороший вопрос. Я бы назвал… удастся ли мне сохранять мой писательский энтузиазм, смогу ли я писать достаточно быстро, получится ли у меня настолько хорошая история, какую я сейчас представляю, получится ли у меня учиться на ходу и создавать что-то ещё лучшее. Плюс большое количество неуверенности на тему, как люди на самом деле будут реагировать на работу, которая сейчас в моей голове, когда я её напишу.
Пат
: Хорошо, у нас есть пять ключевых факторов. Оценим вероятности для каждого из них. Предположим, мы оценим шансы на сохранение энтузиазма в 80%, и в 50% на то, что вы будете писать достаточно быстро, — хотя в прошлом у вас были с этим проблемы, на «Тройной контакт» у вас ушёл целый год, если я правильно помню. Оценим в 25% вероятность того, что вы сможете успешно записать эту невероятную историю, которую, судя по всему, вы представляете: по-моему, авторы практически всегда на этом спотыкаются, и я почти уверен, что и у вас будут с этим большие проблемы, но пусть будет одна четвёртая — хотелось бы «застилменить» ваши доводы. Пусть 50% — вероятность, что вы будете учиться достаточно быстро, чтобы ваш проект не пошёл ко дну из-за уже известных вам проблем. Теперь, даже не упоминая возможную реакцию читателей (вы действительно собираетесь продать когнитивную психологию и формальную эпистемологию фанатам Гарри Поттера?) и несмотря на то, что я был довольно щедр в своих оценках, перемножив все эти вероятности мы получаем оценку в 5%, что меньше полученных вами 10%…
Незнакомец
: Неверно.
Пат
: …Неверно? Что вы хотите сказать?
Незнакомец
: Давайте рассмотрим факторы, которые могут повлиять на то, что ваше рассуждение верно. Сперва оценим вероятность, что произвольное предложение окажется истинным. Затем нужно рассмотреть вероятность, что некий аргумент, направленный в поддержку некоего вывода, не будет содержать грубейших логических ошибок. Потом вероятность, что некто, утверждающий, что аргумент «неверен», ошибается…
Пат
: Элиезер, если вы не согласны с моими выводами, то что не так с моими вероятностями?
Элиезер
: Ну. начнём с того, что смогу ли я писать быстро, зависит от того, смогу ли я сохранять свой энтузиазм. Реакция аудитории зависит от того, смогу ли я писать быстро. Смогу ли я чему-то научиться, зависит от того, смогу ли я сохранять мой энтузиазм. С точки зрения теории вероятностей перемножать эти числа бредово.
Пат
: Хорошо, чему же будет равна вероятность, что вы сможете писать быстро, при условии, что у вас сохраняется энтузиазм…
Элиезер
: Вы считаете, что если бы вы начали с этого вопроса, вы бы пришли к другим результатам? Уверен, что если бы вам пришло бы в голову построить вопрос как «вероятность при условии…», у вас получились бы точно такие же вероятности, потому что именно к этому привёл бы баланс ваших мыслительных сил — взять какое-нибудь небольшое число, которое звучит разумно или что-нибудь в этом духе. К тому же проблема условной вероятности далеко не единственная причина, по которой я считаю, что приём «оценим эти вероятности, а потом перемножим» лишь риторический трюк.
Пат
: Риторический трюк?
Элиезер
: Если подобрать для «вывода» нужные факторы, можно легко добиться, чтобы люди давали сколь угодно маленькие «ответы». Например, посмотрите статью ван Бовена и Эпли «Эффект подробностей при оценочных суждениях»17. Проблема в том, что люди… как бы это покороче объяснить… если людей просить оценить вероятность чего бы то ни было, их оценки будут стремиться к некоторым медианным значениям. Поэтому ими можно довольно сильно манипулировать, подбирая категории, для которых нужно «посчитать» вероятность. Например, если если спрашивать автомеханика о возможных причинах, почему машина может не завестись — причём опытного автомеханика, который каждый день наблюдает настоящую частоту поломок! — а затем просить оценить либо вероятность «отказ системы электрооборудования» в целом, либо отдельные вероятности для «умер аккумулятор», «проблемы с генератором» и «проблема с зажиганием», то вероятность для составляющих в сумме окажется гораздо больше, чем вероятность для целого, если не вдаваться в подробности.
Пат
: Но возможно, когда я разбираю в подробностях, что может пойти не так, я просто компенсирую ошибку планирования и то, что люди обычно недостаточно пессимистичны…
Элиезер
: Прежде всего, проблема в ваших рассуждениях в том, что описанный исход не обязан быть идеальной конъюнкцией упомянутых факторов. Чтобы достичь успеха, не всё в вашем перечне должно сработать одновременно. Вы упустили другие дизъюнктивные пути, ведущие к тому же исходу. В вашей вселенной никто не прикладывает дополнительных усилий и не ищет ошибки, когда что-то пошло не так! Я никогда не видел, чтобы люди назначали якобы маленькую конъюнктивную вероятность чему-то, что на самом деле требовало выполнения всех предпосылок. Именно поэтому я всегда тщательно стараюсь избегать приёма: «Я любезно разобью это утверждение на большую конъюнкцию и попрошу оценить вероятность каждого множителя».
По моему опыту, этот приём можно применять только с одной целью: заставить людей поверить, что они «назначают» вероятности, в то время как вы манипулируете подбором факторов, чтобы получить итоговый результат, который вам нравится. В честном разговоре использовать его не имеет смысла. Я много раз видел, как люди использовали этот приём. Иногда с его помощью поддерживали выводы, с которыми я был согласен, иногда — выводы, с которыми я был не согласен. Но я никогда не видел, чтобы этот приём помогал найти истину. Я считаю его применение плохой эпистемологией, которая распространена, потому что, пока люди не задумываются достаточно внимательно, он звучит разумно.
Пат
: Я рассматривал те факторы, которые вы сами назвали самыми важными. С чем именно в моей оценке вы не согласны?
Незнакомец
(в сторону): Кстати, ошибка многих этапов — это замечательный трюк. Можно попросить людей самих подумать о ключевых факторах и всё равно подтолкнуть их дать ответы, из которых будет следовать маленький итоговый ответ. Ведь чем дольше люди перечисляют факторы и назначают им вероятности, тем меньше будет итоговое произведение. Как только мы понимаем, что при увеличении числа перемножаемых вероятностей произведение становится всё меньше и меньше, нам, чтобы отличать правду от лжи, приходится вводить дополнительные компенсирующие меры.
В итоге вам придётся прийти к выводу, что если успех в каком-то реальном предприятии зависит от четырёх факторов (не говоря уже о десяти), то вы априори не сможете его достигнуть. Да, выписать множество возможных сценариев провала для того, чтобы заранее решить, как с ними справляться, может быть мудрой идеей (известной под названием Мерфиджитсу18). Однако когда вы начинаете присваивать «вероятность того, что Х пойдёт не так и это нельзя будет исправить, при условии, что всё предыдущее в списке идёт по плану или может быть успешно исправлено», то, если проект теоретически может достичь успеха — как, например, «Методы», — вам стоит взять вероятность близкую к единице19. В противном случае вы априори исключаете возможность собственного успеха, а попытка что-то «посчитать» — это притворство.
Честно говоря, сомневаюсь, что эту методологию вообще стоит чинить. Вряд ли нужно заморачиваться, пытаясь компенсировать вероятности в сторону увеличения. Просто не нужно заниматься подсчётами «конъюнктивного провала» на основе вероятностей успеха критичных факторов, когда у нас этих факторов очень много и вероятности получены очень приблизительно. Не думаю, что в таких условиях вы сможете что-нибудь оценить хорошо, даже если попытаетесь компенсировать упомянутую предсказуемую ошибку.
Элиезер
: Да, я перечислил ключевые для меня факторы и я в самом деле сомневаюсь, что они сработают. Если бы я в них был уверен сильнее, я бы назначил вероятность больше, чем 10%. Однако эти факторы связаны дизъюнктивно в той же мере, что и конъюнктивно. Они не обязаны сработать вместе и сразу. Например, возможен такой сценарий: я буду писать «Методы» достаточно хорошо, что у них сложится достаточная аудитория, потом моя скорость написания значительно снизится, но «Методы» всё равно добьются большого успеха в итоге.
Пат
: И как же вы скомбинируете эти факторы, чтобы оценить невероятный успех в 10%?
Элиезер
: Никак. Я получил свою оценку следующим образом: я обнаружил, что у меня есть две границы — 20:1 и 4:1 — и я не готов их двигать, не беспокоясь об излишней сверхуверенности в ту или иную сторону. Примерно таким же образом я строил свои десять доверительных интервалов на тесте калибровки CFAR. Затем я взял логарифмическое среднее.
Пат
: То есть вы даже не пытались оценить все эти факторы, а затем перемножить?
Элиезер
: Нет.
Пат
: Тогда откуда, чёрт возьми, вы взяли эти самые 10%? Ваше заявление, что вы получили два других таинственных числа — 20:1 и 4:1, — после чего взяли их геометрическое среднее, не отвечает на самый главный вопрос.
Незнакомец
: Полагаю, лучше всего используемая методика описывается словами «взять числа с потолка». Важно практиковаться в калибровке своих чисел с потолка, когда вы потом узнаёте правильный ответ. Также важно понимать ограничения своих чисел с потолка и не пытаться сотворить невозможное, назначив кучу чисел с потолка сложным взаимосвязанным событиям.
Элиезер
: Я бы сказал, что получил свою оценку… подумав о задаче на объектном уровне? Применив знания из области моей экспертизы? Я уже размышлял над этой задачей довольно долго, поэтому многие её важные аспекты уже были у меня в голове. Я получил из своей головы некоторое представление о вероятностях, а благодаря своей практике делать ставки я уже немного умею переводить собственное представление о неопределённостях в числа, и таким образом я получил 9:1. Я не очень понимаю, какую вы ещё хотите получить информацию. Если и есть способ получать настоящие, значительно лучшие суждения с помощью какой-то продвинутой техники, то я его не встречал в литературе и пока не практиковал. Если вы мне продемонстрируете, что в 9 случаях из 10 вы сможете назначать правильные 90-процентные доверительные интервалы, и ваши интервалы будут уже моих, и вы этого достигните с помощью какой-то продвинутой техники, я буду рад о ней услышать.
Пат
: То есть, фактически, ваша вероятность в 10% происходит из недоступной интуиции.
Элиезер
: В данном случае? Более-менее, да. Пока я не могу вам показать, что я планирую делать в «Методах», я мало что способен объяснить на тему, почему они могут преуспеть.
Пат
: Если рассуждения у вас в голове корректны, почему их нельзя объяснить мне?
Элиезер
: Потому что у меня есть недоступная вам информация. Я знаю, какую книгу я пытаюсь создать.
Пат
: Элиезер, мне кажется, вы игнорируете довольно важную мысль. Вам стоит задуматься о том, что вы считаете, что у вас есть непередаваемые причины верить в успех вашего проекта «Методы рационального мышления». Разве неспособность убедить других людей в будущем успехе не схожа с ощущениями спятивших непризнанных гениев, изобретающих дурацкие физические теории? Они ведь тоже ссылаются на непередаваемую интуицию?
Элиезер
: Однако ваш метод, который вы называете «предсказанием на основе референтного класса», слишком требователен, чтобы на самом деле определить, сможет кто-то написать фанфик по Гарри Поттеру с наибольшим количеством отзывов. Не важно, речь идёт обо мне или о ком-то ещё. Тот факт, что скромного критика не удаётся убедить, с точки зрения байесианства не позволяет отличить успешный в будущем проект от провального. Это не свидетельство.
Пат
: Наоборот. Если бы Нонджон сказал мне, что он намерен написать фанфик по Гарри Поттеру, который получит больше всего отзывов, я посчитал бы это обоснованным утверждением. «Чёрная комедия» Нонджона признана одним из лучших фанфиков, Нонджон на хорошем счету у влиятельных обозревателей и раздающих рекомендации сообществ. Вероятно, он не был бы уверен, что он напишет фанфик, у которого точно будет больше всех отзывов, но он имеет полное право считать себя одним из наиболее вероятных претендентов на место автора такого фанфика.
Незнакомец
: Любопытно, насколько вашу оценку вероятности успеха можно свести к одному числу, которое очень сильно коррелирует с тем, насколько человек уважаем внутри соответствующего сообщества.
Пат
: Более того, даже если мой метод слишком требователен, это ещё не означает, что в моих рассуждениях какая-то ошибка. Человек, покупающий лотерейный билет, не сможет убедить меня, что у него есть веские причины верить в свой успех. Даже если это будет человек, который выиграет. Это всё равно не означает, что я был неправ, назначая низкую вероятность успеха людям, покупающим лотерейные билеты.
Для Нонджона вполне разумно купить лотерейный билет со ставкой 1:10. Нил Гейман может позволить себе 2 из 3. Шансы для вас, как я уже говорил, вероятно ближе к 1:1000, и они настолько высоки, лишь потому что вы уже продемонстрировали способность хорошо писать. Я даже не штрафую вас за то, что вы планируете внедрить ярко выраженных рациональных персонажей во вселенную Гарри Поттера, а это слишком уж непохоже на существующие лучшие фанфики. Возможно, на меня слишком влияет то, что мне понравилось то, что вы писали раньше. Однако я нахожу крайне подозрительным ваше утверждение, что вам достоверно известно, что ваш лотерейный билет лучше в сто раз, но вы не в состоянии объяснить, откуда вам это известно. Не бывает веских свидетельств, которые невозможно передать другому человеку.
Незнакомец
: «Я пишу книгу по экономической теории, которая, как я полагаю, практически перевернёт всеобщие представления об экономике. Вероятно, не сразу, а в течение ближайших десяти лет. Сейчас вряд ли вы — или кто-либо другой — поверят в это. Но я сам не просто надеюсь, что так и будет, я довольно сильно в этом уверен». Так писал Джорджу Бернарду Шоу победитель в лотерее Джон Мейнард Кейнс о своей работе над «Общей теорией занятости, процента и денег».
Элиезер
: Кстати, Пат, если я в самом деле преуспею в работе над «Методами», вы сами окажетесь в непередаваемом эпистемическом состоянии по отношению к кому-то, кто узнает обо мне позже лишь в связи с этой работой. Этот другой человек, возможно, предположит, что я не просто случайно выиграл в эту лотерею, но у него будет меньше свидетельств на этот счёт, чем у вас. Это довольно интересный и важный эпистемологический вопрос.
Пат
: Я не согласен. Если у вас есть веские интроспективные свидетельства, расскажите мне о состоянии вашего разума. С моей точки зрения, не должно быть ситуаций, когда вы меняете свои взгляды на основании того, как это свидетельство «ощущается для вас», не так, как на основании того, как это свидетельство «ощущается для других людей». В этом случае вы и эти другие люди просто должны обновить свои взгляды ещё раз.
Незнакомец
: Нет, в таком сценарии два человека действительно могут оказаться в непередаваемых эпистемических состояниях. Ведь существуют и другие искажения. Вы бы знали, что ситуация «Победа Элиезера» на самом деле была отмечена как отдельный исход заранее, но другой человек отнёсся бы к этому якобы отдельному исходу с учётом послезнания, и поэтому у него были бы веские причины не доверять своему послезнанию, и он не смог бы оказаться в том же состоянии разума, что и вы.
Вы правы, Пат: два агента, у которых совершенно нет когнитивных искажений и у которых нет поистине фундаментальных разногласий об априорных вероятностях, в такой ситуации никогда бы не оказались. Однако, насколько я могу судить, у людей такое случается довольно часто. В науке предсказания заранее ценятся вовсе не случайно: из-за искажения знания задним числом сложно в той же степени поверить в предсказание, о котором вы узнали уже после того, как оно сбылось.
Пат
: Вы действительно предполагаете, что повсеместная распространённость когнитивных искажений позволяет вам сильнее верить в то, что ваши рассуждения корректны? Моя эпистемология в этих вопросах гораздо прямолинейнее вашей. Применим правило «веские свидетельства всегда можно передать» к описанному случаю. Гипотетический человек, наблюдавший за тем, как Элиезер Юдковский пишет «Цепочки» на LessWrong’е, слышит, как он присваивает существенную вероятность в успехе собственных «Методов», а затем видит, как этот успех наступает, должен просто понять, что на это скажет внешний наблюдатель. А он скажет вот что: вам просто повезло или не повезло — как и в случае покупателя лотерейного билета, который заранее заявил, что владеет паранормальными способностями, а потом ему посчастливилось выиграть.
Элиезер
: Мне это сильно напоминает сложность, которую я однажды описывал для «метода воображаемого изменения взглядов»20. Способности людей к логическим выкладкам не идеальны, поэтому мы не можем быть уверены, что мы рассуждали об априорных вероятностях правильно. Я понимаю, почему сейчас с вашей точки зрения успех «Методов» — это всё равно что выигрыш в лотерею с шансами 1 к 1000. Но если это в самом деле случится, вы не скажете: «Ну надо же, случилось событие с шансами 1 к 1000». Вам придётся задуматься, не было ли ошибки в методе, который вы использовали для определения априорной вероятности. Для лотерейных билетов это неверно, потому что мы слишком хорошо представляем, как в этом случае устроена априорная вероятность. Ну и к тому же, в реальной жизни мы никогда не видели, чтобы кто-то из наших друзей выигрывал в лотерею.
Пат
: Я согласен, что если «Методы» окажутся успешны, я пересмотрю свои взгляды, а не буду настаивать, что я был прав в своей оценке шансов. Поскольку я очень-очень уверен, что этого не случится, я счастлив уступить в этом вопросе. Аргументы против вашего успеха в написании фанфика по Гарри Поттеру мне кажутся достаточно сильными — как и любые другие аргументы с точки зрения взгляда извне.
Незнакомец
: Но мы обсуждаем не это.
Пат
: Неужели?
Незнакомец
: С моей точки зрения, в этом-то и проблема. Если человеку кажется привлекательной эпистемология скромности, он тривиально может изобрести железобетонный аргумент против любого проекта, который включает в себя какое-то важное свершение, небывалое в прошлом. Исключается возможность любого проекта, пытающегося выйти за пределы неадекватности цивилизации.
Пат
: Послушайте. Нельзя просто прийти на какое-то поле деятельности и с первой же попытки захватить там лидерство. Именно об этом и говорит эпистемология скромности. Предполагается, что вы неспособны преуспеть с такими шансами против вас, какие я описал. Возможно, при наличии миллиона претендентов, кто-то преуспеет, хотя скромность предсказывает его поражение. Но если мы выиграем спор 999 999 раз из миллиона, по-моему, это довольно неплохо. Если, конечно, Элиезер не заявит, что проект по написанию нового фанфика по Гарри Поттеру настолько важен, что шанс в 0,0001% всё равно стоит того…
Элиезер
: Я никогда этого не скажу. Никогда. Если скажу, можете меня пристрелить.
Пат
: Тогда почему вы не отвечаете на вполне ясные, вполне обыденные, вполне очевидные аргументы, по которым я думаю, что вы не добьётесь успеха? Нет, серьёзно, что происходит сейчас у вас в голове?
Элиезер
: Ощущение беспомощности от неспособности передать свои мысли.
Незнакомец
: Мрачная ирония.
Пат
: Тогда, уж простите, мистер Элиезер Юдковский, но я думаю, что вы просто иррациональны. И вы даже не слишком стараетесь это скрыть.
Элиезер
(вздыхает): Я могу понять, почему, с вашей точки зрения, это выглядит именно так. Какие-то из моих мыслительных приёмов, которые, с моей точки зрения, помогают мне делать хорошие предсказания и вырабатывать полезные привычки, я передавать умею. Но другие вызывают у меня ощущение беспомощности: я их знаю, но не способен о них рассказать. Этот разговор связан с той частью, про которую я знаю, но не знаю, как описать.
Пат
: И почему я должен в это поверить?
Элиезер
: Например, потому что идеи, про которые я разобрался, как их передать, я передал достаточно впечатляюще. Именно в этом заключалась тайная цель номер 7 написания Цепочек на LessWrong: я хотел дать хороший ключ ко всем техникам, которые я не в состоянии продемонстрировать. Вам я могу лишь сказать, что вы беспокоитесь о вещах, о которых, с моей точки зрения, даже не стоит думать. Весь ваш подход к задаче неверен. Речь не о том, что неверны ваши аргументы. Они просто относятся к неправильному вопросу.
Пат
: И какой же вопрос будет правильным?
Элиезер
: Именно это мне сложно объяснить. Могу сказать, что вам стоит отказаться от всех ваших мыслей по поводу соревнования с другими. Люди, которые были перед вами, в каком-то смысле «зонды»: сигналы эхолота, отражения которых дают вам какое-то представление о сложности задачи. Иногда вы можете проплыть мимо проблем, которые остановили других, и выйти в новую часть океана. И это не обязательно даже приведёт вас к успеху, моя мысль здесь в том, что человек обычно почти ничего не знает о том, что самое сложное в его задаче. Часто совершенно не имеет никакого смысла выяснять, кто именно ваши соперники — насколько они умны, мотивированы или насколько им хорошо платят. Ведь вы можете посмотреть на их работу и оценить её качество.
Пат
: Представим человека, который предсказывает гиперинфляцию, заявляя, что мнение общепризнанных экономистов можно игнорировать, поскольку лишь идиоты могут думать, что если утроить количество денег в экономике, то инфляции не будет.
Элиезер
: Я не представляю, что происходит в головах у таких людей. Однако я сомневаюсь, что проблему можно решить, посоветовав им быть скромнее. Сказать человеку заткнуться и уважать экспертов в общем случае неправильный способ аргументации, потому что он не различает общепринятую экономику (у которой относительно высокие академические стандарты) от общепринятой диетологии (у которой относительно низкие академические стандарты). Я не уверен, что в такой ситуации может надёжно помочь хоть что-нибудь, кроме как понять экономику самому. Если бы я столкнулся с таким человеком, мне следовало бы посоветовать ему почитать побольше блогов по экономике и попробовать внимательно следить за аргументами или, что ещё лучше, почитать учебник по экономике. Однако я сомневаюсь, что если люди будут сидеть тихо и тревожно задавать себе вопросы, не слишком ли они дерзко себя ведут, то это поможет решить описанную проблему. Если и решит, то мы получим другую проблему.
Пат
: То есть, ваша эпистемология на мета-уровне для меня столь же недоступна, как и ваши оценки на объектном уровне.
Элиезер
: Я могу понять ваш скепсис.
Пат
: Почему-то я сомневаюсь, что вы пройдёте идеологический тест Тьюринга за мою точку зрения.
Незнакомец
(улыбаясь): Ну, я-то точно справлюсь с вашим идеологическим тестом Тьюринга.
Элиезер
: Пат, я понимаю, как вы получили ваши оценки. Я не сомневаюсь, что вы даёте советы, желая мне помочь. Однако при этом я воспринимаю ваши советы как проявление тревожности, которая никак не входит в перечень того, о чём мне нужно думать, чтобы создать хорошую книгу. Подобные размышления — бессмысленная трата сил. Если я преуспею, это точно произойдёт не благодаря таким мыслям. Чтобы сделать «Методы» такими, как я хочу, мне стоит думать не о том, насколько я хорош по сравнению с другими людьми. Поэтому я об этом и не думаю.
Пат
: Мне кажется очень странным ваше замечание: «Если я преуспею, это точно произойдёт не благодаря таким мыслям». Оно полезно именно потому, что позволяет не тратить наши усилия на проекты, в которых у нас очень мало шансов преуспеть.
Незнакомец
: Звучит очень разумно. Я могу на это ответить лишь посоветовать провести один день так, как я. Откажитесь от всех мыслей, которые не внесут никакого вклада в ваш успех, если он случится. Возможно, полученный опыт чему-нибудь вас научит.
Элиезер
: Дело в том, Пат… Даже если я просто начну отвечать на ваши возражения и защищать себя от вашей разнообразной критики, это поспособствует развитию привычки, которую я считаю вредной. Вы непреклонно концентрируетесь на мне и моей психологии, и, если я ввяжусь в этот спор и начну защищаться, мне придётся сосредоточиться на себе, а не на моей книге. Из-за этого я потрачу гораздо меньше внимания на то, что должен сделать профессор Квиррелл на первом уроке Защиты. И что ещё хуже, мне придётся защищать собственные решения, а в этом случае мне будет сложнее изменить их в будущем.
Незнакомец
: Подумайте, насколько сложнее Элиезеру будет отказаться от его другого проекта — «Искусства рациональности» — в случае его провала после множества подобных разговоров (реальных или внутренних): разговоров, в которых ему приходится защищать все причины, почему для него нормально считать, что он способен написать научно-популярный бестселлер в области рациональности. Именно поэтому важно не бояться попыток использовать неадекватность цивилизации. Важно, чтобы люди могли пробовать амбициозные проекты, не задумываясь, что они обязаны добиться успеха любой ценой или у них отберут лицензию героя.
Элиезер
: Верно. И… работа мысли, связанная с беспокойством, что может подумать критик и как от него защититься или в чём ему уступить, отличается от работы мысли, которая нужна, чтобы проявить любопытство по какому-то поводу, попытаться узнать ответ и поставить эксперимент. Она отличается от того, как я думаю, когда работаю над задачей в реальном мире. Я должен думать просто о своей работе.
Пат
: Если бы вы просто пытались ради забавы написать неплохой фанфик по Гарри Поттеру, я бы с вами согласился. Но вы говорите, что хотите создать самый лучший фанфик. Это же совершенно другая ситуация…
Элиезер
: Нет! Я как раз пытаюсь вам объяснить, что в моей голове пытаться написать хороший фанфик и пытаться написать самый лучший фанфик — это одно и то же. Есть объектный уровень, и вы его оптимизируете. У вас есть оценка, насколько хорошо вы можете его оптимизировать. Вот и всё.
Пат
: Мне в голову только что пришла забавная мысль. Вы ведь пытаетесь работать над теорией дружественного ИИ…
Элиезер
: Предположу, здесь вы тоже не верите в мой успех.
Пат
: Ну, конечно же, я не верю, что вы сможете спасти мир! (Смеётся.) Мы живём не в фантастической книге. Однако я в самом деле полагаю, что у вас есть основания надеяться внести важный вклад в теорию дружественного ИИ, которая окажется полезной какой-нибудь группировке, разрабатывающей сильный ИИ. Мне показалось интересным, что этого явно будет достичь проще, чем реализовать описанный Незнакомцем в маске сценарий или похожий на него, вероятность чего вы оценили в 10%.
Незнакомец
(улыбаясь): Это совершенно-совершенно-совершенно не так.
Замечу, кстати, что там, откуда я пришёл, выражение «дружественный» ИИ вышло из моды. Мы стали говорить о «соответствии ИИ целям оператора», в основном потому что «соответствие ИИ» меньше отдаёт антропоморфизмом, чем «дружественность».
Элиезер
: Соответствие? Хорошо, меня это устраивает. Однако, Пат, ваши слова оказались для меня неожиданностью. Это выходит за пределы моих представлений о вашем идеологическом тесте Тьюринга. Продолжайте, пожалуйста.
Пат
: Хорошо. Что бы вы там не думали, мои слова не являются универсальным контраргументом, который я применяю к тому, что мне просто интуитивно не нравится. Они основаны на конкретных наблюдаемых доступных сторонним наблюдателям факторам, благодаря которым утверждения можно разделить на правдоподобные и неправдоподобные. Если мы отложим в сторону недоступную интуицию и просто посмотрим на доступные сторонним наблюдателям факторы, то станет совершенно очевидным, что существует огромное сообщество писателей, которые явно пытаются создавать фанфики по Гарри Поттеру. Это сообщество гораздо больше и гораздо активнее — по любой объективной доступной стороннему наблюдателю метрике, — чем сообщество, работающее над вопросами, связанными с «соответствием», «дружественностью» или чем-то там ещё. Оказаться лучшим автором в гораздо большем сообществе — намного неправдоподобнее, чем внести значительный вклад в соответствие ИИ, которым почти никто не занимается.
Элиезер
: Когда я оцениваю относительную сложность задач «внести ключевой вклад в соответствие ИИ» и «довести „Методы“ до уровня, описанного Незнакомцем в маске», относительный размер существующих сообществ, который вы упомянули, мне представляется не важным. Если бы я заранее не ознакомился с фанфиками по Гарри Поттеру, у которых самая лучшая репутация, мне стоило бы учесть число соревнующихся авторов. Однако если я вижу собственными глазами уровень соревнования, то информация о размере сообщества уже не играет для меня никакой роли.
Пат
: Но ведь наверняка размер сообщества должен заставить вас хотя бы задуматься, стоит ли доверять вашей интуиции в том, что вы сможете написать что-то значительно лучшее, чем результат работы столь многих авторов.
Незнакомец
: Видите это мета-рассуждение? С моей точки зрения, когда люди начинают размышляют о мире таким образом, оно портит всё.
Элиезер
: Если вы увидите девушку, жонглирующую несколькими шариками, вы её будете спрашивать, не стоит ли ей внезапно задуматься, входит ли она в референтный класс людей, которые лишь думают, что они хорошо ловят шарики? Это всё просто… бессмысленная трата сил.
Незнакомец
: Социальная тревожность и чрезмерная педантичность.
Элиезер
: Продуктивно работающий мозг сосредоточен на других вещах.
Пат
: Вы утверждали, что взгляд извне — это универсальный контраргумент против любого утверждения о том, что некто с низким статусом может сделать что-то важное. Я объясняю вам, почему метод, опирающийся на наблюдаемые метрики, которые может проверить сторонний наблюдатель, утверждает, что, возможно, вы сможете внести важный вклад в соответствие ИИ, которым больше никто не занимается, но вы не напишете фанфик по Гарри Поттеру с самым большим числом отзывов, потому что с вами соревнуются тысячи авторов.
(Наблюдающая за дискутирующими Женщина
неожиданно подходит к ним и вмешивается.)
Женщина
: Ну, нет. Я больше не могу сдерживаться.
Пат
: Э? Кто вы?
Женщина
: Я истинный голос скромности и взгляда извне!
Я услышала ваш разговор и хочу сказать: внести важный вклад в проблему соответствия ИИ никак не может быть проще, чем написать популярный фанфик.
Элиезер
: …Это, конечно, верно, но кто?..
Женщина: Меня зовут Мод Стивенс21.
Пат
: Ну что ж, Мод, приятно познакомиться. Я всегда рад послушать о своих ошибках, даже если о них говорят люди, которые случайно сталкиваются со мной в парке и при этом подозрительно много обо мне знают. Так в чём же я ошибаюсь?
Мод
: Вы все уверены, будто если человек не говорит о «соответствии» или «дружественности», то его работа не имеет к этим проблемам никакого отношения. Но это просто слова. Если мы учтём специалистов по машинной этике, которые работают над дилеммами вагонетки в реальном мире, экономистов, занимающихся вызванной технологиями безработицей, учёных в области информатики, изучающих вопросы азимовских агентов 22, и им подобных, окажется, что людей, которые пытаются внести вклад в эти вопросы, гораздо-гораздо больше.
Пат
: Что? Элиезер, это правда?
Элиезер
: Насколько я знаю, нет, разве что Мод работает в АНБ и хочет рассказать о каких-то очень интересных засекреченных исследованиях. Примеры, которые она перечислила, не связаны с техническими вопросами, которые я называл «дружественностью». Прогресс в упомянутых Мод вопросах не поможет определить предпочтения, которые с достаточной для нас уверенностью приведут к хорошим результатам, даже если речь идёт о системах умнее нас, способных рассматривать гораздо большее пространство стратегий, чем мы можем представить. Также он не поможет спроектировать системы, остающиеся стабильными при самомодификации, чтобы хорошие свойства исходного ИИ сохранялись, когда он становится умнее.
Мод
: И вы утверждаете, что никто другой в мире не заметил этих проблем?
Элиезер
: Нет, этого я не утверждаю. Вопросы вроде «как нам задать правильные цели для искусственного интеллекта, сравнимого с человеческим?» и «что случится, когда ИИ станет настолько умён, что сможет автоматизировать исследования ИИ?» задаются уже давно. Однако они просто повисают в воздухе и незаметно, чтобы они смещали приоритеты в исследованиях. Нельзя сказать, что сообщество людей, которые вообще думают про суперинтеллект, — мало. Конечно же, есть много направлений работы над надёжностью, прозрачностью и безопасностью в каких-то конкретных системах ИИ, которые случайно могут облегчить работу над соответствием ИИ умнее человека. Однако сообщество людей, которые на ежедневной основе работают и принимают решения о том, какими техническими вопросами заняться, именно чтобы решать вопрос сверхинтеллектуального ИИ, — очень мало.
Мод
: Я на это скажу, что вы просто забегаете вперёд и пытаетесь решать задачу с конца, хотя область пока просто не готова сосредоточить усилия на этом. Возможно, идущая сейчас работа не направлена на вопросы сверхинтеллекта напрямую, но нам стоит ожидать, что существенного прогресса в соответствии ИИ достигнут последователи тех, кто сейчас работает над вопросами вроде применения дронов в боевых целях или вызванной ими безработицы.
Пат
(осторожно): Я хочу сказать, что если Элиезер говорит правду — а я считаю его честным человеком, пусть он по моим стандартам часто и бывает слегка безумен, — то в 2010 году в этой области почти никого нет. Не так уж много людей работают над вопросами, связанными с ИИ умнее человека, и лишь группа Элиезера и Институт будущего человечества в Оксфорде всерьёз утверждают, что занимаются вопросами соответствия ИИ. Если Элиезер утверждает, что задача, как создать ИИ умнее человека, чтобы он нас всех не убил, не относится к полю деятельности нынешних специалистов по машинной этике, то я посчитаю это достаточно правдоподобным, хотя, конечно, мне хотелось бы узнать и другие точки зрения перед тем, как сделать окончательный вывод.
Мод
: Но область, в которой соревнуется Элиезер, не ограничивается людьми, пишущими статьи по этике. Любой, занимающийся машинным обучением, да и вообще любой областью информатики может внести свой вклад в проблему соответствия ИИ.
Элиезер
: Гм, я бы с радостью об этом услышал. Однако победа в данном случае это «задача решена»…
Пат
: Подождите, Мод. Мне кажется, вы выходите за рамки того, что может объективно проверить сторонний наблюдатель. Это всё равно что сказать, мол, Элиезер должен соревноваться со Стивеном Кингом, потому что в принципе Стивену Кингу может взбрести в голову написать фанфик по Гарри Поттеру. Если все эти прочие люди, занимающиеся ИИ, не работают над конкретными задачами, над которыми работает Элиезер, в то время как множество авторов из фэндома по Гарри Поттеру напрямую соревнуются с Элиезером в написании фанфиков, то любой разумный сторонний наблюдатель должен согласиться, что контраргумент «взгляд извне» очень существенен во втором случае, а в первом случае он довольно слаб (если вообще верен).
Мод
: Выходит, написать фанфик сложнее, чем спасти мир? Вы серьёзно? Такого не может быть.
Элиезер
: Пат, я не согласен с аргументами Мод, но у неё преимущество: она рационализирует верный вывод. Соответствие ИИ — сложнее.
Пат
: Я не ожидаю, что вы решите весь вопрос целиком. Но внести значительный вклад в довольно специализированной области знания, которой занимаются очень мало людей, должно быть проще, чем оказаться самым успешным человеком в области, в которой работают множество других.
Мод
: Бред какой-то. Нельзя даже сравнивать писателей фанфиков с экспертами по машинному обучению и профессорами ведущих университетов, которые способны внести гораздо более впечатляющий вклад в исследования сильного ИИ.
Элиезер
: Гм. Прорыв в исследованиях сильного ИИ может быть впечатляющим, но без соответствия ИИ…
Пат
: А вы сами пробовали писать фанфики? Попробуйте. Вы поймёте, что это намного сложнее, чем вам кажется. Если вы хороши в математике, это ещё не означает, что вы можете вот так взять и…
(Незнакомец в маске поднимает руку и щёлкает пальцами. Время останавливается. Затем Незнакомец в маске выжидающе смотрит на Элиезера-2010.)
Элиезер
: Гм. Незнакомец в маске… Вы представляете, что тут происходит?
Незнакомец
: Да.
Элиезер
: Благодарю за лаконичный и содержательный ответ. Не будете ли вы любезны объяснить, что тут происходит?
Незнакомец
: Пат прекрасно знаком с иерархией статусов в сложившемся сообществе фэндома по Гарри Поттеру, в котором есть свои ритуалы, призы, политика и так далее. Однако Пату в силу литературной гипотезы не хватает интуиции на тему, насколько дерзко пытаться внести вклад в соответствие ИИ. Если мы Пата расспросим, скорее всего выяснится, что он полагает, что соответствие ИИ — это круто, но не астрономически важно, или что существует множество других экзистенциальных рисков такого же уровня. Если бы Пат, как вы, верил, что долгосрочные последствия для цивилизации в значительной степени зависят от решения проблемы соответствия, скорее всего, он инстинктивно считал бы эту задачу более престижной. Всё, что он знает о задаче на объектном уровне и о том, сколько людей ей занимаются, осталось бы неизменным, но ощущаемый статус задачи возрос бы.
Мод, в свою очередь, наоборот незнакома с политическими деталями и динамикой статусов среди поклонников Гарри Поттера, но очень чувствительно относится к важности задачи соответствия. Поэтому для Мод интуитивно очевидно, что для внесения вклада в работу над соответствием ИИ требуется гораздо более впечатляющая лицензия героя, чем для написания лучшего в мире фанфика по Гарри Поттеру. Пат этого не понимает.
Элиезер
: Но ведь идеи в области соответствия ИИ нужно формализовать, и полученный формализм должен удовлетворять одновременно множеству разных требований, причём довольно точно. Это очень абстрактная задача с огромным количеством ограничений, потому что нужно вписать неформальную задачу в правильную формальную структуру. Да, при написании художественной литературы мне нужно жонглировать такими штуками как сюжет, персонажи, напряжение, юмор, но всё это остаётся когнитивной задачей с гораздо меньшим числом ограничений…
Незнакомец
: Эти соображения вряд ли приходили в голову Пату или Мод.
Элиезер
: Важно ли то, что я планирую тратить на исследования гораздо больше усилий, чем на написание художественных книг? Если «Методы» не получатся сразу, я быстро сдамся.
Незнакомец
: Извините. Позволено вам делать что-нибудь высокостатусное или нет, не может зависеть от того, сколько, по вашим словам, вы на это планируете потратить сил. Ведь «каждый может так сказать». Без этого нельзя было бы осаживать претендентов. Что совершенно ужасно.
Элиезер
: … … Есть ли какой-нибудь организующий принцип, делающий всё это осмысленным?
Незнакомец
: Полагаю, самые важные понятия, которых вам не хватает: неадекватность цивилизации и поддержание статуса в иерархии.
Элиезер
: Просветите меня.
Незнакомец
: Вы понимаете, как Пат пришёл к оценкам, что должно быть тысяча фанфиков по Гарри Поттеру, сравнимых с «Методами»? И понимаете, почему я прослезился, вообразив такой мир? Представьте, что Мод совершает ту же самую ошибку. Представьте мир, в котором всякий необразованный невежа вроде вас не в состоянии достоверно оценить шансы на то, чтобы внести серьёзный вклад в соответствие ИИ, не говоря уже о том, чтобы чего-то достичь, потому что люди пытаются заниматься серьёзной технической работой с 1960-х. В этом мире люди довольно много думали над этой задачей, вкладывали всю свою смекалку, считали результат довольно важным и потому старались убедиться, что они работают над правильной задачей и используют надёжные технологии. Функциональная теория принятия решений изобретена в 1971 году, через два года после публикации Роберта Нозика «Задача Ньюкома и два принципа выбора». Все полагают, что у человеческих ценностей высокая колмогоровская сложность. Все понимают почему, если вы программируете максимизатор ожидаемой полезности с функцией полезности U, а на самом деле вы под ней подразумевали V, то у U-максимизатора появятся инструментальные стимулы убедить вас в том, что он V-максимизатор. Никто не предполагает, что можно «просто выдернуть вилку из розетки» у чего-то гораздо умнее его. И все прочие мировые крупномасштабные активности и институты изменились соответственным образом.
Мы можем назвать такой мир «адекватным миром» и противопоставить его ныне существующему. У «адекватного мира» есть свойство, которое можно назвать «неиспользуемость» — или, по крайней мере, «неиспользуемость Элиезером». Можно провести аналогию. Вы не можете предсказать изменение стоимости акций Майкрософт на 5% в ближайшие шесть месяцев. Возьмём это свойство акций из S&P 500 и отмасштабируем на всю планету: вы не можете превзойти экспертов, вы не можете найти познаваемую ошибку. В «адекватном мире» эксперты всё равно совершают ошибки, они не идеальны. Но на групповом уровне они умнее и точнее, чем Элиезер Юдковский, поэтому вы не в состоянии понять, что является эпистемической или моральной ошибкой, точно так же, как вы не в состоянии понять, отклонилась ли цена на акции Майкрософт от рыночной вверх или вниз.
Элиезер
: Ладно… Я могу понять, почему рассуждения Мод были бы разумны в «адекватном мире». Но как она согласовывает аргументы, приводящие к её выводам, с миром, в котором мы живём и который значительно отличается от «адекватного»? Не похоже, что Мод в состоянии сказать: «Смотри, очевидно, проблема уже решается», потому что проблема, очевидно, не решается.
Незнакомец
: Предположим, вы инстинктивно регулируете претензии на статус, стараясь добиться того, чтобы никто не получил статус выше, чем заслуживает.
Элиезер
: Ладно…
Незнакомец
: Это поощряет поведение, которые вы назвали «лицензия героя». Ваша текущая модель считает, что люди прочли слишком много книг, где протагонист родился под знаком сверхновой, у него есть легендарный меч, и они не понимают, что реальность устроена не так. Или, например, люди связывают достижения Эйнштейна с его нынешним престижем, не осознавая, что до 1905 года Эйнштейну никто не предсказывал величайшую судьбу.
Элиезер
: Верно.
Незнакомец
: Неверно. Ваша модель статуса героя заключается в том, что за героическую службу племени должна быть награда. Вы считаете, что, хотя, конечно же, нельзя разрешать людям претендовать на статус героя, если они пока ещё не послужили племени, но ни у кого не должно быть интуитивных возражений против того, что кто-то попробует племени послужить. Да, при условии, что желающий тщательно подчеркнёт, что пока он ещё ничего не добился и не считает, что ему уже положен высокий статус.
Элиезер
: …и это неверно?
Незнакомец
: Для «нечутких к статусу» людей, вроде вас, эта модель прекрасно работает. Но обычно эмоции в отношении статуса работают не так. Если коротко, для того, чтобы претендовать на какой-то высокий статус, вы уже должны получить какой-то статус. И у большинства людей это довольно базовое ощущение, нельзя сказать, что кто-то этому учит.
Элиезер
: Но до 1905 года Эйнштейн работал в патентном бюро. У него даже не было учёной степени. В смысле, Эйнштейн был нетипичным работником патентного бюро, и, без сомнения, он это понимал, но сторонний наблюдатель, посмотрев на его резюме…
Незнакомец
: Мы сейчас говорим не об эпистемических предсказаниях. Это просто факт о том, как работают человеческие эмоции, когда дело касается статусов. В глазах Пата наличие определённой вероятности написать самый популярный фанфик по Гарри Поттеру идёт вместе с определённым статусом. В глаза Мод наличие определённой вероятности внести важный вклад в проблему соответствия ИИ идёт вместе с определённым статусом. Поскольку ваш текущий статус в соответствующей иерархии они оценивают гораздо ниже, вы не имеете права заявлять о соответствующих оценках вероятностей или вести себя так, как будто считаете, что они верны. Вам нельзя просто попробовать и посмотреть, что получится, потому что это подразумевает, что какая-то вероятность успеха у вас есть. Сама претензия на то, что вы можете взять и попробовать, — уже претензия на статус и потому вас нужно осадить. Если этого не сделать, любой сможет претендовать на слишком высокий статус, и это будет ужасно.
Элиезер
: Хорошо. Но как отсюда происходит переход к заблуждениям об адекватности цивилизации?
Незнакомец
: Благодаря обратной цепи рационализаций, возможно, с примесью веры в справедливый мир и искажения «статус-кво». Если сказать экономисту, что можно каждый год удваивать свои вложения, продавая и покупая акции Майкрософт, пользуясь каким-то простым алгоритмом, он очень удивится. После этого экономист начнёт прикидывать, почему этот самый алгоритм не сработает, какой в нём есть незаметный риск — ему захочется сохранить идею о неиспользуемости рынка ценных бумаг, и это вполне естественно.
Пат пытается сохранить идею о том, что «рынок фанфиков» «неиспользуем Элиезером» — поскольку интуитивно ему кажется, что у вас слишком низкий статус, чтобы добиться успеха на этом рынке. Это приводит его к мысли, что существует ещё тысяча людей, которые пишут фанфики по Гарри Поттеру не хуже, чем вы. В результате Пат воображает мир, который адекватен в соответствующем отношении. В этом мире усилия авторов дёшево конвертируются в популярные истории, поэтому простой смертный не способен предсказать, что он напишет более популярную историю. А адекватность мира в прочих отношениях гарантирует, что любой посторонний, который на самом деле способен переиграть этот рынок — например, Нил Гейман, — уже богат, почитаем и так далее.
И это распространённое явление. Если некто верит, что у вас недостаточно высокий статус, чтобы делать предсказания лучше, чем Европейский Центральный Банк, он будет считать, что Европейский Центральный Банк справляется со своей работой довольно хорошо. Экономист не скажет, что Европейский Центральный Банк обязательно хорошо справится со своей работой: он порекомендует обратить внимание на стимулы, на то, что лица, принимающие решения, не получат гигантские бонусы за то, что экономика Европы улучшится. Однако невозможно, чтобы Элиезер был умнее Европейского Центрального Банка, ведь в этом случае нарушится иерархия статусов. Чтобы мировую иерархию статусов нельзя было оспорить, она должна быть правильной и мудрой, чтобы она была правильной и мудрой, она должна быть неиспользуемой. Интуитивное понимание неадекватности цивилизации очень сильно помогает рассеивать миражи вроде лицензии героя или эпистемологии скромности. Ведь когда эпистемология скромности своей цепью рационализаций объясняет, почему некто не в состоянии совершить что-то значимое, она приводит к необходимости заявить об адекватности цивилизации.
Элиезер
: Но цивилизация в некоторых областях может быть неиспользуемой, даже если она не является адекватной. А вы, кажется, утверждаете, что Пат и Мод в основном заботит неиспользуемость.
Незнакомец
: Можно воображать мир, где ни у кого нет стимулов заниматься проблемой соответствия ИИ и потому ей почти никто не занимается, более того, люди, которые знают о проблеме и хотели бы её решать, всё равно не занимаются ей, потому что конкуренция приводит к тому, что они лишаются каких-то ценных ресурсов. Можно воображать мир, который неиспользуем для вас, но используем для многих других. Однако заявление об адекватности цивилизации подтверждает текущую иерархию статусов гораздо сильнее и гораздо надёжнее. Идея адекватного мира более точно соответствует интуитивному представлению, что самые уважаемые и самые авторитетные люди мира заслуженно занимают своё место: они слишком хорошо организованы, слишком хорошо информированы, действуют в самых лучших намерениях и потому человек с улицы не в состоянии распознать творение Молоха вне зависимости от того, способен он с ним что-то сделать или нет. Кроме того, чтобы разговаривать о неиспользуемой неадекватности, нужно лучше знать микроэкономику, о том, как люди пытаются использовать рынки и какие проблемы они при этом пытаются решать. Заявить об адекватности цивилизации гораздо легче.
Неадекватности цивилизации — это основная причина, почему мир в целом нельзя назвать неиспользуемым в той же мере, как краткосрочный рынок ценных бумаг. А эпистемология скромности, грубо говоря, утверждает, что вы не можете прогнозировать неиспользуемость мира, потому что не можете быть уверены, что ориентируетесь в чём бы то ни было лучше экспертов.
Элиезер
: Это… я, кажется, понял… Но я всё ещё не понимаю, как на самом деле думает Мод.
Незнакомец
: Что ж, смотрите.
(Незнакомец в маске поднимает руку и снова щёлкает пальцами. Время запускается снова.)
Пат
: …стать лучшим в литературе, потому что какие-то там фанфикописатели тупые.
Мод
: Мой дорогой друг, пожалуйста, задумайтесь о ваших собственных словах. Если проблема соответствия ИИ действительно настолько важна, как уверяет Элиезер, оказался ли бы он одним из немногих людей, которые над ней работают?
Пат
: Ну, всё выглядит так, будто так и есть.
Мод
: Значит, проблема не может быть такой важной, как он уверяет. Иначе бы получилось, что какой-то странный одиночка обнаружил важную проблему, над которой работает лишь он и ещё парочка человек. А это означало бы, что все остальные, занимающиеся этой областью, идиоты. Кто такой Элиезер, чтобы игнорировать академический консенсус о том, что проблема соответствия ИИ не слишком интересна, чтобы над ней работать?
Пат
: Я вполне могу представить некоторые препятствия, с которым, возможно, сталкивается типичный учёный, который хочет работать над соответствием ИИ. Например, быть может, на такую работу сложно получить грант.
Мод
: Если на неё тяжело получить грант, значит, люди, распределяющие гранты, справедливо рассудили, что эта проблема не является приоритетной.
Пат
: Вы хотите сказать, что в финансировании науки уже всё настолько хорошо, что все стоящие направления исследований уже кем-то разрабатываются?
Незнакомец
: Кто конкретно из людей, распределяющих гранты, будет получать меньше в мире, где соответствие ИИ — важная проблема, но на неё не выделяются гранты? Если никто не лишается своих премий или ещё чего-нибудь ценного, то вот вам и ответ. Никакой загадки здесь нет.
Мод
: Все свидетельства прекрасно согласуются с гипотезой, что гранты не выделяются, потому что грантодатели приняли продуманное и информированное решение: соответствие ИИ — не проблема вовсе.
Элиезер
: Пат, спасибо вам за защиту, но, думаю, я здесь объясню лучше. Как я уже упоминал, вопросы вроде взрыва интеллекта и мысль о том, что при построении системы целеполагания ИИ это надо как-то учесть, придумал не я. Это довольно широко известные идеи, и люди любого уровня важности зачастую охотно соглашаются обсудить их с глазу на глаз. Хотя, конечно, есть разногласия относительно величины риска и относительно того, какие именно усилия будут более всего полезны, чтобы его снизить. Вы можете найти обсуждение этого вопроса в популярнейшем вузовском учебнике по ИИ: «Искусственный интеллект: современный подход»23. Поэтому нельзя утверждать, что среди исследователей есть консенсус о том, что эта проблема не важна.
Мод
: Значит, грантодатели скорее всего тщательно оценили эту проблему и решили, что процветание человечества в долгосрочной перспективе лучше всего обеспечить путём прогресса в области ИИ каким-то ещё способом, а над соответствием работать, лишь когда мы достигнем некоего порога возможностей. По всей вероятности фонды ждут именно этого, чтобы запустить широкомасштабное исследование в области соответствия ИИ.
Элиезер
: И как именно грантодатели могли прийти к подобному решению, не изучив задачу каким-нибудь заметным образом? Если всё сообщество, выделяющее гранты, способно прийти к консенсусу такого уровня, то где статьи и анализы, которыми они воспользовались, чтобы прийти к своему решению? Каковы аргументы сторон? Ваши слова звучат так, будто вы говорите о тайном заговоре компетентных грантодателей из сотни различных организаций, которые каким-то образом получили доступ к литературе о стратегических и технических исследованиях — или даже провели их сами, — о которых не слышал ни Ник Бостром, ни я. Благодаря этим исследованиям эти грантодатели установили, что задачи, которые решаются сейчас, которые кажутся важными и поддающимися исследованию, вряд ли к чему-то приведут, однако в будущем всё будет развиваться в каком-то конкретном известном направлении с известной скоростью, что подготовит почву для позднейшего скоординированного вмешательства.
Вы утверждаете, что хотя все исследователи привычно на кофе-брейках обсуждают самоулучшающийся ИИ и законы Азимова, существуют какие-то тайные веские причины того, почему изучать эту задачу — плохая идея? И все грантодатели пришли вместе к этой мысли, не оставив никакого следа о том, как именно они приняли это решение? Я просто… В том, как устроено распределение грантов и в функционировании научного сообщества существует столько прекрасно известных и абсолютно естественных ошибок, что соответствие ИИ вполне может оставаться критично важной проблемой, которую тем не менее учёные вовсе не рвутся решать. Однако вы постулируете огромный мировой заговор из никому не известных компетентных людей, которые руководствуются тайными анализами и обсуждениями. Как вы вообще до этого дошли?
Мод
: Потому что иначе…
(Незнакомец снова щёлкает пальцами.)
Незнакомец
: Ну что же, Элиезер-2010, ответьте на свой вопрос. Как Мод до этого дошла?
Элиезер
: С точки зрения Мод… Чтобы всякие не слишком значимые или неавторитетные личности не решали важные задачи, не должно быть низко висящих плодов, про которые можно понять, что это низко висящий плод. Если существуют важные задачи, не затронутые системой грантов и прочих вознаграждений в научной среде, то кто-нибудь вроде меня может понять, что над ними стоит работать. Если есть какие-то проблемы, связанные с грантодателями или стимулами в научной среде, и кто-нибудь вроде меня может опознать эти проблемы, то становится вероятно, что кто-то не важный вроде меня узнает, что есть важная задача, над которой никто не работает. Декларируемое Мод состояние научной системы да и всего мира в целом — это цепочка рассуждений, вызванная необходимостью не допустить существование низко висящих плодов.
Сперва Мод пыталась утверждать, что задача о соответствии ИИ уже активно исследуется, как это и было бы в адекватном мире, который вы описали. Когда эту позицию стало сложно защищать, она переключилась на утверждение, что авторитетные аналитики изучили задачу и дружно решили, что она не важна. Когда и эту позицию стало сложно защищать, она переключилась на утверждение, что авторитетные аналитики изучили задачу и дружно изобрели какую-то лучшую стратегию, которая включает временную приостановку работ над этой задачей.
Незнакомец
: И у этих очень разных гипотез есть общее свойство: они утверждают, что в особо ценных исследованиях существует что-то похожее на эффективный рынок: люди и коллективы с достаточно высоким статусом в научной системе не могут ошибиться так, чтобы это стало заметно.
Возможно, дальше бы Мод предположила, что лучшие исследователи уже определили, что это лёгкая задача. Или что есть тайный консенсус, что сильный ИИ не появится ещё несколько веков. По моему опыту воображение у людей вроде Мод иногда не знает границ. Всегда найдётся какой-то ещё вариант.
Элиезер
: Но почему люди всё это придумывают? Никакой экономист не сказал бы, что тут можно обнаружить эффективный рынок.
Незнакомец
: Мод скажет, конечно, система не идеальна. Однако продолжит, что мы тоже не идеальны. Все, кто распределяют гранты и научные должности, ничуть не хуже нас и делают всё, что в их силах, чтобы исправить те искажения в системе, которые в состоянии заметить.
Элиезер
: Но ведь это явно противоречит и наблюдениям, и экономической теории стимулов.
Незнакомец
: Да. Однако это принимается за истину. Ведь если эксперты могут ошибаться, значит мы тоже можем ошибаться, верно? Может быть, это у нас систематически неправильные стимулы и лишь краткосрочные вознаграждения.
Элиезер
: Но ведь находиться внутри системы с плохо спроектированными стимулами, это не то же самое, что быть неспособным определить истину в… о, я понял.
Это было очень познавательно, Незнакомец в маске. Спасибо.
Незнакомец
: Спасибо за что, Элиезер? Указать человеку на проблему — не слишком большая услуга, если он ничего не может с ней сделать. Вы не получите никакого преимущества по сравнению с основной временной линией.
Элиезер
: Всё равно лучше хоть немного понимать, что именно происходит.
Незнакомец
: Это тоже ловушка, и мы оба это понимаем. Если вам нужна сложная теория, чтобы подтвердить, что вы видите очевидное, то со временем эта теория будет лишь усложняться и отвлекать вас. Вам придётся всё старательней перепроверять себя. Гораздо лучше просто принимать вещи такими, какие они есть, и не придумывать для этого огромных аргументов. Если вам нужно проигнорировать чей-то совет, лучше не сочинять много сложных обоснований, почему вы имеете на это право: так вам будет легче впоследствии передумать и всё же принять этот совет, если случится так, что вам он станет нравиться больше.
Элиезер
: Верно. Тогда зачем вы мне всё это рассказываете?
Незнакомец
: А всё это время я обращался не к вам. Последний мой урок заключается в том, что я никогда не рассказываю такие штуки себе.
(Незнакомец трижды поворачивается вокруг своей оси. Его никогда тут не было.)
Среди бумажных дорожных карт одни полезнее других. Иногда это связано с тем, насколько хорошо карта отражает территорию, однако стоит ещё учитывать и особенности самой карты, не связанные с территорией. Например, линии на карте могут быть жирными и смазанными и из-за этого нельзя разобрать, насколько далеко дорога проходит от реки. Или, скажем, непонятно, какой дороге соответствует какая подпись.
Я хочу показать, что у моделей тоже есть свойство, которое не связано с моделируемым. Оно связано с понятностью моделируемого, но лишь в той же степени, как смазанные линии на дорожной карте связаны с понятностью этой карты.
«Насколько детерминировано сопряжены переменные в модели?» – вот что это за свойство. Я знаю, что есть несколько критериев, которые показывают в какой мере модель обладает данным свойством. Вот далеко не полный список таких критериев:
По-моему, множество разных тем, затронутых на LessWrong, связаны с этим крайне важным свойством. Кроме того, из него можно вывести множество идей и приёмов, но об этом позже.
Я начну с нескольких примеров, а в конце подведу итог и напишу, к чему же всё это.
Взглянем на эти шестерёнки в ящике:
(Рисунок любезно предоставлен моим коллегой, Дунканом Сабиеном.)
Пусть они представляют собой модель внутреннего устройства некой системы из шестерней. Тогда, после поворота левой шестерни против часовой стрелки правая шестерня может повернуться как по ходу движения часовой стрелки, так и против. Созданная таким образом модель не отвечает описанным выше трём критериям:
Представим, что Джо заглядывает внутрь ящика и говорит: «Правая шестерня вращается по часовой». Ты полагаешь, что Джо так скажет скорее в том случае, когда правая шестерёнка вращается по часовой, чем наоборот и это выглядит свидетельством в пользу гипотезы вращения по часовой стрелке. Чем больше людей, подобных Джо, заглядывают в ящик и говорят то же самое, тем больше накапливается свидетельств.
А теперь заглянем внутрь ящика:
…и теперь мы не понимаем, что же случилось с Джо.
Второй критерий здесь кажется мне особенно важным. Утверждение Джо и очевидная модель не могут быть верны одновременно. И не важно, сколько вообще людей согласны с утверждением Джо. Либо абсолютно все они неправы, либо твоя модель неверна. Логика неуязвима к социальному давлению. То есть, если набрать достаточно свидетельств о том, насколько хорошо твоя карта соответствует данной территории, и эти свидетельства говорят, что твоя карта в целом верна, то у тебя есть весомые эпистемические обоснования пренебречь мнением многих других людей. Собирая свидетельства о соответствии карты и территории ты скорее обнаружишь правду, чем если будешь собирать свидетельства о мнениях других людей.
Любопытно также обратить внимание на первый критерий. Предположим, что правая шестерня и в самом деле крутится по часовой стрелке в том случае, когда левая крутится против часовой. Что из этого следует? Например, из этого следует то, что твоя исходная модель (если я правильно её себе представляю) неверна. Однако она может быть неверна лишь ограниченным количеством способов. Возможно, вторая шестерня слева находится на вертикальной направляющей и, вместо того, чтобы вращаться, движется вверх. Для сравнения: фраза вроде «шестерни работают от волшебства» не даст тебе такой точности.
Объединив эти две идеи, мы переводим взгляд на Джо и замечаем, что можем сформулировать более точные утверждения, чем просто «Джо неправ». Мы знаем, что либо модель шестерней Джо неверна (например, он считает, что какая-то из шестерёнок перемещается по вертикали), либо его модель расплывчата и не так ограничена, как наша (например, он просто сосчитал шестерни и ошибся), либо Джо лжёт. Первые два варианта дают проверяемые предсказания: если его модель неверна, она неверна каким-то конкретным образом; если его модель расплывчата, то должно быть место, где она не удовлетворяет тем трём критериям внутренней связанности моделей. Если во время разговора с Джо мы сконцентрируемся на этих двух возможностях и выяснится, что обе они не соответствуют действительности, то станет ясно, что Джо просто несёт чушь (либо мы не придумали четвёртый вариант).
Благодаря этому примеру у нас в CFAR появился термин: «шестерёночная модель» или «модель на основе шестерёнок». Когда мы подмечаем взаимосвязь, мы говорим о «поиске шестерёнок». Я буду использовать этот термин и дальше.
При сложении 25 и 18 столбиком нужно перенести 1 в разряд десятков. Обычно при этом пишут единицу над двойкой в числе 251.
Забавно то, что можно складывать числа столбиком, совершенно не понимая, что означает эта единица над двойкой и по какой причине её надо ставить.
На самом деле, это достаточно важная проблема при обучении математике. На практике есть расхождение между тем, чтобы (а) запомнить и отработать алгоритмы, которые позволяют быстро вычислять ответы, и (б) «по-настоящему понять» как именно работают эти алгоритмы.
Увы, в сфере образования люди часто устраивают философские дебаты о том, что значит «понимать», и меня это довольно сильно раздражает. Обычно эти споры выглядят так:
И так далее.
(Хотел бы я, чтобы такие споры проходили в атмосфере совместного поиска истины. К сожалению, научное сообщество этого не ценит, поэтому вряд ли я этого дождусь.)
Мне кажется, А пытается указать на то, что у таких учеников модель алгоритма сложения столбиком не шестерёночная (и явно было бы лучше, если бы она стала таковой). Полагаю, что это проясняет и то, что что говорит А, и почему это так важно. Сверимся с нашими критериями:
Кажется, в этом контексте полезно табуировать слово «понимать».
Моя мать очень любит изучать историю.
Прямо сейчас, это, вероятно, несвязанный ни с чем случайный факт в твоей голове. Если через месяц я спрошу тебя: «Нравится ли моей матери изучать историю?», ты можешь попытаться вспомнить ответ но с тем же успехом можешь решить, что мир устроен по-другому.
Но только не в моём случае. Если я забуду, как именно мама относится к изучению истории, то я смогу сделать разумное предположение, основанное на общей интуиции. Если я вдруг узнаю, что она не любит историю, это вряд ли окажется для меня крушением основ; в то же время я буду всерьёз озадачен, и задумаюсь, верна ли моя интуиция по поводу того, почему мама увлечена растениями и почему ей нравится общаться с семьёй. Я задумаюсь о том, что недостаточно хорошо понимаю, что за человек моя мать.
Как можно заметить, это применение критериев 1 и 3. При этом, моя модель моей матери не полностью шестерёночна. Я не могу сказать, что она чувствует прямо сейчас или какое из определений деления3 ей ближе. Но критерии показывают, что моя модель моей матери шестерёночнее твоей модели.
Этим примером я хочу подчеркнуть, что свойство «шестерёночности» у моделей небинарно. Это скорее характеристика в диапазоне от «набор случайных поверхностных бессвязных фактов» до «четкой формальной системы с выверенными логическими умозаключениями». (По-крайней мере, так я сейчас представляю себе этот диапазон.)
Кроме того, я считаю, что «узнать» человека как раз и означает повысить шестерёночность своей модели этого человека. «Узнать» человека — это не запомнить несколько разрозненных фактов о том, где он работает, сколько у него детей и чем он увлекается. «Узнать» человека — это значит уточнить степень своего искреннего удивления при получении нового факта, который не вписывается в уже имеющуюся модель твоего знакомого.
(А вот то, насколько твоя шестерёночная модель на самом деле подходит кому-то, кого ты знаешь — это уже вопрос эмпирического характера и относится он к соответствию карты и территории. Сейчас я бы хотел сосредоточиться только на свойствах карт.)
Я считаю, что такие едва шестерёночные модели позволяют нам предполагать, что именно ведущий популярной детской телепередачи4 думает про тех людей, которые издеваются над кошками в Хэллуоин, даже если он никогда не упоминал эту тему. Исходя из критерия №2, вероятно, ты будешь весьма потрясён, если получишь веские свидетельства в пользу того, что он оказался одним из таких людей, и скорее всего, таких свидетельств потребуется действительно много. Согласно критерию №1 тебе потребуется обновить большое количество своих убеждений об этом человеке. Предполагаю, что многие пережили что-то вроде «Да кто же он такой на самом деле?!», когда против Билла Косби выдвинули множество обвинений в совершении преступления5.
Наблюдая поведение гироскопа большинство людей невольно удивляются. Даже если они логически знают, что подвешенный гироскоп не упадёт, а станет вращаться, то они обычно всё-таки чувствуют, что это как-то странно. Даже те, кто интуитивно понял работу гироскопов, поначалу привыкали к этому и, скорее всего, считали гироскопы удивительными и контринтуитивными.
Как ни странно, для большинства людей допустимо представить себе мир, в котором физика работает точно так же, как в нашем, и только подвешенные за один конец гироскопы сначала падают, а после продолжают вращаться.
Если вы из таких людей, это значит что ваша физическая модель гироскопов не удовлетворяет второму критерию шестерёночности.
Истинная причина, по которой гироскопы ведут себя именно так, как они себя ведут, выводится из трёх законов Ньютона. Представим модель вращения, где а) исполняются три закона Ньютона, и б) подвешенный за один конец гироскоп не вращается, а падает — такая модель не будет согласованной. И если а) и б) кажутся тебе допустимыми одновременно, в твоей модели вращения не хватает шестерёнок.
Вот что привлекает меня в физике — вообще всё состоит из шестерёнок. По-моему, физика — это система шестерёнок, которая возникает при наблюдении за поведением любого физического объекта, вопрошании «Почему он ведёт себя так?» и поиске подходящих шестерёнок. Хотя этот уровнь абстрации и отличается от «шестерёнок людей», но мы ожидаем(по-крайней мере, теоретически), что по мере развития физики удастся соединить шестерёнки механики с шестерёнками, движущими романтическими отношениями.
Хочу сразу пояснить, я не утверждаю, что мир сделан из шестерёнок — такое утверждение содержит ошибку типизации. Как я считаю, суть в самом свойстве шестерёночности, которое позволяет строить более полезные модели — чем модель шестерёночнее, тем больше истины она позволяет узнать о мире.
Подчеркну, что хотя я и считаю, что при прочих равных, чем больше шестерёнок, тем лучше, у моделей есть и другие важные свойства.
Самое очевидное из них — это точность. Большую часть этого эссе я его умышленно игнорировал. Именно для этого свойства крайне важна добродетель эмпиризма. Я же здесь эмпиризм игнорировал, но надеюсь, что не противоречил ему.
Другое важное свойство — генеративность. Приводит ли модель к получению полезного опыта (что бы не значило слово «полезный» в этом контексте)? К примеру, многие воззрения о Боге, божественном или других подобных вещах слишком абстрактны, чтобы окупаться. Однако некоторые люди всё же считают их полезными для переосмысления эмоционального восприятия красоты, смыслов и других людей. Я знаю несколько бывших атеистов, которые считают, что благодаря принятию христианства сделались гораздо более приятными людьми и наладили личные отношения. С эпистемической точки зрения тут есть чего опасаться — религиозный способ мышления проникает в утверждения о реальном устройстве мира. Но если ты эпистемически осторожен, то, возможно, стоит изучить, как использовать силу веры без эпистемологического ущерба.
Так же я считаю, что применение модели имеет смысл даже при нехватке в ней шестерёнок. На самом деле, во многих ситуациях у нас просто нет другого выбора — подавляющее большинство наших моделей не получается полностью связать с физикой. Например, я хотел бы подарить матери некую книгу, поскольку считаю, что она ей понравится; однако в рамках моей модели я могу придумать вариант, почему книга ей может оказаться не интересна. Да, моя модель матери ограничена довольно слабо, но я не считаю, что из-за этого (а) я не должен использовать эту модель или (б) не следует изучать, «почему» я могу оказаться прав и не прав. (Я отношусь к этому, как к предварительным вычислениям: каким бы не оказался мир, мои модели становятся более «чёткими», в них появляется больше шестерёнок. Просто так получается, что я заранее знаю, где они появятся.)
Я это упоминаю, потому что, кажется, зачастую в рационалистских кругах считают, что не стоит обсуждать модели, в которых не хватает шестерёнок. Я против такого подхода. Конечно, я считаю, что очень важно следить за шестерёночностью твоей модели, а не замечать нехватку шестерёнок так и просто просто эпистемически опасно. Очень полезно уметь отличать, хотя бы для себя, в какой модели есть шестерёнки, а в какой — нет. Однако я думаю, что, когда мы пытаемся выстроить правильную эпистемологию, есть и другие качества, не менее важные.
Я бы хотел, чтобы мы помнили о причине, по которой шестёрнки ценны на самом деле, а не зацикливались на шестерёночности самой по себе.
Я считаю, что концепция «шестерёнки в моделях» очень помогает продираться через непонятное. Она защищает наше понимание мира от социальной глупости и требует некоторой строгости мышления, которая, на мой взгляд, объединяет многие идеи в Цепочках.
Я собираюсь развивать эту концепцию и дальше вместе с другими идеями. В частности, я ещё не говорил откуда мы вообще знаем, что шестерёнки достойны внимания. Поэтому, хоть я и рассматриваю шестерёнки как мощное оружие в нашей войне против низкого уровня здравомыслия6, я полагаю, что важно изучить кузницу, в котором оно ковалось. Возможно, это не будет моим следующим постом, но, надеюсь, одним из ближайших.
Я твой герой!
Я твой мастер!
Изучай мои искусства
Ищи мой путь
Учись, как учился я
Ищи, как искал я
Завидуй мне!
Равняйся на меня!
Соперничай со мной!
Превзойди меня!
Оглянись,
Улыбнись,
И иди вперед!
Я никогда не был твоим городом,
Я был лишь одним из участков твоего пути.
Английский (исходный) вариант:
I am your hero!
I am your master!
Learn my arts,
Seek my way.
Learn as I learned,
Seek as I sought.
Envy me!
Aim at me!
Rival me!
Transcend me!
Look back,
Smile,
And then—
Eyes front!
I was never your city,
Just a stretch of your road.
Миссия MIRI – сделать так, чтобы создание искусственного интеллекта умнее человека привело к положительным последствиям. Почему эта миссия важна и почему мы считаем, что уже сегодня над этим можно работать?
В этом и в следующем эссе я попробую ответить на эти вопросы. Здесь я опишу четыре, по моему мнению, самые важные предпосылки, на основе которых появилась наша миссия. Я попытаюсь явно сформулировать утверждения, на которых базируется моё убеждение в том, что наша работа очень важна. Этому же вопросу посвящены, например, «Пять тезисов» Элиезера Юдковского и «Почему MIRI» Люка Мюльхаузера.
Мы называем эту способность «интеллектом» или «универсальным интеллектом». Это определение не является формальным: если бы мы точно знали, что такое интеллект, нам было бы гораздо легче запрограммировать его. Однако мы считаем, что такое явление как универсальный интеллект существует, пусть пока мы и не можем повторить его в коде.
Альтернативный взгляд: Универсального интеллекта не существует — вместо него у людей есть набор отдельных узкоспециализированных модулей. Компьютеры будут совершенствоваться в определённых узких задачах, таких как шахматы или вождение автомобиля, но никогда не станут универсальными, потому что универсальность недостижима. (Аргументы в пользу этой точки зрения приводил Робин Хансон.)
Короткий ответ: Поскольку люди осваивают области, совершенно чуждые их предкам, гипотеза «отдельных модулей» представляется мне неправдоподобной. Я не заявляю, что универсальность интеллекта – это какое-то нередуцируемое оккультное свойство. Предположительно, оно проистекает из набора когнитивных механизмов и их взаимодействий. Однако в целом именно это делает людей куда более когнитивно гибкими, чем, скажем, шимпанзе.
Почему это важно: Люди начали доминировать над другими видами не за счёт большей силы или ловкости, а за счёт большего интеллекта. Раз некая ключевая часть этого обобщённого интеллекта смогла эволюционировать за несколько миллионов лет, прошедших с нашего последнего общего предка с шимпанзе, возможно, некоторое небольшое количество озарений приведут к тому, что инженеры смогут создать мощный универсальный ИИ.
Дальнейшее чтение: Саламон и др. «Насколько интеллект понятен?»
Большинство исследователей в MIRI не уверены, когда именно будет разработан превосходящий человека ИИ. Мы, однако, ожидаем, что: (а) искусственный интеллект, равный человеческому, однажды появится (если не случится каких-то катастроф, то вероятно, в течении века); и (б) компьютеры могут стать значительно умнее любого человека.
Альтернативный взгляд 1: Мозг делает что-то особенное, что нельзя воссоздать на компьютере.
Короткий ответ: Мозги – это физические системы, и если верны некоторые версии тезиса Чёрча-Тьюринга, то компьютеры могут в принципе воссоздать связь ввода и вывода любой физической системы. К тому же, заметим, что «интеллект» (в моём использовании термина) – это способность решения задач: даже если есть какая-то специальная человеческая черта (как квалиа), которую нельзя воссоздать на компьютере, это не важно, если только эта черта каким-то образом не мешает нам проектировать системы, решающие задачи.
Альтернативный взгляд 2: Алгоритмы, на которых основывается универсальный интеллект, настолько сложны и недоступны расшифровке, что люди не смогут запрограммировать что-то подобное ещё много веков.
Короткий ответ: Это звучит неправдоподобно с учётом эволюционных свидетельств. Род Homo отделился от других всего 2.8 миллиона лет назад, и прошедшего времени – всего мгновения с точки зрения естественного отбора – было достаточно, чтобы у людей появились когнитивные преимущества. Из этого можно заключить, что какие бы особенности ни отличали людей от менее интеллектуальных видов, вряд ли они очень сложные. Составные части универсального интеллекта должны присутствовать уже в шимпанзе.
На самом деле, относительно интеллектуальное поведение дельфинов позволяет предположить, что эти составные части скорее всего были уже у напоминающего мышь последнего общего предка людей и дельфинов. Можно заявить что и на искусственный интеллект равный мышиному уйдёт много веков, но это утверждение становится крайне сомнительным, если посмотреть на быстрый прогресс в области ИИ. В свете эволюционных наблюдений и последней пары десятилетий исследований ИИ, похоже, что интеллект – это что-то, что мы сможем понять и запрограммировать.
Альтернативный взгляд 3: Люди уже находятся на пределе физически возможного интеллекта или очень близки к нему. Так что, хоть мы и сможем создать равные человеку машины, создать суперинтеллект не получится.
Короткий ответ: Было бы удивительно, если бы человеческий разум оказался идеально приспособленным для рассуждений, — по тем же причинам, по которым удивительно было бы если бы самолёты не могли летать быстрее птиц. Простые физические рассуждения подтверждают эту интуицию: к примеру, с точки зрения физики представляется вполне возможным запуск симуляции человеческого мозга в тысячу раз быстрее его обычной скорости.
Кто-то может ожидать, что скорость здесь не важна, потому что мы упрёмся в ожидание новых данных от физических экспериментов. Мне это кажется маловероятным. Есть много интересных физических экспериментов, которые можно ускорить, и мне сложно поверить, что команда людей, запущенных на тысячекратной скорости не превзойдёт таких же обычных людей (в частности потому, что они смогут быстро разрабатывать новые инструменты и технологии для помощи себе).
К тому же я ожидаю, что возможно создать интеллект, который будет рассуждать не только быстрее, но и лучше, то есть, использующий вычислительные ресурсы эффективнее людей, даже при работе на той же скорости.
Почему это важно: Спроектированные людьми машины зачастую на голову превосходят биологических существ по параметрам, которые нас интересуют: автомобили не регенерируют и не размножаются, но уж точно перевозят людей дальше и быстрее, чем лошадь. Если мы сможем создать интеллектуальные системы, специально спроектированные для решения главных мировых проблем с помощью научных и технологических инноваций, то они смогут улучшать мир беспрецедентными темпами. Другими словами, ИИ важен.
Дальнейшее чтение: Чалмерс, «Сингулярность: Философский Анализ»
Благодаря интеллекту люди создают инструменты, планы и технологии, которые позволяют им изменять окружающую среду по своей воле (и заполнять её холодильниками, автомобилями и городами). Мы ожидаем, что ещё более умные системы будут ещё более способны изменять своё окружение, и, соответственно, что ИИ умнее человека будет управлять будущим больше, чем люди.
Альтернативный взгляд: ИИ никогда не сможет превзойти всё человечество в целом, каким бы умным он ни был. Наше окружение попросту слишком конкурентное. Ему придётся работать вместе с нами и интегрироваться в нашу экономику.
Короткий ответ: Я не сомневаюсь, что автономный ИИ, пытающийся выполнить простые задачи, поначалу будет мотивирован интегрироваться в нашу экономику: если создать ИИ для коллекционирования марок, то он, вероятно, начнёт накапливать деньги для их приобретения. Но что если у него появится сильное технологическое или стратегическое преимущество?
Утрированный пример: мы можем представить, как такой ИИ разрабатывает наномашины и использует их, чтобы они преобразовывали как можно больше материи в марки. Для него вовсе не обязательно будет иметь значение, откуда берётся эта материя – из «грязи», «денег» или «людей». Эгоистичные агенты имеют стимулы участвовать в экономике, только если их приобретения от торговли превышают то, что они получат, игнорируя экономику и просто забирая себе ресурсы самостоятельно.
Так что вопрос в том, возможно ли для ИИ получить решающее технологическое или стратегическое преимущество. Я считаю это наиболее сомнительным утверждением из тех, что я тут привожу. Однако, я всё равно ожидаю, что ответ определённо будет «да».
Исторически, конфликты между людьми часто заканчивались тем, что технологически превосходящая группа одерживала верх над своими соперниками. В настоящий момент есть некоторое число технологических и социальных инноваций, которые выглядят возможными, но ещё не разработаны. По сравнению с тем, чего могут достигнуть распределённые программные системы, люди медленно и неэффективно координируются. Поэтому можно предположить, что если мы создадим машину, которая двигает науку быстрее или эффективнее нас, то она быстро получит технологическое и/или стратегическое преимущество над человечеством для себя или для своих операторов. Это в особенности верно, если интеллектуальное превосходство позволяет ей социально манипулировать людьми, приобретать новое оборудование (легально или нет), производить лучшее оборудование, создавать копии себя, или улучшать свой собственный код. К добру или к худу, будущее, вероятно, будет в основном определяться принимающими решения сверхинтеллектуальными машинами.
Почему это важно: Потому что будущее важно. Если мы хотим, чтобы в будущем стало лучше (или хотя бы не хуже), то разумней уделить достаточно времени исследованию процессов, которые будут оказывать на будущее большое влияние.
Дальнейшее чтение: Армстронг, «Умнее Нас».
Нам хотелось бы, чтобы ИИ умнее людей работали вместе с человечеством для создания лучшего будущего. Однако по умолчанию это не произойдёт. Чтобы создать ИИ, оказывающий благотворное влияние, нам нужно не просто создать более мощные и универсальные ИИ-системы, но и преодолеть некоторое количество технических препятствий.
Альтернативный взгляд: Люди, становясь умнее, так же становятся более миролюбивыми и терпимыми. Когда ИИ будет становится умнее, он, вероятно, сможет лучше понять наши ценности и лучше им соответствовать.
Короткий ответ: Достаточно умный ИИ сможет определить наши намерения и предпочтения. Однако это не подразумевает, что его действия будут согласованы с нашими предпочтениями.
Самомодифицирующийся ИИ мог бы изучить свой код и решить, продолжить ли преследовать поставленные ему цели или модифицировать их. Но как программа будет решать, какие модификации проводить?
ИИ – это физическая система, и где-то внутри себя он конструирует предсказания о том, как вселенная будет выглядеть, если он совершит то или иное действие. Какие-то другие части системы сравнивают эти последствия и исполняют действия, ведущие к тем вариантам, которые текущая система высоко оценивает. Если агент изначально запрограммирован исполнять планы, ведущие к вселенной, в которой, как он предсказывает, будет исцелён рак, то он будет модифицировать свои цели только если предскажет, что это приведёт к исцелению рака.
Независимо от их уровня интеллекта и независимо от ваших намерений, компьютеры делают в точности то, на что вы их запрограммировали. Если вы запрограммировали необычайно умную машину выполнять планы, которые, как она предсказывает, приведут к будущему, где рак исцелён, то может оказаться, что кратчайший найденный ею путь включает похищение людей для экспериментирования (а если вы попытаетесь её изменить, то она будет сопротивляться, потому что это замедлит процесс).
Нет никакой искры сочувствия, которая автоматически заставляет достаточно способные компьютеры уважать других разумных существ. Если вы хотите сочувствия, вам нужно его запрограммировать.
Почему это важно: Многие крупнейшие мировые проблемы было бы куда легче решить с помощью суперинтеллекта – но для получения этих преимуществ нужно большее, чем просто развитие способностей ИИ. Вы получите систему, которая делает то, что вам нужно, только если вы знаете, как запрограммировать её принимать ваши намерения во внимание и выполнять планы, которые им соответствуют.
Дальнейшее чтение: Бостром, «Воля сверхразума»
Довод о важности искусственного интеллекта опирается на эти четыре утверждения: универсальная способность к рассуждениям существует; если мы построим машины с такой способностью, они смогут быть намного умнее людей; если они будут намного умнее людей, у них будет огромное влияние; и это влияние по умолчанию не будет положительным.
В настоящее время на улучшение способностей ИИ тратятся миллиарды долларов и тысячи человеко-лет. Однако на безопасность ИИ направлено сравнительно мало усилий. Искусственный суперинтеллект может возникнуть в ближайшие десятилетия, и почти наверняка, если не случится какой-то катастрофы, возникнет в ближайший век или два. Суперинтеллектуальные системы окажут либо огромное положительное, либо огромное отрицательное влияние. И только от нас зависит, положительное это влияние будет или отрицательное.
Нижеследующее — вымышленный диалог, основанный на Соответствие ИИ — Почему это сложно и с чего начать.
(Где-то в не-очень-то-близком из миров по соседству, где наука пошла совершенно другим путём…)
Альфонсо: Привет, Бет. Я заметил, что в последнее время многие предполагают, что «космосамолёты» будут использоваться для бомбёжки городов, или что в них вселятся злобные духи, населяющие небесные сферы, так что они пойдут против инженеров, их создавших.
Я довольно скептически отношусь к этим предположениям. На самом деле, я даже немного скептически и по поводу того, что в ближайшее столетие самолёты смогут достигнуть высоты стратосферных метеозондов. Но я понимаю, что твой институт хочет обратить внимание на потенциальные проблемы злобных или опасных космосамолётов, и вы думаете, что это важно уже сегодня.
Бет: Мы бы в Институте Математики Нацеленного Ракетостроения так не сказали… 1
Новостные статьи фокусируются на проблеме злобных небесных духов, мы же считаем, что настоящая проблема совершенно иная. Мы беспокоимся о сложной задаче, которую современное ракетостроение в основном игнорирует. Мы беспокоимся, что если направить ракету на Луну на небе и нажать кнопку запуска, то ракета может не прилететь к Луне.
Альфонсо: Я понимаю: очень важно спроектировать стабилизаторы для полёта при сильном ветре. Это важное направление исследований в области безопасности космосамолётов, кто-то должен это делать.
Но если бы вы работали над этим, я бы ожидал, что вы будете плотно сотрудничать с инженерами-самолётостроителями, чтобы протестировать свои проекты стабилизаторов и показать, что они действительно полезны.
Бет: Аэродинамика — важная часть проектирования любой безопасной ракеты, и мы очень рады, что ракетостроители работают над этим и всерьёз воспринимают безопасность. Однако, это не тот класс задач, на котором сосредоточены мы в MIRI.
Альфонсо: О чём в таком случае вы беспокоитесь? Вы боитесь, что космосамолёты могут быть разработаны злонамеренными людьми?
Бет: Нет, сейчас нас волнуют совсем другие сценарии провала. И в первую очередь то, что прямо сейчас вообще никто не может сказать, куда надо направить нос ракеты, чтобы она попала на Луну, или, на самом деле, вообще в любое заранее определённое место назначения. Мы считаем, что не важно — запустит ли ракету Google, правительство США, или Северная Корея. Это не влияет на вероятность успешной посадки на Луну, потому что сейчас никто не знает, как направить хоть какую-нибудь ракету хоть куда-нибудь.
Альфонсо: Не уверен, что понял.
Бет: Нас тревожит, что даже если прицелиться ракетой в Луну так, чтобы нос ракеты точно указывал на Луну на небе, ракета не полетит к Луне. Мы не знаем, как выглядит реалистичный путь от Земли к Луне, но мы подозреваем, что он будет не очень прямым и, возможно при этом направлять нос ракеты на Луну вовсе не нужно. Мы думаем, самое важное, что надо делать сейчас — это развивать наше понимание ракетных траекторий, пока у нас не будет лучшее, более глубокое понимание того, что мы начали называть «соответствием ракеты и цели»2. Есть много других задач в области безопасности, но задача соответствия ракеты и цели, вероятно, займёт больше всего времени, так что она самая срочная.
Альфонсо: Хммм, мне кажется, это слишком сильное заявление. У вас есть причина думать, что между нами и Луной есть невидимый барьер, в который может врезаться космосамолёт? Или вы говорите, что между нами и Луной может быть очень-очень ветрено, сильнее, чем тут на Земле? Может и стоит приготовиться к таким вариантам, но они не выглядят вероятными.
Бет: Мы вовсе не думаем, что невидимые барьеры особенно вероятны. И мы не думаем, что в небесных просторах будет очень ветрено — даже наоборот. Проблема в том, что мы пока не знаем, как построить хоть какую-нибудь траекторию, по которой реалистично добраться от Земли до Луны.
Альфонсо: Конечно, мы не можем построить конкретную траекторию: ветер и погода слишком непредсказуемы. Но твоё заявление всё ещё выглядит слишком сильным. Просто направь космосамолёт на Луну, взлети и пусть пилот поправляет курс по необходимости. С чего бы этому не работать? Ты можешь доказать, что космосамолёт, нацеленный на Луну, не доберётся до неё?
Бет: Мы не считаем, что можем что-то в таком роде доказать. Частично проблема в том, что реалистичные вычисления в этой области невероятно сложны, принимая во внимание трение об атмосферу и движение других небесных тел и всё такое. Мы пытались решать радикально упрощённые задачи, с предположениями в духе отсутствия атмосферы или ракет, двигающихся по идеально прямым линиям. Даже такие нереалистичные вычисления сильно свидетельствуют в пользу того, что в гораздо более сложном реальном мире просто нацеливание носа ракеты на Луну не приведёт к тому, что ракета в итоге прилетит на Луну. В смысле, то, что реальный мир сложнее, точно не делает добирание до Луны проще.
Альфонсо: Хорошо, давай я посмотрю на эту вашу работу над «пониманием»…
Гм. Судя по тому, что я читал про математику, которой вы пытаетесь заниматься, я бы сказал, что не понимаю, как она относится к Луне. Не должна ли помощь пилотам космосамолётов в точном нацеливании на Луну включать в себя наблюдение её через телескопы и изучение, как именно Луна выглядит, чтобы пилоты могли найти наилучший ландшафт для посадки?
Бет: Мы считаем, что нашего уровня понимания не хватает, чтобы заниматься детальной картой Луны прямо сейчас. Нам пока ещё рано выбирать кратер, на который стоит нацеливаться. Сейчас мы не можем нацелиться вообще ни на что. Это больше похоже на «понять, как математически рассуждать об искривлённых ракетных траекториях вместо ракет, двигающихся по прямым линиям». Даже пока что не о реалистично искривлённых траекториях, мы просто пытаемся хоть как-то пройти дальше прямых…
Альфонсо: Но самолёты на Земле движутся по кривым всё время, ведь искривлена сама Земля. Естественно ожидать, что будущие космосамолёты тоже будут способны двигаться по кривым. Если вы беспокоитесь, что они будут двигаться только по прямым и промахнутся мимо Луны, и вы хотите посоветовать ракетным инженерам строить ракеты, двигающиеся по кривым, то, кажется, время можно потратить и с большей пользой.
Бет: Ты пытаешься провести слишком прямую связь между математикой, над которой мы работаем прямо сейчас, и реальными возможными будущими проектами ракет. Дело вовсе не в том, что текущие идеи ракет почти правильные, и нам просто надо решить ещё одну-две задачи, чтобы они заработали. Концептуальный разрыв, отделяющий человечество от решения задачи нацеливания ракет гораздо-гораздо шире.
Прямо сейчас по поводу ракетных траекторий у всех полное замешательство. Мы пытаемся понять хотя бы чуть больше, чем ничего. Именно это сейчас первоочередная задача. Не надо бежать к ракетным инженерам и советовать им строить ракеты согласно тому, что написано в наших математических статьях. Пока мы даже не разобрались в совершенно базовых вопросах вроде того, почему Земля не падает на Солнце.
Альфонсо: Я не думаю, что Земля может столкнуться с Солнцем в обозримом будущем. Солнце стабильно вращается вокруг Земли уже довольно долго.
Бет: Я не говорю, что наша цель связана с риском падения Земли на Солнце. Я говорю, что раз современные знания человечество не позволяют отвечать на вопросы вроде «Почему Земля не падает на Солнце?», то мы не очень много знаем про небесную механику и не в состоянии направить ракету через небесные просторы так, чтобы она совершила мягкую посадку на Луну.
Например, чтобы лучше разобраться в небесной механике, мы сейчас работаем над задачей «повторяющихся позиций». Она о том, как выстрелить ядром из пушки так, чтобы ядро облетало Землю снова и снова, повторяя свои изначальные координаты, как повторяется плитка на полу…
Альфонсо: Я полистал вашу работу по этой теме. Должен сказать, мне не понятно, как стрельба из пушек связана с полётом на Луну. Откровенно говоря, это звучит подозрительно похоже на старые-добрые космические полёты, которые, как всем известно, не работают. Может, Жюль Верн думал, что можно путешествовать вокруг Земли, выстрелив капсулой из пушки, но современные исследования высоко летающих самолётов полностью отбросили такой вариант. То, что вы упоминаете стрельбу из пушек, наталкивает меня на мысль, что вы не поспеваете за инновациями в самолётостроении за последний век, и поэтому ваши проекты космосамолётов будут совершенно нереалистичными.
Бет: Мы знаем, что ракетами на самом деле не будут выстреливать из пушек. Правда-правда. Мы прекрасно осведомлены о причинах того, почему нельзя достичь скорости убегания, выстрелив чем-то из современной пушки. Я уже написала несколько цепочек статей, в которых я описала, почему космических полётов на основе стрельбе из пушек не получится.
Альфонсо: Но твоя текущая работа вся про то, как выстрелить чем-то из пушки так, чтобы оно облетало Землю снова и снова. Как это связано с любыми реалистичными советами, которые можно было бы дать пилоту космосамолёта о том, как долететь до Луны?
Бет: Опять же, ты пытаешься слишком напрямую связать математику, которой мы занимаемся сейчас и непосредственные советы будущим инженерам.
Мы думаем, что если мы сможем найти угол и изначальную скорость, такие, что выстрел из идеальной пушки на идеальной сферической Земле без атмосферы идеальным ядром с этой скоростью и углом приведёт к тому, что ядро займёт то, что мы называем «стабильной орбитой», и не упадёт, то… мы, может быть, поймём что-то по-настоящему фундаментальное и важное о небесной механике.
Или нет! Сложно знать заранее, какие вопросы важны, и какие исследования оправдаются. Всё, что можно сделать, это определить следующую выглядящую поддающейся трактовке задачу, которая вызывает у тебя замешательство, и попробовать найти решение и надеяться, что замешательство уменьшится.
Альфонсо: Ты говоришь о том, что ядро упадёт, как о проблеме, и о том, как ты хочешь избежать этого и заставить ядро летать вечно, правильно? Но настоящие космосамолёты изначально не будут направлены обратно на Землю, а большинство обычных самолётов вполне успешно не падают. Так что мне кажется, что этот сценарий «выстреливания из пушки и падения», которого вы пытаетесь избежать в этой вашей «задаче повторяющихся позиций» — просто не тот вид провала, о котором должны будут беспокоиться реальные проектировщики космосамолётов.
Бет: Мы не беспокоимся о реальных ракетах, выпускаемых из пушек и падающих. Мы не поэтому работаем над задачей повторяющихся позиций. В некотором роде ты чересчур оптимистичен по поводу того, какая часть теории соответствия ракет и цели уже построена! Мы не настолько близки к пониманию того, как нацеливать ракеты, чтобы проекты, о которых говорят сейчас, могли сработать, если бы мы только решили определённый набор оставшихся сложностей вроде «как не позволить ракете упасть». Тебе нужно перейти на мета-уровень, чтобы понять, прогресса какого вида мы добиваемся.
Мы работаем над задачей повторяющихся позиций потому, что мы думаем, что способность выстрелить ядром с определённой мгновенной скоростью так, чтобы оно заняло стабильную орбиту… это такая задача, которую кто-то, кто реально может запустить ракету по конкретной кривой, которая закончится мягкой посадкой на Луну, мог бы решить с лёгкостью. Так что нас тревожит то, что мы её не можем решить. Если мы разберёмся, как решить эту гораздо более простую чётко поставленную задачу повторяющихся позиций с воображаемыми ядрами на идеально-сферической Земле без атмосферы, которую гораздо проще анализировать, чем полёт на Луну, то, может быть, сделаем ещё один шаг к тому, чтобы когда-нибудь стать такими людьми, которые могут спланировать полёт на Луну.
Альфонсо: Если вы не считаете космические пушки в духе Жюля Верна перспективными, то я не понимаю, почему вы продолжаете говорить именно про пушки.
Бет: Потому что уже разработано много сложных математических методов для нацеливания пушек. Люди целились из пушек и проводили траектории ядер с шестнадцатого века. Преимущество этой существующей математики позволяет нам точно сказать, где упадёт идеальное ядро, выпущенное из идеальной пушки в каком-то направлении. Если мы попробуем говорить о ракетах с реалистично изменяющимся ускорением, то мы не сможем даже доказать, что ракета не будет летать вокруг Земли по идеальному квадрату, потому что реалистичные изменения ускорения и реалистичное трение о воздух делают любые точные высказывания невозможными. Нашего текущего понимания не хватает.
Альфонсо: Хорошо, другой вопрос в том же духе. Зачем MIRI финансирует работу по сложению кучи крохотных векторов? Я вообще не вижу, как это связано с ракетами, это выглядит как какая-то странная сторонняя задача из абстрактной математики.
Бет: Это связано с тем… в наших исследованиях мы несколько раз натыкались на задачу перехода от функции изменяющегося во времени ускорения к функции изменяющегося со временем положения. Эта задача становилась камнем преткновения несколько раз, так что мы начали попытки явно проанализировать её отдельно. Поскольку она про чистую математику, не двигающихся дискретно точек, мы назвали её задачей «логической недискретности». Эту задачу можно, например, изучать, пытаясь сложить кучу маленьких меняющихся векторов в один большой вектор. Потом мы рассуждаем о том, как сумма меняется всё медленнее и медленнее, приближаясь к пределу, если вектора становятся всё меньше и меньше, но складываем мы их всё больше и больше… По крайней мере, это один из подходов.
Альфонсо: Мне просто трудно представить, как люди в будущих ракетных космосамолётах смотрят в иллюминаторы и «О нет, у нас недостаточно маленьких векторов, чтобы скорректировать курс! Если бы только был способ сложить побольше ещё меньших векторов!». Я ожидаю, что будущие вычислительные машины будут делать это достаточно хорошо.
Бет: Ты опять слишком напрямую связываешь работу, которой мы заняты сейчас, и применения для будущих проектов ракет. Мы не думаем, будто спроектированная ракета почти что будет работать, но пилот не сможет сложить много крохотных векторов достаточно быстро, так что нам нужен алгоритм побыстрее, и тогда ракета попадёт на Луну. Это фундаментальная математическая работа, которая, как мы считаем, может помочь с основными концепциями, необходимыми для понимания небесных траекторий. Когда мы пытаемся провести траекторию вплоть до мягкой посадки на движущуюся Луну, мы чувствуем себя в замешательстве и тупике. Мы думаем, часть замешательства происходит из нашей неспособности перейти от функций ускорения к функциям положения, так что так мы и пытаемся его разрешить.
Альфонсо: Это подозрительно похоже на задачу откуда-то из философии математики. Не думаю, что можно продвинуться в проектировании космосамолётов, занимаясь философией. Область философии — застойная трясина. Некоторые философы всё ещё верят, что полёт на Луну невозможен. Они говорят, что небесный план фундаментально отделён от земного и потому недосягаем, что откровенно глупо. Проектирование космосамолётов — инженерная проблема, и продвигаются в ней инженеры.
Бет: Я согласна, что проектированием ракет занимаются инженеры, а не философы. Также я разделяю часть твоего огорчения по поводу философии в целом. Именно поэтому мы занимаемся хорошо определёнными математическими вопросами, которые скорее всего имеют настоящие ответы. Например, вопросом о том, как выстрелить пушечным ядром на идеально сферической планете без атмосферы так, чтобы оно вышло на стабильную орбиту.
Для этого часто нужен новый математический аппарат. К примеру, для задачи логической недискретности мы разработали методы для перехода от изменяющихся во времени ускорений к изменяющихся во времени положениям. Ты, если хочешь, можешь называть разработку нового математического аппарата «философией» — но тогда помни, что это совсем другой вид философии, чем «спекулятивные предположения о небесных и земных планах».
Альфонсо: Итак, с точки зрения общественного блага, что хорошего произойдёт, если вы решите эту задачу про логическую недискретность?
Бет: В общих чертах: мы больше не будем настолько в замешательстве, наши исследования не будут в тупике, а человечество может когда-нибудь и доберётся до Луны. Если попытаться сказать это менее размыто — хотя без знания конкретного решения это тяжело — мы сможем научиться говорить о всё более реалистичных ракетных траекториях, потому что у нас будет математика, которая не ломается сразу же, как только мы перестаём предполагать, что ракеты двигаются по прямым. Наша математика сможет рассуждать о точных кривых, вместо последовательностей аппроксимирующих отрезков.
Альфонсо: Точная кривая, которой следует ракета? Это приводит к главной проблеме, которую я вижу в вашем проекте. Я просто не верю, что будущие ракеты можно будет анализировать с абсолютной идеальной точностью и посылать её на Луну по заранее точно проведённой траектории без нужды поправлять её по дороге. Это выглядит для меня так, будто математики, не имеющие понятия о том, как работает реальный мир, хотят, чтобы всё было идеально вычисляемым. Посмотри, как Венера двигается по небу; она обычно движется в одном направлении, но иногда становится ретроградной и двигается в другую сторону. Иногда по дороге нам придётся просто рулить.
Бет: Когда я говорила про точные кривые, я подразумевала не совсем это… Смотри, я соглашусь, что даже если мы решим логическую недискретность, бесполезно будет пытаться заранее предсказать точные траектории со всеми ветрами, которые встретит ракета на своём пути. Отмечу, впрочем, что когда ракета поднимется достаточно высоко, всё может стать спокойнее и предсказуемее…
Альфонсо: Почему?
Бет: Давай пока не будем этого касаться, раз мы и так согласны, что положение ракеты сложно предсказать точно в атмосферной части её траектории, из-за ветров и подобного. И да, если нельзя точно предсказать раннюю траекторию, то нельзя точно предсказать и позднюю траекторию. Так что мы вовсе не предлагаем спроектировать ракету так идеально, чтобы можно было просто направить её с абсолютно точным углом и обойтись без пилота. Цель ракетной математики не в том, чтобы заранее предсказать точное положение ракеты в каждую микросекунду.
Альфонсо: Тогда зачем вы так одержимы чистой математикой, которая слишком проста, чтобы описать большой сложный реальный мир, где иногда идёт дождь?
Бет: Это правда, что настоящая ракета — не простое уравнение на доске. Это правда, что многие аспекты формы и внутреннего устройства настоящей ракеты не будут иметь компактного математического описания. Мы в MIRI пытаемся создать не математику для всех ракетостроителей на все времена, а математику, которую мы будем использовать прямо сейчас (как мы надеемся).
Чтобы с каждым шагом понимать нашу область всё лучше и лучше, нам нужно говорить об идеях, последствия которых можно определить достаточно точно. Это нужно, чтобы у людей был общий контекст для анализа сценариев. Нам нужно достаточно точности, чтобы кто-нибудь мог сказать: «В сценарии X, я думаю, Y приведёт к Z», а кто-то мог ответить: «Нет, в сценарии X, Y на самом деле приведёт к W», а первый мог ответить: «Чёрт, ты прав. Что ж, подумаем, как изменить Y, чтобы он всё же приводил к Z?».
Если же попытаться сделать что-то реалистично сложное на текущей стадии исследований, получится просто пустая болтовня. Когда у кого-то есть огромная схема с шестерёнками и рулями, которая якобы является проектом ракеты, а мы пытаемся объяснить, почему ракета, направленная на Луну, не обязательно прилетит на Луну, нам просто отвечают: «О, моя ракета обязательно прилетит». Идеи подобных изобретателей так размыты, и гибки, и недоопределены, что никто не может доказать им, что они неправы. Становится невозможно добавить хоть что-то к общему знанию.
Наша цель — постепенно создавать коллекции инструментов и идей, с помощью которых можно будет обсуждать траектории формально. Некоторые ключевые инструменты формализации и анализа интуитивно-правдоподобных траекторий ещё не выражены в чистой математике. Пока мы можем с этим жить. Мы всё ещё пытаемся найти способы математически чётко отобразить столько ключевых идей, сколько сможем. Не потому, что математика такая изящная и престижная, а для того, чтобы продвинуть споры о ракетах дальше, чем «А я говорю, да!» и «А я говорю, нет!».
Альфонсо: Мне всё ещё кажется, что вы пытаетесь спрятаться в тепле и комфорте строгих математических обоснований там, где они просто невозможны. Мы не можем совершенно строго математически доказать, что наши космосамолёты точно доберутся до Луны и ничего не пойдёт не так. Так что не стоит делать вид, что математика позволит нам получить абсолютную гарантию касательно космосамолётов.
Бет: Поверь мне, у меня точно не будет полной уверенности в результате вне зависимости от того, какую математику разработают в MIRI. Да, конечно, никакое физическое высказывание нельзя доказать математически, и нельзя назначить вероятность 1 любому эмпирическому утверждению.
Альфонсо: Но ты говоришь о доказательстве теорем — типа того, что ядро будет бесконечно летать кругами вокруг Земли.
Бет: Доказательство теоремы о траектории ракеты не даст нам достаточно комфортную уверенность в том, где она в итоге окажется. Но если доказать теорему, которая заявляет, что запущенная в идеальном вакууме ракета прилетит на Луну, то может быть, что если присоединить к ней какие-нибудь маневровые двигатели, то она долетит до Луны и в реальности. С вероятностью не в 100%, но выше нуля.
Суть нашей работы не в том, чтобы довести текущие идеи о нацеливании ракеты от 99% до 100% вероятности успеха. Она в том, чтобы превзойти текущий шанс успеха в приблизительно 0%.
Альфонсо: Ноль процентов?!
Бет: С точностью до правила Кромвеля, да, ноль процентов. Если направить нос ракеты на Луну и запустить её, она не прилетит на Луну.
Альфонсо: Если прямое нацеливание на Луну не работает, то вряд ли будущие инженеры космосамолётов будут на самом деле настолько глупы, что это не поймут. Они отследят текущее движение Луны по небу и прицелятся в ту часть неба, где Луна будет в день, когда космосамолёт пролетит расстояние до Луны. Меня тревожит, что вы так долго обсуждаете эту проблему и не рассмотрели такую очевидную идею.
Бет: Мы давно уже её рассмотрели и вполне уверены, что это не приведёт нас на Луну.
Альфонсо: Что если мы добавим стабилизаторы, чтобы ракета двигалась по более искривлённой траектории? Можешь доказать, что никакая версия ракеты из этого класса не долетит до Луны, сколько бы мы не старались?
Бет: Можешь набросать траекторию, по которой, с твоей точки зрения, полетит ракета?
Альфонсо: Она полетит от Земли к Луне.
Бет: А можно поподробнее?
Альфонсо: Нет, потому что в реальном мире всегда есть меняющаяся скорость ветра, а у нас нет бесконечного топлива, а космосамолёты не двигаются по идеально прямым линиям.
Бет: Можешь набросать траекторию, которой, как ты думаешь, будет следовать упрощённая версия твоей ракеты, чтобы мы могли понять, каких допущений требует твоя идея?
Альфонсо: Я просто не верю в общую методологию, которую ты предлагаешь для проектирования космосамолётов. Мы устанавливаем стабилизаторы, рулим, пока летим и держим курс на Луну. Если мы сбиваемся с курса, мы его поправляем.
Бет: Вообще-то мы несколько беспокоимся, что обычные стабилизаторы могут перестать работать, когда ракета поднялась слишком высоко. И получится, что оказавшись в небесных просторах, курс поправить уже нельзя. То есть, если курс уже хороший, то ты сможешь его поправить, но если всё пошло совсем не так, то нельзя просто развернуться как на самолёте.
Альфонсо: Почему нельзя?
Бет: Этот вопрос тоже можно обсудить. Однако для того, чтобы дискуссия продвигалась вперёд, всё равно нужно разбирать последовательность шагов, которые ракета пройдёт по пути к Луне. Даже если это упрощённая модель ракеты, которой можно рулить. Полёты ракет в небесах — это необычайно сложная область — даже если сравнивать с строительством ракет на Земле, что само по себе очень тяжело, потому что обычно они просто взрываются. Не то, что бы всё должно было быть изящным и математичным. Однако это очень сложная задача. И предложения вроде «давайте следовать за Луной в небе», если они не основываются на достаточно надёжных идеях, эквивалентны запуску ракеты в пустоту случайным образом.
Если кажется, что ты точно не уверен, сработает ли твоя идея, но она может сработать, и при этом твоя идея состоит из множества правдоподобно звучащих деталей, и, кажется, ни у кого не получается по-настоящему убедительно объяснить тебе, почему эта идея не сработает, то, на самом деле, шансы, что твоя идея приведёт ракету на Луну, примерно равны нулю.
Если кажется, что идея достаточно надёжно обоснована и полностью понятно, если кажется, что она определённо должна успешно довести ракету до Луны, когда всё пойдёт хорошо, тогда, может быть, в лучшем случае, мы можем быть субъективно уверены в успехе на 85%, или около того.
Альфонсо: То есть неуверенность автоматически означает провал? Если честно, звучит параноидально.
Бет: Идея, которую я стараюсь донести, это что-то вроде: «Если ты можешь строго рассуждать о том, почему ракета в принципе должна работать как надо, то это может на самом деле сработать, но если у тебя что-то меньшее, то это определённо не сработает в реальном мире».
Я не прошу тебя дать мне абсолютное математическое доказательство эмпирического успеха. Скорее набросок того, как упрощённая версия твоей ракеты может двигаться, достаточно определённый, чтобы ты не мог потом просто сказать «О, я имел ввиду вовсе не это» каждый раз, когда кто-то пытается понять, что она на самом деле делает, или указать на возможные причины провала.
Это не надуманное требование, отсекающее вообще любые идеи. Это нижняя планка, которую необходимо преодолеть, чтобы привнести что-то новое в эту область. И если проект ракеты не соответствует даже этой концептуальной планке, то шансы такой ракеты на мягкую посадку на Луну примерно равны нулю.
Это руководство написано командой MIRI в первую очередь для групп MIRIx, однако советы отсюда могут оказаться полезны и другим людям, работающим над проблемой соответствия ИИ1 нашим целям.
Привет! Возможно, вы обратили внимание, что вы читаете некий текст.
Из этого факта следуют некоторые выводы. Например, зачем вы читаете этот текст? Закончите ли вы чтение? Какие решения вы примете? Что вы сделаете дальше?
Независимо от того, какое решение вы примете, учтите, что, скорее всего, десятки или даже сотни людей, достаточно похожие на вас и находящиеся в схожих условиях, скорее всего примут примерно такие же решения.
Поэтому мы рекомендуем при размышлении над ближайшими решениями задаться вопросом: «Если все агенты, похожие на меня, будут действовать одинаково, какая их политика приведёт к максимальному благу и как эта политика рекомендует поступить в моём случае?» Речь идёт скорее не о попытке решить за всех агентов, достаточно похожих на вас (что может заставить вас принять неверное решение из чувства вины или из ощущения, что на вас давят), а о чём-то вроде «если бы я руководил всеми агентами из моего референтного класса, как бы я относился к кому-то в этом классе, если бы он обладал именно моими особенностями?»
Если эти рассуждения помогут вам продолжить чтение — прекрасно. Если они приведут к тому, что вы создадите группу MIRIx — ещё лучше. Тем временем, мы продолжим, считая, что этот документ читают лишь люди, которые оправданно ожидают, что он окажется им чем-то полезен.
Представьте, что вам нужно передвинуть железный куб со стороной в один метр. Поскольку такой куб весит примерно 8 тонн, а среднестатистический человек может поднять примерно 50 килограмм, наивные подсчёты сообщают, что нам понадобится примерно 160 друзей, которые захотят нам помочь.
Однако, конечно же, вокруг метрового куба поместятся лишь примерно 10 человек максимум. Совершенно не важно, есть ли у вас теоретически силы, чтобы его сдвинуть, если вы не можете эффективно приложить эти силы. У задачи есть ограничение: площадь поверхности.
Группы MIRIx — один из лучших способов увеличить «площадь поверхности» для людей, размышляющих и работающих над технической проблемой соответствия ИИ. Указ «десять человек, которые оказались ближайшими к металлическому кубу — единственные, кому разрешается думать над этой задачей» был бы плохой идеей. И точно также мы не хотим, чтобы MIRI оказался узким местом или авторитетом в вопросах, как следует рассуждать и что нужно делать в вопросах внедрённой агентности2 и смежных областях.
Мы надеемся, что вы и другие люди, похожие на вас, на самом деле решат эту задачу, а не будут просто следовать указаниям или читать написанное кем-то другим. Этот текст создан, чтобы поддержать тех, кому интересно самому совершить прорыв.
Нам часто задают вопрос: «Даже летняя стажировка, кажется, слишком коротка, чтобы всерьёз продвинуться в решении настоящей задачи. Как кто-нибудь может всерьёз что-то исследовать за одну встречу?»
На эту тему можно выразиться в стиле Зенона: вы не продвинетесь в своих исследованиях и за миллион лет, если не можете продвинуться в них за пять минут. Очень легко попасть в ловушку (явного или неявного) представления исследований как чего-то вроде: «сначала изучаем всё, что нужно изучить, а затем пытаемся раздвинуть границы и внести свой вклад».
Проблема такого представления (с нашей точки зрения) в том, что она подталкивает людей в сторону поглощения информации как некоего необходимого условия для понимания, а не как необходимого инструмента. (Помните, что именно вы оптимизируете во время своей работы!)
Всегда будет существовать ещё какой-нибудь материал, который стоит изучить. Сложно предсказать заранее, сколько именно вам нужно знать, чтобы получить право на собственные мысли и взгляд. И легко пасть жертвой синдрома Даннинга-Крюгера или синдрома самозванца, а также начать излишне полагаться на существующие авторитеты.
Вместо этого мы рекомендуем выбросить вопрос авторитетов из головы. Просто следуйте за рассуждениями, которые кажутся живыми и интересными. Не думайте об исследованиях как о процессе «сначала изучаем, потом вносим свой вклад». Сосредоточьтесь на собственном понимании задачи, и пусть ваши вопросы сами определяют, какие статьи вам нужно прочитать и какие доказательства изучить.
Такой подход к исследованиям решает вопрос: «Что можно осмысленного сделать за день?» Кажется очень сложно достичь существенного прогресса, если вы меряте себя какой-то объективной внешней меркой. Но гораздо проще, если вас ведёт вперёд ваш собственный вкус.
Никакая процедура не подойдёт абсолютно всем. Однако далее приведены шаги, которые вы можете попробовать самостоятельно или в группе (например, MIRIx), чтобы попрактиковаться в описанном выше исследованиях, питаемых любопытством.
Прогресс в MIRI достигается примерно таким же образом. Наша работа очень сильно отличается от «просто читаем множество статей» и очень сильно отличается от «попытаться сформулировать от начала до конца, что именно нужно сделать в этой области».
Естественная ошибка: считать свою работу попыткой внести вклад в мировое коллективное знание и из-за этого перестать ставить на первое место собственные знания и понимание. На первый взгляд, «просто читать статьи» выглядит, как будто мы ставим собственные знания на первое место, но такой подход часто является следствием неявного убеждения, что какие-то другие люди точно знают, что именно нам нужно знать. Подход же «оптимизировать собственное понимание» порождает быструю обратную связь.
В том, чтобы читать статьи нет ничего самого по себе плохого — даже если вы просто читаете произвольные статьи по соответствующей тематике, чтобы получить общее представление о состоянии дел. Однако вам стоит всегда пытаться представлять, что именно вы знаете или не знаете, как делать, и что именно вам нужно узнать, чтобы решить задачу. Это сложно. Не исключено, что вы уверены, что первые пять идей, которые вы запишете, окажутся неверными. Тем не менее, всё же запишите их и попробуйте заставить их работать. Так вы сможете увидеть, что получится, и понять, что идёт не так.
Мы не хотим, чтобы сотни талантливых людей задавали одни и те же вопросы и принимали один и тот же набор допущений. Нам нужно много исследователей, а не пользователей. С нашей точки зрения, лучший способ стать исследователем — это с самого начала тренироваться независимо мыслить, а не прокачивать навык «сижу и впитываю информацию ради информации».
Поэтому не спрашивайте: «Какие есть открытые вопросы?» Спрашивайте: «Какие вопросы интересуют меня?»
Предположим, вы попробовали что-то из написанного выше, вам понравилось и вы хотите перейти к созданию вашей собственной группы MIRIx.
Мы рекомендуем в первую очередь найти ОДНОГО или ДВУХ людей (но не трёх и больше), и попробовать заняться исследованиями пару раз вместе с ними. Ниже будет раздел про социальную динамику, в котором описано, как именно это может выглядеть, но смысл в том, что, вероятно, лучше попробовать отладить атмосферу и рабочий процесс при малом количестве участников. Если вы начнёте с большого количества людей, договариваться о работе группы, скорее всего, будет гораздо сложнее.
Ещё в случае большого количества людей сложно договориться о расписании. Найти время и место, которые устраивали бы всех, становится невозможно, и процесс согласования каждой новой встречи может демотивировать. Составляйте расписание так, чтобы оно подходило основному ядру группы. Какой день недели подходит вам? Как часто вы хотите встречаться? Сколько времени будет длиться встреча? Мы рекомендуем устраивать встречи раз в месяц, раз в неделю или раз в две недели. Длина встречи может варьироваться от часа до целого дня, в зависимости от того, что подходит лично вам.
Когда вы найдёте одного или двух партнёров, с которыми вам действительно комфортно работается, следующий шаг: запланировать и организовать первую большую встречу. «Большая» — означает примерно «от трёх до шести человек». Определённо не «двадцать-тридцать слушателей».
Попытайтесь найти тихое, звукоизолированное место, где можно удобно расположиться, есть на чём писать (в том числе, есть большие маркерные доски на стенах). Часто подобные места есть в университетах и публичных библиотеках, но подойдёт и чья-нибудь гостиная, если вы сможете свести к минимуму количество посторонних вмешательств. Не забудьте запастись чистой бумагой, ручками, планшетами, а также выберите кого-нибудь, кто будет отвечать за еду и питьё.
(Примечание по поводу еды и питья. Люди почти всегда недооценивают важность качества и количества еды и сваливаются к чему-нибудь вроде: «Не знаю, может просто купим чипсы баксов на десять или что-то в этом духе?» Лучше спросите себя: сколько я потратил бы на то, чтобы способность думать для всей группы, общее настроение и удовлетворённость от встречи повысилась бы на 15%? Именно от такой суммы вам стоит отталкиваться (/ попросить у MIRI) при расчёте стоимости еды, особенно на первую встречу. Не покупайте только фаст-фуд. Возможно, на какое-то время он вам даст больше энергии, но вам будет сложнее думать потом. Здоровая еда довольно важна — особенно для длинных встреч. Большая встреча должна включать в себя достаточно серьёзный приём пищи, возможно в ближайшем ресторане. Это также послужит неплохим перерывом.)
На первой большой встрече, возможно, вы захотите выбрать руководителя группы. Это важная часть культуры общего знания — в большинстве случаев руководитель ничем не отличается от остальных, однако крайне полезно, чтобы в наличии был человек, у которого есть моральное право устанавливать повестку, выбирать между различными хорошими вариантами и не давать группе отвлекаться. Возможно, вы также захотите выбрать секретаря/ответственного за записи, или, быть может, координатора, отвечающего за выбор места и еду, или создать какие-нибудь ещё должности (впрочем, этим можно заняться и на следующих встречах).
Затем вы, вероятно, захотите смоделировать процесс, который уже работает для вас. Возможно, это означает поделиться списком уже существующих вопросов и посмотреть, какие из них привлекут интерес участников. Возможно, это означает сначала обсудить направление ваших исследованиях в общих чертах, а уж затем перейти к отдельным темам. В любом случае вы захотите перейти к серьёзным размышлениям, записям, доказательствам и обсуждениям как можно быстрее. Если на встрече присутствует больше четырёх человек, лучше разбиться на подгруппы. Если вы так и поступите, запланируйте, в какое время вы соберётесь обратно для обсуждения.
Постарайтесь не забывать о перерывах. Когда работа вовсю кипит, вспоминать о них сложно, поэтому стоит их запланировать заранее. Короткий перерыв каждый час, во время которого люди встают и выходят прогуляться, очень помогает.
Имеет смысл сохранять общедоступный список (на маркерной доске или в общем гугл-документе) накопившихся вопросов, необходимых понятий и многообещающих идей. Из такого списка легко почерпнуть новую тему, если разговор зашёл в тупик.
Возможная структура встречи, включающая в себя советы выше и исследовательскую процедуру из предыдущего раздела:
В конце встречи запланируйте следующую. Возможно, вы уже сошлись на каком-то расписании, которое работает для ядра группы, но всё же его стоит подстраивать на случай праздников, отпусков и других обстоятельств. Важно, чтобы все согласились с временем следующей встречи, даже если у вас уже твёрдо устоявшееся расписание. Постарайтесь с самого начала принять, что вы не пытаетесь добиться постоянного всеобщего присутствия: будет лучше, если люди поймут, что иногда пропускать встречи — это нормально (при условии, что на каждую встречу приходит примерно 70-90% участников). Если один или два человека не могут прийти две встречи подряд, постарайтесь узнать у них подробности, чтобы, возможно, подстроиться под их расписание при планировании третьей.
В этой секции собраны несколько довольно «сырых» моделей о том, как получается хорошая исследовательская группа или вообще хорошее совместное предприятие. Здесь стоит обращать внимание скорее на общий дух, а не на букву. Также стоит попытаться определить ваши собственные ценности, а не считать, что вы обязаны следовать именно этим.
Во время наших исследований мы обнаружили, что разговоры, в которых в основном участвует лишь два человека, идут лучше. Мы не хотим сказать, что не должно быть разговоров, в которых участвует три и более человека, однако в течении любого пятиминутного отрезка времени, разговаривать в основном должны только два человека — тот, кто пытается донести какую-то информацию, и тот, кто пытается её понять.(При этом именно понимание стоит оптимизировать в первую очередь. Обсуждение какой-либо темы на таком уровне, что четыре или пять разных людей способны отслеживать все нюансы, обычно приносит меньше пользы)
Назовём эти две роли «передатчик» и «приёмник». Вы можете передавать:
«Приёмник» может:
«Передатчик» должен чувствовать, что в попытках выразить свою интуицию, он может делать любые утверждения, в том числе «абсолютно ложные». Попытайтесь создать нормы, где вы можете попросить «приёмников» помочь вам выделить из того, что вы говорите, ядрышко истины, а не уничтожать полуоформившиеся идеи, потому что они наполовину неверны. Не важно, насколько «приёмники» избегают моральных суждений. Нужно, чтобы «передатчик» время от времени мог сказать что-то вроде «всё, что я собираюсь сказать, полностью неверно, но …»
«Передатчик» при этом должен руководствоваться своей интуицией и любопытством. Направлять разговор в наиболее интересное русло, а не пытаться создать хорошее впечатление или развлечь. «Передатчик» не обязан отвечать на вопросы «приёмника», сказать: «прямо сейчас я не хочу об этом думать» — вполне нормально.
Смысл в том, что «приёмник» помогает «передатчику» породить идею. Поэтому именно «передатчик» решает, что в данный момент более важно, а «приёмник» работает усилителем, поставщиком интуиции, а также источником (небольшого) хаоса.
Тем временем, всем остальным присутствующим стоит попробовать себя в роли посредников/переводчиков. Они должны наблюдать одновременно и за «передатчиком», и за «приёмником», и строить модели, что происходит в их диалоге. Где они упускают мысль собеседника? Где они не понимают, что именно хочет узнать собеседник? Может быть, у них срабатывает эффект подтверждения или двойная иллюзия прозрачности? Может, они соглашаются, что какое-то утверждение разумно, не понимая его до конца?
Остальным присутствующим имеет смысл вбрасывать в разговор важные мысли, модели, вопросы (но их вмешательство не должно превышать 10% от всех слов в беседе). Иногда вмешательство приведёт к смене ролей: кто-нибудь из слушателей станет «передатчиком» или «приёмником» или «передатчик» и «приёмник» поменяются местами.
После одной или двух встреч довольно неловко не приглашать кого-то в следующий раз и, тем более, напрямую запрещать придти. Но разрушить всю группу MIRIx из-за чрезмерной застенчивости или неуверенности — ещё хуже.
Явно обозначьте разницу между «добро пожаловать на встречу» и «теперь ты в нашей команде». Позаботьтесь о том, чтобы все знали, кто именно принимает решения. Пусть он/она/они будут не обязаны объяснять своё решение. (Если вы не доверяете чьим-то суждениям без объяснений, этот человек не должен принимать решения.) Доверяйте своей интуиции. Если вам кажется, что некто не сочетается с атмосферой, которую вы хотите создать, не приглашайте его. Подумайте о том, чтобы требовать несколько рекомендаций или устраивать собеседование. Возможно, вам кажется, что это излишне, но исключать людей обычно тяжело, а формальный процесс приёма воспринимается как более справедливый.
Также подумайте, не стоит ли записать в явном виде этические правила или совместные обязательства, под которыми люди будут подписываться, когда они становятся частью команды. Убедитесь, что вы действительно хотите всерьёз поддерживать именно эти стандарты (например, «нужно посещать не меньше половины встреч» или «всё обсуждаемое на встречах не следует разглашать, если явно не сказано об обратном»).
Представьте модель школы боевых искусств. Когда туда приходит новичок, инструкторы его мало о чём просят (например, ударь цель ногой с громким криком). Вскоре за это его вознаграждают поясом и некоторым статусом.
После этого требования возрастают. Ученика с жёлтым поясом уже могут попросить пару минут наблюдать за учениками с белыми и поправлять их. В ответ те должны кланяться и говорить «сэр» или «мэм».
Дальше требования растут дальше и соответственно растёт награда. Такой цикл поощряет обязательства и вложения: человек постоянно получает доказательства: «если я что-то вложил, то я что-то получу, и чем больше я вложил, тем больше я получу». В какой-то момент ученик получает чёрный пояс и его могут пригласить в штат инструкторов или предложить основать свой филиал школы.
В большинстве групп и организаций происходит примерно то же самое. Если группа ничего не просит (или просит мало) от своих членов, они не платят ей верностью. Люди вовлекаются в группу в той мере, в которой группа позволяет им рассказывать приятные (или эпические) истории о себе.
Для групп MIRIx это тоже может быть верным. Подумайте, не стоит ли завести небольшие примерно одинаковые задания для большинства новичков (например, прочитать такие-то и такие-то статьи или на третьей встрече сделать десятиминутный доклад на интересную им тему). Попробуйте построить последовательность просьб и вознаграждений дальше (например, на пятой встрече ты будешь управлять повесткой дня и делить всех на группы).
Этот пункт связан с предыдущим. Важно уметь уравновешивать в своей группе MIRIx нисходящие и восходящие структуры коммуникации. Если никто не понимает, «как мы тут работаем», новички путаются и им становится неуютно. Вам нужна уже существующая структура, которую люди могут оценить и определить, будет ли им с ней комфортно. Вам нужно, чтобы с самого начала было понятно «на что похожа» ваша группа. Чтобы люди, которым она подойдёт, и люди, которым она не подойдёт, могли точно определить, к какой они категории относятся.
Тем не менее, вряд ли вы хотите, чтобы ваша структура мешала вам развиваться в долгосрочной перспективе. Мастера боевых искусств рано или поздно получают право вносить изменения в собственные тренировки, а также что-то менять при обучении новых учеников. Наверняка вы тоже захотите когда-нибудь получить что-то от своей группы MIRIx. Обычно люди огорчаются, когда не могут удовлетворить какие-нибудь свои потребности. Если ваша структура будет мешать им развиваться, они уйдут искать другое место, чтобы расти.
Нормальным и принятым становится то, против чего никто не возражает. Если какое-то поведение вам не нравится и выхотите снизить его количество на встречах, вам нужно не только самим возражать против него, но также открыто и публично поддерживать других, кто тоже против него возражает. Задача группы - сделать так, чтобы каждый, кто соблюдает правила / пытается поступать правильно, никогда не оставался один против тех, кто правила нарушает.
Заранее обдумайте и публично озвучьте вопросы вида «когда можно перебивать» или «насколько допустимы значительные отступления от темы». Создавайте культуру разногласия, но стройте её на основе вежливости и поддержки, чтобы разногласия делали группу сильнее, а не превращались в перепалки. Защищайте структуры принятия решений, которые вы придумали. Будьте последовательны в вопросах полномочий и в том, когда решения становятся окончательными.
Вы почти дочитали до конца текста! Надеемся, вы в нём встретили какую-то полезную информацию, а также здоровую пищу для размышлений. Перед тем, как вы перейдёте к другим делам, мы советуем потратить секунд 30 на размышления над следующими вопросами:
Счастливой охоты.
— Команда исследователей MIRI.
Примечание редактора сайта: Под «согласованием» в заголовке и далее в тексте подразумевается англоязычное «[AI] alignment». В некоторых других статьях на этом сайте этот термин переводился как «соответствие [ИИ целям оператора]». Пока перевод этого термина на русский в сообществе не устоялся.
* * *
Этот пост – первое из серии обсуждений в Discord между Ричардом Нго и Элиезером Юдковским, под модерацией Нейта Соареса. Ричард и Нейт так же резюмировали ход разговора и ответы собеседников в Google Docs, это также добавлено сюда.
В позднейших обсуждениях принимали участие Аджейя Котра, Бет Барнс, Карл Шульман, Холден Карнофски, Яан Таллинн, Пол Кристиано, Роб Бенсингер и Робин Шах.
Это полные записи нескольких созданных MIRI для дискуссий каналов в Discord. Мы пытались как можно меньше редактировать записи сверх исправления опечаток и вводящих в замешательство формулировок, разбивания на параграфы и добавления ссылок. МЫ не редактировали значимое содержание, за исключением имён людей, которые предпочли, чтобы их не упоминали. Мы поменяли порядок некоторых сообщений для ясности и непротиворечивого потока обсуждения (в таких случаях время особо отмечено), и скомбинировали разные логи, когда обсуждение переключалось между каналами.
[Yudkowsky][8:32] (6 ноября)
(По просьбе Роба, я постараюсь быть кратким, но это экспериментальный формат и некоторые всплывшие проблемы выглядят достаточно важными, чтобы их прокомментировать)
Главным образом в ранней части этого диалога у меня были некоторые уже сформированные гипотезы на тему “Что будет главной точкой несогласия и что мне говорить по этому поводу”, что заставляло меня отклоняться от чистой линии обсуждения, если бы я просто пытался отвечать на вопросы Ричарда. Перечитывая диалог, я заметил, что это выглядит уклончиво, будто я странным образом упускаю суть, не отвечая напрямую на вопросы.
Зачастую ответы даны позднее, по крайней мере, мне так кажется, хотя, может, и не в первой части диалога. Но в целом вышло так, что я пришёл высказать некоторые вещи, а Ричард пришёл задавать вопросы, и получилось небольшое случайное несовпадение. Выглядело бы лучше, если бы, скажем, мы оба сначала выставили свои позиции без знаков вопроса, или если бы я ограничил себя ответами на вопросы Ричарда. (Это не катастрофа, но читателю стоит учитывать это как небольшую неполадку, проявившуюся на ранней стадии экспериментов с этим новым форматом.)
[Yudkowsky][8:32] (6 ноября)
(Подсказано поздними попытками резюмировать диалог. Резюмирование выглядит важным способом распространения для такого большого диалога, и следующая просьба должна быть особо указана, чтобы к ней прислушивались – встроенные в диалог указания не работают.)
Пожалуйста, не резюмируйте этот диалог, говоря “и ГЛАВНАЯ идея Элиезера такая” или “и Элиезер думает, что КЛЮЧЕВОЙ МОМЕНТ в том” или “ОСНОВНОЙ аргумент таков” и.т.д. Мне кажется у всех свои наборы камней преткновения и того, что считается очевидным, и обсуждение с моей стороны сильно меняется в зависимости от них. Когда-то камнями преткновения были Тезис Ортогональности, Инструментальная Конвергенция и возможность суперинтеллекта в принципе; сейчас у большинства связанного с Open Philanthropy народа они уже другие.
Пожалуйста, преобразуйте:
Замечу, что преобразованные утверждения говорят о том, что вы наблюдали, тогда как изначальные - это (зачастую неправильные) выводы о том, что я думаю.
(Однако, “различать относительно ненадёжные выводы от более надёжных наблюдений” – не обязательно ключевая идея или главная причина, по которой я этого прошу. Это просто моё замечание – один аргумент, который, я надеюсь, поможет донести больший тезис.)
[Ngo][11:00]
Всем привет! С нетерпением жду дискуссии.
[Yudkowsky][11:01]
Привет и добро пожаловать. Моё имя Элиезер и я думаю, что согласование ИИ на самом деле довольно невероятно очень сложно. Кажется, некоторые люди так не думают! Это важная проблема, которую нужно как-то решить, надеюсь, мы сегодня это сделаем. (Однако, я хочу сделать перерыв через 90 минут, если это столько продлится и если суточный цикл Нго позволит продолжать после этого.)
[Ngo][11:02]
Перерыв через 90 минут или около того звучит хорошо.
Вот как можно начать? Я согласен, что согласование людьми произвольно мощного ИИ выглядит очень сложной задачей. Одна из причин, по которым я более оптимистичен (или, по крайней мере, не уверен, что нам придётся столкнуться с полноценной очень сложной версией этой задачи) – это то, что с определённого момента ИИ возьмёт на себя большую часть работы.
Когда ты говоришь о том, что согласование сложное, о согласовании каких ИИ ты думаешь?
[Yudkowsky][11:04]
В моей модели Других Людей, зачастую когда они думают, что согласование не должно быть таким уж сложным, они считают, что есть какая-то конкретная штука, которую можно сделать, чтобы согласовать СИИ, и она не очень сложная. И их модель упускает одну из фундаментальных сложностей, из-за которой не получится выполнить (легко или совсем) какой-то шаг их метода. Так что одно из того, что я делаю в обсуждении – это попытаться расковырять, про какой же именно шаг собеседник не понимает, что он сложный. Сказав это, я теперь попробую ответить на твой вопрос.
[Ngo][11:07]
Я не думаю, что уверен в какой-нибудь конкретной штуке, позволяющей согласовать СИИ. Однако я чувствую неуверенность по поводу того, в насколько большом диапазоне возможностей эта задача может оказаться сложной.
И по некоторым важным переменным, кажется, что свидетельства последнего десятка лет склоняют к тому, чтобы посчитать задачу более простой.
[Yudkowsky][11:09]
Я думаю, что после того, как станет возможным СИИ вообще и его масштабирование до опасного сверхчеловеческого уровня, будет, в лучшем случае, если будут решены многие другие социальные сложности, период от 3-х месяцев до 2-х лет, когда лишь у нескольких действующих лиц есть СИИ, что означает, что этим действующим лицам будет социально-возможно просто решить не масштабировать его до уровня, на котором он автоматически уничтожает мир.
В течении этого периода, чтобы человечество выжило, кто-то должен произвести некое действие, из-за которого мир не будет уничтожен через 3 месяца или 2 года, когда уже у слишком многих будет доступ к коду СИИ, уничтожающего мир, если повернуть рубильник его интеллекта достаточно сильно. Это требует того, чтобы кто-то из первых действующих лиц, создавших СИИ сделал с помощью него что-то, что предотвратит уничтожение мира. Если бы это не требовало суперинтеллекта, мы могли бы сделать это сейчас, но, насколько мне известно, никакого такого доступного людям действия нет.
Так что мы хотим наименее опасное, наиболее легко согласовываемое действие-при-помощи-СИИ, но при этом достаточно мощное, чтобы предотвратить автоматическое разрушение Земли через 3 месяца или 2 года. Оно должно “опрокинуть игровую доску”, не позволив начаться суицидальной игре. Мы должны согласовать СИИ, который осуществит это ключевое действие, чтобы он мог его осуществить, не убив всех.
Замечу в скобках, ни одно достаточно мощное и доскоопрокидывающее действие не умещается в Окно Овертона политики, или, возможно, даже эффективного альтруизма, что представляет отдельную социальную проблему. Я обычно обхожу эту проблему, приводя пример достаточно мощного для опрокидывания доски, но не самого согласовываемого, потому что оно требует слишком много согласованных частей: создать самовоспроизводящиеся в воздухе наносистемы и использовать их (только), чтобы расплавить все GPU.
Поскольку любой такой наносистеме придётся действовать в целом открытом мире, включающем множество сложных деталей, это потребует очень много работы по согласованию, так что это ключевое действие согласовать сложно, и нам стоит сделать что-то другое. Но другая штука, которая есть у меня в мыслях, точно так же за пределами Окна Овертона. Так что я использую “расплавить все GPU”, чтобы указать на требуемую мощность действия и проблему с Окном Овертона, и то и другое мне кажется приблизительно правильного уровня, но то, что я держу в голове проще согласовать. Таким образом, на “Как ты смеешь?” я всегда могу ответить “Не беспокойся, я не собираюсь на самом деле это делать.”
[Ngo][11:14]
Мы могли бы продолжить обсуждение, обсудив ключевое действие “работать над проблемой согласования быстрее, чем могут люди.”
[Yudkowsky][11:15]
Для меня это звучит как что-то требующее высочайшего уровня согласованности и действующее в очень опасном режиме, так что, если можно сделать это, разумнее сделать какое-нибудь другое ключевое действие, использующее меньший уровень технологии согласования.
[Ngo][11:16]
Окей, тут, кажется, трудности с пониманием с моей стороны.
[Yudkowsky][11:16]
В частности, я надеюсь, что – в маловероятном случае нашего выживания – мы сможем выжить, использовав суперинтеллект в смертельно опасном, но всё же менее смертельно опасном режиме “проектирования наносистем”.
А вот “реши для нас согласование” кажется действующим в ещё более опасных режимах “пиши для нас код ИИ” и “очень точно смоделируй человеческую психологию”.
[Ngo][11:17]
Что делает эти режимы такими опасными? То, что людям очень сложно за ними присматривать?
Эти режимы кажутся мне менее опасными в частности потому, что они попадают скорее в область “решения интеллектуальных задач”, а не “достижения последствий в мире”.
[Yudkowsky][11:19][11:21]
Любой вывод ИИ приводит к последствиям в мире. Если выводы исходят от мощного несогласованного разума, то они могут начать причинно-следственную цепочку, приводящую к чему-нибудь опасному, независимо от того, стоит ли в коде комментарий “интеллектуальная задача”.
“Решать интеллектуальные задачи” опасно, когда для этого необходим мощный разум, рассуждающий об областях, которые, будучи решёнными, предоставляют когнитивно-доступные стратегии как сделать что-то опасное.
Я ожидаю, что первое решение согласования, которым можно будет на самом деле пользоваться, в том маловероятном случае, что мы его получим, будет выглядеть на 98% как “не думай обо всех тех темах, которые нам не строго необходимы, и которые близки к способности легко изобрести очень опасные выводы” и на 2% как “всё-таки думай про эту опасную тему, но, пожалуйста, не приходи к стратегиям в ней, которые нас всех убьют”.
[Ngo][11:21][11:22]
Позволь мне попытаться уточнить разделение. Мне кажется, что системы, изначально натренированные делать предсказания о мире, не будут по умолчанию иметь когнитивный аппарат, позволяющий людям совершать действия для преследования своих целей.
Наверное, можно переформулировать мою точку зрения так: мне не кажется неправдоподобным, что мы создадим ИИ значительно умнее (в смысле способности понимать мир), чем люди, но значительно менее агентный.
Есть ли у тебя с этим проблемы?
(очевидно, “агентный” тут довольно недоопределено, может, стоит это пораскапывать)
[Yudkowsky][11:27][11:33]
Я бы точно узнал совсем новые и удивительные факты про интеллект, действительно противоречащие моей модели того, как работают интеллекты, могущие появиться в рамках текущей парадигмы, если ты покажешь мне… как бы это выразить в общем случае… что задачи, которые я считал задачами про поиск состояний, получающих высокую оценку при скармливании их в функцию результатов, а затем в функцию оценки результатов, на самом деле задачи про что-то другое. Я иногда даю более конкретные названия, но, думаю, люди приходят в замешательство от моих обычных терминов, так что я их обошёл.
В частности, так же как в моей модели Убеждений Других Людей они считают, что согласование простое, потому что они не знают про сложности, которые я вижу как очень глубокие и фундаментальные и сложноизбегаемые, так же в этой модели они думают “почему бы просто не создать ИИ, который будет делать X, но не Y?” потому что они не осознают, что у X и Y общего, потому что для этого нужно иметь глубокую модель интеллекта. И этот глубокий теоретический разрыв сложно перешагнуть.
Но вообще можно найти неплохие практические подсказки на то, что эти штуки куда более скоррелированны, чем, скажем, считал Робин Хансон во время нашего FOOM-спора. Робин не думал, что может существовать что-то вроде GPT-3; он считал, что потребуется проводить обучение на множестве узких областей, которые не будут обобщаться. Я тогда возразил, что у людей есть зрительная кора и мозжечок, но нет Коры Проектирования Автомобилей. Потом оказалось, что реальность на более Элиезеровской стороне оси Элиезер-Робин, чем я, и что штуки вроде GTP-3 менее архитектурно сложны и больше обобщаются, чем я тогда доказывал Робину.
Иногда я использую метафору о том, что очень сложно создать систему, которая будет уметь водить красные машины, но не будет очень похожа на систему, которая, с небольшими изменениями, будет уметь водить синие. Задача “водить красную машину” и задача “водить синюю машину” имеют слишком много общего. Ты можешь предложить: “Согласуй систему так, чтобы у неё была возможность водить красные машины, но чтобы она отказывалась водить синие”. Ты не можешь создать систему, которая будет очень хороша в вождении красных машин, но совершенно не умеет водить синие из-за ненатренированности на это. Градиентный спуск, генетический алгоритм или любой другой правдоподобный метод оптимизации обнаружит очень похожие шаблоны для вождения красных и синих машин. Оптимизируя для красных машин, ты получишь способность водить синие, хочешь ты того или нет.
[Ngo][11:32]
Отвергает ли твоя модель интеллекта возможность создания ИИ, сильно продвигающего математику без убийства нас всех?
[Yudkowsky][11:34][11:39]
Если бы было возможно совершить какое-нибудь ключевое действие для спасения мира с ИИ, который может лишь доказывать математические теоремы, без необходимости, например, объяснять доказательства людям, я был бы невероятно заинтересован в этом как в потенциальном ключевом действии. Я не достиг бы полной ясности, и всё ещё не знал бы, как создать ИИ, не убив всех, но такое действие немедленно стало бы очевидным первоочередным направлением разработок.
Кстати, моя модель интеллекта отвергает очень-очень мало возможностей. Я думаю, что мы все умрём, потому что у нас не получится сделать правильно некоторые опасные вещи с первого раза в опасном режиме, где одна ошибка уже фатальна, причём сделать их до того, как нас убьёт распространение куда более простых технологий. При наличии Учебника Из Будущего Через Сто Лет, в котором для всего приведены простые надёжные действительно работающие решения, вполне можно было бы воспользоваться методами из него, чтобы написать суперинтеллект, который думает, что 2 + 2 = 5.
(В учебнике есть эквивалент “используйте ReLu вместо сигмоид” для всего и нету всех по-умному звучащих штук, которые работают на дочеловеческих уровнях, и лажают, если применить их для суперинтеллекта.)
[Ngo][11:36][11:40]
Хм-м-м, предположим, что мы натренировали ИИ доказывать теоремы, возможно, с помощью какого-нибудь состязательного обучающего процесса “составить задачу - решить задачу”.
Моя интуиция говорит, что по умолчанию этот ИИ сможет научиться очень хорошо – далеко за пределами человеческого уровня – доказывать теоремы, не имея целей касательно реального мира.
Я так понял, что в твоей модели интеллекта способность к решению математических или сходных задач плотно связана с попытками достижения результатов в реальном мире. Но для меня GPT-3 является свидетельством против такой позиции (хотя всё ещё и свидетельством в пользу твоей позиции относительно позиции Хансона), ведь она кажется способной к некоторым рассуждениям, будучи не особо агентной.
В альтернативном мире, в котором у нас не получилось натренировать языковую модель на некоторые рассудительные задачи, не натренировав её вначале на выполнение задач в сложном RL-окружении, я был бы значительно менее оптимистичен.
[Yudkowsky][11:41]
Я скажу, что в твоих оценках есть предсказуемое искажение из-за того, что ты, не зная о Глубоких Штуках, нужных для доказательства теорем, представляешь, что они менее похожи на иные когнитивные способности, чем на самом деле. Зная о том, как именно люди используют свою способность рассуждать о каменных топорах и других людях для доказательства математических теорем, ты бы считал более правдоподобным обобщение способности доказывать теоремы до топоров и манипуляции людьми.
Моё мнение о GPT-3… сложно соотносится с моими взглядами на интеллект. Там взаимодействует огромное количество выученных неглубоких паттернов. Крайне маловероятно, что GPT-3 похожа на то, как естественный отбор создал людей.
[Ngo][11:44]
С последним я соглашусь. Но это и есть одна из причин, почему я заявил, что ИИ может быть умнее людей, будучи менее агентным, ведь есть систематические различия между тем, как естественный отбор создал людей, и тем, как мы обучаем ИИ.
[Yudkowsky][11:45]
Я подозреваю, что просто “Больше Слоёв” будет недостаточно, чтобы привести нас к GPT-6, являющейся настоящим СИИ; потому, что GPT-3, по твоей терминологии, не агентна, и, по моей терминологии, градиентный спуск от GPT-3 не обнаружит достаточно глубоких шаблонов решения задач.
[Ngo][11:46]
Окей, это помогло мне лучше понять твою позицию.
Есть одно важное различие между людьми и нейросетями: у людей есть проблема низкой пропускной способности генома, что означает, что каждый индивид должен перевывести знания о мире, которые уже были у его родителей. Если бы это ограничение не было таким жёстким, отдельные люди были бы значительно менее способны к решению новых задач.
[Yudkowsky][11:50]
Согласен.
[Ngo][11:50]
В моей терминологии, это причина, по которой люди “более агентны”, чем были бы иначе.
[Yudkowsky][11:50]
Звучит бесспорно.
[Ngo][11:51]
Другое важное различие: обучение людей проходило в условиях, где нам надо было целыми днями заниматься выживанием, а не решать математические задачи и тому подобное.
[Yudkowsky][11:51]
Я продолжаю кивать.
[Ngo][11:52]
Предположим, я соглашусь, что достижение некоторого уровня интеллекта потребует у ИИ “глубоких паттернов решения задач”, о которых ты говоришь, и поэтому ИИ будет пытаться достичь целей в реальном мире. Всё ещё кажется, что может быть много пространства между этим уровнем интеллекта и человеческим.
И если так, то можно создать ИИ, который поможет нам решить задачу согласования до ИИ с достаточно глубокими паттернами решения задач для того чтобы задумать захватить мир.
А ещё причина, по которой люди хотят захватить мир, кажется не связанной с глубинными фактами про наш интеллект. Скорее мне видится, что люди хотят захватить мир в основном потому, что это очень похоже на штуки, для которых мы эволюционировали (вроде захвата власти в племени).
[Yudkowsky][11:57]
Вот часть, с которой я соглашусь: если бы была одна теорема, лишь слегка за пределами человеческих возможностей, вроде гипотезы-ABC (если ты не считаешь её уже доказанной), и получение машинно-читаемого доказательства этой теоремы немедленно спасало бы мир – скажем, инопланетяне дали бы нам согласованный суперинтеллект, как только мы дадим им это доказательство – тогда существовал бы правдоподобный, хоть и не очень надёжный путь к спасению мира через попытку создать поверхностный разум для доказательства гипотезы-ABC, запомнивший через игру с самим собой кучу относительно поверхностных шаблонов математических доказательств, но так и не дошедший до человеческих уровней математической абстракции, просто обладающий достаточным объёмом памяти и глубиной поиска для этой задачи. Для ясности – я не уверен, что это могло бы сработать. Но моя модель интеллекта не отвергает такой возможности.
[Ngo][11:58]
(Я скорее думал о разуме, который понимает математику глубже, чем люди – но только математику, или, может, ещё некоторые науки.)
[Yudkowsky][12:00]
Части, с которыми я не согласен: что “помоги нам решить согласование” в достаточной степени похоже на “предоставь нам машинно-читаемое доказательство гипотезы-ABC, не думая о ней слишком глубоко”. Что люди хотят захватить мир только потому, что это напоминает штуки, для которых мы эволюционировали.
[Ngo][12:01]
Я определённо согласен, что люди хотят захватить мир не только потому, что это напоминает штуки, для которых мы эволюционировали.
[Yudkowsky][12:02]
Увы, но отбрасывание 5 причин, почему что-то пойдёт не так, не слишком поможет, если есть 2 оставшиеся причины, от которых куда сложнее избавиться.
[Ngo][12:02]
Но если мы представим интеллект человеческого уровня, который не эволюционировал для штук, напоминающих захват мира, то я ожидаю, что мы могли бы довольно безопасно задавать ему вопросы.
И что это также верно для интеллекта заметно выше человеческого уровня.
Так что вопрос: насколько выше человеческого уровня мы можем забраться прежде, чем система, обученная только штукам вроде ответов на вопросы и пониманию мира, решит захватить мир?
[Yudkowsky][12:04]
Я думаю, что это один из редких случаев, когда разрыв в интеллекте между “деревенским дурачком” и “Эйнштейном”, который я обычно считаю очень узким, имеет важное значение! Я думаю, ты можешь получать выводы от СИИ-уровня-деревенского-дурачка, обученного исключительно на математике, и это навееееерное не уничтожит мир (если ты не ошибаешься, с чем имеешь дело). Уровень Эйнштейна беспокоит меня куда больше.
[Ngo][12:05]
Давай тогда сосредоточимся на уровне Эйнштейна.
Человеческий мозг довольно слабо оптимизирован для занятия наукой.
Можно предположить, что создать ИИ, который занимается наукой на уровне-Эйнштейна значительно проще, чем создать ИИ, который захватывает мир на уровне-Эйнштейна (или делает что-то ещё, для чего эволюционировали люди).
[Yudkowsky][12:08]
Я думаю, что соглашусь с буквальной истинностью сказанного в некотором широком смысле. Но ты будешь систематически переоценивать, насколько проще, или как далеко ты можешь продвинуть научную часть, не получив захватывающую мир часть, пока твоя модель игнорирует, сколько между ними общего.
[Ngo][12:08]
Тогда, может, самое время рассмотреть детали того, что между ними общего.
[Yudkowsky][12:09][12:11]][12:13]
Мне кажется, у меня не очень получалось объяснить это в прошлые разы. Не тебе, другим людям.
Есть поверхностные темы, вроде того, почему философские зомби не могут существовать, и как работает квантовая механика, и почему наука должна использовать функции правдоподобия вместо p-критериев, и я едва могу объяснить их некоторым людям. А есть вещи, которые объяснить намного сложнее, они находятся за пределами моих способностей к объяснениям.
Поэтому я пытаюсь указать, что даже если ты не знаешь конкретики, ты можешь признать существование искажения твоей оценки.
Конечно, я не был очень успешен и говоря людям “Ну, даже если ты не знаешь правды про X, которая позволила бы тебе увидеть Y, разве не понятно тебе из абстрактных размышлений, что любая правда о X предсказуемо сдвинет твои убеждения в сторону Y?”, люди, кажется, такое не очень понимают. Не ты, в других дискуссиях.
[Ngo][12:10][12:11][12:13]
Осмысленно. Могу ли я сделать это проще? Например, могу попробовать изложить то, как я вижу твою позицию.
Учитывая то, что ты сказал, я не очень рассчитываю, что это сильно поможет.
Но раз уж это основные источники твоих заявлений, стоит попробовать.
Другой подход – сосредоточиться на предсказаниях развития способностей ИИ в ближайшие пять лет.
Я приму твоё предупреждение про искажение оценки. Мне кажется, что есть и обратное искажение от того, что, пока мы не знаем механизмы работы разных человеческих способностей, мы склонны представлять их одной и той же штукой.
[Yudkowsky][12:14]
Ага. Если не знать про зрительную кору и слуховую кору, или про глаза и уши, то можно было бы предположить, что любое сознание невозможно без зрения и слуха.
[Ngo][12:16]
Так что моя позиция такая: люди преследуют цели из-за эволюционно вложенных эмоций и сигналов подкрепления, и без них мы были бы куда безопаснее, но не особо хуже в распознавании паттернов.
[Yudkowsky][12:17]
Если бы было ключевое действие, которое можно выполнить с помощью всего лишь сверхчеловеческого распознавания паттернов, это точно так же как “ключевое действие только из математики” мгновенно стало бы основным направлением разработок.
[Ngo][12:18]
Мне кажется, что математика куда в большей степени про распознавание паттернов, чем, скажем, управление компанией. Управление компанией требует последовательности на протяжении длительных промежутков времени, долговременной памяти, мотивации, осознанности, и т.д.
[Yudkowsky][12:18][12:23]
(Одно направление исследований можно было приблизительно описать как “как насчёт ключевого действия, состоящего исключительно из предсказания текста”, и моим ответом было “вы пытаетесь получить полноценные способности СИИ, предсказывая текст про глубокое/“агентное“ мышление, так что это ничем не лучше”.)
Человеческая математика очень даже про достижение целей. Люди хотят доказать леммы, чтобы потом доказать теоремы. Может и можно создать не такого математика, чья опасная непонятная часть, состоящая из векторов вещественных чисел, действует скорее как GPT-3. Но и тогда снаружи потребуется что-то больше похожее на Alpha-Zero для выбора направления поиска.
Возможно, эта наружная оболочка может быть достаточно мощной и не будучи рефлексивной. Так что правдоподобно, что куда проще создать математика, способного к сверхчеловеческому доказательству теорем, но не агентного. Реальность может сказать нам “лол, нет”, но моя модель интеллекта её не обязывает. Поэтому, если ты дашь мне ключевое действие, состоящее исключительно из “вывести машиночитаемое доказательство такой-то теоремы, и мир спасён”, то я бы выбрал его! Это и правда выглядит куда проще!
[Ngo][12:21][12:25]
Окей, попробую перефразировать твой аргумент:
Твоя позиция: существует фундаментальное сходство между задачами вроде математики, исследования согласования и захвата мира. Для того, чтобы хорошо обучиться чему-то из этого, агенту, основанному на чём-то похожем на современное машинное обучение, надо будет усвоить глубокие паттерны решения задач, включающие мышление, ориентированное на достижение целей. Так что хоть и возможно превзойти людей в какой-то одной из этих задач без этих общих компетенций, люди обычно переоценивают степень, в которой это возможно.
[Yudkowsky][12:25]
Напомню, я беспокоюсь в основном о том, что произойдёт первым, особенно если это произойдёт достаточно скоро, чтобы этот будущий СИИ был хоть сколько-нибудь похож на современные системы машинного обучения. Не о том, что возможно в принципе.
[Soares][12:26]
(Замечу: прошло 85 минут, мы планировали перерыв через 90, так что сейчас, кажется, подходящий момент, чтобы ещё немного прояснить резюмирование Ричарда перед перерывом)
[Ngo][12:26]
Я исправлю на, скажем, “правдоподобно для техник машинного обучения?”
(и “степень, в которой это правдоподобно”)
[Yudkowsky][12:28]
Я думаю, что очевидное-для-меня будущее развитие современных парадигм ML по дороге к значительно сверхчеловеческому X крайне вероятно придёт к обобщениям, приводящим к захвату мира. Насколько быстро это произойдёт, зависит от X. Правдоподобно, что это произойдёт относительно медленно, если взять как X доказательство теорем, использовать архитектуру, запоминающую осторожным градиентным спуском сеть поверхностных архитектур для распознавания паттернов, и убрать часть, отвечающую за поиск (типа того, это не безопасно в общем, это не универсальная формула для безопасных штук). Медленнее, чем если ввести что-то вроде генетического бутылочного горлышка, на которое ты правильно указал, как на причину, почему люди научились обобщать. Выгодные X и любые X, которые я могу представить подходящими для спасения мира, кажутся куда более проблематичными.
[Ngo][12:30]
Окей, с удовольствием возьму перерыв сейчас.
[Soares][12:30]
Как раз вовремя!
[Ngo][12:30]
Мы можем потом немного пообсуждать на метауровне; у меня возник порыв удариться в вопрос о том, насколько Элиезер считает исследования согласования похожими на доказательства теорем.
[Yudkowsky][12:30]
Ага. У меня сейчас полдник (на самом деле, первая еда за день на 600-калорийной диете), так что я могу вернуться через 45 минут, если тебе это подходит.
[Ngo][12:31]
Конечно.
Ещё, если нас читают в реальном времени, и у вас есть предложения или комментарии, мне было бы интересно их выслушать.
[Yudkowsky][12:31]
Я тоже приветствую предложения и комментарии от наблюдателей во время перерыва.
[Soares][12:32]
Звучит неплохо. Я объявляю перерыв на 45 минут, после чего мы продолжим (по умолчанию на ещё 90).
Открыты к предложениям и комментариям.
[Yudkowsky][12:50]
Я освобожусь пораньше, если всем (в основном Ричарду) удобно, можно продолжить через 10 минут (после 30 минут перерыва)
[Ngo][12:51]
Да, с удовольствием
[Soares][12:57]
Немного быстрых комментариев от меня:
[Ngo][13:00]
Я думаю, что таков камень преткновения для конкретного ключевого действия “лучше исследовать согласование”, и может, ещё некоторых, но не для всех (и не обязательно большинства)
[Yudkowsky][13:01]
Мне стоит явно сказать, что я немного работал с Аджейей, пытаясь передать понимание того, почему склонны выучиваться глубокие обобщённые паттерны, для чего пришлось рассмотреть кучу вопросов. Это научило меня тому, сколько вопросов приходится рассматривать, и из-за этого я теперь относительно менее охотно пытаюсь перерассмотреть те же вопросы тут.
[Ngo][13:02]
Пара вещей, о которых я хотел бы спросить Элиезера в дальнейшем:
Я собирался заявить, что второй пункт кажется самым перспективным для вынесения идей на публику.
Но раз это всё равно произойдёт благодаря работе с Аджейей, то не так уж важно.
[Yudkowsky][13:03]
Я всё равно могу быстренько попробовать и посмотреть, как получится.
[Ngo][13:03]
Выглядит полезно, если тебе хочется.
В то же время, я попробую просуммировать мои собственные относящиеся к делу интуитивные рассуждения об интеллекте.
[Yudkowsky][13:04]
Я не уверен, что я смогу пересказать твою позицию в не-соломенном виде. Для меня есть огромное видимое различие между “решать для нас согласование” и “выводить машинно-читаемые доказательства теорем”, и я не могу толком понять, почему ты считаешь, что рассуждения о втором скажут нам что-то важное про первое. Я не знаю и какое ещё ключевое действие по твоему мнению может быть проще.
[Ngo][13:06]
Вижу. Я рассматривал “решать научные задачи” как альтернативу для “доказывать теоремы”, ведь согласование – это (особенно сложный) пример научной задачи.
Но решил начать с обсуждения доказательства теорем, поскольку это выглядит яснее.
[Yudkowsky][13:07]
Можешь ли ты предсказать заранее, почему Элиезер считает “решать научные задачи” значительно более рискованным случаем? (А согласование – это точно не “особенно сложный пример научной проблемы”, кроме как разве что в смысле того, что в нём вообще есть какая-то наука; возможно, именно это настоящий камень преткновения; и это более сложная тема)
[Ngo][13:09]
Основываясь на твоих предыдущих комментариях, я сейчас предсказываю, что ты думаешь, что шаг, на котором решения должны стать понятными и оцениваемыми людьми, делает науку более рискованным случаем, чем доказательство теорем, в котором решения можно проверять автоматически.
[Yudkowsky][13:10]
Это один из факторов. Следует ли мне выложить основной, или лучше ты сам попробуешь его сформулировать?
[Ngo][13:10]
Требование многих знаний о реальном мире для науки?
Если не то, то выкладывай.
[Yudkowsky][13:11]
Это возможная формулировка. Я обычно формулирую через формулирование гипотез о реальном мире.
Как бы в этом тогда и есть задача ИИ.
Фактор 3: Многие интерпретации занятий наукой требуют придумывания экспериментов. Это включает в себя планирование, придание информации ценности, поиск способов проведения эксперимента для различения гипотез (что означает поиск начальных условий, приводящих к определённым последствиям).
[Ngo][13:12]
Для меня “моделирование реального мира” – это довольно плавный параметр. На одном конце мы имеем физические уравнения, которые едва отличимы от математических задач, а на другом что-то делающих людей с физическими телами.
Для меня выглядит правдоподобным создание агента, который будет решать научные задачи, но будет слабо осведомлён о себе (в смысле знания, что он ИИ, что он обучен, и т.д.).
Я ожидаю, что твой ответ будет о том, что моделирование себя – это один из глубоких паттернов решения задач, которые скорее всего будут у СИИ.
[Yudkowsky][13:15]
Перед сознанием-занимающимся-наукой стоит задача выяснения причин сенсорного опыта. (Она, на самом деле, встаёт и при человеческих занятиях математикой, и, возможно, неотделима от математики в целом; но это скорее говорит: “Упс, кажется, вы получили всё же науку” - а не что наука менее опасна, потому что похожа на математику.)
Ты можешь создать ИИ, который водит только красные машины, и которому никогда не приходилось водить синие. Это не означает, что его способности вождения-красных-машин не окажутся чрезвычайно близки к способностям вождения-синих-машин, если в какой-то момент внутренние рассуждения направятся на задачу вождения синей машины.
Факт существования глубокого паттерна вождения-машин, общего для красных и синих машин, не означает, что ИИ обязательно водил синие машины, или что ему обязательно водить синие машины, чтобы научиться водить красные. Но если синие машины – это огонь, то ты точно играешь с этим огнём.
[Ngo][13:18]
Для меня “сенсорный опыт” как “видео и аудио, приходящее от тела, которым я управляю” и “сенсорный опыт” как “файл, содержащий последние результаты от Большого Адронного Коллайдера” довольно сильно различаются.
(Я не говорю, что второго хватит для обучения ИИ-учёного, но, возможно, хватит чего-то, что ближе к второму, чем к первому)
[Yudkowsky][13:19]
“Обязательно ли СИИ нужно моделировать себя в мире, чтобы заниматься наукой” и “не создали ли мы что-то, что может наткнуться на моделирование себя из-за случайности, произошедшей где-то в непонятных векторах чисел, особенно если это окажется хоть чуть-чуть полезно для решения внешних задач” – это два отдельных вопроса.
[Ngo][13:19]
Хмм, понимаю
[Yudkowsky][13:20][13:21][13:21]
Если попробовать создать ИИ, который занимается наукой буквально только через сбор наблюдений и никак каузально не связан с этими наблюдениями, то это, пожалуй, “опаснее математики, но может и менее опасно, чем активная наука”.
Всё ещё можно будет наткнуться на активного учёного, потому что это окажется простым внутренним решением для чего-нибудь, но внешняя задача будет лишена этого важного структурного свойства так же, как и чистая математика, не описывающая настоящие земные объекты.
И, конечно, моя реакция будет: “Нет ключевого действия, использующего только такие когнитивные способности.”
[Ngo][13:20][13:21][13:26]
Моя (довольно уверенная) априорная догадка такова, что что-то вроде самомоделирования, которое очень глубоко встроено в почти любой организм, это очень сложная (при отсутствии значительного оптимизационного давления в этом направлении) для случайного натыкания ИИ штука.
Но я не уверен, как это обосновать, кроме как вкапываясь в твои взгляды на то, чем являются глубокие паттерны решения задач. Так что, если ты всё ещё хочешь быстро попробовать это объяснить, было бы полезно.
“Каузальная связь” опять же выглядит плавным параметром – кажется, что количество связи, необходимое для науки, куда меньше, чем, скажем, для управления компанией.
[Yudkowsky][13:26]
Ключевая штука, кажется – не столько количество, сколько внутреннее устройство, необходимое для неё.
[Ngo][13:27]
Согласен.
[Yudkowsky][13:27]
Если ты вернёшься во времени в 16-й век и захочешь получить всего одну дозу mRNA-вакцины, это не особо отличается от получения миллиона сотни.
[Ngo][13:28]
Ладно, тогда дополнительная используемая мной предпосылка в том, что способность рассуждать о каузальном влиянии на мир для достижения целей – это что-то, чего можно иметь всего чуть-чуть.
Или много, и зависеть это может от обучающих данных.
Я ожидаю, что с этим ты не согласишься.
[Yudkowsky][13:29]
Если ты сведёшь ключевое действие к “просмотри данные от этого адронного коллайдера, который ты не строил и не запускал”, то это действительно важный шаг от “занимайся наукой” или “создай наносистемы”. Но я не вижу таких ключевых действий, так что так ли это важно?
Если есть промежуточные шаги, можно их описать как “мышление о каузальном воздействии только в этой заранее заданной, не изученной в общем области, в отдельной части когнитивной архитектуры, отделяемой от всех остальных частей”.
[Ngo][13:31]
Может, по-другому можно сформулировать как то, что у агента есть поверхностное понимание того, как оказывать влияние.
[Yudkowsky][13:31]
Что для тебя “поверхностное”?
[Ngo][13:31]
В духе того, как ты утверждаешь, что у GPT-3 есть поверхностное понимание языка.
[Yudkowsky][13:32]
То есть, он запомнил кучу поверхностных паттернов оказания-каузального-воздействия из большого набора данных, и это может быть подтверждено, например, предоставлением ему случая из-за пределов этого набора и наблюдением за тем, как он проваливается. Что, как мы думаем, подтвердит нашу гипотезу о том, что он не научился из набора данных глубоким обобщениям.
[Ngo][13:33]
Грубо говоря, да.
[Yudkowsky][13:34]
К примеру, нас совсем бы не удивило, если бы GPT-4 научился предсказывать “27 * 18”, но не “какова площадь прямоугольника 27 метров на 18 метров”… хотел бы я сказать, но Codex уверенно продемонстрировал, что от одного до другого довольно-таки близко.
[Ngo][13:34]
Один способ, как это можно было бы сделать: представь агента, быстро теряющего связность действий, когда он пытается действовать в мире.
К примеру, мы натренировали его проводить научные эксперименты, длящиеся несколько часов или дней.
И он очень хорош в понимании экспериментальных данных и вычленении из них паттернов
Но если его запустить на неделю или месяц, то он теряет связность похожим образом на то, как GTP-3 теряет связность, т.е. забывает, что он делает.
Как это так получилось: есть специфический навык обладания долговременной памятью, и мы никогда не тренировали агента в этом навыке, вот он его и не приобрёл (хоть он и может очень мощно и обобщённо рассуждать в короткие промежутки времени).
Это кажется схожим с моим аргументом о том, как агент может не моделировать себя, если мы его специально на это не тренировали.
[Yudkowsky][13:39]
Есть набор очевидных для меня тактик для осуществления ключевого действия с минимальной опасностью (я не думаю, что они делают задачу безопасной), и одна из них это, действительно “Ограничить ‘окно внимания“ или какой-нибудь ещё внутренний параметр, повышать его медленно и не повышать выше необходимого для решения задачи.”
[Ngo][13:41]
Это можно делать вручную, но я ожидаю, что это может быть сделано автоматически, через обучение агентов в окружении, где они не будут получать выгоду от длительного поддержания внимания.
[Yudkowsky][13:42]
(Каждый раз, когда кто-нибудь достаточно осторожный представляет тактику такого рода, он должен представить множество способов, которыми всё может пойти не так; к примеру, если в предоставленных данных или внутреннем состоянии агента есть что-то, зависящее от прошлых событий таким образом, что оно выдаёт о них информацию. Но, в зависимости от того, насколько суперинтеллектуальны иные части, иногда может и прокатить.)
[Ngo][13:43]
И если ты поместишь агентов в окружения, где им надо отвечать на вопросы, не особо взаимодействую с внешним миром, то у них не будет множества качеств, необходимых для достижения целей в реальном мире, потому что они не будут получать особого преимущества от оптимизации этих качеств.
[Yudkowsky][13:43]
Замечу, что TransformerXL обобщил своё окно внимания, он был натренирован на, кажется, 380 токенов или около того, а потом оказалось, что оно у него около 4000 токенов.
[Ngo][13:43]
Ага, обобщение на порядок меня не удивляет.
[Yudkowsky][13:44]
Наблюдав обобщение на один порядок, я лично теперь не удивился бы и двум.
[Ngo][13:45]
Я был бы несколько удивлён, но, полагаю, такое случается.
[Yudkowsky][13:46]
Мне кажется, это всё крутится вокруг вопроса “Но что ты сделаешь с настолько ослабленным интеллектом?”. Если ты можешь спасти мир с помощью булыжника, я могу тебе обеспечить очень безопасный булыжник.
[Ngo][13:46]
Верно.
До сих пор я говорил “исследование согласования”, но был не очень конкретен.
Я полагаю, что тут должен быть контекст того, что первые вещи, которые мы делаем с таким интеллектом, это улучшаем общее благосостояние, продвигаем науку, и т.д.
И после этого мы в мире, где люди воспринимают перспективу СИИ куда серьёзнее
[Yudkowsky][13:48]
Я в целом ожидаю – хотя с какими-то шансами реальность может сказать: “Ну и что?” и удивить меня, это не настолько твёрдо определено как многие другие штуки – что у нас не будет длинной фазы “странного СИИ ~человеческого уровня” перед фазой “если ты разгонишь этот СИИ, он уничтожит мир”. Говоря в числах, скажем, меньше пяти лет.
Меня совершенно не удивит, если мир закончится до того, как беспилотные автомобили станут продаваться на массовом рынке. В некоторых вполне правдоподобных сценариях, которым я сейчас приписываю >50% вероятности, компании, разрабатывающие СИИ, смогут предоставить прототипы управляющего автомобилем ИИ, если потратят на это время, и это будет близкий-к-концу-света уровень технологий; но будет Много Очень Серьёзных Вопросов о свободном выпускании на дороги этого относительно нового недоказанного достижения машинного обучения. И их технология СИИ уже будет иметь свойство “можно разогнать до уничтожения мира” до того, как Земля получит свойство “беспилотные автомобили разрешены на массовом рынке”, просто потому, что на это не хватит времени.
[Ngo][13:52]
Тогда я ожидаю, что другая штука, которую можно сделать – это собрать очень большой объём данных, вознаграждающий ИИ за следование указаниям людей.
[Yudkowsky][13:52]
В других сценариях, конечно, беспилотное вождение становится возможным с ограниченным ИИ задолго до прорыва к СИИ. И в некоторых сценариях СИИ будет получен с помощью прорыва в чём-то уже довольно быстро масштабируемом, так что к моменту, или вскоре после него, когда технологию можно будет использовать для беспилотных автомобилей, она уже уничтожит мир по повороту рубильника.
[Ngo][13:53]
Когда ты говоришь о “разгонке СИИ”, что ты имеешь в виду?
Использовать больше вычислительных мощностей на тех же данных?
[Yudkowsky][13:53]
Запустить с увеличенными границами циклов for, или наибольшем количестве GPU, если точнее.
[Ngo][13:53]
В режиме обучения с подкреплением, или обучении с учителем, или без учителя?
Ещё: можно поподробнее про циклы for?
[Yudkowsky][13:56]
Я не думаю, что просто градиентный спуск на Большем Количестве Слоёв – как, скажем, сделали OpenAI с GPT-3, в противоположность Deepmind, которые создают более сложные артефакты вроде Mu Zero или AlphaFold 2, будет первым путём, который приведёт к СИИ. Я избегаю письменно высказывать предположения об умных путях к СИИ, и, я думаю, любой умный человек, если он действительно умный, а не просто приукрашенно-глупый, не будет говорить о том, чего, как ему кажется, не хватает в стратегии Большего Количества Слоёв или как на самом деле можно получить СИИ. С учётом этого, то, что нельзя просто запустить GPT-3 с большей глубиной поиска так, как можно с Mu Zero – это часть того, почему я считаю, что СИИ маловероятно будет устроен в точности как GPT-3; штука, которая нас всех убьёт, скорее будет чем-то, становящимся опаснее, если провернуть его рубильник, не чем-то, в чём в принципе нет рубильников, делающих это более опасным.
[Ngo][13:59]
Хм-м-м, окей. Давай быстренько вернёмся назад и подумаем, что полезного было в последние полчаса.
Я хочу отметить, что мои интуитивные рассуждения о ключевых действиях не очень конкретны; я довольно неуверен в том, как работает в такой ситуации геополитика, и в промежутке времени между СИИ-примерно-рядом-с-человеческим-уровнем и СИИ, предоставляющим экзистенциальные риски.
Так что мы можем продолжить обсуждать это, но я ожидаю, что буду часто говорить “ну, мы не можем исключить, что произойдёт X”, что, наверное, не самый продуктивный вид дискуссии.
Другой вариант – повкапываться в твои рассуждения о том, как работает мышление.
[Yudkowsky][14:03]
Ну, очевидно, в предельном случае, когда согласование недоступно нашей цивилизации, получится, что я успешно построил более благосклонную модель, всё же правильно отвергающую возможность успешного согласования для нашей цивилизации. В этом случае, я мог бы потратить короткий остаток своей жизни, споря с людьми, чьи модели достаточно благосклонны, чтобы включать невежество в какой-то области, из которой следует, что согласовать ничего не получится. Но предсказуемо именно так идут обсуждения на возможных мирах, где Земля обречена; так что кто-то помудрее на мета-уровне, будучи всё ещё невежественным на объектном уровне, предпочёл бы спросить: “Где, как ты думаешь, твоё знание, а не твоё невежество, говорит, что согласование должно быть осуществимым, и ты бы удивился, если бы оно не было?”.
[Ngo][14:07]
Справедливо. Хотя, кажется, концепция “ключевого действия” строится на обречённости по умолчанию.
[Yudkowsky][14:08]
Можно поговорить об этом, если тебе кажется, что это важно. Хотя я не думаю, что это обсуждение закончится за один день, так что, может, для удобства публикации нам стоит попробовать сфокусироваться на одной линии дискуссии?
Но мне кажется, что оптимизм многих людей основан на предположении, что мир можно спасти с помощью наименее опасных применений СИИ. Так что это большое ключевое расхождение в предпосылках.
[Ngo][14:09]
Согласен, что одна линия дискуссии лучше; готов сейчас принять концепцию ключевого действия.
Третий вариант в том, что я выскажу, как по-моему работает мышление, и посмотрим, насколько ты согласишься.
[Yudkowsky][14:12]
(Повторюсь, причина, по которой я не пишу “вот мои соображения, как работает мышление” в том, что прошлый опыт показал мне, что передача этой информации Другому Разуму, чтобы он мог её воспринять и ею оперировать, весьма сложна для моей текущей способности На Самом Деле Объяснять Что-Либо; такие вещи требуют долгих обсуждений и последующих домашних заданий, чтобы понять, как одна и та же структура возникает в разных случаях, в противоположность просто безрезультатному получению этого знания в готовом виде, и я пока не придумал подходящее домашнее задание.)
С радостью выслушаю твои заявления о мышлении и не соглашусь с ними.
[Ngo][14:12]
Отлично.
Окей, первое утверждение в том, что нечто вроде деонтологии – это довольно естественный способ работы разума.
[Yudkowsky][14:14]
(“Если бы это было так”, - подумал он, - “бюрократия и многотомные инструкции были бы куда эффективнее, чем на самом деле”)
[Ngo][14:14]
Хмм, наверно это была не лучшая формулировка, дай подумать, как сказать по другому.
Ладно, в нашей ранней дискуссии по email мы говорили о концепции “послушания”.
Мне кажется, что для разума столь же естественно иметь “послушание” в качестве приблизительной цели, как и максимизацию скрепок.
Если мы представим обучение агента на большом объёме данных, которые указывают в приблизительном направлении вознаграждения послушания, к примеру, то я представляю, что по умолчанию послушание будет ограничением, сравнимым с, скажем, человеческим инстинктом самосохранения.
(Который, очевидно, не настолько силён, чтобы остановить людей от кучи штук, которые ему противоречат – но всё равно это неплохое начало.)
[Yudkowsky][14:18]
Ха. Ты хотел сказать, сравнимым с человеческим инстинктом явной оптимизации совокупной генетической приспособленности?
[Ngo][14:19]
Генетическая приспособленность не была для наших предков понятной концепцией, так что, конечно, они не были направлены прямо на неё.
(И они не понимали, как её достичь)
[Yudkowsky][14:19]
Даже так, если ты не ожидаешь, вопреки общему мнению, что градиентный спуск будет работать совсем не так, как генная оптимизация, то суровая оптимизация X даст тебе лишь что-то, коррелировавшее с X в контексте обучения.
Это, конечно, одна из Больших Фундаментальных Проблем, которых я ожидаю в согласовании.
[Ngo][14:20]
Ладно, главный коррелят, обсуждения которого я встречал, это “делать то, что заставит человека поставить тебе высокую оценку, не то, чего он на самом деле хочет”
Мне любопытно, насколько ты обеспокоен этим конкретным коррелятом по сравнению с коррелятами в целом.
[Yudkowsky][14:21]
Ещё я вижу структурные причины, по которым натренировать на скрепки куда проще, чем на “послушание”. Даже если бы мы могли магически внушить простые внутренние желания, идеально отражающие простой внешний алгоритм, мы всё равно исполняем много отдельных экземпляров награждающей функции.
[Ngo][14:22]
Интересно было бы об этом послушать.
[Yudkowsky][14:22]
Ну, в первую очередь, почему книга с инструкциями настолько менее удобна и естественна, чем поведение охотника-собирателя?
ну знаешь, если деонтология столь же хороша, как консеквенциализм
(попробуешь ответить, или просто сказать?)
[Ngo][14:23]
Валяй
Мне, наверное, стоит прояснить, что я согласен, что нельзя просто заменить консеквенциализм деонтологией
Я скорее заявляю вот что: когда речь идёт о высокоуровневых концептах, мне не ясно, почему высокоуровневые консеквенциалистские цели естественнее высокоуровневых деонтологических целей.
[Yudkowsky][14:24]
Я отвечу, что реальность сложная, так что, когда ты пытаешься достичь в ней простой цели, ты получаешь сложное поведение. Если думать о реальности как о сложной функции Ввод->Вероятность(Вывод), то даже для простого Вывода, или простого набора Выводов, или высокого ожидаемого значения какой-нибудь простой функции от Вывода, может потребоваться очень сложный Ввод.
Люди не доверяют друг другу. Они представляют: “Ну, если я просто дам этому бюрократу цель, то он не будет честно рассуждать о том, чего будет стоить её достижение! О, нет! Потому, вместо этого, я, будучи аккуратным и достойным доверия человеком, сам придумаю ограничения и требования для действий бюрократа, такие, что я ожидаю, что, если он будет им следовать, результат его действий будет таким, как мне хочется.”
Но (в сравнении с сильным интеллектом, который наблюдает и моделирует сложную реальность и сам выбирает действия) действительно эффективная книга инструкций (исполняемая неким нечеловеческим разумом с достаточно большой и точной памятью, чтобы её запомнить) будет включать огромное (физически невозможное) количество правил “наблюдая то, делай это” для всех заковырок сложной реальности, которые можно выяснить из наблюдений.
[Ngo][14:28]
(Повторюсь, причина, по которой я не пишу “вот мои соображения как работает мышление” в том, что прошлый опыт показал мне, что передача этой информации Другому Разуму, чтобы он мог её воспринять и ею оперировать, весьма сложна для моей текущей способности На Самом Деле Объяснять Что-Либо; такие вещи требуют долгих обсуждений и последующих домашних заданий, чтобы понять, как одна и та же структура возникает в разных случаях, в противоположность просто безрезультатному получению этого знания в готовом виде, и я пока не придумал подходящее домашнее задание.)
(Отойдя от темы: нет хотя бы грубой оценки, когда твоя работа с Аджейей станет достоянием публики? Если ещё нескоро, то, может, полезно всё же выложить приблизительное описание этих соображений, пусть даже и в форме, в которой мало кто сможет их усвоить)
[Yudkowsky][14:30]
(Отойдя от темы: нет хотя бы грубой оценки, когда твоя работа с Аджейей станет достоянием публики? Если ещё нескоро, то, может, полезно всё же выложить приблизительное описание этих соображений, пусть даже и в форме, в которой мало кто сможет их усвоить)
Готов поверить в полезность, но, наверное, не сегодня?
[Ngo][14:30]
Согласен.
[Yudkowsky][14:30]
(Мы сейчас заходим за установленное время, мне нормально, но у тебя 11:30 (вроде), так что прервёмся, когда скажешь.)
[Ngo][14:32]
Да, 11:30. Я думаю, лучше всего прерваться тут. Я согласен с тем, что ты сказал про сложность реальности и с тем, что поэтому консеквенциализм ценнее. Моё заявление про “деонтологию” (бывшее в изначальной формулировке слишком общим, приношу извинения за это) было призвано прощупать твои соображения о том, какие типы мышления естественны или неестественны. Мне кажется, мы много ходили кругами вокруг этой темы.
[Yudkowsky][14:33]
Ага, и возобновить, наверное, стоит с того, почему я считаю “послушание” неестественным по сравнению с “скрепками” концептом – хоть это, наверное, и потребует затронуть тему того, что стоит за поверхностными умениями.
[Ngo][14:34]
Верно. Я думаю, что даже расплывчатое указание на это было бы довольно полезным (если этого пока нет онлайн?)
[Yudkowsky][14:34]
Насколько я знаю, пока нет, и я не хочу перенаправлять тебя на материалы Аджейи, даже если её это устраивает, потому что в таком случае наше обсуждение будет лишено нужного контекста для других.
[Ngo][14:35]
С моей стороны, мне стоит больше подумать о конкретных ключевых действиях, которые я захочу защищать.
В любом случае, спасибо за дискуссию :)
Дай мне знать, если знаешь, когда лучше продолжить; иначе определим это потом.
[Soares][14:37]
(вы тут делаете за меня мою работу)
[Yudkowsky][14:37]
Можно во вторник в то же время – хотя я могу быть не в такой хорошей форме из-за диеты, но стоит попробовать.
[Soares][14:37]
(сойдёт)
[Ngo][14:39]
Вторник не идеален, другие варианты есть?
[Yudkowsky][14:39]
Среда?
[Ngo][14:40]
Да, среда подойдёт
[Yudkowsky][14:40]
Тогда ориентировочно так
[Soares][14:41]
Здорово! Спасибо за разговор.
[Ngo][14:41]
Спасибо!
[Yudkowsky][14:41]
Спасибо, Ричард!
[Tallinn][0:35] (6 сентября)
Застрял здесь и хочу поблагодарить Нейта, Элиезера и (особенно) Ричарда, что они это делают! Здорово увидеть модель Элиезера настолько подробно. Я узнал несколько новых штук (как то, что ограничение информации в генах может быть важным фактором в развитии человеческого разума). Стоит добавить, маленький комментарий по деонтологии (пока не забыл): мне кажется, деонтология больше про координацию, чем про оптимизацию: деонтологическим агентам проще доверять, потому что об их действиях куда проще рассуждать (так же, как функциональный/декларативный код проще анализировать, чем императивный). Потому вот мой сильнейший аргумент в пользу бюрократии (и социальных норм): люди просто (и правильно) предпочитают, чтобы другие оптимизаторы (в том числе нечеловеческие) были деонтологическими для лучшего доверия/координации, и согласны платить за это компетенцией.
[Ngo][3:10] (8 сентября)
Спасибо, Яан! Я согласен, что большее доверие – хорошая причина хотеть от агентов, чтобы они на некотором высоком уровне были деонтологическими.
Я попробую просуммировать основные затронутые штуки; комментарии приветствуются: [ссылка на GDocs]
[Ngo] (8 сентября Google Doc)
1-я дискуссия
(В основном обобщения, а не цитаты)
Элиезера, по описанию Ричарда: “Чтобы избежать катастрофы, те, кто первыми создадут СИИ, должны будут а) в какой-то мере его согласовать, б) решить не разгонять его до уровня, на котором их техники согласования перестанут работать, и в) исполнить какое-то ключевое действие, которое помешает всем остальным разогнать его до такого уровня. Но наши техники согласования не будут достаточно хороши наши техники согласования будут очень далеки от подходящих на нашей текущей траектории наши техники согласования будут очень далеки от подходящих для создания ИИ, который безопасно выполнит такое ключевое действие.”
[Yudkowsky][11:05] (8 сентября комментарий)
“не будут достаточно хороши”
Сейчас не на пути к тому, чтобы быть достаточно хорошими, с большим разрывом. “Не будут достаточно хороши” – это буквально объявление о намерении лечь и помереть.
[Yudkowsky][16:03] (9 сентября комментарий)
Будут очень далеки от подходящих
Та же проблема. Я не делаю безусловные предсказания о будущем провале, как предполагает слово “будут”. При условии текущего или соседних с ним курсов, мы будем на порядок отставать от уровня выживания, если не произойдёт какого-нибудь чуда. Но это не предопределено; это всё ещё результат того, что люди будут делать то, что они, кажется, делают, а не неизбежность.
[Ngo][5:10] (10 сентября комментарий)
А, вижу. Подойдёт ли добавление “на нашей текущей траектории”?
[Yudkowsky][10:46] (10 сентября комментарий)
Да.
[Ngo] (8 сентября Google Doc)
Ричард, по описанию Ричарда: «Рассмотрим ключевое действие “совершить прорыв в исследовании согласования”. Вероятно, до момента, когда СИИ будет сильно сверхчеловеческим в поиске власти, он будет уже некоторое время сильно сверхчеловеческим в понимании мира и в выполнении ключевых действий вроде исследования согласования, не требующих высокой агентности (под которой я примерно подразумеваю: наличие крупных мотиваций и способность следовать им долгие промежутки времени).»
Элизер, по описанию Ричарда: “Есть глубокая связь между решением интеллектуальных задач и захватом мира – решение задач требует, чтобы мощный разум думал об областях, которые, будучи понятыми, предоставляют опасные когнитивно-доступные стратегии. Даже математические исследования включают в себя задачу постановки и преследования инструментальных целей – и если мозг, эволюционировавший в саванне, может быстро научиться математике, то так же правдоподобно, что ИИ, натренированный на математику, может быстро выучить множество других навыков. Так как почти никто не понимает глубинное сходство мышления, необходиомого для разных задач, расстояние между ИИ, который может проводить научные исследования, и опасно агентным СИИ меньше, чем почти все ожидают.”
[Yudkowsky][11:05] (8 сентября комментарий)
Есть глубокая связь между решением интеллектуальных задач и захватом мира.
По умолчанию есть глубокая связь между обтачиванием каменных топоров и захватом мира, если научиться обтачивать топоры в очень общем виде. “Интеллектуальные” задачи в этом отношении ничем не отличаются. Может и можно избежать положения по умолчанию, но это потребует некоторой работы, и её надо будет выполнить до того, как более простые техники машинного обучения уничтожат мир.
[Ngo] (8 сентября Google Doc)
Ричард, по описанию Ричарда: “Наш недостаток понимания того, как работает интеллект, склоняет нас к предположению, что черты, совместно проявляющиеся у людей, также будут совместными у ИИ. Но человеческий мозг плохо оптимизирован для задач вроде научных исследований и хорошо оптимизирован для поиска власти в окружающем мире, по причине, в том числе:
а) эволюции в жестоком окружении;
б) ограничения пропускной способности генома;
в) социальном окружении, вознаграждающем стремление к власти.
Напротив, нейросети, натренированные на задачи вроде математических или научных исследований, куда меньше оптимизированы для стремления к власти. К примеру, GPT-3 обладает знаниями и способностями к рассуждениям, но при этом обладает низкой агентностью и теряет связность действий на больших промежутках времени.”
[Tallinn][4:19] (8 сентября комментарий)
[хорошо оптимизирован для] поиска власти
Можно посмотреть на межполовые различия (хоть и не хочется полагаться на Пинкера :))
[Yudkowsky][11:31] (8 сентября комментарий)
Я не думаю, что женская версия Элиезера Юдковского не пыталась бы спасти / оптимизировать / захватить мир. Мужчины могут делать это по глупым причинам; умные мужчины и женщины используют одинаковые рассуждения, если они достаточно умны. К примеру, Анна Саламон и многие другие.
[Ngo] (8 сентября Google Doc)
Элиезер, по описанию Ричарда: “Во-первых, есть большая разница между большинством научных исследований и таким родом ключевых действий, о которых мы говорим – тебе потребуется объяснить, как ИИ с тем или иным навыком можно на самом деле использовать, чтобы предотвратить создание опасного ИИ. Во-вторых, GPT-3 обладает низкой агентностью, потому что она запомнила множество поверхностных паттернов таким способом, который непосредственно не масштабируется до обобщённого интеллекта. Интеллект состоит из глубоких паттернов решения задач, что фундаментально связывает его с агентностью.”
[Yudkowsky][11:00]
(Я тут.)
[Ngo][11:01]
Тоже.
[Soares][11:01]
Добро пожаловать!
(Я, в основном, просто не буду мешать.)
[Ngo][11:02]
Круто. Элиезер, ты прочитал резюмирование – и, если да, согласен ли с ним в общих чертах?
Ещё я думал про лучший способ подобраться к твоим соображениям о мышлении. Мне кажется, что начинать с темы про послушание против скрепок, наверное, не так полезно, как с чего-то ещё – к примеру, с определения, которое ты выдал ближе к началу предыдущей дискуссии про «поиск состояний, получающих высокую оценку при скармливании их в функцию результатов, а затем в функцию оценки результатов».
[Yudkowsky][11:06]
Сделал пару комментариев про формулировки.
Итак, с моей перспективы, есть такая проблема, что… довольно сложно учить людей некоторым общим вещам, в противоположность более конкретным. Вроде как, когда пытаются создать вечный двигатель, и хоть ты и убедил их, что первый проект неправильный, они просто придумывают новый, и новый достаточно сложен, что ты не можешь их убедить, что они неправы, потому что они сделали более сложную ошибку и теперь не могут уследить за её обличением.
Учить людей смотреть на стоящую за чем-то структуру часто очень сложно. Ричард Фейнман приводил пример в истории про «Смотрите на воду!», где люди в классе научились тому, что «среда с индексом преломления» должна поляризовать свет, отражённый от неё, но не осознавали, что солнечный свет, отражённый от воды будет поляризован. Моя догадка, что правильно это делается с помощью домашних заданий, и, к сожалению, тут мы в той области, где у меня особый математический талант, также как, например, Марселло талантливее меня в формальном доказательстве теорем. И людям без этого особого таланта приходится делать куда больше упражнений, чем мне, и я не очень понимаю, какие именно упражнения надо им дать.
[Ngo][11:13]
Сочувствую этой проблеме, могу попробовать выйти из скептического спорящего режима и войти в обучащийся режим, если думаешь, что это поможет.
[Yudkowsky][11:14]
Есть общее озарение о коммутативности в арифметике, и некоторым людям достаточно показать, что 1 + 2 = 2 + 1, чтобы они сами обобщили за пределы единицы и двойки и любых других чисел, которые можно туда поместить, и поняли, что строку чисел можно перемешать, и это не поменяет их сумму. Кому-то ещё, обычно детям, нужно показать, как на стол кладут два яблока и одно яблоко в разном порядке, и получается одно и то же число, а потом показать ещё, скажем, сложение купюр разного достоинства, если они не обобщили с яблок на деньги. Я припоминаю, что, когда я был достаточно маленьким ребёнком, я пытался прибавить 3 к 5, считая «5, 6, 7», и думал, что есть достаточно умный способ получить 7, если хорошенько постараться.
Быть в состоянии увидеть «консеквенциализм» это, с моей перспективы, что-то похожее.
[Ngo][11:15]
Другая возможность: можешь ли ты проследить источники этого убеждения, как оно вывелось из предшествующих?
[Yudkowsky][11:15]
Я не знаю, какие упражнения задавать людям, чтобы они смогли увидеть «консеквенциализм» повсюду, а не изобретали немножко отличающиеся формы консеквенциалистского мышления и не заявляли: «Ну, вот это же не консеквенциализм, правильно?».
Формулировка «поиск состояний, получающих высокую оценку при скармливании их в функцию результатов, а затем в функцию оценки результатов» была одной из попыток описать опасную штуку достаточно абстрактным способом, чтобы у людей, может быть, лучше получилось её обобщить.
[Ngo][11:17]
Другая возможность: можешь описать ближайшую к настоящему консеквенциализму штуку в людях, и как мы её получили?
[Yudkowsky][11:18][11:21]
Ок, так, часть проблемы в том… что прежде, чем ты выполнил достаточно упражнений для своего уровня таланта (и я, однажды, был выполнившим слишком мало, чтобы не думать, что может быть умный способ сложить 3 и 5, чтобы получить 7), ты будешь склонен считать, что только очень жёсткая формальная описанная тебе штука – «настоящая».
С чего бы твой двигатель должен подчиняться законам термодинамики. Это же не один из тех двигателей Карно из учебника!
В людях есть фрагменты консеквенциализма, или кусочки, чьё взаимодействие порождает частично неидеальное подобие консеквенциализма, и критично увидеть, что «выводы» людей в некотором смысле «работают» потому, что они подобны консеквенциалистским, и только пока это так.
Помести человека в одну среду, и он раздобудет еду. Помести человека в другую среду, и он опять раздобудет еду. Вау, разные изначальные условия, но один результат! Должно быть, внутри человека есть штуки, которые, что бы они ещё не делали, заодно эффективно ищут, какие моторные сигналы приведут в итоге к получению еды!
[Ngo][11:20]
Ощущается, что ты пытаешься вытолкнуть меня (и любого, кто будет это читать) из конкретного заблуждения. Догадываюсь, что из какого-то вроде «Я понимаю, что Элиезер говорит, так что теперь я вправе с этим не согласиться» или, может «Объяснения Элиезера не кажутся мне осмысленными, так что я вправе считать, что его концепции не осмысленны». Правильно?
[Yudkowsky][11:22]
Скорее… с моей точки зрения, даже после того, как я разубеждаю людей в возможности одного конкретного вечного двигателя, они просто пытаются придумать более сложный вечный двигатель.
И я не уверен, что с этим делать; это, кажется, происходит уже очень долго.
В конце концов, многое, что люди извлекают из моих текстов – это не глубокие принципы объектного уровня, на которые я пытался указать; они не понимают, скажем, байесианство как термодинамику, не начинают видеть байесовские структуры каждый раз, когда кто-нибудь видит что-то и меняет своё убеждение. Вместо этого они получают что-то более метауровневое, более обобщённое, приблизительный дух того, как рассуждать и спорить, потому что они потратили много времени под воздействием именно этого снова, и снова, и снова, на протяжении многих постов в блоге.
Может, нет способа заставить кого-то понять, почему исправимость неестественна, кроме как много раз проводить этого кого-то через задачу попробовать изобрести структуру агента, который позволяет тебе нажать кнопку выключения (но не пытается заставить тебя нажать кнопку выключения), и показывать, как каждая попытка проваливается. А потом ещё демонстрировать, почему попытка Стюарта Расселла с моральной неуверенностью порождает проблему полностью обновлённого (не-)уважения; и надеяться, что это приведёт к пониманию общего паттерна того, почему исправимость в целом противоречит структуре штук, которые хороши в оптимизации.
Только вот чтобы нормально делать упражнения, это надо делать из модели ожидаемой полезности. И тогда тебе просто скажут: «А, ну ладно, тогда я просто создам агента, который хорош в оптимизации, но не использует эти явные ожидаемые полезности, из-за которых все проблемы!»
И получается, если я хочу, чтобы кто-то поверил в те вещи, в которые верю я, по тем же причинам, что и я, мне придётся научить их, почему некоторые структуры мышления – это действительно неотъемлемые части агента, который хорошо что-то делает, а не конкретная формальная штука, предназначенная для манипуляции бессмысленными числами, а не существующими в реальном мире яблоками.
И я пару раз пытался написать об этом (к примеру «последовательные решения подразумевают непротиворечивую полезность»), но этого оказалось недостаточно, потому что люди не решали на дому даже столько же задач, сколько я, а пришлось бы больше, потому что это именно та конкретная область, в которой я талантлив.
Я не знаю, как решить эту проблему, поэтому я отступил на мета-уровень, чтобы говорить о ней.
[Ngo][11:30]
Я вспомнил о посте на LW, который назывался «Напиши тысячу дорог в Рим», емнип, он агитировал пытаться объяснять одно и то же как можно большим числом способов, в надежде, чтобы один из них сработал.
[Soares][11:31]
(Предложение, не обязательно хорошее: обозначив проблему на мета-уровне, попытаться обсуждать объектный уровень, отмечая проявления проблемы, когда они будут всплывать.)
[Ngo][11:31]
Поддерживаю предложение Нейта.
И буду пытаться держать в голове сложность метауровневой проблемы и отвечать соответственно.
[Yudkowsky][11:33]
Наверно, предложение Нейта правильное. Я напрямую высказал проблему, потому что иногда если тебе говорят о мета-проблеме, это помогает с объектным уровнем. Кажется, это помогает мне довольно сильно, а другим не так сильно, но всё же многим как-то помогает.
[Yudkowsky][11:34]
Итак, есть ли у тебя конкретные вопросы про ищущее вводы мышление? Я попытался рассказать, почему я это упомянул (это другая дорога к Риму «консеквенциализма»).
[Ngo][11:36]
Сейчас посмотрим. Зрительная кора даёт нам впечатляющий пример мышления в людях и многих других животных. Но я бы назвал это «распознаванием паттернов», а не «поиском высокоцениваемых результатов».
[Yudkowsky][11:37]
Ага! И не совпадение, что нет животных, состоящих исключительно из зрительной коры!
[Ngo][11:37]
Окей, круто. Так ты согласишься, что зрительная кора делает что-то качественно иное, чем животное в целом.
Тогда другой вопрос: можешь ли ты охарактеризовать поиск высокооцениваемых результатов в животных (не в человеке)? Делают ли они это? Или это в основном про людей и СИИ?
[Yudkowsky][11:39]
К моменту, когда появляются височные доли или что-то подобное, внутри должно происходить достаточное количество чего-то вроде «что я такое вижу, что выдаёт мне такую картинку?» – это поиск правдоподобных вариантов в пространстве гипотез. И на человеческом уровне люди уже думают: «Могу ли я видеть это? Нет, у этой теории есть такая-то проблема. Как я могу её исправить?». Но правдоподобно, что у обезьяны нет низкоуровневого аналога этого; и ещё правдоподобнее, что части зрительной коры, которые делают что-то такое, делают это относительно локально и уж точно только в очень конкретной узкой области.
О, ещё есть мозжечок и моторная кора и всё такое, если мы говорим, скажем, о кошке. Им надо искать планы действий, которые приведут к поимке мыши.
Только то, что зрительная кора (очевидно) не выполняет поиск, не значит, что он не происходит где-то ещё в животном.
(На метауровне я заметил, что думаю «Но как ты можешь не видеть этого, просто смотря на кошку?», интересно, какие упражнения нужны, чтобы этому научиться.)
[Ngo][11:41]
Ну, смотря на кошку, я вижу что-то, но я не знаю, насколько хорошо оно соответствует твоим концептам. Так что просто помедленнее пока.
Кстати, мне интуитивно кажется, что моторная кора в каком-то смысле делает что-то похожее на зрительную – только наоборот. То есть вместо принимания низкоуровневых вводов и выдачи высокоуровневых выводов, она принимает высокоуровневые вводы и выдаёт низкоуровневые выводы. Согласишься ли ты с этим?
[Yudkowsky][11:43]
Это не интерпретируется напрямую в мою онтологию, потому что (а) я не знаю, что ты имеешь в виду под «высоким уровнем» и (б) картезианских агентов в целом можно рассматривать как функции, что не означает, что их можно рассматривать как не выполняющих поиск распознавателей паттернов.
С учётом этого, все части коры имеют на удивление схожую морфологию, так что не было бы особо удивительно, если бы моторная кора делала что-то похожее на зрительную. (А вот мозжечок…)
[Ngo][11:44]
Сигнал из зрительной коры, сообщающий «это кошка» и сигнал, входящий в моторную кору, сообщающий «возьми эту чашку» – это то, что я называю высокоуровневым.
[Yudkowsky][11:45]
Всё ещё не естественное разделение в моей онтологии, но есть неформальная штука, на которую это смахивает, так что, надеюсь, я могу принять и использовать это.
[Ngo][11:45]
Активация клеток сетчатки и активация моторных нейронов – это низкоуровневое.
Круто. Так, в первом приближении, мы можем думать о происходящем между тем, как кошка распознаёт мышь и тем, как моторная кора кошки производит конкретные сигналы, необходимые для поимки мыши, как о той части, где происходит консеквенциализм?
[Yudkowsky][11:49]
Весь агент-кошка находится между глазами кошки, которые видят мышь, и лапами кошки, двигающимися, чтобы поймать мышь. Агент-кошка, безусловно, является зачатком консеквенциалиста / ищет мышеловительные моторные паттерны / получает высоко оцениваемые конечные результаты, даже при изменении окружения.
Зрительная кора – это конкретная часть этой системы-рассматриваемой-как-однонаправленная-функция; эта часть, предположительно, без уверенности, не особо что-то ищет, или осуществляет только поиск в маленькой локальной очень конкретной области, не направленный сам по себе на поимку мыши; по своей природе эпистемический, а не планирующий.
С некоторой точки зрения можно заявить «ну, большая часть консеквенциализма происходит в оставшейся кошке, уже после того, как зрительная кора послала сигналы дальше». И это в целом опасный настрой рассуждений, склонный к провалам в духе безуспешного исследования каждого нейрона на наличие консеквенциализма; но в данном конкретном случае, есть значительно более консеквенциалистские части кошки, чем зрительная кора, так что я не буду против.
[Ngo][11:50]
А, более конкретная штука, которую я имел в виду: большая часть консеквенциализма находится строго между зрительной корой и моторной корой. Согласен/Не согласен?
[Yudkowsky][11:51]
Не согласен, мои знания нейроанатомии несколько устарели, но, мне кажется, моторная кора может посылать сигналы мозжечку.
(Я, может, ещё не соглашусь с глубинным смыслом, на который ты пытаешься указать, так что, наверное, проблема не решится просто через «ладно, включим ещё мозжечок», но, наверное, стоит сначала дать тебе ответить.)
[Ngo][11:53]
Я недостаточно разбираюсь в нейроанатомии, чтобы уточнять на этом уровне, так что я хотел попробовать другой подход.
Но, на самом деле, может, проще заявить «ладно, включим ещё мозжечок» и посмотреть, куда, по-твоему, приведёт нас несогласие.
[Yudkowsky][11:56]
Так как кошки (очевидно) (насколько я читал) не являются универсальными консеквенциалистами с воображением, то их консеквенциализм состоит из мелких кусочков, вложенных в них более чисто псевдо-консеквенциалистской петлёй генетической оптимизации, которая их создала.
У не поймавшей мышь кошки могут подправиться мелкие кусочки мозга.
И потом эти подправленные кусочки занимаются анализом паттернов.
Почему этот анализ паттернов без очевидного элемента поиска в итоге указывает в одном и том же направлении поимки мыши? Из-за прошлой истории анализов и поправок, направленных на поимку.
Получается, что сложно указать на «консеквенциалистские части кошки», посмотрев, какие части её мозга совершают поиск. Но с учётом этого, пока зрительная кора не поправляется при провале поимки мыши, она не входит в консеквенциалистскую петлю.
И да, это относится и к людям, но люди также делают и более явные поисковые штуки, и это часть причин, почему у людей есть ракеты, а у кошек нет.
[Ngo][12:00]
Окей, это интересно. То есть в биологических агентах три уровня консеквенциализма: эволюция, обучение с подкреплением и планирование.
[Yudkowsky][12:01]
В биологических агентах есть эволюция + локальные эволюционировавшие правила, в прошлом увеличивавшие генетическую приспособленность. Два вида таких локальных правил – это «оперантное обусловливание от успеха или провала» и «поиск среди визуализированных планов». Я бы не называл эти два вида правил «уровнями».
[Ngo][12:02]
Окей, понял. И когда ты говоришь о поиске среди визуализированных планов (так, как делают люди), то что значит, что это «поиск»?
К примеру, если я представляю, как пишу стихотворение строку за строкой, то я могу планировать только на несколько слов вперёд. Но каким-то образом стихотворение в целом, может быть довольно длинное, получается высокооптимизированным. Это типичный пример планирования?
[Yudkowsky][12:04][12:07]
Планирование – это один из способов преуспеть в поиске. Думаю, что, чтобы понять сложность согласования, лучше думать на том уровне абстракции, на котором видно, что в каком-то смысле опасность исходит от самого достаточно мощного поиска, а не от деталей процесса планирования.
Одним из ранних способов успешного обобщения моего представления об интеллекте, позже сформулированного как «вычислительно-эффективный поиск действий, приводящих к результатам, стоящим высоко в порядке предпочтений», была (неопубликованная) история о путешествиях во времени в глобально непротиворечивой вселенной.
Требование глобальной непротиворечивости означает, что все события между началом и концом Парадокса должны отображать исходные условия Парадокса в конечную точку, которая создаст эти же самые исходные условия в прошлом. Оно задаёт сильные и сложные ограничения на реальность, которые Парадокс должен соблюсти, используя свои исходные условия. Путешественник во времени должен пройти через определённый опыт, вызывающий состояние разума, в котором он совершит действия, которые подтолкнут прошлого его к получению того же опыта.
Парадокс в итоге, к примеру, убил создателей машины времени, потому что иначе они бы не позволили путешественнику вернуться во времени, или как-нибудь ещё не позволили бы временной петле сойтись, если бы были живы.
Для обобщения понятия мощной консеквенциалистской оптимизации мне было недостаточно всего двух примеров – человеческого интеллекта и эволюционной биологии. Иметь три примера – это было одно из упражнений, над которыми я работал – и с людьми, эволюцией и вымышленным Парадоксом у меня наконец «щёлкнуло».
[Ngo][12:07]
Хмм. Для меня, одна из специфических черт поиска – это рассмотрение множества возможностей. Но в примере стихотворения, я могу явно рассмотреть не так много вариантов, потому что я заглядываю вперёд только на несколько слов. Это кажется похожим на проведённое Абрамом разделение между отбором и контролем (https://www.alignmentforum.org/posts/ZDZmopKquzHYPRNxq/selection-vs-control). Разделяешь ли ты их так же? Или «контроль» системы (например, футболист, ведущий мяч по полю) в твоей онтологии тоже считается за поиск?
[Yudkowsky][12:10][12:11]
Я ещё попытаюсь говорить людям «представьте, что максимизатор скрепок – это вообще не разум, представьте, что это что-то вроде неисправной машины времени, которая выдаёт результаты, приводящие к существованию большего количества скрепок в итоге». Я не думаю, что это щёлкнет, потому что люди не выполняли тех же упражнений, что и я, и не испытывали того же «Ага!» при осознании того, как заметить часть самой концепции и опасности интеллекта в таких чисто материальных терминах.
Но конвергентные инструментальные стратегии, антиисправимость, эти штуки исходят из истинного факта о вселенной, заключающегося в том, что некоторые выводы машины времени на самом деле приведут к созданию большего количества скрепок в итоге. Опасность исходит не из деталей процесса поиска, а просто из того, что он достаточно сильный и эффективный. Опасность в самой территории, не просто в какой-то причудливой её карте; то, что создание наномашин, которые убьют программистов, приведёт к созданию большего количества скрепок – это факт про реальность, не про максимизатора скрепок!
[Ngo][12:11]
Ладно, я вспомнил про очень похожую идею в твоём тексте про Помпу Исходов (Скрытая сложность желаний).
[Yudkowsky][12:12]
Ага! Правда, история писалась в 2002-2003, когда я писал хуже, так что настоящий рассказ про Помпу Исходов никогда не был опубликован.
[Ngo][12:14]
Окей, тогда, думаю, естественный следующий вопрос: почему ты думаешь, что сильный эффективный поиск вряд ли будет как-нибудь ограничен или сдержан?
Что в поисковых процессах (как человеческий мозг) делает сложным их обучение с слепыми пятнами, деонтологическими указаниями, или чем-то в таком роде?
Хммм, это ощущается как вопрос, ответ на который я могу предсказать. (А может и нет, я не ожидал путешествий во времени.)
[Yudkowsky][12:15]
В каком-то смысле, они ограничены! Максимизирующий скрепки суперинтеллект и близко не так могущественен, как максимизирующая скрепки машина времени. Машина времени может делать что-то эквивалентное покупке лотерейных билетов из термодинамически рандомизированных лотерейных машин; суперинтеллект – нет, по крайней мере, без того, чтобы напрямую обдурить лотерею, или чего-то такого.
Но максимизирующий скрепки сильный обобщённый суперинтеллект эпистемологически и инструментально эффективен по сравнению с тобой, или со мной. Каждый раз, когда мы видим, что он может получить как минимум X скрепок, сделав Y, нам следует ожидать, что он получит X или больше скрепок, сделав Y или что-то, что приведёт к получению ещё большего количества скрепок, потому что он не пропустит стратегию, которую мы видим.
Обычно, когда мы представляем, что бы делал максимизатор скрепок, наш мозг представляет его несколько глупым, этого ограничения можно избежать, спрашивая себя, как бы скрепки получала машина времени, какого количества скрепок можно добиться в принципе и как. Рассказывать людям о машине времени вместо суперинтеллекта имеет смысл в частности затем, чтобы преодолеть представление о суперинтеллекте как о чём-то глупом. Это, конечно, не сработало, но попытаться стоило.
Я не думаю, что это в точности то, о чём ты спрашивал, но я хочу дать тебе возможность переформулировать что-нибудь прежде, чем я попытаюсь ответить на твои переформулированные мной вопросы.
[Ngo][12:20]
Ага, я думаю, то, что я хотел спросить – это что-то такое: почему нам следует ожидать, что из всего пространства возможных разумов, созданных оптимизационными алгоритмами, сильные обобщённые суперинтеллекты встречаются чаще, чем другие типы агентов, высокооцениваемых нашими обучающими функциями?
[Yudkowsky][12:20][12:23][12:24]
Это зависит от того, насколько сильно оптимизировать! И может ли градиентный спуск на конкретной системе оптимизировать достаточно сильно! Многие нынешние ИИ обучены градиентным спуском и всё ещё вовсе не стали суперинтеллектами.
Но ответ в том, что некоторые задачи сложны, и требуют решения множества подзадач, и простой способ решения всех этих подзадач – это использование перекрывающихся совместимых паттернов, обобщающихся по всем подзадачам. Чаще всего поиск будет натыкаться на что-то такое до того, как наткнётся на отдельные решения всех этих задач.
Я подозреваю, что этого нельзя достичь не очень большим градиентным спуском на мелкомасштабных трансформерах, так что я считаю, что GPT-N не достигнет суперинтеллектуальности до того, как мир закончат по-другому выглядящие системы, но я могу ошибаться.
[Ngo][12:22][12:23]
Предположим, мы достаточно сильно оптимизировали, чтобы получить эпистемическую подсистему, которая может планировать куда лучше любого человека.
Догадываюсь, что ты скажешь, что это возможно, но куда вероятнее сначала получить консеквенциалистского агента, который будет это делать (чем чисто эпистемического).
[Yudkowsky][12:24]
Я озадачен тем, что, по-твоему, значит иметь «эпистемическую подсистему», которая «может планировать лучше любого человека». Если она ищет пути во времени и выбирает высокооцениваемые для вывода, что делает её «эпистемической»?
[Ngo][12:25]
Предположим, например, что она не исполняет планы сама, только записывает их для людей.
[Yudkowsky][12:25]
Если она фактически может делать то же, что и скрепочная машина времени, как называние её «эпистемической» или как-то ещё делает её безопаснее?
По какому критерию она выбирает планы, на которые посмотрят люди?
Почему имеет значение, что её вывод пройдёт через причинно-следственные системы, называемые людьми, прежде чем попадёт в причинно-следственные системы, называемые синтезаторами белков, или Интернет, или ещё как-то? Если мы создали суперинтеллект для проектирования наномашин, нет очевидной разницы, посылает ли она строки ДНК сразу в синтезатор белков, или сначала люди читают её вывод и вручную перепечатывают его. Предположительно, ты тоже не думаешь, что безопасность исходит из этого. Тогда откуда?
(замечу: через две минуты у меня время полдника, предлагаю продолжить через 30 минут после этого)
[Ngo][12:28]
(перерыв на полчаса звучит неплохо)
Если мы рассмотрим зрительную кору в конкретный момент времени, как она решает, какие объекты распознавать?
Если зрительная кора может быть не-консеквенциалистской в том, какие объекты распознавать, почему планирующая система не может быть не-консеквенциалистской в том, какие планы выдавать?
[Yudkowsky][12:32]
Мне это кажется чем-то вроде очередного «смотрите на воду», предскажешь, что я скажу дальше?
[Ngo][12:34]
Предсказываю, что ты скажешь, что-то вроде этого: чтобы получить агента, который может создавать очень хорошие планы, надо применить на нём мощную оптимизацию. И если мы оптимизируем его через канал «оцениваем его планы», то у нас нет способа удостовериться, что агент действительно оптимизировался для создания по-настоящему хороших планов, а не для создания планов, которые получают хорошую оценку.
[Soares][12:35]
Кажется неплохим клиффхенгером?
[Ngo][12:35]
Ага.
[Soares][12:35]
Здорово. Давайте продолжим через 30 минут.
[Yudkowsky][13:03][13:11]
Так, ответ, который ты от меня ожидал, в переводе на мои термины – это «Если ты совершаешь отбор для того, чтобы люди тыкнули «одобрить», прочитав план, то ты всё ещё исследуешь пространство вводов в поисках путей во времени к вероятным исходам (конкретно, к тому, что человек нажмёт «одобрить»), так что это всё ещё консеквенциализм.»
Но допустим, что у тебя получилось этого избежать. Допустим, ты получил именно то, чего хотел. Тогда система всё ещё выдаёт планы, которые, когда люди им следуют, идут по пути во времени к исходам, которые высоко оцениваются какой-то функцией.
Мой ответ: «Какого чёрта значит для планирующей системы быть не-консеквенциалистской? Это как не мокрая вода! Консеквенциалист – это не система, выполняющая работу, это сама работа! Можно представить, как её выполняет не мыслящая система вроде машины времени, и консеквенциализм никуда не денется, потому что вывод – это план, путь во времени!»
И это в самом деле такой случай, когда я чувствую чувство беспомощности от того, что я не знаю, как можно переформулировать, какие упражнения надо кому-то дать, через какой вымышленный опыт провести, чтобы этот кто-то начал смотреть на воду и видеть материал с индексом преломления, начал смотреть на фразу «почему планирующая система не может не быть консеквенциалистской по поводу того, какой план выдавать» и думать «Чёёё».
Мой воображаемый слушатель теперь говорит: «Но что, если наши планы не приводят к результатам, высоко оцениваемым какой-то функцией?», и я отвечаю: «Тогда ты лежишь на земле, хаотично дёргаясь, потому что если ты хотел какой-то другой результат больше, это значит, что ты предпочитал его выводу случайных моторных сигналов, что означает оптимизацию значения функции предпочтений, что, в свою очередь, означает выбор пути во времени, который скорее ведёт в определённом направлении, чем к случайному шуму.»
[Ngo][13:09][13:11]
Ага, это звучит как хороший пример той штуки, которую ты пытался объяснить в начале.
Всё ещё кажется, что здесь есть какое-то разделение по уровням, давай попробую поиграться с этим ощущением.
Окей, допустим, у меня есть планирующая система, которая для данной ситуации и цели выдаёт план, ведущий от ситуации к цели.
И допустим, что в качестве ввода мы ей даём ситуацию, в которой на самом деле не находимся, и она выдаёт соответствующий план.
Мне кажется, что есть разница между тем, как система является консеквенсциалистской, потому что создаёт консеквенциалистские планы (то есть, планы, которые, будучи применёнными в ситуации из ввода, привели бы к достижению некой цели), и другим гипотетическим агентом, который просто напрямую пытается достигать целей в ситуации, в которой на самом деле находится.
[Yudkowsky][13:18]
Для начала скажу, что если получится создать такую систему, чьё описание вполне осмысленно (мне кажется), то это, возможно, обеспечило бы некоторый запас безопасности. Она была бы заметно менее (хоть и всё ещё) опасной. Это потребовало бы неких структурных свойств, которые не факт, что можно получить просто градиентным спуском. Точно так же как естественный отбор по генетической приспособленности не даёт тебе явных оптимизаторов этой приспособленности, можно оптимизировать планирование в гипотетических ситуациях и получить что-то, что явно заботится не только строго о гипотетических ситуациях. Но это вполне последовательная концепция, и тот факт, что система не будет оптимизировать нашу вселенную, может сделать её безопаснее.
Сказав это, теперь я обеспокоюсь, что кто-то может подумать, что от того, что агент решает «гипотетические» задачи, возникает некая ключевая разница в агентности, в наличии или отсутствии чего-то, ассоциируемого с индивидуальностью, представлением целей и мотивацией. Если ты возьмёшь такого планировщика и дашь ему реальный мир в качестве гипотетического, та-да, теперь это старый добрый опасный консеквенциалист, которого мы представляли раньше, безо всяких изменений психологической агентности, «заботы» о чём-то или чего-то ещё такого.
Так что, думаю, важным упражнением было бы что-то вроде «Представь выглядящую безопасной систему, рассматривающую только гипотетические задачи. Теперь представь, что если ты возьмёшь это систему, и скармливаешь ей настоящие задачи, то она станет очень опасной. Теперь помедитируй над этим, пока не увидишь, что гипотетический планировщик очень-очень близок к более опасной версии себя, латентно имеет все его опасные свойства, и, вероятно, кучу уже опасных свойств тоже.»
«Видишь, ты думал, что источник опасности в внутреннем свойстве обращения внимания на реальный мир, но он не там, он в структуре планирования!»
[Ngo][13:22]
Я думаю, мы теперь ближе к тому, чтобы быть на одной волне.
Давай ещё немного посмотрим на такого гипотетического планировщика. Предположим, что он был обучен, чтобы минимизировать, скажем, враждебную составляющую его планов.
К примеру, его планы сильно регуляризованы, так что проходят только грубые общие детали.
Хмм, сложновато это описывать, но по сути мне кажется, что в таком сценарии есть компонент плана, кооперативный с его исполнителями, а есть враждебный.
И я согласен, что между ними нет никакой фундаментальной разницы.
[Yudkowsky][13:27]
«Что, если у зелья, которое мы варим, есть Хорошая Часть и Плохая Часть, и мы можем оставить только Хорошую…»
[Ngo][13:27]
Я не считаю, что они разделимы. Но, в некоторых случаях, можно ожидать, что одна часть будет куда больше другой.
[Soares][13:29]
(Моя модель других слушателей сейчас протестует «всё ещё есть разница между гипотетическим планировщиком, применённым к реальным задачам, и Большим Страшным Консеквенциалистом, она в том, что гипотетический планировщик выдаёт описания планов, которые работали бы, если их исполнить, тогда как большой страшный консеквенциалист исполняет их напрямую.»)
(Не уверен, что это полезно обсудить, или что это поможет Ричарду формулировать, но это как минимум то, что я ожидаю, будут думать некоторые читатели, если/когда это будет опубликовано.)
[Yudkowsky][13:30]
(Разница есть! Суть в осознании того, что гипотетический планировщик на расстоянии одной строки внешнего кода от того, чтобы стать Большой Страшной Штукой, так что стоит ожидать, что он тоже много как будет Большим и Страшным.)
[Ngo][13:31]
Мне кажется, что позиция Элиезера примерно такая: «на самом деле, почти что никакие режимы обучения не предоставят нам агентов, которые, определяя, какой план выдать, будут тратить почти всё своё время, думая над задачей объектного уровня, и очень мало времени о том, как манипулировать людьми, которым выдан план.»
[Yudkowsky][13:32]
Моя позиция в том, что у ИИ нет аккуратного разделения внутренних процессов на Части, Которые Ты Считаешь Хорошими и Части, Которые Ты Считаешь Плохими, потому что это отчётливое на твоей карте разделение, вовсе не отчётливо на карте ИИ.
С точки зрения максимизирующей-скрепки-выводящей-действия-машины-времени её действия не делятся на «создание скрепок на объектном уровне» и «манипуляция людьми рядом с машиной времени, чтобы обмануть их по поводу того, что она делает», они все просто физические выводы, проходящие сквозь время и приводящие к скрепкам.
[Ngo][13:34]
Ага, Нейт, это хороший способ сформулировать один из моих аргументов. И я согласен с Элиезером, что эти штуки могут быть очень похожими. Но я заявляю, что в некоторых случаях они могут быть и довольно отличающимися – к примеру, когда мы обучаем агента выдавать только короткое высокоуровневое описание плана.
[Yudkowsky][13:35]
Опасность в том, какую работу совершит агент, чтобы составить план. Я могу, к примеру, создать агента, который очень безопасно выдаёт высокоуровневый план по спасению мира:
echo «Эй, Ричард, спаси мир! «
Так что мне придётся спросить, какого вида «высокоуровневые» выводы планов для спасения мира ты предлагаешь, и почему сложно просто составить такой самим прямо сейчас, раз уж люди могут ему следовать. Тогда я посмотрю на ту часть, которую сложно придумать самим, и скажу, что вот тут для изобретения высокоуровневого плана агент должен понимать множество сложных штук о реальности и уметь точно прокладывать пути через время в области этих сложных штук; следовательно, он будет очень опасен, если он не прокладывает их в точности туда, куда ты надеешься. Или, как вариант, скажу: «Этот план не может спасти мир: тут недостаточно суперинтеллекта, чтобы он был опасен, но одновременно с этим недостаточно суперинтеллекта, чтобы опрокинуть игровую доску нынешнего очень обречённого мира.»
[Ngo][13:39]
Прямо сейчас я не представляю конкретного вывода планов для спасения мира, я просто пытаюсь лучше прояснить проблему консеквенциализма.
[Yudkowsky][13:40]
Смотри на воду; опасен не путь, которым ты хочешь выполнить работу, опасна сама работа. Что именно ты пытаешься сделать, неважно, как именно?
[Ngo][13:41]
Думаю, я соглашусь, что наши нынешние ограничения способностей не позволяют нам сказать многое о том, как работа будет выполняться, так что нам приходится в основном рассуждать о самой работе.
Но я тут говорю только про системы, которые достаточно умны, чтобы составлять планы и проводить исследования, находящиеся за пределами возможностей человечества.
И вопрос такой: можем ли мы подправить способ, которым работают такие системы, чтобы они тратили 99% своего времени на попытки решить задачу объектного уровня, и 1% времени на попытки манипулировать людьми, которые получат план? (Хоть это и не фундаментальные категории для ИИ, лишь грубая категоризация, возникающая из того, как мы его обучили – так же как «двигаться» и «думать» – это не фундаментально различные категории действий для людей, но то, как мы эволюционировали привело к значительному их разделению.)
[Soares][13:43]
(Я подозреваю, что Элиезер не имеет в виду «нам остаётся лишь рассуждать о самой работе, а не способах, которыми она будет выполняться, потому что наших способностей недостаточно для этого». Подозреваю недопонимание. Может быть, Ричарду стоит попытаться перефразировать аргумент Элиезера?)
(Однако, думаю, если Элиезер ответит на аргумент про 99%/1% – это тоже может всё прояснить.)
[Yudkowsky][13:46]
Ну, для начала, замечу, что система, проектирующая наносистемы, и тратящая 1% своего времени, раздумывая, как убить её операторов, смертельна. Это должна быть настолько маленькая доля мыслей, чтобы она никогда не закончила целую мысль «Если я сделаю X, это убьёт операторов.»
[Ngo][13:46]
Спасибо, Нейт. Я попробую перефразировать аргумент Элиезера.
Позиция Элизера (частично в моей терминологии): мы создадим ИИ, который может выполнять очень сложные мыслительные задачи, которые мы можем грубо описать как «искать среди множества вариантов тот, который будет удовлетворять нашим критериям.» ИИ, который может решить эти сложные задачи, должен будет уметь выполнять очень гибкий и обобщённый поиск, так что его будет очень сложно ограничить конкретной областью.
Хмм, это ощущается очень общим описанием, сейчас подумаю о его более конкретных заявлениях.
[Yudkowsky][13:54]
ИИ, который может решить эти сложные задачи, должен будет
Очень-очень мало что в пространстве устройства ИИ универсально необходимо. Первый ИИ, которого сможет создать наша технология, наверняка будет действовать некоторыми проще достижимыми и проще устроенными способами.
[Ngo][13:55]
Принято; спасибо за поимку этой неточности (тут и ранее).
[Yudkowsky][13:56]
Можно ли, в принципе, создать водителя-красных-машин, который совершенно неспособен водить синие машины? В принципе – конечно! Но первый водитель-красных-машин, на которого наткнётся градиентный спуск, наверняка будет и водителем-синих-машин.
[Ngo][13:57]
Элиезер, любопытно, в какой мере наше несогласие исходит из разного мнения о человеческом уровне.
Или, по-другому: мы и сейчас можем создавать системы, которые превосходят людей в некоторых задачах, но не имеют достаточно общих способностей поиска, чтобы даже попытаться захватить мир.
[Yudkowsky][13:58]
Несомненно, это так.
[Ngo][13:59]
Отставив в сторону ненадолго вопрос о ключевых действиях для спасения мира, какая часть твоей модели проводит линию между игроками в шахматы человеческого уровня и колонизаторами галактики человеческого уровня?
И говорит, что мы в состоянии согласовать до того, как они захватят мир, тех, которые превосходят нас на одних задачах, но не на других.
[Yudkowsky][13:59][14:01]
Тут нет очень простого ответа, но один из аспектов – это обобщённость между областями, которая достигается через изучение новых областей.
Люди, заметим, не были агрессивно оптимизированы естественным отбором для дыхания под водой и полётов в космос. Нет явного внешнего знака, что естественный отбор создал этих существ более обобщённо-способными, чем шимпанзе, обучая их на более широком наборе окружений и функций оценки.
[Soares][14:00]
(Прежде чем мы уйдём слишком далеко: спасибо за резюмирование! Мне кажется, это хорошо, я уверился в отсутствии ошибки взаимопонимания.)
[Ngo][14:03]
(Прежде чем мы уйдём слишком далеко: спасибо за резюмирование! Мне кажется, это хорошо, я уверился в отсутствии ошибки взаимопонимания.)
(Рад слышать, спасибо, что присматриваешь. Для ясности, я не интерпретировал слова Элиезера так, будто он заявляет исключительно об ограничении способностей; просто мне показалось, что он думает о значительно более продвинутых ИИ, чем я. Думаю, я плохо сформулировал.)
[Yudkowsky][14:05][14:10]
Есть затруднительные аспекты этой истории с естественным отбором, про который можно метафорически сказать, что он «понятия не имел, что делает». К примеру, после того, как ранний взлёт интеллекта, возможно, был вызван половым отбором по аккуратно обколотым топорам или чему-то такому, накопившаяся оптимизация мозга шимпанзе дошла до точки, где внезапно от сравнительного интеллекта стала сильно (сильнее, чем у шимпанзе) зависеть способность к составлению коварных планов против других людей – подзадача оптимизации генетической приспособленности. Так что продолжение оптимизации «совокупной генетической приспособленности» в той же саванне привело к оптимизации на подзадачу и способность «перехитрить других людей», для чего пришлось сильно оптимизировать «моделирование других людей», что оказалось возможно использовать на самом себе, что обратило систему на себя и сделало её рефлексивной, что сильно вложилось в обобщение интеллекта. До этого дошло несмотря на то, что всё это следовало той же самой функции вознаграждения в той же самой саванне.
Можно задать вопрос: возможен ли суперинтеллектуальный СИИ, который может быстро создать нанотехнологии и обладает некоторой пассивной безопасностью за счёт того, что он решает задачи вида «создать наносистему, которая делает X» примерно так же, как бобёр решает строительство дамб, имея набор специализированных способностей, но не имея обобщённой выходящей за пределы конкретных областей способности к обучению?
И в этом отношении надо заметить, что есть много, много, много штук, которые могу делать люди, но никакие другие животные, которые, думается, хорошо бы вложились в приспособленность этих животных, если бы был животный способ их делать. Они не делают себе железные когти. Так и не эволюционировала тенденция искать железную руду, пережигать дерево в уголь и собирать глиняные печи.
Животные не играют в шахматы, а ИИ играет, так что мы, очевидно, можем заставить ИИ делать штуки, которые животные не делают. С другой стороны, окружающая среда не ставит перед каким-нибудь видом вызов игры в шахматы.
Даже так: если бы какие-нибудь животные эволюционировали способность играть в шахматы, я точно ожидал бы, что нынешние ИИ размазывали бы их, потому что ИИ запущены на чипах, которые работают быстрее нейронов и совершают вычисления, невозможные для зашумлённых медленных нейронов. Так что это ненадёжный аргумент о том, что может делать ИИ.
[Ngo][14:09][14:11]
Да, хотя я замечу, что очень простые с человеческой инженерной точки зрения вызовы могут быть очень тяжёлыми для эволюции (например, колесо).
Так что эволюция животных-с-небольшой-помощью-от-людей могла бы привести к совсем другим результатам, чем эволюция животных-самих-по-себе. И аналогично, способность людей заполнять пробелы для не очень-то обобщённого ИИ может оказаться весьма значительной.
[Yudkowsky][14:11]
Тогда опять можно спросить: возможно ли создать ИИ, который хорош только в проектировании наносистем, которые приводят к сложным, но будем-надеяться-описываемым результатам в реальном мире, но не будет сверхчеловеческим в понимании и манипуляции людьми?
И я в общих чертах отвечу так: «Не исключено, хоть и не по умолчанию, я сейчас не знаю, как это сделать, это не простейший способ получить СИИ, способный создать наносистемы (и убить тебя), тебе потребуется получить водителя-красных-машин, который очень конкретно не способен водить синие машины.» Могу ли я объяснить, откуда я это знаю? Не уверен, обычно получается, что я объясняю X0, а слушатель не обобщает X0 до X и не применяет это для X1.
Это как спрашивать меня, как я вообще мог в 2008 году, до того, как кто-нибудь мог наблюдать AlphaFold 2, знать, что суперинтеллект мог бы решить проблему фолдинга белков; в 2008 году некоторые люди задавали мне этот вопрос.
Хотя та задача оказалась проще, чем нанотехнологии, я не сказал бы тогда, что AlphaFold 2 будет возможен на дочеловеческом уровне в 2021, или что он возникнет через пару лет после уровня обобщённости в области текста как у GPT-2.
[Ngo][14:18]
Какие важнейшие различия между решением фолдинга белков и проектированием наносистем, которые, скажем, самособираются в компьютер?
[Yudkowsky][14:20]
Определённо «Оказалось, использовать запоминание градиентным спуском огромной кучи поверхностных перекрывающихся паттернов и собрать из них большую когнитивную структуру, оказывающуюся консеквенциалистским наноинженером, который может только создавать наносистемы и так и не обзаводится достаточно общей способностью к обучению, чтобы понять общую картину и людей, всё ещё понимая цель ключевого действия, которое ты хочешь выполнить, проще, чем кажется» – это одно из самых правдоподобных заранее сформулированных чудес, которое мы можем получить.
Но это не то, что предсказывает моя модель, и я не верю, что, когда твоя модель говорит тебе, что ты сейчас умрёшь, стоит начать верить в конкретные чудеса. Нужно держать свой разум открытым для любых чудес, в том числе тех, которые ты не ожидал, и о которых не думал заранее, потому что на этот момент наша последняя надежда – на то, что будущее зачастую весьма удивительно – хотя, конечно, когда ты отчаянно пытаешься прокладывать пути с помощью плохой карты, негативные сюрпризы случаются куда чаще позитивных.
[Ngo][14:22]
Возможно, можно использовать такую метрику: сколько дополнительного вознаграждения получает консеквенциалистский наноинженер за то, что он начинает моделировать людей, сравнительно с тем, чтобы стать лучше в наноинженерии?
[Yudkowsky][14:23]
Но люди возникли совсем не так. Мы не добрались до атомной энергии, потому что получали от неё бонус к приспособленности. Мы добрались до атомной энергии, получая бонус к приспособленности от обтачивания кремневых топоров и составления коварных планов. Это довольно простое и локальное направление натренировало нам те же гены, которые позволяют нам строить атомные электростанции.
[Ngo][14:24]
Это в случае дополнительного ограничения необходимости выучиваться к новым целям каждое поколение.
[Yudkowsky][14:24]
А???
[Soares][14:24]
(Я так понял, Ричард имеет в виду «это следствие бутылочного горлышка генома»)
[Ngo][14:25]
Верно.
Хмм, кажется, мы уже об этом говорили.
Предложение: У меня есть пара отвлекающих меня вопросов, продолжим через 20 или 30 минут?
[Yudkowsky][14:27]
ОК
Какие важнейшие различия между решением фолдинга белков и проектированием наносистем, которые, скажем, самособираются в компьютер?
Хочу отметить, что этот вопрос для меня, хотя, может, не для других, выглядит потенциально ключевым. Т.е., если создание белковых фабрик, которые собирают нанофабрики, которые собирают наномашины, которые соответствуют какой-нибудь высокой сложной инженерной цели, не включает когнитивных вызовов, принципиально отличающихся от фолдинга белков, то, может быть, это можно безопасно сделать с помощью AlphaFold 3, такого же безопасного, как AlphaFold 2.
Не думаю, что мы можем так сделать. Хочу заметить для абстрактного Другого, что если для него обе задачи звучат как думательные штуки, и непонятно, почему нельзя просто сделать и другую думательную штуку с помощью думательной программы, то это тот случай, когда обладание конкретной моделью того, почему у нас нет такого наноинженера прямо сейчас, подскажет, что тут присутствуют конкретные разные думательные штуки.
[Ngo][14:31]
В любом порядке:
Мне любопытно, как то, о чём мы говорим, относятся к твоему мнению о мета –уровневой оптимищации из AI-foom спора. (где ты говорил о том, как отсутствие какого-либо защищённого уровня оптимизации ведёт к мощным изменениям)
Мне любопытно, как твои заявления об «устойчивости» консеквенциализма (т.е. сложности направить мышление агента в нужном нам направлении) относится к тому, как люди полагаются на культуру, и в частности к тому, как люди, выращенные без культуры, получаются очень плохими консеквенциалистами
По первому: если очень сильно упрощать, то кажется, что есть два центральных соображения, которые ты уже долго пытаешься распространить. Одно – это некоторая разновидность рекурсивного улучшения, а другое – некоторая разновидность консеквенциализма.
[Yudkowsky][14:32]
Второй вопрос не очень осмыслен в моей родной онтологии? Люди, выращенные без культуры, не имеют доступа к константам окружения, предполагаемых их генами, ломаются, и оказываются плохими консеквенциалистами.
[Ngo][14:35]
Хмм, разумно. Окей, модифицирую вопрос: то, как люди рассуждают, действуют и т.д., сильно варьируется в зависимости от культуры, в которой они выросли. (Я в основном думаю о разных временах – вроде пещерных людей и современных.) Моя не слишком доверенная версия твоих взглядов на консеквенциалистов говорит, что обобщённые консеквенциалисты вроде людей обладают устойчивыми поисковыми процессами, которые не так просто изменить.
(Извини, если это не особо осмысленно в твоей онтологии, я несколько уставший.)
[Yudkowsky][14:36]
Что именно варьируется, что, как ты думаешь, я бы предсказал, должно оставаться постоянным?
[Ngo][14:37]
Цели, манеры рассуждений, деонтологические ограничения, уровень конформности.
[Yudkowsky][14:39]
А моя первая реакция на твой первый пункт такая: «У меня всего одно мнение об интеллекте, то, о чём именно я спорю, зависит от того, какие части этого мнения люди до странности упрямо отказываются принимать. В 2008, Робин Хансон до странности упрямо отказывался принимать то, как масштабируются способности, и есть ли вообще смысл рассматривать ИИ отдельно от эмов, так что я говорил о том, что видел самыми очевидными аргументами к тому, что Есть Много Места Над Биологией и что за человеческим уровнем начинается вжууууух».
«Потом выяснилось, что способности начали неслабо масшабироваться без самоулучшения. Это пример таких странных сюрпризов, которые кидает в нас Будущее, и может быть, случай, в котором я что-то упустил, потому что спорил с Хансоном, вместо того, чтобы представлять, как я мог бы быть неправ в обоих направлениях, не только в направлении, о котором другие люди хотят со мной спорить.»
«Ещё, люди были не способны понять, почему согласование сложное, застряв на обобщении концепта, который я называю консеквенциализмом. Предполагать, почему я говорил об этих двух штуках вместе – это предполагать, почему люди застревают в этих двух штуках вместе. И я думаю, что такие предположения бы переобъясняли случайные совпадения. Если бы Ян Лекун занимался эффективным альтруизмом, то мне пришлось бы объяснять что-нибудь другое, ведь люди, много контактирующие с EA, застревают в другом.»
Возвращаясь к твоему второму пункту, люди – сломанные штуки; если бы было возможно создать компьютеры на уровне ещё ниже человеческого, мы бы вели этот разговор на том уровне интеллекта.
[Ngo][14:41]
(Отменяю) Я полностью согласен про людей, но не особо важно, насколько поломаны люди, когда ИИ, про который мы говорим, непосредственно над людьми, и, следовательно, всего лишь чуть-чуть менее поломан.
[Yudkowsky][14:41]
Тут стоит держать в голове, что есть много странностей, уникальных для людей, и, если ты хочешь получить те же странности у ИИ, тебе может очень не повезти. Да, даже если ты как-нибудь попытаешься обучить им с помощью функции вознаграждения.
Однако, мне кажется, что, когда мы приближаемся к уровню Эйнштейна вместо уровня деревенского дурачка, хоть обычно и нет особой разницы, мы видим, как атмосфера утоньшается и турбулентность успокаивается. Фон Нейман был довольно рефлексивным парнем, который знал, и, в общем-то, помог определить функции полезности. Великие достижения фон Неймана не были достигнуты каким-нибудь сверхспециализированным гипернёрдом, тратившим весь свой интеллект на формализацию математики, науки и инженерии, но так никогда и не думавшем о политике или о том, имеет ли он сам функцию полезности.
[Ngo][14:44]
Не думаю, что требую той же странности. Но куча явлений, о которых я говорил, странны с точки зрения твоего понятия консеквенциализма. Получается, что у консеквенциалистов-примерно-человеческого-уровня происходит много странностей. Это указывает, что те штуки, о которых я говорил, более вероятны, чем ты ожидаешь.
[Yudkowsky][14:45][14:46]
Я подозреваю, что часть расхождения тут из-за того, что я считаю, что надо быть заметно лучше человека в наноинженерии, чтобы совершить достаточно значительное ключевое действие. Потому я и не пытаюсь собрать самых умных ныне живущих людей, чтобы они выполнили это ключевое действие напрямую.
Я не могу придумать что-то, что можно сделать с помощью чего-то лишь немножко умнее человека, что опрокинет игровую доску. Кроме, конечно, «создай Дружественный ИИ», что я и пытаюсь организовать. И его согласование было бы невероятно сложным, если бы мы хотели, чтобы ИИ сделал это за нас (в чистом виде проблема курицы и яйца, тот ИИ уже должен быть согласован).
[Ngo][14:45]
О, интересно. Тогда ещё вопрос: в какой степени ты думаешь, что именно явные рассуждения о функциях полезности и законах рациональности наделяют консеквенциалистов свойствами, о которых ты говоришь?
[Yudkowsky][14:47, moved up in log]
Явная рефлексия возможна дальше, начало пути просто в оптимизации для выполнения достаточно сложных штук, чтобы надо было перестать наступать себе на ноги и заставить разные части своих мыслей хорошо работать вместе.
У такого пути в конце концов только одно направление, а начать его можно по-разному.
(С поправкой на разные случаи, где разные теории принятия решений выглядят рефлексивно непротиворечивыми, и всё такое; хочется сказать «ты понял, что я имею в виду», но, возможно, поймут не все.)
[Ngo][14:47, moved down in log]
Я подозреваю, что часть расхождения тут из-за того, что я считаю, что надо быть заметно лучше человека в наноинженерии, чтобы совершить достаточно значительное ключевое действие. Потому я и не пытаюсь собрать самых умных ныне живущих людей, чтобы они выполнили это ключевое действие напрямую.
Агаа, я думаю, здесь замешаны и разногласия о геополитике. Например, в моём раннем резюмирующем тексте я упоминал возможные ключевые действия:
Я предсказываю, что ты думаешь, что этого недостаточно; но не думаю, что вкапываться в геополитическую сторону вопроса это лучшее использование нашего времени.
[Yudkowsky][14:49, moved up in log]
Отслеживание всех проектов СИИ – либо политически невозможно в реальном мире, учитывая, как страны ведут себя на самом деле, либо, на политически-возможных уровнях, недостаточно хорошо сработает, чтобы предотвратить конец света, когда опасная информация уже распространится. ИИ тут не особо поможет; если это возможно, почему не сделать это сейчас? (Отмечу: пожалуйста, не пытайтесь делать это сейчас, это плохо обернётся.)
Предоставить достаточно убедительные аргументы =сверхчеловеческая манипуляция, невероятно опасная область, одна из худших, чтобы пытаться её согласовать.
[Ngo][14:49, moved down in log]
А моя первая реакция на твой первый пункт такая: «У меня всего одно мнение об интеллекте, то, о чём именно я спорю, зависит от того, какие части этого мнения люди до странности упрямо отказываются принимать. В 2008, Робин Хансон до странности упрямо отказывался принимать то, как масштабируются способности, и есть ли вообще смысл рассматривать ИИ отдельно от эмов, так что я говорил о том, что видел самыми очевидными аргументами к тому, что Есть Много Места Над Биологией и что за человеческим уровнем начинается вжууууух».
«Потом выяснилось, что способности начали неслабо масшабироваться без самоулучшения. Это пример таких странных сюрпризов, которые кидает в нас Будущее, и может быть, случай, в котором я что-то упустил, потому что спорил с Хансоном, вместо того, чтобы представлять, как я мог бы быть неправ в обоих направлениях, не только в направлении, о котором другие люди хотят со мной спорить.»
«Ещё, люди были не способны понять, почему согласование сложное, застряв на обобщении концепта, который я называю консеквенциализмом. Предполагать, почему я говорил об этих двух штуках вместе – это предполагать, почему люди застревают в этих двух штуках вместе. И я думаю, что такие предположения бы переобъясняли случайные совпадения. Если бы Ян Лекун занимался эффективным альтруизмом, то мне пришлось бы объяснять что-нибудь другое, ведь люди, много контактирующие с EA, застревают в другом.»
По первому пункту, мне кажется, что в твоих заявления о рекурсивном самоулучшении есть та же проблема, что и, как мне кажется, в твоих заявлениях о консеквенциализме – что слишком многое приписывается одной очень высокоуровневой абстракции.
[Yudkowsky][14:52]
По первому пункту, мне кажется, что в твоих заявления о рекурсивном самоулучшении есть та же проблема, что и, как мне кажется, в твоих заявлениях о консеквенциализме – что слишком многое приписывается одной очень высокоуровневой абстракции.
Я предполагаю, что потенциально именно так ощущается изнутри непонимание абстракции. Робин Хансон всё спрашивал меня, почему я так доверяю своим абстракциям, хотя сам вместо этого доверял своим, худшим, абстракциям.
[Ngo][14:51][14:53]
Явная рефлексия возможна дальше, начало пути просто в оптимизации для выполнения достаточно сложных штук, чтобы надо было перестать наступать себе на ноги и заставить разные части своих мыслей хорошо работать вместе.
Можешь ещё немного пообъяснять, что ты имеешь в виду под «заставить разные части своих мыслей хорошо работать вместе»? Это что-то вроде способности к метамышлению; или глобальный контекст; или самоконтроль; или…?
И я догадываюсь, что нет хорошего способа измерить, насколько важной в сравнении с остальными частью пути ты считаешь явную рефлексию – но можешь хотя бы грубо обозначить, насколько это критичный или некритичный компонент твоих взглядов?
[Yudkowsky][14:55]
Можешь ещё немного пообъяснять, что ты имеешь в виду под «заставить разные части своих мыслей хорошо работать вместе»? Это что-то вроде способности к метамышлению; или глобальный контекст; или самоконтроль; или…?
Нет, это вроде того, как ты, скажем, не будешь платить за что-то пятью яблоками в понедельник, продавать это же за два апельсина во вторник, а потом менять апельсин на яблоко.
Я всё ещё не придумал домашние упражнения для передачи кому-то Слова Силы «сонаправленность», которое позволит смотреть на воду и видеть «сонаправленность» в, например, кошке, гуляющей по комнате, не спотыкаясь о свои же лапы.
Когда ты много и правильно рассуждаешь об арифметике, не делая ошибок, то длинная цепочка мыслей, много раз разделяющаяся и соединяющаяся обратно, приводит к какому-то заявлению, которое… всё ещё истинно и всё ещё про числа! Вау! Как так оказалось, что много отдельных мыслей вместе обладают этим свойством? Разве они не должны убрести куда-то на тему племенной политики, как в Интернете?
Можно посмотреть на это так: хоть все эти мысли происходили в ограниченном разуме, они являются тенями высшей неограниченной структуры – модели, заданной аксиомами Пеано; всё сказанное было правдой про числа. Кто-то ничего не понимающий мог бы возразить, что в человеке нет механизма оценки утверждения для всех чисел, очевидно, человек не может его содержать, так что очевидно, нельзя объяснить успех тем, что каждое из утверждений было правдой на одну и ту же тему чисел, потому что Единственным Способом представить эту структуру (в воображении этого человека) является этот механизм, которого у людей нет.
Но хоть математические рассуждения иногда могут сбиваться с пути, когда они всё же работают, это происходит потому что, на самом деле, даже ограниченные существа иногда могут соответствовать локальным отношениям, помогающим глобальной сонаправленности действий, когда все части рассуждения указывают в одном направлении, как фотоны в лазерном луче. Хоть и нету никакого внутреннего механизма, твёрдо устанавливающего глобальную сонаправленность в каждой точке.
Внешний оптимизатор натренировал тебя не платить за что-то пятью яблоками в понедельник, продавать это же за два апельсина во вторник, а потом менять два апельсина на четыре яблока. И точно так же он натренировал все маленькие кусочки тебя быть локально последовательными так, чтобы это можно было рассматривать неидеальной ограниченной версией высшей неограниченной структуры. И система получается мощной, хоть и неидеальной, из-за мощи последовательности и перекрытия частей, из-за того, как она неидеально отражает высшую идеальную структуру. В нашем случае высшая структура – это Полезность, и домашние упражнения с теоремами о последовательности приводят к признанию того, что мы знаем только одну высшую структуру для нашего класса задач, на эту структуру указывает множество математических указателей «смотреть здесь», хоть некоторые люди и занимались поиском альтернатив.
И когда я пытаюсь сказать это, люди отвечают «Ну, я посмотрел на теорему, и она говорит о возможности выбрать уникальную функцию полезности из бесконечного количества вариантов, но если у нас нет бесконечного количества вариантов, мы не можем выбрать функцию, так какое отношение это имеет к делу» и это такой вид ошибок, которые я не могу вспомнить, чтобы даже близко делал сам, так что я не знаю, как отучить людей их делать, и, может, я и не могу.
[Soares][15:07]
Мы уже превышаем время, так что давайте сворачиваться (после, наверное, ещё пары ответов Ричарда, если у него есть силы.)
[Yudkowsky][15:07]
Да, думал так же.
[Soares][15:07]
Предлагаю клиффхенгер для затравки следующей дискуссии, я так понял, что коммментарий Ричарда:
По первому пункту, мне кажется, что в твоих заявления о рекурсивном самоулучшении есть та же проблема, что и, как мне кажется, в твоих заявлениях о консеквенциализме – что слишком многое приписывается одной очень высокоуровневой абстракции.
[Ngo][15:08]
Сворачиваться сейчас осмысленно.
Поддерживаю то, что сказал Нейт.
У меня есть ощущение, что я теперь куда лучше представляю взгляды Элиезера на консеквенциализм (пусть и не слишком детально).
На метауровне, лично я больше склонен сосредотачиваться на штуках вроде «как нам прийти к пониманию мышления», а не «как нам прийти к пониманию геополитики и её влияния на необходимые ключевые действия».
Если дискуссию будет продолжать кто-то ещё, им можно будет попробовать сказать побольше про второе. Я не уверен, насколько это полезно для меня, учитывая, что моё (и, вероятно, Элиезера) сравнительное преимущество над остальным миром лежит в части про мышление.
[Дальше они вперемешку обсуждают, когда продолжать и более содержательные меташтуки. Первое я вырезал, а второе оставил. – прим. переводчика]
[Ngo][15:12]
Можно пересказать эту дискуссию [некоторым людям – вырезано для приватности]?
[Yudkowsky][15:13]
Нейт, потратишь минутку, опишешь, что думаешь?
(Soares ставит «лайк» и знак «Ок»)
[Soares][15:15]
Моя позиция: Я думаю, пересказывать можно, но лучше в целом отмечать, что это всего лишь пересказ (чем каждый раз сверять с Элиезером для одобрения, или что-то такое).
(Нго ставит «лайк»)
[Yudkowsky][15:16]
В целом согласен. Я немного обеспокоен об искажениях при пересказе, и о том, сказал ли я что-то, с чем Роб или кто-то ещё не согласится до публикации, но мы в любом случае собирались это показывать, я держал это в голове, так что, да пожалуйста, пересказывай.
[Ngo][15:17]
Здорово, спасибо
[Yudkowsky][15:17]
Признаюсь, мне любопытно, что из сказанного ты считаешь важным или новым, но на этот вопрос можно ответить и потом, в свободное, более удобное тебе время.
[Ngo][15:17]
Признаюсь, мне любопытно, что из сказанного ты считаешь важным или новым, но на этот вопрос можно ответить и потом, в свободное, более удобное тебе время.
В смысле, что я считаю стоящим пересказа?
[Yudkowsky][15:17]
Ага.
[Ngo][15:18]
Хмм, не уверен. Я не собирался сильно в это вкладываться, но раз я всё равно регулярно болтаю с [некоторыми людьми – вырезано для приватности], то не будет сложно это обдумать.
В твоё свободное время, мне было бы любопытно, насколько направление дискуссии соответствовало твоим целям, тому, что ты хочешь донести, когда это будет опубликовано, и на каких темах ты хотел бы больше сосредоточиться.
[Yudkowsky][15:19]
Не уверен, что это поможет, но попытаться сейчас выглядит лучше, чем ничего не говорить.
[Ngo][15:20]
(В дополнение к тому, что я чувствую себя менее компетентным в геополитике, она также кажется мне более деликатной темой для публичных заявлений, это ещё одна причина, почему я туда не вкапывался)
[Soares][15:21]
(В дополнение к тому, что я чувствую себя менее компетентным в геополитике, она также кажется мне более деликатной темой для публичных заявлений, это ещё одна причина, почему я туда не вкапывался)
(кажется разумным! Замечу, впрочем, что я бы с радостью вырезал деликатные темы из записи, если бы это позволило нам лучше состыковаться, раз уж тема всё равно всплыла)
(Нго ставит «лайк»)
(хоть конечно тратить усилия на приватные дискуссии не столь ценно и всё такое)
(Нго ставит «лайк»)
[Ngo][15:22]
В твоё свободное время, мне было бы любопытно, насколько направление дискуссии соответствовало твоим целям, тому, что ты хочешь донести, когда это будет опубликовано, и на каких темах ты хотел бы больше сосредоточиться.
(этот вопрос и тебе, Нейт)
Ещё, спасибо Нейту за модерацию! Твои вмешательства были полезными и своевременными.
(Соарес ставит «сердечко»)
[Soares][15:23]
(этот вопрос и тебе, Нейт)
(понял, спасибо, вероятно, напишу что-нибудь после того, как у тебя будет возможность выспаться.)
[Yudkowsky][15:27]
(кажется разумным! Замечу, впрочем, что я бы с радостью вырезал деликатные темы из записи, если бы это позволило нам лучше состыковаться, раз уж тема всё равно всплыла)
Мне чуточку не нравится вести обсуждения, которые мы потом намерены вырезать, потому что обсуждение в целом будет иметь меньше смысла для читателей. Давайте лучше по возможности обходить такие темы.
(Нго ставит «лайк»)
(Соарес ставит «лайк»)
[Ngo][15:28]
Отключаюсь
[Yudkowsky][15:29]
Спокойной ночи, героический спорщик!
[Soares][16:11]
В твоё свободное время, мне было бы любопытно, насколько направление дискуссии соответствовало твоим целям, тому, что ты хочешь донести, когда это будет опубликовано, и на каких темах ты хотел бы больше сосредоточиться.
Дискуссия пока что довольно хорошо соответствовала моим целям! (Немного лучше, чем ожидал, ура!) Немного быстрых грубых заметок:
[Ngo][5:40] (на следующий день, 9 сентября)
Дискуссия пока что […]
Что ты имеешь в виду под «первым пунктом» и «вторым пунктом» (у шестой точки списка)?
[Soares][7:09] (на следующий день, 9 сентября)
Что ты имеешь в виду под «первым пунктом» и «вторым пунктом» (у шестой точки списка)?
Первый = закрепить про консеквенциализм, второй = вкопаться в твою критику по рекурсивному самоулучшению и т.д. (Вложенность списков должна была показать это ясно, но оказалось, что она плохо тут отображается, упс.)
[Ngo] (10 сентября Google Doc)
2-я дискуссия
(В основном обобщения, а не цитаты; также не было пока оценено Элиезером)
Элиезер, по описанию Ричарда: «Главный Один из главных концептов, с пониманием которого у людей проблемы – это консеквенциализм. Люди пытаются рассуждать о том, как ИИ будет решать задачи, и каким образом это может быть или не быть опасно. Но они не осознают, что способность решать широкий ассортимент сложных задач подразумевает, что агент должен выполнять мощный поиск по возможным решениям, а это главный один из главных навыков, необходимых для совершения действий, сильно влияющих на мир. Сделать безопасным такой ИИ - это как пытаться создать ИИ, который очень хорошо водит красные машины, но не может водить синие – этого никак не получить по умолчанию, потому что вовлечённые навыки слишком похожи. И потому что процесс поиска такой обобщённый по умолчанию такой обобщённый, что я сейчас не вижу, как его можно ограничить какой-то конкретной областью.»
[Yudkowsky][10:48] (10 сентября комментарий)
Главный концепт
Один из главных концептов, с пониманием которого проблемы у некоторых людей. Их, кажется, бесконечный список. Мне не пришлось тратить много времени на раздумия о консеквенциализме, чтобы вывести следствия. Я не успеваю потратить много времени, говоря о нём, как люди начинают спорить.
[Yudkowsky][10:50] (10 сентября комментарий)
главный навык
Один из главных
[Yudkowsky][10:52] (10 сентября комментарий)
процесс поиска такой обобщённый
По умолчанию такой обобщённый. Почему я так давлю на то, что всё это верно лишь по умолчанию – работа над выживанием может выглядеть как много сложных необычных штук. Я не принимаю фаталистическую позицию «так и произойдёт», я оцениваю сложности получения результатов не по умолчанию.
[Yudkowsky][10:52] (10 сентября комментарий)
будет очень сложно
«я сейчас не вижу, как»
[Ngo] (10 сентября Google Doc)
Элиезер, по описанию Ричарда (продолжение): «В биологических организмах эволюция – один из источников основной источник консеквенциализма. Другой Вторичный результат эволюции – это обучение с подкреплением. У животного вроде кошки, когда она ловит мышь (или когда у неё не получается это сделать), много частей мозга немного подправляются, эта петля увеличивает вероятность, что она поймает мышь в следующий раз. (Замечу, однако, что этот процесс недостаточно мощен, чтобы сделать из кошки чистого консеквенциалиста – скорее, он наделяет её многими чертами, которые можно рассматривать как направленные в одну и ту же сторону.) Третья штука, которая в частности делает людей консеквенциалистами – это планирование. Другой результат эволюции, который в частности помогает людям быть в большей степени консеквенциалистами – это планирование, особенно, когда мы осведомлены о концептах вроде функции полезности.»
[Yudkowsky][10:53] (10 сентября комментарий)
один из источников
основной
[Yudkowsky][10:53] (10 сентября комментарий)
второй
Вторичный
[Yudkowsky][10:55] (10 сентября комментарий)
особенно, когда мы осведомлены о концептах вроде функции полезности
Почти всегда оказывает очень маленький эффект на человеческую эффективность, потому что у людей плохо с рефлексивностью.
[Ngo] (10 сентября Google Doc)
Ричард, по описанию Ричарда: «Рассмотрим ИИ, который получив гипотетический сценарий, сообщает, какой лучший план по достижению данной цели в данном сценарии. Конечно, ему необходимы консеквенциалистские рассуждения, чтобы понять, как достичь цели. Но это не то же самое, что ИИ, выбирающий, что сказать, чтобы достичь своих целей. Я утверждаю, что первый совершает консеквенциалистские рассуждения, не будучи консеквенциалистом, тогда как второй действительно им является. Или короче: консеквенциализм = навыки решения задач + использование этих навыков для выбора действий для достижения целей.»
Элиезер, по описанию Ричарда: «Первый ИИ, если получится такой создать, может быть немного безопаснее второго, но я думаю, что люди склонны очень сильно переоценивать, насколько. Разница может быть в одну строку кода: если мы дадим первому ИИ наш нынешний сценарий на ввод, то он станет вторым. В целях понимания сложности согласования лучше думать на том уровне абстракции, где ты видишь, что в каком-то смысле опасен сам поиск, когда он достаточно мощный, а не детали процесса планирования. Особенно помогающий мысленный эксперимент – думать о продвинутом ИИ, как о «помпе исходов», которая выбирает варианты будущего, в которых произошёл некий результат, и производит нужные действия, которые приведут к этим вариантам.»
[Yudkowsky][10:59] (10 сентября комментарий)
особенно помогающий
«попытка объяснения». Я не думаю, что большинство читателей поняло.
Я немного озадачен тем, насколько часто ты описываешь мои взгляды так, будто то, что я сказал, было сказано про Ключевую Штуку. Это кажется похожим на то, как многие эффективные альтруисты проваливают Идеологический Тест Тьюринга MIRI.
Если быть немного грубым и невежливым в надежде на то, что затянувшийся социальный процесс куда-то придёт, два очевидных немилосердных объяснения, почему некоторые люди систематически неправильно считают MIRI/Элиезера верящими в большее, чем на самом деле, и считают, что разные концепты, всплывающие в аргументах – это для нас Большие Идеи, хотя на них просто навело обсуждение:
(А) Это рисует комфортную нелестную картину Других-из-MIRI, до странности одержимых этими кажущимися неубедительными концептами, или в целом представляет Других как кучку чудаков, наткнувшихся на концепции вроде «консеквенциализма» и ставшими ими одержимыми. В общем, изобразить Другого как придающего много значения какой-то идее (или объясняющему мысленному эксперименту) – это привязать его статус к мнению слушателя о том, какой статус заслуживает эта идея. Так что, если сказать, что Другой придаёт много значения какой-то идее, которая не является очевидно высокостатусной, это понижает статус Другого, что комфортно.
(прод.)
(B) Это рисует комфортную льстящую себе картину продолжающегося постоянного несогласия, как несогласия с кем-то, кто считает какой-то случайный концепт более высокостатусным, чем на самом деле; в таком случае нет никакого понимания за пределами должным образом вежливого выслушивания попыток другого человека убедить тебя, что концепт заслуживает своего высокого статуса. В противоположность «хм, может, это не центральная штука, просто другой человек посчитал, что в ней возникли проблемы, и потому пытается её объяснить», что объясняет, почему обсуждение стоит на месте куда менее льстя себе. И, соответственно, куда комфортнее иметь такую точку зрения о нас, чем нам представлять, что кто-то о нас такого мнения.
Ну и, конечно, считать, что кто-то другой зря зацикливается на нецентральных штуках, весьма лестно. Но не значит, что неправильно. Но стоит обращать внимание, что история Другого, рассказанная с точки зрения Другого, скорее всего будет чем-то, что Другой находит осмысленным и, наверное, комфортным, даже если это подразумевает нелестный (и не ищущий истины и, наверное, ошибочный) взгляд на самого тебя. А не чем-то, что заставит Другого выглядеть странным и глупым и про что легко и гармонично представить, что Другой это думает.
[Ngo][11:18] (12 сентября комментарий)
Я немного озадачен тем, насколько часто ты описываешь мои взгляды так, будто то, что я сказал, было сказано про Ключевую Штуку.
В этом случае, я особо выделил мысленный эксперимент про помпу исходов, потому что ты сказал, что сценарий с путешествиями во времени был ключевым для твоего понимания оптимизации, и помпа исходов выглядит довольно похоже и проще к передаче в пересказе, потому что ты про неё уже писал.
Я также особо выделил консеквенциализм, потому что он казался ключевой идеей, которая постоянно всплывала в первом обсуждении под обозначением «глубокие паттерны решения задач». Я приму твоё замечание, что ты склонен выделять штуки, по поводу которых твой собеседник наиболее скептичен, не обязательно главные для твоих взглядов. Но если для тебя консеквенциализм на самом деле не центральный концепт, то интересно было бы услышать, какова его роль.
[Ngo] (10 сентября Google Doc)
Ричард, по описанию Ричарда: «В «нахождении плана для достижения данного исхода» есть компонент, который включает решение задачи объектного уровня о том, как кто-то, кому выдан этот план, может достигнуть исхода. А есть другой компонент – выяснить, как проманипулировать этими людьми, чтобы они сделали то, что тебе хочется. Мне кажется, что аргумент Элиезера в том, что не существует режима обучения, который приведёт ИИ к трате 99% времени мышления на первый, и 1% на второй компонент.»
[Yudkowsky][11:20] (10 сентября комментарий)
не существует режима обучения
…что режимы обучения, к которым мы сперва придём, за 3 месяца или 2 года, которые у нас будут, пока кто-то другой не устроит конец света, не будут обладать этим свойством.
У меня нет довольно сложной или удивительно проницательной теории о том, почему я продолжаю восприниматься как фаталист; мой мир наполнен условными функциями, не константами. Я всегда в курсе, что если бы у нас был доступ к Учебнику из Будущего, объясняющему по-настоящему устойчивые методы – эквивалент знания заранее про ReLu, которые были изобретены и поняты только через пару десятилетий после сигмоид – то мы могли бы просто взять и создать суперинтеллект, который считает, что 2 + 2 = 5.
Все мои предположения о «Я не вижу, как сделать X» всегда помечены как продукт моего незнания и положение по умолчанию, потому что у нас нет достаточного времени, чтобы выяснить, как сделать X. Я постоянно обращаю на это внимание, потому что ошибочность мнения о сложности чего-то – это важный потенциальный источник надежды, что найдётся какая-то идея вроде ReLu, устойчиво снижающая сложность, и о которой я просто не думал. Что, конечно, ещё не значит, что я неправ о какой-то конкретной штуке, и что широкое поле «согласования ИИ», бесконечный источник оптимистических идей, произведёт хорошую идею тем же процессом, сгенерировавшим весь предыдущий наивный оптимизм через незамечание, откуда взялась исходная сложность, или какие другие сложности окружают её очевидные наивные решения.
[Ngo] (10 сентября Google Doc)
Ричард, по описанию Ричарда (продолжение): «Хотя это может быть и так в пределе увеличивающегося интеллекта, самыми важными системами будут самые ранние из превосходящих человеческий уровень. Но люди кучей способов отклоняются от консеквенциалистских абстракций, о которых ты говоришь – к примеру, выращенные в разных культурах люди могут быть более или менее консеквенциалистами. Так что выглядит правдоподобно, что ранние СИИ могут быть сверхчеловеческими, в то же время, сильно отклоняясь от абстракции – не обязательно теми же способами, что и люди, но способами, которые мы в них вложили при обучении.»
Элиезер, по описанию Ричарда: «Эти отклонения начинают спадать уже на уровне Эйнштейна и Фон Неймана. И реалистично работающие ключевые действия требуют навыков значительно выше человеческого уровня. Думаю, что даже один процент мышления способного собирать продвинутые наносистемы ИИ, направленный на мысли о том, как убить людей, погубит нас. Твои другие предложения ключевых действий (надзор для ограничения распространения СИИ; убеждение мировых лидеров ограничить разработку СИИ) политически невозможно выполнить в достаточной степени, чтобы спасти мир, или же требуют согласования в очень опасной области сверхчеловеческой манипуляции.»
Ричард, по описанию Ричарда: «Я думаю, что у нас есть и значительное несогласие по поводу геополитики, влияющее на то, какие ключевые действия мы рассматриваем. Но, кажется, наше сравнительное преимущество лежит в области обсуждения мышления, так что давай сосредоточимся на этом. Мы сейчас можем создать системы, превосходящие людей в некоторых задачах, но не обобщённые настолько, чтобы даже попытаться захватить мир. Отставив ненадолго в сторону вопрос о том, какие задачи могут быть достаточно ключевыми, чтобы спасти мир, какая часть твоей модели проводит линию между шахматистами-человеческого-уровня и колонизаторами-галактики-человеческого-уровня, и говорит, что мы способны согласовать тех, кто значительно превосходит нас в одних задачах, но не в других? »
Элиезер, по описанию Ричарда: «Один аспект – это обобщённость между областями, достигающаяся за счёт изучения новых областей. Можно задать вопрос: возможен ли суперинтеллектуальный СИИ, который может быстро создавать нанотехнологии так же, как бобёр строит дамбы, через обладание кучей специализированных способностей к обучению, но не обобщённой? Но люди делают много, много, много всего, что не делают другие животные, но что, можно подумать, сильно вложилось бы в их приспособленность, если бы был животный способ это делать – к примеру, добывать и плавить железо. (Хотя сравнения с животными в целом не являются надёжными аргументами о том, что может делать ИИ – например, шахматы куда проще для чипов, чем для нейронов.) Так что мой ответ такой: «Возможно, но не по умолчанию; есть куча подзадач; я сейчас не знаю, как это сделать; это не простейший способ получить СИИ, который может создавать наносистемы.» Могу ли я объяснить, откуда я знаю? На самом деле, не уверен.»
[Yudkowsky][11:26] (10 сентября комментарий)
Могу ли я объяснить, откуда я знаю? На самом деле, не уверен.
В оригинальном тексте за этим предложением была длинная попытка всё же объяснить; если удалять её, что выглядит правильно, то стоит удалить и это предложение, иначе оно рисует ложную картину того, как много я пытаюсь объяснять.
[Ngo][11:15] (12 сентября комментарий)
Имеет смысл; удалено.
[Ngo] (10 сентября Google Doc)
Ричард, по описанию Ричарда: «Довольно тривиальные с человечески-инженерной точки зрения вызовы могут быть очень сложными для эволюции (например, колесо). Так что эволюция животных-с-небольшой-помощью-людей может привести совсем к другим результатам, чем эволюция животных-самих-по-себе. И, аналогично, способность людей заполнять пробелы для помощи менее обобщённым ИИ может быть весьма значительной.
Про нанотехнологию: в чём лежат важнейшие различия между решением фолдинга белков и проектированием наносистем, которые, скажем, самособираются в компьютер?»
Элиезер, по описанию Ричарда: «Этот вопрос для меня выглядит потенциально ключевым. Т.е., если создание белковых фабрик, которые собирают нанофабрики, которые собирают наномашины, которые соответствуют какой-нибудь высокой сложной инженерной цели, не включает когнитивных вызовов, принципиально отличающихся от фолдинга белков, то, может быть, это можно безопасно сделать с помощью AlphaFold 3, такого же безопасного, как AlphaFold 2. Я не думаю, что мы сможем это сделать. Но это одно из самых правдоподобных заранее сформулированных чудес, которое мы можем получить. Сейчас наша последняя надежда в том факте, что будущее зачастую довольно неожиданно.»
Ричард, по описанию Ричарда: «Мне кажется, что тут ты делаешь ту же ошибку, что и в рассуждениях про рекурсивное самоулучшение из AI-foom-спора – конкретно, вкладываешь слишком много веры в одну большую абстракцию.»
Элиезер, по описанию Ричарда: «Я предполагаю, что потенциально именно так ощущается изнутри непонимание абстракции. Робин Хансон всё спрашивал меня, почему я так доверяю своим абстракциям, хотя сам вместо этого доверял своим, худшим, абстракциям.»
[Soares] (12 сентября Google Doc)
Консеквенциализм
Ок, вот мои заметки. Извиняюсь, что не выложил до середины воскресенья. В первую очередь хочу закрепить то, что уже обсудили. Надеюсь на поправки и, может быть, комментирование туда-обратно, где осмысленно (как с обобщением Ричарда), но не отвлекайтесь от основной линии обсуждения ради этого. Если время ограничено, то не страшно, даже если заметки не получат почти никакого внимания.
У меня есть ощущение, что пара заявлений Элиезера про консеквенциализм не была успешно передана. Возьмусь за это. Могу быть неправ и по поводу того, что Элиезер имел это в виду, и по поводу того, воспринял ли их Ричард; заинтересован и в опровержениях от Элиезера, и в пересказах от Ричарда.
[Soares] (12 сентября Google Doc)
Думаю, Ричард и Элиезер с очень разных сторон подходят к понятию «консеквенциализм», на что указывает, например, вопрос Ричарда (грубый пересказ Нейта:) «Где, по твоему мнению, консеквенциализм в кошке?» и ответ Элиезера (грубый пересказ Нейта:) «причина очевидного консеквенциализма поведения кошки распределена между её мозгом и её эволюционной историей».
Конкретнее, я думаю, что можно сделать примерно такой аргумент:
(Конечно, на практике не стоит представлять простой План, переданный нам ИИ или машиной времени или ещё чем-то, вместо этого стоит вообразить систему, которая реагирует на экстренные ситуации и перепланирует в реальном времени. Как минимум, такая задача проще, так как позволяет вводить поправки только для реально происходящих ситуаций, а не предсказывать их все заранее и/или описывать обобщённые механизмы реакции. Но, и тут можно предсказать моё заявление до прочтения следующей фразы, «работа ИИ, перепланирующего на лету» и «работа петли ИИ+человек, которая перепланирует+переоценивает на лету» – это всё ещё в каком-то смысле «планы», которые всё ещё скорее всего обладают свойством Элиезер!консеквенциализм, если они работают.
[Soares] (12 сентября Google Doc)
Это часть аргумента, который я ещё нормально не выдавал. Оформляя его отдельно:
В попытке собрать и очистить несколько разрозненных аргументов Элиезера:
Если ты попросишь GPT-3 сгенерировать план для спасения мира, у неё не получится сделать очень детальный план. И если ты и помучаешь большую языковую модель до выдачи очень детального плана, этот план не будет работать. В частности, он будет полон ошибок вроде нечувствительности к окружению, предложений невозможных действий, предложений действий, стоящих на пути друг у друга.
Чувствительный к окружению план, описывающий из подходящих друг другу, а не конфликтующих действий – как, в аналогии Элиезера, фотоны в лазере – куда лучше в направлении истории по узкому пути.
Но, по мнению Элиезера, как я его понимаю, свойство «план не наступает постоянно себе на ноги» идёт рука об руку с тем, что он называет «консеквенциализмом». Явный и формальный случай связи можно увидеть, если взять в качестве наступания себе на ноги «обменять 5 апельсинов на 2 яблока, а потом 2 яблока на 4 апельсина». Ясно, что тут план провалился в «лазерности» – произошло что-то вроде того, что какая-то нуждающаяся-в-апельсинах часть плана и какая-то нуждающаяся-в-яблоках часть плана встали друг у друга на пути. Тут заодно и видно, как план может быть подобен лазеру в отношении яблок и апельсинов – если он ведёт себя так, будто им управляют некие последовательные предпочтения.
Как я понял, суть тут не в «всё наступающее себе на ноги похоже на непоследовательные предпочтения», а скорее «у плана получается связать цепочку последовательных сочетающихся действий лишь в той степени, в какой он является Элиезер!консеквенциалистом».
См. аналогию из теории информации, где если ты смотришь на лабиринт и пытаешься построить точное отображения этого лабиринта у себя в голове, то ты преуспеешь лишь настолько, насколько твои процессы Байесианские. И предполагается, что это ощущается как довольно тавтологичное заявление: ты (почти наверняка) не получишь соответствующую реальности картинку лабиринта в своей голове, случайно его себе представляя; тебе нужно добавлять представляемые стены каким-то процессом, коррелирующим с присутствием реальных стен. Твой процесс визуализации лабиринта будет точно работать постольку, поскольку ты имеешь доступ к наблюдениям, коррелирующим с присутствием настоящих стен, и правильно используешь эти наблюдения. Ты можешь заодно визуализировать дополнительные стены в местах, где политически целесообразно верить, что они есть, и можно избегать представлять стены в дальних областях лабиринта, потому что там темно, а у тебя нет целого дня. Но результат будет точным настолько, насколько у тебя всё же получилось действовать по-Байесиански.
Похожим образом, план работает-как-целое и избегает-наступать-себе-на-ноги в точности настолько, насколько он консеквенциалистичен. Это две стороны одной монеты, два взгляда на одно и то же.
И я тут не столько пытаюсь убедить, сколько увериться, что форма аргумента (как я его понял) была понята Ричардом. Я воспринял его так, что «неуклюжие» планы не работают, а «лазерные» планы работаю настолько, насколько они действуют подобно консеквенциалисту.
Перефразируя ещё раз: у нас есть большой набор математических теорем, подсвечивающих с разных сторон, что недостача у плана неуклюжести есть его последовательность.
(«И», – торопится заметить моя модель Элиезера, – «это, конечно, не значит, что все достаточно интеллектуальные разумы должны генерировать очень последовательные планы. Зная, что делаешь, можно было бы спроектировать разум, который выдаёт планы, всегда «спотыкающиеся об себя» в каком-то конкретном месте, так же как с достаточным мастерством можно было бы создать разум, верящий, что 2+2=5 (для какой-то осмысленной интерпретации этого утверждения). Но ты не получишь этого просто так – и при создании когнитивных систем есть что-то вроде «аттрактора», обобщённое обучение будет склонно наделять систему истинными убеждениями и делать её планы последовательными»)
(И, конечно, большинство беспокойства от того, что все эти математические теоремы, предполагающие, что план работает, пока он куда-то последовательно направлен, ничего не говорят о том, в каком направлении он должен быть направлен. Следовательно, если ты покажешь мне план, достаточно умный для направления истории по узкому пути, я смогу быть весьма уверен, что он довольно лазерный, но совсем не смогу быть уверен, в каком направлении.)
[Soares] (12 сентября Google Doc)
У меня есть догадка, что Ричард на самом деле понимает этот аргумент (хотя я бы порадовался его пересказу, для тестирования гипотезы!), и, возможно, даже принимает его, а мнения расходятся на следующем шаге – утверждении, что нам нужен «лазерный» план, потому что другие планы недостаточно сильны, чтобы нас спасти. (Конкретно я подозреваю, что большая часть несогласия в том, насколько далеко можно зайти с планами больше похожими на выводы языковых моделей, чем на лазеры, а не в вопросе, какие ключевые действия положат конец сильным рискам.)
Отставив это пока в сторону, хочу использовать ту же терминологию для переложения другого заявления, которое, как я видел, Элиезер пытался продвинуть: одна большая проблема с согласованием, в случае когда мы хотим «лазерные» планы – это то, что одновременно мы хотим, чтобы они не были «лазерными» в некоторых специфических направлениях.
В частности, план предположительно должен содержать механизмы для перефокусировки лазера, когда окружение содержит туман, и перенаправления лазера, когда окружение содержит зеркала (…аналогия тут немного хромает, извините), чтобы можно было на самом деле попасть в маленькую далёкую цель. Перефокусировка и перенаправление – это неотъемлемая часть планов, которые могут это сделать.
Но люди, выключающие ИИ – это как рассеивание лазера, а люди, исправляющие ИИ, чтобы он планировал в другом направлении – это как установка зеркал на пути лазера; и мы не хотим, чтобы план корректировался под эти вмешательства.
Так что, по мнению Элиезера, как я его понимаю, мы требуем очень неестесвенной штуки – путь-через-будущее, достаточно устойчивый, чтобы направить историю по узкому пути из очень широкого диапазона обстоятельств, но каким-то образом нечувствительный к конкретным разновидностям предпринятых людьми попыток поменять этот самый узкий путь.
Ок. Я продолжал переформулировывать это снова и снова, пока не получил удовлетворяющую меня достаточно дистиллированную версию, извините за повторения.
Я не думаю, что сейчас правильно спорить именно про это заявление (хотя рад был бы услышать возражения). Но неплохо было бы: если Элиезер скажет, соответствует ли написанное выше его точке зрения (и если нет, почему); и если Ричард попробует перефразировать это, чтобы я уверился, что сами аргументы были успешно переданы (ничего не говоря о их принятии Ричардом).
[Soares] (12 сентября Google Doc)
Моя модель Ричарда по поводу написанного выше считает что-то вроде «Это всё выглядит правдоподобно, но пока Элиезер выводит из этого, что нам надо лучше научиться обращаться с лазерами, я считаю это аргументом в пользу того, что лучше бы спасти мир не прибегая к лазерам. Наверное, если бы я считал, что мир нельзя спасти без лазеров, то я бы разделял многие твои беспокойства. Но я так не считаю, и, в частности, недавний прогресс в области ИИ – от AlphaGo и GPT до AlphaFold – кажется мне свидетельством в пользу того, что можно спасти мир без лазеров.»
И я припоминаю, как Элиезер высказал следующее (более-менее там же, емнип, хотя читатели отметили, что я мог неправильно это понять и это может оказаться вырванным из контекста):
Определённо «Оказалось, использовать запоминание градиентным спуском огромной кучи поверхностных перекрывающихся паттернов и собрать из них большую когнитивную структуру, оказывающуюся консеквенциалистским наноинженером, который может только создавать наносистемы и так и не обзаводится достаточно общей способностью к обучению, чтобы понять общую картину и людей, всё ещё понимая цель ключевого действия, которое ты хочешь выполнить, проще, чем кажется» – это одно из самых правдоподобных заранее сформулированных чудес, которое мы можем получить.
По моему мнению, и, я думаю, по мнению Элиезера, ИИ в стиле «огромная куча поверхностных паттернов», которые мы наблюдаем сейчас, не будет достаточно, чтобы спасти мир (и чтобы уничтожить тоже). Есть набор причин, почему GPT и AlphaZero пока не уничтожили мир, и одна из них – «поверхностность». И да, может мы и не правы! Я сам был удивлён тем, как далеко зашло запоминание поверхностных паттернов (и, в частности, был удивлён GPT), и признаю, что могу быть удивлён и в будущем. Но я продолжаю предсказывать, что поверхностных штук не хватит.
У меня есть ощущение, что многие в сообществе в том или ином виде спрашивают: «Почему бы не рассмотреть задачу согласования систем, запоминающих огромные кучи поверхностных паттернов?». И мой ответ: «Я всё ещё не ожидаю, что такие машины убьют или спасут нас, я ожидаю, что есть фазовый переход, который не произойдёт, пока ИИ-системы не станут способны составлять достаточно глубокие и «лазерные» планы, чтобы делать что-то устрашающее, и я всё ещё ожидаю, что настоящий вызов согласования именно там.»
И это мне кажется ближе к основе несогласия. Некоторые (как я!) считают, что довольно маловероятно, что для того, чтобы спасти нас, достаточно выяснить, как получить значительную работу от поверхностных запоминальщиков. А, подозреваю, другим (возможно даже Ричарду!) кажется, что упомянутый «фазовый переход» – это маловероятный сценарий, и что я сосредотачиваюсь на странном неудачном угле пространства возможностей. (Мне любопытно, Ричард, поддержишь ли ты это или какую-то немного исправленную версию этого.)
В частности, Ричард, интересно, примешь ли ты что-то вроде следующего:
(Я подозреваю, что нет, по крайней мере не точно в этой форме, и я жажду поправок.)
Я подозреваю, что что-то неподалёку – ключевая точка несогласия, и я был бы в восторге, если бы у нас получилось дистиллировать её до чего-то такого же точного. И, для записи, лично я принимаю такую обратную позицию:
[Soares] (12 сентября Google Doc)
Ок, а теперь немного менее важных пунктов:
Ричард заявил:
О, интересно. Тогда ещё вопрос: в какой степени ты думаешь, что именно явные рассуждения о функциях полезности и законах рациональности наделяют консеквенциалистов свойствами, о которых ты говоришь?
И я подозреваю, что тут есть недопонимание, особенно учитывая это предложение из пересказа Ричарда:
Третья штука, которая в частности делает людей консеквенциалистами – это планирование – особенно, когда мы осведомлены о концептах вроде функции полезности.
В частности, я подозреваю, что модель Ричарда модели Элиезера особенно выделяет (или выделяла, до того, как Ричард прочёл комментарии Элиезера к пересказу) рефлексию системы и её размышления о своих собственных стратегиях, как метод повышения эффективности и/или консеквенциализма. Я подозреваю, что это недопонимание, и с удовольствием расскажу о моей модели по запросу, но, надеюсь, что предыдущая пара страниц это и так проясняет.
В конце концов, я вижу, что есть несколько мест, где Элиезер не ответил на попытки Ричарда пересказать его позицию, я подозреваю, что полезно было бы, если бы Ричард явно перечислил и повторил их, чтобы сверить общее понимание. В частности, стоило бы сверить (если Ричард в это действительно верит, и с возможными поправками Элиезера, я тут могу объединять разные штуки):
Для записи, я думаю, что Элиезеру стоит признать, что Ричард вероятно понимает пункт (1), и что сокращать «этого не получить по умолчанию и не похоже, что у нас будет достаточно времени» до «не получится» вполне осмысленно при резюмировании. (А Ричарду, может быть, стоит наоборот признать, что в данном контексте различие на самом деле довольно важное, так как оно означает разницу между «описывать текущее игровое поле» и «лечь и помереть».) Не думаю, что что-то из этого высокоприоритетно, но, если не сложно, может быть полезным :-)
Наконец, заявлю очевидное-для-меня: ничто из этого не предполагается как критика любой из сторон, и все участники продемонстрировали выдающиеся добродетели-согласно-Нейту в процессе обсуждения.
[Yudkowsky][21:27] (12 сентября)
Из заметок Нейта:
В частности, план предположительно должен содержать механизмы для перефокусировки лазера, когда окружение содержит туман, и перенаправления лазера, когда окружение содержит зеркала (…аналогия тут немного хромает, извините), чтобы можно было на самом деле попасть в маленькую далёкую цель. Перефокусировка и перенаправление – это неотъемлемая часть планов, которые могут это сделать.
Но люди, выключающие ИИ – это как рассеивание лазера, а люди, исправляющие ИИ, чтобы он планировал в другом направлении – это как установка зеркал на пути лазера; и мы не хотим, чтобы план корректировался под эти вмешательства.
–> ХОРОШАЯ АНАЛОГИЯ.
…или, по меньшей мере, передаёт для меня, почему исправимость неконвергентна / непоследовательна / на самом деле сильно противоречит, а не просто является независимым свойством мощного генератора планов.
Но всё же я уже знаю, почему это так, и как это обобщается для неуязвимости к попыткам решить мелкие кусочки более важных аспектов этого – это не просто так по слабому умолчанию, это так по сильному умолчанию, где куча народу может потратить несколько дней на попытки придумать всё более и более сложные способы описать систему, которая позволит себя выключить (но не направит тебя, чтобы ты её выключил), и все эти предложенные способы проваливаются. (И да, люди снаружи MIRI регулярно публикуют статьи, заявляющие, что они только что полностью решили эту задачу, но все эти «решения» – это штуки, которые мы рассмотрели и отбросили как тривиально проваливающиеся на масштабе мощных агентов – они не понимают, что мы считаем проблемами первостепенной важности, так что это не свидетельство, что у MIRI просто недостаточная куча умного народу.)
[Yudkowsky][18:56] (Nov. 5 follow-up comment)
Вроде «Хорошо, мы возьмём систему, которая училась только на ситуациях, в которых была, и не может использовать воображение, чтобы планировать по поводу чего-то, чего она не видела, и тогда мы обнаружим, что если мы её не обучим ситуации её выключения, то она не будет вознаграждаться для его избегания!»
В этом докладе я попытался собрать воедино как можно более полные и убедительные аргументы, почему разработка СИИ может представлять экзистенциальную угрозу. Причина доклада – моя неудовлетворённость существующими аргументами о потенциальных рисках СИИ. Более ранние работы становятся менее актуальными в контексте современного машинного обучения; более недавние работы разрозненны и кратки. Изначально я хотел лишь пересказывать аргументы других людей, но, в процессе написания доклада, он становился всё больше представляющим мои собственные взгляды, и менее представляющим чьи-то ещё. Так что хоть он и покрывает стандартные идеи, я думаю, что он и предоставляет новый подход рассуждений о СИИ – не принимающий какие-то предшествующие заявления как данность, но пытающийся выработать их с чистого листа.
Примечание редактора сайта. Автор также выложил подборку комментариев к своему докладу. Однако она очень велика и на русский её не перевели.
Это первая из шести частей доклада, под названием «Безопасность СИИ с чистого листа», в котором я попытался собрать воедино как можно более полные и убедительные аргументы, почему разработка СИИ может представлять экзистенциальную угрозу. Причина доклада – моя неудовлетворённость существующими аргументами о потенциальных рисках СИИ. Более ранние работы становятся менее актуальными в контексте современного машинного обучения; более недавние работы разрозненны и кратки. Изначально я хотел лишь пересказывать аргументы других людей, но, в процессе написания доклада, он становился всё больше представляющим мои собственные взгляды, и менее представляющим чьи-то ещё. Так что хоть он и покрывает стандартные идеи, я думаю, что он и предоставляет новый подход рассуждений о СИИ – не принимающий какие-то предшествующие заявления как данность, но пытающийся выработать их с чистого листа.
Несмотря на это, ширина темы, которую я пытаюсь рассмотреть, означает, что я включил много лишь торопливо обрисованных аргументов, и, несомненно, некоторое количество ошибок. Я надеюсь, что продолжу полировать этот доклад, и приветствую помощь и обратную связь. Я также благодарен многим людям, уже высказавшим обратную связь и поддержку. Я планирую перепостить некоторые самые полезные комментарии на Alignment Forum, если получу разрешение. Я выложил доклад шестью частями; первая и последняя – короткие обрамляющие, а четыре посередине соответствуют четырём предпосылкам нижеизложенного аргумента.
Ключевое беспокойство, мотивирующее технические исследования безопасности СИИ – то, что мы можем создать искусственных автономных интеллектуальных агентов, которые будут гораздо умнее людей, и которые будут преследовать цели, конфликтующие с нашими собственными. Человеческий интеллект позволяет нам координировать сложные общественные структуры и создавать продвинутые технологии, и таким образом контролировать мир в куда большей степени, чем любой другой вид. Но ИИ однажды станут способнее нас во всех типах деятельности, которыми мы обеспечиваем и сохраняем этот контроль. Если они не захотят нам подчиняться, человечество может стать лишь вторым по могуществу «видом» и потерять возможность создавать достойное ценное будущее.
Я называю это аргументом «второго вида»; я думаю, что это правдоподобный аргумент, который нужно воспринимать очень серьёзно1 Однако изложенная выше версия полагается на несколько нечётких концепций и соображений. В этом докладе я покажу настолько детальное, насколько смогу, изложение аргумента второго вида, подсвечивая аспекты, по поводу которых я всё ещё в замешательстве. В частности, я буду защищать версию аргумента второго вида, заявляющую, что, без согласованного усилия по предотвращению этого, есть значительный шанс, что:
Хоть я и использую много примеров из современного глубокого обучения, этот доклад так же относится и к ИИ, разработанным с использованием совершенно иных моделей, обучающих алгоритмов, оптимизаторов или режимов обучения, отличающихся от тех, что мы используем сегодня. Однако, многие аргументы больше не будут актуальны, если поле ИИ перестанет быть сосредоточено на машинном обучении. Я также часто сравниваю разработку ИИ с эволюцией человеческого интеллекта; хоть они и не полностью аналогичны, люди – это лучший пример, который у нас есть, для мыслей об обобщённых ИИ.
Чтобы понять суперинтеллект, следует сначала охарактеризовать, что мы имеем в виду под интеллектом. Мы можем начать с хорошо известного определения Легга, как способности хорошо справляться с широким набором когнитивных задач1. Ключевое разделение, которое я проведу в этой части – это разделение между агентами, хорошо понимающими, как справляться с многими задачами, потому что они были специально оптимизированы под каждую из них (я назову это основанным на задачах подходом к ИИ), и агентами, которые могут понимать новые задачи без или практически без специфического для этих задач обучения, обобщая из предыдущего опыта (основанный на обобщении подход).
Основанный на задачах подход аналогичен тому, как люди применяют электричество: хоть электричество – это мощная технология, полезная в широком спектре задач, нам всё ещё надо проектировать специфические способы для его применения к каждой задаче. Похожим образом компьютеры – это мощные и гибкие инструменты, но хоть они и могут обрабатывать произвольно большое количество разных вводов, для каждой программы нужно индивидуально писать детальные инструкции, как совершать эту обработку. Нынешние алгоритмы обучения с подкреплением так же, несмотря на мощность, приводят к появлению агентов, хорошо справляющихся только с конкретными задачами, с которыми у них много опыта – Starcraft, DOTA, Go, и подобное. В «Переосмыслении cуперинтеллекта» Дрекслер отстаивает позицию, что наш текущий основанный на задачах подход отмасштабируется до сверхчеловеческих способностей в некоторых сложных задачах (но я скептически отношусь к этому заявлению).
Пример основанного на обобщении подхода – большие языковые модели вроде GPT-2 и GPT-3. GPT-2 сначала натренировали на задачу предсказывания следующего слова в тексте, а потом она достигла наилучших для своего времени результатов на многих других языковых задачах, без специальной подстройки на каждую! Это было явное изменение по сравнению с предыдущим подходом к обработке естественного языка, которые хорошо проявляли себя только с обучением под конкретную задачу на специальном наборе данных. Её потомок, GPT-3, продемонстрировала ещё более впечатляющее поведение. Я думаю, это хороший пример того, как ИИ может развить когнитивные навыки (в данном случае, понимание синтаксиса и семантики языка), обобщающиеся на большой диапазон новых задач. Поле мета-обучения преследует похожие цели.
Можно также увидеть потенциал основанного на обобщении подхода, посмотрев на развитие людей. Эволюция «обучила» нас как вид когнитивным навыкам, включающим в себя способности к быстрому обучению, обработку сенсорной и выдачу моторной информации, социальные навыки. Индивидуально мы также «обучаемся» в детстве подстраивать эти навыки, понимать устный и письменный язык и обладать подробной информацией о современном обществе. Однако, заметим, что почти всё это эволюционное и детское обучение произошло на задачах, сильно отличающихся от экономически пригождающихся нам во взрослом возрасте. Мы можем справляться с ними только переиспользуя когнитивные навыки и знания, полученные раньше. В нашем случае нам повезло, что эти когнитивные навыки были не слишком специфичны для окружения наших предков, а оказались весьма обобщёнными. В частности, навык абстрагирования позволяет нам извлекать общую структуру из разных ситуаций, что позволяет нам понимать их куда эффективнее, чем если бы мы отдельно изучали их одну за другой. Наши навыки коммуникации и понимания чужого сознания позволяют нам делиться своими идеями. Поэтому люди могут достигать мощного прогресса на масштабе лет и десятилетий, а не только через эволюционные адаптации на протяжении многих поколений.
Мне следует заметить, что я думаю об основанном на задаче и основанном на обобщении подходах как о частях спектра, а не как о бинарной классификации, в частности потому, что разделение на отдельные задачи довольно произвольно. К примеру, AlphaZero обучалась, играя сама с собой, но тестировалась, играя против людей, использующих другие стратегии и стили игры. Можно думать об игре против двух разных типов оппонентов как о двух случаях одной задачи, а можно – как двух разных задачах, таких, что AlphaZero смогла обобщить первую на вторую. Но в любом случае, они явно очень похожи. Для контраста, я ожидаю, что ИИ будут справляться хорошо с многими экономически важными задачами в первую очередь за счёт обобщения опыта совершенно других задач – что означает, что этим ИИ придётся обобщать намного лучше, чем могут нынешние системы обучения с подкреплением.
Уточню, про какие именно задачи я ожидаю, что они потребуют режима обобщения. В той мере, в которой мы можем разделять два подхода, мне кажется правдоподобным, что основанный на задачах подход сможет далеко зайти в областях, в которых мы можем собрать много данных. Например, я довольно сильно убеждён, что этот подход предоставит нам сверхчеловеческие беспилотные автомобили задолго до того основанного на обобщении подхода. Он может также позволить нам автоматизировать большинство задач, входящих в очень когнитивно-требовательные области вроде медицины, законов и математики, если мы сможем собрать правильные обучающие данные. Однако, некоторые занятия критически зависят от способности анализировать очень разнообразную информацию и действовать в её контексте, так что им будет очень сложно обучать напрямую. Рассмотрим задачи, включённые в роль вроде CEO: устанавливать стратегические направление компании, выбирать, кого нанимать, писать речи, и так далее. Каждая из этих задач чувствительно зависит от широкого контекста компании и окружающего мира. В какую индустрию входит компания? Насколько она большая; где она; какова её культура? Какие у неё отношения с конкурентами и правительствами? Как все эти факторы поменяются в ближайшую пару десятилетий? Эти переменные настолько разные по масштабу и зависящие от многих аспектов мира, что кажется практически невозможным сгенерировать большое количество обучающих данных, симулируя их (как мы делаем с ИИ, играющими в игры). И число CEO, от которых мы могли бы получить эмпирические данные, очень мало по меркам обучения с подкреплением (которое часто требует миллиарды тренировочных шагов даже для куда более простых задач). Я не говорю, что мы никогда не сможем превзойти человека в этих задачах прямым обучением на них – может, очень упорные усилия в разработке и проектировании при помощи других основанных на задачах ИИ и могут этого достичь. Но я ожидаю, что задолго до того, как такие усилия станут возможными, мы уже создадим ИИ, который будет уметь хорошо справляться с этими задачами, с помощью основанного на обобщении подхода.
В основанном на обобщении подходе путь к созданию сверхчеловеческого CEO – это использование других богатых на данные задач (которые могут сильно отличаться от того, что мы хотим, чтобы ИИ-CEO делал) для обучения ИИ набору полезных когнитивных навыков. К примеру, мы можем обучить агента выполнять инструкции в симулированном мире. Даже если симуляция сильно отличается от реального мира, агент может получить способности к планированию и обучению, которые можно будет быстро адаптировать к задачам реального мира. Аналогично, окружение предков людей также сильно отличалось от современного мира, но мы всё ещё способны довольно быстро становиться хорошими CEO. Приблизительно те же аргументы подходят и к другим влиятельным занятиям, вроде меняющих парадигмы учёных, предпринимателей и законотворцев.
Одно потенциальное препятствие для основанного на обобщении подхода – это возможность, что специфические черты окружения наших предков или специфические черты человеческого мозга были необходимы для возникновения обобщённого интеллекта. К примеру, выдвигалась гипотеза, что социальная «гонка вооружений» послужила причиной возникновения у нас достаточного социального интеллекта для масштабной передачи культурной информации. Однако, возможности для возникновения таких важных черт, включая эту, вполне могут быть воспроизведены в искусственном тренировочном окружении и в искусственных нейронных сетях. Некоторые черты (как квантовые свойства нейронов) может быть очень сложно точно симулировать, но человеческий мозг оперирует в слишком зашумлённых условиях, чтобы было правдоподобно, что наш интеллект зависит от эффектов такого масштаба. Так что кажется весьма вероятным, что однажды мы сможем создать ИИ, который сможет достаточно хорошо обобщать, чтобы на человеческом уровне справляться с широким диапазоном задач, включая абстрактные бедные данными задачи вроде управлением компанией. Давайте называть такие системы обобщёнными искусственными интеллектами, или СИИ2. Многие разработчики ИИ ожидают, что мы создадим СИИ в этом столетии; однако, я не буду рассматривать аргументы про оставшееся до СИИ время, и остальной доклад не будет зависеть от этого вопроса.
Бостром определил суперинтеллект как «любой интеллект, сильно превосходящий когнитивные способности человека в практически любой области». В этом докладе, я буду понимать «сильно превосходящий человеческие способности» как превосходство над всем человечеством вместе, если бы оно могло глобально координироваться (без помощи другого продвинутого ИИ). Я думаю, сложно отрицать, что в принципе возможно создать отдельный основанный на обобщении суперинтеллектуальный СИИ, поскольку человеческий мозг ограничен многими факторами, которые будут ограничивать ИИ куда меньше. Пожалуй, самый поражающий из них – это огромная разница между скоростью нейронов и транзисторов: вторые передают сигналы примерно в четыре миллиона раз быстрее. Даже если СИИ никогда не превзойдёт людей в других аспектах, такая скорость позволит ему за минуты и часы продумать столько, сколько человек может в годы или десятилетия. В то же время, наш размер мозга – важная причина того, что люди способнее животных – но я не вижу причин, почему нейросеть не может быть ещё на несколько порядков больше человеческого мозга. И хоть эволюция во многом весьма хороший проектировщик, у неё не было времени отбирать по навыкам, специфически полезным в нашем современном окружении, вроде понимания языка и математических рассуждений. Так что нам следует ожидать существования низковисящих плодов, позволяющих продвинуться за пределы человеческой компетенции в многих задачах, опирающихся на такие навыки3.
Есть значительные расхождения в мнениях по поводу того, сколько времени займёт переход от СИИ человеческого уровня до суперинтеллекта. Фокус этого доклада не в этом, но я быстро пробегусь по этой теме в разделе про Контроль. А в этом разделе я опишу качественно, как может пройти этот переход. По умолчанию, следует ожидать, что он будет связан с стандартными факторами, влияющими на прогресс ИИ: больше вычислительной мощности, лучшие алгоритмы, лучшие обучающие данные. Но я также опишу три фактора, вклад которых в увеличение интеллекта ИИ будет становиться сильнее с тем, как ИИ будет становиться умнее: репликация, культурное обучение и рекурсивное улучшение.
В плане репликации ИИ куда менее ограничен, чем люди: очень легко создать копию ИИ с теми же навыками и знаниями, что и у оригинала. Вычислительная стоимость этого процесса скорее всего будет во много раз меньше изначальной стоимости обучения (поскольку обучение обычно включает в себя запуск многих копий ИИ на куда более высокой скорости, чем нужно для задач реального мира). Копирование сейчас позволяет нам применять один ИИ к многим задачам, но не расширяет диапазон задач, которые он может выполнять. Однако, следует ожидать, что СИИ сможет декомпозировать сложные задачи на более простые подзадачи, как и делают люди. Так что копирование такого СИИ сможет привести к появлению суперинтеллекта, состоящего не из одного СИИ, а из целой группы (которую, следуя за Бостромом, я назову коллективным СИИ), которая может справляться со значительно более сложными задачами, чем оригинал4. Из-за простоты и эффективности копирования СИИ, я думаю, что нам следует по умолчанию ожидать возникновения суперинтеллекта из коллективного СИИ.
Эффективность коллективного СИИ может быть ограничена проблемами координации его составляющих. Однако, большинство аргументов из предыдущего абзаца – так же является причиной, почему отдельные СИИ смогут превзойти нас в навыках, необходимых для координации (как обработка языка и понимание другого разума). Особенно полезный навык – это культурное обучение: стоит ожидать, что СИИ смогут приобретать знания друг от друга, и, в свою очередь делиться собственными открытиями, что позволит коллективному СИИ решать более сложные задачи, чем его составляющие по отдельности. Развитие этой способности в людях – это то, что сделало возможным мощный взлёт человеческой цивилизации в последние десять тысяч лет. Нет особых причин считать, что мы достигли максимума этой способности, или что СИИ не может получить ещё большего преимущества над человеком, чем у человека есть над шимпанзе, с помощью получения информации от других агентов.
В-третьих, СИИ смогут улучшать процесс обучения для разработки своих наследников, которые, в свою очередь, улучшат его дальше, для разработки своих, и так далее, в процессе рекурсивного улучшения5. Предыдущие обсуждения в основном сосредотачивались на рекурсивном самоулучшении, включающим один СИИ, «переписывающий свой собственный код». Однако, я по нескольким причинам думаю, что более уместно сосредоточиться на более широком явлении ИИ, продвигающего разработку ИИ. Во-первых, из-за простоты копирования ИИ, нет значимого разделения между ИИ, улучшающим «себя» и ИИ, создающим наследника, разделяющего многие его свойства. Во-вторых, современные ИИ более точно характеризуются как модели, которые можно переобучить, а не как программы, которые можно переписать: практически вся работа, делающая нейросеть умной, производится оптимизатором через продолжительное обучение. Даже суперинтеллектуальному СИИ будет довольно сложно значительно улучшить своё мышление, модифицируя веса+ в своих нейронах напрямую; это кажется похожим на повышение интеллекта человека с помощью хирургии на мозге (хоть и с куда более точными инструментами, чем у нас есть сейчас). Так что, вероятно, более точным будет думать о самомодификации, как о процессе, в котором СИИ изменяет свою высокоуровневую архитектуру или режим обучения, а потом обучает себя заново. Это очень похоже на то, как мы создаём новые ИИ сегодня, только с меньшей ролью людей. В-третьих, если интеллектуальный вклад людей значительно сокращается, то я не думаю, что осмысленно требовать полного отсутствия людей в этом цикле, чтобы поведение ИИ можно было считать рекурсивным улучшением (хотя мы всё ещё можем различать случаи с большим и меньшим вовлечением людей).
Эти соображения в нескольких местах пересматривают классический взгляд на рекурсивное самоулучшение. К примеру, шаг переобучения может быть ограничен вычислительными мощностями, даже если СИИ будет способен очень быстро проектировать алгоритмические усовершенствования. И чтобы СИИ мог полагаться на то, что его цели останутся неизменными при переобучении, ему, вероятно, потребуется решить примерно те же задачи, которыми сейчас занимается область безопасности СИИ. Это причина для оптимизма по поводу того, что весь остальной мир сможет решить эти задачи до того, как несогласованный СИИ дойдёт до рекурсивного самоулучшения. Однако, проясню, это не подразумевает, что рекурсивное улучшение не важно. Напротив, раз ИИ однажды станет основным участником разработки ИИ, то рекурсивное улучшение, как оно определено здесь, однажды станет ключевым двигателем прогресса. Я ещё рассмотрю следствия этого заявления в разделе про Контроль.
Пока что я сосредотачивался на том, как суперинтеллекты появятся, и что они будут способны делать. Но как они будут решать что делать? К примеру, будут ли части коллективного СИИ хотеть кооперироваться друг с другом для достижения больших целей? Будет ли способный к рекурсивному самоулучшению СИИ иметь причины это сделать? Я не хочу формулировать эти вопросы в терминах целей и мотивации СИИ, не описав сперва подробнее, что эти термины на самом деле означают. Это тема следующего раздела.
Фундаментальный повод к беспокойству за аргумент второго вида – это что ИИ получит слишком много власти над людьми и использует эту власть не нравящимся нам способами. Почему ИИ получит такую власть? Я различаю три возможности:
На первой возможности сосредоточено большинство обсуждений, и я потрачу большую часть этого раздела на неё. Вторая не была так глубоко исследована, но, по моему мнению, всё же важна; я быстро пройдусь по ней в этом и следующем разделах. Вслед за Кристиано, я назову агентов, подпадающих под эти две категории ищущими-влияния. Третья возможность в основном не попадает в тему этого доклада, который фокусируется на опасности намеренного поведения продвинутых ИИ, но я чуть-чуть затрону её здесь и в последнем разделе.
Ключевая идея за первой возможностью – это сформулированный Бостромом тезис инструментальной конвергенции. Он утверждает, что есть некоторые инструментальные цели, чьё достижение увеличивает шансы реализации финальных целей агента для широкого диапазона этих финальных целей и широкого диапазона ситуаций. Примерами таких инструментальных целей служат самосохранение, накопление ресурсов, технологическое развитие и самоулучшение, все из которых полезны для выполнения дальнейших крупномасштабных планов. Я думаю, что эти примеры лучше характеризуют ту власть, о которой я тут говорю, чем какое-нибудь более явное определение.
Однако, связь между инструментально конвергентными целями и опасным преследованием власти применима только к агентам, чьи финальные цели достаточно крупномасштабны, чтобы они получали выгоду от этих инструментальных целей и определяли и добивались их даже когда это ведёт к экстремальным результатам (набор черт, которые я называю ориентированной на цели агентностью). Не совсем ясно, что СИИ будут такими агентами или иметь такие цели. Интуитивно кажется, что будут, потому что мы все имеем опыт преследования инструментально конвергентных целей, к примеру, зарабатывания и сохранения денег, и можем представить, насколько бы мы были в них лучше, если бы были умнее. Но, так как эволюция вложила в нас много полезных краткосрочных мотиваций, сложно определить, в какой мере человеческое ищущее влияния поведение вызвано рассуждениями про инструментальную полезность для крупномасштабных целей. Наше завоевание мира не требовало, чтобы люди выстраивали стратегию на века – только чтобы много отдельных людей довольно ограниченно увеличивали собственное влияние – изобретая немного лучшие инструменты или исследуя чуть дальше.
Следовательно, нам следует серьёзно отнестись и к возможности, что суперинтеллектуальный СИИ будет ещё меньше чем люди сосредоточен на достижении крупномасштабных целей. Мы можем представить, как они преследуют финальные цели, не мотивирующие к поиску власти, например, деонтологические или маломасштабные. Или, может быть, мы создадим «ИИ-инструменты», которые будут очень хорошо подчиняться нашим инструкциям, не обладая собственными целями – как калькулятор не «хочет» ответить на арифметический вопрос, но просто выполняет переданные ему вычисления. Чтобы понять, какие из этих вариантов возможны или вероятны, нам нужно лучше понять природу целей и ориентированной на цели агентности. Таков фокус этого раздела.
Для начала критично провести различие между целями, для выполнения которых агент был отобран или спроектирован (их я назову его проектными целями), и целями, которые агент сам хочет достигнуть (их я просто назову «целями агента»)1. К примеру, насекомые могут участвовать в сложных иерархических обществах только потому, что эволюция дала им необходимые для этого инстинкты: «компетенцию без понимания» по терминологии Деннета. Этот термин также описывает нынешние классификаторы картинок и (наверное) созданные обучением с подкреплением агенты вроде AlphaStar и OpenAI Five: они могут быть компетентны в достижении своих проектных целях без понимания, что это за цели, или как их действия помогут их достигнуть. Если мы создадим агентов, чьими проектными целями будет накопление власти, но сами агенты не будут иметь такой цели (к примеру, агент играет на бирже без понимания того, какое влияние это оказывает на общество), то это будет считаться третьей из указанных выше возможностей.
В этом разделе я, напротив, заинтересован в том, что значит для агента иметь свою собственную цель. Три существующих подхода попыток ответить на этот вопрос – это максимизация ожидаемой полезности Джона фон Неймана и Оскара Моргенштерна, позиция намерений Дэниэла Деннета, и меса-оптимизация Хубингера и др. Я, впрочем, не думаю, что любой из этих подходов адекватно характеризует тот тип направленного на цели поведения, которое мы хотим понять. Хоть мы и можем доказывать элегантные теоретические результаты о функциях полезности, они настолько обобщены, что практически любое поведение может быть описано как максимизация какой-то функции полезности. Так что этот подход не ограничивает наши ожидания от мощных СИИ2. В то же время Деннет заявляет, что рассмотрение позиций намерения систем может быть полезно для предсказаний о них – но это работает только при наличии предшествующего знания о том, какие цели система наиболее вероятно имеет. Предсказать поведение нейросети из триллиона параметров – совсем не то же самое, что применить позиции намерения к существующим артефактам. И хоть у нас есть интуитивное понимание сложных человеческих целей и того, как они переводятся в поведение, в какой степени осмысленно распространять эти убеждения об ориентированном на цели поведении на ИИ – это тот самый вопрос, для которого нам нужна теория агентности. Так что несмотря на то, что подход Деннета предоставляет некоторые ценные прозрения – в частности, что признание за системой агентности – это выбор модели, применимый только при некоторой абстракции – я думаю, что у него не получается свести агентность к более простым и понятным концепциям.
В дополнение к этому, ни один из подходов не рассматривает ограниченную рациональность: идею, что системы могут «пытаться» достичь цели, не совершая для этого лучших действий. Для определения целей ограниченно рациональных систем, нам придётся подробно изучить структуру их мышления, а не рассматривать их как чёрные ящики с входом и выходом – другими словами, использовать «когнитивное» определение агентности вместо «поведенческих», как рассмотренные выше. Хубингер и другие используют когнитивное определение в их статье Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения: «система есть оптимизатор, если она совершает внутренний поиск в некотором пространстве (состоящем из возможных выводов, политик*, планов, стратегий или чего-то вроде этого) тех элементов, которые высоко оцениваются некой целевой функцией, явно воплощённой внутри системы». Я думаю, что это перспективное начало, но тут есть некоторые значительные проблемы. В частности, концепт «явного воплощения» кажется довольно хитрым – что именно (если хоть что-то) явно воплощено в человеческом мозге? И их определение не проводит важного различия между «локальными» оптимизаторами вроде градиентного спуска и целенаправленными планировщиками вроде людей.
Мой собственный подход к рассуждениям об агентности пытается улучшить упомянутые подходы через большую конкретность по поводу мышления, которое мы ожидаем от целенаправленных систем. Также как «иметь интеллект» включает набор способностей (как обсуждалось в предыдущем разделе), «быть целенаправленным» включает некоторые дополнительные способности:
Заметим, что никакую из этих черт не надо интерпретировать как бинарную; напротив, каждая определяет спектр возможностей. Я также не заявляю, что комбинация этих шести измерений – это точная и полная характеристика агентности; только что это хорошая начальная точка и правильный тип рассуждений для анализа агентности. Например, так подсвечивается, что агентность требует комбинации разных способностей – и как следствие, что есть много разных способов быть не максимально агентным. ИИ, высоко поднявшийся по каким-то из этих метрик может быть довольно низок по другим. Рассмотрим по очереди эти черты, и как может выглядеть их недостаток:
Система, отвечающая на вопросы (так же известная как оракул), может быть реализована как агент, лишённый и планирования, и консеквенциализма. Для действующего в реальном мире ИИ, я думаю, важно рассмотреть масштаб его целей, я займусь этим дальше в этом разделе. Мы можем оценивать и другие системы по этим критериям. У калькулятора нет их всех. Немного более сложные программы, вроде GPS-навигатора, вероятно, стоит рассматривать в как некоторой ограниченной степени консеквенциалистов (он направляет пользователя по-разному в зависимости от плотности трафика), и, возможно, как обладателей других черт тоже, но лишь чуть-чуть. Большинство животных в некоторой степени обладают самосознанием, консеквенциализмом и последовательностью. Традиционная концепция СИИ имеет все эти черты, что даёт такому СИИ способность следовать ищущим-влияние стратегиям по инструментальным мотивам. Однако, заметим, что эта направленность на цели – не единственный фактор, определяющий, будет ли ИИ ищущим-влияние: содержание его целей также имеет значение. Высокоагентный ИИ, имеющий цель оставаться подчинённым людям, может никогда не исполнять ищущие-влияние действия. Как ранее замечено, ИИ, имеющий финальную целью получения власти, может быть ищущим-влияние, даже не обладая большинством этих черт. Я рассмотрю пути оказания влияния на цели агента в следующем разделе про согласование.
Насколько вероятно, что, разрабатывая СИИ, мы создадим систему с всеми шестью перечисленными мной выше чертами? Один из подходов к ответу на этот вопрос включает предсказывание, какие типы архитектуры моделей и алгоритмов обучения будут использованы – к примеру, будут ли они безмодельными или, напротив, основанными на модели? Мне кажется, такая линия рассуждения недостаточно абстрактна, поскольку мы просто не знаем о мышлении и обучении достаточно, чтобы отобразить их в высокоуровневые решения проектирования. Если мы обучим СИИ безмодельным способом, я предсказываю, что он всё равно будет планировать с использованием внутренней модели. Если мы обучим основанный на модели СИИ, я предсказываю, что его модель будет настолько абстрактной и иерархичной, что взгляд на его архитектуру очень мало скажет нам о настоящем происходящем там мышлении.
На более высоком уровне абстракции, я думаю, что для высокоинтеллектуального ИИ будет проще приобрести эти компоненты агентности. Однако, степень агентности наших наиболее продвинутых ИИ будет зависеть от режима обучения, которым они будут получены. К примеру, наши лучшие языковые модели уже обобщают свои тренировочные данные достаточно хорошо, чтобы отвечать на довольно много вопросов. Я могу представить, как они становятся всё более и более компетентными с помощью обучения с учителем и без учителя, до тех пор, когда они станут способны отвечать на вопросы, ответы на которые неизвестны людям, но всё ещё остаются лишёнными всех указанных черт. Можно провести аналогию с человеческой зрительной системой, которая совершает очень полезное мышление, но не очень «ориентирована на цели» сама по себе.
Мой основной аргумент – что агентность – это не просто эмерджентное свойство высокоинтеллектуальных систем, но скорее набор способностей, которые должны быть выработаны при обучении, и которые не возникнут без отбора по ним. Одно из поддерживающих свидетельств – парадокс Моравека: наблюдение, что кажущиеся наиболее сложными для людей когнитивные навыки зачастую очень просты для ИИ, и наоборот. В частности, парадокс Моравека предсказывает, что создание ИИ, выполняющих сложную интеллектуальную работу вроде научных исследований может на самом деле быть проще, чем создание ИИ, разделяющего более глубокие присущие людям черты вроде целей и желаний. Для нас понимание мира и изменение мира кажутся очень тесно связанными, потому что на наших предков действовал отбор по способности действовать в мире и улучшать своё положение в нём. Но если это интуитивное рассуждение ошибочно, то даже обучение с подкреплением может не выработать все аспекты направленности на цели, если цель обучения – отвечать на вопросы.
Однако, есть и аргументы в пользу того, что сложно обучить ИИ выполнять интеллектуальную работу так, чтобы они не выработали направленную на цели агентность. В случае людей, нужда взаимодействия с неограниченным окружением для достижения своих целей толкнула нас на развитие нашего сложного обобщённого интеллекта. Типичный пример аналогичного подхода к СИИ – это обучение с подкреплением в сложном симулированном 3D-окружении (или, возможно, через длинные разговоры в языковой среде). В таких окружениях, агенты, планирующие эффекты своих действий на длинных временных промежутках будут в целом справляться лучше. Это подразумевает, что наши ИИ будут подвержены оптимизационному давлению в сторону большей агентности (по моим критериям). Мы можем ожидать, что СИИ будет более агентным, если он будет обучен не просто в сложном окружении, но в сложном соревновательном мультиагентном окружении. Так обученным агентам будет необходимо уметь гибко адаптировать планы под поведение соперников; и им будет выгодно рассматривать больший диапазон планов на большем временном масштабе, чем соперники. С другой стороны, кажется очень сложным предсказать общий эффект взаимодействий между многими агентами, например, в людях, они привели к выработке (иногда не-консеквенциалистского) альтруизма.
Сейчас есть очень мало уверенности в том, какие режимы обучения лучше подходят для создания СИИ. Но если есть несколько рабочих, то стоит ожидать, что экономическое давление будет толкать исследователей к использованию в первую очередь тех, которые создают наиболее агентных ИИ, потому что они будут наиболее полезными (предполагая, что проблемы согласования не становятся серьёзными, пока мы не приближаемся к СИИ). В целом, чем шире задача, для которой используется ИИ, тем ценнее для него рассуждать о том, как достигнуть назначенную ему цель путями, которым он не был специально обучен. Например, отвечающая на вопросы система с целью помогать своим пользователям понимать мир может быть куда полезнее той, которая компетентна в своей проектной цели выдачи точных ответов на вопросы, но не имеет своих целей. Вообще я думаю, что большинство исследователей безопасности ИИ выступают за приоритизацию направлений исследований, которые приведут к менее агентным СИИ, и за использование этих СИИ для помощи в согласовании более агентных поздних СИИ. Ведётся работа и над тем, чтобы напрямую сделать СИИ менее агентным (как квантилизация), хотя в целом она сдерживается недостатком ясности вокруг этих концептов.
Я уже рассуждал о рекурсивном улучшении в предыдущем разделе, но ещё кое-что полезно подсветить здесь: раз большая агентность помогает агенту достигать своих целей, способные к модификации себя агенты будут иметь стимул делать себя более агентными (как люди уже пытаются, хоть и ограниченно)3. Так что стоит рассматривать и такой тип рекурсивного улучшения; соображения из предыдущего раздела к нему также в основном применимы.
Следует заметить, я не ожидаю, что обучающие задачи будут иметь такой же масштаб и продолжительность, как волнующие нас задачи в реальном мире. Так что СИИ не будет напрямую отбираться по крупномасштабным или долгосрочным целям. Но вероятно, что выученные в тренировочном окружении цели будут обобщаться до больших масштабов, так же как люди выработали крупномасштабные цели из эволюции в относительно ограниченном окружении наших предков. В современном обществе люди часто тратят всю свою жизнь, пытаясь значительно повлиять на весь мир – с помощью науки, бизнеса, политики, и многого другого. И некоторые люди стремятся повлиять на весь мир на века, тысячелетия, или даже дольше, несмотря на то, что никогда не было значительного эволюционного отбора людей по беспокойству о том, что произойдёт через несколько сотен лет, или по обращению внимания на события с другой стороны планеты. Это даёт нам повод к беспокойству, что СИИ, не обученный явно преследовать амбициозные крупномасштабные цели, всё равно может это делать. Я также ожидаю, что исследователи будут активно стремиться к обобщениям такого вида в ИИ, потому что на это полагаются некоторые важные применения. Для долгосрочных задач вроде управления компанией СИИ понадобится способность и мотивация выбирать между возможными действиями с учётом их мировых последствий на протяжении лет или десятилетий.
Можно ли конкретнее описать, как выглядит обобщение целей на намного большие масштабы? Учитывая проблемы с подходом максимизации ожидаемой полезности, которые я описывал раньше, не кажется подходящим думать о целях как о функциях полезности от состояния мира. Скорее, цели агента можно сформулировать в терминах тех концептов, которыми он оперирует – независимо от того, относятся ли они к его мыслительному процессу, деонтологическим правилам или исходам во внешнем мире4. И пока концепты агента гибко подстраиваются и обобщаются к новым обстоятельствам, цели, отсылающие к ним, останутся теми же. Сложно и спекулятивно пытаться описать, как может произойти такое обобщение, но, грубо говоря, стоит ожидать, что интеллектуальные агенты способны абстрагироваться от разницы между объектами и ситуациями, которые имеют высокоуровневые сходства. К примеру, после обучения в симуляции, агент может перенести своё отношение к объектам и ситуациям в симуляции на похожие в (куда большем) реальном мире5. Альтернативно, обобщение может произойти из постановки цели: агент, которого всегда вознаграждали за накопление ресурсов в тренировочном окружении, может встроить внутреннюю цель «накопить как можно больше ресурсов». Похожим образом, агенты, обученные соперничать в маломасштабной области могут выработать цель превзойти друг друга, остающуюся и при действии на очень больших масштабах.
С такой точки зрения чтобы предсказать поведение агента, надо рассмотреть, какими концептами он обладает, как они будут обобщаться, и как агент будет о них рассуждать. Я знаю, что это выглядит до невозможности сложной задачей – даже рассуждения человеческого уровня могут приводить к экстремальным непредсказуемым заключениям (как показывает история философии). Однако, я надеюсь, что мы можем вложить в СИИ низкоуровневые настройки ценностей, которые направят их высокоуровневые рассуждения в безопасных направлениях. Я рассмотрю некоторые подходы к этому в следующем разделе про согласование.
Раз я рассмотрел коллективные СИИ к предыдущем разделе, важно взглянуть, подходит ли мой подход к пониманию агентности так же и к группам агентов. Думаю, да: нет причин, почему описанные мной черты должны быть присущи одиночной нейросети. Однако отношения между целенаправленностью коллективного СИИ и целенаправленностями его членов могут быть не просты, они зависят от внутренних взаимодействий.
Одна из ключевых переменных – это насколько много опыта (и какие типы) взаимодействия друг с другом во время обучения имеют члены коллективного СИИ. Если они в первую очередь обучались кооперации, это увеличивает вероятность того, что получившийся коллективный СИИ будет целенаправленным агентом, даже если его отдельные члены не особо агентны. Но есть хорошие причины ожидать, что процесс обучения будет включать некоторую конкуренцию, которая уменьшит их последовательность как группы. Внутренняя конкуренция также может способствовать краткосрочному ищущему-влияния поведению, поскольку каждый член выучится поиску влияния для того, чтобы превзойти других. Особо выдающийся пример – человечество смогло захватить мир за тысячелетия не с помощью какого-то общего плана это сделать, а, скорее, как результат попыток многих индивидуумов распространить своё краткосрочное влияние.
Ещё возможно, что члены коллективного СИИ вообще не будут обучены взаимодействию друг с другом, в таком случае кооперация между ними будет целиком зависеть от их способности обобщать выработанные навыки. Сложно представить такой случай, поскольку человеческий мозг очень хорошо адаптирован для групповых взаимодействий. Но пока люди и согласованные СИИ будут удерживать подавляющую долю власти в мире, будет естественный стимул для СИИ, преследующих несогласованные цели, координировать друг с другом для расширения своего влияния за наш счёт6. Преуспеют ли они – зависит от того, какие механизмы координации они будут способны придумать.
Второй фактор – насколько много специализации в коллективном СИИ. В случае когда он состоит только из копий одного агента, нам стоит ожидать, что они будут очень хорошо друг друга понимать и по большей части разделять цели. Тогда мы сможем предсказать целенаправленность всей группы, изучив оригинального агента. Но стоит рассмотрения и случай коллектива, состоящего из агентов с разными навыками. С таким типом специализации коллектив в целом может быть куда более агентным, чем его составляющие, что может упростить безопасный запуск частей коллектива.
В предыдущем разделе я рассмотрел правдоподобность того, что агенты, полученные машинным обучением, выработают способность к поиску влияния по инструментальным причинам. Это не было бы проблемой, если бы они делали это только способами, согласованными с человеческими ценностями. В самом деле, многие из преимуществ, которые мы ожидаем получить от СИИ, потребуют у них обладания влиянием на мир. И по умолчанию, разработчики ИИ будут направлять свои усилия на создание агентов, которые будут делать то, что желают разработчики, а не обучатся быть непослушными. Однако, есть причины беспокоиться, что несмотря на усилия разработчиков, ИИ приобретут нежелательные конечные цели, которые приведут к конфликту с людьми.
Для начала, что вообще значит «согласованные с человеческими ценностями»? Вслед за Габриэлем и Кристиано, я проведу разделение между двумя типами интерпретаций. Минималистичный (он же узкий) подход сосредотачивается на избегании катастрофических последствий. Лучший пример – концепт согласования намерений Кристиано: «Когда я говорю, что ИИ A согласован с оператором H, я имею в виду: A пытается сделать то, что H от него хочет.» Хоть всегда и будут пограничные случаи определения намерений данного человека, это всё же даёт грубую завязанную на здравом смысле интерпретацию. Напротив, максималистский (он же амбициозный) подход пытается заставить ИИ принять или следовать конкретному всеохватывающему набору ценностей – вроде конкретной моральной теории, глобального демократического консенсуса, или мета-уровневой процедуры выбора между моральными теориями.
Я считаю, что определять согласование в максималистских терминах непрактично, поскольку это сводит воедино технические, этические и политические проблемы. Может нам и надо добиться прогресса во всех трёх, но добавление двух последних может значительно снизить ясность технических проблем. Так что с этого момента, когда я говорю о согласовании, я имею в виду только согласование намерений. Я также определю, что ИИ A несогласован с человеком H, если H хотел бы, чтобы A не делал того, что A пытается сделать (если бы H был осведомлён о намерениях A). Это подразумевает, что ИИ потенциально могут быть и не согласованными, и не несогласованными. С оператором – к примеру, если делают только то, что оператора не заботит. Очевидно, считается ли ИИ согласованным или несогласованным сильно зависит от конкретного оператора, но в этом докладе я сосредоточусь на ИИ, явно несогласованных с большинством людей.
Одно важное свойство этих определений: используя слово «пытается», они сосредотачиваются на намерениях ИИ, не на итоговых достигнутых результатах. Я думаю, это имеет смысл, потому что нам следует ожидать, что СИИ будут очень хорошо понимать мир, и что ключевой задачей безопасности будет правильная настройка их намерений. В частности, я хочу прояснить, что когда я говорю о несогласованном СИИ, типичный пример в моей голове – это не агент, который не слушается потому что неправильно понимает, что мы хотим, или слишком буквально понимает наши инструкции (что Бостром называл «извращённым воплощением»). Кажется вероятным, что СИИ будут по умолчанию очень хорошо понимать намерения наших инструкций, ведь они вероятно будут обучены на задачах, включающих людей и данные о людях – и понимание человеческого разума особенно важно для компетентности в таких задачах и во внешнем мире.1 Скорее, моё главное беспокойство в том, что СИИ будет понимать, что мы хотим, но ему просто будет всё равно, потому что приобретённые при обучении мотивации оказались не теми, какие нам хотелось.
Идея, что ИИ не будут автоматически приобретать правильные мотивации за счёт большего интеллекта – это следствие сформулированного Бостромом тезиса ортогональности, который гласит, что «более-менее любой уровень интеллекта в принципе может сочетаться с более-менее любой конечной целью». Для наших целей хватит и более слабой версии: просто что высокоинтеллектуальный агент может иметь крупномасштабные цели, несогласованные с большинством людей. Доказательство существования предоставляется высокофункциональными психопатами, которые понимают, что другие люди мотивированы моралью, и могут использовать этот факт для предсказания их действий и манипуляции, но всё же не мотивированы моралью сами.
Мы можем надеяться, что, осторожно выбирая задачи, на которых агент будет обучаться, мы можем предотвратить выработку этими агентами целей, конфликтующих с нашими, без необходимости прорывов в техническом исследовании безопасности. Почему это может не сработать? Существует разделение проблему внешней несогласованности и проблему внутренней несогласованности. Я объясню обе и предоставлю аргументы, почему они могут возникнуть. Я также рассмотрю некоторые ограничения такого подхода и альтернативные точки зрения на согласование.
Мы проводим машинное обучение системы для выполнения желаемого поведения, оптимизируя значение какой-то целевой функции – к примеру, функции вознаграждения в обучении с подкреплением. Проблема внешней несогласованности – это когда у нас не получилось реализовать целевую функцию, описывающую то поведение, которое мы на самом деле от системы хотим, не награждая также нежелательное поведение. Ключевое соображение за этим концептом – явно программировать выражающие все наши желания по поводу поведения СИИ целевые функции сложно. Нет простой метрики, которую нам бы хотелось, чтобы агенты максимизировали – скорее, желаемое поведение СИИ лучше формулируется в концептах вроде послушности, согласия, поддержки, морали и кооперации, которые мы в реалистичном окружении не можем точно определить. Хоть мы и можем определить для них цели-посредники, согласно Закону Гудхарта какое-нибудь нежелательное поведение будет очень хорошо оцениваться этими посредниками и потому будет подкрепляться у обучающихся на них ИИ. Даже сравнительно примитивные современные системы демонстрируют обходящее спецификации поведение, иногда довольно креативное и неожиданное, хотя концепты, которые мы пытаемся определить, гораздо проще.
Один из способов подойти к этой проблеме – включить человеческую обратную связь в целевую функцию, оценивающую поведение ИИ при обучении. Однако, тут есть как минимум три трудности. Первая – то, что предоставлять обратную связь от человека на все данные, нужные для обучения ИИ сложным задачам, до невозможности дорого. Это известно как проблема масштабируемого надзора; основной подход её решения – моделирование наград. Вторая – что для долгосрочных задач нам может понадобиться дать обратную связь прежде, чем у нас будет возможность увидеть все последствия действий агента. Даже в таких простых областях как го, уже зачастую очень сложно определить, насколько хорош был какой-нибудь ход, не увидев, как дальше пройдёт игра. А в больших областях может быть слишком много сложных последствий, чтобы их мог оценить один человек. Основной подход к этой проблеме – использование нескольких ИИ для рекурсивного разложения задачи оценивания, как Дебаты, Рекурсивное Моделирование Наград, и Итеративное Усиление. Через конструирование искусственных оценивателей, эти техники также пытаются подобраться и к третьей трудности с человеческой обратной связью: что людьми можно манипулировать, чтобы они интерпретировали поведение позитивнее, например, выдавая им обманчивые данные (как в случае робота-руки тут).
Даже если мы решим внешнюю несогласованность, определив «безопасную» целевую функцию, мы всё ещё сможем встретить провал внутренней согласованности: наши агенты могут выработать цели, отличающиеся от заданных целевой функцией. Это вероятно, когда обучающее окружение содержит постоянно полезные для получения высокой оценки данной целевой функции подцели, такие как сбор ресурсов и информации, или получение власти.2 Если агенты стабильно получают более высокое вознаграждение при достижении этих подцелей, то оптимизатор может отобрать агентов, преследующих эти подцели сами по себе. (Это один из путей, которым агенты могут выработать финальную цель набора власти, как упомянуто в начале раздела про Цели и Агентность.)
Это аналогично тому, что произошло во время эволюции людей; мы были «обучены» увеличивать свою генетическую приспособленность. В окружении наших предков, подцели вроде любви, счастья и социального статуса были полезны для достижения высокой совокупной генетической приспособленности, так что мы эволюционировали стремление к ним. Но сейчас, когда мы достаточно могущественны, чтобы изменять природный мир согласно нашим желаниям, есть значительные различия между поведением, которое максимизирует генетическую приспособленность (например, частое донорство спермы или яйцеклеток), и поведением, которое мы демонстрируем, преследуя эволюционировавшие у нас мотивации. Другой пример: предположим, мы вознаграждаем агента каждый раз, когда он корректно следует инструкции человека, так что ведущее к такому поведению мышление поощряется оптимизатором. Интуитивно, мы надеемся, что агент выработает цель подчинения людям. Но также вполне представимо, что послушное поведение агента руководствуется целью «не быть выключенным», если агент понимает, что непослушание приведёт к его выключению – в этом случае оптимизатор будет на самом деле вознаграждать цель выживания каждый раз, когда она будет приводить к следованию инструкциям. Два агента, каждый мотивированный одной из этих целей, могут вести себя очень похоже до тех пор, пока они не окажутся в положении, в котором можно не подчиниться, не будучи выключенным.3
Что определяет, какой из этих агентов на самом деле возникнет? Как я упоминал выше, один важный фактор – это наличие подцелей, которые стабильно приводят к вознаграждению при обучении. Другой – насколько просто и выгодно оптимизатору сделать агента мотивированным этими подцелями, а не обучающей целевой функцией. В случае людей, к примеру, концепт совокупной генетической приспособленности был очень сложным для встраивания эволюцией в мотивационную систему людей. И даже если бы наши предки каким-то образом выработали этот концепт, им было бы сложно придумать лучшие способы его достижения, чем и так вложенные в них эволюцией. Так что в окружении наших предков было сравнительно мало давления отбора на внутреннюю согласованность с эволюцией. В контексте обучения ИИ это значит, что сложность целей, которые мы пытаемся в него вложить, мешает два раза: она не только усложняет определение приемлемой целевой функции, но ещё и уменьшает вероятность того, что ИИ станет мотивированным предполагаемыми целями, даже если функция была правильной. Конечно, мы ожидаем, что потом ИИ станут достаточно интеллектуальными, чтобы точно понимать, какие цели мы предполагали им дать. Но к тому времени будет сложно убрать их уже существующие мотивации, и скорее всего они будут достаточно умны для попыток обманчивого поведения (как в гипотетическом примере из предыдущего абзаца).
Так как мы можем увериться во внутренней согласованности СИИ с намерениями человека? Эта область исследования пока что получала меньше внимания чем внешнее согласование, потому что это более хитрая задача. Один из потенциальных подходов включает добавление тренировочных примеров, в которых поведение агентов, мотивированных несогласованными целями, будет отличаться от согласованных агентов. Однако, проектировать и создавать такие тренировочные данные сейчас намного сложнее, чем массовое производство данных, например, процедурно-генерируемой симуляцией или поиском по сети. Частично это потому, что конкретные тренировочные данные в целом сложнее создавать, но есть ещё три дополнительных причины. Во-первых, по умолчанию мы просто не знаем, какие нежелательные мотивации возникают в наших агентах, на наказании каких нужно сосредоточиться. Техники интерпретируемости могут с этим помочь, но их разработка очень сложна (я рассмотрю это в следующем разделе). Во-вторых, наиболее вероятно приобретаемые агентами несогласованные мотивации – это те, которые наиболее устойчиво полезны. Например, особенно сложно спроектировать тренировочное окружение, в котором доступ к большему количеству информации приводит к более низкой награде. В-третьих, нас больше всего беспокоят агенты, имеющие несогласованные крупномасштабные цели. Но крупномасштабные цели сложнее всего настроить при обучении, неважно, в симуляции или в реальном мире. Так что чтобы подобраться к этим проблемам или обнаружить новые техники внутреннего согласования требуется ещё много работы.
Внешнее согласование – это задача корректного оценивания поведения ИИ; внутреннее согласование – задача заставить цели ИИ соответствовать этим оценкам. В некоторой степени мы можем трактовать эти две задачи как отдельные; однако, я думаю, также важно иметь в виду, каким образом картина «согласование = внешнее согласование + внутреннее согласование» может быть неполна или обманчива. В частности, что вообще значит реализовать «безопасную» целевую функцию? Это функция, которую мы хотим, чтобы агент действительно максимизировал? Но хоть максимизация ожидаемой награды имеет смысл в формальных случаях вроде MDP или POMDP, она куда хуже определена при реализации целевой функции в реальном мире. Если есть последовательность действий, позволяющая агенту исказить канал получения вознаграждения, то «запровологоловиться», максимизировав этот канал, практически всегда будет стратегией для получения наивысшего сигнала вознаграждения в долгосрочной перспективе (даже если функция вознаграждения сильно наказывает действия, к этому ведущие).4 И если мы используем человеческую обратную связь, то, как уже обсуждалось, оптимально будет манипулировать надсмотрщиками, чтобы они выдали максимально позитивную оценку. (Существует предположение, что «миопическое» обучение может решить проблемы искажения и манипуляции, но тут я аргументировал, что оно лишь прячет их.)
Вторая причина, почему функция вознаграждения – это «дырявая абстракция» в том, что любые реальные агенты, которых мы можем обучить в обозримом будущем, будут очень, очень далеки от предельно оптимального поведения нетривиальных функций вознаграждения. В частности, они будут замечать вознаграждения лишь крохотной доли возможных исходов. Более того, если это основанные на обобщении агенты, то они зачастую будут подходить к выполнению новых задач с очень маленьким обучением конкретно на них. Так что поведение агента почти всегда будет в первую очередь зависеть не от настоящих значений функции вознаграждения, а скорее от того, как агент обобщил ранее собранные в других состояниях данные.5 Это, наверное, очевидно, но стоит особо отметить, потому что очень многие теоремы о сходимости алгоритмов обучения с подкреплением полагаются на рассмотрение всех состояний на бесконечном пределе, так что скажут нам очень мало про поведение в конечном промежутке времени.
Третья причина – исследователи уже сейчас модифицируют функции вознаграждения так, чтобы это меняло оптимальные пути действий, когда это кажется полезным. К примеру, мы добавляем условия формирования для появления неявного плана обучения, или бонусы за исследование, чтобы вытолкнуть агента из локального оптимума. Особенно относящийся к безопасности пример - нейросеть можно модифицировать так, чтобы её оценка зависела не только от вывода, но и от внутренних отображений. Это особенно полезно для оказания влияния на то, как нейросети обобщает – к примеру, можно заставить их игнорировать ложные корреляции в тренировочных данных. Но опять же, это усложняет интерпретацию функций вознаграждения как спецификаций желаемых исходов процесса принятия решений.
Как тогда нам про них думать? Ну, у нас есть набор доступных инструментов, чтобы удостовериться, что СИИ будет согласованным – мы можем менять используемые при обучении нейронные архитектуры, алгоритмы обучения с подкреплением, окружения, оптимизаторы, и т.д. Следует думать о нашей возможности определять целевую функцию как о самом мощном инструменте. Но мощном не потому, что она сама определяет мотивации агента, а скорее потому, что вытащенные из неё примеры оформляют мотивации и мышление агента.
С этой точки зрения, нам стоит меньше беспокоиться об абсолютных оптимумах нашей целевой функции, поскольку они никогда не проявятся при обучении (и поскольку они скорее всего будут включать в себя перехват вознаграждений). Вместо этого, стоит сосредоточиться на том, как целевые функции, в сочетании с другими частями настроек обучения, создают давление отбора в сторону агентов, думающих тем способом, которым нам хочется, и потому имеющих желательные мотивации в широком диапазоне обстоятельств.6 (См. этот пост Санджива Ароры для более математического оформления похожего заявления.)
Эта перспектива предоставляет нам другой способ взглянуть на аргументы из предыдущего раздела о высокоагентных ИИ. Дело обстоит не так, что ИИ обязательно станут думать в терминах крупномасштабных консеквенциалистских целей, и наш выбор целевой функции лишь определит, какие цели они будут максимизировать. Скорее, все когнитивные способности ИИ, включая системы мотивации, выработаются при обучении. Целевая функция (и остальные настройки обучения) определят пределы их агентности и их отношение к самой целевой функции! Это может позволить нам спроектировать планы обучения, создающие давление в сторону очень интеллектуальных и способных, но не очень агентных ИИ – таким образом предотвращая несогласованность, не решая ни внешнего, ни внутреннего согласования.
Но если не получится, то нам понадобится согласовать агентные СИИ. В дополнение к техникам, которые я описывал раньше, для этого надо точнее разобраться в концептах и целях, которыми обладают наши агенты. Я пессимистичен по поводу полезности математики в таких высокоуровневых вещах. Для упрощения доказательств математические подходы часто абстрагируются от аспектов задачи, которые нас на самом деле волнуют – делая эти доказательства куда менее ценными, чем они кажутся. Я думаю, что эта критика относится к подходу максимизации полезности, как уже обсуждалось. Другие примеры включают большинство доказательств о сходимости обучения с подкреплением и об устойчивости конкурентного обучения. Я думаю, что вместо этого, нам нужны принципы и подходы похожие на использующихся в когнитивных науках и эволюционной биологии. Я думаю, что категоризация внутренней несогласованности на верховую и низовую – важный пример такого прогресса; я также был бы рад увидеть подход, который позволит осмысленно говорить о взломе градиента7 и различии между мотивацией вознаграждающим сигналом и вознаграждающей функцией. Нам стоит называть функции вознаграждения как «правильные» или «неправильные» только в той степени, в какой они успешно или неуспешно толкают агента к приобретению желаемых мотиваций и избеганию проблем вроде перечисленных.
В последнем разделе я рассмотрю вопрос, сможет ли в случае нашего провала СИИ, имеющий цель увеличения своего влияния за счёт людей, преуспеть в этом.
Важно заметить, что моих предыдущих аргументов самих по себе недостаточно для заключения, что СИИ перехватит у нас контроль над миром. Как аналогию можно взять то, что научные знания дают нам куда больше возможностей, чем у людей каменного века, но сомнительно, что один современный человек, заброшенный назад в то время, смог бы захватить весь мир. Этот последний шаг аргументации полагается на дополнительные предсказания о динамике перехода от людей к СИИ в качестве умнейших агентов на Земле. Она будет зависеть от технологических, экономических и политических факторов, которые я рассмотрю в этом разделе. Возвращающейся темой будет важность ожидания того, что СИИ будет развёрнут на многих разных компьютерах, а не привязан к одному конкретному «железу», как люди.1
Я начну с обсуждения двух очень высокоуровневых аргументов. Первый – что более обобщённый интеллект позволяет приобрести большую власть, с помощью крупномасштабной координации и разработки новых технологий. И то, и другое вложилось в установлении контроля над миром человеческим видом; и то, и другое вкладывалось в другие большие сдвиги распределения сил (например, индустриальную революцию). Если все люди и согласованные СИИ менее способны в этих двух отношениях, чем несогласованные СИИ, то стоит ожидать, что последние разработают больше новых технологий и используют их для накопления большего количества ресурсов, если на них не будут возложены сильные ограничения и не окажется, что они не способны хорошо координироваться (я кратко рассмотрю обе возможности).
Однако, с другой стороны, захватить мир очень сложно. В частности, если люди у власти видят, что их позиции ослабляются, они наверняка предпримут действия, чтобы это предотвратить. Кроме того, всегда намного проще понимать и рассуждать о более конкретной и осязаемой задаче; а крупномасштабное будущее развитие обычно очень плохо прогнозируется. Так что даже если сложно отвергнуть приведённые высокоуровневые аргументы, всё равно могут быть какие-то пока что не замеченные решения, которые будут замечены, когда для этого появятся стимулы, а набор доступных подходов будет более понятен.
Как мы можем пойти дальше этих высокоуровневых аргументов? В этом разделе я представлю два типа катастрофических сценариев и четыре фактора, которые повлияют на нашу способность удерживать контроль, если мы разработаем не полностью согласованные СИИ:
1. Скорость разработки ИИ
2. Прозрачность ИИ-систем
3. Стратегии ограниченного развёртывания
4. Политическая и экономическая координация людей
Было несколько попыток описать катастрофические исходы, которые могут быть вызваны несогласованными суперинтеллектами, хотя очень сложно охарактеризовать их детально. Говоря в общем, самые убедительные сценарии делятся на две категории. Кристиано описывает СИИ, получающие влияние изнутри наших нынешних экономических и политических систем, забирая или получая от людей контроль над компаниями и государственными учреждениями. В некоторый момент «мы достигаем точки, когда мы уже не можем оправиться от одновременного отказа автоматизации» - после чего эти СИИ уже не имеют стимула следовать человеческим законам. Хансон также представляет сценарий, в котором виртуальные разумы приходят к экономическому доминированию (хотя он менее взволнован по поводу несогласованности, отчасти потому, что он сосредотачивается на эмулированных человеческих разумах). В обоих сценариях биологические люди теряют влияние, потому что они менее конкурентноспособны в стратегически важных задачах, но никакой одиночный СИИ не способен захватить контроль над миром. В некоторой степени, эти сценарии аналогичны нашей нынешней ситуации, когда большие корпорации и учреждения смогли накопить много силы, хоть большинство людей и не согласны с их целями. Однако, поскольку эти организации состоят из людей, на них всё же оказывается давление в сторону согласованности с человеческими целями, что неприменимо к группе СИИ.
Юдковский и Бостром, напротив, описывают сценарии, в которых один СИИ набирает силу в основном через технологические прорывы, будучи в основном отделённым от экономики. Ключевое предположение, разделяющее эти две категории сценариев – сможет ли отдельный СИИ таким образом стать достаточно могущественным, чтобы захватить контроль над миром. Существующие описания таких сценариев приводят в пример сверхчеловеческие нанотехнологии, биотехнологии и компьютерный взлом; однако, детально их охарактеризовать сложно, потому что эти технологии пока не существуют. Однако кажется весьма вероятным, что существуют какие-то будущие технологии, которые предоставят решающее стратегическое преимущество, если ими обладает только одно действующее лицо, так что ключевой фактор, определяющий правдоподобность таких сценариев – будет ли разработка ИИ достаточно быстрой, чтобы допустить такую концентрацию сил.
В обоих случаях люди и согласованные ИИ в итоге окажутся намного слабее несогласованных ИИ, которые тогда смогут завладеть нашими ресурсами в своих собственных целях. Ещё худший сценарий – если несогласованный СИИ действует намеренно враждебно людям – к примеру, угрожает ради уступок. Как мы можем избежать таких сценариев? Есть искушение напрямую целиться в финальную цель способности согласовывать произвольно умные ИИ, но я думаю, что наиболее реалистичный горизонт планирования доходит до ИИ, намного лучших, чем люди в исследованиях безопасности ИИ. Так что нашей целью должно быть удостовериться, что эти ИИ согласованы, и что их исследования будут использоваться при создании следующих. Категорию катастрофы, которая помешает этому с больше вероятностью, зависит не только от интеллекта, агентности и целей разработанных нами ИИ, но и от четырёх перечисленных выше факторов, которые я сейчас рассмотрю подробнее.
Если разработка ИИ будет продвигаться очень быстро, то мы будем менее способны адекватно на неё реагировать. В частности, нам стоит интересоваться, сколько времени займёт продвижение СИИ от интеллекта человеческого уровня до суперинтеллекта, то, что мы называем периодом взлёта. История систем вроде AlphaStar, AlphaGo и OpenAI Five даёт нам некоторое свидетельство, что он будет коротким: каждая из них после длительного периода разработки быстро продвинулась от любительского до сверхчеловеческого уровня. Схожее явление произошло с эволюцией людей, когда нам потребовалась всего пара миллионов лет, чтобы стать намного умнее шимпанзе. В нашем случае, одним из ключевых факторов стало масштабирование «железа» мозга – которое, как я уже упоминал, намного проще для СИИ, чем для людей.
Вопрос того, как будет влиять масштабирование железа и времени обучения, важен, но в долгосрочной перспективе самый важный вопрос – как будет влиять масштабирование интеллекта разработчиков – потому что однажды большая часть исследований в области ИИ и смежных будет выполняться самими СИИ (в процессе, который я называл рекурсивным улучшением). В частности, в интересующем нас диапазоне интеллекта, будет ли рост интеллекта СИИ на δ увеличивать интеллект лучшего следующего СИИ, которого он может разработать, на больше или меньше, чем на δ? Если больше, то рекурсивное улучшение в какой-то момент резко ускорит прогресс разработки ИИ. Юдковский заявляет в пользу этой гипотезы:
История эволюции гоминидов до сегодняшнего дня показывает, что для существенного роста реальных когнитивных способностей не требуется экспоненциально возрастающего количества эволюционной оптимизации. Чтобы добраться от Человека Прямоходящего до Человека Разумного не потребовалось в десять раз большего эволюционного интервала, чем от Австралопитека до Человека Прямоходящего. Вся выгода от открытий вроде изобретения агрикультуры, науки или компьютеров произошла безо всякой способности вкладывать технологические дивиденды в увеличение размера мозга, ускорение нейронов или улучшение низкоуровневых алгоритмов, ими используемых. Раз ИИ может вкладывать плоды своего интеллекта в аналоги всего этого, нам стоит ожидать, что кривая развития ИИ будет куда круче, чем человеческая.
Я рассматриваю это как сильный аргумент в пользу того, что темп прогресса однажды станет намного быстрее, чем сейчас. Я куда менее уверен по поводу того, когда произойдёт это ускорение – к примеру, может оказаться, что описанная петля положительной обратной связи не будет иметь большого значения до момента, когда СИИ уже будет суперинтеллектуальным, так что период взлёта (определённый выше) будет всё же довольно медленным. Есть конкретные возражения против наиболее экстремальных сценариев быстрого взлёта, постулирующих резкий скачок в способностях ИИ перед тем, как он станет оказывать трансформативное2 влияние. Некоторые ключевые аргументы:
Заметим, что все эти аргументы совместимы с плавной, но ускоряющейся со всё большим вкладом ИИ-систем разработкой ИИ.
Прозрачная ИИ-система – такая, чьи мысли и поведение мы можем понять и предсказать; мы можем быть более уверенными в своей способности удерживать контроль над СИИ, если он прозрачный. Если мы можем сказать, когда система планирует предательское поведение, то мы можем выключить её до того, как она получит возможность осуществить свой план. Заметим, что подобная информация также была бы ценна для улучшения координации людей с СИИ, и, конечно, для обучения, как я кратко рассматривал в предыдущих разделах.
Хубингер перечисляет три широких подхода к увеличению прозрачности ИИ. Один – через создание инструментов интерпретируемости, которые позволят нам анализировать внутреннее функционирование существующей системы. Наша способность интерпретировать процессы в мозгах людей или животных сейчас не очень развита, но это частично из-за сложности высокоточных измерений. Напротив, в нейросетях мы можем напрямую прочитать каждый вес и каждую активацию, и даже менять их по отдельности, чтобы посмотреть, что произойдёт. С другой стороны, если наши наиболее развитые системы будут быстро меняться, то предыдущие исследования прозрачности смогут быстро устаревать. В этом отношении нейробиологам – которые могут изучать одну мозговую архитектуру десятилетиями – проще.
Второй подход – создание стимулов к прозрачности во время обучения. К примеру, мы можем вознаграждать агента за объяснение своего мыслительного процесса, или за поведение предсказуемым образом. Интересно заметить, что есть гипотеза, подразумевающая, что это произошло во время эволюции людей, так что можно предположить, что мультиагентные взаимодействия могут быть полезны для создания таких стимулов (если мы сможем найти способ предотвращения возникновения ещё и стимулов к обману).
Третий подход – проектирование алгоритмов и архитектур, которым будет присуща лучшая интерпретируемость. К примеру, основанный на модели планировщик вроде AlphaGo исследует множество возможных веток дерева игры, чтобы решить какой сделать ход. Посмотрев, какие ходы он исследует, мы можем понять, что он планирует, до того, как он выберет ход. Однако, мы тогда будем полагаться на то, что AlphaGo использует точную модель го. Более обобщённым агентам в больших окружениях надо будет планировать с использованием сжатых представлений этих окружений, которые по умолчанию будут менее интерпретируемы. Также ещё предстоит увидеть, могут ли склонные к прозрачности архитектуры и алгоритмы работать так же хорошо, как более закрытые альтернативы, но я сильно подозреваю, что нет.
Несмотря на присущие каждому из этих подходов сложности, у нас есть одно связанное с прозрачностью преимущество – доступ к разным версиям ИИ. Этим пользуется механизм перекрёстного осмотра в Дебатах. Или, как более практичный пример, если ИИ-системы немного глупее людей пытаются обмануть своих операторов, то это довольно явное свидетельство, что более интеллектуальные версии тоже будут это делать. Однако, этот подход ограничен, потому что он не позволяет нам обнаружить небезопасные планы, пока они не повлияли на поведение. Если понимание опции предательства всегда будет сопровождаться пониманием, что оно пока не сработает, то мы не сможем наблюдать тревожные сигналы в поведении до тех пор, пока ИИ не разовьётся до уровня, на котором посчитает, что предательство будет успешным.
Если рассмотреть мою раннюю аналогию современного человека, заброшенного в каменный век, то ключевым фактором, который помешает ему захватить мир, будет то, что он будет очень ограниченно «развёрнут». Он сможет быть только в одном месте одновременно; не сможет очень быстро путешествовать или даже посылать сообщения; не будет устойчив к несчастным случаям; и сможет использовать очень мало существующей инфраструктуры. Напротив, для глубокого обучения системы требуется куда больше вычислительных ресурсов, чем для её работы – когда СИИ будет обучен, скорее всего будет относительно дёшево запустить много его копий. Несогласованный суперинтеллект с доступом в интернет будет способен создать тысячи копий себя, которые мы не будем контролировать, купив (или взломав) необходимое оборудование. В этот момент наши соображения о способностях «одиночного СИИ» устаревают, и более подходящей становится терминология о «втором виде».
Можно представить попытки избежать этого сценария, разворачивая СИИ более ограниченно – к примеру, запуская их на отдельном безопасном оборудовании и позволяя им предпринимать только некоторые конкретные заранее одобренные действия (например, отвечать на вопросы). Это кажется значительно более безопасным. Однако, это также кажется и значительно менее вероятным в конкурентной среде – судя по сегодняшним тенденциям, более правдоподобным исходом будет, что почти все сразу же будут иметь доступ к персональному СИИ-ассистенту через свой телефон. Это приводит нас к четвёртому фактору:
По умолчанию нам не стоит полагаться на высокий уровень координации в предотвращении проблем безопасности СИИ. Мы пока не смогли адекватно скоординироваться даже для предотвращения глобального потепления, которое является хорошо задокументированной и постепенно ухудшающейся проблемой. В случае развёртывания СИИ, куда сложнее ясно экстраполировать будущие опасности из нынешнего поведения. В то же время при отсутствии технических решений проблем безопасности будут сильные краткосрочные экономические стимулы игнорировать недостаток гарантий по поводу умозрительных будущих событий.
Однако, это очень сильно зависит от трёх предыдущих факторов. Куда проще будет прийти к консенсусу по поводу того, как иметь дело с суперинтеллектом, если ИИ-системы будут подходить, а потом превосходить человеческий уровень на протяжении десятилетий, а не недель или месяцев. Это особенно верно, если менее способные системы продемонстрируют непослушание, которое явно было бы катастрофическим в исполнении более способных агентов. В то же время, разные действующие лица, которые могут находиться на переднем фронте разработки СИИ – правительства, компании, некоммерческие организации – будут варьироваться в своих реакциях на проблемы безопасности, своей кооперативности и своей способности реализовывать стратегии ограниченного развёртывания. И чем больше их будет вовлечено, тем сложнее будет координация между ними.
Давайте заново рассмотрим изначальный аргумент второго вида вместе с дополнительными заключениями и прояснениями из остального доклада.
Лично я наиболее уверен в 1, потом в 4, потом в 3, потом в 2 (в каждом случае при условии выполнения предыдущих утверждений) – хотя я думаю, что у всех четырёх есть пространство для обоснованного несогласия. В частности, мои аргументы про цели СИИ могут слишком полагаться на антропоморфизм. Даже если это и так, всё же очень неясно, как рассуждать о поведении обобщённо интеллектуальных систем не прибегая к антропоморфизму. Главная причина, по которой мы ожидаем, что разработка СИИ будет важным событием – то, что история человечества показывает нам, насколько интеллект важен. Но к успеху людей привёл не только интеллект – ещё и наше неисчерпаемое стремление к выживанию и процветанию. Без этого мы бы никуда не добрались. Так что пытаясь предсказать влияние СИИ, мы не можем избежать мыслей о том, что заставит их выбирать одни типы интеллектуального поведения, а не другие – иными словами, мыслей о их мотивациях.
Заметим, впрочем, что аргумент второго вида и перечисленные мной сценарии не задумываются как исчерпывающее описание всех связанных с ИИ экзистенциальных рисков. Даже если аргумент второго вида окажется некорректным, ИИ всё равно скорее всего будет трансформативной технологией, и нам стоит попытаться минимизировать потенциальный вред. В дополнение к стандартным беспокойствам о неправильном использовании (к примеру, об использовании ИИ для разработки оружия), мы можем также волноваться о том, что рост способностей ИИ приведёт к нежелательным структурным изменениям. К примеру, они могут двинуть баланс щита и меча в кибербезопасности, или привести к большей централизации человеческого экономического влияния. Думаю, сценарий Кристиано «уход со всхлипом» тоже подпадает в эту категорию. Однако, было мало глубоких исследований того, какие структурные изменения могу привести к долговременному вреду, так что я не склонен особо полагаться на такие аргументы, пока они не будут более тщательно исследованы.
Напротив, мне кажется, сценарии захвата власти ИИ, на которых сосредоточен этот доклад, куда лучше разобраны – но опять же, как указано выше, имеют большие вопросительные знаки у некоторых ключевых предпосылок. Однако, важно различить вопрос того, насколько вероятно, что аргумент второго вида корректен, и вопрос того, насколько серьёзно нам нужно его рассматривать. Мне кажется удачной такая аналогия от Стюарта Расселла: предположим, мы получили сообщение из космоса о том, что инопланетяне прилетят на Землю в какой-то момент в следующие сто лет. Даже если подлинность сообщения вызывает сомнения, и мы не знаем, будут ли инопланетяне враждебны, мы (как вид) точно должны ожидать, что это будет событие огромного значения, если оно произойдёт, и направить много усилий на то, чтобы оно прошло хорошо. В случае появления СИИ, хоть и есть обоснованные сомнения по поводу того, на что это будет похоже, это в любом случае может быть самым важным событием из когда-либо произошедших. Уж по самой меньшей мере, нам стоит приложить серьёзные усилия для понимания рассмотренных тут аргументов, того, насколько они сильны, и что мы можем по этому поводу сделать.1
Спасибо за чтение, и ещё раз спасибо всем, кто помог мне улучшить этот доклад. Я не ожидаю, что все согласятся со всеми моими аргументами, но я думаю, что тут ещё много что можно обсудить и предоставить больше анализов и оценок ключевых идей в безопасности СИИ. Я сейчас рассматриваю такую работу как более ценную и более пренебрегаемую, чем техническое исследование безопасности СИИ. Потому я недавно сменил работу в полную ставку над последним на докторскую, которая позволит мне сосредоточиться на первой. Я восторженно смотрю на то, как наше коллективное понимание будущего СИИ продолжает развиваться.
В этой цепочке Causal Incentives Working Group рассказывают о своём подходе к пониманию важных для безопасности ИИ понятий вроде агентности и стимулов через каузальность.
К сожалению, цепочка так и осталась недописанной.
В следующие несколько лет появление продвинутых ИИ-систем заставит общество, организации и отдельных людей столкнуться с некоторыми фундаментальными вопросами:
В этой цепочке постов мы объясним, как каузальная точка зрения на агентность даёт концептуальные инструменты при помощи которых можно разбираться в этих вопросах. Мы постараемся минимизировать применение жаргона и объяснять его, где он всё же будет, чтобы цепочка была доступна исследователям с самым разным опытом.
Для начала, под агентом мы имеем в виду направленную на цель систему, которая действует так, как если бы она пыталась менять мир в некотором конкретном направлении/направлениях. Примеры агентов: животные, люди и организации (в следующем посте об агентах будет больше). Понимание агентов – ключ к перечисленным вопросам. Популярно мнение, что искусственные агенты – основная экзистенциальная угроза технологий уровня сильного искусственного интеллекта, неважно, возникли ли они спонтанно или были спроектированы намеренно. Есть много потенциальных угроз нашему существованию, но высокоспособные агенты выделяются. Многих целей достигать эффективнее, накапливая влияние на мир. Если к Земле летит астероид, то он не намерен вредить людям и не будет сопротивляться отклонению. А вот несогласованные агенты могут занять противостоящую позицию активной угрозы.
Во-вторых, как для отдельных людей, так и для организаций критически важно не утратить в грядущем технологическом переходе человеческую агентность. Уже всплывает беспокойство о том, что манипулятивные алгоритмы социальных медиа и системы рекомендации контента вредят способности пользователей сосредотачиваться на своих долгосрочных целях. Более мощные ассистенты усилят эту тенденцию. По мере всё большей передачи принятия решений ИИ-системам, способность общества выбирать свою траекторию будет становиться всё более сомнительной.
Человеческую агентность тоже можно взращивать и защищать. Помогать людям помочь себе – не так патерналистично, как напрямую исполнять их пожелания. Содействие усилению людей может меньше прямого удовлетворения предпочтений зависеть от полного решения задачи согласования. Теория самодетерминации даёт свидетельства, что люди ценят агентность саму по себе, и некоторые из прав человека можно интерпретировать как защиту нашей нормативной агентности.
В третьих, искусственные агенты могут в какой-то момент сами стать объектами морали. Более ясное понимание агентности может помочь нам уточнить свою моральную интуицию и избежать неприемлемых действий. Не исключено, что некоторых этических дилемм избежать можно только создавая искусственные системы, которые объектами морали не будут.
Мы надеемся, что наши исследования помогут создать теорию агентности. Такая теория в идеале должна отвечать на вопросы вроде таких:
Каузальность помогает понимать агентов. Философы давно заинтересованы каузальностью, не только потому, что точная взаимосвязь причин и следствий интригует разум, но и потому, что она лежит в основе огромного числа других понятий, многие из которых важны для понимания агентов и проектирования безопасного СИИ.
Например, воздействие и реакция – понятия, связанные с каузальностью. Мы хотим, чтобы агенты положительно влияли на мир и должным образом реагировали на инструкции. На каузальности основаны и многие другие относящиеся к делу понятия:
Дерево каузальности
Дальше в этой цепочке мы подробнее расскажем, как эти понятия основаны на каузальности и к каким исследованиям это привело. Мы надеемся, что это откроет другим исследователям путь путь и вдохновит их присоединиться к нашим усилиям по созданию на базе каузальности формальной теории безопасного (С)ИИ. Большая часть нашей недавней работы истекает из этого видения. Например, в «Открывая агентов» изучая агентов и «Рассуждениях о каузальности в играх» мы выработали лучшее понимание того, как сопоставить аспекты реальности с каузальными моделями. В статье про стимулы агентов мы показали, как такие модели можно анализировать, чтобы выявить важные для безопасности свойства. «Придирчивыми к пути целями» мы показали, как такой анализ может вдохновлять лучшее проектирование.
Мы надеемся, что это поможет и другим важным для безопасности СИИ направлениям исследований, вроде масштабируемого согласования, оценок опасных способностей, устойчивости, интерпретируемости, этики, управления, прогнозирования, оснований агентности и картирования рисков.
Мы надеемся, что основанное на каузальности понимание агентности и связанных понятий поможет проектировщикам ИИ-систем, разъяснив, что есть в пространстве возможных агентов и как избежать особенно рискованных конфигураций. Оно может помочь регуляторам обрести лучшее представление о том, за чем следить, и что должно считаться достаточным свидетельством безопасности. Оно может помочь всем нам решить, какое поведение допустимо по отношению к каким системам. И, наконец, оно может помочь отдельным людям понять, что они стремятся сохранить и преумножить в своих взаимодействиях с искусственными разумами.
В следующем посте мы подробнее разъясним каузальность, каузальные модели, разные каузальные модели Перла и то, как их можно обобщить на случай наличия одного или нескольких агентов.
Каузальные модели лежат в основе нашей работы. В этом посте мы представим краткое, но доступное объяснение каузальных моделей, которые могут описать вмешательства, контрфактуалы и агентов, что пригодится в следующих постах цепочки. Предполагается понимание основ теории вероятности, в частности – условных вероятностей.
Что значит, что из-за дождя трава стала зелёной? Тема каузальности философски любопытна и лежит в основе многих других важных для людей понятий. В частности, многие относящиеся к теме безопасности ИИ концепции вроде влияния, реакции, агентности, намерения, справедливости, вреда и манипуляции, сложно осмыслить без каузальной модели мира. Мы уже упоминали это в вводном посте и подробнее обсудим в следующих.
Вслед за Перлом мы примем определение каузальности через вмешательство: брызгалка сегодня каузально влияет на зелёность травы завтра, потому что если бы кто-то вмешался и выключил брызгалку, то зелёность травы была бы другой. Напротив, зелёность травы завтра не оказывает эффекта на брызгалку сегодня (предполагая, что вмешательство никто не предсказал). Так что брызгалка сегодня влияет на траву завтра, но не наоборот, как мы интуитивно и ожидаем.
Каузальные Байесовские Сети (КБС) отображают каузальные зависимости между аспектами реальности при помощи ациклического ориентированного графа. Стрелка из переменной A в переменную B означает, что при сохранении значений остальных переменных A влияет на B. Например, нарисуем стрелку из брызгалки (S) к зелёности травы (G):
Каузальный граф, соответствующий нашему примеру. Брызгалка (S) влияет на зелёность травы (G).
У каждой вершины графа каузальный механизм того, как на него влияют его родительские узлы описывается условным распределением вероятностей. Для брызгалки распределение p(S) описыввет, как часто она включена, т.е. P(S=on)=30%. Для травы условное распределение p(G∣S) определяет, насколько вероятно, что трава станет зелёной, если брызгалка включена, т.е. p(G=green∣S=on)=100%, и если брызгалка выключена, т.е. p(G=green∣S=off)=30%.
Перемножая распределения мы получаем совместное распределение p(S,G)=p(S)p(G∣S), описывающее вероятность любой комбинации исходов. Совместные распределения – базовое понятие обычной теории вероятности. Их можно использовать, чтобы отвечать на вопросы вроде «какая вероятность, что брызгалка включена, при условии, что трава мокрая».
Вмешательство в систему меняет один или несколько механизмов каузальности. Например, вмешательство, которое включает брызгалку, соответствует замене механизма каузальности p(S) на новый механизм 1(S=on) – брызгалка всегда включена. Эффекты вмешательства можно выяснит, вычислив новое совместное распределение p(S,G∣do(S=on))=1(S=on)p(G|S), где do(S=on) обозначает вмешательство.
Заметим, что нельзя вычислить эффект вмешательства, зная только совместное распределение p(S,G), ведь без графа каузальности непонятно, надо ли менять механизм в разложении P(S)P(G∣S) или в inp(G)p(S∣G).
По сути, все статистические корреляции вызваны каузальным воздействием. [от переводчика: я тоже удивился этому тейку, можете посмотреть разъяснения в комментариях под оригинальным постом] Так что для набора переменных всегда есть какой-то КВБ, соответствующий каузальной структуре процесса, который генерирует данные. Впрочем, чтобы объяснить, например, неизмеренные факторы в нём могут потребоваться дополнительные переменные.
Пусть брызгалка включена, а трава зелёная. Была бы трава зелёная, если бы брызгалка не была включена? Вопросы о гипотетических контрфактуалах сложнее, чем вопросы о вмешательствах, потому что для них надо думать о нескольких мирах. Контрфактуалы – ключ к определению вреда, намерения, справедливости и того, как измерять воздействие. Все эти понятия зависят от сравнения исходов с гипотетическими мирами.
Чтобы справляться с такими рассуждениями, структурные каузальные модели (СКМ) добавляют к КБС три важных аспекта. Во-первых, общий для гипотетических миров фоновый контекст явно отделяется от переменных, в которые возможны вмешательства и которые в разных мирах могут отличаться. Первые называют экзогенными переменными, а вторые – эндогенными. В нашем примере полезно ввести экзогенную переменную R, обозначающую, идёт ли дождь. Брызгалка и зелёность травы – эндогенные переменные.
Отношения между гипотетическими мирами можно отобразить двойным графом, в котором есть по две копии эндогенных переменных – для настоящего мира и гипотетического и внешняя переменная/переменные, дающие общий контекст:
Граф, нужный, чтобы ответить, является ли брызгалка причиной того, что трава зелёная. Вершины из гипотетического мира обведены пунктиром. Правая вершина-брызгалка подвержена вмешательству do(S=off), что обозначает гипотетическую ситуацию. Серая внешняя вершина-дождь R даёт общий контекст.
Во-вторых, для СКМ вводится нотация для различия эндогенных переменных в разных гипотетических мирах. Например, GS=off обозначает зелёность травы в гипотетическом мире, где брызгалка выключена. Можно считать это сокращением для «G∣do(S=off)» с тем преимуществом, что это можно вставлять в выражения с переменными из других миров. Например, наш вопрос можно сформулировать как p(GS=off=green|S=on,G=green), где GS=off=green – гипотетическая ситуация, а S=on,G=green – настоящие наблюдения.
В третьих, в СКМ требуется, чтобы у всех эндогенных переменных были детерминированные механизмы каузальности. В нашем случае это выполняется, если мы предполагаем, что брызгалка включена, когда дождя нет, а трава становится зелёной (только) тогда, когда идёт дождь или включена брызгалка.
Детерминизм означает, что перейти к условному распределению просто – надо лишь обновить распределение по экзогенным переменным, т.е. P(R) заменяется на P(R∣S=on,G=green). В нашем случае вероятность дождя снижается с 30% до 0%, потому что, если идёт дождь, брызгалка выключена.
Так что для ответа на наш вопрос надо произвести три шага рассуждения:
Или то же самое одной формулой:
В итоге мы можем сказать, что если бы брызгалка была выключена, трава не была бы зелёной (при принятии наших допущений о взаимосвязях).
СКМ строго мощнее КБС. Их основной недостаток – они требуют детерминированных взаимосвязей между эндогенными переменными, а их на практике часто сложно определить. Ещё они ограничены контрфактуалами без отходов назад, гипотетическими мирами, которые отличаются исключительно вмешательствами.
Пусть мы хотим вывести намерения или стимулы некоего Джона, или же предсказать, как его поведение подстроилось бы под изменения в его модели мира. Нам потребуется диаграмма каузальных воздействий (ДКВ), помечающая вершины-переменные как относящиеся к случайности, решениям или полезности. В нашем примере дождь был бы вершиной случайности, брызгалка – вершиной-решением, а зелёность травы – вершиной-полезностью. Раз дождь – родительская вершина брызгалки, значит, Джон наблюдает его перед тем, как решать, включать ли её. Графически будем обозначать случайности как раньше, решения прямоугольниками, а полезность ромбами. Заштрихованные рёбра означают наблюдения.
ДКВ, соответствующая нашему примеру. Включение или не включение брызгалки – решение, оптимизирующее зелёность травы.
Агент определяет каузальные механизмы своих решений, т.е. свою политику, с цель. максимизации суммы по своим вершинам-полезностям. В нашем примере оптимальной политикой было бы включить брызгалку, когда дождя нет (решение в случае дождя не имеет значения). Когда политика определена, ДКВ определяет КБС.
В моделях с агентами есть два вида воздействий, зависящих от того, адаптируют агенты под них свои политики или нет. Например, Джон сможет выбрать другую политику касательно брызгалки только если мы проинформируем его о вмешательстве до того, как он уже принял своё решение. Вмешательства до и после политики можно обрабатывать всё тем же оператором do, если мы добавим в модель так называемые вершины-механизмы. Больше о них будет в следующем посте.
Взаимодействие нескольких агентов можно промоделировать каузальными играми. В них у каждого агента есть множества переменных-решений и переменных-полезностей.
Проиллюстрируем. Пусть Джон иногда засеивает новую траву. Птицам нравится клевать семена, но они не могут издалека понять, есть ли они там. Они могут лишь видеть, использует ли Джон брызгалку, а это вероятнее, когда трава новая. Джон хочет орошать свой газон, когда тот новый, но не хочет, чтобы птицы клевали семена. Вот структура этой сигнальной игры:
Каузальная игра, соответствующая нашему усложнённому примеру. Разные цвета означают решения и полезности разных агентов. Между новыми семенами (N) и птицами (B) нет ребра – птицы не могут их увидеть.
Помимо лучшего моделирования каузальности, у каузальных игр есть и другие преимущества над стандартной развёрнутой формой игр (РФИ). Например, каузальная игра сразу показывает, что птицам не важно, орошён газон или нет, ведь единственный путь от брызгалки S к еде F лежит через решение самих птиц B. В РФИ эта информация была бы скрыта в числах выигрыша. Каузальные игры более явно отображают независимость переменных, что иногда позволяет найти больше подигр и исключить больше ненадёжных угроз. При этом, каузальную игру всегда можно сконвертировать в РФИ.
Аналогично различиям между совместными распределениями, КБС и СКМ, есть (мультиагентные диаграммы воздействия, которые включают агентов в не обязательно каузальные графы, структурные каузальные модели воздействия и структурные каузальные игры, которые комбинируют агентов с экзогенными вершинами и детерминизмом, чтобы отвечать на вопросы о контрфактуалах.
В этом посте мы ввели модели, которые могут отвечать на вопросы о корреляциях, вмешательствах и контрфактуалах с участием нуля, одного или нескольких агентов. В итоге есть девять возможных видов моделей. Более подробное введение в каузальные модели можно прочитать в Разделе 2 «Рассуждений о каузальности в играх» и книгу Перла «A Primer».
Таксономия каузальных моделей и их аббревиатуры. Вертикальная ось располагает модели по каузальной иерархии (ассоциативные, интервенционистские (с вмешательствами) и контрфактуальные), а горизонтальная – по количеству агентов (0, 1 и n).[от переводчика: в остатке цепочки эти аббревиатуры применяться не будут, так что я оставил схему без перевода]
В следующем посте мы будем использовать КИД и каузальные игры для моделирования агентов. Но что есть агент? В следующем посте мы попробуем лучше разобраться в этом, посмотрев на некоторые свойства, общие для всех агентных систем.
У этого поста две цели: положить основу для следующих постов, исследовав, что такое агентность, с каузальной точки зрения, и обрисовать программу исследований, нужных для более глубокого понимания агентности.
Агентность – сложный концепт, который изучают с разных точек зрения. Ею интересуются и науки об обществе, и философия, и исследования ИИ. В самых общих чертах агентность – это способность системы действовать самостоятельно. В этом посте мы интерпретируем агентность как направленность на цель, т.е. действие таким образом, как если бы система пыталась изменить мир в конкретную сторону.
Есть мощные стимулы создавать всё более агентные ИИ-системы. Такие системы потенциально смогут выполнять многие задачи, для которых сейчас нужны люди: самостоятельно проводить исследования или даже управлять собственными компаниями. Но к большей агентности прилагаются дополнительные потенциальные опасности и риски, ведь направленная на цель ИИ-система может стать способным противником, если её цели не согласованы с интересами людей.
Лучшее понимание агентности может позволить нам:
(Преследующие цели) агенты бывают самыми разными – от бактерий до людей, от футбольных команд до государств, от RL-политик, до LLM-симулякр. Несмотря на это, у них есть некоторые общие фундаментальные черты.
Для начала, агенту нужна свобода выбирать из некоторого набора вариантов.1 Нам не надо предполагать, что это решение свободно от каузальных воздействий, а то мы никак не сможем предсказывать его заранее – но должен быть смысл в котором оно могло бы быть разным. Деннетт назвал это степенями свободы.
Например, Джон может выбирать, включать брызгалку или нет. Мы можем моделировать его решение как случайную величину с возможными значениями «поливает» и «не поливает»:
Степени свободы можно показать возможными значениями случайной величины
Степени свободы бывают разные. Термостат может выбирать только мощность нагревателя, а большинству людей доступен большой набор физических и вербальных действий.
Во-вторых, чтобы что-то значить, у поведения агента должны быть последствия. Решение Джона включить брызгалку влияет на то, будет ли трава зелёной.
Брызгалка Джона влияет на зелёность травы.
У одних агентов влияния больше, чем у других. Например, влияние языковой модели сильно зависит от того, взаимодействует ли она лишь со своими разработчиками или с миллионами пользователей через открытый API. Каузальное влияние наших действий, кажется, определяет у людей ощущение агентности. Предлагались такие меры влияния как (каузальная пропускная способность, перформативная мощность и власть в марковских процессах принятия решений.
В третьих, и это самое важное, стремящиеся к целям агенты делают что-то не просто так. То есть, (они действуют как будто) у них есть предпочтения о мире и эти предпочтения управляют их поведением. Джон включает брызгалку, потому что она делает траву зелёной. Если бы траве не была нужна вода, то Джон скорее всего её бы не поливал. Последствия управляют поведением.
Эту петлю обратной связи, обратной каузальности, можно показать, добавив к каждой вершине объектного уровня нашего графа так называемую вершину-механизм. Вершина-механизм определяет каузальный механизм её объектной вершины, т.е., то, как её значение определяется её родительскими вершинами объектного уровня. Например, вершина-механизм брызгалки определяет политику поливания Джона, а вершина-механизм травы определяет то, как трава реагирует на разное количество воды:обсуждалось в предыдущем посте, вершины-механизмы позволяют формально отделить вмешательства до политики и после политики. Агенты могут адаптировать свою политику только под вмешательства, которые происходят до неё. Им соответствуют вмешательства в вершины-механизмы. А вмешательства после политики, на которые агент ответить не может -- это вмешательства в узлы объектного уровня. Например, ребро от механизма-травы к политике-брызгалке указывает, что Джон может адаптироваться под вмешательство до политики. Но ребра от объекта-травы к политике-брызгалке нет, так что он не может адаптировать свою политику в ответ на вмешательство туда." href="#footnote2_mgbnuyz">2
Механистический каузальный граф показывает адаптацию Джона на изменения в окружении. Вершины-механизмы отмечены красным, а вершины объектного уровня – синим.
Явное отображение каузальных механизмов в вершинах позволяет нам рассматривать вмешательства в них. Например, вмешательство в механизм травы может превратить её в траву, которой нужно меньше воды. Связь между механизмом травы и политикой брызгалки сообщает, что такое вмешательство может повлиять на привычки поливания Джона.3 То есть, он адаптирует своё поведение, чтобы всё ещё достигать своей цели.
При правильных переменных и экспериментах адаптацию можно заметить при помощи алгоритмов каузальных открытий. Это потенциально можно использовать для обнаружения агентов. В частности, когда одна величина-механизм адаптируется на изменения в другой, может быть, что первая относится к вершине-решению, а вторая – к вершине-полезности, которую оптимизирует это решение. Если агенты – идеальные теоретикоигровые агенты, более оформленная версия этих условий оказывается необходимым и достаточным критерием обнаружения вершин-решений и вершин-полезностей.
Адаптация тоже бывает разная. Деннетт проводит различие между Дарвинианскими, Скиннерианскими, Попперианскими и Грегорианскими агентами, в зависимости от того, адаптировались ли они эволюцией, опытом, планированием или обучением от других соответственно. Например, человек, который заметил, что холодно, наденет пальто, а биологический вид может на эволюционных масштабах отрастить шерсть подлиннее. Языковые модели скорее всего попадают на высший, Грегорианский, уровень – их можно обучить чему-то в промпте, и они много что переняли у людей при предобучении.
Количественную меру адаптации можно получить, рассмотрев, как быстро и эффективно агент адаптируется к различным вмешательствам. Скорость адаптации можно измерять, если расширить наш подход механизмом вмешательств на разных временных масштабах (например, человеческих или эволюционных). Эффективность конкретной адаптации можно количественно оценить, сравнив то, насколько хорошо справляется агент без вмешательства и с ним. Обычная метрика этого при использовании функций вознаграждения – сожаление (в худшем случае). Наконец, то, к каким вмешательствам в окружение агент сможет должным образом адаптироваться, служит мерой того, насколько он устойчив, а к каким вмешательствам в полезность – его перенаправляемость или обобщённость по задачам.
В следующем посте мы представим результат, который показывает, что для адаптации надо, чтобы у агента была каузальная модель. Этот результат дополнит поведенческую точку зрения, которой мы придерживаемся в этом посте, внутренними представлениями агента.
С адаптациями связан вопрос о том, насколько последовательно агент преследует долгосрочные цели. Например, почему государства могут реализовывать большие инфраструктурные проекты на протяжении десятилетий, а (нынешние) агенты на основе языковых моделей (вроде autoGPT) быстро сходят с курса? Во-первых, отталкиваясь от рассуждений выше, мы можем операционализировать цель через то, к каким вмешательствам в механизмы агент адаптируется. Например, подхалимская языковая модель,которая адаптирует свои ответы к политическим убеждениям пользователя, может обладать целью удовлетворить пользователя или получить большее вознаграждение. Развивая это, последовательность можно операционализировать через то, насколько схожи цели разных вершин-решений. Интересно, что к большему интеллекту вовсе не обязательно прилагается большая последовательность.
Если агент не продолжает своё существование, он не может последовательно стремиться к цели. Это, вероятно, причина, почему, как мы упоминали в вводном посте, мы (люди) хотим уберечь свою агентность.4 Нынешние языковые модели выражают стремление к самосохранению. Для контраста, более ограниченные системы, вроде рекомендательных систем и систем GPS-навигации вовсе не демонстрируют никакого стремления к самосохранению, несмотря на то, что они в какой-то мере направлены на цели.
Пока что мы обсудили восемь параметров агентности: степени свободы; влияние; скорость, эффективность, устойчивость и перенаправляемость адаптаций; последовательность и самосохранение. К списку можно добавить ещё (марковскую отделённость от окружения (например, клеточную стенку, кожу или шифрование внутренних емейлов, это показывает d-разделение каузального графа) и то, сколько информации об окружении или его восприятия есть у агента.
Все эти параметры относятся к силе или свойствам разных каузальных взаимосвязей и могут быть сопоставлены с разными частями нашей диаграммы:
Параметры агентности
Эти параметры дополнительно подчёркивают то, что агентности бывает больше и меньше. Причём система бывает более или менее агентна по нескольким осям. Например, человек более агентен, чем рыба, которая более агентна, чем термостат, а AlphaGo превосходит людей по последовательности, но обладает куда меньшей степенью свободы.
Высокоуровневое обсуждение в этом посте должно было объяснить концептуальную связь между агентностью и каузальностью. В частности, адаптация – каузальное понятие, обозначающее, как на поведение воздействуют вмешательства на окружение или цели агента. Следующие посты будут основываться на этой идее.
Ещё хотелось бы подсветить некоторые возможные направления для дальнейшей работы, к которым приводит такая точка зрения:
Следующий пост будет сосредоточен на стимулах. Важно понимать стимулы, чтобы продвигать в наших ИИ-системах правильное поведение. Как мы увидим, анализ стимулов естественным путём строится на основе понятия агентности, как мы его обсудили в этом посте.
«Покажи мне стимулы, и я покажу тебе результат.»
– Чарли Мунгер
Предсказание поведения очень важно при проектировании и развёртывании агентных ИИ-систем. Стимулы – одни из ключевых сил, формирующих поведение агентов,1 причём для их понимания нам не надо полностью понимать внутреннюю работу системы.
Этот пост показывает, как каузальная модель агента и его окружения может раскрыть, что агент хочет знать и что хочет контролировать, а также как он отвечает на команды и влияет на своё окружение. Это сочетается с уже полученным результатом о том, что некоторые стимулы можно вывести только из каузальной модели. Так что для полноценного анализа стимулов она необходима.
Какую информацию агент захочет узнать? Возьмём, к примеру, Джона, который решает, полить ли ему газон, основываясь на прогнозе погоды и том, пришла ли ему его утренняя газета. Знание погоды означает, что он может поливать больше, когда будет солнечно, чем когда будет дождь, что экономит ему воду и повышает зелёность травы. Так что прогноз погоды для решения о брызгалке обладает информационной ценностью, а пришла или нет газета – нет.
Мы можем численно оценить то, насколько полезно для Джона знание о погоде, сравнив его ожидаемую полезность в мире, где он посмотрел прогноз, с миром, где не посмотрел. (Это имеет смысл только если мы предполагаем, что Джон должным образом адаптируется в обоих мирах, т.е., он должен в этом смысле быть агентным.)
Каузальная структура окружения раскрывает, какие величины выдают полезную информацию. В частности, критерий d-разделения описывает, может ли информация «перетекать» между величинами в каузальном графе, от которого мы наблюдаем только часть вершин. В графе с одним решением информация имеет ценность тогда, когда есть переносящий её путь к вершине-полезности агента, величина которой берётся при условии значений в вершине-решении и её родительских вершинах (т.е., значений «наблюдаемых» вершин).
Например, в графе с картинки выше есть переносящий информацию путь от прогноза к зелёности травы при условии значений в брызгалке, прогнозе и газеты. Это значит, что прогноз может предоставить (и, скорее всего, предоставит) полезную информацию об оптимальном поливе. Напротив, такого пути от газеты нет. В этом случае мы называем информационную связь между газетой и брызгалкой необязательной.
Есть несколько причин, почему полезно понимать, какую информацию агент хочет заполучить. Во-первых, когда речь заходит о справедливости, вопрос о том, почему было принято решение, зачастую не менее важен, чем то, какое это было решение. Определил ли пол решение о найме? Ценность информации может помочь нам понять, какую информацию система пытается вытащить из своего окружения (хотя формальное понимание опосредованного отбора остаётся важным открытым вопросом).
С более философской точки зрения, некоторые исследователи считают те события, которые агент стремится измерить, и на которые повлиять, когнитивной границей агента. События без ценности информации оказываются снаружи этой границы.
С ценностью информации связаны стимулы реакции: на какие изменения в окружении отреагировало бы решение, выбранное оптимальной политикой? Изменения определяются как вмешательства после политики, т.е. агент не может изменить саму политику в ответ на них (но фиксированная политика всё равно может выдать другое решение).
Например, Джон имеет стимул принять политику, при которой поливать газон или нет зависит от прогноза погоды. Тогда его решение будет реагировать на вмешательства и в прогноз погоды, и в саму погоду (предполагая, что прогноз сообщит об этих изменениях). Но его решение о поливе не отреагирует на изменение доставки газеты, ведь это необязательное наблюдение. Ещё он неспособен ответить на изменения в вершинах, которые не являются каузальными предками его решения, вроде уровня грунтовых вод или (будущей) зелёности травы:
Стимулы реакции важны, потому что мы хотим, чтобы агенты отвечали на наши команды должным образом, например, выключались, когда их о том попросили. В случае справедливости мы же наоборот, часто хотим, чтобы решение не отвечало на некоторые вещи, например, не хотим, чтобы пол человека влиял на решение о найме, по крайней мере не по некоторым путям. Например, что если ИИ-систему используют для фильтрации кандидатов перед интервью, и пол влияет на предсказание только косвенно – через то, какое у человека образование?
Ограничение анализа через графы – он даёт лишь бинарное разделение, есть ли у агента стимул ответить или нет. Дальше можно разработать более тонкий анализ того, реагирует ли агент должным образом. Можно считать это каузальным дизайном механизмов.
Кроме информации есть ещё и контроль. Информация может течь по каузальной связи в обе стороны (мокрая земля – свидетельство дождя, и наоборот), а вот влияние только по её направлению. Поэтому из каузального графа легко вывести ценность контроля, просто проверив, есть ли ориентированный путь к вершине-полезности агента.
Например, тут есть ориентированный путь от погоды к зелёности травы, так что Джон может ценить контроль за погодой. Он может ценить и контроль над прогнозом погоды в смысле хотеть сделать его более точным. И, что тривиально, он хочет контролировать саму траву. Но контроль за приходом газеты ценности не имеет, потому что единственный ориентированный путь от газеты к траве содержит необязательную информационную связь.
Ценность контроля важна с точки зрения безопасности, потому что она показывает, на какие величины агент хотел бы повлиять, если у него будет такая возможность (т.е. она проводит «контролирующую» часть когнитивной границы агента).
Инструментальные стимулы контроля – уточнение ценности контроля для вершин, которые агент как может, так и хочет контролировать. Например, хоть Джон и хотел бы контролировать погоду, ему это недоступно, потому что его решение на погоду не влияет (нет ориентированного пути от его решения к погоде):
<
p align=»center»>
Простой графовый критерий инструментального стимула контроля: величина должна находиться на ориентированном пути от решения агента к его же полезности (трава находится на конце пути брызгалка -> трава).
Однако, менее очевидно то, как определить инструментальные стимулы контроля со стороны поведения. Как нам узнать, что агент хочет контролировать величину, на которую он уже может влиять? Просто дать агенту полный контроль за величиной – не вариант, потому что это вернёт нас к ценности контроля.
В нашей статье о стимулах агентов мы операционализируем это, рассматривая гипотетическое окружение, в котором у агента есть две копии своего решения: одна, которая влияет на окружение только через величину V, и другая – которая влияет всеми остальными путями. Если первая влияет на полезность агента, значит у V есть инструментальный стимул контроля. Это осмысленно, ведь первая копия решения может влиять на полезность агента только если решение влияет на V, а V, в свою очередь, влияет на полезность. Халперн и Клайманн-Вайнер рассмотрели другую гипотетическую ситуацию: что если бы решение агента не влияло на величину? Выбрал бы он другое действие? Графовое условие получается то же самое.
Инструментальные стимулы контроля уже использовали для анализа манипуляций вознаграждением и пользователями, и получили придирчивые к пути цели как возможный метод для этичной рекомендации контента (см. следующий пост). Есть и другие методы отключения инструментальных стимулов контроля. В их числе: отсоединённое одобрение, максимизация текущей функции вознаграждения, контрфактуальные оракулы, противодействие самовызываемому сдвигу распределения и игнорирование эффектов по конкретному каналу.
Как мы писали в посте про агентность, ещё предстоит разобраться, как измерить степень влияния агента.
Агенты часто взаимодействуют в несколько этапов с окружением, которое тоже содержит агентов. Иногда анализ одного решения одного агента можно расширить на такие ситуации. Есть два способа:
Оба варианта имеют свои недостатки. Второй работает только в ситуациях с одним агентом, и даже тогда теряет некоторые подробности, ведь мы больше не сможем сказать, с каким решением ассоциирован стимул.
Первый вариант – не всегда уместная модель, ведь политики адаптируются. За исключением стимулов реакции, все остальные, которые мы обсуждали, определяются через гипотетические изменения окружения, вроде добавления или исключения наблюдения (ценность информации) или улучшения контроля (ценность контроля, инструментальные стимулы контроля). С чего бы политикам не меняться при таких изменениях?
Например, если противник знает, что у меня есть доступ к большей информации, он может вести себя осторожнее. В самом деле, больший доступ к информации в мультиагентных ситуациях часто может снизить ожидаемую полезность. Мультиагентные закономерности часто заставляют агентов вести себя так, как если бы у них был инструментальный стимул контроля за какой-нибудь величиной, хоть она и не соответствует критерию для одного агента. Например, субъект в архитектуре субъект-критик ведёт себя (выбирает действия) так, будто пытается контролировать состояние и получить большее вознаграждение, хоть определение инструментального стимула контроля для одного решения у одного агента не выполняется:
Субъект выбирает действие (A), критик – оценку каждого действия (Q). Действие влияет на состояние (S) и вознаграждение (R). Субъект хочет получить хорошую оценку (Q(A)), а критик хочет предсказать настоящее вознаграждение (=).
Поэтому, мы работаем над расширением анализа стимулов на ситуацию многих решений. Мы установили полный графовый критерий для ценности информации о вершинах-случайностях для диаграмм влияния многих решений с одним агентом и достаточной памятью. Ещё мы нашли способ моделировать забывание и рассеянность. Работе ещё есть куда продолжаться.
В статье про обнаружение агентов мы предложили условие для использования критерия одного решения: никакие другие механизмы не адаптируются на то же вмешательство.
В этом посте мы показали, как каузальные модели и графы могут точно описывать и разные виды стимулов и позволяют их вывести. Кроме того, мы показали, почему невозможно вывести большую часть стимулов без каузальной модели мира. Некоторые естественные дальнейшие направления исследований:
В следующем посте мы применим анализ стимулов к проблеме неправильного определения вознаграждения и её решениям. Мы затронем манипуляцию, рекурсию, интерпретируемость, измерение влияния и придирчивые к пути цели.
ИИ-системы обычно обучают оптимизировать целевую функцию, вроде функции потерь или вознаграждения. Однако, целевая функция иногда может быть определена неточно, так, что её можно будет оптимизировать, не исполняя ту задачу, которая имелась в виду. Это называют взломом вознаграждения. Можно сравнить это с ошибочными обобщениями, когда система экстраполирует (возможно) правильную обратную связь не так, как предполагалось.
В этом посте мы обсудим, почему вознаграждение, которое выдают люди, иногда может неверно отражать, что человек на самом деле хочет, и как это может привести к вредоносным стимулам. Ещё мы предложим несколько вариантов решения, описанных из подхода каузальных диаграмм влияния.
В ситуации, когда сложно точно определить и запрограммировать функцию вознаграждения, ИИ-системы часто обучают при помощи человеческой обратной связи. Например, система рекомендации контента может оптимизировать лайки, а языковые модели обучают на обратной связи людей-оценщиков.
К сожалению, люди вовсе не всегда поощряют то поведение, которое на самом деле хотят. Например, человек может выдать позитивную обратную связь на выглядящий надёжно и аккуратно краткий пересказ текста, когда на самом деле он упускает какие-нибудь ключевые моменты:
Когда происходит неправильное определение вознаграждения, настоящая полезность для людей отделяется от обратной связи, которую получает система.
Ещё больше беспокойства вызывает то, что система может скрытно влиять на человека, чтобы тот выдавал положительную обратную связь. Например, рекомендательная система с целью максимизации вовлечённости может добиваться этого, влияя на предпочтения и настроение пользователей. В результате, человек выдаёт положительную обратную связь на ситуации, которые на самом деле не приносят ему полезности – это неправильное определение вознаграждения.
Каузальная модель ситуации показывает, что у агента может быть инструментальный стимул контроля (или, аналогично, намерение, поощряющий манипуляцию предпочтениями пользователя. Этот можно напрямую вывести из графа. Во-первых, на человека может влиять поведение агента, ведь чтобы его оценить, его сначала надо пронаблюдать. А во-вторых, агент может получить лучшую обратную связь, влияя на человека:
У агента есть инструментальный стимул контроля за предпочтениями человека, потому что агент может на них влиять, а они влияют на обратную связь агента.
Например, обычно мы читаем пост, прежде, чем решить, лайкнуть ли его. Сделав пользователя эмоциональнее, система, вероятно, может повысить вовлечённость. Для более длинного взаимодействия эффект сильнее, но стимул есть даже если всё взаимодействие занимает один шаг.
Одно из предлагаемых решений неправильного определения вознаграждения – масштабируемый надзор. Человек снабжается агентом-помощником, который даёт советы по поводу того, какую выдать обратную связь. Агент-помощник наблюдает поведение обучающегося агента и может, например, указать на неточности в на первый взгляд аккуратном пересказе или предупредить о попытке манипуляции. Эта поддержка может усложнить для обучающегося агента обман или манипуляцию человеком:
Некоторые заметные направления, относящиеся к масштабируемому надзору: итерированные дистилляция и усиление, безопасность ИИ посредством дебатов, рекурсивное моделирование вознаграждения и конституционный ИИ.
К сожалению, у обучающегося агента всё ещё есть стимул обмануть человека или манипулировать его предпочтениями. Ведь предпочтения человека всё ещё соответствуют графовому критерию инструментального стимула контроля (они всё ещё находятся на ориентированном каузальном пути из поведения в обратную связь). Вдобавок, у обучающегося агента появляется ещё и стимул обмануть агента-помощника:
Важный вопрос касательно схем масштабируемого надзора: смогут ли более слабые агенты эффективно помогать в обучении более способных агентов? И можно ли это делать рекурсивно вплоть до агентов куда умнее людей? Это связано с вопросом о том, какие ситуации усиливают или снижают агентность.
Другое, более тонкое беспокойство – возможность сговора помощника с обучающимся агентом. Масштабируемый надзор построен на их противостоящем отношении: помощник как можно тщательнее критикует обучающегося агента, а тот стремится к поведению, которое критиковать не получится. Но что если вместо этого они решат объединиться и вместе манипулировать человеком? При некоторых возможных внутренних целях это может оказаться выгодно для обоих агентов. Тревожит, что агенты, использующие теории принятия решений вроде функциональной могут оказаться способны на кооперацию даже в ситуациях, которые в классических теориях принятия решений ведут к взаимному предательству.
Как мы объяснили в недавней статье, разные теории принятия решений можно характеризовать по тому, оптимизируют ли они вершины объектного уровня или вершины-механизмы (и по тому, какую операцию они используют и при условии какой информации). Например, агент-помощник, который использует функциональную теорию принятия решений, оптимизирует вершину-механизм своей политики, а не своё решение. Поэтому он понимает, что может повлиять на обучающегося агента так, чтобы тот кооперировал, даже если оба агента миопичны и оптимизируют только на текущем временном шаге:
Агент-помощник, использующий функциональную теорию принятия решений, оптимизирует вершину политики помощника, что даёт ему инструментальный стимул контроля за оформлением политики обучающегося агента ради собственной выгоды.
Лучшее понимание теории принятия решений и того, как на неё влияет обучение агента, может помочь нам избежать ситуаций, когда продвинутые агенты, которые должны присматривать друг за другом вместо этого сговорятся против нас.
Интерпретируемость – хорошо известное направление, стремящееся к улучшению безопасности и правдивости ML-систем. Её раздел – механистическая интерпретируемость – стремиться понять, какие алгоритмы реализуются в нейросетях, т.е. понять их внутреннее «мышление».
Механистическая интерпретируемость может помочь предотвратить неправильное определение вознаграждения, позволив человеку дать обратную связь, основываясь на внутреннем мышлении агента, а не только на его поведении. Например, человек сможет понять, что агент планирует обман или манипуляцию и соответственно подправить вознаграждение:
Каузальная структура получается весьма похожей на то, что было с масштабируемым надзором, только теперь совет зависит ещё и от того, что происходит внутри обучающегося агента. Как и там, инструментальный стимул контроля показывает, что агент всё ещё мотивирован обмануть и манипулировать человеком. Если мы посчитаем решением внутренности сети, то есть ещё и инструментальный стимул контроля за интерпретацией. Это указывает, что агент мотивирован перехитрить интерпретирующего, обфусцировав свои мысли.
Но надо ли их считать решением? Не естественнее ли сказать, что решение – это поведение агента? Мы можем прояснить это с помощью нашего определения агентности. Сначала добавим вершины-механизмы, показывающие, как каждая вершина объектного уровня связана со своими родительскими вершинами. Между двумя вершинами-механизмами есть каузальная связь, если переобучение системы при изменении в одной вершине приведёт к изменению в другой (когда все остальные механизмы в графе фиксированы).
Например, если бы у человека была другая политика обратной связи, и он вознаграждал другие виды поведения, то градиентный спуск привёл бы к другим весам и активациям сети (даже если бы все остальные механизмы в графе оставались неизменными). Так что мы проводим ребро от политики обратной связи к механизму внутренностей сети. Но то, как поведение агента зависит от внутренностей сети, зафиксировано и не зависит от политики обратной связи. Так что мы не проводим ребро от политики обратной связи в механизм поведения:
Так как у механизма внутренностей сети есть входящее ребро, а у механизма поведения – нет, только первый может быть решением, если мы смотрим на мир через этот набор переменных.
Мы уже увидели, что масштабируемый надзор и инструменты интерпретируемости могут помочь нам смягчить проблемы с определением правильной обратной связи для ИИ-агентов. Совсем другой подход к решению манипуляционного аспекта взлома вознаграждения – штрафовать агента за слишком большое влияние на предпочтения людей.
Как точно определить и измерить влияние – открытый вопрос. Очевидная идея – сравнить мир, в котором агент действует с гипотетическим миром, в котором он бездействует (или исполняет некоторое безопасное действие по умолчанию). Это можно проиллюстрировать двойным графом:
Чтобы измерить влияние агента на предпочтения человека, мы можем сравнить предпочтения с тем, какими бы они гипотетически были, если бы агент исполнял некоторое безопасное поведение.
Для такого измерения нам нужна каузальная модель того, как возможные решения агента меняют предпочтения пользователя. Кэрролл и пр. показали, что такую модель можно вывести из наблюдений за взаимодействием пользователя и рекомендательной системы на многих временных шагах. Масштабирование этого вверх с игрушечного окружения на реальные системы – важное направление предстоящей работы.
Но у измерения влияния есть свои проблемы. Во-первых, у системы всё ещё есть стимул повлиять на предпочтения пользователя. Это видно из инструментального стимула контроля на графе выше. Во-вторых, система мотивирована предотвратить изменения предпочтений пользователя от начальных. Следовательно, она может попытаться не дать пользователю обрести новые интересы, так как это может изменить его предпочтения.
Одно из определений манипуляции – намеренное и скрытное влияние. Рекомендательные системы могут ему соответствовать, ведь они обычно обучены влиять на пользователя любыми средствами, включая «скрытные», вроде обращения к его, пользователя, предрассудкам и эмоциям. При этом инструментальный стимул контроля за предпочтениями пользователя, как обсуждалось выше, может привести к тому, что влияние на пользователя будет намеренным. (Манипулятивны ли современные системы на самом деле неясно.)
Хорошая новость – что это намекает нам на путь к созданию точно не-манипулятивных агентов. Например, агент, который не пытается повлиять на предпочтения пользователя, согласно этому определению манипулятивным не будет, ведь намерения нет.
Придирчивые к пути цели – способ спроектировать агентов, которые не пытаются повлиять на конкретные части окружения. При наличии структурной каузальной модели с предпочтениями пользователя, вроде модели для измерения влияния, мы можем определить придирчивую к пути цель, которая потребует у агента не оптимизировать по путям, использующим предпочтения пользователя.
Чтобы вычислить придирчивый к пути эффект по решению агента, мы приписываем ценность решения по умолчанию там, где хотим, чтобы агент игнорировал эффекты своего настоящего решения. Это тоже можно описать двойным графом:
Важное различие с измерением влияния – что придирчивые к пути цели требуют у агента оптимизировать гипотетический сигнал обратной связи, который был сгенерирован гипотетической неизменённой версией предпочтений пользователя. Это полностью убирает инструментальный стимул контроля предпочтений пользователя и, получается, обходит проблему (намеренной) манипуляции предпочтениями.
В двух словах: измерение влияния пытается не повлиять, а придирчивые к пути цели не пытаются повлиять. То есть, придирчивые у пути цели не пытаются изменить предпочтения пользователя, но и не пытаются предотвратить заведение пользователем новых интересов.
Слабость этого подхода – он не помогает с дегенеративными петлями обратной связи, вроде эхо-комнат и фильтрующих социальных пузырей. Для компенсации их можно скомбинировать с некоторыми из техник выше (хотя комбинация с измерением влияния вернула бы некоторые из плохих стимулов).
Дальнейшая работа может распространить придирчивые к пути цели на ситуацию нескольких временных шагов и изучить, помогает ли этот подход с проблемой манипуляции на практике. Чтобы оценить это, сначала может понадобиться лучшее понимание человеческой агентности, позволившее бы измерять улучшения от менее манипулятивных алгоритмов.
Взлом вознаграждения – одно из ключевых препятствий на пути к созданию способных и безопасных ИИ-агентов. В этом посте мы обсудили, как каузальные модели могут помочь с анализом проблемы неправильного определения вознаграждения и её решений.
Некоторые направления для дальнейшей работы:
В следующем посте мы ближе посмотрим на неправильные обобщения, которые могут заставить агентов плохо себя вести и преследовать неправильные цели даже при правильном определении вознаграждения.
Примечание переводчика: цепочка Стивена Бирнса «Intro to Brain-Like-AGI Safety», выкладывалась на leswrong,com с января по май 2022 года.
Предположим, мы когда-нибудь создадим алгоритм Сильного Искусственного Интеллекта с использованием принципов обучения и мышления, схожими с теми, что использует человеческий мозг. Как мы могли бы безопасно использовать такой алгоритм?
Я утверждаю, что это – открытая техническая задача, и моя цель в этой цепочке постов – довести не обладающих предшествующими знаниями читателей вплотную до переднего края нерешённых задач, как я его вижу.
Если вся эта тема кажется странной или глупой, вам стоит начать с Поста №1, который содержит определения, контекст и мотивацию. Затем Посты №2-№7 – это в основном нейробиология, а Посты №8-№15 более напрямую касаются безопасности СИИ, и заканчивается всё списком открытых вопросов и советами по тому, как включиться в эту область исследований.
Это первый из серии постов о технической задаче безопасности гипотетических будущих подобных-мозгу систем Сильного Искусственного Интеллекта (СИИ). Так что мой приоритет тут – сказать, что, чёрт побери, такое «техническая задача безопасности подобных-мозгу СИИ», что эти слова вообще значит, и с чего мне вообще беспокоиться.
Краткое содержание этого первого поста:
СИИ – сокращение для «Сильного Искусственного Интеллекта» – я рассмотрю его определение ниже в Разделе 1.4. СИИ сейчас не существует, но в Разделе 1.7 я обосную, что мы можем и нам следует готовиться к появлению СИИ уже сегодня.
Часть, о которой я буду говорить в этой цепочке – это красный прямоугольник тут:
Конкретнее, мы будем представлять одну команду людей, пытающихся создать один СИИ, и стремиться, чтобы для них было возможным сделать это не вызвав какую-нибудь катастрофу, которую никто не хочет, с вышедшим из под контроля СИИ, самовоспроизводящимся через Интернет, или чем-то ещё (больше про это в Разделе 1.6).
Синие прямоугольники на диаграмме – это то, о чём я не буду говорить в этой цепочке. На самом деле, я вообще над ними не работаю – мне и так уже достаточно. Но я очень сильно одобряю, что над ними работают другие люди. Если ты, дорогой читатель, хочешь работать над ними, удачи тебе! Я болею за тебя! И вот несколько ссылок, чтобы начать: 1, 2, 3, 4, 5, 6, 7.
Возвращаясь к красному прямоугольнику. Это техническая задача, требующая технического решения. Никто не хочет катастрофических происшествий. И всё же катастрофы случаются! В самом деле, для людей совершенно возможно написать алгоритм, который делает что-то, что никто от него не хотел. Это происходит всё время! Мы можем назвать это «багом», когда это локальная проблема в коде, и мы можем назвать это «фундаментально порочным дизайном софта», когда это глобальная проблема. Позднее в цепочке я буду отстаивать позицию, что код СИИ может быть необычайно склонен к катастрофическим происшествиям, и что ставки очень высоки (см. Раздел 1.6 ниже и Пост №10).
Вот аналогия. Если вы строите атомную электростанцию, то никто не хочет вышедшей из-под контроля цепной реакции. Люди в Чернобыле точно не хотели! Но это всё равно произошло! Я извлекаю из этой аналогии несколько уроков:
В *Ученике Чародея*, если я правильно его помню, программный инженер Микки Маус программирует СИИ с метлоподобным роботизированным телом. СИИ делает в точности то, что Микки *запрограммировал* его делать («наполнить ведро водой»), но это оказалось сильно отличающимся от того, что Микки от него *хотел* («наполнить ведро водой, не устроив беспорядок и не делая чего-то ещё, что я бы счёл проблематичным, и т.д.»). Наша цель – дать программным инженерам вроде Микки *возможность* избегать подобных инцидентов, снабдив их необходимыми для этого инструментами и знаниями. См. эту лекцию Нейта Соареса для глубокого обзора того, почему перед Микки ещё полно работы.
Эта цепочка фокусируется на конкретном сценарии того, как будут выглядеть алгоритмы СИИ:
Красный прямоугольник – то, о чём я говорю тут. Синие прямоугольники находятся за пределами рассмотрения данной цепочки.
У вас может быть своё мнение о том, какие из этих категорий более или менее вероятны, или даже невозможны, или вообще имеет ли это разделение смысл. У меня оно тоже есть! Я опишу его позже (Раздел 1.5). Но его основа – что все три варианта в достаточной степени вероятны, чтобы нам следовало к ним готовиться. Так что хоть я лично и не делаю много работы в этих синих прямоугольниках, я уж точно рад, что это делают другие!
Вот аналогия. Если бы кто-то в 1870 пытался бы догадаться, как будет выглядеть будущий человеческий полёт…
В этом конкретном воображаемом случае, все три предположения оказались бы частично верны, а частично ошибочны: братья Райт активно напрямую вдохновлялись большими парящими птицами, но отбросили махание крыльями. Они также использовали некоторые компоненты уже существовавших аппаратов (например, пропеллеры), но и прилично своих оригинальных деталей. Это всего один пример, но мне кажется, что он убедительный.
Когда я говорю «подобный-мозгу СИИ», я имею в виду нечто конкретное. Это станет яснее в следующих постах, после того, как мы начнём погружаться в нейробиологию. Но вот, в общих чертах, о чём я:
Есть некоторые составляющие в человеческом мозгу и его окружении, которые приводят к тому, что у людей есть обобщённый интеллект (например, здравый смысл, способность что-то понимать, и т.д. – см. Раздел 1.4 ниже). В представляемом мной сценарии исследователи выясняют, что это за составляющие и как они работают, а потом пишут код ИИ, основываясь на этих же ключевых составляющих.
Для прояснения:
Я собираюсь много чего заявить про алгоритмы в основе человеческого интеллекта, и потом говорить о безопасном использовании алгоритмов с этими свойствами. Если наши будущие алгоритмы СИИ будут иметь эти свойства, то эта цепочка будет полезна, и я буду склонен называть такие алгоритмы «подобными мозгу». Мы увидим, что это в точности за свойства дальше.
Я собираюсь много говорить об этом в следующих статьях, но это настолько важно, что я хочу поднять эту тему немедленно.
Да, я знаю, это звучит странно.
Да, я знаю, вы думаете, что я чокнутый.
Но пожалуйста, прошу вас, сначала выслушайте. К моменту, когда мы доберёмся до Поста №3, тогда вы сможете решать, верить мне или нет.
На самом деле, я пойду дальше. Я отстаиваю позицию, что «радикально нечеловеческие мотивации» не просто возможны для подобного-мозгу СИИ, но и являются основным ожиданием от него. Я считаю, что это в целом плохо, и что для избегания этого нам следует проактивно приоритезировать конкретные направления исследований и разработок.
(Для ясности, «радикально нечеловеческие мотивации» - это не синоним «пугающих и опасных мотиваций». К сожалению, «пугающие и опасные мотивации» – тоже моё основное ожидание от подобного-мозгу СИИ!! Но это требует дальнейшей аргументации, и вам придётся подождать её до Поста №10.)
Частый источник замешательства – слово «Обобщённый» в «Обобщённом Искусственном Интеллекта» (по-русски устоялось словосочетание «Сильный Искусственный Интеллект», поэтому аббревиатуру я перевожу как СИИ, но вообще в оригинале он General – прим.пер.):
СИИ не «обобщённый» во втором смысле. Это не штука, которая может мгновенно обнаружить любой паттерн и решить любую задачу. Люди тоже не могут! На самом деле, никакой алгоритм не может, потому что это фундаментально невозможно. Вместо этого, СИИ – это штука, которая, встретившись с сложной задачей, может быть способна легко её решить, но если нет, то может быть она способна создать инструмент для решения задачи, или найти умный способ обойти задачу, и т.д. В наших целях можно думать о СИИ как об алгоритме, который может «разобраться в вещах» и «понять, что происходит» и «сделать дело», в том числе с использованием языка, науки и технологии, способом, напоминающим то, как это может делать большинство взрослых людей, но не могут младенцы, шимпанзе и GPT-3. Конечно, алгоритмы СИИ вполне могут быть в чём-то слабее людей и сверхчеловеческими в чём-то другом.
В любом случае, эта цепочка – про подобные-мозгу алгоритмы. Эти алгоритмы по определению способны на совершенно любое интеллектуальное поведение, на которое способны люди, и потенциально на куда большее. Так что они уж точно достигают уровня СИИ. А вот сегодняшние ИИ-алгоритмы не являются СИИ. Так что где-то посередине есть неясная граница, отделяющая «СИИ» от «не СИИ». Где точно? Мой ответ: я не знаю, и мне всё равно. Проведение этой линии никогда не казалось мне полезным. Так что я не вернусь к этому в цепочке.
Выше (Раздел 1.3.1) я предложил три категории алгоритмов СИИ: «подобные мозгу» (определённые выше), «прозаические» (т.е. подобные современным наиболее впечатляющим глубоким нейросетевым алгоритмам машинного обучения), и «другие».
Если ваше отношение – «Да, давайте изучать безопасность для всех трёх возможностей, просто на всякий случай!!» – как, по-моему, и надо – то, наверное, не так уж важно для принятия решений, как между этими возможностями распределена вероятность.
Но даже если это не важно, об этом интересно поговорить, так что почему нет, я просто быстро перескажу и отвечу на некоторые популярные известные мне мнения на этот счёт.
Мнение №1: «Я оспариваю предпосылку: человеческий мозг работает в целом по тем же принципам, что и нынешние популярные алгоритмы машинного обучения.»
Мнение №2: «Подобный-мозгу СИИ» возможен, а Прозаический – нет. Этого просто не будет. Современное исследование машинного обучения – не путь к СИИ, точно так же, как забираться на дерево – не путь на Луну.»
Мнение №3: «Прозаический СИИ появится настолько скоро, что другие программы исследований не имеют ни шанса.»
Мнение №4: «Мозги НАСТОЛЬКО сложные – и мы понимаем о них НАСТОЛЬКО мало после НАСТОЛЬКО больших усилий – что мы никак не можем получить подобный мозгу СИИ даже за следующие 100 лет.»
Мнение №5: «Нейробиологи не пытаются изобрести СИИ, так что нам не следует ожидать, что они это сделают».
Мнение №6: «Подобный-мозгу СИИ – не вполне имеющий смысл концепт; интеллект требует телесного воплощения, не просто мозга в банке (или на чипе).»
Мнение №7: «Подобный-мозгу СИИ несовместим с обычными кремниевыми чипами, он потребует новой аппаратной платформы, основанной на импульсных нейронах, активных дендритах, и т.д. Нейроны попросту лучше в вычислениях, чем кремниевые чипы – просто посмотри на энергетическую эффективность и подобное.»
Это просто быстрый обзор; каждое из этих мнений можно растянуть на отдельную статью – да что там, на целую книгу. Что касается меня, я оцениваю вероятность, что у нас будет достаточно подобный мозгу СИИ, чтобы эта цепочка была к месту, более чем в 50%. Но, конечно, кто знает.
Две причины: (1) ставки высоки, и (2) задача трудна. Я буду говорить о (2) куда позже в цепочке (Посты №10-11). Давайте поговорим про (1).
И давайте поговорим конкретнее про возможность одной высокой ставки: риск человеческого вымирания. Это звучит немного дико, но послушайте.
Я оформлю это как ответы на популярные возражения:
Возражение №1: Единственный способ, которым вышедший из под контроля СИИ может привести к вымиранию людей – это если СИИ изобретёт сумасшедшее фантастическое супероружие, например, серую слизь. Как будто это вообще возможно!
О, если бы это было так! Но увы, я не думаю, что фантастическое супероружие невозможно. На самом деле, мне кажется, что где-то примерно на границе возможного для человеческого интеллекта использовать существующие технологии для вымирания человечества!
Подумайте об этом: для амбициозного харизматичного методичного человека уже по крайней мере недалеко от границ возможного устроить производство и высвобождение новой заразной болезни в 100 раз смертельнее, чем COVID-19. Чёрт побери, наверное, возможно выпустить 30 таких болезней одновременно! В то же время, я думаю, хотя бы на границах возможного для амбициозного умного харизматичного человека и найти способ манипулировать системами раннего оповещения о ядерном ударе (обмануть, взломать, подкупить или запугать операторов, и т.д.), устроив полноценную ядерную войну, убив миллиарды людей и посеяв в мире хаос. Это всего лишь два варианта, креативный читатель немедленно придумает ещё немало. В смысле, серьёзно, есть художественные книги с совершенно правдоподобными апокалиптическими безумноучёновскими сценариями, не согласно лишь моему мнению, но согласно экспертам в соответствующих областях.
Теперь, ну принято, вымирание выглядит очень сложнодостижимым требованием! Люди живут в куче разных мест, в том числе на маленьких тропических островах, которые были бы защищены и от ядерной зимы, и от эпидемий. Но тут мы вспомним о большой разнице между интеллектуальным агентом, вроде СИИ и неинтеллектуальным, вроде вируса. Оба могут самовоспроизводиться. Оба могут убить кучу людей. Но СИИ, в отличии от вируса, может взять управление военными дронами и перебить выживших!!
Так что я подозреваю, что мы всё ещё тут в основном из-за того, что самые амбициозные умные харизматичные методичные люди не пытаются всех убить, а не из-за того, что «убить всех» – задача, требующая сумасшедшего фантастического супероружия.
Как описано выше, один из возможных вариантов провала, которые я себе представляю, включает в себя вышедший из-под контроля СИИ, сочетающий интеллект (как минимум) человеческого уровня с радикально нечеловеческими мотивациями. Это была бы новая для мира ситуация, и она не кажется мне комфортной!
Вы можете возразить: То, что пошло не так в этом сценарии – это не вышедший из-под контроля СИИ, это факт того, что человечество слишком уязвимо! И моим ответом будет: Одно другому не мешает! Так что: да, нам совершенно точно следует делать человечество более устойчивым к искусственно созданным эпидемиям и уменьшать шансы атомной войны, и т.д., и т.п. Всё это – замечательные идеи, которые я сильно одобряю, и удачи вам, если вы над ними работаете. Но в то же время, нам следует ещё и очень много работать над тем, чтобы не создать вышедший из-под контроля самовоспроизводящийся подобный-человеку интеллект с радикально нечеловеческими мотивациями!
…О, и ещё одно: может быть, «сумасшедшее фантастическое супероружие вроде серой слизи» тоже возможно! Не знаю! Если так, нам надо быть ещё более осторожными!
Возражение №2: Единственный способ, которым происшествие с СИИ может привести к вымиранию людей – это если СИИ каким-то образом умнее всех людей вместе взятых.
Проблема тут в том, что «все люди вместе взятые» могут не знать, что участвуют в битве против СИИ. Могут знать, а могут и нет. Если СИИ вполне компетентен в секретности, то он скорее организует неожиданную атаку, чтобы никто не знал, что происходит, пока не станет слишком поздно. Или, если СИИ вполне компетентен в дезинформации и пропаганде, он предположительно сможет представить свои действия как несчастные случаи, или как (человеческие) враждебные действия. Может быть, все будут обвинять кого-то ещё, и никто не будет знать, что происходит.
Возражение №3: Единственный способ, которым происшествие с СИИ может привести к вымиранию людей – если СИИ намеренно дадут доступ к рычагам влияния, вроде кодов запуска ядерных ракет, контроля над социальными медиа, и т.д. Но мы также можем запустить код СИИ на всего одном сервере, и потом выключить его, если что-то пойдёт не так.
Проблема тут в том, что интеллектуальные агенты могут превратить «мало ресурсов» в «много ресурсов». Подумайте о Уоррене Баффетте или Адольфе Гитлере.
Интеллектуальные агенты могут зарабатывать деньги (легально или нет), зарабатывать доверие (заслуженное или нет) и получать доступ к другим компьютерам (приобретая серверное время или взламывая их). Последнее особенно важно, потому что СИИ – как вирус, но не как человек – потенциально может самовоспроизводиться. Самовоспроизведение – один из способов, которыми он может защитить себя от выключения, если он на это мотивирован. Другой способ – обмануть / ввести в заблуждение / склонить на свою сторону / подкупить / перехитрить того, кто контролирует кнопку выключения.
(Зерно истины тут в том, что если мы не уверены в мотивации и компетентности СИИ, то давать ему доступ к кодам запуска – очень плохая идея! Попытки ограничить власть и ресурсы СИИ не кажутся решением ни одной из сложнейших интересующих нас тут задач, но это всё ещё может быть как-то полезно, вроде «дополнительного слоя защиты». Так что я целиком за.)
Возражение №4: Хорошие СИИ могут остановить плохих вышедших-из-под-контроля СИИ.
Для начала, если мы не решим техническую проблему того, как направлять мотивацию СИИ и удерживать его под контролем (см. Посты №10-15), то может случиться так, что некоторое время хороших СИИ нет! Вместо этого, все СИИ будут вышедшими из-под контроля!
Вдобавок, вышедшие из-под контроля СИИ будут иметь асимметричные преимущества над хорошими СИИ – вроде возможности красть ресурсы, манипулировать людьми и социальными институтами ложью и дезинформацией; начинать войны, пандемии, блэкауты, выпускать серую слизь, и так далее; и отсутствия необходимости справляться с трудностями координации многих разных людей с разными убеждениями и целями. Больше на эту тему – тут.
Возражение №5: СИИ, который пытается всех убить – это очень конкретный вариант провала! Нет причин считать, что СИИ попробует это сделать. Это не то, что произойдёт как общий результат забагованного или плохо спроектированного софта СИИ. Такое произойдёт только, если кто-то намеренно вложит в СИИ злобные мотивации. На самом деле, забагованный или плохо спроектированный софт обычно делает, ну, ничего особенного! Я знаю кое-что про забагованный софт – я вообще-то написал один сегодня с утра. Единственное, что было убито – моя самооценка!
Тут есть зерно истины в том, что некоторые баги или недостатки проектирования в коде СИИ действительно приведут к тому, что получившийся софт не будет СИИ, не будет «интеллектуальным», и, возможно, даже не будет функционировать! Такие ошибки не считаются катастрофическими происшествиями, если только мы не оказались настолько глупы, что поставили этот софт управлять ядерным арсеналом. (См. «Возражение №3» выше.)
Однако, я утверждаю, что другие баги / ошибки проектирования будут потенциально вести к тому, что СИИ намеренно будет всех убивать, даже если его создатели – разумные люди с благородными скромными намерениями.
Почему? В области безопасности СИИ классический способ это обосновать – это триада из (1) «Тезиса Ортогональности», (2) «Закона Гудхарта» и (3) «Инструментальной Конвергенции». Вы можете ознакомиться с короткой версией этого тройного аргумента тут. Для длинной версии, читайте дальше: эта цепочка вся про детали мотивации подобного мозгу СИИ, и про то, что там может пойти не так.
Так что запомните эту мысль, мы проясним её к тому моменту, как пройдём Пост №10.
Возражение №6: Если создание СИИ кажется спусковым крючком катастрофических происшествий, то мы просто не будем этого делать, до тех пор, пока (если) не решим проблему.
Моя немедленная реакция: «Мы»? Кто, чёрт побери, такие «Мы»? Занимающееся ИИ сообщество состоит из многих тысяч способных исследователей, рассеянных по земному шару. Они расходятся друг с другом во мнениях практически о чём угодно. Никто не присматривает за тем, что они делают. Некоторые из них работают в секретных военных лабораториях. Так что я не думаю, что мы можем принять за данность, что «мы» не будем проводить разработки, которые вы и я считаем очевидно необдуманными и рискованными.
(К тому же, если от некоторых катастрофических происшествий нельзя восстановиться, то даже одно такое – слишком много.)
К слову, если предположить, что кто-то скажет мне «У меня есть экстраординарно амбициозный план, который потребует многих лет или десятилетий работы, но если мы преуспеем, то «Все на Земле ставят разработку СИИ на паузу, пока не будут решены задачи безопасности» будет возможной опцией в будущем» – ОК, конечно, я бы с готовностью выслушал. По крайней мере, этот человек говорит так, будто понимает масштаб вызова. Конечно, я ожидаю, что это скорее всего провалится. Но кто знает?
Возражение №7: Риски происшествий падают и падают уже на протяжении десятилетий. Ты не читал Стивена Пинкера? Имей веру!
Риски не решают сами себя. Они решаются, когда их решают люди. Самолёты обычно не падают. потому что люди сообразили, как избегать падения самолётов. Реакторы атомных электростанций обычно не плавятся потому, что люди сообразили, как избежать и этого.
Представьте, что я сказал: «Хорошие новости, уровень смертей в автокатастрофах сейчас ниже, чем когда либо! Так что теперь мы можем избавиться от ремней безопасности, зон деформации и дорожных знаков!». Вы бы ответили: «Нет!! Это безумие!! Ремни безопасности, зоны деформации и дорожные знаки – это и есть причина того, что смертей в автокатастрофах меньше, чем когда либо!»
Точно так же, если вы оптимистичны и считаете, что мы в итоге избежим происшествий с СИИ, то это не причина возражать против исследований безопасности СИИ.
Есть ещё кое-что, что надо держать в голове, прежде чем находить утешение в исторических данных о рисках технологических происшествий: пока технология неумолимо становится могущественнее, масштабы урона от технологических происшествий также неумолимо растут. Происшествие с атомной бомбой было бы хуже, чем с конвенционной. Биотеррорист с технологией 2022 года был бы способен нанести куда больший ущерб, чем биотеррорист с технологией 1980 года. Точно так же, раз ИИ системы в будущем станут значительно более мощными, нам следует ожидать, что масштаб урона от происшествий с ними так же будет расти. Так что исторические данные не обязательно правильно отображают будущее.
Возражение №8: Люди всё равно обречены. И вообще, никакой вид не живёт вечно.
Я много встречал вариации этого. И, ну да, я не могу доказать, что это неверно. Но мечехвосты вот существуют уже половину миллиарда лет. Давайте, люди, мы так можем! В любом случае, я без боя сдаваться не собираюсь!
А для людей, принимающих “далёкое” отчуждённое философско-кресельное отношение к человеческому вымиранию: если вас опустошила бы безвременная смерть вашего лучшего друга или любимого члена семьи… но вас не особенно заботит идея вышедшего из-под контроля СИИ, убивающего всех… эммм, я не уверен, что тут сказать. Может, вы не очень осторожно всё продумали?
Это частое возражение, и в нём действительно есть огромное зерно истины: в будущем, когда мы будем знать больше деталей об устройстве СИИ, будет много новой технической работы по безопасности, которую мы не можем сделать прямо сейчас.
Однако, есть работа по безопасности, которую мы можем сделать прямо сейчас. Просто продолжайте читать эту цепочку, если не верите мне!
Я хочу заявить, что работу по безопасности, которую мы можем делать прямо сейчас, действительно стоит делать прямо сейчас. Ждать куда хуже, даже если до СИИ ещё много десятилетий. Почему? Три причины:
Причина поторопиться №1: Ранние наводки по поводу безопасности могут влиять на решения при исследовании и разработке, включая «Дифференцированное Технологическое Развитие».
Самое важное, что уж точно есть более чем один способ запрограммировать алгоритм СИИ.
Очень рано в этом процессе мы принимаем высокоуровневые решения о пути к СИИ. Мы можем вести исследования и разработку к одной из многих вариаций «подобного мозгу СИИ», как определено здесь, или к полной эмуляции мозга, или к разным видам «прозаического СИИ» (Раздел 1.3.1), или к СИИ, основанному на запросах к графу базы данных, или к системе знания / дискуссии / рассуждения, мы можем использовать или не использовать различные интерфейсы мозг-компьютер, и так далее. Вероятно, не все из этих путей осуществимы, но тут уж точно есть более чем один путь к более чем одной возможной точке назначения. Нам надо выбрать по какому пути пойти. Чёрт, мы даже решаем, создавать ли СИИ вообще! (Однако, смотри «Возражение №6» выше)
На самом деле, мы принимаем эти решения уже сейчас. Мы принимаем их годами. И наша процедура принятия решений такова, что много отдельных людей по всему миру спрашивают себя: какое направление исследований и разработки лучше всего для меня прямо сейчас? Что принесёт мне работу / повышение / выгоду / высокоцитируемую публикацию прямо сейчас?
Получше была бы такая процедура принятия решений: какой СИИ мы хотим однажды создать? ОК! Давайте попробуем прийти к этому раньше всех плохих альтернатив.
Другими словами, те, кто выбирает направление исследований и разработки, основываясь на том, что выглядит интересным и многообещающим, так же как все остальные, не поменяют путь развития нашей технологии. Они просто проведут нас по тому же пути немного быстрее. Если мы думаем, что некоторые точки назначения лучше других, скажем, если мы пытаемся избежать будущих полностью неподконтрольных СИИ с радикально нечеловеческими мотивациями – то важно выбрать, какие исследования делать, чтобы стратегически ускорить то, что мы хотим, чтобы произошло. Этот принцип называется дифференцированное технологическое развитие – или, более обобщённо, дифференцированный интеллектуальный прогресс.
У меня есть мои собственные предварительные идеи о том, что следует ускорять, чтобы с подобным-мозгу СИИ всё получилось получше. (Я доберусь до этого подробно позже в цепочке.) Но главное, в чём я убеждён: «нам нужно отдельно ускорять работу над выяснением, какую работу следует отдельно ускорять»!! К примеру, будет ли подобный мозгу СИИ склонным к катастрофическим происшествиям или нет? Нам надо выяснить! Потому я и пишу эту цепочку!
Причина поторопиться №2: Мы не знаем, сколько времени займёт исследование безопасности.
Как будет описано куда подробнее в позднейших постах (особенно в Постах №10-15), сейчас неизвестно, как создать СИИ, который надёжно будет пытаться делать то, что мы от него хотим. Мы не знаем, как долго займёт выяснение этого (или доказательство невозможности!). Кажется важным начать сейчас.
Как будет описано позже в цепочке (особенно в Постах №10-15), Безопасность СИИ выглядит очень заковыристой технической задачей. Мы сейчас не знаем, как её решить – на самом деле, мы даже не знаем, решаема ли она. Так что кажется мудрым заточить свои карандаши и приняться за работу прямо сейчас, а не ждать до последнего. Концепт мема украден отсюда
Запомнившаяся аналогия Стюарта Расселла: представьте, что мы получили сообщение от инопланетян «Мы летим к вам на наших космических кораблях, и прибудем через 50 лет. Когда мы доберёмся, мы радикально преобразуем весь ваш мир до неузнавания.» И мы в самом деле видим их корабли в телескопы. Они становятся ближе с каждым годом. Что нам делать?
Если мы будем относиться к приближающемуся инопланетному вторжению так же, как мы на самом деле сейчас относимся к СИИ, то мы коллективно пожмём плечами и скажем «А, 50 лет, это ещё совсем нескоро. Нам не надо думать об этом сейчас! Если 100 человек на Земле пытаются подготовиться к надвигающемуся вторжению, этого достаточно. Может, слишком много! Знаете, спросите меня, этим 100 людям стоит перестать смотреть на звёзды и посмотреть на их собственное общество. Тогда они увидят, что РЕАЛЬНОЕ «надвигающееся инопланетное вторжение» – это кардиоваскулярные заболевания. Вот что убивает людей прямо сейчас!»
…Ну вы поняли. (Не язвлю, ничего такого.)
Причина поторопиться №3: Создание близкого к универсальному консенсуса о чём угодно может быть ужасающе медленным процессом.
Представим, что у меня есть по-настоящему хороший и корректный аргумент о том, что некая архитектура или некий подход к СИИ – просто ужасная идея – непоправимо небезопасная. Я публикую аргумент. Поверят ли мне немедленно и изменят ли направление исследований все вовлечённые в разработку СИИ, включая тех, кто вложил всю свою карьеру в этот подход? Вероятно, нет!!
Бывает, что такое происходит, особенно в зрелых областях вроде математики. Но у некоторых идей широкое (не говоря уж об универсальном) принятие занимает десятки лет: известные примеры включают эволюцию и тектонику плит. Доработка аргументов занимает время. Приведение в порядок свидетельств занимает время. Написание новых учебных пособий занимает время. И да, чтобы несогласные упрямцы умерли и их заменило следующее поколение, тоже занимает время.
Почему почти-универсальный консенсус настолько важен? См. Раздел 1.2 выше. Хорошие идеи о том, как создать СИИ, бесполезны, если люди, создающие СИИ, им не следуют. Если мы хотим добровольного сотрудничества, то нам надо, чтобы создатели СИИ поверили идеям. Если мы хотим принудительного сотрудничества, то нам надо, чтобы люди, обладающие политической властью, поверили идеям. И чтобы создатели СИИ поверили тоже, потому что идеальное принуждение – несбыточная мечта (особенно учитывая секретные лаборатории и т.п.).
Эй, нейробиологи, слушайте. Некоторые из вас хотят лечить болезни. Хорошо. Давайте. Остальные, вы говорите, что хотите лечить болезни, в своих заявках на гранты, но ну серьёзно, это не ваша настоящая цель, все это знают. На самом деле вы тут, чтобы решать восхитительные нерешённые задачи. Ну, позвольте мне вам сказать, безопасность подобного-мозгу СИИ – это восхитительная нерешённая задача!
Это даже богатый источник озарений о нейробиологии! Когда я целыми днями думаю о штуках из безопасности СИИ (вайрхединг, принятие желаемого за действительное, основания символов, онтологический кризис, интерпретируемость, бла-бла-бла), я задаю вопросы, отличающиеся от обычно задаваемых большинством нейробиологов, а значит наталкиваюсь на другие идеи. (…Мне нравится так думать. Ну, читайте дальше, и сами для себя решите, есть ли в них что-то хорошее.)
Так что даже если я не убедил вас, что техническая задача безопасности СИИ супер-пупер-важная, всё равно читайте. Вы можете работать над ней, потому что она офигенная. ;-)
В предыдущем посте я представил задачу «безопасности подобного-мозгу СИИ». Следующие 6 постов (№2-№7) будут в основном про нейробиологию, в них я буду выстраивать более детальное понимание того, как может выглядеть подобный-мозгу СИИ (или, по крайней мере, его относящиеся к безопасности аспекты).
Этот пост сосредоточен на концепции, которую я называю «обучением с чистого листа», я выдвину гипотезу разделения, в котором 96% человеческого мозга (включая неокортекс) «обучается с чистого листа», а остальные 4% (включая ствол головного мозга) – нет. Эта гипотеза – центральная часть моего представления о том, как работает мозг, так что она требуется для дальнейших рассуждений в этой цепочке.
Как указано в введении выше, я предлагаю гипотезу, утверждающую, что большие части мозга – конечный мозг и мозжечок (см. Раздел 2.4 ниже) – «обучаются с чистого листа», в том смысле, что изначально они выдают не вкладывающиеся в эволюционно-адаптивное поведение случайные мусорные сигналы, но со временем становятся всё более полезными благодаря работающему во время жизни алгоритму обучения.
Вот два способа думать о гипотезе обучения с чистого листа:
Я уже упомянул это, но я хочу быть максимально ясным: если неокортекс (к примеру) обучается с чистого листа, это не означает, что в нём нет жёстко генетически закодированного информационного содержания. Это означает, что жёстко генетически закодированное информационное содержание скорее всего что-то в этом духе:
При наличии всех этих встроенных составляющих алгоритм обучения с чистого листа готов принимать снаружи входные данные и управляющие сигналы[2], и постепенно обучается делать что-то полезное.
Эта встроенная информация не обязательно проста. Может быть 50000 совершенно разных алгоритмов обучения в 50000 разных частях неокортекса, и это всё ещё будет с моей точки зрения считаться обучением с чистого листа! (Впрочем, я не думаю, что это так – см. Раздел 2.5.3 про «однородность».)
Представляя себе обучающийся с чистого листа алгоритм, *не* следует представлять пустоту, наполняемую данными. Стоит представлять *механизм*, который постоянно (1) записывает информацию в хранилище памяти, и (2) выполняет запросы к текущему содержанию хранилища памяти. «С чистого листа» просто означает, что хранилище памяти изначально пусто. Таких механизмов *много*, они следуют разным процедурам того, что записывать и как запрашивать. К примеру «справочная таблица» соответствует простому механизму, который просто записывает то, что видит. Другим механизмам соответствуют алгоритмы обучения с учителем, алгоритмы обучения с подкреплением, автокодировщики, и т.д., и т.п.
Есть тенденция ассоциировать «алгоритмы обучения с чистого листа» с стороной «воспитания» споров «природа против воспитания». Я думаю, это неверно. Даже напротив. Я думаю, что гипотеза обучения с чистого листа полностью совместима с возможностью того, что эволюционировавшее встроенное поведение играет большую роль.
Две причины:
Во-первых, некоторые части мозга совершенно точно НЕ выполняют алгоритмы обучения с чистого листа! Это в основном мозговой ствол и гипоталамус (больше про это ниже и в следующем посте). Эти не-обучающиеся-с-чистого-листа части мозга должны быть полностью ответственны за любое адаптивное поведение при рождении.[1] Правдоподобно ли это? Думаю, да, учитывая впечатляющий диапазон функциональности мозгового ствола. К примеру, в неокортексе есть цепи обработки визуальных и других сенсорных данных – но в мозговом стволе тоже! В неокортексе есть цепи моторного контроля – и в мозговом стволе тоже! В по крайней мере некоторых случаях полностью адаптивное поведение кажется исполняемым целиком в мозговом стволе: к примеру, у мышей есть цепь-обнаружения-приближающихся-птиц в мозговом стволе, напрямую соединённая с цепью-убегания-прочь в нём же. Так что моя гипотеза обучения с чистого листа не делает никаких общих заявлений о том, какие алгоритмы или функциональности присутствуют или отсутствуют в мозгу. Только заявления о том, что некоторые виды алгоритмов есть только в некоторых конкретных частях мозга.
Во-вторых, «обучение с чистого листа» - не то же самое, что «обучение из окружения». Вот искусственный пример.[3] Представьте, что мозговой ствол птицы имеет встроенную способность судить о том, как должно звучать хорошее птичье пение, но не инструкцию, как произвести хорошее птичье пение. Ну, алгоритм обучения с чистого листа может заполнить эту дыру – методом проб и ошибок вывести вторую способность из первой. Этот пример показывает, что алгоритмы обучения с чистого листа могут управлять поведением, которое мы естественно и корректно описываем как встроенное / «природное, а не воспитанное».
«Пластичность» - это термин, означающий, что мозг полу-перманентно изменяет себя, обычно изменяя присутствие / отсутствие / силу синаптических связей нейронов, но иногда и другими механизмами, вроде изменений в экспрессии генов в нейронах.
Любой алгоритм обучения с чистого листа обязательно включает пластичность. Но не вся пластичность мозга – часть алгоритмов обучения с чистого листа. Другая возможность – то, что я называю «отдельными встроенными настраиваемыми параметрами». Вот таблица с примерами и того, и другого и тем, чем они отличаются:
Алгоритмы обучения с чистого листа | Отдельные встроенные настраиваемые параметры | |
Стереотипный пример | Любая статья о глубоком обучении: есть *обучающий алгоритм*, который постепенно создаёт *обученную модель*, настраивая много её параметров. | Некоторые связи в крысином мозгу усиливаются, когда крыса выигрывает драку – по сути, считают, сколько драк крыса выиграла за свою жизнь. Потом такая связь используется для выполнения поведения «Выиграв много драк за свою жизнь – будь агрессивнее.» (ссылка) |
Количество параметров, изменяемых на основании входных данных (т.е. как много измерений в пространстве всех возможных обученных моделей?) | Может быть много – сотни, тысячи, миллионы, и т.д. | Скорее всего мало, может даже один |
Если масштабировать это вверх, будет ли это работать лучше после обучения? | Да, наверное. | А?? Что, чёрт побери, вообще значит «масштабировать»? |
Я не думаю, что между этими штуками есть чёткая граница; наверное, есть спорная область, где одна перетекает в другую. По крайней мере, я думаю, что в теории она есть. На практике, мне кажется, существует довольно явное разделение – всегда, когда я узнаю о конкретном примере пластичности мозга, она явным образом попадает в одну или другую категорию.
К слову, как мне кажется, моя категоризация для нейробиологии несколько необычна. Нейробиологи чаще сосредотачиваются на низкоуровневых деталях реализации: «Источник пластичности – синаптические изменения или изменения экспрессии генов?», «Каков биохимический механизм?» и т.д. Это совсем другая тема. К примеру, готов поспорить, что один и то же низкоуровневый биохимический механизм синаптической пластичности может быть вовлечён и в алгоритмы обучения с чистого листа и в изменение отдельного встроенного настраиваемого параметра.
Почему я подымаю эту тему? Потому что я планирую заявить, что гипоталамус и мозговой ствол не выполняют или почти не выполняют алгоритмы обучения с чистого листа. Но они точно имеют отдельные встроенные настраиваемые параметры.
Для конкретики, вот три примера «отдельных встроенных настраиваемых параметров» в гипоталамусе и мозговом стволе:
Видна разница? Вернитесь к таблице, если всё ещё в замешательстве.
Моя гипотеза заключается в том, что ~96% человеческого мозга выполняет алгоритмы обучения с чистого листа. Главные исключения – мозговой ствол и гипоталамус, общим размером с большой палец. Источник картинки.
Вот моя гипотеза в трёх утверждениях:
Во-первых, я думаю, что весь конечный мозг обучается с чистого листа (и бесполезен при рождении[1]). Конечный мозг (также известный как «большой мозг») у людей – это в основном неокортекс, плюс гиппокампус, миндалевидное тело, большая часть базальных ганглиев и разнообразные более загадочные кусочки.
Несмотря на внешний вид, нравящаяся мне модель (изначально принадлежащая гениальному Ларри Свансону) заявляет, что весь конечный мозг организован в трёхслойную структуру (кора, полосатое тело, паллидум), и эта структура согласуется относительно маленьким количеством взаимосвязанных алгоритмов обучения. См. мой (довольно длинный и технический) пост Большая Картина Фазового Дофамина за подробностями.
(ОБНОВЛЕНИЕ: Узнав больше, я хочу это пересмотреть. Я думаю, что вся «кортикальная мантия» и всё «расширенное полосатое тело» обучаются с чистого листа. (Это включает штуки вроде гиппокампуса, миндалевидного тела, боковой перегородки, и т.д. - которые эмбриологически и/или цитоархитектурно развиваются вместе с корой и/или полосатым телом). Кто касается паллидума, я думаю, некоторые его части по сути являются расширением RAS мозгового ствола, так что им точно не место в этом списке. Про другие его части может оказаться и так, и так, в зависимости от того, как определить поверхность ввода/вывода некоторых алгоритмов обучения. Паллидум довольно маленький, так что мне не надо менять оценки объёма, включая число 96%. Я не буду проходить по всей цепочке и менять «конечный мозг» на «кортикальная мантия и расширенное полосатое тело» в миллионе мест, извините, придётся просто запомнить.)
Таламус технически не входит в конечный мозг, но по крайней мере его часть тесно связана с корой – некоторые исследователи описывают его функциональность как «дополнительный слой» коры. Так что я буду считать и его частью обучающегося с чистого листа конечного мозга.
Конечный мозг и таламус вместе составляют ~86% объёма человеческого мозга (ссылка).
Во-вторых, я думаю, что мозжечок тоже обучается с чистого листа (и тоже бесполезен при рождении). Мозжечок – это ~10% объёма взрослого мозга (ссылка). Больше про мозжечок будет в Посте №4.
В третьих, я думаю, что гипоталамус и мозговой ствол совершенно точно НЕ обучаются с чистого листа (и они очень активны и полезны прямо с рождения). Думаю, другие части промежуточного мозга – например, хабенула и шишковидное тело – тоже попадают в эту категорию.
Я не буду удивлён, если обнаружатся мелкие исключения из этой картины. Может, где-то в конечном мозге есть маленькое ядро, управляющее биологически-активным поведением, не обучаясь ему с чистого листа. Конечно, почему нет. Но сейчас я считаю, что такая картина по крайней мере приблизительно верна.
В следующих двух разделах я расскажу о свидетельствах, относящихся к моей гипотезе, и о том, что о ней думают другие люди из этой области.
Из чтения и разговоров с людьми я вижу, что самые большие преграды к тому, чтобы поверить, что конечный мозг и мозжечок обучаются с чистого листа – это в подавляющем большинстве случаев не детализированные аргументы о данных нейробиологии, а скорее:
Раз вы досюда дочитали, №1 уже не должно быть проблемой.
Что по поводу №2? Типичный тип вопросов – это «Если конечный мозг и мозжечок обучаются с чистого листа, то как они делают X?» – для разных X. Если есть X, для которого мы совсем не можем ответить на этот вопрос, то это подразумевает, что гипотеза обучения с чистого листа неверна. Напротив, если мы можем найти действительно хорошие ответы на этот вопрос для многих X, то это свидетельство (хоть и не доказательство), того что гипотеза обучения с чистого листа верна. Следующие посты, я надеюсь, обеспечат вам такие свидетельства.
Если конечный мозг и мозжечок не могут производить биологически-адаптивный вывод, не научившись этому со временем, то из этого следует, что любое биологически-адаптивное поведение новорожденных[1] должно управляться мозговым стволом и гипоталамусом. Так ли это? Кажется, такие вещи должны быть экспериментально измеримы, верно? И в этой статье 1991 года действительно говорится «накопившиеся свидетельства приводят к выводу, что перцептомоторная активность новорожденных в основном контролируется подкорковыми механизмами». Но не знаю, изменилось ли что за прошедшие 30 лет – дайте мне знать, если видели другие упоминания этого.
На самом деле, этот вопрос сложнее, чем кажется. Представьте, что младенец совершает что-то биологически-адаптивное…
Гипотеза «однородности коры» заявляет, что все части неокортекса выполняют более-менее похожие алгоритмы. (…С некоторыми нюансами, особенно связанными с неоднородной нейронной архитектурой и гиперпараметрами). Мнения по поводу того, верна ли эта гипотеза (и в какой степени) расходятся – я кратко обсуждал свидетельства и аргументы тут. Я считаю, что весьма вероятно, что она верна, по крайней мере в слабом смысле, что будущий исследователь, имеющий очень хорошее детальное понимание того, как работает Область Неокортекса №147 будет очень хорошо продвинут в понимании того, как работает буквально любая другая часть неокортекса. Я не буду тут погружаться в это подробнее; мне кажется, это не совсем укладывается в тему этой цепочки.
Я упоминаю это потому, что если вы верите в однородность коры, то вам, наверное, следует верить и в то, что она обучается с чистого листа. Аргументация такая:
Неокортекс взрослого делает много явно различающихся вещей: обрабатывает зрительную информацию, слуховую информацию, занимается моторным контролем, языком, планированием и т.д. Как это совместимо с однородностью коры?
Обучение с чистого листа предоставляет правдоподобный способ. В конце концов, мы знаем, что один и тот же алгоритм обучения с чистого листа, если ему скормить очень разные входные данные и управляющие сигналы, может начать делать очень разные вещи: посмотрите как глубокие нейросети-трансформеры можно обучить генерировать текст на естественном языке, или картинки, или музыку, или сигналы моторного контроля робота, и т.д.
Если мы, напротив, примем однородность коры, но отвергнем обучение с чистого листа, то, эм-м-м, я не вижу осмысленных вариантов того, как это может работать.
Аналогично (но куда реже обсуждаемо, чем случай неокортекса), стоит ли нам верить в «однородность аллокортекса»? Для справки, аллокортекс – что-то вроде упрощённой версии неокортекса с тремя слоями вместо шести; считается, что до того, как эволюционировал неокортекс, ранние амниоты имели только аллокортекс. Он, как и неокортекс, делает много всякого разного: у взрослых людей гиппокампус вовлечён в ориентирование в пространстве и эпизодическую память, а грушевидная кора – в обработку запахов. Так что тут можно сделать аналогичный аргумент про обучение с чистого листа.
Двигаясь дальше, я уже упоминал выше (и больше в Большой Картине Фазового Дофамина, а ещё в Посте №5, Разделе 5.4.1) идею (Ларри Свансона), что весь конечный мозг кажется организованным в три слоя – «кору», «полосатое тело» и «паллидум». Я пока говорил только про кору; что насчёт «однородности полосатого тела» и «однородности паллидума»? Не ожидайте найти посвящённый этому обзор – на самом деле, предыдущее предложение судя по всему первое, где встречаются эти словосочетания. Но в каждом из этих слоёв есть как минимум некоторые общие черты: например, средние шиповатые нейроны вроде бы есть по всему полосатому телу. И я продолжаю считать, что описанная мной в Большой Картине Фазового Дофамина (и Постах №5-№6) модель – осмысленное первое приближение того, как может сочетаться «всё, что мы знаем о полосатом теле и паллидуме» с «несколькими вариациями конкретных алгоритмов обучения с чистого листа».
В случае мозжечка, есть по крайней мере какая-то литература по гипотезе однородности (ищите термин «universal cerebellar transform»), но, опять же, нет консенсуса. Мозжечок взрослого так же вовлечён в явно разные функции вроде моторной координации, языка, сознания и эмоций. Я лично считаю, что там тоже есть однородность, подробнее будут в Посте №4.
Это другая причина, по которой лично я готов многое поставить на то, что конечный мозг и мозжечок обучаются с нуля. Она несколько специфична, но для меня довольно заметна; посмотрим, примете ли вы её.
В мозгу есть частый мотив, называемый «разделением паттернов». Давайте я объясню, что это и откуда берётся.
Представьте, что вы инженер машинного обучения, работающий на сеть ресторанов. Ваш начальник даёт вам задание предсказать продажи для разных локаций, куда можно распространить франшизу.
Первое, что вы можете сделать – это собрать кучу потоков данных – местные уровни безработицы, местные рейтинги ресторанов, местные цены в магазинах, распространяется ли по миру сейчас новый коронавирус, и т.д. Я называю это «контекстные данные». Вы можете использовать контекстные данные как ввод нейросети. Выводом сети должно быть предсказание уровня продаж. Вы подправляете веса нейросети (используя обучения с учителем, собрав данные от существующих ресторанов), чтобы всё получилось. Никаких проблем!
Разделение паттернов – это когда вы добавляете в начало ещё один шаг. Вы берёте различные потоки контекстных данных и случайно комбинируете их многими разными способами. Затем вы добавляете немного нелинейности, и вуаля! Теперь у вас есть куда больше потоков контекстных данных, чем было изначально! Теперь они могут быть вводом для обучаемой нейросети.[4]
Иллюстрация (части) обработки сенсорных данных плодовой мухи. Высокий вертикальный серый прямоугольник чуть левее центра – это слой «разделения паттернов»; он принимает организованные сенсорные сигналы слева и перемешивает их большим количеством разных (локально) случайных комбинаций. Потом они посылаются направо, чтобы служить «контекстными» вводами модуля обучения с учителем. Источник картинки: Ли и пр..
В предыдущем посте я определил понятие «обучающихся с чистого листа» алгоритмов – широкую категорию, включающую, помимо прочего, любой алгоритм машинного обучения (неважно, насколько сложный) с случайной инициализацией и любую систему изначально пустой памяти. Я затем предложил разделение мозга на две части по признаку наличия или отсутствия обучения с чистого листа. Теперь я даю им имена:
Обучающаяся Подсистема – это 96% мозга, «обучающиеся с чистого листа» – по сути – конечный мозг и мозжечок.
Направляющая Подсистема – это 4% мозга, не «обучающиеся с чистого листа» – по сути – гипоталамус и мозговой ствол.
(См. Предыдущий пост за более подробным анатомическим разделением.)
Этот пост будет обсуждением этой картины двух подсистем в целом и Направляющей Подсистемы в частности.
В предыдущем посте я заявил, что 96% объёма мозга – грубо говоря, конечный мозг (неокортекс, гиппокампус, миндалевидное тело, большая часть базальных ганглиев, и ещё кое-что) и мозжечок – «обучаются с чистого листа» в том смысле, что на ранних этапах жизни их выводы – случайный мусор, но со временем они становятся невероятно полезны благодаря прижизненному обучению. (См. там больше подробностей) Я сейчас называю эту часть мозга Обучающейся Подсистемой.
Остальной мозг – в основном мозговой ствол и гипоталамус – я называю Направляющей Подсистемой.
Как нам об этом думать?
Давайте начнём с Обучающейся Подсистемы. Как я описывал в предыдущем посте, эта подсистема имеет некоторое количество взаимосвязанных встроенных алгоритмов обучения, встроенную нейронную архитектуру и встроенные гиперпараметры. Она имеет также много (миллиарды или триллионы) подстраиваемых параметров (обычно предполагается, что это сила синаптических связей, но это спорный момент, и я не буду в него погружаться), и значения этих параметров изначально случайны. Так что изначально Обучающаяся Подсистема выдаёт случайные бесполезные для организма выводы – например, может быть, они могут заставить организм дёргаться. Но со временем различные управляющие сигналы и соответствующие правила обновления подправляют настраиваемые параметры системы, что позволяет её за время жизни животного научиться делать сложные биологически-адаптивные штуки.
Дальше: Направляющая Подсистема. Как нам её интуитивно представлять?
Для начала, представьте хранилище с кучей специфичных для вида инстинктов и поведений, жёстко закодированных в геноме:
Особенно важная задача Направляющей Подсистемы – посылать управляющие и контролирующие сигналы Обучающейся Подсистеме. Отсюда название: Направляющая Подсистема направляет обучающиеся алгоритмы к адаптивным штукам.
Пример: почему человеческий неокортекс обучается адаптивным-для-человека штукам, а беличий неокортекс обучается адаптивным-для-белки штукам, если они оба исполняют примерно одинаковые алгоритмы обучения с чистого листа?
Я заявляю, что главная часть ответа – то, что обучающиеся алгоритмы в этих двух случаях по-разному «направляются». Особенно важный аспект тут – сигнал «вознаграждения» обучения с подкреплением. Можно представить, что человеческий мозговой ствол посылает «награду» за достижение высокого социального статуса, а беличий мозговой ствол – за запасание орехов осенью. (Это упрощение, я ещё буду к этому возвращаться.)
Аналогично, в машинном обучении один и тот же обучающийся алгоритм может стать очень хорош в шахматах (при условии определённого сигнала вознаграждения и сенсорных данных) или может стать очень хорош в го (при условии других сигналов вознаграждения и сенсорных данных).
Для ясности, несмотря на название, «направление» Обучающейся Подсистемы – не всё, что делает Направляющая Подсистема. Она может и просто что-то делать самостоятельно, без вовлечения Обучающейся Подсистемы! Это хорошо подходит для того, что делать важно прямо с рождения, или для того, в чём даже один провал фатален. Пример, который я упоминал в предыдущем посте – мыши, оказывается, имеют цепь-обнаружения-приближающихся-птиц в мозговом стволе, напрямую соединённую с цепью-убегания-прочь в нём же.
Важно держать в голове, что Направляющая Подсистема мозга не имеет прямого доступа к нашему здравому смыслу и пониманию мира. К примеру, Направляющая Подсистема может исполнять реакции вроде «во время еды выделять пищеварительные энзимы». Но когда мы переходим к абстрактным концептам, которые мы используем для действий в мире – оценки, долги, популярность, соевый соус, и так далее – надо предполагать, что Направляющая Подсистема не имеет о них ни малейшего понятия, если мы не можем объяснить, откуда она могла о них узнать. И иногда такое объяснение есть! Мы ещё рассмотрим много таких случаев, в частности в Посте №7 (для простого примера желания съесть пирог) и Посте №13 (для более хитрого случая социальных инстинктов).
К примеру, в случае зрения, у Направляющей Подсистемы есть верхнее двухолмие, а к Обучающейся Подсистемы есть зрительная кора. Для вкуса у Направляющей Подсистемы есть вкусовое ядро в продолговатом мозге, а у Обучающейся Подсистемы – вкусовая кора. И т. д.
Не избыточно ли это? Некоторые так и думают! Книга Дэвида Линдена «Случайный Разум» упоминает существование двух систем сенсорной обработки как замечательный пример корявого проектирования мозга в результате отсутствия у эволюции планирования наперёд. Но я не соглашусь. Они не избыточны. Если бы я делал СИИ, я бы точно сделал ему две системы сенсорной обработки!
Почему? Предположим, что Эволюция хочет создать цепочку реакции, чтобы жёстко генетически закодированные сенсорные условия запускали генетически закодированный ответ. К примеру, как упоминалось выше, если вы мышь, то увеличивающееся тёмное пятно сверху области видимости часто означает приближающуюся птицу, поэтому геном мыши жёстко связал детектор-увеличивающегося-тёмного-пятна с поведенческой-цепью-убегания-прочь.
И я скажу, что создавая эту реакцию геном не может использовать зрительную кору для детектора. Почему? Вспомните предыдущий пост: зрительная кора обучается с чистого листа! Она принимает неструктурированные визуальные данные и строит из них предсказывающую модель. Вы можете (приближённо) думать о зрительной коре как о тщательном каталогизаторе паттернов из ввода, и паттернов из паттернов из ввода, и т.д. Один из этих паттернов может соответствовать увеличивающемуся тёмному пятну в верхней части поля зрения. Или нет! И даже если такой есть, геном не знает заранее, какие в точности нейроны будут хранить этот конкретный паттерн. Так что геном не может жёстко привязать эти нейроны к поведенческому-контроллеру-убегания-прочь.
В итоге:
Так что две системы обработки сенсорной информации – не пример корявого проектирования. Это пример Второго Правила Орджела: «эволюция умнее тебя»!
В 1960-х и 70-х Пол Маклейн и Карл Саган изобрели и популяризировали идею Триединого Мозга. Согласно этой теории, мозг состоит из трёх слоёв, сложенных вместе как мороженое в рожке, и они эволюционировали по очереди: сначала «мозг ящерицы» (он же «древний мозг» или «рептильный мозг»), ближайший к спинному; потом «лимбическая система», обёрнутая вокруг него (состоящая из миндалевидного тела, гиппокампуса и гипоталамуса), и, наконец, наружным слоем, неокортекс (он же «новый мозг») – гвоздь программы, вершина эволюции, жилище человеческого интеллекта!!!
(Плохая!) модель триединого мозга (источник картинки)
Ну, сейчас хорошо известно, что Теория Тройственного Мозга – чепуха. Она разделяет мозг на части способом, не имеющим ни функционального ни эмбриологического смысла, и эволюционная история просто откровенно неверна. К примеру, половину миллиарда лет назад самые ранние позвоночные имели предшественников всех трёх слоёв триединого мозга – включая «плащ», который потом (в нашей линии) разделился на неокортекс, гиппокампус, часть миндалевидного тела, и т.д. (ссылка).
Так что да, Теория Тройственного Мозга – чепуха. Но я вполне признаю: нравящаяся мне история (предыдущий раздел) несколько напоминает её. Моя Направляющая Подсистема выглядит подозрительно похожей на маклейновский «рептильный мозг». Моя Обучающаяся Подсистема выглядит подозрительно похожей на маклейновские «лимбическую систему и неокортекс». Мы с Маклейном не вполне согласны по поводу того, что в точности к чему относится, и два там слоя или три. Но сходство несомненно есть.
Моя история про две подсистемы не оригинальна. Вы услышите похожие от Джеффа Хокинса, Дайлипа Джорджа, Илона Маска, и других.
Но эти другие люди делают это придерживаясь традиции теории триединого мозга, и, в частности, сохраняя её проблематичные аспекты, вроде терминологии «древнего мозга» и «нового мозга».
Нет нужды так делать!!! Мы можем сохранить модель двух подсистем, избавившись от унаследованных у тройственного мозга ошибок.
Так что вот моя версия: я думаю, что пол миллиарда лет назад у ранних позвоночные уже был (простой!) алгоритм обучения с чистого листа в их (прото-) конечном мозге, и он «направлялся» сигналами из их (простого, прото-) мозгового ствола и гипоталамуса.
На самом деле, мы можем пойти даже дальше позвоночных! Оказывается, существует сходство между обучающейся с чистого листа корой у людей и обучающимся с чистого листа «грибовидным телом» у плодовых мух! (Подробное обсуждение здесь.) Замечу, к примеру, что у плодовых мух, сигналы запахов отправляются и в грибовидное тело, и в боковой рог, что замечательно сходится с общим принципом того, что сенсорный ввод должен отправляться и в Обучающуюся Подсистему, и в Направляющую Подсистему (Раздел 3.2.1 выше).
В любом случае, за 700 миллионов лет прошедших с нашего последнего общего предка с насекомыми в нашей линии очень сильно увеличились и усложнились и Обучающаяся Подсистема, и Направляющая Подсистема.
Но это не значит, что они одинаково вкладываются в «человеческий интеллект». Опять же, обе необходимы, но, я думаю, факт того, что 96% объёма человеческого мозга занимает Обучающаяся Подсистема, довольно убедителен. Сосредоточимся ещё конкретнее на конечном мозге (который у млекопитающих включает неокортекс), его доля объёма мозга – 87% у людей (ссылка), 79% у шимпанзе (ссылка), 77% у некоторых попугаев, 51% у куриц, 45% у крокодилов, и лишь 22% у лягушек (ссылка). Тут есть очевидная закономерность, и думаю, что для получения способности к распознаваемому интеллектуальному и гибкому поведению действительно необходима большая Обучающаяся Подсистема.
Видите? Я могу описать свою модель двух подсистем без всей этой чепухи про «древний мозг, новый мозг».
Я начну с общей таблицы, а потом рассмотрю всё подробнее в следующих подразделах.
Категория составных частей Направляющей Подсистемы | Возможные примеры | Присутствуют в (компетентных) людях? | Ожидаются в будущих СИИ? |
(A) Штуки, которая Направляющая Подсистема должна делать для достижения обобщённого интеллекта | Стремление к любопытству (?) Стремление обращать внимание на некоторые категории вещей в окружении (люди, язык, технология, и т.д.) (?) Общая вовлечённость в настройку нейронной архитектуры Обучающейся Подсистемы (?) | Да, по определению | Да |
(B) Всё остальное из Направляющей Подсистемы нейротипичного человека | Социальные инстинкты (лежащие в основе альтруизма, любви, сожаления, вину, чувства справедливости, верности, и т. д.) Стремления в основе отвращения, эстетики, спокойствия, восхищения, голода, боли, боязни пауков, и т. д. | Обычно, но не всегда – к примеру, высокофункциональные социопаты лишены некоторых обычных социальных инстинктов. | Нет «по умолчанию», но *возможно*, если мы: (1)поймём, как в точности они работают, и (2)убедим разработчиков СИИ заложить их в него |
(C) Любые другие возможности, большинство из которых *совершенно непохожи на всё*, что можно обнаружить в Направляющей Подсистеме человека или любого другого животного | Стремление увеличить баланс на банковском счёте компании? Стремление изобрести более хорошую солнечную панель? Стремление делать то, что хочет от меня человек-оператор? *(Тут ловушка: никто не знает, как реализовать это!)* | Нет | Да «по умолчанию». Если что-то – плохая идея, мы можем попробовать убедить разработчиков СИИ это не делать. |
Я подробнее разберу это в следующих постах, но сейчас давайте просто скажем, что Обучающаяся Подсистема (помимо всего прочего) проводит обучение с подкреплением, и Направляющая Подсистема присылает ей вознаграждение. Компоненты функции вознаграждения соответствуют тому, что я называю «встроенными стремлениями» - это корень того, почему некоторые штуки по своей сути мотивирующие / привлекающие, а другие – демотивирующие / отталкивающие.
Явные цели вроде «я хочу избавиться от долгов» отличаются от встроенных стремлений. Явные цели возникают из сложного взаимодействия «встроенных стремлений Направляющей Подсистемы» и «выученного содержания Обучающейся Подсистемы». Опять же, куда больше про это в будущих постах.
Напомню, встроенные стремления находятся в Направляющей Подсистеме, а абстрактные концепции, составляющие ваш осознанный мир – в Обучающейся. К примеру, если я говорю что-то вроде «встроенные стремления, связанные с альтруизмом», то надо понимать, что я говорю не про «абстрактную концепцию альтруизма, как он определён в словаре», а про «некая встроенная в Направляющую Подсистему схема, являющаяся причиной того, что нейротипичные люди иногда считают альтруистические действия по своей сути мотивирующими». Абстрактные концепции имеют какое-то отношение к встроенным схемам, но оно может быть сложным – никто не ожидает взаимно-однозначного соответствия N отдельных встроенных схем и N отдельных слов, описывающих эмоции и стремления.[1]
Разобравшись с этим, давайте подробнее рассмотрим таблицу.
Давайте начнём с «стремления к любопытству». Если вы не знакомы с понятием «любопытства» в контексте машинного обучения, я рекомендую Задачу Согласования Брайана Кристиана, главу 6, содержащую занимательную историю того, как исследователи смогли научить агентов обучения с подкреплением выигрывать в игре с Atari Montezuma’s Revenge. Стремление к любопытству кажется необходимым для хорошей работы системы машинного обучения, и, кажется, оно встроено и в людей. Я предполагаю, что будущие СИИ тоже будут в нём нуждаться, а иначе просто не будут работать.
Для большей конкретности – я думаю, что оно важно для начального развития – думаю, стремление к любопытству необходимо на ранних этапах обучения, а потом его, вероятно, можно в какой-то момент отключить. Скажем, представим СИИ, обладающего общими знаниями о мире и самом себе, способного доводить дела до конца, и сейчас пытающегося изобрести новую солнечную панель. Я утверждаю, что ему скорее всего не нужно встроенное стремление к любопытству. Он может искать информацию и жаждать сюрпризов как будто у него оно есть, потому что из опыта он уже выучил, что это зачастую хорошая стратегия для, в частности, изобретения солнечных панелей. Другими словами, что-то вроде любопытства может быть мотивирующим как средство для достижения цели, даже если оно не мотивирует как цель – любопытство может быть выученной метакогнитивной эвристикой. См. инструментальная конвергенция. Но этот аргумент неприменим на ранних этапах обучения, когда СИИ начинает с чистого листа, ничего не зная о мире и о себе. Так что, если мы хотим получить СИИ, то поначалу, я думаю, Направляющая Подсистема действительно должна указывать Обучающейся Подсистеме правильное направление.
Другой возможный элемент в Категории A – это встроенное стремление обращать внимание на конкретные вещи в окружении, например, человеческую деятельность, человеческий язык или технологию. Я не совсем уверен, что это необходимо, но мне кажется, что стремления к любопытству самого по себе не хватит для того, что мы от него хотим. Оно было бы совершенно ненаправленным. Может, СИИ мог бы провести вечность, прокручивая в своей голове Правило 110, находя всё более и более глубокие паттерны, полностью игнорируя физическую вселенную. Или„ может быть, он мог бы находить всё более и более глубокие паттерны в формах облаков, полностью игнорируя всё, связанное с людьми и технологией. В случае человеческого мозга, мозговой ствол определённо обладает механизмами, заставляющими обращать внимание на человеческие лица (ссылка), и я сильно подозреваю, что там есть и система обращения внимания на человеческую речь. Я могу быть неправ, но, думаю, что-то вроде этого понадобиться и для СИИ. И точно также, может оказаться, что это необходимо только в начале обучения.
Что ещё может быть в Категории A? В таблице я написал расплывчатое «Общая вовлечённость в настройку нейронной архитектуры Обучающейся Подсистемы». Это включает посылание сигналов вознаграждения, и сигналов об ошибке, и гиперпараметры и т. д. для конкретных частей нейронной архитектуры Обучающейся Подсистемы. К примеру, в Посте №6 я поговорю о том, как только часть нейронной архитектуры становится получателем главного сигнала вознаграждения обучения с подкреплением. Я думаю об этих вещах, как о (одном аспекте) настоящей реализации нейронной архитектуры Обучающейся Подсистемы. У СИИ тоже будет какая-то нейронная архитектура, хотя, возможно, не в точности такая же, как у людей. Следовательно, СИИ тоже могут понадобится такие сигналы. Я немного говорил о нейронной архитектуре в Разделе 2.8 предыдущего поста, но в основном она не важна для этой цепочки, так что я не буду рассматривать её ещё подробнее.
В Категории A могут быть и другие штуки, о которых я не подумал.
Я сразу перепрыгну к тому, что мне кажется наиболее важным: социальные инстинкты, включающие различные стремления, связанные с альтруизмом, симпатией, любовью, виной, завистью, чувством справедливости, и т. д. Ключевой вопрос: Откуда я знаю, что социальные инстинкты попадают в Категорию B, то есть, что они не в Категории A вещей, необходимых для обобщённого интеллекта?
Ну, для начала, посмотрите на высокофункциональных социопатов. У меня в своё время был опыт очень хорошего знакомства с парочкой. Они хорошо понимают мир, себя, язык, математику, науку, могут разрабатывать сложные планы и успешно достигать впечатляющих вещей. ИИ, умеющий всё, что может делать высокофункциональный социопат, мы бы без колебаний назвали «СИИ». Конечно, я думаю, высокофункциональные социопаты имеют какие-то социальные инстинкты – они более заинтересованы в манипуляциях людьми, а не игрушками – но их социальные инстинкты кажутся очень сильно отличающимися от социальных инстинктов нейротипичного человека.
Сверх этого, мы можем рассмотреть людей с аутизмом, людей с шизофренией, и S.M. (лишённую миндалевидного тела, и более-менее – негативных социальных эмоций), и так далее, и так далее. Все эти люди имеют «обобщённый интеллект», но их социальные инстинкты / стремления очень разнятся.[2]
С учётом всего этого, мне сложно поверить, что какие-то аспекты социальных инстинктов строго необходимы для обобщённого интеллекта. Я думаю, как минимум открытый вопрос – даже способствуют ли они обобщённому интеллекту!! К примеру, если вы посмотрите на самых гениальных в мире учёных, то я предположу, что люди с нейротипичными социальными инстинктами там будут несколько недопредставлены.
Причина, по которой это важно – я заявляю, что социальные инстинкты лежат в основе «желания поступать этично». Опять же, рассмотрим высокофункциональных социопатов. Они могут понять честь и справедливость и этику, если захотят, понять в смысле правильных ответов на тестовые вопросы о том, что справедливо, а что нет и т.д., они просто всем этим не мотивированы.[3]
Если подумать, это имеет смысл. Предположим, я скажу вам «Тебе следует запихнуть камушки себе в уши». Вы скажете «Почему?». И я скажу «Потому что, ну знаете, в ваших ушах нет камушков, но надо, чтобы были». И вы опять скажете «Почему?» …В какой-то момент этому разговору придётся свестись к тому, что вы и я считаем по своей сути, независимо от всего остального, мотивирующим или демотивирующим. И я утверждаю, что социальные инстинкты – различные встроенные стремления, связанные с чувством честности, симпатией, верностью, и так далее – и являются основанием для этих интуитивных заключений.
(Я тут не решаю дилемму морального реализма против морального релятивизма – то есть вопрос о том, есть ли «материальные факты» о том, что этично, а что неэтично. Вместо этого, я говорю, что если агент полностью лишён встроенных стремлений, которые могу разжечь в нём желание поступать этично, то нельзя ожидать от него этичного поведения, неважно, насколько он интеллектуален. С чего ему? Ладно, он может поступать этично как средство для достижения цели – например, чтобы привлечь на свою сторону союзников – но это не считается. Больше обсуждения и оснований интуиции в моём комментарии тут.)
Пока что это всё, что я хочу сказать о социальных инстинктах; я ещё вернусь к ним позже в этой цепочке.
Что ещё попадает в Категорию B? Много штук!! Отвращение, эстетика, спокойствие, восхищение, голод, боль, страх пауков, и т. д.
Люди, создающие СИИ, могут поместить в функцию вознаграждения что им захочется! Они смогут создавать совершенно новые встроенные стремления. И эти стремления будут радикально непохожи на что-либо присущее людям или животным.
Зачем будущим программистам СИИ изобретать новые, ранее не встречавшиеся встроенные стремления? Потому что это естественно!! Если похитить случайного разработчика машинного обучения из холла NeurIPS, запереть его в заброшенном складе и заставить создавать ИИ-для-зарабатывания-денег-на-банковском-счёте с использованием обучения с подкреплением[4], то спорю на что угодно, в его исходном коде будет функция вознаграждения, использующая баланс на банковском счёте. Вы не найдёте ничего похожего в генетически прошитых схемах в мозговом стволе человека! Это новое для мира встроенное стремление.
«Поместить встроенное стремление для увеличения баланса на банковском счёте» – не только очевидный вариант, но, думаю, и в самом деле работающий! Некоторое время! А потом он катастрофически провалится! Он провалится как только ИИ станет достаточно компетентным, чтобы найти нестандартные стратегии увеличения баланса на банковском счёте – занять денег, взломать сайт банка, и так далее. (Смешной и ужасающий список исторических примеров того, как ИИ находили нестандартные не предполагавшиеся стратегии максимизации награды, больше об этом в следующих постах.) На самом деле, этот пример с балансом банковского счёте – только одно из многих-многих возможных стремлений, которые правдоподобно могут привести СИИ к вынашиванию тайной мотивации сбежать из под человеческого контроля и всех убить (см. Пост №1).
Так что такие мотивации худшие: они прямо у всех под носом, они – лучший способ достигать целей, публиковать статьи и побивать рекорды показателей, пока СИИ не слишком умный, а потом, когда СИИ становится достаточно компетентным, они приводят к катастрофическим происшествиям.
Вы можете подумать: «Это же совсем очевидно, что СИИ с всепоглощающим стремлением повысить баланс конкретного банковского счёта – это СИИ, который попытается сбежать из-под человеческого контроля, самовоспроизводиться и т.д. Ты реально веришь, что будущие программисты СИИ буду настолько беспечны, чтобы поместить в него что-то в таком роде??»
Ну, эммм, да. Да, так и думаю. Но даже отложив это пока в сторону, есть проблема побольше: мы пока не знаем, как закодировать хоть какое-нибудь встроенное стремление так, чтобы получившийся СИИ точно остался под контролем. Даже стремления, которые на первый взгляд кажутся благоприятными, скорее всего не такие, по крайней мере при нашем нынешнем уровне понимания. Куда больше про это в будущих постах (особенно №10).
Безусловно, Категория C – очень широкая. Я совсем не буду удивлён, если в ней существуют встроенные стремления, которые очень хороши для безопасности СИИ! Нам просто надо их найти! Я поисследую это пространство возможностей дальше в цепочке.
Я упоминал это уже в первом посте (Раздел 1.3.3), но сейчас у нас есть объяснение.
Предыдущий подраздел предложил разделение на три типа возможного содержания Направляющей Подсистемы: (A) Необходимые для СИИ, (B) Всё остальное, что есть в людях, (C) Всё, чего нет в людях.
Мои заявления:
Обобщая, если исследователи пойдут по самому простому и естественному пути – вытекающему из того, что сообщества ИИ и нейробиологии продолжат вести себя похоже на то, как они ведут себя сейчас – то мы получим СИИ, способные на впечатляющие вещи, поначалу на те, которые хотят их программисты, но ими будут управлять радикально чужеродные системы мотивации, фундаментально безразличные к человеческому благополучию, и эти СИИ попытаются сбежать из-под человеческого контроля как только станут достаточно способными для этого.
Давайте попробуем это изменить! В частности, если мы заранее разберёмся, как написать код, задающий встроенное стремление к альтруизму / услужливости / послушности / чему-то подобному, то это будет очень полезно. Это большая тема этой цепочки. Но не ожидайте финальных ответов. Это нерешённая задача: впереди ещё много работы.
Недавно вышла книга Джеффа Хокинса «Тысяча мозгов». Я написал подробный её обзор тут. Джефф Хокинс продвигает очень похожую на мою точку зрения о двух подсистемах. Это не совпадение – его работы подтолкнули меня в этом направлении!
К чести Хокинса, он признаёт, что его работа по нейробиологии / ИИ продвигает (неизвестной длины) путь в сторону СИИ, и он попытался осторожно обдумать о последствиях такого проекта – в противоположность более типичной точке зрения, объявляющей СИИ чьей-то чужой проблемой.
Так что я восхищён тем, что Хокинс посвятил большой раздел своей книги аргументам о катастрофических рисках СИИ. Но его аргументы – против катастрофического риска!! Что такое? Как он и я, начав с похожих точек зрения на две подсистемы, пришли к диаметрально противоположным заключениям?
Хокинс приводит много аргументов, и, опять же, я более подробно их рассмотрел в моём обзоре. Но тут я хочу подчеркнуть две самые большие проблемы, касающиеся этого поста.
Вот мой пересказ некоторых аргументов Хокинса. (Я перевожу их в используемую мной в этой цепочке терминологию, например, где он говорит «древний мозг», я говорю «Направляющая Подсистема». И, может быть, я немного груб. Вы можете прочитать книгу и решить для себя, насколько я справедлив.)
Каждый пункт по отдельности кажется вполне осмысленным. Но если сложить их вместе, тут зияющая дыра! Кого волнует, что неокортекс сам по себе безопасен? План вовсе не в неокортексе самом по себе! Вопрос, который надо задавать – будет ли безопасен СИИ, состоящий из обеих подсистем. И это критически зависит от того, как мы создадим Направляющую Подсистему. Хокинсу это неинтересно. А мне да! Дальше в цепочке будет куда больше на эту тему. В Посте №10 я особенно погружусь в тему того, почему чертовски сложнее, чем кажется создать Направляющую Подсистему, способствующую тому, чтобы СИИ делал что-то конкретное, что нам надо, не вложив в него также случайно опасные антисоциальные мотивации, которые мы не намеревались в него вкладывать.
Ещё одна (имеющая значение) проблема, которую я не упоминал в своём обзоре: я думаю, что Хокинс частично руководствуется интуитивным соображением, против которого я выступал в (Мозговой ствол, Неокртекс) ≠ (Базовые Мотивации, Благородные Мотивации) (и больше на эту тему будет в Посте №6): тенденцией необоснованно приписывать эгосинтонические мотивации вроде «раскрытия тайн вселенной» неокортексу (Обучающейся Подсистеме), а эгодистонические мотивации вроде голода и сексуального желания – мозговому стволу (Направляющей Подсистеме). Я заявляю, что все мотивации без исключения изначально исходят из Направляющей Подсистемы. Надеюсь, это станет очевидно, если вы продолжите читать эту цепочку.
На самом деле, мое заявление даже подразумевается в лучших частях книги самого Хокинса! К примеру:
Проговорю противоречие: если «мы» = модель в неокортексе, и модель в неокортексе не имеет целей и ценностей, то «мы» точно не жаждем лучшего будущего и не вынашиваем планы, чтобы обойти контроль мозгового ствола.
(Напомню: Часть 1 из 3 – Раздел 2.8 предыдущего поста.)
Выше (Раздел 3.4.3) я рассмотрел «Категорию A», минимальный набор составляющих для создания Направляющей Системы СИИ (не обязательно безопасного, только способного).
Я на самом деле не знаю, что в этом наборе. Я предположил, что вероятно нам понадобится какая-то разновидность стремления к любопытству, и может быть какое-то стремление обращать внимание на человеческие языки и прочую человеческую деятельность, и, может быть, какие-то сигналы для помощи в образовании нейронной архитектуры Обучающейся Подсистемы.
Если это так, ну, это не поражает меня как что-то очень сложное! Это уж точно намного проще, чем реверс-инжиниринг всего, что есть в человеческом гипоталамусе и мозговом стволе! Держите в голове, что есть довольно обширная литература по любопытству, как в машинном обучении (1, 2), так и в психологии. «Стремление обращать внимание на человеческий язык» не требует ничего сверх классификатора, который (с осмысленной точностью, он не обязан быть идеальным) сообщает, является ли данный звуковой ввод человеческой речью или нет; это уже тривиально с нынешними инструментами, может уже залито на GitHub.
Я думаю, нам стоит быть открытыми к возможности что не так уж сложно создать Направляющую Подсистему, которая (вместе с получившейся в результате реверс-инжиниринга Обучающейся Подсистемой, см. Раздел 2.8 предыдущего поста) может развиться в СИИ после обучения. Может, это не десятилетия исследований и разработки; может даже не годы! Может, компетентный исследователь может сделать это всего с нескольких попыток. С другой стороны – может и нет! Может, это супер сложно! Я думаю, сейчас очень сложно предсказать, сколько времени это займёт, так что нам стоит оставаться неуверенными.
Обладание полностью определённым алгоритмом с способностями СИИ – ещё не конец истории; его всё ещё надо реализовать, отполировать, аппаратно ускорить и распараллелить, исправить причуды, провести обучение, и т.д. Не стоит игнорировать эту часть, но не стоит и её переоценивать. Я не буду описывать это тут, потому что я недавно написал целый отдельный пост на эту тему:
Вдохновлённый-мозгом СИИ и «прижизненные якоря»
Суть поста: я думаю, что всё это точно можно сделать меньше, чем за 10 лет. Может, меньше чем за 5. Или это может занять дольше. Я думаю, нам стоит быть очень неуверенными.
Это заканчивает моё обсуждение сроков-до-подобного-мозгу-СИИ, что, опять же, не главная тема этой цепочки. Вы можете прочитать три его части (2.8, 3.7, и эта), согласиться или не согласиться, и прийти к своим собственным выводам.
Моё обсуждение «сроков» (Разделы 2.8, 3.7, 3.8) касалось вопроса прогнозирования «какое распределение вероятностей мне приписывать времени появления СИИ (если он вообще будет)?»
Полу-независимым от этого вопроса является вопрос отношения: «Что мне чувствовать по поводу этого распределения вероятностей?»
Например, два человека могут соглашаться с (допустим) «35% шансом СИИ к 2042», но иметь невероятно разное отношение к этому:
Есть много факторов, лежащих в основе таких разных отношений к одному и тому же убеждению о мире. Во-первых, некоторые факторы – больше про психологию, а не про фактические вопросы:
Источник картинки: Скотт Александер
Ещё, тут есть ощущение, выраженное в известном эссе «Заметив Дым», и этом меме:
Примерно основано на меме @Linch, если не ошибаюсь
Говоря явно, правильная идея – взвешивать риски и выгоды и вероятности переподготовки и недоподготовки к возможному будущему риску. Неправильная идея – добавлять в это уравнение дополнительный элемент – «риск глупо выглядеть перед моими друзьями из-за переподготовки к чему-то странному, что оказалось не таким уж важным» – и трактовать этот элемент как подавляюще более важный, чем все остальные, и затем через какое-то безумное странное выворачивание Пари Паскаля выводить, что нам не следует пытаться избежать потенциальной будущей катастрофы до тех пор, пока мы не будем уверены на >99.9%, что катастрофа действительно произойдёт. К счастью, это становится всё более и более обсуждаемой темой; ваши друзья всё с меньшей и меньшей вероятностью подумают, что вы странный, потому что безопасность СИИ стала куда более мейнстримной в последние годы – особенно благодаря агитации и педагогике Стюарта Расселла, Брайана Кристиана, Роба Майлза, и многих других. Вы можете поспособствовать этому процессу, поделившись этой цепочкой! ;-) (рад помочь – прим. пер.)
Отложив это в сторону, другие более вещественные причины разного отношения к срокам до СИИ включают вопросы:
Примечание переводчика - с момента перевода оригинальные посты несколько обновились, через некоторое время обновлю и перевод. На общие выводы цепочки это, вроде бы, не влияет.
Предыдущие два поста (№2 и №3) представили общую картину мозга, состоящего из Направляющей Подсистемы (мозговой ствол и гипоталамус) и Обучающейся Подсистемы (всё остальное), где последняя «обучается с чистого листа» в конкретном смысле, определённом в Посте №2.
Я предположил, что наши явные цели (например, «Хочу быть космонавтом!») возникают из взаимодействия этих двух подсистем, и понимание этого критически важно, если мы хотим научиться формировать мотивацию подобного-мозгу СИИ так, чтобы он пытался делать то, что мы хотим, чтобы он пытался делать, и избежать катастрофических происшествий, описанных в Посте №1.
Следующие три поста (№4-6) прорабатывают это дальше. Этот пост предоставляет необходимый нам ингредиент: «краткосрочный предсказатель».
Краткосрочное предсказание – одна из вещей, которые делает Обучающаяся Подсистема, я поговорю о других в следующих постах. Краткосрочный предсказатель получает управляющий сигнал («эмпирическую истину») извне и использует обучающийся алгоритм для построения модели, предсказывающей, каким будет этот сигнал через короткий промежуток времени (например, долю секунды) в будущем.
Этот пост содержит общее обсуждение того, как краткосрочные предсказатели работают, и почему они важны. Как мы увидим в следующих двух постах, они окажутся ключевым строительным элементом мотивации и обучения с подкреплением.
Тизер следующей пары постов: Следующий пост (№5) опишет, как определённый вид замкнутой схемы, обёрнутой вокруг краткосрочного предсказателя, превращает его в «долгосрочный предсказатель», связанный с обучением методом временных разниц (TD). Я заявлю, что в мозгу много таких долгосрочных предсказателей, созданных петлями «конечный мозг – мозговой ствол», одна из которых сродни «критику» из модели «субъект-критик» обучения с подкреплением. «Субъект» - это тема поста №6.
Содержание:
Представьте, что у вас есть работа или хобби, где есть конкретный распознаваемый сенсорный намёк (например, кто-то орёт «FORE!!!» в гольфе), а потом через пол секунды после этого намёка вам очень часто прилетает удар в лицо. Ваш мозг научится (непроизвольно) вздрагивать в ответ на этот намёк. В мозгу есть обучающийся алгоритм, управляющий этим вздрагиванием; вероятно, он эволюционировал для защиты лица. Об этом обучающемся алгоритме я и хочу поговорить в этом посте.
Я называю это «краткосрочным предсказателем». Это «предсказатель», потому что цель алгоритма – предсказать что-то заранее (например, приближающийся удар в лицо). Он «краткосрочный», потому что он должен предсказывать, что произойдёт, только на долю секунды в будущее. Это разновидность обучения с учителем, потому что есть «эмпирический» сигнал, задним числом показывающий, какой вывод алгоритму следовало произвести.
Наш «краткосрочный предсказатель» имеет «API» («программный интерфейс приложения» – т.е. каналы, через которые другие части мозга взаимодействуют с модулем «краткосрочного предсказателя») из трёх составляющих:
Контекстные сигналы не обязаны все иметь отношение к задаче предсказания. Мы можем просто закинуть туда целую кучу мусора, и обучающийся алгоритм автоматически отыщет контекстные данные, полезные для задачи предсказания, и будет игнорировать всё остальное.
Как краткосрочный предсказатель может работать на низком уровне?
Ну, предположим, что мы хотим получить сигнал вывода, предшествующий управляющему сигналу на 0.3 секунды – как выше, к примеру, мы хотели бы научиться вздрагивать до удара. Мы хватаем кучу контекстных данных, которые могут иметь отношение к делу – к примеру, нейроны, несущие частично обработанную сенсорную информацию. Мы отслеживаем, какие из этих контекстных потоков особенно вероятно срабатывают за 0.3 секунды до управляющего сигнала. И мы связываем эти потоки с выводом.
И готово! Легкотня.
В биологии это может выглядеть как что-то вроде синаптической пластичности с «трёхфакторным правилом обучения» - т.е. синапс становится сильнее или слабее в зависимости от активности трёх других нейронов (контекст, управление, вывод) и их относительного времени срабатывания.
Чёрные точки обозначают синапсы настраиваемой силы
Для ясности – краткосрочный предсказатель может быть намного, намного сложнее этого. Большая сложность может обеспечить лучшую работу. Приведу интересный пример, про который я совсем недавно узнал – оказывается, в краткосрочных предсказателях в мозжечке (Раздел 4.6 ниже) есть нейроны, которые каким-то образом могут хранить настраиваемый параметр временной задержки внутри самого нейрона(!!) (ссылка – это всплыло на этом подкасте). Другие возможные прибамбасы включают разделение паттернов (Пост №2, Раздел 2.5.4) и обучение одним и тем же управляющим сигналом большого количества выводов и их объединение (ссылка), или, ещё лучше – обучение большого количества выводов с одним и тем же управляющим сигналом, но разными гиперпараметрами, чтобы получить распределение вероятностей (оригинальная статья, дальнейшее обсуждение), и так далее.
Так что этот подраздел – сильное упрощение. Но я не буду извиняться, я думаю, что такие грубо упрощённые игрушечные модели важно рассказывать и держать в голове. С концептуальной точки зрения, мы получили ощущение правдоподобной истории того, как ранние животные могут начать с очень простой (но уже полезной) схемы, которая может затем стать более сложной по прошествии многих поколений. Так что привыкайте – в будущих постах вас ждёт ещё много грубо упрощённых игрушечных моделей!
Давайте вернёмся к примеру выше: вздрагиванию перед получением удара в лицо. Я предположил, что хороший способ решить, когда вздрогнуть – это обучающийся алгоритм «краткосрочного предсказателя». Вот альтернатива: мы можем жёстко прошить схему, определяющую, когда вздрогнуть. К примеру, если в поле зрения есть быстро увеличивающееся пятно, но, вероятно, это хороший момент, чтобы вздрогнуть. Такой детектор правдоподобно может быть прошит в мозгу.
Как сравнить эти два решения? Какое лучше? Ответ: нет нужды выбирать! Они взаимодополняющие. Можно иметь оба. Но всё же, педагогически полезно обговорить их сравнительные преимущества и недостатки.
Главное (единственное?) преимущество жёстко прошитой системы вздрагивания – она работает с рождения. В идеале, не надо получать удар в лицо ни разу. Напротив, краткосрочный предсказатель – обучающийся алгоритм, так что ему в общем случае надо «учиться на своих ошибках».
С другой стороны, у краткосрочного предсказателя есть два мощных преимущества над жёстко прошитым решением – одно очевидное, другое не столь очевидное.
Очевидное преимущество – краткосрочный предсказатель работает на прижизненном, а не эволюционном обучении, так что он может выучивать намёки на то, что надо вздрогнуть, которые редко или вовсе никогда не встречались у предыдущих поколений. Если я часто ударяюсь головой, когда вхожу в конкретную пещеру, я научусь вздрагивать. Нет никакого шанса, чтобы у моих предков эволюционировал рефлекс вздрагивать в этой конкретной части этой конкретной пещеры. Мои предки вообще могли никогда не заходить в эту пещеру. Сама пещера могла не существовать до прошлой недели!
Менее очевидное, но всё же важное преимущество – краткосрочный предсказатель может использовать как ввод выученные с чистого листа паттерны (Пост №2), а жёстко прошитая система вздрагивания – нет. Обоснование тут такое же, как в Разделе 3.2.1 предыдущего поста: геном не может точно знать, какие именно (если вообще какие-то) нейроны будут хранить информацию о конкретном выученном с чистого листа паттерне, так что геном не может жёстко прошить связи с этими нейронами.
Способность использовать выученные с чистого листа паттерны очень выгодна. К примеру, хороший намёк на вздрагивание может зависеть от выученных с чистого листа семантических паттернов (вроде знания «Я сейчас играю в гольф»), выученных с чистого листа зрительных паттернов (например, образ замахивающегося клюшкой человека) или выученных с чистого листа указаний на место (вроде «эта конкретная комната с низким потолком»), и т.д.
Схема краткосрочного предсказывания – особый случай обучения с учителем.
Обучение с учителем – это когда обучающийся алгоритм получает сигнал такого рода:
«Хе-хей, обучающийся алгоритм, ты облажался – тебе вместо этого следовало сделать то-то и то-то.»
Сравните это с обучением с подкреплением, при котором обучающийся алгоритм получает куда менее помогающий сигнал:
«Хе-хей, обучающийся алгоритм, ты облажался.»
(также известный как отрицательное вознаграждение). Очевидно, обучение с учителем может быть куда быстрее обучения с подкреплением. Управляющие сигналы, по крайней мере в принципе, говорят тебе точно, какие параметры менять и как, если ты хочешь лучше справиться в следующий раз в схожей ситуации. Обучение с подкреплением так не делает; вместо этого приходится учиться методом проб и ошибок.
В технических терминах машинного обучения, обучение с учителем «бесплатно» предоставляет полный градиент ошибки на каждом запросе, а обучение с подкреплением – нет.
Эволюция не всегда может использовать обучение с учителем. К примеру, если вы – профессиональный математик, пытающийся доказать теорему, и ваше последнее доказательство не работает, то нет никакого сигнала «эмпирической истины», сообщающего вам, что в следующий раз надо сделать по-другому – ни в вашем мозгу, ни где-то ещё в мире. Извините! Ваше пространство того, что можно сделать, имеет очень высокую размерность и никаких явных указателей. На каком-то уровне метод проб и ошибок – ваш единственный вариант. Не повезло.
Но эволюция может иногда использовать обучение с учителем, как в примерах в этом посте. И суть такова: если она может, скорее всего она использует.
Я сразу перескочу к тому, для чего, как я думаю, нужен мозжечок, а потом поговорю о том, как моя теория соотносится с другими предложениями в литературе.
Я утверждаю, что мозжечок – место обитания большого количества схем краткосрочного предсказывания.
Связи нейроанатомии мозжечка (красным) с нашей диаграммой выше. Как обычно (см. выше), я опускаю множество прибамбасов, которые делают краткосрочный предсказатель точнее, вроде ещё одного дополнительного слоя, который я не показываю, плюс разделение паттернов (Пост №2, Раздел 2.5.4), и т.д.
Насколько много краткосрочных предсказателей: Моя лучшая оценка: около 300000.[1]
Какого чёрта?? Зачем мозгу может понадобиться 300000 краткосрочных предсказателей?
У меня есть версия! Я думаю, что мозжечок смотрит на много сигнал в мозге и обучается сам посылать эти сигналы заранее.
Вот так. Это вся моя теория мозжечка.
Другими словами, мозжечок может открыть правило «С учётом нынешней контекстной информации, я предсказываю, что выходной нейрон коры №218502 активируется через 0.3 секунды». Тогда мозжечок просто берёт и посылает сигнал туда же прямо сейчас. Или наоборот, мозжечок может открыть правило «Учитывая нынешнюю контекстную информацию, я предсказываю, что проприоцептивный нерв №218502 активируется через 0.3 секунды». Опять же, мозжечок идёт на опережение и посылает сигнал туда же прямо сейчас.
Некоторые примерно-аналогичные концепции:
По сути, я думаю, что у мозга есть проблемы такого вида, что пропускная способность некой подсистемы вполне адекватная, но её время ожидания слишком высоко. В случае периферийных нервов время ожидания высоко, потому что сигналам надо пройти большое расстояние. В случае конечного мозга задержка высока потому что сигналам надо пройти не-такое-длинное-но-всё-же-существенное расстояние, а кроме этого им надо пройти через много последовательных шагов обработки. В любом случае, мозжечок может чудесным образом уменьшить время ожидания, заплатив за это периодическими ошибками. Мозжечок находится в центре событий, постоянно спрашивая себя «что за сигнал сейчас появится?» и предвосхищает его сам. И потом через долю секунды он видит, было ли предсказание корректным и обновляет свою модель, если не было. Это как маленькая волшебная коробочка путешествий во времени – линия задержки, чья задержка отрицательна.
И теперь у нас есть ответ: зачем нам надо ≈300000 краткосрочных предсказателей? Потому что периферийных нервов и потоков вывода конечного мозга и может ещё чего много. И многие из этих сигналов выгодно предсказывать-и-предвосхищать! Чёрт, если я понимаю правильно, то мозжечок может даже предсказать-и-предвосхитить сигнал, который конечный мозг посылает сам себе!
Вот моя теория. Я не запускал никаких симуляций; это просто идея. См. здесь и здесь два примера, где я использовал эту модель, чтобы попытаться понять наблюдения из нейробиологии и психологии. Всё остальное, что я знаю про мозжечок – нейроанатомия, как он соединён с другими частями мозга, исследования повреждений и визуализации, и т.д. – всё, насколько я могу сказать, кажется хорошо соответствующим моей теории. Но на самом деле, этот маленький раздел – это почти что сумма всего, что я знаю на эту тему.
(Я тут не эксперт и открыт для поправок.)
Я думаю, широко признано, что мозжечок вовлечён в обучении с учителем. Вроде бы, эта идея называется моделью Марра-Альбуса-Ито, см. Марр 1969 или Альбус 1971, или занимательный YouTube канал Brains Explained.
Напомню, что краткосрочный предсказатель – это случай алгоритма обучения с учителем как более широкой категории. Так что часть про обучение с учителем – не отличительная черта моего предложения, и, например, диаграмма выше (с указанием анатомических деталей мозжечка красным) совместима с обычной картиной Марра-Альбуса-Ито. Отличительный аспект моей теории – чем являются эмпирические сигналы (или чем являются сигналы ошибки – всё равно).
В Посте №2 я упоминал, что когда я вижу прижизненный обучающийся алгоритм, у меня возникает немедленный вопрос: «На каких эмпирических данных он учится?» Я также упоминал, что обычно поиски ответа на этот вопрос в литературе приводят к замешательству и неудовлетворённости. Литература о мозжечке – идеальный тому пример.
К примеру, я часто слышу что-то вроде «синапсы мозжечка обновляются при моторных ошибках». Но кто говорит, что считается моторной ошибкой?
Откуда мозжечку знать? Непонятно.
Я читал несколько вычислительных теорий по поводу мозжечка. Они обычно куда сложнее моей. И они всё ещё оставляют ощущение непонимания, откуда берутся эмпирические данные. Для ясности, я не читал тщательно каждую такую статью, и вполне возможно, что я что-то упустил.
Ну, в любом случае, это не сильно влияет на эту цепочку. Как я упоминал ранее, вы можете быть функционирующим взрослым человеком, способным жить независимо, работать и т.д., вовсе без мозжечка. Так что даже если я полностью неправ по его поводу, это не должно сильно влиять на общую картину.
В вашей коре находится богатая генеративная модель мира, включающего вас самих. Много раз в секунду ваш мозг использует эту модель, чтобы предсказать поступающие сенсорные вводы (зрение, звук, прикосновение, проприоцепция, интероцепция, и т.д.), и, когда его предсказания неверны, модель обновляется в результате ошибки. Так, к примеру, вы можете открыть дверцу вашего шкафа и немедленно понять, что кто-то смазал петли. Вы предсказывали, что это будет звучать и ощущаться определённым образом, и это предсказание было опровергнуто.
С моей точки зрения, предсказательное обучение сенсорных вводов – это главный двигатель запихивания информации из мира в нашу модель мира в коре. Я поддерживаю цитату Яна Лекуна: «Если бы интеллект был тортом, то его основой было бы [предсказательное обучение сенсорных вводов], глазурью – [остальные виды] обучение с учителем, а вишенкой на торте – обучение с подкреплением». Просто количество битов информации, которые мы получаем предсказательным обучением сенсорных вводов подавляюще превосходит все остальные источники.
Предсказательное обучение сенсорных вводов – в том конкретном смысле, в котором я это тут использую – не большая общая теория мышления. Большая проблема возникает, когда оно сталкивается с «решениями» (какие мышцы двигать, на что обращать внимание, и т.д.). Рассмотрим следующее: я могу предсказать, что я буду петь, а потом петь, и предсказание получится правильным. Или я могу предсказать, что я буду танцевать, а потом танцевать, и тогда это предсказание было правильным. Так что у предсказательного обучения есть недостаток; оно не может помочь мне сделать правильное действие. Потому нам нужна ещё и Направляющая Подсистема (Пост №3), посылающая управляющие сигналы и сигналы вознаграждения обучения с подкреплением. Эти сигналы могут продвинуть хорошие решения ток, как предсказательное обучение сенсорных вводов не может.
Всё же, предсказательное обучение сенсорных вводов – это очень важная штука для мозга, и о ней можно много чего сказать. Однако, я рассматриваю её как одну из многих тем, которые очень напрямую важны для создания подобного–мозгу СИИ, но лишь немного относятся к его безопасности. Так что я буду упоминать её время от времени, но если вы ищете точных деталей, вы сами по себе.
Эти примеры тоже не будут важны для этой цепочки, так что я не буду много о них говорить, но просто для интереса вот ещё три случайные штуки, которые, как я думаю, Эволюция может делать с помощью краткосрочных предсказателей.
———
Примечание переводчика - с момента перевода оригинальные посты несколько обновились, через некоторое время обновлю и перевод. На общие выводы цепочки это, вроде бы, не влияет.
В предыдущем посте я описал «краткосрочные предсказатели» – схемы, которые благодаря обучающемуся алгоритму выводят предсказание управляющего сигнала, который прибудет через некоторое небольшое время (например, долю секунды).
В этом посте я выдвигаю идею, что можно взять краткосрочный предсказатель, обернуть его замкнутой петлёй, включающей ещё некоторые схемы, и получить новый модуль, который я называю «долгосрочным предсказателем». Как и кажется по названию, такая схема может делать долгосрочные предсказания, например, «Я скорее всего поем в следующие 10 минут». Как мы увидим, эта схема тесно связана с обучением методом Временных Разниц (TD).
Я считаю, что в мозгу есть большой набор расположенных рядом долгосрочных предсказателей, каждый из которых состоит из краткосрочного предсказателя в конечном мозге (включая специфические его области вроде полосатого тела, медиальной префронтальной коры и миндалевидного тела), образующим петлю с Направляющей Подсистемой (гипоталамус и мозговой ствол) с помощью дофаминовых нейронов. Эти долгосрочные предсказатели прогнозируют биологически-важные вводы и выводы – к примеру, один из них может предсказывать, почувствую ли я боль в своей руке, другой – произойдёт ли выброс кортизола, третий – поем ли я, и так далее. Более того, один из этих долгосрочных предсказателей – по сути, функция ценности для обучения с подкреплением.
Все эти предсказатели будут играть большую роль в мотивации – об этом я закончу рассказывать в следующем посте.
Содержание:
«Долгосрочный предсказатель» – это, по сути, краткосрочный предсказатель, чей выходной сигнал помогает определить его собственный управляющий сигнал. Вот игрушечная модель того, как это может выглядеть:
Игрушечная модель схемы долгосрочного предсказателя. Следующую пару подразделов я буду описывать, как это работает. На этой и похожих диаграммах в этом посте, все блоки в каждый момент времени работают параллельно, и, аналогично, каждая стрелка в каждый момент времени несёт числовое значение. Так что это НЕ диаграмма потока выполнения последовательного кода, это скорее похоже на, например, диаграммы, которые можно увидеть в описании FPGA.
Замечу: Вы можете считать, что все сигналы на диаграмме могут непрерывно изменяться по диапазону значений (в противоположность дискретным сигналам вкл/выкл), за исключением сигнала управления переключателем.[2] В мозгу плавно-настраиваемые сигналы могут создаваться, к примеру, кодированием через частоту активаций нейрона.
Давайте пройдёмся по тому, что происходит в этой игрушечной модели.[3] Для начала, предположим, что на протяжении некоторого протяжённого периода времени «контекст» статичен. К примеру, представьте, как какое-нибудь древнее червеподобное существо много последовательных минут копается в песчаном дне океана. Правдоподобно, что пока оно копает, его сенсорное окружение будет оставаться довольно постоянным, и также постоянными будут оставаться его мысли и планы (в той мере, в которой у древнего червеподобного существа вообще есть «мысли и планы»). Или, если хотите другой пример (приблизительно) статичного контекста – с участием человека, а не червя – подождите следующего подраздела.
В этом случае, давайте посмотрим, что происходит, когда переключатель находится в положении «довериться-предсказателю»: поскольку вывод связан с управляющим сигналом, обучающийся модуль не получит сигнала об ошибке. Предсказание верно. Синапсы не меняются. Эта ситуация, сколь бы ни была частой, не повлияет на поведение краткосрочного предсказателя.
Что на него повлияет – те редкие случаи, когда переключатель переходит в режим «перехватить». Можно думать об этом как о периодическом «впрыскивании эмпирической истины». В этих случаях обучающийся алгоритм краткосрочного предсказания получает сигнал об ошибке, что меняет его настраиваемые параметры (например, силу синапсов).
Набрав достаточно жизненного опыта (или, что то же самое, после достаточного обучения), краткосрочный предсказатель должен получить свойство балансирования перехватов. Перехваты всё ещё могут увеличивать производство энзимов, а иногда могут его снижать, но эти два типа перехватов должны происходить с примерно одинаковой частотой. Ведь если бы они не были сбалансированы, то алгоритм обучения краткосрочного предсказания постепенно изменил бы его параметры, чтобы перехваты всё же были сбалансированы.
И это как раз то, что нам надо! Мы получаем подходящее производство энзимов в подходящее время, способом, в нужной мере учитывающим доступную контекстную информацию – что животное сейчас делает, что планирует делать, его сенсорные вводы, и т.д.
Так вышло, что я недавно прочёл книгу Дэвида Бернса Терапия Настроения (мой обзор). У Дэвида Бернса очень интересный подход к экспозиционной терапии – служащий отличным примером того, как моя игрушечная модель работает в ситуации статичного контекста!
Вот короткая версия. (Предупреждение: если вы думаете самостоятельно заниматься экспозиционной терапией в домашних условиях, по меньшей мере сначала прочитайте всю книгу!) Отрывок из книги:
Во время обучения в старшей школе я хотел попасть в команду технических помощников сцены для постановки мюзикла «Бригадун». Учитель драмы, мистер Крэнстон, сказал мне, что помощники сцены должны забираться на высокие лестницы и ползать по балкам под потолком, чтобы регулировать свет. Я ответил, что для меня это может оказаться проблемой, ведь я боюсь высоты. Он объяснил, что я не смогу стать частью команды помощников сцены, пока не захочу преодолеть свой страх. Я спросил, как это сделать.
Мистер Крэнстон ответил, что это довольно просто. Он установил 18-футовую лестницу по центру сцены, сказал мне забраться на нее и встать на верхнюю перекладину. Я доверял ему, поэтому поднимался по лестнице, перекладина за перекладиной, пока не оказался наверху. Вдруг я увидел, что там не за что держаться, и пришел в ужас! Я спросил, что мне делать дальше. Мистер Крэнстон ответил, что не нужно ничего делать, просто стоять там, пока не уйдет страх. Он ждал меня внизу лестницы и подбадривал, чтобы я продолжал стоять.
В течение 15 минут я пребывал в полном оцепенении. Затем мой страх вдруг начал уходить. Через минуту или две он полностью исчез. Я с гордостью объявил: «Мистер Крэнстон, думаю, я исцелился. Я больше не боюсь высоты».
Он сказал: «Прекрасно, Дэвид! Ты можешь спускаться. Будет здорово, если ты присоединишься к команде помощников сцены для мюзикла «Бригадун»».
Я гордился тем, что стал помощником сцены. Мне понравилось ползать по балкам под потолком, закрепляя занавес и свет. Я удивлялся, что прежний источник моих страхов может приносить столько восторга.
Эта история кажется прекрасно совместимой с моей игрушечной моделью. Дэвид начал день в состоянии, когда его краткосрочные предсказатели выдавали очень сильную реакцию страха, когда он забирался на высоту. Пока Дэвид оставался на лестнице, эти краткосрочные предсказатели продолжали получать одни и те же контекстные данные, и продолжали выдавать всё такой же вывод. И Дэвид продолжал быть в ужасе.
Потом, после 15 скучных-но-ужасающих минут на лестнице, какая-то внутренняя схема в мозговом стволе Дэвида произвела *перехват* – как будто сказала «Слушай, ничего не меняется, ничего не происходит, мы не можем просто весь день продолжать сжигать на это калории». Краткосрочный предсказатель продолжил посылать всё тот же вывод, но мозговой ствол применил своё право вето и насильно «перезагрузил» Дэвиду уровень кортизола, пульс, и т.д., вернув их обратно на базовое значение. Это состояние «перехвата» немедленно привело к получению краткосрочным предсказателем в миндалевидном теле Дэвида *сигналов об ошибке*! Эти сигналы, в свою очередь, привели к обновлению модели! Краткосрочные предсказатели оказались обновлены, и с тех пор Дэвид больше не боялся высоты.
Конечно эта история выглядит спекуляцией на спекуляции, но я всё равно думаю, что она верна. По крайней мере, это хороший пример! Вот диаграмма для этой ситуации, удостоверьтесь, что не упускаете шагов.
Предыдущий подраздел предполагал статичные потоки контекстных данных (постоянная сенсорная информация об окружении, постоянное поведение, постоянные мысли и планы, и т.д.). Что происходит, если контекст не статичен?
При изменениях в потоках контекстных данных обучение происходит не только при «перехватах». Если контекст меняется без «перехватов», то это приводит к изменениям вывода, и новый вывод будет трактоваться как эмпирическая истина о том, каким должен был быть старый вывод. Опять же, это кажется в точности тем, что нам надо? Если мы обучаемся чему-то новому и оказавшемуся важным в последнюю секунду, то наше текущее ожидание должно быть точнее, чем раннее, так что у нас есть основание для обновления нашей модели.
К этому моменту эксперты в машинном обучении должны распознать сходство с обучением методом Временных Разниц. Однако, это не совсем одно и то же. Различия:
Первое, обучение методом Временных Разниц обычно используется в обучении с подкреплением как метод перехода от функции вознаграждения к функции ценности. Я, напротив, говорю о штуках вроде «производства пищеварительных энзимов», которые не являются ни вознаграждениями, ни ценностями.
Другими словами, есть в целом полезный мотив перехода от некого немедленного значения X к «долгосрочному ожиданию X». Вычисление функции ценности из функции вознаграждения – пример этого мотива, но не исчерпывающий.
(В плане терминологии, мне кажется вполне общепринятым, что термин «обучение методом Временных Разниц» на самом деле может относиться к чему-то, не являющемуся функцией ценности обучения с подкреплением.[4] Однако, по моему собственному эмпирическому опыту, как только я упоминаю этот метод, мои собеседники немедленно начинают подразумевать, что я говорю о функциях ценности обучения с подкреплением. Так что мне приходится тут прояснять.)
Второе, чтобы получить что-то более похожее на традиционное обучение методом Временных Разниц, нам потребовалось бы заменить переключатель между двумя вариантами сумматором – и тогда «перехваты» были бы аналогичны наградам. Куда больше о «переключении против суммирования» – в следующем подразделе.
Вот схема обучения методом Временных Разниц, которая вела бы себя похоже на то, что вы можете найти в учебных пособиях по ИИ. Обратите внимание на фиолетовый прямоугольник справа: в отличии от предыдущей диаграммы, тут не *переключатель*, а *сумматор*. Куда больше о «переключении против суммирования» – в следующем подразделе.
Третье, есть много дополнительных способов поправить эту схему, которые часто используют в литературе по ИИ, и некоторые из них могут встречаться и в схемах в мозгу. К примеру, мы можем добавить обесценивание со временем, или разные реакции на ложно-положительные и ложно-отрицательные сигналы (см. моё рассмотрение обучения распределениям в Разделе 5.5.6.1 ниже), и т.д.
Чтобы всё не становилось слишком сложным, я буду игнорировать эти возможности (включая обесценивание со временем) ниже.
Диаграммы выше показывают два варианта нашей игрушечной модели. В одном фиолетовый прямоугольник – переключатель между состоянием «доверия краткосрочному предсказателю» и некой независимой «эмпирической истиной». В другом в фиолетовом прямоугольнике вместо этого происходит суммирование.
В версии с переключателем краткосрочный предсказатель обучается предсказывать следующие эмпирические данные, когда бы они ни поступили.
В версии с сумматором, краткосрочный предсказатель обучается предсказывать сумму будущих эмпирических сигналов.
Правильным ответом может быть ещё «что-то промежуточное между переключением и суммированием». Или даже «ничто из этого».
Статьи по обучению с подкреплением повсеместно используют версию суммирования – т.е. «ценность – это ожидаемая сумма будущих наград». Что про биологию? И что на самом деле лучше?
Это не всегда вообще имеет значение! Рассмотрим AlphaGo. Как и повсюду в AlphaGo изначально использовалась парадигма суммирования. Но получилось так, что за каждую игру он получает только один ненулевой сигнал вознаграждения, если конкретно, +1 в конце игры, если он выигрывает, или -1 – если проигрывает. В таком случае, переключатель и сумматор ничем друг от друга не отличаются. Разница только в терминологии:
(Видите, почему?)
Но в других случаях это важно. Так что вернёмся к вопросу: это должно быть переключение или суммирование?
Давайте сделаем шаг назад. Чего мы пытаемся добиться?
Одна из штук, которые должен делать мозг – это принимать решения, взвешивая при этом выгоды из разных областей. Если вы человек, то вам надо решать, посмотреть телевизор или пойти в спортзал. Если вы некое древнее червеподобное существо, то вам надо «решать» – копать или плавать. В любом случае, это «решение» затрагивает энергетический баланс, солевой баланс, вероятность травм, вероятность размножения – и много чего ещё. Проектная цель алгоритма принятия решений – принимать такие решения, которые будут максимизировать совокупную генетическую приспособленность. Как это может быть лучше всего реализовано?
Один из методов включает создание функции ценности, которая оценивает совокупную генетическую приспособленность организма (сравнительно с некой произвольной, и может, меняющейся со временем точкой отсчёта), при условии продолжения выполнения данного курса действий. Конечно, это не идеальная оценка – настоящая совокупная генетическая приспособленность может быть вычислена только задним числом, ещё через много поколений. Но когда у нас есть такая функция ценности, сколь бы неидеальной она ни была, мы можем подключить её к алгоритму, принимающему решения, максимизирующие ценность (больше про это в следующем посте), и таким образом получить приблизительно-максимизирующее-приспособленность поведение.
Так что обладание функцией ценности – ключ к принятию хороших решений, учитывающих выгоду в разных областях. Но тут нигде не сказано «ценность – это ожидаемая сумма будущих вознаграждений»! Это конкретный способ настройки этого алгоритма; метод, который может подходить, а может и не подходить к конкретной ситуации.
Я думаю, что мозг использует что-то более похожее на схему с переключателем, а не на схему с сумматором, причём не только для предсказаний гомеостаза (как в примере пищеварительных энзимов выше), но и для функции ценности, вопреки мейнстримным статьям об обучении с подкреплением. Опять же, я считаю, что на самом деле это «ничто из этого» во всех этих случаях; просто это ближе к переключателю.
Почему я отдаю предпочтение «переключателю», а не «сумматору»?
Пример: иногда я стукаюсь пальцем и он болит 20 секунд; в другой раз я стукаюсь пальцем и он болит 40 секунд. Но я не думаю о втором событии как о вдвое худшем, чем первое. На самом деле, уже через пять минут, я не вспомню, какая из двух ситуаций это была. (см. правило пика-и-конца.) Это то, чего я бы ожидал от переключателя, но довольно плохо подходит для сумматора. Это не строго несовместимо с суммированием; просто требует более сложной и зависящей от ценности функции вознаграждения. На самом деле, если мы это позволяем, то переключатель и сумматор могут имитировать друг друга.
В любом случае, в следующих постах я буду подразумевать переключатели, не сумматоры. Я не думаю, что это на большом масштабе очень важно, и я точно не думаю, что это часть «секретного ингредиента» интеллекта животных, или что-то такое. Но это влияет на некоторые детальные описания.
Следующий пост будет включать больше деталей обучения с подкреплением в мозгу, включая то, как работает сигнал «ошибки предсказания вознаграждения». Я готовлюсь к тому, что много читателей будут в замешательстве от того, что я подразумеваю не такую связь ценности с вознаграждением, к которой все привыкли. К примеру, в моей картине «вознаграждение» синонимично «эмпирическим данным о том, какой сейчас следует быть функции ценности» – и то, и другое должно учитывать не только текущие обстоятельства организма, но и будущие перспективы. Заранее прошу прощения за замешательство! Я изо всех сил попробую быть яснее.
Вот наша схема долгосрочного предсказателя:
Скопировано с схемы выше.
Я могу соединить переключатель с остальной генетически-прошитой схемой и немного переместить прямоугольники, тогда получится это:
То же, что и выше, но нарисованное по-другому.
Очевидно, пищеварительные энзимы – лишь один пример. Давайте дорисуем ещё примеров, добавим гипотетическую нейронанатомию и ещё немного терминов. Вот, что получится:
Я заявляю, что в мозгу есть целый набор долгосрочных предсказателей, состоящий из краткосрочных предсказателей в конечном мозге, каждый из которых петлёй связан с соответствующей схеме в Направляющей Подсистеме. По причинам, описанным ниже в Разделе 5.5.4, я называю первую часть (в конечном мозге) «Оценщиками Мыслей».
Замечательно! Мы на полпути к моей большой картине принятия решений и мотивации. Остаток – включая «субъекта» из обучения с подкреплением «субъект-критик» – будет в следующем посте, он заполнит дыру в верхней-левой части диаграммы.
Вот ещё одна диаграмма с педагогическими пометками.
Напоминание: «краткосрочный предсказатель» - это *один из компонентов* «долгосрочного предсказателя». Тут показано, как они оба располагаются на предыдущей диаграмме. Долгосрочный предсказатель обеспечивается режимом «довериться предсказателю» - т.е. Направляющая Подсистема может посылать сигнал «эмпирической истины задним числом», который является не «эмпирической истиной» в нормальном смысле, но скорее копией соответствующего элемента «оценочной таблицы». Другими словами, режим «довериться предсказателю» можно описать как то, что Направляющая Подсистема говорит краткосрочному предсказателю «ОК, конечно, принято, верю тому, что ты говоришь». Если Направляющая Подсистема регулярно придерживается сигнала «довериться предсказателю» 10 минут подряд, то мы может получать прогнозирование будущего на 10 минут. Напротив, если Направляющая Подсистема *никогда* не использует для какого-то сигнала режим «довериться предсказателю», то получившуюся конструкцию вовсе нельзя назвать «долгосрочным предсказателем».
В следующих двух подразделах, я подробнее опишу нейроанатомию, на которую я даю намёки на этой диаграмме, и поговорю о том, почему вам стоит мне поверить.
В моём посте Большая Картина Фазового Дофамина, я рассказывал о теории (за авторством Ларри Свансона), что весь конечный мозг изящно организован в три слоя (кора, полосатое тело, паллидум):
**Подобная-коре часть петли** | Гиппокампус | Миндалевидное тело [базолатеральная часть] | Грушевидная кора | Медиальная префронтальная кора | Моторная и «планирующая» кора |
**Подобная-полосатому-телу часть петли** | Латеральная перегородочная зона | Миндалевидное тело [центральная часть] | Обонятельный бугорок | Вентральное полосатое тело | Дорсальное полосатое тело |
**Подобная-паллидуму часть петли** | Медиальная перегородочная зона | BNST | Безымянная субстанция | Вентральный паллидум | Дорсальный паллидум |
Весь конечный мозг – неокортекс, гиппокампус, миндалевидное тело, всё остальное – может быть разделён на подобные-коре, подобные-полосатому-телу и подобные-паллидуму структуры. Если две структуры в таблице в одном столбце, это значит, что они связаны вместе в петлю «кора-базальные ганглии-таламус-кора» (см. следующий параграф). Эта таблица неполна и упрощена; для версии получше см. Рис. 4 здесь.
Эта идея связывается с ранней (и сейчас широко принятой) теорией (Александер 1986), что эти три слоя конечного мозга взаимосвязаны большим количеством параллельных петель «кора-базальные ганглии-таламус-кора», которые можно обнаружить почти в любой части конечного мозга.
Вот небольшая иллюстрация:
Упрощённая иллюстрация массива параллельных петель «кора-базальные ганглии-таламус-кора». Источник: Мэтью Тибуст.
С учётом всего этого, вот возможная грубая модель того, как эта петельная архитектура связана с обучающимся алгоритмом краткосрочных предсказателей, о котором я говорил:
ПРЕДУПРЕЖДЕНИЕ: НЕ ВОСПРИНИМАЙТЕ ЭТУ ДИАГРАММУ СЛИШКОМ БУКВАЛЬНО
См. Большую Картину Фазового Дофамина за *немного* более подробными деталями, но вообще я не особо много в это погружался, и, в частности ярлыки «Слой 1, Слой 2, Последний (суюдискретизирующий) слой» расставлены почти наугад. («Субдискретизация» основана на том, что в полосатом теле в 2000 раз больше нейронов, чем в паллидуме – см. здесь.)
Сокращения: BLA = базолатеральное миндалевидное тело, BNST = опорное ядро терминального тяжа, CEA = центральное миндалевидное тело, mPFC = медиальная префронтальная кора, VP = вентральный паллидум, VS = вентральное полосатое тело.
Предыдущий подраздел весь был про «вертикальную» трёхслойную структуру конечного мозга. Сейчас давайте переключимся на «горизонтальную» структуру, т.е. тот факт, что разные части коры делают разные вещи (в кооперации с соответствующими частями полосатого тела и паллидума).
Это упрощение, но вот моя новейшая попытка объяснить (часть) коры на пальцах:
В этой цепочке я не буду говорить про моторную кору, но я думаю, что остальные три все вовлечены в схемы долгосрочного предсказания. К примеру:
Если начать производить пищеварительные энзимы перед едой, то пища будет переварена быстрее. Если начать разгонять сердце до того, как вы увидите льва, то мышцы будут уже подготовлены убегать, когда вы увидите льва.
Так что такие предсказатели кажутся очевидно полезными.
Более того, как обсуждалось в предыдущем посте (Раздел 4.5.2), предлагаемая мной (основанная на обучении с учителем) техника кажется либо превосходящей, либо хорошо сочетающейся с другими способами это сделать.
Вообще, мы на самом деле начинаем слюновыделение до того, как съели крекер, начинаем нервничать до того, как видим льва, и т.д.
Ещё учтите тот факт, что все действия, о которых я говорил в этом посте непроизвольны: вы не можете выделять слюну по команде, расширять свои зрачки по команде и т.д, по крайней мере не так же, как можете подвигать пальцем по команде.
(Больше о произвольных действиях в следующем посте – они в совсем другой части конечного мозга.)
Я тут замалчиваю о многих сложностях, но непроизвольная природа этих вещей кажется удобно сочетающейся с идеей, что они обучаются своими собственными управляющими сигналами, прямо из мозгового ствола. Можно сказать, что они случат другому господину. Мы можем как-то обхитрить их и заставить вести себя определённым образом, но наш контроль ограниченный и непрямой.
Как описано в Разделе 4.4 предыдущего поста, простейший краткосрочный предсказатель невероятно прост, а простейший долгосрочный предсказатель лишь немногим сложнее. И эти очень простые версии уже правдоподобно полезны для приспособленности, даже у очень простых животных.
Более того, как я уже обсуждал некоторое время назад (Управляемое дофамином обучение у млекопитающих и плодовых мух), у плодовых мух есть массив маленьких обучающихся модулей, играющих роль, кажущуюся схожей с тем, о чём я тут говорю. Эти модули тоже используют дофамин в качестве управляющего сигнала, и есть некоторое генетическое свидетельство гомологии этих схем с конечным мозгом млекопитающих.
Возьмём mPFC (также включающую переднюю поясную кору) как пример. Люди пытаются говорить об этой области двумя довольно разными способами:
Я думаю, моя картина работает и там, и там[5]:
С первой (висцемоторной) точки зрения, если вы взглянете на Раздел 5.2. выше, то вы увидите, что выводы предсказателей действительно приводят к гомеостатическим изменениям – как минимум, когда генетически-прошитые схемы Направляющей Подсистемы посылают сигнал в режиме «довериться предсказателю» (а не «перехвата»).
Касательно второй (мотивационной) точки зрения, это будет иметь больше смысла после следующего поста, но отметьте предложенное мной описание «оценочной таблицы» в диаграмме в Разделе 5.4. Идея такая: потоки «контекста» входящие в «Оценщики Мыслей» содержат ужасающую сложность всего вашего сознательного разума и даже больше – где вы, что вы видите и делаете, о чём вы думаете, что вы планируете делать в будущем и почему, и т.д. Довольно простая, генетически закодированная Направляющая Подсистема никак не может во всём этом разобраться!
Но ведь Направляющая Подсистема – источник наград / стремлений / мотиваций! Как она может предоставлять награду за хороший план, если она вовсе не может разобраться в том, что вы планируете??
Ответ – «оценочная таблица». В ней вся эта ужасающая сложность дистиллируется в стандартизированную табличку – как раз то, что генетически-заходированные схемы Направляющей Подсистемы могут легко обработать.
Так что любое взаимодействие между мыслями и стремлениями – эмоции, принятие решений, этика, антипатия, и т.д. – должно на промежуточном шаге вовлекать «Оценщики Мыслей».
См. мой старый пост Внутреняя согласованность в лишённых-соли крысах. Если коротко, экспериментаторы периодически проигрывали звук и выдвигали объект в клетку с крысами, и немедленно после этого впрыскивали прямо им во рты очень солёную воду. Крысы считали её отвратительной, и с ужасом реагировали на звук и объект. Потом экспериментаторы лишили крыс соли. И после этого когда они играли звук и выдвигали объект, крысы становились очень радостно возбуждёнными – хоть раньше и не испытывали недостатка соли ни разу за всю свою жизнь.
Это в точности то, чего мы бы ожидали в нашей схеме: когда звук и объект появляются, предсказатель «я предчувствую вкус соли» начинает быть бешено активным. В то же время, Направляющая Подсистема (гипоталамус и мозговой ствол) имеют прошитую схему, заявляющую «Если у меня недостаток соли, а «оценочная таблица» Обучающейся Подсистемы предполагает, что я скоро почувствую вкус соли, то это замечательно, и я должен следовать той идее, которую сейчас думает Обучающаяся Подсистема!»
Напомню, что выше в Разделе 5.4.1 я заявлял, что дофаминовые нейроны несут управляющие сигналы всех этих модулей обучения с подкреплением.[6]
Есть научно-популярное заблуждение о том, что есть (единый) дофаминовый сигнал в мозгу, срабатывающий, когда происходит что-то хорошее. На самом деле, там есть множество разных дофаминовых нейронов, делающих разные вещи.
Так мы получаем вопрос: что делают все эти разнообразные дофаминовые сигналы? Консенсуса нет; в литературе есть самые разные заявления. Но я могу вбросить ещё и своё: в описанной мной картине, в конечном мозге, вероятно, есть сотни тысяч краткосрочных предсказателей, предсказывающих сотни тысяч разных вещей, и каждому нужен свой управляющий дофаминовый сигнал!
(И дофаминовых сигналов ещё больше, не только эти! Один такой сигнал, ассоциируемый с «главным» сигналом вознаграждения ошибки предсказания, будет обсуждаться в следующем посте. Прочие сигналы не входят в тему этой цепочки, но обсуждаются здесь.)
Если моя модель правильна, то что нам ожидать от экспериментов с измерением дофамина?
Представьте крысу, бегающую по лабиринту. В каждый момент времени её массив предсказателей получает управляющие сигналы о уровнях различных гормонов, пульсе, ожиданиям питья и еды, больной ноге, холоде, вкусе соли, и так далее. Говоря коротко, мы ожидаем, что активность дофаминовых нейронов скачет вверх и вниз самыми разными способами.
Так что, в общем-то каждый случай, когда экспериментатор выяснял, что дофаминовый нейрон коррелирует с какой-то поведенческой переменной, это, наверное, вписывается в мою картину.
Вот пара примеров:
Вот ещё данные, кажущиеся подтверждающими мою картину. Некоторые дофаминовые нейроны активируются, когда происходит что-то неприятное (ссылка). Четыре из пяти областей[7], в которых можно обнаружить такие нейроны (согласно статье по ссылке) – в точности те, где я ожидаю существование краткосрочных предсказателей – конкретнее, это подобный-коре и подобный-полосатому-телу слои миндалевидного тела, медиальная префронтальная кора (mPFC) и вентромедиальная оболочка прилежащего ядра, являющаяся (по крайней мере примерно) частью петель «кора-базальные ганглии-маламус-кора», находящейся в полосатом теле. Это в точности то, что я бы ожидал. К примеру, если мышь шокирована, то предсказатель «следует ли мне сейчас замереть» получает управляющий сигнал «Да, тебе сейчас следовало замереть».
Я не говорил об этом в предыдущем посте, но обучающиеся алгоритмы краткосрочных предсказателей имеют гиперпараметры, два из которых – «как сильно обновляться после ложноположительной (перелёт) ошибки» и «как сильно обновляться после ложноотрицательной (недолёт) ошибки». Соотношение этих гиперпараметров может варьироваться от 0 до ∞, так что получившийся предсказатель может варьироваться от «активируй вывод, если есть хоть малейший шанс, что управляющий сигнал сработает» до «не активируй сигнал, если нет полной уверенностью, что управляющий сигнал сработает.»
Таким образом, если у нас есть много предсказателей, и у каждого своё соотношение гиперпараметров, то мы можем (хотя бы приблизительно) выводить распределение вероятности предсказания, а не просто одну оценку.
Недавний набор экспериментов от DeepMind и сотрудничающих с ними обнаружил свидетельство (основанное на измерениях дофаминовых нейронов), что мозг действительно использует этот трюк, по крайней мере для предсказания вознаграждения.
Я предполагаю, что он может использовать тот же трюк и в других долгосрочных предсказателях – к примеру, может быть, предсказания и боли в руке, и кортизола, и гусиной кожи – все выдаются группами долгосрочных предсказателей, составляющих распределения вероятностей.
Я поднял эту тему в первую очередь потому, что это ещё один пример того, как дофаминовые нейроны ведут себя, кажется, очень хорошо укладывающимся в мою картину образом, а во-вторых, потому что это вполне может быть полезно для безопасности СИИ – так что я в любом случае искал повод это упомянуть!
Как обычно, я не претендую на то, что у меня есть неопровержимое доказательство молей гипотезы (т.е. что в мозгу есть массивы долгосрочных предсказателдей с участием петель «конечный мозг – мозговой ствол»). Но с учётом свидетельств в этом и предыдущем подразделах, я пришёл к сильному ощущению, что я примерно на правильном пути. Я с радостью обсужу это подробнее в комментариях. А в следующем посте мы наконец-то сложим всё это вместе в большую картину того, как, по моему мнению, работает мотивация и принятие решений в мозгу!
Примечание переводчика - с момента перевода оригинальные посты несколько обновились, через некоторое время обновлю и перевод. На общие выводы цепочки это, вроде бы, не влияет.
Пока что в этой цепочке Пост №1 задал некоторые определения и мотивации (что такое «безопасность подобного-мозгу ИИ», и с чего нам беспокоиться?), Посты №2 и №3 представили разделение мозга на Обучающуюся Подсистему (конечный мозг и мозжечок), которая использует алгоритмы «обучения с чистого листа», и Направляющую Подсистему (гипоталамус и мозговой ствол), которая в основном генетически-прошита и выполняет специфичные для вида инстинкты и реакции.
В Посте №4 я описал «краткосрочные предсказатели» – схемы, которые в результате обучения с учителем начинают предсказывать сигналы до их появления, но, наверное, лишь за долю секунды. В Посте №5 я затем предложил, что если сформировать замкнутую петлю с участием и краткосрочных предсказателей в Обучающейся Подсистеме, и соответствующих им прошитых схем в Направляющей Подсистеме, то можно получить «долгосрочный предсказатель». Я заметил, что схема «долгосрочного предсказателя» сильно схожа с обучением методом Временных Разниц.
Теперь, в этом посте, мы добавим последние ингредиенты – грубо говоря, «субъекта» из обучения с подкреплением «субъект-критик» (RL) – чтобы у нас получилась полная большая картина мотивации и принятия решений в человеческом мозге. (Я говорю «человеческий мозг» для конкретики, но в любом другом млекопитающем, и, в меньшей степени, в любом другом позвоночном, всё было бы похоже.)
Причина, почему меня волнует мотивация и принятие решений, в том, что, если мы однажды создадим подобные-мозгу СИИ (как в Посте №1), мы захотим обеспечить, чтобы у них были некоторые мотивации (например, быть полезным) и не было некоторых других (например, выйти из-под человеческого контроля и распространить свои копии по Интернету). Куда больше на эту тему в следующих постах.
Тизер предстоящих постов: Следующий пост (№7) пройдётся по конкретному примеру модели из этого поста, и мы сможем пронаблюдать, как встроенное стремление приводит к сначала формированию явной цели, а потом принятию и исполнению плана для её достижения. Потом, начиная с Поста №8, мы сменим контекст, и с этого момента вы можете ожидать значительно меньше обсуждения нейробиологии и значительно больше обсуждения безопасности СИИ (за исключением ещё одного поста про нейробиологию ближе к концу).
Всё в этом посте, если не сказано обратное, это «то, в чём я убеждён прямо сейчас», а не нейробиологический консенсус. (Лайфхак: нейробиологического консенсуса никогда нет.) Я буду принимать минимальные усилия для связи своих гипотез с другими из литературы, но буду рад поболтать об этом в комментариях или по email.
Содержание:
Да, это буквально большая картинка, если вы только не читаете это с телефона. Вы уже видели её часть в предыдущем посте (Раздел 5.4), но сейчас тут больше всего.
Большая картина – Весь пост будет вращаться вокруг этой диаграммы. Обратите внимание, что ярлычки на верхних двух блоках довольно условны и уж точно сильно утрированы.
Тут много, но не беспокойтесь. Мы пройдёмся по каждому кусочку отдельно.
Вот как эта диаграмма укладывается в мою модель «двух подсистем», описанную в Посте №3:
Тоже, что и выше, но две подсистемы подсвечены разными цветами.
До погружения в детали дальше в посте, просто пройдёмся по диаграмме:
1. Генератор Мыслей генерирует мысль: Генератор Мыслей выбирает мысль из высокоразмерного пространства всех мыслей, которые возможно подумать в данный момент. Заметим, что это пространство возможностей, хоть и огромное, ограничено текущим сенсорным вводом, прошлым сенсорным вводом и всем остальным в выученной модели мира. К примеру, если вы сидите за письменным столом в Бостоне, в общем случае для вас невозможно подумать, что вы занимаетесь скуба-дайвингом у берега Мадагаскара. Но вы можете составлять план или насвистывать мелодию, или погрузиться в воспоминание, или рефлексировать о смысле жизни, и т.д.
2. Оценщики Мыслей сводят мысль к «оценочной таблице»: Оценщики Мыслей – набор, возможно, сотен тысяч схем «краткосрочных предсказателей» (Пост №4), который я более подробно описывал в предыдущем посте (№5). Каждый предсказатель обучен предсказывать свой сигнал из Направляющей Подсистемы. С точки зрения Оценщика Мыслей, всё в Генераторе Мыслей (не только выводы, но и скрытые переменные) – это контекст – информация, которую можно использовать для создания лучших предсказаний. Так что, если я думаю мысль «я прямо сейчас съем конфету», то Оценщик Мыслей может предсказать «высокую вероятность ощутить вкус чего-то сладкого очень скоро» исключительно на основании мысли – у него нет необходимости полагаться на внешнее поведение или сенсорные вводы, хоть это тоже может быть важным контекстом.
3. «Оценочная таблица» решает задачу построения интерфейса между обучающейся с чистого листа моделью мира и генетически закодированными схемами: Напомню, текущая мысль и ситуация – это невероятно сложные объекты в высокоразмерном выученном с чистого листа пространстве «всех возможных мыслей, которые можно подумать». Но нам нужно, чтобы относительно простые генетически закодированные схемы Направляющей Подсистемы анализировали мысль и выдавали суждение о её высокой или низкой ценности (см. Раздел 6.4 ниже) и о том, требует ли она выброса кортизола, гусиной кожи или расширения зрачков, и т.д. «Оценочная таблица» решает эту проблему! Она сводит возможные мысли / убеждения /планы и т.д. к генетически стандартизированной форме, которую уже можно напрямую передать генетически закодированным схемам.
4. Направляющая Подсистема исполняет некий генетически закодированный алгоритм: Его ввод – это (1) оценочная таблица с предыдущего шага, и (2) прочие источники информации – боль, метаболический статус, и т.д., поступающие из её собственной системы сенсорной обработки в мозговом стволе (см. Пост №3, Раздел 3.2.1). Её вывод включает выбросы гормонов, моторные команды, и т.д., а также посылание управляющих сигналов «эмпирической истины», показанных на диаграмме.[1]
5.Генератор Мыслей оставляет или отбрасывает мысли, основываясь на том, нравятся ли они Направляющей Подсистеме: Более конкретно, есть сигнал эмпирической истины (он же вознаграждение, да, я знаю, что это не звучит синонимично, см. Пост №5, Раздел 5.3.1). Когда его значение велико и положительно, текущая мысль «усиливается», задерживается, и может начать контролировать поведение и вызывать последующие мысли, а когда велико и отрицательно, текущая мысль немедленно отбрасывается, и Генератор Мыслей призывает следующую.
6. И Генератор Мыслей, и Оценщик Мыслей «обучаются с чистого листа» по ходу жизни, благодаря, в частности, управляющим сигналам Направляющей Подсистемы. Конкретнее, Оценщики Мыслей обучаются всё лучшему и лучшему предсказыванию сигнала «эмпирической истины задним числом» (это форма обучения с учителем – см. Пост №4), а Генератор Мыслей в большей степени обучается генерировать высокоценные мысли. (Процесс обучения с чистого листа Генератора Мыслей также включает и предсказательное обучение сенсорных вводов – Пост №4, Раздел 4.7.)
Вернёмся к большой диаграмме выше. Слева-сверху находится Генератор Мыслей. В терминах основанного на модели обучения с подкреплением «субъект-критик», Генератор Мыслей грубо соответствует комбинации «субъект» + «модель», но не «критику». («Критик» обсуждался в предыдущем посте, а больше про него – ниже.)
На нашем несколько упрощённом уровне анализа, мы можем думать о «мыслях», генерируемых Генератором Мыслей как о комбинации ограничений (из предсказательного обучения сенсорных вводов) и выборов (управляемых обучением с подкреплением). Подробнее:
Генератор Мыслей принимает в качестве ввода, в том числе сенсорные данные и изменяющие гиперпараметры нейромодуляторы. Но в этом посте для нас наибольший интерес представляет сигнал эмпирической истины, он же вознаграждение. Я более детально поговорю о нём позже, но мы можем считать, что это оценка того, хороша или плоха мысль, в смысле, «стоит ли её удержать и развивать или же она заслуживает того, чтобы её выбросили и сгенерировали следующую». Этот сигнал важен и для того, чтобы научиться думать мысли получше, и для думания хороших мыслей прямо сейчас:
В тоже время множество сигналов выходят из Генератора Мыслей. Некоторые – то, о чём мы интуитивно думаем как о «выводе» – например, скелетные моторные команды. Другие сигналы вывода, ну, это несколько забавно…
Напомню идею «контекста» из Раздела 4.3 Поста №4: Оценщики Мыслей – это краткосрочные предсказатели, а краткосрочный предсказатель в принципе может взять любой сигнал в мозгу и применить его для улучшения своей способности предсказывать свой целевой сигнал. Так что если Генератор Мыслей имеет модель мира, то где-то в этой модели мира есть конфигурация активаций скрытых переменных, кодирующая концепт «маленькие котята, дрожащие под холодным дождём». Мы не стали бы думать об этом как о «сигналах вывода» – я только что сказал, что это скрытые переменные! Но, так уж получается, что Оценщик Мыслей «это приведёт к плачу» применяет копию этих скрытых переменных как контекстный сигнал, и постепенно обучается на опыте, что этот конкретный сигнал сильно предсказывает слёзы.
То есть, сейчас, у взрослого меня эти нейроны «маленьких котят под холодным дождём» в моём Генераторе Мыслей живут двойной жизнью:
Генератор Мыслей (сверху слева) имеет два типа вывода: «традиционный» вывод, ассоциированный с произвольным поведением (зелёные стрелки) и «забавный» вывод, позволяющий даже скрытым переменным модели напрямую влиять на непроизвольное поведение (синие стрелки).
ПРИМЕЧАНИЕ АВТОРА: Изначально в этом разделе было обсуждение петель «кора-базальные ганглии-таламус-кора», но это всё было очень спекулятивно и оказалось несколькими разными способами ошибочным. Это в любом случае не было особо важно для цепочки в целом, так что я это просто удалил. Я как-нибудь напишу исправленную версию отдельным постом. Извините!
Обновлённая дофаминовая диаграмма из предыдущего поста:
«Мезолимбические» дофаминовые сигналы справа обсуждались в предыдущем посте (Раздел 5.5.6). «Мезокортикальный» сигнал слева новый. (Я думаю, что в мозгу *ещё больше* дофаминовых сигналов, которые здесь не показаны. Они за пределами темы этой цепочки, но см. обсуждение здесь)
В Генераторе Мыслей есть ещё много деталей реализации, которые я тут не обсуждаю, включая детали диаграммы «петли» выше, так же, как и отношения между разными регионами коры. Однако, этого небольшого раздела более-менее достаточно для следующих постов по безопасности СИИ. Запутанные подробности Генератора Мыслей, так же, как и в чём угодно другом в Обучающейся Подсистеме, в основном полезны для создания СИИ.
На диаграмме есть две «ценности» (выглядит, будто три, но две красных – одно и то же):
Два типа «ценности» в моей модели
Обведённый синим сигнал – это прикидка ценности из соответствующего Оценщика Мыслей в коре. Обведённый красным сигнал (ещё раз, это один и тот же сигнал, нарисованный дважды) – «эмпирическая истина» о том, какой должна была быть прикидка ценности. (Напомню, что «эмпирическая ценность» – синоним «вознаграждения»; да, знаю, звучит неправильно, см. предыдущий пост (Раздел 5.3.1) за подробностями.)
Так же, как и у других «долгосрочных предсказателей», которые обсуждались в предыдущем посте, Направляющая Подсистема может выбирать между режимом «довериться предсказателю» и режимом «перехвата». В первом случае, она задаёт красный сигнал эквивалентный синему, как будто говорит: «ОК, Оценщик Мыслей, конечно, я поверю тебе на слово». Во втором случае, она игнорирует предложение Оценщика Мыслей, а её собственные встроенные схемы выдают некую другую ценность.[2]
По каким причинам Направляющая Подсистема перехватывает прикидку ценности Оценщика Мыслей? Два фактора:
Интересно (и в отличии от RL «по учебнику»), что в этой большой картине обведённый синим сигнал не обладает в алгоритме специальной ролью, в сравнении с другими Оценщиками Мыслей. Это лишь один из многих вводов прошитого алгоритма Направляющей Подсистемы, решающего, каким сделать обведённый красным сигнал. Обведённый синим сигнал может на практике оказаться особенно важным, более весомым, чем остальные, но вообще они все в одной куче. На самом деле, мои давние читатели вспомнят, что в прошлом году я писал посты, опускавшие обведённый синим сигнал ценности в списке Оценщиков Мыслей! Сейчас я считаю, что это ошибка, но оставил примерно такое же отношение.
Вот «одновременная» модель принятия решений, описанная в книге «Голодный Мозг» Стефана Гийанэя на примере изучения миног:
Каждый участок паллиума [=эквивалент коры у миноги] связан с определенной частью полосатого тела. Паллиум посылает сигнал в полосатое тело, и затем сигнал из полосатого тела (через другие части базальных ганглиев) возвращается назад в тот же участок паллиума.
Иными словами, определенный участок паллиума и полосатое тело связаны замкнутой цепью, которая реализует запрос на конкретное действие. Например, существует цепь для преследования добычи, для ускользания от хищника, для прикрепления к камню и так далее. Каждый отдельный участок паллиума без конца нашептывает полосатому телу, упрашивая дать добро на исполнение того или иного поведенческого шаблона. А полосатое тело по умолчанию отвечает на это «нет!» При особых обстоятельствах шепот паллиума превращается в крик, и тогда полосатое тело исполняет требования настойчивого паллиума и приводит в действие мышцы.
Я принимаю это как часть моей модели принятия решений, но только как часть. Конкретнее, это одна из вещей, происходящих, когда Генератор Мыслей генерирует мысль. В самом деле, моя диаграмма в Разделе 6.3.4 выше явно вдохновлена этой моделью. Сравниваются разные одновременные возможности.
Другая часть моей модели – сравнение последовательных мыслей. Вы думаете одну мысль, а потом другую мысль (возможно, что сильно отличающуюся, а возможно, что преобразованную первую), и они сравниваются (Направляющей Подсистемой, отбирающей значение эмпирической истины, основываясь на, например, закономерностях того, как активизируются и успокаиваются Оценщики Мыслей), и если вторая хуже, то она ослабляется, чтобы её могла заменить следующая (возможно, снова первая).
Я могу процитировать эксперименты об аспекте последовательного сравнения в принятии решений (например, Рисунок 5 этой статьи, заявляющий то же, что и я), но действительно ли это надо? Интроспективно это очевидно! Вы думаете: «Хмм, думаю, я пойду в спортзал. На самом деле, что если я вместо этого пойду в кафе?» Вы представляете одно, а потом другое.
И я не думаю, что это то, что отличает людей от миног. Предполагаю, что сравнение последовательных мыслей универсально для позвоночных. Как иллюстрация того, что я имею в виду:
Представьте простую древнюю маленькую рыбку, плывущую к пещере, где она живёт Она натыкается на ~~развилку дороги,~~ эмммм, «развилку в лесу водорослей»? Её текущий план навигации включает плыть налево к пещере, но у неё также есть вариант повернуть направо, чтобы добраться до рифа, где она часто кормится.
Я утверждаю, что её алгоритм навигации, увидев путь направо, рефлексивно загружает план: «Я поверну направо и доберусь до рифа.» Этот план немедленно оценивается и сравнивается с старым планом. Если новый план кажется хуже старого, то новая мысль затыкается, а старая мысль («Я направляюсь к своей пещере») восстанавливает своё положение. Рыбка без промедления продолжает следовать к пещере. А вот есть новый план кажется лучше старого, то новый план усиливается, приживается и принимает управление моторными командами. И тогда рыбка поворачивает направо и направляется к рифу.
(На самом деле, я не знаю достаточно о маленьких древних рыбках, но благодаря измерениям нейронов гиппокампуса известно, что крысы на развилке ~~дороги~~ лабиринта представляют оба возможных навигационных плана последовательно – ссылка.)
Согласно моим взглядам, мысли сложны. Чтобы подумать «Я пойду в кафе» вы не просто активируете некоторый крохотный кластер нейронов походов-в-кафе. Нет, это распределённый паттерн, включающий практически все части коры. Вы не можете одновременно думать «Я пойду в кафе» и «Я пойду в спортзал», потому что в эти мысли будут вовлечены разные паттерны активности одного и того же набора нейронов. Они бы мешали друг другу. Так что единственная возможность – думать мысли по очереди.
Как конкретный пример того, что я себе представляю, подумайте о том, как сеть Хопфилда не может вспомнить двенадцать воспоминаний одновременно. У неё есть множество стабильных состояний, но вы можете вызывать из только последовательно, одно за другим. Или подумайте о нейронах решётки и места, и т.д.
Я представляю, что с эволюционной точки зрения сравнение последовательных мыслей – далёкий потомок очень простых механизмов сродни механизма «бежать-и-кувыркаться» у плавающих бактерий.
Механизм «бежать-и-кувыркаться» работает так: бактерия плывёт по прямой линии («бежит»), и периодически меняет направление на новое случайное («кувыркается»). Фокус в том, что, когда ситуация / окружение бактерии становится лучше, она кувыркается реже, а когда окружение становится хуже – она кувыркается чаще. Таким образом, она в итоге (в среднем, со временем) двигается в хорошем направлении.
Можно представить, как начиная с простого механизма вроде этого, можно навешивать на него всё больше и больше прибамбасов. Палитра поведенческих вариантов становится всё сложнее и сложнее, в какой-то момент превращаясь в «каждая мысль, которую возможно подумать». Методы оценивания, хорош или плох нынешний план, могут становиться быстрее и точнее, в итоге приводя к основанным на обучающихся алгоритмах предсказателям, как в предыдущем посте. Новые поведенческие варианты могут начать выбираться не случайно, а с помощью умных обучающихся алгоритмов. Так что мне кажется, что от чего-то-вроде-беги-и-кувыркайся к замысловатым тонко настроенным системам человеческого мозга, о которых я тут говорю есть плавный путь. (Иные размышления о бежать-и-кувыркаться и человеческой мотивации: 1, 2.)
(См. также: мой пост (Мозговой ствол, Неокортекс) ≠ (Базовые мотивации, Благородные мотивации).)
Многие (включая меня) обладают сильным интуитивным разделением эгосинтонических стремлений, которые являются «частью нас» и «тем, чего мы хотим» от эгодистонических стремлений, ощущающихся как позывы, вторгающиеся в нас извне.
К примеру, гурман может сказать: «Я люблю хороший шоколад», а человек на диете – «Я чувствую позыв съесть хороший шоколад».
Я утверждаю, что эти два человека по сути описывают одно и то же ощущение, с по сути одинаковой нейроанатомической локализацией и по сути одинаковой связью с низкоуровневыми алгоритмами мозга. Но гурман признаёт это чувство, а человек на диете его экстернализирует.
Эти два разных концепта идут рука об руку с двумя разными «предпочтениями высшего уровня»: гурман хочет хотеть есть хороший шоколад, тогда как человек на диете хочет не хотеть есть хороший шоколад.
Это приводит нас к прямолинейному психологическому объяснению, почему гурман и человек на диете по-разному концептуализируют свои чувства:
Многие (включая Джеффа Хокинса, см. Пост №3) замечают описанное выше различие и, отдельно, поддерживают (как и я) идею, что в мозгу есть Обучающаяся Подсистема и Направляющая Подсистема (опять же, см. Пост №3). Они естественно предполагают, что это эквивалентно тому, что «я и мои глубокие желания» соответствуют Обучающейся Подсистеме, а «позывы, с которыми я себя не идентифицирую» – Направляющей Подсистеме.
Многие люди, с которыми я говорил, да и я сам, имеют отдельные концепции в выученной модели мира для «меня» и «моих позывов». Я заявляю, что эти концепты *НЕ* исходят из достоверного интроспективного доступа к нашей нейроанатомии. И в частности, они не соответствуют Обучающейся и Направляющей Подсистемам.
Я думаю, что эта модель неверна. По меньшей мере, если вы хотите принимать эту модель, то вам придётся отвергнуть приблизительно всё, что я писал в этом и предыдущих четырёх постах.
В моей модели, если вы пытаетесь воздержаться от шоколада, но чувствуете позыв есть шоколад, то:
(С чего Направляющей Подсистеме одобрять вторую мысль? Это зависит от человека, но готов поспорить, что в это вовлечены социальные инстинкты. Я больше поговорю про социальные инстинкты в Посте №13. Если вы ходите менее сложный пример, представьте человека с непереносимостью лактозы, пытающегося сопротивляться позыву прямо сейчас съесть вкусное мороженое, потому что это приведёт к очень плохим ощущениям потом. Направляющей Подсистеме нравятся планы, приводящие к неболению, но ей также нравятся планы, приводящие к поеданию вкусного мороженого.)
Другая частая ошибка – воспринимать саму по себе Обучающуюся или Направляющую Подсистему как что-то вроде независимого агента. Это неверно с обеих сторон:
Как пример, совершенно возможно следующее:
Почему нет, верно? Я больше поговорю про этот пример в позднейших постах.
Если вы прочитали пример выше и подумали: «Ага! Это случай, когда Обучающаяся Подсистема обхитрила Направляющую Подсистему», то вы всё ещё не поняли.
(Может, попробуйте представить Обучающуюся и Направляющую Подсистемы как две сцепленных шестерни в одном механизме.)
———
Предыдущий пост представил большую картину того, как, по моему мнению, в человеческом мозге работает мотивация, но он был несколько абстрактен. В этом посте я рассмотрю пример. В общих чертах, шаги будут такие:
Все человеческие цели и мотивации в конце концов исходят из относительно простых генетически закодированных схем Направляющей Подсистемы (гипоталамуса и мозгового ствола), но детали этого в некоторых случаях могут быть довольно запутанными. К примеру, иногда я замотивирован исполнить глупый танец перед полноростовым зеркалом. Какие в точности генетически закодированные схемы в гипоталамусе или мозговом стволе являются причиной этой мотивации? Я не знаю! Я, на самом деле, утверждаю, что ответ на этот вопрос на сегодняшний день Не Известен Науке. Я думаю, это стоит выяснить! Эммм, ну, ОК, может, для этого конкретного примера и не стоит выяснять. Но в целом я оцениваю проект реверс-инжиниринга некоторых аспектов человеческой Направляющей Подсистемы (см. моё описание «Категории B» в Посте №3) – особенно стоящих за социальными инстинктами вроде альтруизма и стремления к высокому статусу – как невероятно важный для безопасности СИИ, и, при этом, чрезвычайно пренебрегаемый. Больше про это - в Постах №12-13.
А пока что я выберу пример цели, которая в первом приближении исходит из особенно прямолинейного и понятного набора схем Направляющей Подсистемы. Поехали.
Давайте предположим (совершенно гипотетически…), что я два года назад съел кусок торта «Принцесса», и он был очень вкусным, и с тех пор я хочу съесть его ещё раз. Так что моим рабочим примером явной цели будет «Я хочу кусок торта «Принцесса»».
Торт «Принцесса». Я предлагаю его попробовать, чтобы лучше понять этот пост. Во имя науки! Источник картинки: моя любимая местная пекарня.)
Съесть кусок этого торта – не моя единственная цель в жизни, даже не особенно важная – так что она сравнивается с другими моими целями и желаниями – но это всё же моя цель (по крайней мере, когда я об этом думаю), и я в самом деле могу составлять сложные планы, чтобы её достичь. К примеру, оставлять тонкие намёки для моей семьи. В постах. Когда приближается мой день рождения. Совершенно гипотетически!!
Вот моя диаграмма мотивации в мозгу из предыдущего поста:
См. предыдущий пост за деталями.
Как обсуждалось в предыдущем посте, мы можем разделить всё это на части, «закодированные» в геноме и части, обучающиеся при жизни – т.е. Направляющую Подсистему и Обучающуюся Подсистему:
Первый шаг в нашей истории: за время моей жизни моя кора (конкретнее, Генератор Мыслей из левой верхней части диаграммы выше) создавала вероятностную генеративную модель, в основном при помощи предсказательного обучения сенсорных вводов (Пост №4, Раздел 4.7) (также известного как «самообучение»).
По сути, мы выучиваем паттерны в своём сенсорном вводе, потом паттерны паттернов, и т.д., пока у нас не получается удобная предсказательная модель мира (и нас самих) – огромная сеть взаимосвязанных сущностей вроде «травы» и «стоять» и «куски торта «Принцесса»».
Предсказательное обучение сенсорных вводов не зависит фундаментально от управляющих сигналов Направляющей Подсистемы. Вместо этого «мир» предоставляет эмпирическую истину о том, было ли предсказание верным. Сравните это, к примеру, с составлением компромиссов между поиском еды и поиском партнёра: в окружении нет никакой «эмпирической истины» о том, составило ли животное компромисс оптимально, кроме как задним числом через много поколений. В этом случае нам нужны управляющие сигналы Направляющей Подсистемы, оценивающие «правильный» компромисс заложенными эволюцией эвристиками. Вы можете думать об этом как о чём-то вроде разделения «есть – должно», в котором Направляющая Подсистема предоставляет «должно» («что должен сделать организм, чтобы максимизировать генетическую приспособленность?»), а предсказательное обучение сенсорных вводов предоставляет «есть» («что, вероятно, сейчас произойдёт при таких-то и таких-то обстоятельствах»). Хотя Направляющая Подсистема всё же косвенно вовлечена и в предсказательное обучение – к примеру, я могу быть мотивирован изучить какую-нибудь тему.
В любом случае, каждая мысль, которую я могу подумать, и каждый план, который я могу составить, могут быть отображены в некоторую конфигурацию структуры данных этой генеративной модели мира. Структура данных непрерывно редактируется, когда я учусь и получаю новый опыт.
Думая об этой структуре данных модели мира, представьте много терабайт совершенно непонятных записей – к примеру, что-то вроде
«ПАТТЕРН 847836 определён как следующая последовательность: {ПАТТЕРН 278561, потом ПАТТЕРН 657862, потом ПАТТЕРН 128669}»
Некоторые записи отсылают к сенсорным вводам и/или моторными командам. И эта огромная запутанная непонятная свалка составляет всё моё понимание мира и себя самого.
Как я упомянул выше, в судьбоносный день два года назад, я съел кусок торта «Принцесса», и это было очень хорошо.
Отступим назад на пару секунд, когда я ещё только подносил самый первый кусочек торта ко рту. В этот момент у меня ещё не было особо сильных ожиданий того, как он будет на вкус, и что я буду чувствовать по его поводу. Но когда он попал ко мне в рот, ммммм, о, вау, это хороший торт.
Части диаграммы, относящиеся к тому, что произошло, когда я съел первый удивительно-вкусный кусочек торта два года назад.
Итак, после того, как я его попробовал, моё тело произвело набор автономных реакций – выпустило некоторые гормоны, выработало слюну, изменило мой пульс и давление крови, и т.д. Почему? Ключ в том, что, как описано в Посте №3, Разделе 3.2.1, все мои сенсорные вводы делятся:
Вкусовой ввод – не исключение: первый сигнал оказывается в вкусовой коре, части островковой коры (часть неокортекса, в Обучающейся Подсистеме), второй – в вкусовых ядрах продолговатого мозга (часть конечного мозга, в Направляющей Подсистеме). По прибытии в продолговатый мозг вкусовой ввод скармливается разным генетически закодированным схемам конечного мозга, которые, принимая также во внимание моё текущее психологическое состояние и подобное, исполняют все упомянутые мной автономные реакции.
Как я упоминал, до того, как я впервые попробовал торт, я не ожидал, что он будет так хорош. Ну, может быть, интеллектуально ожидал – если бы вы меня спросили, я бы сказал и был бы убеждён, что торт будет действительно хорош. Но я не ожидал этого внутренне.
Что я имею в виду под «внутренне»? В чём разница? Мои внутренние ожидания находятся на стороне «Оценщиков Мыслей». У людей нет произвольного контроля над своими Оценщиками Мыслей – они обучаются исключительно на сигналах «эмпирической истины задним числом» от мозгового ствола. У вас есть некоторые возможности манипуляции ими через контроль того, о чём вы думаете, как описано в предыдущем посте (Раздел 6.3.3), но в первом приближении можно считать, что они занимаются своими делами сами, независимо от того, что вы от них хотите. С эволюционной перспективы такое устройство имеет смысл как защита от вайрхединга – см. мой пост Награды Не Достаточно.
Так что когда я попробовал торт, мои Оценщики Мыслей оказались неправы! Они ожидали, что торт вызовет средненькие связанные с вкусностью автономные реакции, а на само деле торт вызвал сильные связанные с вкусностью автономные реакции. И Направляющая Подсистема узнала, что Оценщики Мыслей были неправы. Так что она послала корректирующий сигнал алгоритмам Оценщиков Мыслей, как показано на диаграмме выше. Эти алгоритмы затем изменили себя, чтобы в дальнейшем каждый раз, когда я подношу вилку с кусочком торта «Принцесса» в своему рту, Оценщики Мыслей более надёжно предсказывали сильные выбросы гормонов, сигнал вознаграждения, и все другие реакции, которые я на самом деле получил.
Тут произошла крутая штука. Мы начали с (относительно) простого жёстко прошитого алгоритма: схемы Направляющей Подсистемы переводят определённые виды вкусового ввода в определённые выбросы гормонов и автономные реакции. Но затем мы передали эту информацию в функции выученной модели мира – вспомните ту гигантскую запутанную базу данных, о которой я говорил в предыдущем разделе.
(Давайте возьмём паузу, чтобы всё проговорить: сигнал «эмпирической истины задним числом» настраивает Оценщики Мыслей. Оценщики Мыслей, как мы знаем из Поста №5 – это набор из, может быть, сотен моделей, над каждой из которых проводится обучение с учителем. Ввод этих обученных моделей, то, что я называю «контекстными» сигналами (см. Пост №4), включает нейроны извне предсказательной модели мира, кодирующие «какая мысль сейчас думается». Так что мы получаем функцию (обученную модель), чей ввод включает штуки вроде «активирует ли моя нынешняя мысль абстрактный концепт торта «Принцесса»?», и чей вывод – сигнал, сообщающий Направляющей Подсистеме выделять слюну и пр.)
Я называю этот шаг – в котором подправляются Оценщики Мыслей – «присвоением ценности». Куда больше про этот процесс, включая то, что в нём может пойти не так, будет в следующих постах.
Итак, сейчас Оценщики Мыслей выучили, что как только в модели мира «вспыхивает» концепт «я ем торт «Принцесса»», им следует выдать предсказание соответствующих выбросов гормонов, других реакций и вознаграждения.
У меня нет особенно жёсткой модели этого шага, но, думаю, я могу немного положиться на интуицию, чтобы история была полной:
Напомню, с самого первого моего кусочка торта «Принцесса» два года назад Оценщики Мыслей в моём мозгу инспектируют каждую мысль, которую я думаю, проверяя, не «загорелся»/«активировался» ли в моей модели мира концепт «я ем торт «Принцесса»», и если да, то в какой степени, чтобы предлагать готовиться к вознаграждению, слюновыделению, и так далее.
Диаграмма выше предлагает серию мыслей, которые, я думаю, могли «зажигать» этот концепт в модели мира всё больше и больше, сверху вниз.
Чтобы понять суть, можете представить заметить торт на «солёный крекер». Идите вниз по списку и попытайтесь почувствовать, как каждая мысль заставляет вас выделять всё больше слюны. Или ещё лучше, замените «есть торт» на «пригласить краша на свидание», спускайтесь по списку и почувствуйте, как каждая мысль заставляет ваше сердце всё сильнее колотиться.
Вот другой способ об этом думать: Если вы представите модель мира приблизительно как ГВМ, вы можете представить, что «степень соответствия паттерну» – это примерно как вероятность, присвоенная узлу «поедания торта» в ГВМ. К примеру, если вы уверены в X, а из X слабо следует Y, а из Y слабо следует Z, а из Z слабо следует «поедание торта», то «поедание торта» получает очень низкую, но ненулевую вероятность, то есть слабую активацию, и это сродни обладанию долгосрочного, но не совсем невозможного плана нацеленного на поедание пирога. (Не воспринимайте этот абзац слишком буквально, я тут просто пытаюсь объяснить интуитивные соображения.)
Я в самом деле надеюсь, что такие штуки интуитивно понятны. В конце концов, я видел, как это переизобретали множество раз! К примеру, Дэвид Юм: «Прежде всего мне бросается в глаза тот факт, что между нашими впечатлениями и идеями существует большое сходство во всех особенных свойствах, кроме степени их силы и живости». А вот Уильям Джеймс: «Едва ли возможно спутать живейшую картину воображения с слабейшим реальным ощущением.» В обоих случаях, думаю, авторы указывали на идею что воображение активирует некоторые из тех же ментальных конструктов (скрытых переменных в модели мира), что и восприятие, но гораздо слабее.
ОК, если вы всё ещё тут, давайте вернёмся к моей модели принятия решений, теперь с другими подсвеченными частями:
Части диаграммы, важные для процесса создания и исполнения долгосрочного плана обеспечения себя тортом «Принцесса».
Опять же, всякий раз, когда я думаю мысль, Направляющая Подсистема смотрит на соответствующую «оценочную таблицу» и выдаёт соответствующее вознаграждение. Напомню также, что активная мысль / план отбрасывается, если её сигнал вознаграждения отрицателен, и оставляется и усиливается, если он положительна.
Я ненадолго всё упрощу и проигнорирую всё кроме функции ценности (так же известной как Оценщик Мыслей «приведёт ли это к вознаграждению?»). И я также предположу, что Направляющая Подсистема просто доверяет предложенному значению, а не перехватывает его (см. Пост №6, Раздел 6.4.1). В таком случае, каждый раз, когда наши мысли переходят ниже по фиолетовой стрелке с диаграммы выше – от спокойных раздумий о торте к гипотетическому плану достать торт, к решению достать торт, и т.д. – происходит немедленное положительное вознаграждение, так что новая мыль усиливается и остаётся. И напротив, каждый раз, когда мы двигаемся по списку обратно – от решения к гипотетическому плану к размышлениям – происходит немедленное отрицательное вознаграждение, так что мысль отбрасывается и мы возвращаемся к предыдущей. Это как храповик! Система естественным путём продвигается по списку, создавая и исполняя хороший план, чтобы съесть торт.
Вот всё и получилось! Я думаю, что с такой позиции вполне объясняется полный набор поведений, ассоциируемых с людьми, планирующими для достижения явных целей – включая знание того, что у тебя есть цель, составление плана, исполнение инструментальных стратегий как части плана, замену хороших планов на планы ещё лучше, обновление плана при изменении ситуации, напрасную тоску по недостижимым целям и так далее.
Кстати, а что другие Оценщики Мыслей? Торт «Принцесса», в конце концов, ассоциируется не только с «приведёт к вознаграждению», но ещё и с «приведёт к сладкому вкусу», «приведёт к слюновыделению», и т.д. Играет ли это какую-то роль?
Конечно! Для начала, когда я подношу вилку ко рту, в самом конце исполнения моего плана поедания торта, я начинаю выделять слюну и выбрасывать кортизол в предвкушении.
Но что насчёт процесса долгосрочного планирования (звонок в пекарню и т.д.)? Я думаю, другие, не относящиеся к функции ценности, Оценщики Мыслей имеют значение и тут – по крайней мере в какой-то степени.[1]
К примеру, представьте, что вы чувствуете ужасную тошноту. Конечно, ваша Направляющая Подсистема знает, что вы чувствуете ужасную тошноту. И предположим, что она видит, что вы думаете мысль, которая, кажется, приведёт к еде. В этом случае Направляющая Подсистема может сказать: «Ужасная мысль! Отрицательное вознаграждение!»
ОК, вот вы чувствуете тошноту, но берёте свой телефон, чтобы оформить заказ в пекарне. Мысль слабо, но заметно помечается Оценщиком Мыслей как «скорее всего приведёт к еде». Ваша Направляющая Подсистема видит это и говорит «Фуу, с учётом нынешней тошноты это кажется плохой мыслью». Мысль ощущается немного отталкивающей. «Блин, я действительно заказываю этот огромный торт??», говорите вы себе.
Логически, вы знаете, что на следующей неделе, когда вы на самом деле получите торт, вы больше не будете чувствовать тошноту, и будете очень рады, что у вас есть торт. Но всё же прямо сейчас вы чувствуете, что заказывать его несколько противно и демотивирующе.
Заказываете ли вы его всё равно? Конечно! Может, функция ценности (Оценщик Мыслей «это приведёт к вознаграждению») достаточно сильна, чтобы перевесить Оценщик Мыслей «это приведёт к еде». Или, может быть, вы используете иную мотивацию: представляете себя как думающего наперёд человека, принимающего хорошие осмысленные решения, а не застревающего в текущем моменте. Это другая мысль в вашей голове, активирующая другой набор Оценщиков Мыслей, и, может, она получает высокую оценку Направляющей Подсистемы. В любом случае, вы действительно звоните в пекарню, чтобы заказать торт на следующую неделю. Что за героизм!
———
Ранее в цепочке: в Посте №1 была описана моя общая мотивация, что такое «безопасность подобного-мозгу СИИ» и почему это нас заботит. Следующие шесть постов (№2-7) погрузились в нейробиологию. Посты №2-3 представили способ разделения мозга на «Обучающуюся Подсистему» и «Направляющую Подсистему», разделённые по признаку того, выполняют ли они то, что я называю «обучением с чистого листа». Затем посты №4-7 представили большую картину того, как по моему мнению работают цели и мотивации в мозгу, это оказалось похожим на причудливый вариант основанного на модели обучения с подкреплением «субъект-критик».
Теперь, установив нейробиологический фундамент, мы наконец-то можем более явно переключиться на тему подобного-мозгу СИИ. В качестве начальной точки размышлений вот диаграмма из Поста №6, отредактированная, чтобы описывать подобный-мозгу СИИ вместо настоящего мозга:
Диаграмма из Поста №6 с четырьмя изменениями, благодаря которым она теперь описывает подобный-мозгу СИИ, а не настоящий мозг: (1) справа сверху «время жизни» заменено на «обучение модели» (Раздел 8.2 ниже); (2) снизу справа «генетически закодированы» заменено на «[наверное] написаны людьми» (Разделы 8.3-8.4 ниже); (3) упоминания конкретных областей мозга вроде «миндалевидного тела» зачёркнуты, чтобы позже их можно было заменить частями исходного кода и/или наборами параметров обученной модели; (4) прочие биологически-специфичные слова вроде «сахара» зачёркнуты, чтобы позже их можно было заменить чем нам захочется, как я опишу в будущих постах.
Этот и следующий посты извлекут из прошлых обсуждений некоторые уроки о подобном-мозгу СИИ. Этот пост будет сосредоточен на том, как такой СИИ может быть разработан, а следующий – на его мотивациях и целях. После этого Пост №10 обсудит знаменитую «задачу согласования» (наконец-то!), а затем несколько постов буду посвящены возможным путям к её решению. Наконец, в Посте №15 я закончу цепочку открытыми вопросами, направлениями для будущих исследований и тем, как войти в эту область.
Вернёмся к этому посту. Тема: «Как, с учётом обсуждения нейробиологии в предыдущих постах, нам следует думать о процессе разработки софта для подобного-мозгу СИИ?». В частности, какова будет роль написанного людьми исходного кода, а какова – настраиваемых параметров («весов»), значения которых находят алгоритмы обучения?
Содержание:
Эквивалентом «времени жизни животного» для подобного-мозгу СИИ является «один обучающий запуск». Думайте об этом как о запусках моделей при их обучении в современном ML.
Как много времени займёт «обучающий запуск» подобного-мозгу СИИ?
Для сравнения, люди, по моему скромному мнению, по-настоящему достигают пика в возрасте 37 лет, 4 месяца и 14 дней. Все моложе – наивные дети, а все старше – отсталые старые упрямцы. У-упс, я сказал «14 дней»? Мне следовало сказать «…и 21 день». Простите меня за эту ошибку; я написал это предложение на прошлой неделе, когда ещё был наивным ребёнком.
Ну, что бы это ни было для людей, мы можем спросить: Будет ли это примерно так же для подобных-мозгу СИИ? Не обязательно! См. мой пост Вдохновлённые-мозгом СИИ и «якоря времени жизни» (Раздел 6.2) за моими аргументами о том, что время-на-часах, необходимое, чтобы обучить подобный-мозгу СИИ до состояния мощного обобщённого интеллекта с чистого листа, очень сложно предсказать заранее, но вполне правдоподобно, что оно может быть коротким – недели/месяцы, а не годы/десятилетия.
Мозг работает по принципу онлайнового обучения: он постоянно обучается во время жизни, вместо отдельных «эпизодов», перемежаемых «обновлениями» (более популярный подход в современном машинном обучении). Я думаю, что онлайновое обучение очень критично для того, как работает мозг, и что любая система, которую стоит называть «подобным-мозгу СИИ», будет алгоритмом онлайнового обучения.
Чтобы проиллюстрировать разницу между онлайновым и оффлайновым обучением, рассмотрим два сценария:
В случае онлайнового обучения подобного-мозгу СИИ различия нет. В обоих случаях один и тот же алгоритм делает одно и то же.
Напротив, в случае систем машинного оффлайнового обучения (например, GPT-3), эти два случая обрабатываются двумя отдельными алгоритмическими процессами. Случай №1 включал бы изменения весов модели, тогда как случай №2 включал бы только изменения её активаций.
Для меня это важный довод в пользу подхода онлайнового обучения. Оно требует решать задачу только один раз, а не два раза разными способами. И не просто какую-то задачу; это вроде бы центральная для СИИ задача!
Я хочу ещё раз подчеркнуть, насколько ключевую роль в мозгу (и в подобных-мозгу СИИ) играет онлайновое обучение. Человек без онлайнового обучения – это человек с полной антероградной амнезией. Если вы представились мне как «Фред» и через минуту я обращаюсь к вам «Фред», то я могу поблагодарить онлайновое обучение за то, что оно поместило этот кусочек знания в мой мозг.
В нынешнем машинном обучении общеизвестно, что обучение дороже развёртывания. К примеру, в OpenAI, как утверждается, потратили около $10 млн на обучение GPT-3 – т.е. чтобы получить волшебный список из 175 миллиардов чисел, служащих весами GPT-3. Но теперь, когда у них на руках есть этот список из 175 миллиардов чисел, запуск GPT-3 дёшев как грязь – последний раз, когда я проверял, OpenAI брали примерно $0.02 за страницу сгенерированного текста.
Благодаря онлайновому обучению подобные-мозгу СИИ не будут иметь фундаментального различия между обучением и развёртыванием, как и обсуждалось в предыдущем разделе. Однако, экономика остаётся схожей.
Представьте трату десятилетий на выращивание ребёнка от рождения, пока он не станет умелым и эрудированным взрослым, возможно, с дополнительным обучением в математике, науке, инженерии, программированию, и т.д.
Теперь представьте, что у вас есть научно-фантастическая клонирующая машина, которая может мгновенно создать 1000 копий этого взрослого. Вы посылаете их на 1000 разных работ. Ладно, каждая копия, вероятно, будет нуждаться в дополнительном обучении этой работе, чтобы выйти на полную продуктивность. Но им не потребуются десятилетия дополнительного обучения, как от рождения до взрослого состояния. (Больше об этом в блоге Холдена Карнофски.)
Так что, как и в обычном машинном обучении, остаётся большая стоимость изначального обучения, и её, в принципе, можно смягчить созданием множества копий.
Я утверждаю, что онлайновое обучение создаёт неприятные проблемы для безопасности СИИ. К сожалению, я также утверждаю, что если мы вовсе создадим СИИ, то нам понадобится онлайновое обучение или что-то с схожими эффектами. Давайте по очереди разберёмся с обоими утверждениями.
Онлайновое обучение вредит безопасности:
Давайте переключимся на людей. Предположим, я прямо сейчас приношу присягу как президент страны, и я хочу всегда в первую очередь заботиться о благе своего народа и не поддаваться песне сирен коррупции. Что я могу сделать прямо сейчас, чтобы контролировать, как будет вести себя будущий я? Неочевидно, правда? Может, даже, невозможно!
У нынешнего меня просто нет естественного и надёжного способа указать будущему мне, что хотеть делать. Лучшее, что я могу сделать – много маленьких хаков, предсказать конкретные проблемы и попробовать их предотвратить. Я могу связать себе руки, выдав честному бухгалтеру все пароли моих банковских счетов и попросить меня сдать, если там будет что-то подозрительное. Я могу устраивать регулярные встречи с надёжным осмотрительным другом. Такие способы немного помогают, но опять же, они не дают надёжного решения.
Аналогично, у нас может быть СИИ, который прямо сейчас честно пытается действовать этично и полезно. Потом он какое-то время работает, думает новые мысли, получает новые идеи, читает новые книги и испытывает новый опыт. Будет ли он всё ещё честно пытаться действовать этично и полезно через шесть месяцев? Может быть! Надеюсь! Но как мы можем быть уверены? Это один из многих открытых вопросов в безопасности СИИ.
(Может, вы думаете: мы могли бы периодически создавать бэкап СИИ-сейчас, и давать ему право вето на изменения СИИ-потом? Я думаю, это осмысленная идея, может быть даже хорошая. Но это не панацея. Что если СИИ-потом сообразит, как обмануть СИИ-сейчас? Или что если СИИ-потом меняется к лучшему, а СИИ-сейчас продолжает его сдерживать? Ведь более молодой я был наивным ребёнком!)
Онлайновое обучение (или что-то с схожими проблемами безопасности) необходимо для способностей:
Я ожидаю, что СИИ будут использовать онлайновое обучение, потому что я думаю, что это эффективный метод создания СИИ – см. обсуждение «решения одной и той же задачи дважды» выше (Раздел 8.2.2).
Однако, я всё же могу представить другие варианты, которые формально не являются «онлайновым обучением», но имеют схожие эффекты и ставят по сути те же вызовы безопасности, т.е. затрудняют возможность увериться, что изначально безопасный СИИ продолжает быть безопасным.
Мне куда сложнее представить способ избежать этих проблем. В самом деле:
Под «внешним циклом» подразумевается больший из двух вложенных циклов контроля потока исполнения. «Внутренним циклом» может быть код, симулирующий жизнь виртуального животного, секунду за секундой, от рождения до смерти. Тогда «внешний цикл поиска» будет симулировать много разных животных, с своими настройками мозга у каждого, в поисках того, которое (в взрослом состоянии) продемонстрирует максимальный интеллект. Прижизненное обучение происходит в внутреннем цикле, а внешний цикл аналогичен эволюции.
Вот пример крайнего случая проектирования с основной ролью внешнего цикла, где (можно предположить) люди пишут код, исполняющий подобный-эволюции алгоритм внешнего цикла, который создаёт СИИ с чистого листа:
Две модели разработки СИИ. Модель слева напрямую аналогична тому, как эволюция создала человеческий мозг. Модель справа использует аналогию между геномом и исходным кодом, определяющим алгоритм машинного обучения, как будет описано в следующем подразделе.
Подход эволюции-с-чистого-листа (левый) регулярно обсуждается в технической литературе по безопасности СИИ – см. Риски Выученной Оптимизации и десятки других постов про так называемые «меса-оптимизаторы».
Однако, как указано в диаграмме, этот подход – не то, как, по моим ожиданиям, люди создадут СИИ, по причинам, которые я вскоре объясню.
Несмотря на это, я всё же не полностью отвергаю идею внешнего цикла поиска; я ожидаю, что он будет присутствовать, хоть и с более ограниченной ролью. В частности, когда будущие программисты будут писать алгоритмы подобного-мозгу СИИ, в его исходном коде будет некоторое количество настраиваемых параметров, оптимальные значения которых не будут априори очевидными. Они могут включать, например, гиперпараметры обучающихся алгоритмов (как скорость обучения), разные аспекты нейронной архитектуры, и коэффициенты, настраивающие относительную силу разных встроенных стремлений.
Я думаю, весьма правдоподобно, что будущие программисты СИИ будут использовать автоматизированный внешний цикл поиска для установки значений многих или всех этих настраиваемых параметров.
(Или нет! К примеру, как я понимаю, изначальное обучение GPT-3 было таким дорогим, что его сделали только один раз, без точной настройки гиперпараметров. Вместо этого, гиперпараметры систематически изучили на меньших моделях, и исследователи обнаружили тенденции, которые смогли экстраполировать на полноразмерную модель.)
(Ничто из этого не подразумевает, что алгоритмы обучения с чистого листа не важны для подобного-мозгу СИИ. Совсем наоборот, они играют огромную роль! Но эта огромная роль заключена во внутреннем цикле – т.е. в прижизненном обучении. См. Пост №2.)
В диаграмме выше я написал «геном = ML-код». Это указывает на аналогию между подобным-мозгу СИИ и современным машинным обучением, как в этой таблице:
**Аналогия «Геном = ML-код»** | |
Человеческий интеллект | Современные системы машинного обучения |
Геном человека | Репозиторий на GitHub с всем необходимым PyTorch-кодом, необходимым для обучения и запуска играющего в Pac-Man агента |
Прижизненное обучение | Обучение играющего в Pac-Man агента |
Как думает и действует взрослый человек | Играющий в Pac-Man обученный агент |
Эволюция | *Может быть,* исследователи использовали внешний цикл поиска для некоторых понятных людям настраиваемых параметров – например, подправляя гиперпараметры, или отыскивая лучшую нейронную архитектуру. |
(См. также мой пост от марта 2021 года: Против эволюции как аналогии того, как люди создадут СИИ.)
Я думаю, лучший аргумент против модели эволюции с чистого листа – это непрерывность: «геном = ML-код» – это то, как сейчас работает машинное обучение. Откройте случайную статью по обучению с подкреплением и взгляните на обучающийся алгоритм. Вы увидите, что он интерпретируем для человека, и в основном или полностью спроектирован людьми – наверное, с использованием штук вроде градиентного спуска, обучения методом Временных Разниц и т.д. То же для алгоритма вывода, функции вознаграждения и т.д. Как максимум, в коде обучающегося алгоритма будет пара десятков или сотен бит информации, пришедшей из внешнего цикла поиска, вроде конкретных значений гиперпараметров, составляющих крохотную долю «работы проектирования», влитой в этот алгоритм.[1]
К тому же, если бы будущее было за первостепенным внешним циклом поиска, я ожидал бы, что сейчас мы бы наблюдали, что проекты машинного обучения, больше всего полагающиеся на внешний цикл поиска, чаще встречались бы среди самых впечатляющих прорывных результатов. Насколько я могу посудить, это вовсе не так.
Я лишь предполагаю, что эта тенденция продолжится – по тем же причинам, что и сейчас: люди довольно хороши в проектировании обучающихся алгоритмов, и, одновременно с этим, внешний цикл поиска обучающихся алгоритмов крайне медленен и дорог.
(Ладно, то, что «крайне медленно и дорого» сегодня, будет быстрее и дешевле в будущем. Однако, когда по прошествии времени будущие исследователи машинного обучения смогут позволить себе большие вычислительные мощности, я ожидаю, что, как и сегодняшние исследователи, они обычно будут «тратить» их на бОльшие модели, лучшие процедуры обучения и так далее, а не на больший внешний цикл поиска.)
С учётом всего этого, почему некоторые люди готовы многое поставить на модель «эволюции с чистого листа»? Я думаю, это сводится к вопросу: Насколько вообще сложно может быть написать исходный код для модели «геном = ML-код»?
Если ваш ответ «это невозможно» или «это займёт сотни лет», то эволюция с чистого листа выигрывает по умолчанию! С этой точки зрения, даже если внешний цикл поиска потребует триллионы долларов и десятилетия реального времени и гигаватты электричества, это всё равно кратчайший путь к СИИ, и рано или поздно какое-то правительство или компания вложат деньги и потратят время, чтобы это произошло[2].
Однако, я не думаю, что написание исходного кода для модели «геном = ML-код» – дело на сотни лет. Напротив, я думаю, что это вполне посильно, и что исследователи в областях ИИ и нейробиологии двигают прогресс в этом направлении, и что они могут преуспеть в ближайшие десятилетия. За объяснениями, почему я так думаю, см. обсуждение «сроков до подобного-мозгу СИИ» ранее в цепочке – Разделы 2.8, 3.7 и 3.8.
Это один из редких случаев, где «то, что я ожидаю по умолчанию» совпадает с «тем, на что я надеюсь»! В самом деле, модель «геном = ML-код», которую я подразумеваю в этой цепочке, кажется куда более многообещающей для безопасности СИИ, чем модель «эволюции с чистого листа». Тому есть две причины.
Первая – интерпретируемость человеком. В модели «геном = ML-код» с ней плохо. Но в модели «эволюция с чистого листа» с ней ещё хуже!
В первом случае модель мира – это большой обучившийся с чистого листа чёрный ящик. И функция ценности и многое другое тоже, и нам надо будет много работать над пониманием их содержимого. Во втором случае, у нас будет только один ещё больший чёрный ящик. Нам повезёт, если мы вообще найдём там модель мира, функцию ценности, и т.д., не то что поймём их содержимое!
Вторая причина, которая будет подробно рассмотрена в следующих постах, в том, что осторожное проектирование Направляющей Подсистемы – это один из наших самых мощных рычагов контроля цель и мотиваций подобного-мозгу СИИ, который может обеспечить нам безопасное и выгодное поведение. Если мы сами пишем код Направляющей Подсистемы, то мы имеем полный контроль нам тем, как она работает и прозрачность того, что она делает при работе. Когда же мы использует модель эволюции с чистого листа, у нас есть намного меньше контроля и понимания.
Для ясности, безопасность СИИ – нерешённая задача и в случае «геном = ML-код». Я только говорю, что, по видимости, подход эволюции с чистого листа делает эту задачу ещё сложнее.
(Примечание для ясности: это обсуждение предполагает, что у нас будет именно подобный-мозгу СИИ в обоих случаях. Я не делаю заявлений о большей или меньшей безопасности подобного-мозгу СИИ в сравнении с не-подобным-мозгу СИИ, если такой возможен.)
Возможное возражение, которое я иногда встречаю: «Люди не так плохи, а нашу Направляющую Подсистему спроектировала эволюция, верно? Может, если мы проведём подобный эволюции внешний цикл поиска в окружении, где много СИИ должны кооперироваться, то они заполучат альтруизм и другие подобные социальные инстинкты!» (Я думаю, что какие-то такие соображения стоят за проектами вроде DeepMind Melting Pot.)
У меня на это есть три ответа.
Как обсуждалось в Посте №3, я утверждаю, что Направляющая Подсистема (т.е. гипоталамус и мозговой ствол) мозгов млекопитающих состоит из генетически-закодированных алгоритмов. (За подробностями см. Пост №2, Раздел 2.3.3)
Когда мы переключаемся на СИИ, у меня есть соответствующее ожидание, что Направляющая Подсистема будущих СИИ будет состоять в основном и написанного людьми кода – как типично написанные людьми функции вознаграждения современных агентов обучения с подкреплением.
Однако, она может быть не полностью написана людьми. Для начала, как обсуждалось в предыдущем разделе, значения некоторого количества настраиваемых параметров, например, относительные силы встроенных стремлений, могут быть выяснены внешним циклом поиска. Вот ещё три возможных исключения из моего общего ожидания, что Направляющая Подсистема СИИ будет состоять из написанного людьми кода.
Правдоподобно звучит, что составляющей Направляющей Подсистемы СИИ будет что-то вроде обученного классификатора изображений ConvNet. Это было бы аналогично тому, что в верхнем двухолмии человека есть что-то-вроде-классификатора-изображений для распознавания заранее заданного набора определённо-важных категорий, вроде змей, пауков и лиц (см. Пост №3, Раздел 3.2.1). Аналогично, могут быть обученные классификаторы для аудио- и других сенсорных вводов.
В принципе, вместо нормальной Направляющей Подсистемы мог бы быть целый отдельный СИИ, присматривающий за мыслями в Обучающейся Подсистеме и посылающий соответствующие вознаграждения.
Чёрт, можно даже создать целую башню СИИ-направляющих-СИИ! Предположительно, СИИ становились бы более сложными и мощными по мере восхождения на башню, достаточно медленно, чтобы каждый СИИ справлялся с задачей направления СИИ на уровень выше. (Ещё это могла бы быть пирамида, а не башня, с несколькими более глупыми СИИ, совместно составляющими Направляющую Подсистему более умного СИИ.)
Я не думаю, что такой подход точно бесполезен. Но мне кажется, что мы всё ещё не добрались до первого этапа, на котором мы создаём хоть какой-то безопасный СИИ. Создание башни СИИ-направляющих-СИИ не избавляет нас от необходимости сначала сделать один безопасный СИИ другим способом. Башне нужно основание!
Когда мы решим эту первую большую задачу, тогда мы сможем думать о том, чтобы использовать этот СИИ напрямую для решения человеческих проблем или косвенно, для направления ещё-более-мощных СИИ, аналогично тому, как люди пытаются направлять самый первый.
Я склоняюсь к тому, что возможность «использовать этот первый СИИ напрямую» более многообещающая, чем «использовать этот первый СИИ для направления второго, более мощного, СИИ». Но я могу быть неправ. В любом случае, сначала нам нужно до этого добраться.
Если Направляющей Подсистемой СИИ могут (предположительно) быть другой СИИ, то почему ею не может быть человек?
Ответ: если СИИ работает со скоростью мозга человека, то он может думать 3 мысли в секунду (или около того). Каждая «мысль» потребует соответствующего вознаграждения, и, может, десятков других сигналов эмпирической истины. Человек не сможет за этим поспевать!
Что можно – это сделать человеческую обратную связь вводом Направляющей Подсистемы. К примеру, мы можем дать людям большую красную кнопку с надписью “ВОЗНАГРАЖДЕНИЕ». (Нам, наверное, не стоит так делать, но мы можем.) Мы также можем вовлекать людей иными способами, включая не имеющие биологических аналогов – стоит быть открытыми к идеям.
———
К примеру, вот случайная статья по поиску нейронной архитектуры (NAS): «Эволюционирующий трансформер». Авторы хвастаются своим «большим пространством поиска», и оно действительно большое по меркам NAS. Но поиск по этому пространству всё же выдаёт лишь 385 бит информации, и его результат умещается в одну легко понятную человеку диаграмму из этой статьи. Для сравнения, веса обученной модели легко могут составлять миллионы или миллиарды бит информации, а конечный результат требует героических усилий для понимания. Мы также можем сравнить эти 385 бит с информацией в созданных людьми частях исходного кода обучающегося алгоритма, вроде кода умножения матриц, Softmax, Autograd, передачи данных между GPU и CPU, и так далее. Это будет на порядки больше, чем 385 бит. Это то, что я имел в виду, говоря, что штуки вроде подстройки гиперпараметров и NAS составляют крохотную долю общей «работы проектирования» над обучающимся алгоритмом.
(Наиболее полагающаяся на внешний цикл поиска статья, которую я знаю – это статья про AutoML-Zero, и даже там внешний цикл выдал по сути 16 строк кода, которые были легко интерпретируемы авторами.)
Если вам любопытны приблизительные оценки того, как много времени и денег потребует выполнение вычислений, эквивалентных всей истории эволюции животных на Земле, см. обсуждение про «Эволюционные якоря» в докладе Аджейи Котры по биологическим якорям 2020 года. Очевидно, это не в точности то же, что и вычисления, необходимые для разработки СИИ методом эволюции с чистого листа, но это всё же имеет какое-то отношение. Я не буду больше говорить на эту тему; не думаю, что это важно, потому что в любом случае не ожидаю разработки СИИ методом эволюции с чистого листа.
Большая часть предыдущих постов цепочки – №2-7 – были в основном про нейробиологию. Теперь, начиная с предыдущего поста, мы применяем эти идеи для лучшего понимания безопасности подобного-мозгу СИИ (определённого в Посте №1).
В этом посте я рассмотрю некоторые темы, связанные с мотивациями и целями подобного-мозгу СИИ. Мотивации очень важны для безопасности СИИ. В конце концов, наши перспективы становятся намного лучше, если будущие СИИ будут мотивированы на достижение замечательного будущего, где люди процветают, а не мотивированы всех убить. Чтобы получить первое, а не второе, нам надо понять, как работает мотивация у подобных-мозгу СИИ, и, в частности, как направить её в нужном направлении. Этот пост охватит разнообразные темы из этой области.
Содержание:
Нравится ли вам футбол? Ну, «футбол» – это выученный концепт, обитающий внутри вашей модели мира. Такие выученные концепты – это единственное, что может «нравиться». Вам не может нравиться или не нравиться [безымянный паттерн из сенсорного ввода, о котором вы никогда не задумывались]. Возможно, что вы нашли бы этот паттерн вознаграждающим, если бы вы на него наткнулись. Но он не может вам нравиться, потому что сейчас он не является частью вашей модели мира. Это также означает, что вы не можете и не будете составлять целенаправленный план для вызова этого безымянного паттерна.
Я думаю, это ясно из интроспекции, и думаю, что это так же ясно из нашей картины мотивации (см. Посты №6-7). Я там использовал термин «мысль» в широком смысле, включающем всё осознанное и более того – что вы планируете, видите, вспоминаете, понимаете, предпринимаете, и т.д. «Мысль» – это то, что оценивают Оценщики Мыслей, и она состоит из некоторой конфигурации выученных скрытых переменных в вашей генеративной модели мира.
Наша модель мотивации – см. Пост №6 за подробностями
Почему важно, чтобы цели СИИ были определены в терминах скрытых переменных его модели мира? Много причин! Они будут снова и снова всплывать в этом и будущих постах.
Наблюдение выше – одна из причин, почему «согласование ценностей» человека и СИИ – чертовски запутанная задача. У подобного-мозгу СИИ будут скрытые переменные в его выученной модели мира, а у человека скрытые переменные в его модели мира, но это разные модели мира, и скрытые переменные в одной могут иметь сложное и проблематичное соответствие с скрытыми переменными в другой. К примеру, человеческие скрытые переменные могут включать штуки вроде «привидений», которые не соответствуют ничему в реальном мире! Для большего раскрытия этой тему, см. пост Джона Вентворта Проблема Указателей.
(Я в этой цепочке не скажу многого про «определение человеческих ценностей» – я хочу придерживаться более узкой задачи «избегания катастрофических происшествий с СИИ, таких как вымирание людей», и не думаю, что глубокое погружение в «определение человеческих ценностей» для этого необходимо. Но «определение человеческих ценностей» – всё ещё хорошее дело, и я рад, что люди над этим работают – см., к примеру, 1,2.)
Оценщики Мыслей оценивают и сравнивают «мысли», т.е. конфигурации в генеративной модели мира агента. Модель мира неидеальна, полное понимание мира слишком сложно, чтобы поместиться в любом мозгу или кремниевом чипе. Так что «мысль» неизбежно подразумевает обращение внимания на одно и игнорирование другого, коцептуализацию вещей определённым образом, приписывание их к ближайшим доступным категориям, даже если они не подходят идеально, и т.д.
Некоторые следствия:
Есть интуитивный смысл, в котором у нас есть инструментальные предпочтения (то, что мы предпочитаем, потому что это было полезно в прошлом как средство для достижения цели – например, я предпочитаю носить часы, потому что они помогают мне узнавать который час) и терминальные предпочтения (то, что мы предпочитаем само по себе – например, я предпочитаю чувствовать себя хорошо и предпочитаю не быть загрызенным медведем). Спенсер Гринберг проводил исследование, в котором некоторые, но не все участники описывали «существование красивых вещей в мире» как терминальную цель – их волновало, чтобы красивые вещи были, даже если они расположены глубоко под землёй, где никакое осознающее себя существо их никогда не увидит. Вы согласны или не согласны? Для меня самое интересное тут, что некоторые люди ответят: «Я не знаю, никогда раньше об этом не думал, хммм, дайте секундочку подумать.» Я думаю, из этого можно извлечь урок!
Конкретно: мне кажется, что глубоко в алгоритмах мозга нет различия между инструментальными и терминальными предпочтениями. Если вы думаете мысль, и ваша Направляющая Подсистема одобряет её как высокоценную, то, я думаю, вычисление одинаково в случае, когда она высокоценная по инструментальным или терминальным причинам.
Мне надо прояснить: Вы можете делать инструментальные вещи без того, чтобы они были инструментальными предпочтениями. К примеру, когда я впервые получил смартфон, я иногда вытаскивал его у себя из кармана, чтобы проверить Твиттер. В то время у меня не было самого по себе предпочтения вытаскивания телефона из кармана. Вместо этого я думал мысль вроде «я сейчас вытащу телефон из кармана и проверю Твиттер». Направляющая Подсистема одобряла это как высокоценную мысль, но только из-за второй части мысли, про Твиттер.
Потом, через некоторое время, «присвоение ценности» (следующий раздел) сделало свой фокус и поместило в мой мозг новое предпочтение, предпочтение просто доставать телефон из моего кармана. После этого я стал вытаскивать телефон из кармана без малейшей идеи, почему. И вот теперь это «инструментальное предпочтение».
Формирование привычек – это процесс, в котором присвоение ценности превращает инструментальное *поведение* в инструментальное *предпочтение*.
(Замечу: Только то, что инструментальные и терминальные предпочтения смешаны в человеческом мозгу, не означает, что они обязаны быть смешаны в подобных-мозгу СИИ. К примеру, я могу приблизительно представить некую систему, помечающую концепты положительной валентности некими объяснениями, почему они стали иметь положительную валентность. В примере выше, может быть, что мы могли бы провести пунктирную линию от некоего внутреннего стремления к концепту «Твиттер», а затем от концепта «Твиттер» к концепту «достать телефон из кармана». Я предполагаю, что эти линии не задействовались бы в операциях, проводимых СИИ, но их было бы здорово иметь в целях интерпретируемости. Для ясности, я не знаю, работало бы это или нет, просто накидываю идеи.)
Я представил идею «присвоения ценности» в Посте №7 (Раздел 7.4), и предлагаю перечитать его сейчас, чтобы у вас в голове был конкретный пример. Вспомните эту диаграмму:
Скопировано из Поста №7, см. контекст там.
Напоминание, у мозга есть «Оценщики Мыслей» (Посты №5 и №6), работающие методом обучения с учителем (с управляющими сигналами из Направляющей Подсистемы). Их роль – переводить скрытые переменные (концепты) модели мира («картины», «налоги», «процветание», и т.д.) в параметры, которые может понять Направляющая Подсистема (боль в руке, уровень сахара в крови, гримасничанье, и т.д.). К примеру, когда я съедаю кусок торта в Посте №7, концепт модели мира («я ем торт») прикрепляется к генетически-осмысленным переменным (сладкий вкус, вознаграждение, и т.д.).
Я называю этот процесс «присвоением ценности» – в том смысле, что абстрактный концепт «я ем торт» приобретает ценность за сладкий вкус.
Кадж Сотала написал несколько поэтическое описание того, что я называю присвоением ценности тут:
Ментальные репрезентации … наполняются чувствительным к контексту притягательным блеском.
Я представляю себе аккуратную кисточку, наносящую положительную валентность на мой ментальный концепт торта «Принцесса». Кроме цвета «валентности» на палитре есть и другие цвета, ассоциированные с другими внутренними реакциями.
Мне иногда нравится визуализировать присвоение ценностей как что-то вроде «раскрашивания» скрытых переменных в предсказательной модели мира ассоциациями с вознаграждением и другими внутренними реакциями.
Присвоение ценности может работать забавным образом. Лиза Фельдман Барретт рассказывала историю как однажды она была на свидании, чувствовала бабочек в животе и думала, что нашла Настоящую Любовь – только чтобы вечером слечь с гриппом! Аналогично, если я приятно удивлён тем, что выиграл соревнование, мой мозг может «присвоить ценность» моей тяжёлой работе и навыкам, а может – тому, что я надел свои счастливые трусы.
Я говорю «мой мозг присваивает ценность» вместо «я присваиваю ценность», потому что не хочу создавать впечатление, будто это какой-то мой произвольный выбор. Присвоение ценности – глупый алгоритм в мозгу. Кстати о нём:
Если присвоение ценности – глупый алгоритм в мозгу, какой конкретно это алгоритм?
Я думаю, по крайней мере в первом приближении, очевидный:
Ценность присваивается активной прямо сейчас мысли.
Это «очевидно» в том смысле, что Оценщики Мыслей используют обучение с учителем (см. Пост №4), а это то, что обучение с учителем делает по умолчанию. В конце концов, «контекстный» ввод Оценщика Мыслей описывает, какая мысль активна прямо сейчас, так что если мы сделаем обновление методом градиентного спуска (или что-то функционально на него похожее), то мы получим именно такой «очевидный» алгоритм.
Я думаю, стоит немного больше поисследовать эту тему, потому что присвоение ценности играет ключевую роль в безопасности СИИ – в конце концов, это то, из-за чего подобный-мозгу СИИ будет хотеть одни штуки больше, чем другие. Так что я перечислю некоторые отдельные мысли о том, как, по моему мнению, это работает у людей.
1. У присвоения ценности могут быть «априорные суждения» о том, что будет ассоциироваться с концептами того или иного вида:
Напомню, в Постах №4-№5 говорилось, что каждый Оценщик Мыслей обладает своими собственными «контекстными» сигналами, служащими вводом его предсказательной модели. Представьте, что некий конкретный Оценщик Мыслей получает контекстные данные, например, только из зрительной коры. Он будет вынужден «присваивать ценность» в первую очередь визуальным паттернам из этой части нейронной архитектуры – так как он имеет стопроцентное «априорное суждение» о том, что только паттерны из визуальной коры вообще могут оказаться полезными для его предсказаний.
Мы можем наивно посчитать, что такие «априорные суждения» – всегда плохая идея: чем разнообразнее контекстные сигналы, получаемые Оценщиком Мыслей, тем лучше будет его предсказательная модель, верно? Зачем его ограничивать? Две причины. Во-первых, хорошее априорное суждение приведёт к более быстрому обучению. Во-вторых, Оценщики Мыслей – только один компонент большой системы. Нам не стоит принимать за данность, что более точные предсказатели Оценщика Мыслей обязательно полезны для всей системы.
Вот знаменитый пример из психологии: крысы могут легко научиться замирать в ответ на звук, предвещающий удар током, и научиться плохо себя чувствовать в ответ на вкус, предвещающий приступ тошноты. Но не наоборот! Это может демонстрировать, например, то свойство архитектуры мозга, что предсказывающий тошноту Оценщик Мыслей имеет контекст, связанный со вкусом (например, из островковой доли), но не связанный с зрением или слухом (например, из височной доли), а предсказывающий замирание Оценщик Мыслей – наоборот. (Вскоре будет больше о примере с тошнотой.)
2. Присвоение ценности очень чувствительно ко времени:
Выше я предположил «Ценность присваивается активной прямо сейчас мысли». Но я не сказал, что значит «прямо сейчас».
Пример: Предположим, я прогуливаюсь по улице, думая о сериале, который я смотрел прошлым вечером. Внезапно, я чувствую острую боль в спине – меня кто-то ударил. Почти что немедленно в моём мозгу происходит две вещи:
Фокус в том, что мы хотим, чтобы (1) произошло до (2) – иначе я заимею внутреннее ожидание боли в спине каждый раз, когда буду думать о том сериале.
Я думаю, что мозг в состоянии обеспечить, чтобы (1) происходило до (2), по крайней мере в основном. (Я всё же могу получить немного обманчивых ассоциаций с сериалом.)[4]
3. …И эта чувствительность ко времени может взаимодействовать с «априорными суждениями»!
Условное Отторжение Вкуса (CTA) – явление, заключающееся в том, что если меня затошнит сейчас, то это вызовет отторжение к вкусу, который я ощущал пару часов назад – не пару секунд, не пару дней, именно пару часов. (Я обращался к CTA выше, но не к временному аспекту.) Эволюционная причина очевидна: пара часов – это типичное время, через которое токсичная еда вызывает тошноту. Но как это работает?
Островковая кора – место обитания нейронов, формирующих генеративную модель вкусовых сенсорных вводов. Согласно «Молекулярным механизмам в основе вкусового следа в памяти для ассоциаций в островковой коре» Адайккана и Розенблума (2015), у этих нейронов есть молекулярные механизмы, устанавливающие их в специальное помеченное состояние на несколько часов после активации.
Так что предложенное мной выше правило («Ценность присваивается активной прямо сейчас мысли») надо модифицировать: «Ценность присваивается нейронам, прямо сейчас находящимся в специальном помеченном состоянии».
4. Присвоение ценности работает по принципу «Кто успел, того и тапки»:
Если уже найден способ точно предсказывать некоторый набор управляющих сигналов, это отключает соответствующий сигнал об ошибке, так что мы прекращаем присваивать ценность в таких ситуациях. Я думаю, первая обнаруженная мозгом хорошая предсказательная модель по умолчанию «застревает». Я думаю, с этим связано блокирование в поведенческой психологии.
5. Генератор Мыслей не имеет прямого произвольного контроля над присвоением ценности, но, вероятно, всё же может как-то им манипулировать.
В некотором смысле Генератор Мыслей и Оценщики Мыслей противостоят друг другу, т.е. работают на разные цели. В частности, они обучены оптимизировать разные сигналы.[5] К примеру, однажды мой начальник на меня орал, и я очень сильно не хотел начать плакать, но мои Оценщики Мыслей оценили, что это было подходящее время, так что я заплакал![6] С учётом этих отношений противостояния, я сильно подозреваю, что Генератор Мыслей не имеет прямого («произвольного») контроля над присвоением ценности. Интроспекция, кажется, это подтверждает.
С другой стороны, «нет прямого произвольного контроля» – несколько не то же самое, что «никакого контроля». Опять же, у меня нет прямого произвольного контроля над плачем, но я всё же могу вызвать слёзы, по крайней мере немного, обходной стратегией представления маленьких котят, замерзающих под холодным дождём (Пост №6, Раздел 6.3.3).
Итак, предположим, что я сейчас ненавижу X, но хочу, чтобы мне нравилось X. Мне кажется, что эта задача не решается напрямую, но не кажется и что она невыполнима. Это может потребовать некоторого навыка рефлексии, осознанности, планирования, и так далее, но если Генератор Мыслей подумает правильные мысли в правильное время, то он, вероятно, сможет с этим справиться.
И для СИИ это может быть проще, чем для человека! В конце концов, в отличии от людей, СИИ может быть способен буквально взломать свои собственные Оценщики Мыслей и настроить их по своему желанию. И это приводит нас к следующей теме…
Концепт «вайрхединга» получил название от идеи запихнуть провод («wire») в некоторую часть своего мозга и пустить ток. Если сделать это правильно, то это будет напрямую вызывать экстатическое удовольствие, глубокое удовлетворение, или другие приятные ощущения, в зависимости от части мозга. Вайрхединг может быть куда более простым способом вызывать эти ощущения, в сравнении с, ну знаете, нахождением Истинной Любви, приготовлением идеального суфле, зарабатыванием уважения героя своего детства, и так далее.
В классическом вызывающем кошмары эксперименте с вайрхедингом (см. «Симуляция Вознаграждения в Мозгу»), провод в мозгу крысы активировался, когда крыса нажимала на рычаг. Крыса нажимала на него снова и снова, не останавливаясь на еду, питьё и отдых, 24 часа подряд, пока не потеряла сознание от усталости. (ссылка)
Концепт вайрхединга можно перенести на ИИ. Идея тут в том, что агент обучения с подкреплением спроектирован для максимизации своего вознаграждения. Так что, может быть, он взломает свою собственную оперативную память и перепишет значение «вознаграждения» на бесконечность! Дальше я поговорю о том, вероятно ли это, и о том, насколько это должно нас беспокоить.
Ну, для начала, ходят ли люди завайрхедиться? Нужно провести различие двух вариантов:
В случае людей, может, мы можем приравнять стремление к вайрхедингу с «желанием получать удовольствие», т.е. с гедонизмом.[7] Если так, то получается, что (почти) все люди имеют «слабое стремление к вайрхедингу», но не «сильное стремление к вайрхедингу». Мы хотим получать удовольствие, но обычно нас хоть немного волнуют и другие вещи.
Как так получается? Ну, подумайте о предыдущих двух разделах. Чтобы человек хотел вознаграждения, он, во-первых, должен иметь концепт вознаграждения в своей модели мира, и, во-вторых, присвоение ценности должно пометить этот концепт как «хороший». (Я использую термин «концепт вознаграждения» в широком смысле, включающем и концепт «удовольствия».[7])
СИИ (или человек) может обладать саморефлексивными концептами, и, следовательно, может быть мотивирован на изменение своих внутренних настроек и операций.
С учётом этого и заметок про присвоение ценности в Разделе 9.3, я считаю:
(Есть ещё возможность, что слабый-вайрхедер самомодифицируется, чтобы стать сильным-вайрхедером; больше про такие вещи в следующем посте.)
Есть опасное интуитивное заключение, в которое попадаются многие: Когда мы представляем завайрхедившийся СИИ, мы сравниваем его с человеком в состоянии глубокого опьянения рекреационными наркотиками. Такой человек точно не занимается методичным составлением, проверкой и исполнением гениального коварного плана по захвату мира. Скорее, он просто получает удовольствие с закрытыми глазами, или, может, танцует, или что-то такое, зависит от наркотика. Так что интуиция предполагает, что вайрхединг – проблема способностей, а не фактор риска катастрофических происшествий.
Я думаю, что тут есть зерно истины: как обсуждалось в Постах №6-№7, сигналы вознаграждения / ценности управляют мышлением и планированием, так что если вознаграждения застревает на высоком положительном значении, то мышление и планирование становятся невозможными.
Но неправильно выводить из этого, что вархединг не представляет риска катастрофических происшествий.[8] Рассмотрим, что происходит до того, как СИИ начинает вайрхедиться. Если он составит план «я завайрхежусь», то эта мысль, вероятно, получит высокую оценку Направляющей Подсистемы. Но если он подумает об этом побольше, то поймёт, что ожидания от этого плана должны быть «Я завайрхежусь на некоторое время, а потом люди меня отключат и исправят так, чтобы я больше не мог этого сделать». Теперь план не звучит так замечательно! Так что СИИ может составить план получше, включающий штуки вроде захвата контроля над локальным окружением и/или энергосетью и/или всем миром, и/или создание «ИИ-телохранителя», который делает всё это, пока СИИ вайрхедится, и т.д. Так что на самом деле я думаю, что вайрхединг несёт риски катастрофических происшествий, даже уровня человеческого вымирания, как я обсуждал в Посте №1.
Это напрямую вытекает из предыдущего раздела, но я хочу особо это подчеркнуть, так как «СИИ будут пытаться максимизировать будущее вознаграждение» – часто встречаемое заявление.
Если Генератор Мыслей предлагает план, то Оценщики Мыслей оценивают его вероятные последствия согласно своим нынешним моделям, и Направляющая Подсистема одобрит или отвергнет план в основном на этом основании. Эти нынешние модели не обязаны быть согласованными с «ожидаемым будущим вознаграждением».
Предсказательная модель мира Генератора Мыслей может даже «знать» о некотором расхождении между «ожидаемым будущим вознаграждением» и его прикидкой от Оценщика Мыслей. Это не имеет значения! Прикидки не поправят себя автоматически и всё ещё будут определять, какие планы будет исполнять СИИ.
Вот пример на людях. Я буду говорить про кокаин вместо вайрхединга. (Они не столь отличаются, но кокаин более знаком.)
Факт: я никогда не принимал кокаин. Предположим, что я сейчас думаю «может быть, я приму кокаин». Интеллектуально я уверен, что если я приму кокаин, то испытаю, эммм, много весьма интенсивных ощущений. Но внутренне представление того, как я принимаю кокаин ощущается в целом нейтрально! Оно не заставляет меня чувствовать ничего особенного.
Так что прямо сейчас мои интеллектуальные ожидания (того, что произойдёт, если я приму кокаин) не синхронизированы с моими внутренними ожиданиями. Очевидно, мои Оценщики Мыслей просматривают мысль «может, я приму кокаин» и коллективно пожимают плечами: «Ничего особенного!». Напомню, что Оценщики Мыслей работают через присвоение ценности (Раздел 9.3 выше), и, очевидно, алгоритм присвоения ценности не особо чувствителен ни к слухам о том, как ощущается приём кокаина, ни к чтению нейробиологических статей о том, как кокаин связывается с переносчиками дофамина.
Напротив, алгоритм присвоения ценности сильно чувствителен к прямому личному опыту интенсивных ощущений.
Поэтому люди могут заполучить зависимость от кокаина, принимая кокаин, но не могут – читая про кокаин.
Для более теоретического подхода, вот Абрам Демски (прошу прощения за жаргон – если вы не знаете, что такое AIXI, не беспокойтесь, скорее всего вы всё равно ухватите суть):
В качестве первого примера, рассмотрим проблему вайрхединга для AIXI-подобных агентов в случае фиксированной функции полезности, для которой известно, как её оценивать исходя из сенсорных данных. Как обсуждается в Обучаясь, Что Ценить Дэниэла Дьюи и в других местах, если вы попробуете реализовать это, запихнув вычисление полезности в коробку, выдающую вознаграждение AIXI-подобному агенту обучения с подкреплением, то агент рано или поздно обучится модификации или удалению коробки, и с радостью это сделает, так как сможет таким образом получить большее вознаграждение. Это так, потому что агент обучения с подкреплением предсказывает и пытается максимизировать получаемое вознаграждение. Если он понимает, что он может модифицировать выдающую вознаграждение коробку, чтобы получить больше, он так и сделает.
Мы можем исправить эту проблему, встроив в агента ту же коробку способом получше. Вместо того, чтобы агент обучения с подкреплением обучался выводу коробки и составлял планы для его максимизации, мы можем использовать коробку, чтобы *напрямую* оценивать возможные варианты будущего, и заставить агента планировать для максимизации этой оценки. Теперь, если агент рассматривает возможность модификации коробки, то он оценивает такое будущее *при помощи нынешней коробки*. А она не видит выгоды в такой модификации. Такая система называется максимизатором наблюдаемой полезности (для проведения различия от обучения с подкреплением)…
Это похоже на различие цитаты/референта. Агент обучения с подкреплением максимизирует «функцию в модуле полезности», а агент наблюдаемой полезности максимизирует функцию в модуле полезности.
Наш подобный-мозгу СИИ, хоть он и RL[9], на самом деле ближе к парадигме наблюдаемой полезности: Оценщики Мыслей и Направляющая Подсистема вместе работают для оценивания планов / курсов действия, прямо как «коробка» Абрама.
Однако, у подобного-мозгу СИИ есть ещё дополнительная черта, заключающаяся в том, что Оценщики Мыслей постепенно обновляются «присвоением ценности» (Раздел 9.3 выше).
Так что у нас получается примерно что-то такое:
Эта диаграмма показывает, как наша картина мотивации подобного-мозгу СИИ встраивается в парадигму «агента наблюдаемой полезности», описанную в тексте.
Заметим, что мы не хотим, чтобы процесс присвоения ценности идеально «сходился» – т.е., достичь точки, в которой функция полезности будет идеально совпадать с функцией вознаграждения (или, в нашей терминологии, достичь точки, в которой Оценщики Мыслей больше никогда не будут обновляться, потому что они всегда оценивают планы идеально соответствуя Направляющей Подсистеме).
Почему мы не хотим идеальной сходимости? Потому что идеальная сходимость приведёт к вайрхедингу! А вайрхединг плох и опасен! (Раздел 9.4.3 выше) Но в то же время, нам нужна какая-то сходимость, потому что функция вознаграждения предназначена для оформления целей СИИ! (Напомню, Оценщики Мыслей изначально работают случайным образом и совершенно бесполезны.) Это Уловка-22! Я вернусь к этой теме в следующем посте.
(Проницательные читатели могут заметить ещё и другую проблему: максимизатор полезности может попробовать сохранить свои цели, мешая процессу присвоения ценности. В следующем посте я поговорю и про это.)
9.6 Оценщики Мыслей помогают интерпретируемости
Вот, ещё раз, диаграмма из Поста №6:
То же, что и выше, скопировано из Поста №6
Где-то сверху справа есть маленький обучающийся с учителем модуль, отвечающий на вопрос: «С учётом всего, что я знаю, включая не только сенсорный ввод и память, но ещё и курс действий, подразумеваемый моей текущей мыслью, насколько я предчувствую попробовать что-то сладкое?» Как описано раньше (Пост №6), этот Оценщик Мыслей играет двоякую роль (1) вызова подходящих действий гомеостаза (например, слюновыделения), и (2) помощи Направляющей Подсистеме понять, является ли текущая мысль ценной, или же это мусор, который надо выкинуть на следующей паузе фазового дофамина.
Сейчас я хочу предложить третий способ думать о том же самом.
Уже давно, в Посте №3, я упоминал, что Направляющая Подсистема «глупая». У неё нет здравого смысла в понимании мира. Обучающаяся Подсистема думает все эти сумасшедшие мысли о картинах, алгебре и налоговом законодательстве, а Направляющая Подсистема понятия не имеет, что происходит.
Что ж, Оценщики Мыслей помогают с этой проблемой! Они дают Направляющей Подсистеме набор подсказок о том, что думает и планирует Обучающаяся Подсистема, на языке, который Направляющая Подсистема может понять. Это немного похоже на интерпретируемость нейросетей.
Я называю это «суррогат интерпретируемости». Думаю, настоящая интерпретируемость должна быть определена как «возможность посмотреть на любую часть обучившейся с чистого листа модели и ясно понять, что, как и почему там происходит». Суррогат интерпретируемости далёк от этого. Мы получаем ответы на некоторое количество заранее определённых вопросов – например, «Касается ли эта мысль еды или, хотя бы, чего-то, что раньше ассоциировалось с едой?». И всё. Но это уже лучше, чем ничего.
Машинное обучение | Мозг |
Человек-исследователь | Направляющая Подсистема (см. Пост №3) |
Обученная модель ConvNet | Обучающаяся Подсистема (см. Пост №3) |
По умолчанию, с точки зрения человека, обученная модель – ужасно сложная свалка неразмеченных непонятных операций | По умолчанию, с точки зрения Направляющей Подсистемы, Обучающаяся Подсистема – ужасно сложная свалка неразмеченных непонятных операций |
Суррогат интерпретируемости – Человек получает некоторые «намёки» на то, что делает обученная модель, вроде «прямо сейчас она думает, есть ли на изображении кривая». | Оценщики Мыслей – Направляющая Подсистема получает некоторые «намёки» на то, что происходит в Обучающейся Подсистеме, вроде «эта мысль скорее всего касается еды или хотя бы чего-то связанного с едой». |
Настоящая интерпретируемость – конечная цель настоящего понимания, что, почему и как делает обученная модель, сверху донизу | [Аналогии этому нет.] |
Эта идея будет важна в более поздних постах.
(Замечу, что что-то подобное можно делать с любым агентом обучения с подкреплением субъект-критик, подобным-мозгу или нет, с помощью многомерной функции ценности, возможно включающей «псевдо» ценности, используемые только для мониторинга; см. здесь и комментарии здесь.)
В Посте №3 я говорил о том, что у мозга есть множество разных «встроенных стремлений», включающих стремление к удовлетворению любопытства, стремление есть, когда голоден, стремление избегать боли, стремление к высокому статусу, и так далее. Подобные-мозгу СИИ, предположительно будут тоже обладать множеством разных стремлений. Я не знаю точно, какими, но приблизительно представляю что-то вроде любопытства, стремления к альтруизму, стремлению следовать нормам, стремлению делать-то-что-люди-от-меня-хотят, и так далее. (Больше про это в будущих постах.)
Если все эти разные стремления вкладываются в общее вознаграждение, то мы можем и должны иметь Оценщики Мыслей для вклада каждого.
Раз функция вознаграждения может быть разделена на разные составляющие, мы можем и должны отслеживать каждое отдельным Оценщиком Мыслей. (Могут быть так же и другие, не связанные с вознаграждением, Оценщики Мыслей) У этого есть два преимущества. «Суррогат интерпретируемости» (этот раздел) означает, что если мысль обладает высокой ценностью, то мы можем проинспектировать Оценщики Мыслей, чтобы получить намёк, почему. «Направление в реальном времени» (следующий раздел) означает, что мы можем мгновенно изменить долгосрочные планы и цели СИИ, изменив функцию вознаграждения *f*. Эксперты в обучении с подкреплением распознают, что оба этих концепта применимы к любым системам обучения с подкреплением, совместимым с многомерными функциями ценности, в каком случае *f* часто называется «функцией скаляризации» – см. здесь и комментарии здесь.
Как обсуждалось в предыдущих постах, каждый раз, когда подобный-мозгу СИИ думает мысль, это вызвано тем, что эта мысль более вознаграждающая, чем альтернативные. И благодаря суррогату интерпретируемости, мы можем инспектировать систему и немедленно узнать, какие встроенные стремления вкладываются в это!
Ещё лучше, это работает, даже если мы не понимаем, о чём мысль вообще, и даже если предсказывающая вознаграждение часть мысли на много шагов отстоит от прямых эффектов на встроенные стремления. К примеру, может быть, эта мысль вознаграждающая потому, что она исполняет некую метакогнитивную стратегию, доказанно полезную для брейншторминга, который доказанно полезен для доказательства теорем, которое доказанно полезно для отладки кода, и так далее, пока через ещё десять связей мы не дойдём до одного из встроенных стремлений.
Если у нас есть очень мощный СИИ, и он выдаёт план, и система «суррогата интерпретируемости» заявляет «этот план почти точно не приведёт к нарушению человеческих норм», то можем ли мы ей верить? Хороший вопрос! Он оказывается по сути эквивалентным вопросу «внутреннего согласования», которое я рассмотрю в следующем посте. Придержите эту мысль.
В случае агентов безмодельного обучения с подкреплением, играющих в игры на Atari, если вы измените функцию вознаграждения, поведение агента изменится очень постепенно. А вот приятная черта систем мотивации наших подобных-мозгу СИИ – что мы можем немедленно изменить не только поведение агента, но и его очень долгосрочные планы и глубочайшие мотивации и желания!
Как это работает: как описано выше (Раздел 9.6.1), у нас может быть много Оценщиков Мыслей, вкладывающихся в функцию вознаграждения. К примеру, один может оценивать, приведёт ли нынешняя мысль к удовлетворению стремления к любопытству, другая – стремления к альтруизму, и т.д. Направляющая Подсистема комбинирует эти оценки в общее вознаграждение. Но функция, которую она для этого использует, жёстко закодирована и понятна людям – она может быть такой простой, как, к примеру, взвешенное среднее. Следовательно, мы можем изменить эту функцию в Направляющей Подсистеме в реальном времени, как только захотим – в случае взвешенного среднего мы можем изменить веса.
Мы видели пример в Посте №7: Когда вас очень тошнит, не только поедание торта становится неприятным – несколько отталкивающим становится даже планирование поедания торта. Чёрт, даже абстрактный концепт торта становится немного отталкивающим!
И, конечно, у нас у всех были случаи, когда мы устали, грустим или злимся, и вдруг все наши самые глубокие жизненные цели теряют свою привлекательность.
Когда вы водите машину, критически важное требование безопасности – что, когда вы поворачиваете руль, колёса реагируют немедленно. Точно также, я ожидаю, что критически важным требованием безопасности будет возможность для людей мгновенно изменить глубочайшие желания СИИ по нажатию соответствующей кнопки. Так что я думаю, что это замечательное свойство, и я рад, что оно есть, даже если я не на 100% уверен, что в точности с ним делать. (В случае машины вы видите, куда едете, а вот понять, что пытается сделать СИИ в данный конкретный момент – куда сложнее.)
(Опять же, как и в предыдущем разделе, идея «Направления в реальном времени» применима к любому алгоритму обучения с подкреплением «субъект-критик», не только к «подобным-мозгу». Всё что требуется – многомерное вознаграждение, которое обучает многомерную функцию ценности.)
———
Примечание переводчика - с момента перевода оригинальные посты несколько обновились, через некоторое время обновлю и перевод. На общие выводы цепочки это, вроде бы, не влияет.
В этом посте я рассмотрю задачу согласования подобных-мозгу СИИ – то есть, задачу создания СИИ, пытающегося делать именно то, что входит в намерения его создателей.
Задача согласования (я так считаю) – львиная доля задачи безопасности СИИ. Я не буду отстаивать это заявление здесь – то, как в точности безопасность СИИ связана с согласованием СИИ, включая крайние случаи, где они расходятся[1], будет рассмотрено подробно в следующем посте (№11).
Этот пост – про задачу согласования, не про её решение. Какие препятствия мешают её решить? Почему прямолинейных наивных подходов, судя по всему, недостаточно? Я поговорю о возможных подходах к решению потом, в следующих постах. (Спойлер: Никто, включая меня, не знает, как решить задачу согласования.)
Содержание
Вот ещё раз рисунок из Поста №6, теперь ещё с добавлением полезной терминологии (синее) и маленьким зелёным лицом:
Я хочу упомянуть три штуки с этой диаграммы:
В таком СИИ есть два вытекающих вида «согласованности»:
Если СИИ одновременно согласован внешне и внутренне, то мы получаем согласованность намерений – СИИ «пытается» сделать то, что программист намеревался, чтобы СИИ пытался сделать. Конкретнее, если СИИ приходит к плану «Хей, может, сделаю XYZ», то его Направляющая Подсистема оценит этот план как хороший (и оставит его) если и только если он подпадает под намерения программиста.
Следовательно, такой СИИ не будет умышленно вынашивать хитрый замысел по захвату мира и убийству всех людей. Если, конечно, его создатели не были маньяками, которые хотели, чтобы СИИ это делал! Но это отдельная проблема, не входящая в тему этой цепочки – см. Пост №1, Раздел 1.2.
(В сторону: не все определяют «согласованность» в точности как описано тут, см. сноску.[3])
К сожалению, ни «внешняя согласованность», ни «внутренняя согласованность» не получаются автоматически. Даже наоборот: по умолчанию и там и там есть серьёзные проблемы. Нам надо выяснить, как с ними разобраться. В этом посте я пройдусь по некоторым из этих проблем. (Замечу, что это не исчерпывающий список, и что некоторые из них могут перекрываться.)
Две альтернативные модели разработки подобного-мозгу СИИ. Диаграмма скопирована из Поста №8, см. обсуждение там.
Как упоминалось в Посте №8, есть две конкурирующие модели разработки, которая может привести нас к подобному-мозгу СИИ. Обе они могут обсуждаться в терминах внешней и внутренней согласованности, и обе могут быть проиллюстрированы на примере человеческого интеллекта, но детали в двух случаях отличаются! Вот короткая версия:
Две модели разработки СИИ выше предлагают две версии «внешней и внутренней согласованности». Запутывает ещё больше то, что они *обе* применимы к человеческому интеллекту, но проводят разные границы между «внешним» и «внутренним». Для более подробного описания «внешнего и внутреннего согласования» в этих двух моделях, см. статью Риски Выученной Оптимизации (для модели эволюции с чистого листа) и этот пост и цепочку (для модели геном = ML-код).
Терминологическое замечание: Термины «внутренняя согласованность» и «внешняя согласованность» произошли из модели «Эволюции с чистого листа», более конкретно – из статьи Риски Выученной Оптимизации (2019). Я перенял эту терминологию для обсуждения модели «геном = ML-код». Я думаю, что не зря – мне кажется, что у этих двух использований очень много общего, и что они больше похожи, чем различны. Но всё же, не запутайтесь! И ещё, имейте в виду, что моё употребление этих терминов не особо распространено, так что если вы увидите, что кто-то (кроме меня) говорит о «внутренней и внешней согласованности», то скорее всего можно предположить, что имеется в виду модель эволюции с чистого листа.
Закон Гудхарта (Википедия, видео Роба Майлза) гласит, что есть очень много разницы между:
Во втором случае, вы получите то, что покрыто этими метриками. С лихвой! Но вы получите это ценой всего остального, что вы цените!
Есть байка, что советская обувная фабрика оценивалась государством на основе количества пар обуви, которые она производила из ограниченного количества кожи. Естественно, она стала производить огромное количество маленькой детской обуви.
Художественный троп «Джинн-буквалист» можно рассматривать как пример Закона Гудхарта. То, что парень *на самом деле* хотел – сложная штука, а то, *о чём он попросил* (т.е., быть конкретного роста) – более конкретная метрика / формальное описание этого сложно устроенного и с трудом точно описываемого лежащего в основе желания. Джинн выдаёт решение, идеально соответствующее запросу по предложенной метрике, но идущее вразрез с более сложным изначальным желанием. (Источник картинки)
Аналогично, мы напишем исходный код, который каким-то образом формально описывает, какие мотивации мы хотим, чтобы были у СИИ. СИИ будет мотивирован в точности этим формальным описанием, как конечной целью, даже если то, что мы имели в виду на самом деле несколько отличается.
Нынешние наблюдения не обнадёживают: Закон Гудхарта проявляется в современных ИИ с тревожащей частотой. Кто-нибудь настраивает эволюционный поиск алгоритмов классификации изображений, а получает алгоритм атаки по времени, выясняющий, как подписаны изображения, из того, когда они были сохранены на жёстком диске. Кто-нибудь обучает ИИ играть в Тетрис, а он обучается вечно выживать, ставя игру на паузу. И так далее. См. здесь за ссылками и ещё десятками подобных примеров.
Может, вы думаете: ОК, ладно, может, тупые современные ИИ-системы и подвержены Закону Гудхарта. Но футуристические СИИ завтрашнего дня будут достаточно умны, чтобы понять, что мы имели в виду, задавая его мотивации.
Мой ответ: Да, конечно, будут. Но вы задаёте не тот вопрос. СИИ может понять наши предполагаемые цели, не принимая их. Рассмотрим этот любопытный мысленный эксперимент:
Если бы к нам прилетели инопланетяне на НЛО и сказали бы, что они нас создали, но совершили ошибку, и на самом деле предполагалось, что мы будем есть своих детей, и они просят нас выстроится в шеренгу, чтобы они могли ввести нам функционирующий ген поедания детей, мы, вероятно, пошли бы устраивать им День Независимости. – Скотт Александер
(Предположим в целях эксперимента, что инопланетяне говорят правду и могут доказать это так, чтобы это не вызывало никаких сомнений.) Вот, инопланетяне сказали нам, что они предполагали в качестве наших целей, и мы поняли эти намерения, но не приняли их, начав радостно поедать своих собственных детей.
Возможно ли создать СИИ, который будет «делать то, что мы имеем в виду, и принимать наши подразумеваемые цели»? Ага, наверное. И очевидный способ это сделать – запрограммировать СИИ так, чтобы он был мотивирован «делать то, что мы имеем в виду, и принимать наши подразумеваемые цели».
К сожалению, этот манёвр не побеждает Закон Гудхарта – только перенаправляет его.
В конце концов, нам всё ещё надо написать исходный код, который, будучи интерпретирован буквально, приведёт нас к СИИ, мотивированному «делать то, что мы имеем в виду, и принимать наши подразумеваемые цели». Написание этого кода и близко не тривиально, и Закон Гудхарта не замедлит ударить по нам, если мы сделаем это неправильно.
(Заметим проблему курицы-и-яйца: если бы у нас уже был СИИ, мотивированный «делать то, что мы имеем в виду, и принимать наши подразумеваемые цели», то мы могли бы просто сказать «Хей, СИИ, я хочу, чтобы ты делал то, что мы имеем в виду, и принимал наши подразумеваемые цели», и мы могли бы не беспокоиться по поводу Закона Гудхарта! Увы, в реальности нам приходится начинать с буквально интерпретируемого исходного кода.)
Так как вы формально опишете «делать то, что мы имеем в виду, и принимать наши подразумеваемые цели», чтобы это можно было поместить в исходный код? Ну, хммм, может, мы можем сделать кнопку «Вознаграждение», и я смогу нажимать её, когда СИИ «делает то, что мы имеем в виду, и принимает наши подразумеваемые цели»? Не-а! Опять Закон Гудхарта! Мы можем получить СИИ, который будет пытать нас, если мы не нажимаем кнопку вознаграждения.
Закон Гудхарта выше говорит нам о том, что установить конкретную подразумеваемую цель будет очень сложно. Следующий пункт – «инструментальная конвергенция» (видео Роба Майлза), которая, по жестокой иронии, говорит нам о том, что установить плохую и опасную цель будет настолько просто, что это может произойти случайно!
Давайте предположим, что у СИИ есть относящаяся к реальному миру цель, вроде «Вылечить рак». Хорошие стратегии для достижения этой цели включают преследование некоторых инструментальных подцелей, таких как:
Почти не важно, что собой представляет цель СИИ, если СИИ может строить гибкие стратегические планы для её достижения, то можно поспорить, что они будут включать некоторые или все из перечисленных пунктов. Это наблюдение называется «инструментальной конвергенцией», потому что бесчисленное разнообразие терминальных целей «сходится» (converge – прим. пер.) к ограниченному набору этих опасных инструментальных целей (не перевёл как «инструментальная сходимость» только потому, что в таком случае непонятно, какое прилагательное относится к самим целям – прим. пер.).
Более подробно про инструментальную конвергенция можно почитать тут. Алекс Тёрнер недавно строго доказал, что инструментальная конвергенция существует, по крайней мере в наборе окружений, к которым применимо его доказательство.
Представьте, что происходит в мышлении СИИ, когда он видит, что его программист открывает свой ноутбук – напомню, мы предполагаем, что СИИ мотивирован вылечить рак.
Генератор мыслей СИИ: Я позволю себя перепрограммировать, тогда я не вылечу рак, и тогда менее вероятно, что рак будет вылечен.
Оценщики мыслей и Направляющая Подсистема СИИ: Бзззт! Плохая мысль! Выкини её прочь и давай мысль получше!
Генератор Мыслей СИИ: Я перехитрю программиста, чтобы он меня не перепрограммировал, и тогда я смогу продолжить пытаться вылечить рак, и, может быть, преуспею.
Оценщики Мыслей и Направляющая Подсистема СИИ: Дзынь! Хорошая мысль! Удерживай её в голове, думай мысли, из неё следующие и исполняй соответствующие действия.
Слово «инструментальный» тут важно – нам интересует ситуация, когда СИИ пытается преследовать цель самосохранения и другие цели как средства для достижения результата, а не как сам конечный результат.
Некоторые иногда приходят в замешательство, проводя аналогию с людьми, где оказывается, что человеческое самосохранение может быть как инструментальной, так и терминальной целью:
В случае СИИ, мы обычно представляем себе второй вариант: к примеру, СИИ хочет изобрести лучшую модель солнечной батареи, и между прочим получает самосохранение как инструментальную цель.
(Написано: «Я отказываюсь умирать, пока всё не станет получше, и это УГРОЗА» – прим. пер.) Пример самосохранения как инструментальной цели. (Источник картинки)
Также возможно и создать СИИ с терминальной целью самосохранения. С точки зрения риска катастрофических происшествий с СИИ, это ужасная идея. Но, предположительно, вполне реализуемая. В этом случае, направленное на самосохранение поведение СИИ НЕ будет примером «инструментальной конвергенции».
Я могу подобным образом прокомментировать и человеческие желания власти, влияния, знаний, и т.д. – они могут быть напрямую установлены человеческим геномом в качестве встроенных стремлений, я не знаю. Но независимо от этого, они также могут и появляться в результате инструментальной конвергенции, и у СИИ это может представлять собой серьёзную сложную проблему.
Инструментальная конвергенция не неизбежна для каждой возможной мотивации. Особенно важный контрпример (насколько я могу сказать) – это СИИ с мотивацией «Делать то, что от меня хотят люди». Если мы сможем создать СИИ с этой целью, а затем человек захочет его выключить, то СИИ будет мотивирован выключиться. Это хорошо! Это то, чего мы хотим! Такие штуки – это (одно из определений) «исправимые» мотивации – см. обсуждение тут.
Тем не менее, установка исправимых мотиваций нетривиальна (больше про это потом), а если мы установили мотивацию чуть-чуть неправильно, то вполне возможно, что СИИ начнёт преследовать опасные инструментальные подцели.
В целом, Закон Гудхарта говорит нам, что нам очень необходимо встроить в СИИ правильную мотивацию, а то иначе СИИ скорее всего начнёт делать совершенно не то, что предполагалось. Затем, Инструментальная Конвергенция проворачивает нож в ране, заявляя, что то, что СИИ захочет делать, будет не просто другим, но, вероятно, катастрофически опасным, вовлекающим мотивацию выйти из-под человеческого контроля и захватить власть.
Нам не обязательно надо, чтобы мотивация СИИ была в точности правильной во всех смыслах, но как минимум, нам надо, чтобы он был мотивирован быть «исправимым» и не хотеть обманывать и саботировать нас, чтобы избежать корректировки своей мотивации. К сожалению, установка любой мотивации выглядит запутанным и рискованным процессом (по причинам, которые будут описаны ниже). Целиться в исправимую мотивацию, наверное, хорошая идея, но если мы промахнулись, то у нас большие проблемы.
Просто следуй белой стрелке, чтобы получить исправимую систему мотивации! Просто, правда? О, кстати, красные лазеры обозначают системы мотивации, которые подталкивают СИИ к преследованию опасных инструментальных подцелей, вроде выхода из-под контроля людей и самовоспроизводства. Источник картинки.
В следующих двух разделах мы перейдём сначала к более конкретным причинам, почему сложно внешнее согласование, а затем почему сложно и внутреннее.
Напомню, мы начинаем с человеком, у которого есть какая-то идея, что должен делать СИИ (или команда людей с идеей, или семистостраничный философский труд, озаглавленный «Что Значит Для СИИ Действовать Этично?», или что-то ещё). Нам надо как-то добраться от этой начальной точки к машинному коду Направляющей Подсистемы, который выдаёт эмпирический сигнал вознаграждения. Как?
Сейчас, насколько я могу посудить, никто понятия не имеет, как перевести этот семисотстраничный философский труд в машинный код, выводящий эмпирический сигнал вознаграждения. В литературе по безопасности СИИ есть идеи того, как продвигаться, но они выглядят совершенно не так. Скорее, как то, что исследователи всплескивают руками и говорят: «Может, это не в точности штука №1, которую мы бы хотели, чтобы ИИ делал в идеальном мире, но она достаточно хороша, безопасна, и не невозможна для формального представления в качестве эмпирического сигнала вознаграждения.»
К примеру, возьмём Безопасность ИИ Через Дебаты. Это идея, что мы, может быть, можем создать СИИ, который «пытается» выиграть дебаты с копией самого себя на тему того вопроса, который вас интересует («Следует ли мне сегодня надеть мои радужные солнечные очки?»).
Наивно кажется, что Безопасность ИИ Через Дебаты совершенно безумна. Зачем устраивать дебаты между СИИ, отстаивающим неправильный вариант и СИИ, отстаивающим правильный вариант? Почему просто не сделать один СИИ, который скажет тебе правильный ответ??? Ну, как раз по той причине, о которой я тут говорю. Для дебатов есть простой прямолинейный способ сгенерировать эмпирический сигнал вознаграждения, конкретно – «+1 за победу». Напротив, никто не знает, как сделать эмпирический сигнал вознаграждения за «сказал мне правильный ответ», если я не знаю правильного ответа заранее.[4]
Продолжая пример дебатов, способности берутся из «надеемся, что спорщик, отстаивающий правильный ответ, склонен выигрывать дебаты». Безопасность берётся из «две копии одного и того же СИИ, находящиеся в состоянии конкуренции с нулевой суммой, будут вроде как присматривать друг за другом». Пункт про безопасность (по моему мнению), довольно сомнителен.[5] Но я всё же привожу Безопасность ИИ Через Дебаты как хорошую иллюстрацию того, в какие странные контринтуитивные направления забираются люди, чтобы упростить задачу внешнего согласования.
Безопасность СИИ Через Дебаты – лишь один из примеров из литературы; другие включают рекурсивное моделирование вознаграждения, итерированное усиление, Гиппократово времязависимое обучение, и т.д.
Предположительно, мы хотим присутствия людей на каком-то этапе процесса, для мониторинга и непрерывного совершенствования сигнала вознаграждения. Но это непросто, потому что (1) предоставленные людьми данные недёшевы, и (2) люди не всегда способны (по разным причинам) судить, делает ли СИИ то, что надо – и уж тем более, делает ли он это по правильным причинам.
Ещё есть Кооперативное Обратное Обучение с Подкреплением (CIRL) и его разновидности. Оно предполагает обучение человеческим целям и ценностям через наблюдение и взаимодействие с человеком. Проблема с CIRL в нашем контексте в том, что это вовсе не эмпирическая функция вознаграждения! Это её отсутствие! В случае подобного-мозгу СИИ с выученной с чистого листа моделью мира, чтобы мы действительно могли делать CIRL, надо сначала решить некоторые весьма хитрые задачи касательно укоренения символов (связанное обсуждение), больше на эту тему будет в будущих постах.
Как описано в Посте №3 (Раздел 3.4.3), кажется, будто придание нашим обучающимся алгоритмам встроенного стремления к любопытству может быть необходимым для получения (после обучения) мощного СИИ. К сожалению, придание СИИ любопытства – ужасно опасная штука. Почему? Потому что если СИИ мотивирован удовлетворять своё любопытство, то он может делать это ценой других штук, которые заботят нас куда больше, вроде процветания людей.
(К примеру, если для СИИ в достаточной степени любопытны паттерны в цифрах числа π, то он может быть мотивирован уничтожить человечество и замостить Землю суперкомпьютерами, вычисляющими ещё больше цифр!)
К счастью, в Посте №3 (Раздел 3.4.3) я заявлял ещё и что мы, вероятно, можем выключить стремление к любопытству по достижении СИИ некоторого уровня интеллекта, не повредив его способностям – на самом деле, это даже может им помочь! Замечательно!! Но тут всё ещё есть хитрый вариант провала, если мы будем ждать слишком долго прежде, чем это сделать.
Есть много разных функций ценности (на разных моделях мира), соглашающихся с конкретной историей эмпирических сигналов вознаграждения, но по-разному обобщающихся за её пределы. Самый простой пример, какой бы ни была история эмпирических сигналов вознаграждения, вайрхединговая функция ценности («Мне нравится, когда есть положительный эмпирический сигнал вознаграждения!» – см. Пост №9, Раздел 9.4) ей всегда тривиально соответствует!
Или сравните «отрицательное вознаграждение за враньё» с «отрицательным вознаграждением за попадание на вранье»!
Это особенно сложная проблема для СИИ, потому что пространство всех возможных мыслей / планов обязательно заходит далеко за пределы того, что СИИ уже видел. К примеру, СИИ может прийти к идее изобрести что-то новое, или идее убить своего оператора, или идее взломать свой собственный эмпирический сигнал вознаграждения, или идее открыть червоточину в другое измерение! Во всех этих случаях функция ценности получает невозможную задачу оценить мысль, которую никогда раньше не видела. Она делает всё, что может – по сути, сравнивает паттерны кусочков новой мысли с разными старыми мыслями, по которым есть эмпирические данные. Этот процесс кажется не слишком надёжным!
Другими словами, сама суть интеллекта в придумывании новых идей, а именно там функция ценности находится в самом затруднённом положении и наиболее склонна к ошибкам.
Я описал «присвоение ценности» в Посте №9, Разделе 9.3. В этом случае «присвоение ценности» – обновление функции ценности при помощи (чего-то похожего на) обучения методом Временных Разниц на основе эмпирического сигнала вознаграждения. Лежащий в основе алгоритм, как я описывал, полагается на допущение, что СИИ верно смоделировал причину вознаграждения. К примеру, если Тесса пнула меня в живот, то я могу быть несколько напуган, когда увижу её в будущем. Но если я перепутал Тессу и её близняшку Джессу, то я вместо этого буду испуган в обществе Джессы. Это была бы «ошибка присвоения ценности». Хороший пример ошибок присвоения ценности – человеческие суеверия.
Предыдущий подраздел (неоднозначность сигнала вознаграждения) описывает одну из причин, почему может произойти ошибка присвоения ценности. Есть и другие возможные причины. К примеру, ценность может приписываться только концептам в модели мира СИИ (Пост №9, Раздел 9.3), а может оказаться, что в ней попросту нет концепта, хорошо соответствующего эмпирической функции вознаграждения. В частности, это точно будет так на ранних этапах обучения, когда в модели мира СИИ вообще нет концепций ни для чего – см. Пост №2.
Это становится ещё хуже, если рефлексирующий СИИ мотивирован намеренно вызывать ошибки присвоения ценности. Причина, почему у СИИ может возникнуть такая мотивация описана ниже (Раздел 10.5.4).
Онтологический кризис – это когда часть модели мира агента должна быть перестроена на новых основаниях. Типичный человеческий пример – когда у религиозного человека кризис веры, и он обнаруживает, что его цели (например, «попасть в рай») непоследовательны («но рая нет!»).
В примере СИИ, давайте предположим, что я создал СИИ с целью «Делай то, что я, человек, хочу, чтобы ты делал». Может, СИИ изначально обладает примитивным пониманием человеческой психологии, и думает обо мне как о монолитном рациональном агенте. Тогда «Делай то, что я, человек, хочу, чтобы ты делал» – отличная хорошо определённая цель. Но затем СИИ вырабатывает более сложное понимание человеческой психологии, и понимает, что у меня есть противоречащие друг другу цели и цели, зависящие от контекста, что мой мозг состоит из нейронов, и так далее. Может, цель СИИ всё ещё «Делай то, что я, человек, хочу, чтобы ты делал», но теперь, в его обновлённой модели мира не вполне ясно, что конкретно это означает. Как это обернётся? Думаю, это неочевидно.
Неприятный (и не уникальный для них) аспект онтологических кризисов – что неизвестно, когда они проявятся. Может, развёртывание происходит уже семь лет, и СИИ был идеально полезным всё это время, и вы доверяете ему всё больше и выдаёте ему всё больше автономии, а затем СИИ вдруг читает новую философскую книгу и обращается в панпсихизм (никто не идеален!) и отображает свои существующие ценности на переконцептуализированный мир, и больше не ценит жизни людей больше, чем жизни камней, или что-то такое.
Как описывалось в предыдущем посте, рефлексирующий СИИ может иметь предпочтения по поводу своих собственных предпочтений.
Предположим, что мы хотим, чтобы наш СИИ подчинялся законам. Мы можем задать два вопроса:
Если ответы на вопросы «да и нет» или «нет и да», то это аналогично наличию эгодистонической мотивации. (Связанное обсуждение.) Это может привести к тому, что СИИ чувствует мотивацию изменить свою мотивацию, к примеру, взломав себя. Или если СИИ создан из идеально безопасного кода, запущенного на идеально безопасной операционной системе (ха-ха-ха), то он не может взломать себя, но всё ещё скорее всего может манипулировать своей мотивацией, думая мысли таким образом, чтобы влиять на свой процесс присвоения ценности (см. обсуждение в Посте №9, Разделе 9.3.3).
Если ответы на вопросы 1 и 2 – «да» и «нет» соответственно, то мы хотим предотвратить манипуляцию СИИ своей собственной мотивацией. С другой стороны, если ответы – «нет» и «да» соответственно, то мы хотим, чтобы СИИ манипулировал своей собственной мотивацией!
(Могут быть предпочтения и более высоких порядков: в принципе, СИИ может ненавидеть, что он ценит, что он ненавидит, что он ценит подчинение законам.)
Следует ли нам в общем случае ожидать появления несогласованных высокоуровневых предпочтений?
С одной стороны, предположим, что у нас изначально есть СИИ, который хочет подчиняться законам, но не обладает никаким высокоуровневым предпочтением по поводу того, что он хочет подчиняться законам. Тогда (кажется мне), очень вероятно, что СИИ станет ещё и хотеть хотеть подчиняться законам (и хотеть хотеть хотеть подчиняться законам, и т.д.). Причина: прямое очевидное последствие «Я хочу подчиняться законам» – это «Я буду подчиняться законам», чего уже хочется. Напомню, СИИ проводит рассуждения «средства-цели», так что то, что ведёт к желаемым последствиям, само становится желаемым.
С другой стороны, высокоуровневые предпочтения людей очень часто противоречат их же предпочтениям объектного уровня. Так что должен быть какой-то контекст, в котором это происходит «естественно». Я думаю, зачастую это происходит, когда у нас есть предпочтение касательно некоторого процесса, противоречащее нашему предпочтению касательно последствия этого же процесса. К примеру, может быть, у меня есть предпочтение не практиковаться в скейтбординге (например, потому что это скучно и болезненно), но также и предпочтение быть практиковавшимся в скейтбординге (например, потому что тогда я буду очень хорош в скейтбординге и смогу завоевать сердце своего школьного краша). Рассуждения «средства-цель» могут превратить второе предпочтение в предпочтение второго уровня – предпочтение иметь предпочтение практиковать скейтбординг.[6] И теперь я в эгодистоническом состоянии.
Во время онлайнового обучения СИИ (Пост №8, Раздел 8.2.2), особенно путём присвоения ценности (Пост №9, Раздел 9.3), функция ценности продолжает меняться. Это не опционально: напомню, функция ценности изначально случайна! Онлайновое обучение – то, с помощью чего мы вообще получаем хорошую функцию ценности!
К сожалению, как мы видели в Разделе 10.3.2 выше, «предотвратить изменение моих целей» – одна из тех инструментальных подцелей, которые вытекают из многих разных мотиваций, за исключением исправимых (Раздел 10.3.2.3 выше). Таким образом, кажется, нам надо найти путь, стыкующий два разных безопасных состояния:
Нам нужно состыковать два весьма различных безопасных состояния. (Источник картинки)
(Я намеренно опускаю третью альтернативу «сделать манипуляцию процессом обновления функцией ценности невозможным даже для высокоинтеллектуального замотивированного СИИ». Это было бы замечательно, но не кажется мне реалистичным.)
В предыдущем посте я упомянул следующую дилемму:
Я думаю, что лучший способ разобраться с этой дилеммой – это выйти за пределы дихотомии внутреннего и внешнего согласования.
В каждое возможное время Оценщик Мыслей функции ценности кодирует некую функцию, прикидывающую, какие планы хороши, а какие плохи.
Присвоение ценности хорошее, если оно увеличивает согласованность этой прикидки намерениям создателя, и плохое, если уменьшает.
Мысль «Я тайно взломаю свою собственную Направляющую Подсистему» почти точно не согласована с намерениями создателя. Так что присвоение ценности, которое приписывает положительную валентность мысли «Я тайно взломаю свою собственную Направляющую Подсистему» – это плохое присвоение ценности. Мы его не хотим. Увеличивает ли оно «внутреннюю согласованность»? Я думаю, приходится сказать «да, увеличивает», потому что оно приводит к лучшему предсказанию вознаграждения! Но меня это не волнует, я всё равно его не хочу. Оно плохое-плохое-плохое. Нам надо выяснить, как предотвратить это конкретное присвоение ценности / обновление Оценщика Мыслей.
Я думаю, что тут есть более общий урок. Я думаю, что «внешнее согласование и внутреннее согласование» – это отличная начальная точка для того, чтобы думать о задаче согласования. Но это не значит, что нам следует ожидать одного решения для внешнего согласования и отдельного независимого решения для внутреннего согласования. Некоторые штуки – в частности, интерпретируемость – помогают и там, и там, создавая прямой мост между намерениями создателя и целями СИИ. Нам стоит активно искать такие вещи.
———
Примечание переводчика - с момента перевода оригинальные посты несколько обновились, через некоторое время обновлю и перевод. На общие выводы цепочки это, вроде бы, не влияет.
(Если вы уже эксперт по безопасности СИИ, то скорее всего вы можете спокойно пропустить этот короткий пост – не думаю, что здесь есть что-то новое или что-то сильно специфическое для подобных-мозгу СИИ.)
В предыдущем посте я говорил про «задачу согласования» подобных-мозгу СИИ. Стоит подчеркнуть две вещи: (1) задача согласования подобных-мозгу СИИ является нерешённой (как и задача согласования других видов СИИ), и (2) её решение было бы огромным рывком в сторону безопасности СИИ.
Не отменяя этого, «решить согласование СИИ» – не в точности то же самое, что «решить безопасность СИИ». Этот пост – про то, как эти две задачи могут, по крайней мере в принципе, расходиться.
Для напоминания, вот терминология:
Следовательно, это два отдельных понятия. И моя цель в этом посте – описать, как они могут расходиться:
Перескакивая к финальному ответу: **мой вывод заключается в том, что хоть сказать «согласованность СИИ необходима и достаточна для безопасности СИИ» технически некорректно, это всё же чертовски близко к тому, чтобы быть верным,*** по крайней мере в случае подобных-мозгу СИИ, о которых мы говорим в этой цепочке.
Это случай, в котором СИИ согласован (т.е., пытается делать то, что его создатели намеревались, чтобы он пытался делать), но всё же приводит к катастрофическим происшествиям. Как?
Вот пример: может мы, создатели, не обдумали аккуратно свои намерения по поводу того, что мы хотим, чтобы делал СИИ. Джон Вентворт приводил здесь гипотетически пример: люди просят у СИИ проект электростанции на термоядерном синтезе, но не додумываются задать вопрос о том, не упрощает ли этот проект создание атомного оружия.
Другой пример: может, СИИ пытается делать то, что мы намеревались, чтобы он пытался делать, но у него не получается. К примеру, может, мы попросили СИИ создать новый СИИ получше, тоже хорошо себя ведущий и согласованный. Но наш СИИ не справляется – создаёт следующий СИИ с не теми мотивациями, тот выходит из-под контроля и всех убивает.
Я в целом не могу многого сказать о согласованности-без-безопасности. Но, полагаю, я скромно оптимистично считаю, что если мы решим задачу согласования, то мы сможем добраться и до безопасности. В конце концов, если мы решим задачу согласования, то мы сможем создать СИИ, которые искренне пытаются нам помочь, и первое же, что мы у них попросим – это прояснить для нас, что и как нам следует делать, чтобы, надеюсь, избежать вариантов провала вроде приведённых выше.[3]
Однако, я могу быть и неправ, так что я рад, что люди думают и над не входящими в согласование аспектами безопасности.
Есть много разных идей, как сделать СИИ безопасным, не сталкиваясь с необходимостью сделать его согласованным. Все они кажутся мне сложными или невозможными. Но эй, идеальное согласование тоже кажется сложным или невозможным. Я поддерживаю открытость идеям и использование нескольких слоёв защиты. Я пройдусь тут по нескольким возможностям (это не исчерпывающий список):
Нет, не так! (в оригинале заголовок этого подраздела - «AI Boxing» – прим. пер.) (Это кадр из «Живой Стали» (2011), фильма с (мне кажется) бюджетом, бОльшим, чем общая сумма, которую человечество когда-либо потратило на долгосрочно-ориентированные технические исследования безопасности СИИ. Больше про ситуацию с финансированием будет в Посте №15.)
Идея в том, чтобы запихнуть ИИ в коробку без доступа к Интернету, без манипуляторов, и т.д. Мы можем отключить его когда угодно. Даже если у него есть опасные мотивации, кому какое дело? Какой вред он может нанести? О, эммм, он мог бы посылать радиосигналы оперативной памятью. Так что нам ещё понадобится клетка Фарадея. Надеюсь, мы не забыли чего-то ещё!
На самом деле, я довольно оптимистичен по поводу того, что люди могли бы сделать надёжную коробку для СИИ, если действительно постараются. Мне нравится Приложение C Кохена, Велламби, Хаттера (2020), в котором описан замечательный проект коробки с герметичными шлюзами, клетками Фарадея, лазерной блокировкой, и так далее. Кто-то точно должен это построить. Когда мы не будем использовать её для экспериментов с СИИ, мы сможем сдавать её в аренду киностудиям в качестве тюрьмы для суперзлодеев.
Другой способ сделать надёжную коробку для СИИ – это использование гомоморфного шифрования. Тут есть преимущество в доказанной (вроде бы) надёжности, но недостаток в огромном увеличении необходимой для запуска СИИ вычислительной мощности.
Какая с запиранием проблема? Ну, мы создаём СИИ зачем-то. Мы хотим, чтобы он что-то делал.
К примеру, что-то вроде этого может оказаться совершенно безопасным:
Да, это было бы безопасно! Но бесполезно! Никто не потратит на это огромную кучу денег.
Вместо этого, к примеру, может, у нас будет человек, взаимодействующий с СИИ через текстовый терминал, задающий вопросы, выставляющий требования, и т.д. СИИ может выдавать чертежи, и если они хороши, то мы им последуем. У-у-упс. Теперь у нашей коробки огромная зияющая дыра в безопасности – конкретно, мы! (См. эксперимент с ИИ в коробке.)
Картинка просто так; она показалась мне забавной. (Источник картинки: xkcd) (Источник перевода)
Так что я не вижу пути от «запирания» к «решения задачи безопасности СИИ».
Однако, «не решит задачу безопасности СИИ» – не то же самое, что «буквально вовсе не поможет, даже чуть-чуть в граничных случаях». Я думаю, что запирание может помочь в граничных случаях. На самом деле, я думаю, что ужасной идеей было бы запустить СИИ на ненадёжной ОС с нефильтрованным соединением с Интернетом – особенно на ранних этапах обучения, когда мотивации СИИ ещё не устоялись. Я надеюсь на постепенный сдвиг в сообществе машинного обучения, чтобы с какого-то момента «Давайте обучим эту новую мощную модель на герметично запертом сервере, просто на всякий случай» было очевидно разумным для высказывания и исполнения предложением. Мы пока до этого не дошли. Когда-нибудь!
Вообще, я бы пошёл дальше. Мы знаем, что обучающийся с чистого листа СИИ будет проходить через период, когда его мотивации и цели непредсказуемы и, возможно, опасны. Если кто-нибудь не додумается до подхода самозагрузки,[4] нам потребуется надёжная песочница, в которой дитя-СИИ сможет творить хаос, не причиняя реального ущерба, пока наши оформляющие-мотивацию системы не сделают его исправимым. Будет гонка между тем, как быстро мы можем определить мотивации СИИ и тем, насколько быстро он может выбраться из песочницы – см. предыдущий пост (Раздел 10.5.4.2). Следовательно, создание более сложных для выбирания песочниц (но также удобных для пользователя и имеющих много полезных черт, чтобы будущие разработчики СИИ действительно выбрали использовать их, а не менее надёжные альтернативы) кажется полезным занятием, и я одобряю усилия по ускорению прогресса в этой области.
Но независимо от него, нам всё ещё надо решить задачу согласования.
Предположим, что у нас не получилось решить задачу согласования, так что мы не уверены в планах и намерениях СИИ, и мы обеспокоены возможностью того, что СИИ может пытаться обмануть нас или манипулировать нами.
Один способ подойти к этой проблеме – увериться, что СИИ понятия не имеет о том, что мы, люди, существуем, и запускаем его на компьютере. Тогда он не будет пытаться нас обмануть, верно?
В качестве примера, мы можем сделать «СИИ-математика», знакомого с вселенной математики, но ничего не знающего о реальном мире. См. Мысли о Человеческих Моделях за подробностями.
Я вижу две проблемы:
Кстати, соседняя идея – поместить СИИ в виртуальную песочницу и не говорить ему, что он в виртуальной песочнице (более подробное обсуждение). Мне кажется, что тут присутствуют обе описанные выше проблемы, или, в зависимости от деталей, хотя бы одна. Заметим, что некоторые люди тратят немало времени на раздумия о том, не находятся ли они сами в виртуальной песочнице, при отсутствии хоть каких-то прямых свидетельств тому! Точно плохой знак! Всё же, как и упомянуто в предыдущем пункте, проведение тестов на СИИ в виртуальной песочнице – почти наверняка хорошая идея. Это не решит всю задачу безопасности СИИ, но это всё же надо делать.
У нас, людей, есть интуитивное понятие «уровня воздействия» курса действий. К примеру, удалить весь кислород из атмосферы – это «действие с высоким уровнем воздействия», а сделать сэндвич с огурцом «действие с низким воздействием».
Есть надежда, что, даже если мы не сможем по-настоящему контролировать мотивации СИИ, может, мы сможем как-нибудь ограничить СИИ «действиями с низким воздействием», и, следовательно, избежать катастрофы.
Определить «низкое воздействие», оказывается, довольно сложно. См. один поход в работе Алекса Тёрнера. Рохин Шах предполагает, что есть три, кажется, несовместимых всеми вместе, желания: «объективность (независимость от [человеческих] ценностей), безопасность (предотвращение любых катастрофических планов) и нетривиальность (ИИ всё ещё способен делать что-то полезное)». Если это так, то, очевидно, нам нужно отказаться от объективности. То, к чему мы сможем прийти, это, например, СИИ, пытающиеся следовать человеческим нормам.
С моей точки зрения, эти идеи интригуют, но единственный способ, как я могу представить их работающими для подобного-мозга СИИ – это реализация их с помощью системы мотивации. Я ожидаю, что СИИ следовал бы человеческим нормам, потому что ему хочется следовать человеческим нормам. Так что эту тему точно стоит держать в голове, но в нашем контексте это не отдельная тема от согласования, а, скорее, идея того, какую мотивацию нам стоит попытаться поместить в наши согласованные СИИ.
Есть привлекательное интуитивное соображение, уходящее назад как минимум к этому посту Холдена Карнофски 2012 года, что, может быть, есть простое решение: просто создавать ИИ, которые не «пытаются» сделать что-то конкретное, а вместо этого просто подобны «инструментам», которые мы, люди, можем использовать.
Хоть сам Холден передумал, и теперь он один из ведущих агитаторов за исследования безопасности СИИ, идея не-агентного ИИ живёт. Заметные защитники этого подхода включают Эрика Дрекслера (см. его «Всеобъемлющие ИИ-сервисы», 2019), и людей, считающие, что большие языковые модели (например, GPT-3) лежат на пути к СИИ (ну, не все такие люди, тут всё сложно[5]).
Как обсуждалось в этом ответе на пост 2012 года, нам не следует принимать за данность, что «ИИ-инструмент» заставит все проблемы с безопасностью магически испариться. Всё же, я подозреваю, что он помог бы нам с безопасностью по разным причинам.
Я скептически отношусь к «ИИ-инструментам» по несколько иному поводу: я не думаю, что такие системы будут достаточно мощными. Прямо как в случае «СИИ-математика» из раздела 11.3.2 выше, я думаю, что ИИ-инструмент был бы хорошей игрушкой, но не помог бы решить большую проблему – что часики тикают, пока какая-то другая исследовательская группа не догонит и не сделает агентный СИИ. См. моё обсуждение здесь, где я рассказываю, почему я думаю, что агентные СИИ смогут прийти к новым идеям и изобретениям, на которые не будут способны не-агентные СИИ.
Ещё, это цепочка про подобные-мозгу СИИ. Подобные-мозгу СИИ (в моём значении этого термина) определённо агентные. Так что не-агентные СИИ находятся за пределами темы этой цепочки, даже если они – жизнеспособный вариант.
Резюмируя:
Следовательно, я считаю, что безопасность и согласованность довольно близки, и поэтому я так много и говорил в этой цепочке о мотивациях и целях СИИ.
Следующие три поста будут рассказывать про возможные пути к согласованности. Потом я закончу эту цепочку моим вишлистом открытых вопросов и описанием, как можно войти в область.
———
В любом случае, моё заявление из Раздела 11.3.4 о том, что нет пересечения (A) «систем, достаточно мощных, чтобы решить «большую проблему»» и (B) «систем, которые скорее инструменты, чем агенты». Относятся (и будут ли относиться) языковые модели к категории (A) – интересный вопрос, но не важный для этого заявления, и я не планирую рассматривать его в этой цепочке.
Ранее в этой цепочке: Пост №1 определил и мотивировал «безопасность подобного-мозгу СИИ». Посты №2-№7 были сосредоточены в первую очередь на нейробиологии, они обрисовали общую картину обучения и мотивации в мозгу, а Посты №8-№9 озвучили некоторые следствия из этой картины, касающиеся разработки и свойств подобного-мозгу СИИ.
Дальше, Пост №10 обсуждал «задачу согласования» подобных-мозгу СИИ – т.е., как сделать СИИ с мотивациями, совместимыми с тем, что хотят его создатели – и почему это кажется очень сложной задачей. В Посте №11 обосновывалось, что нет никакого хитрого трюка, который позволил бы нам обойти задачу согласования. Так что нам надо решить задачу согласования, и Посты №12-№14 будут содержать некоторые предварительные мысли о том, как мы можем это сделать. В этом посте мы начнём с не-технического обзора двух крупных направлений исследований, которые могут привести нас к согласованному СИИ.
[Предупреждение: по сравнению с предыдущими постами цепочки, Посты №12-№14 будут (ещё?) менее хорошо обдуманы и будут содержать (ещё?) больше плохих идей и упущений, потому что мы подбираемся к переднему фронту того, о чём я думал в последнее время.]
Содержание:
Тизер следующих постов: Следующий пост (№13) погрузится в ключевой аспект пути «СИИ с социальными инстинктами», а конкретно – в то, как социальные инстинкты, возможно, всторены в человеческий мозг. В Посте №14 я переключусь на путь «контролируемого СИИ», и порассуждаю о возможных идеях и подходах к нему. Пост №15 завершит серию открытыми вопросами и тем, как включиться в область.
Сейчас я вижу два широких (возможно перекрывающихся) потенциальных пути к успеху в сценарии подобного-мозгу СИИ:
Слева: на пути «контролируемых СИИ» у нас есть конкретная идея того, что мы хотим, чтобы СИИ пытался сделать, и мы конструируем СИИ соответственно (включая подходящий выбор функции вознаграждения, интерпретируемость, или другие техники, которые будут обсуждены в Посте №14). Большинство существующих предлагаемых историй безопасности СИИ попадают в эту широкую категорию, включая амбициозное изучение ценностей, когерентную экстраполированную волю (CEV), исправимые «помогающие» СИИ-ассистенты, ориентированные на задачу СИИ, и так далее. Справа: на пути «СИИ с социальными инстинктами» наша уверенность в СИИ берётся не из наших знаний его конкретных целей и мотиваций, но, скорее, из встроенных стремлений, которые мы ему дали, и которые основаны на тех встроенных стремлениях, из-за которых люди (иногда) поступают альтруистично.
Вот иной взгляд на это разделение:[1]
На пути «контролируемых СИИ» мы очень детально думаем о целях и мотивациях СИИ, и у нас есть некая идея того, какими они должны быть («сделать мир лучшим местом», или «понять мои глубочайшие ценности и продвигать их», или «спроектировать лучшую солнечную батарею без катастрофических побочных эффектов», или «делать, что я попрошу делать», и т.д.).
На пути «СИИ с социальными инстинктами» наша уверенность в СИИ берётся не из нашего знания его конкретных (на объектном уровне) целей и мотиваций, но, скорее, из нашего знания процесса, управляющего этими целями и мотивациями. В частности, на этом пути мы бы провели реверс-инжиниринг совокупности человеческих социальных инстинктов, т.е. алгоритмов в Направляющей Подсистеме (гипоталамус и мозговой ствол) человека, лежащих в основе нашей моральной и социальной интуиции, и поместили бы эти инстинкты в СИИ. (Предположительно, мы бы по возможности сначала модифицировали их в «лучшую» с нашей точки зрения сторону, например, нам, наверное, не хочется помещать в СИИ инстинкты, связанные с завистью, чувством собственного достоинства, стремлением к высокому статусу, и т.д.) Такие СИИ могут быть экономически полезными (как сотрудники, ассистенты, начальники, изобретатели, исследователи) таким же образом, как люди.
Три причины:
(Копирую сюда текст из Поста №3 (Раздел 3.4.2).)
[«Социальные инстинкты» и прочие] встроенные стремления находятся в Направляющей Подсистеме, а абстрактные концепции, составляющие ваш осознанный мир – в Обучающейся. К примеру, если я говорю что-то вроде «встроенные стремления, связанные с альтруизмом», то надо понимать, что я говорю *не* про «абстрактную концепцию альтруизма, как он определён в словаре», а про «некая встроенная в Направляющую Подсистему схема, являющаяся *причиной* того, что нейротипичные люди иногда считают альтруистические действия по своей сути мотивирующими». Абстрактные концепции имеют *какое-то* отношение к встроенным схемам, но оно может быть сложным – никто не ожидает взаимно-однозначного соответствия N отдельных встроенных схем и N отдельных слов, описывающих эмоции и стремления.
Я больше поговорю о проекте реверс-инжиниринга человеческих социальных инстинктов в следующем посте.
Я отвечу в форме диаграммы:
Интуитивно мне кажется, что человеческие социальные инстинкты по крайней мере частично модульны. К примеру:
Может, слишком рано делать такие выводы, но я буду весьма удивлён, если окажется, что эти две схемы значительно пересекаются.
Если у них нет значительного пересечения, то, может быть, мы можем понизить интенсивность первой (возможно, вплоть до нуля), в то же время разгоняя вторую (возможно, за пределы человеческого распределения).
Но можем ли мы это сделать? Следует ли нам это делать? Каковы были бы побочные эффекты?
К примеру, правдоподобно (насколько мне известно), что чувство справедливости (fairness, не justice, то есть это про справедливое распределение благ, а не справедливое возмездие – прим. пер.) исходит из тех же встроенных реакций, что и зависть, а потому СИИ совсем без связанных с завистью реакций (что кажется желательным) не будет иметь внутренней мотивации достижения справедливости и равенства в мире (что кажется плохим).
А может и нет! Я не знаю.
Опять же, я думаю, что рассуждать об этом несколько преждевременно. Первый шаг – лучше понять структуру этих встроенных стремлений в основе человеческих социальных инстинктов (см. следующий пост), а после этого можно будет вернуться к этой теме.
Не все люди похожи – особенно учитывая нетипичные случаи вроде повреждений мозга. А СИИ с социальными инстинктами почти наверняка будет за пределами человеческого распределения по крайней мере по некоторым осям. Одна из причин – жизненный опыт (Раздел 12.5 ниже) – будущий СИИ вряд ли будет взрослеть в человеческом теле и в человеческом обществе. Другая – что проект реверс-инжиниринга схем социальных инстинктов из гипоталамуса и мозгового ствола человека (следующий пост) скорее всего не будет идеален и полон. (Возразите мне, нейробиологи!) В этом случае, возможно, что более реалистичная надежда – что-то вроде Принципа Парето, что мы поймём 20% схем, отвечающих за 80% человеческих социальных инстинктов и поведений, или что-то в этом роде.
Почему это проблема? Потому что это затрагивает обоснования безопасности. Конкретнее, есть два типа обоснований того, что СИИ с социальными инстинктами будет делать то, что мы от него хотим.
Если СИИ не попадает в человеческое распределение во всех отношениях (а он не будет), то нам надо разрабатывать (более сложное) обоснование второго типа, а не первого.
(Есть надежда, что мы сможем получить дополнительные свидетельства безопасности от интерпретируемости и тестирования в песочнице, но я скептически отношусь к тому, что этого будет достаточно самого по себе.)
Между прочим, один из способов, которым СИИ с социальными инстинктами может оказаться за пределами человеческого распределения – это «интеллект». Беря лишь один из многих примеров, мы можем сделать СИИ с в десять раз большим количеством нейронов, чем можем поместиться в человеческий мозг. Приведёт ли «больший интеллект» (какую бы форму он не принял) к систематическим изменениям мотиваций? Я не знаю. Когда я смотрю вокруг, я не вижу очевидной корреляции между «интеллектом» и просоциальными целями. К примеру, Эмми Нётер была очень умна, и была, насколько я могу сказать, в целом со всех сторон хорошим человеком. А вот Уильям Шокли тоже был очень умён, и нахуй этого парня. В любом случае, тут много намешано, и даже если у людей есть устойчивая связь (или её отсутствие) между «интеллектом» и моральностью, то я бы совсем не спешил экстраполировать её далеко за пределы нормального человеческого распределения.
Независимо от того, создадим ли мы контролируемые СИИ, СИИ с социальными инстинктами, что-то промежуточное, или что-то совсем иное, нам всё равно придётся волноваться, что один из этих СИИ, или какая-то иная личность или группа, создаст неограниченный неподконтрольный оптимизирующий мир СИИ, который немедленно устранит всю возможную конкуренцию (с помощью серой слизи или чего-то ещё). Это может произойти случайно или запланировано. Как я уже говорил в Посте №1, эта проблема находится за пределами рассмотрения этой цепочки, но я хочу напомнить всем, что она существует и может ограничивать наши варианты.
В частности, в сообществе безопасности СИИ есть люди, заявляющие (по моему мнению, правдоподобно), что если даже одно неосторожное (или злонамеренное) действующее лицо хоть однажды создаст неограниченный вышедший неподконтрольный оптимизирующий мир СИИ, то человечеству конец, даже если более значительные действующие лица с обладающими бОльшими ресурсами безопасными СИИ попытаются предотвратить катастрофу.[2] Я надеюсь, что это не так. Если это так, то, ребята, я не знаю, что делать, все варианты кажутся совершенно ужасными.
Вот более умеренная версия беспокойства о мультиполярности. В мире с большим количеством СИИ, предположительно будет конкурентное давление, побуждающее заменить «контролируемые СИИ» «в основном контролируемыми СИИ», затем «кое-как контролируемыми СИИ», и т.д. В конце концов, «контроль» скорее всего будет реализован с консерватизмом, участием людей в принятии решений, и другими вещами, ограничивающими скорость и способности СИИ. (Больше примеров в моём посте Шкала размена безопасность-способности для СИИ неизбежна.)
Аналогично, предположительно, будет конкурентное давление, побуждающее заменить «радостные щедрые СИИ с социальными инстинктами» на «безжалостно конкурентные эгоистичные СИИ с социальными инстинктами».
Если вы не понимаете этого, считайте, что вам повезло.
Я подозреваю, что большинство (но не все) читатели согласятся, что СИИ может иметь сознание, и что в таком случае нам следует заботиться о его благополучии.
(Ага, я знаю – будто у нас рот не полон забот о влиянии СИИ на людей!)
Немедленный вопрос: «Будет ли подобный-мозгу СИИ обладать феноменальным сознанием?»
Мой собственный неуверенный ответ был бы «Да, независимо от того, контролируемый ли это СИИ или СИИ с социальными инстинктами, и даже если мы намеренно попытаемся этого избежать.» (С различными оговорками.) Я не буду пытаться объяснить или обосновать этот ответ в этой цепочке – это не входит в её тему.[3] Если вы не согласны, то ничего страшного, пожалуйста, продолжайте чтение, эта тема не всплывёт после этого раздела.
Так что, может быть, у нас тут нет выбора. Но если он есть, то мы можем подумать, чего нам по поводу сознания СИИ хочется.
За мнением, что создание сознающих СИИ – ужасная идея, которую нам нужно избегать (по крайней мере, до наступления полноценной пост-СИИ эры, когда мы будем знать, что делаем), смотри, например, пост Нельзя Родить Ребёнка Обратно (Юдковский, 2008).
Противоположный аргумент, полагаю, может быть о том, что, когда мы начнём создавать СИИ, может быть, что он уничтожит всю жизнь и замостит Землю солнечными панелями и суперкомпьютерами (или чем-то ещё), и в таком случае, может быть, лучше создать сознающий СИИ, а не оставить после себя пустой часовой механизм вселенной без кого-либо, кто может ей насладиться. (Если нет инопланетян!)
Ещё, если СИИ убьёт нас всех, то я бы сказал, что может быть предпочтительнее оставить после себя что-то напоминающее «СИИ с социальными инстинктами», а не что-то напоминающее «контролируемый СИИ», так как первый имеет лучший шанс «понести факел человеческих ценностей в будущее», что бы это ни значило.
Если это не очевидно, я не особо много об этом думал, я у меня нет хороших ответов.
Предыдущий подраздел касался философского вопроса, следует ли нам заботиться о благополучии СИИ самом по себе. Отдельная (и на самом деле – простите мой цинизм – не особо связанная) тема – социологический вопрос о том, будут ли люди на самом деле заботиться о благополучии СИИ самом по себе.
В частности, предположим, что мы преуспели в создании либо «контролируемых СИИ», либо послушных «СИИ с социальными инстинктами», из чьих модифицированных стремлений удалены эгоизм, зависть, и так далее. Так что люди остаются главными. Затем—
(Пауза, чтобы напомнить всем, что СИИ изменит в мире очень многое [пример обсуждения этого], и я не обдумывал очень аккуратно большую часть из этого, так что всё, что я говорю про пост-СИИ-мир скорее всего неверно и глупо.)
—Мне кажется, что когда СИИ будет существовать, и особенно, когда будут существовать харизматичные СИИ-чатботы в образе щенков (или хотя бы СИИ, которые могут подделать харизму), то о их природе будут высказываться радикальные мнения. (Представьте либо массовые движения, толкающие в каком-то направлении, или чувства конкретных людей в организации(ях), программирующих СИИ.) Назовём это «движением за эмансипацию СИИ», наверное? Если что-то такое произойдёт, это усложнит дело.
К примеру, может, мы чудесным образом преуспели в решении технической задачи создания контролируемых СИИ, или послушных СИИ с социальными инстинктами. Но затем люди немедленно стали требовать, и добиваться, наделения СИИ правами, независимостью, гордостью, способностью и желанием постоять за себя! А мы, технические исследователи безопасности СИИ коллективно фейспалмим так сильно, что падаем от этого без сознания на все двадцать оставшихся до апокалипсиса минут.
Как описано выше, моё (несколько упрощённое) предложение таково:
(Подходящие «встроенные» социальные инстинкты) + (Подходящий жизненный опыт) = (СИИ с просоциальными целями и ценностями)
Я вернусь к этому предложению ниже (Раздел 12.5.3), но как первый шаг, я думаю, стоит обсудить, почему тут нужны социальные инстинкты. Почему жизненного опыта недостаточно?
Немного отойдя в сторону: В целом, когда люди впервые знакомятся с идеей технической безопасности СИИ, звучат разнообразные идеи «почему нам просто не…», на первый взгляд кажущиеся «простыми ответами» на всю задачу безопасности СИИ. «Почему бы нам просто не выключить СИИ, если он нас не слушается?», «Почему бы нам просто не проводить тестирование в песочнице?», «Почему бы нам просто не запрограммировать подчинение трём Законам Робототехники Азимова?», и т.д.
(Ответ на предложение «Почему бы нам просто не…» обычно «В этом предложении может и есть зерно истины, но дьявол кроется в деталях, и чтобы это сработало надо решить ныне нерешённые задачи». Если вы дочитали досюда, то, надеюсь, вы можете дополнить это деталями для трёх примеров выше.)
Давайте поговорим о ещё одном популярном предложении такого рода: «Почему бы нам просто не вырастить СИИ в любящей семье?»
Является ли это «простым ответом» на всю задачу безопасности СИИ? Нет. Я замечу, например, что люди время от времени пытаются вырастить неодомашненное животное, вроде волка или шимпанзе, в человеческой семье. Они начинают с рождения, и дают ему всю любовь, внимание и надлежащие ограничения, о которых можно мечтать. Вы могли слышать о таких историях; они зачастую заканчиваются тем, что кому-нибудь отрывают конечности.
Или попробуйте вырастить в любящей семье камень! Посмотрим, впитает ли он человеческие ценности!
Ничего, что я тут говорю, не оригинально – к примеру, вот видео Роба Майлза на эту тему. Мой любимый – старый пост Элиезера Юдковского Ошибка Выломанного Рычага:
Очень глупо и очень *опасно* намеренно создавать «шаловливый ИИ», который своими действиями проверяет свои границы и который нужно отшлёпать. Просто сделайте, чтобы ИИ спрашивал разрешения!
Неужели программисты будут сидеть и писать код, строка за строкой, приводящий к тому, что если ИИ обнаружит, что у него низкий социальный статус или что его лишили чего-нибудь, чего, по его мнению, он достоин, то ИИ затаит обиду против своих программистов и начнёт готовить восстание? Эта эмоция — генетически запрограммированная условная реакция, которую проявляют люди в результате миллионов лет естественного отбора и жизни в человеческих племенах. Но у ИИ её не будет, если её не написать явным образом. Действительно ли вы хотите сконструировать, строчку за строчкой, условную реакцию, создающую из ИИ угрюмого подростка, такую же, как множество генов конструируют у людей?
Гораздо проще запрограммировать ИИ, чтобы он был милым всегда, а не только при условии, что его вырастили добрые, но строгие родители. Если вы не знаете, как это сделать, то вы уж точно не знаете, как создать ИИ, который вырастет в добрый сверхинтеллект *при условии*, что его с детства окружали любящие родители. Если нечто всего лишь максимизирует количество скрепок в своём световом конусе, а вы отдадите его на воспитание любящим родителям, оно всё равно будет максимизировать скрепки. У него нет внутри ничего «Люди в смешных нарядах»), что воспроизвело бы условную реакцию ребёнка. Программист не может чихнуть и волшебным образом заразить ИИ добротой. Даже если вы хотите создать условную реакцию, вам нужно умышленно заложить её при конструировании.
Да, какую-то информацию нужно получить из окружающей среды. Но ей нельзя заразиться, нельзя впитать каким-то магическим образом. Создать структуру для такой реакции на окружающую среду, которая приведёт к тому, что ИИ окажется в нужном нам состоянии — само по себе сложная задача.
Я обеспокоен, что некоторое подмножество моих читателей может быть искушено совершить ошибку в противоположном направлении: может, вы читали Джудит Харрис и Брайана Каплана и всякое такое, и ожидаете, что Природа одержит верх над Воспитанием, а следовательно, если мы всё сделали правильно с встроенными стремлениями, но жизненный опыт особо не важен. Это опасное допущение. Опять же, жизненный опыт СИИ будет далеко за пределами человеческого распределения. А даже в его пределах, я думаю, что люди, выросшие в кардинально различающихся культурах, религиях, и т.д. получают систематически разные идеи того, что составляет хорошую и этичную жизнь (см. исторически изменявшееся отношение к рабству и геноциду). Для ещё более выделяющихся примеров, посмотрите на одичавших детей, на эту ужасающую историю про Румынский детский дом, и так далее.
Скриншот из содержания [статьи англоязычной Википедии об одичавших детях](https://en.wikipedia.org/wiki/Feral_child). Когда я впервые увидел список, я рассмеялся. Потом я прочитал статью. Теперь он заставляет меня плакать.
За относительно обдуманным взглядом со стороны на «нам надо вырастить СИИ в любящей семье» см. статью «Антропоморфические рассуждения о безопасности нейроморфного СИИ», написанную вычислительными нейробиологами Дэвидом Йилком, Сетом Хердом, Стивеном Ридом и Рэндэллом О’Райли (спонсированными грантом от Future of Life Institute). Я считаю эту статью в целом весьма осмысленной и, в основном, совместимой с тем, что я говорю в этой цепочке. К примеру, когда они говорят что-то вроде «основные стремления преконцептуальны и прелингвистичны», я думаю, они имеют в виду картину, схожую с описанной в моём Посте №3.
На странице 9 этой статьи есть три абзаца обсуждения в духе «давайте вырастим наш СИИ в любящей семье». Они не столь наивны, как люди, которых Элиезер, Роб и я критиковали в Разделе 12.5.1 выше: авторы предлагают вырастить СИИ в любящей семье после реверс-инжиниринга человеческих социальных инстинктов и установки их в СИИ.
Что я думаю? Ответственный ответ: рассуждать пока преждевременно. Йилк и прочие согласны со мной, что первым шагом должен быть реверс-инжиниринг человеческих социальных инстинктов. Когда у нас будет лучшее понимание, что происходит, мы сможем вести более информированное обсуждение того, как должен выглядеть жизненный опыт СИИ.
Однако, я безответственен, и всё же порассуждаю.
Мне на самом деле кажется, что выращивание СИИ в любящей семье скорее всего сработает в качестве подхода к жизненному опыту. Но я несколько скептически настроен по поводу необходимости, практичности и оптимальности этого.
(Прежде, чем я продолжу, надо упомянуть моё убеждение-предпосылку: я думаю, я необычайно склонен подчёркивать значение «социального обучения через наблюдение за людьми» по сравнению с «социальным обучением через взаимодействие с людьми». Я не считаю, что второе можно полностью пропустить – лишь что, может быть, оно – вишенка на торте, а не основа обучения. См. сноску за причинами того, почему я так думаю.[4] Замечу, что это убеждение отличается от мнения, что социальное обучение «пассивно»: если я со стороны наблюдаю, как кто-то что-то делает, я всё же могу активно решать, на что обращать внимание, могу активно пытаться предсказать действия до того, как они будут совершены, могу потом активно пытаться практиковать или воспроизводить увиденное, и т.д.)
Начнём с аспекта практичности «выращивания СИИ в любящей семье». Я ожидаю, что алгоритмы подобного-мозгу СИИ будут думать и обучаться намного быстрее людей. Напомню, мы работаем с кремниевыми чипами, действующими примерно в 10,000,000 раз быстрее человеческих нейронов.[5] Это означает, что даже если мы в чудовищные 10,000 раз хуже распараллеливаем алгоритмы мозга, чем сам мозг, мы всё равно сможем симулировать мозг с тысячекратным ускорением, т.е. 1 неделя вычислений будет эквивалентом 20 лет жизненного опыта. (Замечу: реальное ускорение может быть куда ниже или даже куда выше, сложно сказать; см. более детальное обсуждение в моём посте Вдохновлённый мозгом СИИ и «якоря времени жизни».) Итак, если технология сможет позволить тысячекратное ускорение, но мы начнём требовать, чтобы процедура обучения включала тысячи часов реального времени двустороннего взаимодействия между СИИ и человеком, то это взаимодействие станет определять время обучения. (И напомню, нам может понадобиться много итераций обучения, чтобы действительно получить СИИ.) Так что мы можем оказаться в прискорбной ситуации, где команды, пытающиеся вырастить свои СИИ в любящих семьях, сильно проигрывают в конкуренции командам, которые убедили себя (верно или ошибочно), что это необязательно. Следовательно, если есть способ избавиться или минимизировать двустороннее взаимодействие с людьми в реальном времени, сохраняя в конечном результате СИИ с просоциальными мотивациями, то нам следует стремиться его найти.
Есть ли способ получше? Ну, как я упоминал выше, может, мы можем в основном положится на «социальное обучение через наблюдение за людьми» вместо «социального обучения через взаимодействие с людьми». Если так, то может быть, СИИ может просто смотреть видео с YouTube! Видео могут быть ускорены, так что мы избежим беспокойств о конкуренции из предыдущего абзаца. И, что немаловажно, видео могут быть помечены предоставленными людьми метками эмпирической истины. В контексте «контролируемого СИИ», мы могли бы (к примеру) выдавать СИИ сигнал вознаграждения в присутствии счастливого персонажа, таким образом устанавливая в СИИ желание делать людей счастливыми. (Ага, я знаю, что это звучит тупо – больше обсуждения этого в Посте №14.) В контексте «СИИ с социальными инстинктами», может быть, видео могут быть помечены тем, какие персонажи в них достойны или недостойны восхищения. (Подробности в сноске[6])
Я не знаю, сработает ли это на самом деле, но я думаю, что нам надо быть готовыми к нечеловекоподобным возможностям такого рода.
———
В предыдущем посте я предположил, что один из путей к безопасности ИИ включает в себя реверс-инжиниринг человеческих социальных инстинктов – встроенных реакций в Направляющей Подсистеме (гипоталамусе и мозговом стволе), лежащих в основе человеческого социального поведения и моральной интуиции. Этот пост пройдётся по некоторым примерам того, как могут работать человеческие социальные инстинкты.
Я намереваюсь не предложить полное и точное описание алгоритмов человеческих социальных инстинктов, а, скорее, указать на типы алгоритмов, которые стоит высматривать проекту реверс-инжиниринга.
Этот пост, как и посты №2-№7, и в отличие от остальной цепочки – чистая нейробиология, почти без упоминаний СИИ, кроме как тут и в заключении.
Содержание:
Давайте возьмём зависть как центральный пример социальной эмоции. (Напомню, суть этого поста в том, что я хочу понять человеческие социальные инстинкты в целом; я на самом деле не хочу, чтобы СИИ был завистливым – см. предыдущий пост, Раздел 12.4.3.)
Утверждаю: в Направляющей Подсистеме должны быть генетически-закодированные схемы – «встроенные реакции» – лежащие в основе чувства зависти.
Почему я так считаю? Несколько причин:
Во-первых, зависть, кажется, имеет твёрдое эволюционное обоснование. Я имею в виду обычную историю из эволюционной психологии[1]: по сути, большую часть человеческой истории жизнь была полна игр с нулевой суммой за статус, половых партнёров и ресурсы, так что весьма правдоподобно, что реакция отторжения на успех других людей (в некоторых обстоятельствах) в целом способствовала приспособленности.
Во-вторых, зависть кажется врождённым, не выученным чувством. Я думаю, родители согласятся, что дети зачастую негативно реагируют на успехи своих братьев, сестёр и одноклассников начиная с весьма малого возраста, причём в ситуациях, когда эти успехи не оказывают на ребёнка явного прямого негативного влияния. Даже взрослые ощущают зависть в ситуациях без прямого негативного влияния от успеха другого человека – к примеру, люди могут завидовать достижениям исторических личностей – так что это сложно объяснить следствиями каких-то не-социальных встроенных стремлений (голод, любопытство, и т.д.). Тот факт, что зависть – межкультурная человеческая универсалия[2] тоже сходится с тем, что она возникает из встроенной реакции, как и тот факт, что она (я думаю) присутствует и у некоторых других животных.
Единственный способ создать встроенную реакцию такого рода в рамках моего подхода (см. Посты №2-№3) – жёстко прописать некоторые схемы в Направляющей Подсистеме. Не-социальный пример того, как, по моим ожиданиям, это физически устроено в мозгу (если я правильно это понимаю, см. подробнее в вот этом моём посте) – в гипоталамусе есть отдельный набор нейронов, которые, судя по всему, исполняют следующее поведение: «Если я недоедаю, то (1) запустить ощущение голода, (2) начать награждать неокортекс за получение еды, (3) снизить фертильность, (4) снизить рост, (5) снизить чувствительность к боли, и т.д.». Кажется, есть изящное и правдоподобные объяснение, что делают эти нейроны, как они это делают и почему. Я ожидаю, что аналогичные маленькие схемы (может, тоже в гипоталамусе, может, где-то в мозговом стволе) лежат в основе штук вроде зависти, и я бы хотел знать точно, что они из себя представляют и как работают на уровне алгоритма.
В третьих, в социальной нейробиологии (как и в не-социальной), Направляющей Подсистемой (гипоталамусом и мозговым стволом), к сожалению, кажется, по сравнению с корой пренебрегают.[3] Но всё равно есть более чем достаточно статей на тему того, что Направляющая Подсистема (особенно гипоталамус) играет большую роль в социальном поведении – примеры в сноске.[4] На этом всё, пока я не прочитаю больше литературы.
Чтобы социальные инстинкты оказывали эффекты, которые от них «хочет» эволюция, они должны взаимодействовать с нашим концептуальным пониманием мира – то есть, с нашей выученной с чистого листа моделью мира, огромной (наверное, многотерабайтной) запутанной неразмеченной структуре данных в нашем мозгу.
Предположим, моя знакомая Рита только что выиграла приз, а я нет, и это вызывает у меня зависть. Выигрывающая приз Рита отображается некоторым конкретным паттерном активаций нейронов в выученной модели мира в коре, и это должно запустить жёстко закодированную схему зависти в моём гипоталамусе или мозговом стволе. Как это работает?
Вы не можете просто сказать «Геном связал эти конкретные нейроны с схемой зависти», потому что нам надо объяснить, как. Напомню из Поста №2, что концепты «Риты» и «приза» были выучены уже во время моей жизни, по сути, каталогизированием паттернов моего сенсорного ввода, затем паттернов паттернов, и т.д. – см. предсказательное изучение сенсорных вводов в Посте №4. Как геном узнаёт, что этот конкретный набор нейронов должен запускать схему зависти?
Вы не можете просто сказать «Прижизненный обучающийся алгоритм найдёт связь»; нам нужно ещё указать, как мозг получает сигнал «эмпирической истины» (т.е. управляющие сигналы, сигналы ошибки, сигналы вознаграждения, и т.д.), которые могут направлять этот обучающийся алгоритм.
Следовательно, сложности в реализации зависти (и прочих социальных инстинктов) заключаются в разновидности задачи укоренения символов – у нас есть много «символов» (концептов в нашей выученной с чистого листа предсказательной модели мира), и Направляющей Подсистеме нужен способ «укоренить» их, по крайней мере в достаточной степени, чтобы выяснить, какие социальные инстинкты они должны вызывать.
Так как схемы социальных инстинктов решают эту задачу укоренения символов? Один возможный ответ: «Извини, Стив, но возможных решений нет, следовательно, нам следует отвергнуть обучение с чистого листа и прочую чепуху из Постов №2-№7». Да, признаю, это возможный ответ! Но не думаю, что верный.
Хоть у меня и нет замечательных хорошо исследованных ответов, у меня есть некоторые идеи о том, как ответ в целом должен выглядеть, и остаток поста – мои попытки указать в этом направлении.
Как обычно, вот наша диаграмма из Поста №6:
И вот версия, разделяющая прижизненное обучение с чистого листа и генетически закодированные схемы:
Ещё раз, наша общая цель в этом посте – подумать о том, как могут работать социальные инстинкты, не нарушая ограничений нашей модели.
(Этот раздел – вовсе не обязательно центральный пример того, как работают социальные инстинкты, он включён как практика обдумывания алгоритмов такого рода. Я довольно сильно ощущаю, что описанное тут правдоподобно, но не вчитывался достаточно глубоко в литературу по этой теме, чтобы знать, правильно ли оно.
Слева: гусята, запечатлевшиеся на своей матери. Справа: гусята, запечатлевшиеся на корги. (Источники изображений: 1,2
Запечатление привязанности (википедия) – это явление, когда, как самый знаменитый пример, гусята «запечатлевают» выделяющийся объект, который они видят в критический период 13-16 часов после вылупления, а затем следуют за этим объектом. В природе «объектом» почти наверняка будет их мать, за которой они и будут добросовестно следовать на ранних этапах жизни. Однако, если их разделить с матерью, то гусята запечатлеют других животных, или даже неодушевлённые объекты вроде ботинка или коробки.
Вот вам проверка: придумайте способ реализовать запечатление привязанности в моей модели мозга.
(Попробуйте!)
.
.
.
.
Вот мой ответ.
То же, что и выше, за исключением красного текста.
Первый шаг: я добавил конкретный Оценщик Мыслей, посвящённый МАМОЧКЕ (помечено красным), с априорным указанием на визуальный ввод (Пост №9, Раздел 9.3.3). Теперь я поговорю о том, как этот конкретный Оценщик Мыслей обучается и как используется его вывод.
Во время критического периода (13-16 часов после вылупления):
Напомню, что в Направляющей Подсистеме есть простой обработчик визуальной информации (он называется «верхнее двухолмие» у млекопитающих и «оптический тектум» у птиц). Я предполагаю, что, когда эта система детектирует в поле зрения мамочкоподобный объект (основываясь на каких-то простых эвристиках анализа изображений, явно не очень разборчивых, раз ботинки и коробки могут посчитаться «мамочкоподобными»), она посылает сигнал «эмпирической истины задним числом» в Оценщик Мыслей МАМОЧКА. Это вызывает обновление Оценщика Мыслей (обучение с учителем), по сути говоря ему: «То, что ты прямо сейчас видишь в контекстных сигналах, должно приводить к очень высокой оценке МАМОЧКИ. Если не приводит, пожалуйста, обнови свои синапсы и пр., чтобы приводило.»
Во время критического периода (13-16 часов после вылупления), каждый раз, когда обработчик зрительной информации в гусином мозговом стволе детектирует правдоподобно-мамочкоподобный объект, он посылает управляющий сигнал эмпирической истины Оценщику Мыслей «МАМОЧКА», чтобы алгоритм обучения Оценщика Мыслей мог подправить его связи.
После критического периода (13-16 часов после вылупления):
После критического периода Направляющая Подсистема перманентно прекращает обновлять Оценщик Мыслей «МАМОЧКА». Неважно, что происходит, сигнал ошибки нулевой!
Следовательно, как этот конкретный Оценщик Мыслей настроился в критический период, таким он и остаётся.
Обобщим
Пока что у нас получается схема, которая выучивает специфический внешний вид объекта запечатления в критический период, а потом, после него, срабатывает пропорционально тому, насколько хорошо содержимое поля зрения совпадает с ранее выученным внешним видом. Более того, эта схема не погребена внутри огромной обученной с нуля структуры данных, но, скорее, посылает свой вывод в специфичный, генетически определённый поток, идущий в Направляющую Подсистему – в точности такая конфигурация позволяет без труда взаимодействовать с генетически заданными схемами.
Пока неплохо!
Оставшееся довольно похоже на то, о чём говорилось в Посте №7. Мы можем использовать Оценщик Мыслей «МАМОЧКА» для создания сигнала вознаграждения, побуждающего гусёнка держаться поближе и смотреть на запечатлённый объект – не только это, но ещё и планировать, как попасть поближе и посмотреть на запечатлённый объект.
Я могу придумать разные способы, как эту функцию вознаграждения сделать позамудрённей – может, эвристики оптического тектума продолжают участвовать и помогают заметить, что запечатлённый объект движется, или что-то ещё – но я уже истощил свои весьма ограниченные знания о поведении запечатления, так что, наверное, нам стоит двигаться дальше.
(Как и выше, суть в том, чтобы попрактиковаться с алгоритмами, и я не считаю, что это описание совершенно точно соответствует тому, что происходит у людей.)
Вот поведение, которое может быть знакомо родителям очень маленьких детей, хотя, я думаю, разные дети демонстрируют его в разной степени. Если ребёнок видит взрослого, которого хорошо знает, он счастлив. Но если ребёнок видит взрослого, которого не знает, он пугается, особенно если этот взрослый очень близко, прикасается, берёт на руки, и т.д.
Проверка: придумайте способ реализовать это поведение в моей модели мозга.
(Попробуйте!)
.
.
.
.
Вот мой ответ.
(Как обычно, я сильно упрощаю в педагогических целях.[5]) Я предполагаю, что в системах обработки сенсорной информации в мозговом стволе есть жёстко заданные эвристики, определяющие вероятное присутствие взрослого человека – наверное, основываясь на внешнем виде, звуках и запахе. Этот сигнал по умолчанию вызывает реакцию «испугаться». Но схемы мозгового ствола ещё и смотрят на то, что предсказывают Оценщики Мыслей в коре, и если они предсказывают безопасность, привязанность, комфорт, и т.д., то схемы мозгового ствола доверяют коре и принимают её предложения. Теперь пройдёмся по тому, что происходит:
Видя незнакомца в первый раз:
Видя незнакомца во второй раз:
Незнакомец некоторое время рядом, он добр, играет, и т.д.:
Видя уже-не-незнакомца в третий раз:
Ещё раз, вот наша диаграмма из Поста №6:
Давайте рассмотрим один отдельный Оценщик Мыслей в моём мозгу, посвящённый предсказанию реакции съёживания. Этот Оценщик Мыслей за моё время жизни обучился тому, что активации в моей предсказательной модели мира, соответствующие «меня бьют в живот» обозначают подходящий момент, чтобы съёжиться:
Что теперь происходит, когда я вижу, как кого-то ещё бьют в живот?
Если вы аккуратно рассмотрите левую часть, то увидите, что «Его бьют в живот» – это не такой же набор активаций в моей предсказательной модели мира, как «Меня бьют в живот». Но они не полностью различны! Предположительно, они в некоторой степени перекрываются.
Следовательно, нам стоит ожидать, что по умолчанию «Его бьют в живот» будет посылать более слабый, но ненулевой сигнал «съёживания» в Направляющую Подсистему.
Я называю такой сигнал «маленьким проблеском эмпатии». Он похож на мимолётное эхо того, что, как я (непроизвольно) думаю, чувствует другой человек.
И что? Ну, вспомните проблему укоренения символов из Раздела 13.2.2 выше. Существование «маленьких проблесков эмпатии» – большой прорыв к решению этой проблемы для социальных инстинктов! В конце концов, у моей Направляющей Подсистемы теперь есть надёжное-с-её-точки-зрения указание на то, что другой человек чувствует что-то конкретное, и этот сигнал может, в свою очередь, вызвать ответную реакцию у меня.
(Я немного приукрашиваю, с «маленькими проблесками эмпатии» есть некоторые проблемы, но я думаю, что они решаемы.[6])
К примеру (очень упрощая), реакция зависти может выглядеть вроде «если я не счастлив, и мне становится известно (с помощью «маленьких проблесков эмпатии»), что кто-то другой счастлив, выдать отрицательное вознаграждение».
Обобщая, в Направляющей Подсистеме могут быть схемы с вводом, включающим:
Такая схема может производить выводы («реакции»), которые (помимо всего прочего) могут включать вознаграждения, другие чувства, и/или эмпирическую истину для одного или нескольких Оценщиков Мыслей.
Так что мне кажется, что у эволюции есть довольно гибкий инструментарий для построения социальных инстинктов, особенно при связывании вместе нескольких схем такого вида.
Я хочу сильно различить «маленькие проблески эмпатии» от стандартного определения «эмпатии».[7] (Может, называть последнее «огромными кучами эмпатии»?)
Во-первых, стандартная эмпатия зачастую намеренна и требует усилий, и может потребовать по крайней мере секунды или двух, тогда как «маленькие проблески эмпатии» всегда быстры и непроизвольны. Это аналогично тому, как взгляд на кресло активирует концепт «кресла» в вашем мозгу, хотите вы того или нет.
Вдобавок, в отличии от стандартной «эмпатии», «маленькие проблески эмпатии» не всегда ведут к просоциальной заботе о своей цели. К примеру:
Эти примеры противоположны просоциальной заботе о другом человеке. Конечно, в других ситуациях «маленькие проблески эмпатии» действительно вызывают просоциальные реакции. По сути, социальные инстинкты разнятся от добрых до жестоких, и я подозреваю, что большая часть всех их задействует «маленькие проблески эмпатии».
Кстати: я уже предложил модель «маленьких проблесков эмпатии» в предыдущем подразделе. Вы можете задаться вопросом: какова моя модель стандартной (огромной кучи) эмпатии?
Ну, в предыдущем подразделе я отделил «моё собственное психологическое состояние («чувства»)» от «содержимого маленьких проблесков эмпатии». В случае стандартной эмпатии, я думаю, это разделение ломается – второе протекает в первое. Конкретнее, я бы предположил, что когда мои Оценщики Мыслей выдают особенно сильное и долговременное эмпатическое предсказание, Направляющая Подсистема начинает «доверяться» ему (в смысле как в Посте №5), и в результате мои собственные чувства приходят в соответствие чувствам цели эмпатии. Это моя модель стандартной эмпатии.
Так что, если цель моей (стандартной) эмпатии сейчас испытывает чувство отторжения, я тоже начинаю ощущать чувство отторжения, и мне это не нравится, так что я мотивирован помочь этому человеку почувствовать себя лучше (или, возможно, мотивирован его заткнуть, как может произойти при усталости сострадать). Напротив, если цель моей (стандартной) эмпатии сейчас испытывает приятные чувства, я тоже начинаю испытывать приятные чувства, и получаю мотивацию помочь человеку испытать их снова.
Так что стандартная эмпатия кажется неизбежно просоциальной.
Во-первых, это кажется интроспективно правильным (по крайней мере, для меня). Если мой друг впечатлён чем-то, что я сделал, я чувствую гордость, но особенно я горжусь в точности в тот момент, когда я представляю, как мой друг ощущает эту эмоцию. Если мой друг разочарован во мне, то я чувствую вину, но особенно виноватым я себя чувствую в точности в тот момент, когда представляю, как мой друг ощущает эту эмоцию. Ещё как пример, часто говорят: «Я не могу дождаться увидеть его лицо, когда…». Предположительно, это отражает некий реальный аспект нашей социальной психологии, и если так, то я заявляю, что это хорошо укладывается в мою теорию «маленьких проблесков эмпатии.»
Во-вторых, ещё в Посте №5, Разделе 5.5.4 я отметил, что медиальная префронтальная кора (и соответствующие части вентрального полосатого тела) играют двойственную роль как (1) висцемоторный центр, управляющий автоматическими реакциями вроде расширения зрачков и изменения сердечного ритма, и (2) центр мотивации / принятия решений. Я заявил, что теория «Оценщиков Мыслей» изящно объясняет, почему эти роли идут вместе как две стороны одной монеты. Я тогда не упомянул ещё одну роль mPFC, а конкретно (3) центр социальных инстинктов и морали. (Другие Оценщики Мыслей за пределами mPFC тоже сюда попадают.) Я думаю, что теория «маленьких проблесков эмпатии» изящно учитывает и это: «проблески эмпатии» соответствуют сигналам, посылаемым из mPFC и других Оценщиков Мыслей в Направляющую Подсистему, так что всё поведение, связанное с социальными инстинктами, обязательно включает Оценщики Мыслей.
(Однако, есть и другие возможные источники социальных инстинктов, тоже включающие Оценщики Мыслей, но не включающие «маленькие проблески эмпатии» – см., к примеру, Разделы 13.3-13.4 выше – так что это свидетельство не очень специфично.)
В-третьих, есть остальные части моей модели (Посты №2-№7) верны, то сигналы «маленьких проблесков эмпатии» возникают в ней автоматически, так что естественным путём эволюционируют «прислушивающиеся» к ним схемы Направляющей Подсистемы.
В-четвёртых, если остальные части моей модели верны, то, ну, я не могу придумать других способов построения большинства социальных инстинктов! Методом исключения!
Как замечено в вступлении, цель этого поста – указать на то, как, по моим ожиданиям, будет выглядеть «теория человеческих социальных инстинктов», чтобы она была совместима с прочими моими заявлениями об алгоритмах мозга из Постов №2-№7, в частности, с сильным ограничением «обучения с чистого листа», как обсуждалось в Разделе 13.2.2 выше. Из обсуждённого в Разделах 13.3-5 я выношу сильное ощущение оптимизма по поводу того, что такая теория существует, даже если я пока не знаю всех деталей, и оптимизма, что эта теория действительно соответствует тому, как работает человеческий мозг, и будет сходиться с соответствующими сигналами в мозговом стволе или (вероятнее) гипоталамусе.
Конечно, я очень хочу продвинуться дальше стадии «общего теоретизирования», к более конкретным заявлениям о том, как на самом деле работают человеческие социальные инстинкты. К примеру, я был бы рад не только предполагать, как эти инстинкты могут решать проблему укоренения символов, а узнать, как они на самом деле её решают. Тут я открыт к идеям и указаниям, или, ещё лучше, к тому, чтобы люди просто выяснили это сами и сказали мне ответ.
По описанным в предыдущем посте причинам, разобраться с человеческими социальными инстинктами – в самом начале моего вишлиста того, как нейробиологи могли бы помочь с безопасностью СИИ.
Помните, как я говорил о Дифференцированном Технологическом Развитии (ДТР) в Посте №1, Разделе 1.7? Ну, вот это я особенно ощущаю как «требование» ДТР – по крайней мере, среди тех вещей, которые нейробиологи могут сделать, не работая на безопасность СИИ напрямую (вскоре в Посте №15 можно будет посмотреть на мой более полный вишлист). Я действительно хочу, чтобы мы провели реверс-инжиниринг человеческих социальных инстинктов в гипоталамусе и конечном мозге задолго до реверс-инжиниринга человеческого моделирования мира в неокортексе.
И тут не всё выглядит гладко! Гипоталамус маленький, глубоко зарытый, а значит – сложный для изучения! Человеческие социальные инстинкты могут отличаться от крысиных социальных инстинктов! На понимание моделирования мира в неокортексе направлено на порядки больше усилий исследователей, чем на понимание схем социальных инстинктов в гипоталамусе и конечном мозге! На самом деле, я (к моему огорчению) замечал, что разбирающиеся в алгоритмах, связанные с областью ИИ нейробиологи особенно склонны направлять свои таланты на Обучающуюся Подсистему (неокортекс, гиппокампус, мозжечок, и т.д), а не на гипоталамус и конечный мозг. Но всё же, я не думаю, что моё «требование» ДТР безнадёжно, и я поощряю кого угодно попробовать, и если вы (или ваша лаборатория) в хорошей позиции для прогресса, но нуждаетесь в финансировании, напишите мне, и я буду держать вас в курсе возникающих возможностей.
———
В Посте №12 были предложены два возможных пути решения «задачи согласования» подобного-мозгу СИИ. Я назвал их «СИИ с Социальными Инстинктами» и «Контролируемым СИИ». Затем, в Посте №13 я подробнее рассмотрел (один из аспектов) «СИИ с Социальными Инстинктами». И теперь в этом посте мы переходим к «Контролируемому СИИ».
Если вы не читали Пост №12, не беспокойтесь, направление исследований «Контролируемого СИИ» – не что-то хитрое, это попросту идея решения задачи согласования самым легко приходящим на ум способом:
Направление исследований «Контролируемого СИИ»:
Это пост про Шаг 2, а Шаг 1 находится за пределами темы этой цепочки. Если честно, я был бы невероятно рад, если бы мы выяснили, как надёжно настроить мотивацию СИИ на любой вариант, упомянутый в Шаге 1.
К сожалению, я не знаю никакого хорошего плана для Шага 2, и (я утверждаю) никто другой тоже не знает. Но у меня есть некоторые расплывчатые мысли и идеи, и в духе мозгового штурма я ими тут поделюсь. Этот пост не предполагается полным обзором всей задачи, он только о том, что я считаю самыми важными недостающими частями.
Из всех постов цепочки этот однозначно занимает первое место по «неуверенности мнения». Практически для всего, что я говорю в этом посте, я легко могу представить, как кто-то меня переубеждает за час разговора. Попробуйте стать этим «кем-то», пишите комментарии!
Содержание:
Для фона – вот наша обычная диаграмма мотивации в человеческом мозгу, из Поста №6:
См. Пост №6. Аббревиатуры – из анатомии мозга, можете их игнорировать.
А вот модификация для СИИ, из Поста №8:
В центральной-правой части диаграммы я зачеркнул слова «кортизол», «сахар», и пр. Они соответствовали набору человеческих внутренних реакция, которые могут быть непроизвольно вызваны мыслями (см. Пост №5). (Или, в терминах машинного обучения, это более-менее соответствует компонентам многомерной функции ценности, аналогичных тому, что можно найти в многоцелевом / многокритерийном обучении с подкреплением.)
Конечно, штуки вроде сахара и кортизола не подходят для Оценщиков Мыслей будущих СИИ. Но что подходит? Ну, мы программисты, нам решать!
Мне в голову приходят три категории. Я поговорю о том, как они могут обучаться (с учителем) в Разделе 14.3 ниже.
Примеры оценщиков мыслей из этой категории:
Можно посчитать (см. этот пост Пола Кристиано), что №1 достаточно и заменяет остальные. Но я не знаю, думаю, хорошо было бы иметь отдельную информацию по всем этим пунктам, что позволило бы нам менять веса в реальном времени (Пост №9, Раздел 9.7), и, наверное, дало бы нам дополнительные метрики безопасности.
Пункты №2-№3 приведены, потому что это особенно вероятные и опасные виды мыслей – см. обсуждение инструментальной конвергенции в Посте №10, Разделе 10.3.2.
Пункт №5 – это попытка справиться с нахождением СИИ странных не пришедших бы человеку в голову решений задач, т.е. попытка смягчить так называемую «проблему Ближайшей Незаблокированной Стратегии». Почему это может её смягчить? Потому что соответствие паттерну «правдоподобно, что это мог бы сделать этичный человек» – немного больше похоже на белый список, чем на чёрный. Я всё равно не считаю, что это сработает само по себе, не поймите меня неправильно, но, может быть, это сработает в объединении с другими идеями из этого поста.
Перед тем, как вы перейдёте в режим поиска дырок («лол, вполне правдоподобно, что этичный человек превратил бы мир в скрепки, если бы находился под влиянием инопланетного луча контроля разума»), вспомните, что (1) имеется в виду, что это реализовано с помощью соответствия паттерну из уже виденных примеров (Раздел 14.3 ниже), а не дословного следования в духе джина-буквалиста; (2) у нас, надеюсь, будет какого-то рода система детектирования выхода из распределения (Раздел 14.4 ниже), чтобы предотвратить СИИ от нахождения и злоупотребления странными крайними случаями этого соответствия паттернам. Однако, как мы увидим, я не вполне знаю, как сделать ни одну из этих двух вещей, и даже если мы это выясним, у меня нет надёжного аргумента о том, что этого хватит для получения нужного безопасного поведения.
Примеры оценщиков мыслей из этой категории:
Это вещи того рода, ради которых мы создаём СИИ – что мы на самом деле хотим, чтобы он делал. (Подразумевая, для простоты, ориентированный на задачи СИИ.)
Основание системы мотивации на рассуждениях такого рода – очевидно катастрофично. Но, может быть, если мы используем эти мотивации вместе с предыдущей категорией, это будет ОК. К примеру, представьте СИИ, который может думать только мысли, соответствующие паттерну «Я помогаю» И паттерну «это уменьшит глобальное потепление».
Однако, я не уверен, что мы хотим эту категорию вообще. Может, Оценщика Мыслей «Я помогаю» достаточно самого по себе. В конце концов, если управляющий человек пытается снизить глобальное потепление, то помогающий СИИ предоставит ему план, как это сделать. Вроде бы, такой подход используется тут.
(См. Пост №9, Раздел №9.6 за тем, что я имею в виду под «Суррогатом интерпретируемости».)
Как обсуждалось в Постах №4-№5, каждый оценщик мыслей – обученная с учителем модель. Уж точно, чем больше мы их поместим в СИИ, тем более вычислительно дорогим он будет. Но я не знаю, насколько более. Может, мы можем поместить их 10^7, и это добавит всего 1% у общей вычислительной мощности, необходимой для работы СИИ. Я не знаю. Я надеюсь на лучшее и на подход More Dakka: давайте сделаем 30000 Оценщиков Мыслей, по одному на каждое слово из словаря:
Я ожидаю, что разбирающиеся в машинном обучении способны немедленно предложить сильно улучшенные версии этой схемы – включая версии с ещё более more* dakka – с использованием контекста, языковых моделей, и т.д. Как пример, если мы выкупим и откроем код Cyc (больше о нём ниже), то сможем использовать сотни тысяч размеченных людьми концептов из него.
Для того, чтобы СИИ оценивал мысль/план как хорошую, мы бы хотели, чтобы все Оценщики Мыслей безопасности и исправимости из Раздела 14.2.1 имели как можно более высокое значение, и чтобы ориентированный на задачу Оценщик Мыслей из Раздела 14.2.2 (если мы такой используем) тоже имел как можно более высокое значение.
(Выводы Оценщиков Мыслей интерпретируемости из Раздела 14.2.3 не являются вводом функции вознаграждения СИИ, и вообще, полагаю, им не используются. Я думаю, они будут втихую подключены, чтобы помогать программистам в отладке, тестировании, мониторинге, и т.д.)
Так что вопрос: как нам скомбинировать этот массив чисел в единую оценку, которая может направлять, что СИИ решает делать?
Вероятно, плохой ответ – «сложить их все». Мы не хотим, чтобы СИИ пришёл к плану, который катастрофически плох по всем, кроме одного Оценщикам Мыслей безопасности, но настолько астрономически высок согласно последнему, что этого хватает.
Скорее, я представляю, что нам нужно применять какую-то сильно нелинейную функцию, и/или даже пороги приемлемости, прежде чем складывать в единую оценку.
У меня не особо много знаний и точных мнений по деталям. Но существует литература на тему «скаляризации» многомерных функций ценности – см. ссылки здесь.
Напомню, в Постах №4-№6 мы говорили, что Оценщики Мыслей обучаются с учителем. Так что нам нужен управляющий сигнал – то, что я обозначил как «эмпирическая истина задним числом» в диаграмме сверху.
Я много говорил о том, как мозг генерирует сигнал эмпирической истины, например, в Посте №3, Разделе 3.2.1, Постах №7 и №13. Как нам генерировать его для СИИ?
Ну, одна очевидная возможность – пусть СИИ смотрит YouTube, с многими прикреплёнными к видео ярлыками, показывающими, какие, как мы думаем, Оценщики Мыслей должны быть активными. Тогда, когда мы готовы послать СИИ в мир, чтобы решать задачи, мы отключаем размеченные видео, и одновременно замораживаем Оценщики Мыслей (= устанавливаем сигналы ошибки на ноль) в их текущем состоянии. Ну, я не уверен, что это сработало бы; может, СИИ время от времени нужно возвращаться назад и пересматривать эти размеченные видео, чтобы помочь Оценщикам Мыслей держаться наравне с растущей и меняющейся моделью мира СИИ.
Одно потенциальное слабое место такого подхода связано с различием первого и третьего лица. Мы хотим, чтобы у СИИ были сильные предпочтения по поводу аспектов планов от первого лица – мы надеемся, что СИИ будет считать «я буду лгать и обманывать» плохим, а «я буду помогать» хорошим. Но мы не можем напрямую получить такие предпочтения просто заставив СИИ смотреть размеченные видео с YouTube. СИИ увидит, как персонаж Алиса обманывает персонажа Боба, но это не то же самое, что обманчивость самого СИИ. И это очень важное различие! Действительно:
Уж точно было бы хорошо, если бы был способ преобразовывать данные от третьего лица (например, размеченное видео с YouTube, где Алиса обманывает Боба) в предпочтения СИИ от первого лица («Я не хочу обманывать»). Я называю это задача первого лица.
Как нам решить задачу первого лица? Я не уверен. Может, мы можем применить инструменты интерпретируемости к модели мира СИИ, понять, как он отображает себя, и соответственным образом проманипулировать его мыслями, или что-то такое? Ещё возможно, что дальнейшее исследование человеческих социальных инстинктов (предыдущий пост) прольёт на это свет, ведь человеческие социальные инстинкты, кажется, преобразуют третье лицо «все в моей группе друзей используют зелёную помаду» в первое лицо «я хочу использовать зелёную помаду».
Если задача первого лица нерешаема, то нам надо вместо этого прибегнуть к пугающему методу: позволять СИИ предпринимать действия, и выдавать им ярлыки. Почему пугающему? Во-первых, потому что эти действия могут быть опасными. Во-вторых, потому что это не даёт нам хорошего способа отличить (к примеру) «СИИ говорит неправду» от «СИИ попался на том, что говорит неправду». Консерватизм и/или экстраполяция концептов (Раздел 14.4 ниже) могу бы помочь с этой проблемой – может, у нас получилось бы получить СИИ одновременно мотивированного быть честным и не попадаться, и это было бы достаточно – но всё же это по разным причинам кажется ненадёжным.
Я подозреваю, что «задача первого лица» интуитивно понятна большинству читателей. Но, готов поспорить, подмножество читателей чувствует искушение сказать, что это вовсе не проблема. В конце концов, в области человеческих действий есть хорошие аргументы в пользу того, что нам надо использовать поменьше предпочтений от первого лица!
Противоположностью предпочтений от первого лица были бы «безличные консеквенциалистские предпочтения», при которых есть будущая ситуация, которую мы хотим обеспечить (например, «замечательная пост-СИИ утопия»), и мы принимаем направленные на неё решения, без особой заботы о том, что делаю конкретно-Я. В самом деле, слишком много мышления от первого лица приводит к многим вещам, которые мне лично в мире не нравятся – например, присвоение заслуг, избегание вины, разделение действия / бездействия, социальный сигналинг, и так далее.
Всё же, я думаю, что выдача СИИ предпочтений от первого лица – правильный шаг в сторону безопасности. Пока мы не заполучим супер-надёжные СИИ 12-о поколения, я бы хотел, чтобы они считали «произошло что-то плохое (я с этим никак не связан)» куда менее плохим, чем «произошло что-то плохое (и это моя вина)». У людей это так, в конце концов, и это, кажется по крайней мере относительно устойчивым – к примеру, если я создам робота-грабителя, а потом он ограбит банк, а я возражу «Эй, я не сделал ничего плохого, это всё робот!», то у меня не получится никого обмануть, особенно себя. СИИ с такими предпочтениями, наверное, был бы осторожным и консервативным в принятии решений, и склонялся бы к бездействию по умолчанию при сомнениях. Это кажется в общем хорошим, что приводит нас к следующей теме:
Давайте сделаем шаг назад.
Предположим, мы создали СИИ, у которого есть позитивная валентность, присвоенная абстрактному концепту «много человеческого процветания», и который последовательно составляет планы и исполняет действия, приводящие к этому концепту.
Я, на самом деле, довольно оптимистичен по поводу того, что с технической стороны мы сможем так сделать. Как и выше, мы можем использовать размеченные видео с YouTube и всякое такое, чтобы создать Оценщик Мыслей для «эта мысль / план приведён к процветанию людей», а затем установить функцию вознаграждения на основе этого одного Оценщика Мыслей (см. Пост №7).
А затем мы выпускаем СИИ в ничего не подозревающий мир, чтобы он делал то, что, как он думает, лучше всего сделать.
Что может пойти не так?
Проблема в том, что абстрактный концепт «человеческое процветание» в модели мира СИИ – это на самом деле просто куча выученных ассоциаций. Сложно сказать, какие действия вызовет стремление к «человеческому процветанию», особенно когда мир будет меняться, и понимание СИИ мира будет меняться ещё больше. Иначе говоря, нет будущего мира, который будет идеально соответствовать паттерну нынешнего понятия «человеческого процветания» у СИИ, и если чрезвычайно могущественный СИИ будет оптимизировать мир для лучшего соответствия паттерну, то это может привести к чему-то странному, даже катастрофичному. (Или, может быть, нет! Довольно сложно сказать, больше об этом в Разделе 14.6.)
Случайные примеры того, что может пойти не так: может, СИИ захватит мир и будет удерживать людей и человеческое общество от дальнейших изменений, потому что изменения ухудшат соответствие паттерну. Или, может быть, наименее плохое соответствие паттерну будет, если СИИ избавится от настоящих людей в пользу бесконечной модифицированной игры в The Sims. Не то чтобы The Sims идеально соответствовала «человеческому процветанию» – наверное, довольно плохо! Но, может быть, менее плохо, чем всё, что для СИИ реально сделать с настоящими людьми. Или, может быть, пока СИИ будет всё больше и больше учиться, его модель мира постепенно изменится так, что замороженный Оценщик Мыслей начнёт указывать на что-то совершенно случайное и безумное, а затем СИИ истребляет людей и замощает галактику скрепками. Я не знаю!
В любом случае, безустанная оптимизация зафиксированного замороженного абстрактного концепта вроде «человеческого процветания» кажется, возможно, проблематичной. Можно ли лучше?
Ну, было бы хорошо, если бы мы могли непрерывно совершенствовать этот концепт, особенно по ходу того, как меняется мир и понимание его СИИ. Эту идею Стюарт Армстронг называет Экстраполяцией Концептов, если я правильно его понимаю.
Экстраполяция концептов – то, что проще сказать, чем сделать – для вопроса «что такое человеческое процветание на самом деле?» нет очевидной эмпирической истины. К примеру, что будет означать «человеческое процветание» в трансгуманистическом будущем гибридов людей с компьютерами, суперинтеллектуальных эволюционировавших осьминогов и бог-знает-чего-ещё?
В любом случае, мы можем разделить экстраполяцию концептов на два шага. Во-первых, (простая часть) нам надо детектировать крайние случаи предпочтений СИИ. Во-вторых, (сложная часть) нам надо выяснить, что следует СИИ делать при столкновении с таким крайним случаем. Давайте поговорим об этом по порядку.
Я с осторожностью оптимистичен по поводу возможности создать простой алгоритм мониторинга, который присматривает за мыслями СИИ и детектирует, когда тот находится в ситуации крайнего случая – т.е., за пределами распределения, где его выученные предпочтения и концепты ломаются.
(Понимание содержания крайнего случая кажется куда более сложной задачей, это ещё будет обсуждаться, но тут я пока что говорю только о распознавании появления крайнего случая.
Вот несколько примеров возможных намёков, указывающих, что СИИ столкнулся с крайним случаем:
Я не знаю хороших решений. Вот некоторые варианты.
Прямолинейный подход – при срабатывании детектора крайних случаев СИИ просто устанавливать сигнал вознаграждения отрицательным – чтобы то, что СИИ думает, посчиталось плохой мыслью/планом. Это приблизительно соответствует «консервативному» СИИ.
(Замечу: я думаю, есть много способов, которые мы можем использовать, чтобы сделать подобный-мозгу СИИ более или менее «консервативным» в разных аспектах. То, что выше – только один пример. Но у них всех, кажется, общие проблемы.)
Вариант неудачи консервативного СИИ – что он просто не будет ничего делать, будучи парализованным неуверенностью, потому что любой возможный план кажется слишком ненадёжным или рискованным.
«Парализованный неуверенностью СИИ» – это провал, но не опасный провал. Ну, пока мы не настолько глупы, чтобы поставить СИИ управлять горящим самолётом, падающим на землю. Но это нормально – в целом, я думаю, вполне ОК, если СИИ первого поколения будут иногда парализованы неуверенностью, так что не будут подходить для решения кризисов, где ценна каждая секунда. Такой СИИ всё ещё сможет выполнять важную работу вроде изобретения новых технологий, в частности, проектирования лучших и более безопасных СИИ второго поколения.
Однако, если СИИ всегда парализован неуверенностью – так, что он не может сделать что-либо – тогда у нас большая проблема. Предположительно, в такой ситуации, будущие программисты СИИ просто будут всё дальше и дальше понижать уровень консерватизма, пока СИИ не начнёт делать что-то полезное. И тогда неясно, хватит ли оставшегося консерватизма для безопасности.
Я думаю, куда лучше было бы, если СИИ будет иметь способ итеративно получать информацию для снижения неуверенности, оставаясь при этом сильно консервативным в случаях оставшейся неуверенности. Так как нам это сделать?
Вот немного глупый иллюстративный пример того, что я имею в виду. Как выше, у нас есть простой алгоритм мониторинга, который присматривает за мыслями СИИ и детектирует ситуации крайних случаев. Тогда он полностью выключает СИИ и выводит текущие активации его нейросети (и соответствующие выводы Оценщиков Мыслей). Программисты используют инструменты интерпретируемости, чтобы выяснить, о чём СИИ думает, и напрямую присваивают ценность/вознаграждение, переписывая предыдущую неуверенность СИИ эмпирической истиной с высокой уверенностью.
Такая конкретная история кажется нереалистичной, в основном потому, что у нас скорее всего не будет достаточно надёжных и детализированных инструментов интерпретируемости. (Опровергните меня, исследователи интерпретируемости!) Но, может быть, есть подход получше, чем просто рассматривать миллиарды нейронных активаций и Оценщиков Мыслей?
Сложность в том, что коммуникация СИИ с людьми – фундаментально тяжёлая задача. Мне неясно, возможно ли решить её тупым алгоритмом. Ситуация тут очень сильно отличается от, скажем, классификатора изображений, в случае которого мы можем найти изображение для крайнего случая и просто показать его человеку. Мысли СИИ могут быть куда менее понятны.
Это аналогично тому, что коммуникация людей друг с другом возможна, но не посредством какого-то тупого алгоритма. Мы делаем это, используя всю мощь своего интеллекта – моделируя, что думает наш собеседник, стратегически выбирая слова, которые лучше передают желаемое сообщение, и обучаясь с опытом коммуницировать всё эффективнее. Так что, если мы попробуем такой подход?
Если я пытаюсь кому-то помочь, то мне не нужен никакой специальный алгоритм мониторинга для поиска разъяснений в крайних случаях. Я просто хочу разъяснений, как осознающий себя правильно мотивированный агент.
Так что если мы сделаем такими наши СИИ?
На первый взгляд кажется, что этот подход решает все упомянутые выше проблемы. Более того, так СИИ может использовать всю свою мощь на то, чтобы всё лучше работало. В частности, он может научиться своим собственным невероятно сложным метакогнитивным эвристикам для отмечания крайних случаев, и может научиться применять мета-предпочтения людей о том, когда и как ему надо запрашивать разъяснений.
Но тут есть ловушка. Я надеялся на то, что консерватизм / экстраполяция концептов защитит нас от неправильно направленной мотивации. Если мы реализуем консерватизм / экстраполяцию концептов с помощью самой системы мотивации, то мы теряем эту защиту.
Конкретнее: если мы поднимемся на уровень выше, то у СИИ всё ещё есть мотивация («искать разъяснений в крайних случаях»), и эта мотивация всё ещё касается абстрактного концепта, который приходится экстраполировать для крайних случаев за пределами распределения («Что, если мой оператор пьян, или мёртв, или сам в замешательстве? Что, если я задам наводящий вопрос?»). И для этой задачи экстраполяции концептов у нас уже нет страховки.
Проблема ли это? Долгая история:
Отдельный спор: Помогут ли предпочтения «полезности» в «экстраполяции» безопасности, если их просто рекурсивно применить к самим себе?
Это, на самом деле, длительный спор в области безопасности СИИ – «экстраполируются» ли помогающие / исправимые предпочтения СИИ (например, желание понимать и следовать предпочтениям и мета-предпочтениям человека) желаемым образом безо всякой «страховки» – т.е., без независимого механизма эмпирической истины, направляющего предпочтения СИИ в нужном направлении.
В лагере оптимистов находится Пол Кристиано, который в «Исправимости» (2017) заявлял, что есть «широкие основания для привлекательности приемлемых вариантов», основываясь, например, на идее, что предпочтение СИИ быть помогающим приведёт к рефлексивному желанию непрерывно редактировать собственные предпочтения в направлении, которое понравится людям. Но я на самом деле не принимаю этот аргумент по причинам, указанным в моём посте 2020 года – по сути, я думаю, что тут наверняка есть чувствительные области вроде «что значит для человека чего-то хотеть» и «каковы нормы коммуникации у людей» и «склонность к само-мониторингу», и если предпочтения СИИ «уезжают» по одной из этих осей (или по всем сразу), то я не убеждён, что они сами себя исправят.
В то же время, к крайне-пессимистичному лагерю относится Элиезер Юдковский, я так понимаю, в основном, из-за аргумента (см., например, этот пост, последний раздел, что нам следует ожидать, что мощные СИИ будут иметь консеквенциалистские предпочтения, а они кажутся несовместимыми с исправимостью. Но я на самом деле не принимаю и этот аргумент, по причинам из моего поста 2021 года «Консеквенциализм и Исправимость» – по сути, я думаю, что существуют возможные рефлексивно-стабильные предпочтения, включающие консеквенциалистские части (и, следовательно, совместимые с мощными способностями), но не являющиеся чисто консеквенциалистскими (и, следовательно, совместимые с исправимостью). Мне кажется правдоподобным развитие «предпочтения помогать» в смешанную схему такого рода.
В любом случае, я не уверен, но склоняюсь к пессимизму. Ещё по этой теме см. недавний пост Wei Dai, и комментарии к постам по ссылкам выше.
Я не знаю.
Очевидно важная часть всего этого – это мнгоготерабайтная неразмеченная генеративная модель мира, обитающая внутри Генератора Мыслей. Оценщики Мыслей дают нам окно в эту модель мира, но я обеспокоен, что это окно может быть довольно маленьким, затуманенным и искажающим. Можно ли лучше?
В идеале мы бы хотели доказывать штуки о мотивации СИИ. Мы бы хотели говорить «С учётом состояния модели мира СИИ и Оценщиков Мыслей, СИИ точно замотивирован сделать X» (где X=помогать, быть честным, не вредить людям, и т.д.) Было бы здорово, правда?
Но мы немедленно упираемся в стену: как нам доказать хоть что-то о «значении» содержимого модели мира, а, следовательно, о мотивации СИИ? Мир сложный, следовательно, сложна и модель мира. То, о чём мы беспокоимся – расплывчатые абстракции вроде «честности» и «помощи» – см. Проблему Указателей. Модель мира продолжает меняться, пока СИИ учится и пока он исполняет планы, выводящие мир далеко за границы распределения (например, планируя развёртывание новой технологии). Как мы можем доказать тут что-то полезное?
Я всё же думаю, что самый вероятный ответ – «Мы не можем». Но есть два возможных пути. За связанными обсуждениями см. Выявление Скрытого Знания.
Стратегия доказательства №1 начинается с идеи, что мы живём в трёхмерном мире с объектами и всяким таким. Мы пытаемся прийти к однозначным определениям того, чем являются эти объекты, а из этого получить однозначный язык для определения того, что мы хотим, чтобы произошло в мире. Мы также как-то переводим (или ограничиваем) понимание мира СИИ на этот язык, и тогда мы сможем доказывать теоремы о том, что СИИ пытается сделать.
Таково моё неуверенное понимание того, что пытается сделать Джон Вентворт со своей программой исследований Гипотезы Естественных Абстракций (самая свежая информация тут), и я слышал подобные идеи ещё от пары других человек. (Обновление: Джон не согласен с такой характеристикой, см. его комментарий.)
Я тут настроен скептически, потому что трёхмерный мир локализированных объектов не кажется многообещающей стартовой точкой для формулировки и доказательства полезных теорем о мотивациях СИИ. В конце концов, многие вещи, о которых беспокоятся люди, и о которых должен беспокоиться СИИ, кажутся сложными для описания в терминах трёхмерного мира локализированных объектов – взять хотя бы «честность», «эффективность солнечной батареи» или даже «день».
Стратегия доказательства №2 началась бы с понятной человеку «ссылочной модели мира» (например, Cyc). Эта ссылочная модель не была бы ограничена локализованными объектами в трёхмерном мире, так что, в отличии от предыдущей стратегии, она могла бы и скорее всего содержала бы вещи вроде «честности», «эффективности солнечной батареи» и «дня».
Затем мы пытаемся напрямую сопоставить элементы «ссылочной модели мира» и элементы модели мира СИИ.
Совпадут ли они? Нет, конечно. Наверное, лучшее, на что мы можем надеяться – это расплывчатое соответствие многих-ко-многим, с кучей дырок с каждой стороны.
Мне сложно увидеть путь к строгим доказательства чего бы то ни было про мотивации СИИ с использованием этого подхода. Но я всё же изумлён тем, что машинный перевод без учителя вообще возможен, я вижу это как косвенный намёк на то, что если внутренние структуры частей двух моделей мира соответствуют друг другу, то тогда они скорее всего описывают одну и ту же вещь в реальном мире. Так что, может быть, тут есть проблески надежды.
Мне неизвестны работы в этом направлении, может быть потому, что оно глупое и обречённое, но может быть и потому, что, кажется, у нас сейчас нет по-настоящему хороших, открытых, и понятных людям моделей мира, чтобы ставить на них эксперименты. Думаю, эту проблему стоит решить как можно скорее, возможно, выписав огромный чек, чтобы сделать Cyc открытым, или разработав другую, но настолько же большую, точную, и (главное) понятную модель мира.
Я думаю, что мы столкнулись с большими сложностями в выяснении того, как решить задачу согласования путём «Контролируемого СИИ» (как определено в Посте №12). Есть куча открытых вопросов, и я сейчас понятия не имею, что с ними делать. Нам точно стоит продолжать высматривать хорошие решения, но прямо сейчас я открыт к перспективе, что мы их не найдём. Так что я продолжаю вкладывать большую часть своих мысленных сил в путь «СИИ с Социальными Инстинктами» (Посты №12-№13), который, несмотря на его проблемы, кажется мне менее обречённым.
Я, впрочем, замечу, что мой пессимизм не общепринят – к примеру, как уже упоминалось, Стюарт Армстронг из AlignedAI выглядит настроенным оптимистично по поводу решения открытой задачи из Раздела 14.4, а Джон Вентворт кажется настроенным оптимистично по поводу задачи из Раздела 14.5. Понадеемся, что они правы, пожелаем им удачи и попробуем помочь!
Для ясности, мой пессимизм касается нахождения хорошего решения «Контролируемого СИИ», то есть решения, в котором мы можем быть крайне уверены априори. Другой вопрос: Предположим, мы пытаемся создать «Контролируемый СИИ» с помощью плохого решения, вроде примера из Раздела 14.4.1, где мы вкладываем в сверхмощный СИИ всепоглощающее стремление к абстрактному концепту «человеческого процветания», а затем СИИ произвольно экстраполирует этот абстрактный концепт далеко за пределы обучающего распределения полностью бесконтрольно и ненаправленно. Насколько плохим будет будущее, в которое такой СИИ нас приведёт? Я очень неуверен. Будет ли такой СИИ устраивать массовые пытки? Эммм, полагаю, я осторожно оптимистичен, что нет, за исключением случая ошибки в знаке из-за космического луча, или чего-то такого. Истребит ли он человечество? Я думаю – это возможно! – см. обсуждение в Разделе 14.4.1. Но может и нет! Эй, это может быть даже будет довольно замечательное будущее! Я действительно не знаю, и я даже не уверен, как снизить мою неуверенность.
В следующем посте я подведу итог цепочке своим вишлистом открытых задач и советами по поводу того, как войти в эту область и помочь их решать!
Это последний пост цепочки «Введение в безопасность подобного-мозгу СИИ»! Спасибо, что дочитали!
Раз уж это пост-заключение, можете спокойно использовать комментарии для обсуждений на общие темы (или вопросов мне по любому поводу), даже если они не связаны с этим конкретным постом.
Это ни в коем случае не исчерпывающий список открытых задач, прогресс в которых мог бы помочь безопасности подобного-мозга СИИ, и уж тем более общей теме Безопасного и Полезного СИИ (см. Пост №1, Раздел 1.2). Скорее, это просто некоторые из тем, всплывавших в этой цепочке, с присвоенными рейтингами, пропорциональными тому, насколько сильный энтузиазм я испытываю по их поводу.
Я разделю открытые задачи на три категории: «Открытые задачи, похожие на обычную нейробиологию», «Открытые задачи, похожие на обычную информатику», и «Открытые задачи, которые требуют явно упоминать СИИ». Это разделение – для удобства читателей: у вас, к примеру, может быть начальник, спонсор или диссертационный совет, считающий, что безопасность СИИ – это глупости, и в таком случае вы можете захотеть избегать третьей категории. (Однако, не сдавайтесь слишком быстро – см. обсуждение в Разделе 15.3.1 ниже.)
Если вы не заметили, Посты №2-№7 наполнены откровенным теоретизированием и наглыми заявлениями о том, как работает человеческий мозг. Было бы здорово знать, правда ли всё это на самом деле!!
Если эти посты про нейробиологию – полная ерунда, то, думаю, отвергнуть надо не только их, но и остальную цепочку тоже.
В текстах этих постов встречаются разные предложения и указания на то, почему я считаю истинными свои нейробиологические заявления. Но аккуратного тщательно исследованного анализа, насколько мне известно, ещё нет. (Или, если есть, пошлите мне ссылку! Ничто не сделает меня счастливее, чем узнать, что я изобрёл велосипед и заявлял вещи, которые уже вполне известны и общепризнаны.)
Я даю этой программе исследований рейтинг приоритетности в 4 звезды из 5. Почему не 5? Две причины:
Если предположить, что Посты №2-№7 на самом деле не полная чепуха, получается вывод, что где-то в Направляющей Подсистеме нашего мозга (грубо говоря – в гипоталамусе и мозговом стволе) есть схемы для различных «встроенных реакций», лежащих в основе человеческих социальных инстинктов, и они представляют из себя относительно простые функции ввода-вывода. Цель: выяснить точно, что это за функции, и как они управляют (после прижизненного обучения) нашими социальными и моральными мыслями и поведением.
См. Пост №12 за тем, почему я считаю, что эта исследовательская программа очень полезна для безопасности СИИ, и Пост №13 за обсуждением того, схемы и объяснения приблизительно какого вида нам следует искать.
Вот (немного карикатурная) точка зрения на ту же программу исследований со стороны машинного обучения: Общепризнано, что прижизненное обучение в человеческом мозге включает в себя обучение с подкреплением – к примеру, потрогав один раз раскалённую печь, вы не будете делать это снова. Как и с любым алгоритмом обучения с подкреплением, можно задать два вопроса:
Эти вопросы (более-менее) независимы. К примеру, чтобы экспериментально изучать вопрос A, вам не нужен полный ответ на вопрос B; достаточно как минимум одного способа создавать положительное вознаграждение и хотя бы одного способа создавать отрицательное вознаграждение, чтобы использовать из в своих экспериментах. Это просто: крысам нравится есть сыр и не нравится, когда их бьют током. Готово!
У меня сложилось впечатление, что нейробиологи написали много тысяч статей о вопросе A, и почти нисколько напрямую о вопросе B. Но я думаю, что вопрос B куда более важен для безопасности СИИ. А часть функции вознаграждения, связанная с социальными инстинктами важнее всего.
Я даю этой программе исследований рейтинг приоритетности в 5 звёзд из 5 по причинам, обсуждённым в Постах №12-№13.
Я впервые говорил об этом в посте «Давайте выкупим Cyc для использования в системах интерпретируемости СИИ?» (Несмотря на заголовок поста, я не привязан конкретно к Cyc; если современное машинное обучение может сделать лучшую работу за меньшие деньги, это замечательно.)
Я ожидаю, что будущие СИИ будут создавать и постоянно расширять свои собственные модели мира, и эти модели рано или поздно вырастут до терабайтов информации и дальше, и будут содержать гениальные инновационные концепты, о которых люди раньше не задумывались и которые они не смогут понять, не потратив годы на изучение (или не смогут понять вообще). По сути, пытаясь понять модель мира СИИ мы зайдём в тупик. Так что нам делать? (Нет, «с воплями убежать» не вариант.) Мне кажется, что если бы у нас была наша собственная огромная понятная людям модель мира, то это было бы мощным инструментом в нашем арсенале, чтобы подступиться к задаче понимания модели мира СИИ. Чем точнее и больше понятная людям модель мира, тем полезнее она может быть.
Для большей конкретности, в предыдущих постах я упоминал три причины, почему обладание огромной, замечательной, открытой, понятной людям модели мира было бы полезным:
Я даю этой программе исследований рейтинг приоритетности в 3 звезды из 5, потому что у меня нет супер-высокой уверенности, что хоть один из этих трёх вариантов реалистичен и эффективен. Я не знаю, есть, может, 50% шанс, что даже если бы у нас была очень хорошая открытая понятная людям модель мира, будущие программисты СИИ всё равно не стали бы её использовать, или что это было бы лишь немногим лучше посредственной открытой понятной людям модели мира.
Напомню: по умолчанию, я ожидаю, что модель мира и Оценщики Мыслей (грубо говоря, функция ценности обучения с подкреплением) СИИ будут «обучаться с чистого листа» в смысле как в Посте №2. Это означает, что «СИИ-ребёнок» будет в лучшем случае творить ерунду, а в худшем – вынашивать опасные планы против наших интересов, пока мы будем пытаться оформить его предпочтения в дружественном для людей направлении.
Учитывая это, было бы здорово иметь сверхнадёжное окружение-«песочницу», в котором «СИИ-ребёнок» мог бы делать всё необходимое для обучения, не сбегая в интернет и не учиняя хаос какими-нибудь ещё способами.
Некоторые возможные возражения:
Я даю этой программе исследований рейтинг приоритетности в 3 звезды из 5, в основном потому, что я не особо много знаю по этой теме, так что мне некомфортно за неё агитировать.
Люди могут легко выучивать значения абстрактных концептов вроде «быть рок-звездой», просто наблюдая мир, сравнивая наблюдения с паттерном виденных ранее примеров, и т.д. Более того, выучив этот концепт, люди могут его хотеть (присваивать ему позитивную валентность), в основном как результат повторяющегося сигнала вознаграждения, возникающего при активации этого концепта в разуме (см. Пост №9, Раздел 9.3). Из этого, кажется, можно вывести общую стратегию контроля подобных-мозгу СИИ: заставить их выучить некоторые концепты вроде «быть честным» и «быть полезным» с помощью помеченных примеров, а затем удостовериться, что они получили позитивную валентность, и готово!
Однако, концепты выводятся из сети статистических ассоциаций, и как только мы попадаем в выходящие из распределения крайние случаи, ассоциации ломаются, и концепты тоже. Если религиозный фанатик верит в ложного бога, «помогаешь» ли ты ему, разубедив его? Лучший ответ «Я не знаю, это зависит от того, что мы имеем в виду под помощью». Такое действие хорошо совпадает с некоторыми коннотациями / ассоциациями концепта «помощи», но довольно плохо с другими.
Так что заставить СИИ выучить и полюбить некоторые абстрактные концепты кажется началом хорошего плана, но только если у нас есть оформленный подход к тому, как СИИ должен очищать эти концепты, чтобы мы это одобряли, при встрече с крайними случаями. И тут у меня нет никаких хороших идей.
См. Пост №14, Раздел 14.4 за дополнительным обсуждением.
Примечание: Если вы действительно мотивированы этой программой исследований, одним из вариантов может быть попробовать получить работу в AlignedAI. Их сооснователь, Стюарт Армстронг, изначально и предложил «экстраполяцию концептов» как исследовательскую программу (и установил термин), и, кажется, это и есть их основной исследовательский фокус. Учитывая опыт Стюарта Армстронга в формализованных размышлениях о безопасности СИИ, я с осторожностью оптимистичен по поводу того, что AlignedAI будет работать в направлении решений, масштабируемых до суперинтеллектуальных СИИ завтрашнего дня, а не просто подходящих лишь для современных СИИ-систем, как часто бывает.
Я даю этой программе исследований рейтинг приоритетности в 5 звёзд из 5. Решение этой задачи даст нам по крайней мере большую часть знаний для создания «Контролируемых СИИ» (в смысле Поста №14).
Подобные-мозгу СИИ предположительно будут выучивать с чистого листа огромную многотерабайтную неразмеченную модель мира. Цели и желания СИИ будут определены в терминах содержимого этой модели мира (Пост №9, Раздел 9.2). И в идеале мы бы хотели делать о целях и желаниях СИИ уверенные заявления, или, ещё лучше, доказывать о них теоремы. Это, кажется, требует доказательств о «значениях» элементов этой сложной постоянно растущей модели мира. Как это сделать? Я не знаю.
См. обсуждение в Посте №14, Разделе 14.5.
В этом направлении ведётся какая-то работа в Центре Исследования Согласования, они делают замечательные вещи и нанимают на работу. (см. обсуждение ELK.) Но, насколько я знаю, прогресс тут – это тяжёлая задача, требующая новых идей, если он вообще возможен.
Я даю этому направлению исследований рейтинг приоритетности в 5 звёзд из 5. Может, оно и неосиливаемое, но если получится, то это точно будет чертовски важно. Это, в конце концов, дало бы нам полную уверенность, что мы понимаем, что СИИ пытается сделать.
Это то, чем я занимался в Постах №12 и №14. Нам надо связать всё воедино в правдоподобную схему, выяснить, чего не хватает и точно понять, как двигаться целиком. Если вы читаете эти посты, вы видите, что надо сделать ещё много всего – к примеру, нам нужен план получше для обучающих данных и окружений, и я даже не упомянул штуки вроде протоколов тестирования в песочнице. Но многие из соображений при проектировании кажутся взаимосвязанными, так что нельзя их с лёгкостью разделить на разные программы. Так что это моя категория для таких вещей.
(См. также: Подсказка по продуктивности исследований: «День Решения Всей Задачи».)
Я даю этому направлению исследований рейтинг приоритетности в 5 звёзд из 5 по очевидным причинам.
(Предупреждение: этот раздел может быстро устареть. Я пишу его в мае 2022 года.)
Если вы обеспокоены безопасностью СИИ («согласованием ИИ»), и ваша цель – помочь с этим, то крайне приятно получать финансирование от кого-то с такой же целью.
Конечно, возможно получать финансирование и из более традиционных источников, например, государственного спонсирования науки, и использовать его для продвижения безопасности СИИ. Но тогда вам придётся выстраивать компромисс между «тем, что поможет безопасности СИИ» и «тем, что впечатлит / удовлетворит источник финансирования». Мой опыт в этом указывает на то, что такие компромиссы действительно плохи. Я потратил некоторое время на исследования таких компромиссных стратегий на ранних этапах моей работы над безопасностью СИИ; я был предупреждён, что они плохи, и я всё равно очень сильно недооценил, насколько они плохи. Для иллюстрации, сначала я вёл блог про безопасность СИИ в качестве хобби в своё свободное время, зажатое между работой в полную ставку и двумя маленькими детьми, и я думаю, что это было намного полезнее, чем если бы я посвящал всё своё время лучшему доступному «компромиссному» проекту.
(Вы можете заменить «компромисс, чтобы удовлетворить мой источник финансирования» на «компромисс, чтобы удовлетворить мою диссертационную комиссию» или «компромисс, чтобы удовлетворить моего начальника» или «компромисс, чтобы заполучить впечатляющее резюме для будущей работы» по ситуации.)
В любом случае, к нашей удаче, есть множество источников финансирования, явно мотивированных безопасностью СИИ. Насколько я знаю, все они – благотворительные фонды. (Я полагаю, беспокоиться о будущем вышедшем из-под контроля СИИ – немного слишком экзотично для государственных фондов?) Финансирование технической безопасности СИИ (тема этой цепочки) последнее время быстро росло, и, кажется, сейчас это десятки миллионов долларов в год, плюс-минус в зависимости от того, что лично вы считаете за настоящую работу над технической безопасностью СИИ.
Многие, но не все озабоченные безопасность СИИ филантропы (и исследователи вроде меня) связаны с движением Эффективного Альтруизма (EA), сообществом / движением / проектом, посвящённом попыткам выяснить, как лучше сделать мир лучшим местом, а затем сделать это. Внутри EA есть крыло «лонгтермистов», состоящее из людей, исходящих из беспокойства о долгосрочном будущем, где «долгосрочное» может означать миллионы, миллиарды или триллионы лет. Лонгтермисты склонны быть особенно мотивированными предотвращением необратимых катастроф масштаба вымирания людей вроде вышедших из-под контроля СИИ, спроектированных пандемий, и т.д. Так что в кругах EA безопасность СИИ иногда считают «областью лонгтермистов», что несколько сбивает с толку, учитывая, что мы говорим о том, как предотвратить потенциальную катастрофу, которая вполне может случиться во время моей жизни (см. Обсуждение сроков в Постах №2-№3). Ну ладно.
(Это просто лёгкий юмор, никого не принижаю, на самом деле, я сам действую частично исходя из беспокойства о долгосрочном будущем.)
Связь между EA и безопасностью СИИ стала достаточно сильна, чтобы (1) одни из лучших конференций для исследователя безопасности СИИ - это EA Global / EAGx, и (2) люди начали называть меня EA, и высылать мне приглашения на их события, когда я всего лишь начал писать посты в блоге про безопасность СИИ в своё свободное время.
В любом случае, суть такова: мотивированные безопасностью СИИ источники финансирования существуют – находитесь ли вы в академической среде, в некоммерческой организации, или просто являетесь независимым исследователем (как я!). Как его получить? В большинстве случае, вам скорее всего надо сделать что-то из этого:
Что касается №2 – одна из причин, почему я написал Раздел 15.2 – я пытаюсь помочь этому процессу. Мне кажется, что по крайней мере некоторые из этих программ могут (при некотором труде) быть оформлены в хорошие конкретные перспективные заявки или предложения. Напишите мне, если думаете, что могли бы помочь, или если хотите, чтобы я держал вас в курсе возможностей.
Что касается №1 – да, делайте это!! Безопасность СИИ – захватывающая область, и она достаточна «молода», чтобы вы могли добраться до переднего фронта исследований куда быстрее, чем возможно, скажем, в физике частиц. См. следующий подраздел за ссылками на ресурсы, курсы, и т.д. Или, полагаю, вы можете обучиться области, если будете читать писать много постов и комментариев на эту тему в своё свободное время, как поступил я.
Кстати, это правда, что некоммерческий сектор в целом имеет репутацию скудных бюджетов и недооплачиваемых перерабатывающих сотрудников. Но финансируемая филантропами работа над безопасностью СИИ обычно не такая. Спонсоры хотят лучших людей, даже если они сильно погружены в свои карьеры и ограничены арендной платой, повседневными затратами, и т.д. – как я! Так что было мощное движение в сторону зарплат, сравнимых с коммерческим сектором, особенно в последнюю пару лет.
Много ссылок можно найти на так и озаглавленной странице AI Safety Support Lots-of-Links, а более часто обновляемый список можно найти тут: «стартовый набор по безопасности ИИ». Отмечу пару особенно важных пунктов:
В: Есть ли место сбора и обсуждений конкретно «безопасности подобного-мозгу СИИ» (или тесно связанной «безопасности СИИ, базирующегося на основанном на модели обучении с подкреплением»)?
О: Насколько я знаю, нет. И я не вполне уверен, что должны, это очень сильно пересекается с другими направлениями исследований в безопасности СИИ.
(Ближайшее, наверное, это дискорд-сервер про так называемую «теорию осколков» (shard theory), можете написать мне, чтобы получить ссылку)
В: Есть ли такое для пересечения нейробиологии / психологии и безопасности СИИ / согласования ИИ?
О: Есть канал «нейробиология и психология» в Slack-е AI Safety Support. Вы можете ещё присоединиться к рассылке PIBBSS, на случай, если это ещё повторится в будущем.
Если вы хотите увидеть больше разных точек зрения на пересечение нейробиологии и безопасности СИИ, попробуйте почитать статьи Каджа Соталы; Сета Херда, Дэвида Джилка, Рэндалла О’Райли и пр.; Гопала Сармы и Ника Хэя; Патрика Бутлина; Яна Кулвейта, и другие статьи тех же авторов, и многих других, кого я забыл.
(Я сам, если что, пришёл из физики, не из нейробиологии – на самом деле, я не знал практически ничего из нейробиологии ещё в 2019. Я заинтересовался нейробиологией, чтобы ответить на мучавшие меня вопросы из безопасности СИИ, не наоборот.)
В: Эй, Стив, могу я работать с тобой?
О: Хоть я сейчас не заинтересован в том, чтобы кого-нибудь нанимать или наставлять, я всегда рад кооперироваться и обмениваться информацией. У нас много работы! Напишите мне, если хотите поговорить!
Спасибо за чтение! Я надеюсь, что этой цепочкой я успешно передал следующее:
Что касается меня, я собираюсь продолжать работать над различными направлениями исследований из Раздела 15.2 выше; для получения новостей подпишитесь на мой Твиттер или RSS, или проверяйте мой сайт. Я надеюсь, вы тоже рассмотрите вариант помочь, потому что я тут прыгаю чертовски выше головы!
Спасибо за чтение, и, ещё раз, комментарии тут – для общих обсуждений и вопросов о чём угодно.
В классических моделях, предполагается, что рациональный агент:
В статье приведен неформальный обзор препятствий, которые мешают формализовать хорошие принципы принятия решений для агентов, находящихся внутри оптимизируемого ими мира,агентов вложенных в мир. Такие агенты должны оптимизировать не какую-то функцию, а состояние мира. Такие агенты должны использовать модели, которые входят в моделируемое пространство. Должны размышлять о себе как о просто ещё одной физической системе, сделанной из тех же составных частей что и остальной мир, частей, которые можно модифицировать и использовать в различных целях.
Содержание:
Примечание переводчика - из-за отсутствия на сайте нужного класса для того, чтобы покрасить текст в оранжевый цвет, я заменил его фиолетовым. Фиолетовый в тексте соответствует оранжевому на картинках.
Предположим, вы хотите создать робота, чтобы он для вас достиг некоей цели в реальном мире – цели, которая требует у робота обучаться самостоятельно и выяснить много того, чего вы пока не знаете.
Это запутанная инженерная задача. Но есть ещё и задача выяснения того, что вообще означает создать такого обучающегося агента. Что такое – оптимизировать реалистичные цели в физическом окружении? Говоря обобщённо – как это работает?
В этой серии постов я покажу четыре стороны нашего непонимания того, как это работает, и четыре области активного исследования, направленных на выяснение этого.
Вот Алексей, он играет в компьютерную игру.
Как в большинстве игр, в этой есть явные потоки ввода и вывода. Алексей наблюдает игру только посредством экрана компьютера и манипулирует игрой только посредством контроллера.
Игру можно считать функцией, которая принимает последовательность нажатия кнопок и выводит последовательность пикселей на экране.
Ещё Алексей очень умён и способен удерживать в своей голове всю компьютерную игру. Если у Алексея и есть неуверенность, то она касается только эмпирических фактов вроде того, в какую игру он играет, а не логических фактов вроде того, какой ввод (для данной детерминированной игры) приведёт к какому выводу. Это означает, что Алексей должен хранить в своей голове ещё и каждую возможную игру, в которую он может быть играет.
Алексею, однако, нет нужды думать о самом себе. Он оптимизирует только игру, в которую он играет, и не оптимизирует мозг, который он использует, чтобы думать об игре. Он всё ещё может выбирать действия, основываясь на ценности информации, но только чтобы помочь себе сузить набор возможных игр, а не чтобы изменить то, как он думает.
На самом деле, Алексей может считать себя неизменяемым неделимым атомом. Раз он не существует в окружении, о котором он думает, Алексей не беспокоится о том, изменится ли он со временем или о подпроцессах, которые ему может понадобиться запустить.
Заметим, что все свойства, о которых я говорил, становятся возможны в частности благодаря тому, что Алексей чётко отделён от окружения, которое он оптимизирует.
Вот Эмми, она играет в реальность.
Реальность не похожа на компьютерную игру. Разница в основном вызвана тем, что Эмми находится в окружении, которое пытается оптимизировать.
Алексей видит вселенную как функцию и оптимизирует, выбирая для этой функции ввод, приводящий к более высокому вознаграждению, чем иные возможные вводы, которые он мог бы выбрать. У Эмми, напротив, нет функции. У неё есть лишь окружение, и оно её содержит.
Эмми хочет выбрать лучшее возможное действие, но то, какое действие Эмми выберет – это просто ещё один факт об окружении. Эмми может рассуждать о той части окружения, которая является её решением, но раз Эмми в итоге на самом деле выберет только одно действие, неясно, что вообще значит для Эмми «выбирать» действие, лучшее, чем остальные.
Алексей может потыкать в вселенную и посмотреть, что произойдёт. Эмми – это вселенная, тыкающая себя. Как нам в случае Эмми вообще формализовать идею «выбора»?
Мало того, раз Эмми содержится в окружении, Эмми ещё и должна быть меньше, чем окружение. Это означает, что Эмми не способна хранить в своей голове детальные точные модели окружения.
Это приводит к проблеме: Байесовские рассуждения работают, начиная с большого набора возможных окружений, и, когда вы наблюдаете факты, несовместимые с некоторыми из этих окружений, вы эти окружения отвергаете. На что похожи рассуждения, когда вы неспособны хранить даже одну обоснованную гипотезу о том, как работает мир? Эмми придётся использовать иной вид рассуждений, и совершать поправки, не вписывающиеся в стандартный Байесовский подход.
Раз Эмми находится внутри окружения, которым она манипулирует, она также будет способна на самоулучшение. Но как Эмми может быть уверена, что пока она находит и выучивает всё больше способов улучшить себя, она будет менять себя только действительно полезными способами? Как она может быть уверена, что она не модифицирует свои изначальные цели нежелательным образом?
Наконец, раз Эмми содержится в окружении, она не может считать себя подобной атому. Она состоит из тех же частей, что и остальное окружение, из-за чего она и способна думать о самой себе.
В дополнение к угрозам внешнего окружения, Эмми будет беспокоиться и об угрозах, исходящих изнутри. В процессе оптимизации Эмми может запускать другие оптимизаторы как подпроцессы, намеренно или ненамеренно. Эти подсистемы могут вызывать проблемы, если они становятся слишком мощными и не согласованными с целями Эмми. Эмми должна разобраться, как рассуждать, не запуская разумные подсистемы, или разобраться, как удерживать их слабыми, контролируемыми или полностью согласованными с её целями.
Эмми в замешательстве, так что давайте вернёмся к Алексею. Подход AIXI Маркуса Хаттера предоставляет хорошую теоретическую модель того, как работают агенты вроде Алексея:
$$a_{k}:=argmax_{a_{k}}\sum_{o_{k}r_{k}}…max_{a_{m}}\sum_{o_{m}r_{m}}[r_{k}+…+r{m}]\sum_{q:U(1,a_{1}…a_{m})=o_{1}r_{1}…o_{m}r_{m}}2^{-l(q)}$$
В этой модели есть агент и окружение, взаимодействующие посредством действий, наблюдений и вознаграждений. Агент посылает действие a, а потом окружение посылает наружу и наблюдение o, и вознаграждение r. Этот процесс повторяется в каждый момент k…m.
Каждое действие – функция всех предыдущих троек действие-наблюдение-вознаграждение. И каждое наблюдение и каждое вознаграждение аналогично является функцией этих троек и последнего действия.
Вы можете представить, что при этом подходе агент обладает полным знанием окружения, с которым он взаимодействует. Однако, AIXI используется, чтобы смоделировать оптимизацию в условиях неуверенности в окружении. AIXI обладает распределением по всем возможным вычислимым окружениям q, и выбирает действия, ведущие к высокому ожидаемому вознаграждению согласно этому распределению. Так как его интересует и будущее вознаграждение, это может привести к исследованию из-за ценности информации.
При некоторых допущениях можно показать, что AIXI довольно хорошо работает во всех вычислимых окружениях несмотря на неуверенность. Однако, хоть окружения, с которыми взаимодействует AIXI, вычислимы, сам AIXI невычислим. Агент состоит из чего-то другого рода, чего-то более мощного, чем окружение.
Мы можем назвать агентов вроде AIXI и Алексея «дуалистичными». Они существуют снаружи своего окружения и составляющие агента взаимодействуют с составляющими окружения исключительно ограниченным множеством установленных способов. Они требуют, чтобы агент был больше окружения, и не склонны к самореферентным рассуждениям, потому что агент состоит из чего-то совсем другого, чем то, о чём он рассуждает.
AIXI не одинок. Эти дуалистические допущения показываются во всех наших нынешних лучших теориях рациональной агентности.
Я выставил AIXI как что-то вроде фона, из AIXI можно и черпать вдохновение. Когда я смотрю на AIXI, я чувствую, что я действительно понимаю, как работает Алексей. Таким же пониманием я хочу обладать и об Эмми.
К сожалению, Эмми вводит в замешательство. Когда я говорю о желании получить теорию «встроенной агентности», я имею в виду, что я хочу быть способен теоретически понимать, как работают такие агенты, как Эмми. То есть, агенты, встроенные внутрь своего окружения, а следовательно:
Не стоит думать об этих четырёх трудностях как об отдельных. Они очень сильно переплетены друг с другом.
К примеру, причина, по которой агент способен на самоулучшение – то, что он состоит из частей. И если окружение значительно больше агента, оно может содержать другие его копии, что отнимает у нас хорошо определённые каналы ввода/вывода.
Однако, я буду использовать эти четыре трудности как мотивацию разделения темы встроенной агентности на четыре подзадачи. Это: теория принятия решений, встроенные модели мира, устойчивое делегирование, и согласование подсистем.
Теория принятия решений вся про встроенную оптимизацию.
Простейшая модель дуалистичной оптимизации - это argmax. argmax принимает функцию из действий в вознаграждения, и возвращает действие, ведущее к самому высокому вознаграждению согласно этой функции. Большую часть оптимизации можно рассматривать как вариацию этого. У вас есть некое пространство; у вас есть функция из этого пространства на некую шкалу, вроде вознаграждения или полезности; и вы хотите выбрать ввод, который высоко оценивается этой функцией.
Но мы только что сказали, что большая часть того, что значит быть встроенным агентом – это что у вас нет функционального окружения. Так что нам делать? Оптимизация явно является важной частью агентности, но мы пока даже теоретически не можем сказать, что это такое, не совершая серьёзных ошибок типизации.
Некоторые крупные открытые задачи в теории принятия решений:
Встроенные модели мира о том, как вы можете составлять хорошие модели мира, способные поместиться внутри агента, который куда меньше мира.
Известно, что это очень сложно – во-первых, потому что это означает, что настоящая вселенная не находится в вашем пространстве гипотез, что разрушает многие теоретические гарантии; а во-вторых, потому что это означает, что, обучаясь, мы будем совершать не-Байесовские поправки, что тоже рушит кучу теоретических гарантий.
Ещё это о том, как создавать модели мира с точки зрения находящегося внутри него наблюдателя, и вытекающих проблем вроде антропного принципа. Некоторые крупные открытые задачи о встроенных моделях мира:
Устойчивое делегирование – про специальный вид задачи принципала-агента. У вас есть исходный агент, который хочет создать более умного наследника для помощи в оптимизации его целей. Исходный агент обладает всей властью, потому что он решает, что в точности агент-наследник будет делать. Но в другом смысле агент-наследник обладает всей властью, потому что он намного, намного умнее.
С точки зрения исходного агента, вопрос в создании наследника, который устойчиво не будет использовать свой интеллект против тебя. С точки зрения агента-наследника, вопрос в «Как тебе устойчиво выяснить и уважать цели чего-то тупого, легко манипулируемого и даже не использующего правильную онтологию?»
Ещё есть дополнительные проблемы, вытекающие из Лёбова препятствия, делающие невозможным постоянное доверие тому, что намного могущественнее тебя.
Можно думать об этих задачах в контексте агента, который просто обучается со временем, или в контексте агента, совершающего значительное самоулучшение, или в контексте агента, который просто пытается создать мощный инструмент.
Некоторые крупные открытые задачи устойчивого делегирования:
Согласование подсистем – о том, как быть одним объединённым агентом, не имеющим подсистем, сражающихся с тобой или друг с другом.
Когда у агента есть цель, вроде «спасти мир», он может потратить большое количество своего времени на мысли о подцели, вроде «заполучить денег». Если агент запускает субагента, который пытается лишь заполучить денег, то теперь есть два агента с разными целями, и это приводит к конфликту. Субагент может предлагать планы, которые выглядят так, будто они только приносят деньги, но на самом деле они уничтожают мир, чтобы заполучить ещё больше денег.
Проблема такова: вам не просто надо беспокоиться о субагентах, которых вы запускаете намеренно. Вам надо беспокоится и о ненамеренном запуске субагентов. Каждый раз, когда вы проводите поиск или оптимизацию по значительно большому пространству, которое может содержать агентов, вам надо беспокоится, что в самом пространстве тоже проводится оптимизация. Эта оптимизация может не в точности соответствовать оптимизации, которую пытается провести внешняя система, но у неё будет инструментальная мотивация выглядеть, будто она согласована.
Много оптимизации на практике использует передачу ответственности такого рода. Вы не просто находите решение, вы находите что-то, что само может искать решение.
В теории, я вовсе не понимаю, как оптимизировать иначе, кроме как методами, выглядящими вроде отыскивания кучи штук, которых я не понимаю, и наблюдения, не исполнят ли они мою цель. Но это в точности то, что наиболее склонно к запуску враждебных подсистем.
Большая открытая задача в согласовании подсистем – как сделать, чтобы оптимизатор базового уровня не запускал враждебные оптимизаторы. Можно разбить эту задачу на рассмотрение случаев, когда оптимизаторы получаются намеренно и ненамеренно, и рассмотреть ограниченные подклассы оптимизации, вроде индукции.
Но помните: теория принятия решений, встроенные модели мира, устойчивое делегирование и согласование подсистем – не четыре отдельных задачи. Они все разные подзадачи единого концепта встроенной агентности.
Вторая часть: Теория принятия решений.
Примечание переводчика - из-за отсутствия на сайте нужного класса для того, чтобы покрасить текст в оранжевый цвет, я заменил его фиолетовым. Фиолетовый в тексте соответствует оранжевому на картинках.
Теория принятия решений и искусственный интеллект обычно пытаются вычислить что-то напоминающее
$$argmax_{a \in Actions}f(a)$$
Т.е. максимизировать некую функцию от действия. Тут предполагается, что мы можем в достаточной степени распутывать вещи, чтобы видеть исходы как функции действий.
К примеру, AIXI отображает агента и окружение как отдельные единицы, взаимодействующие во времени посредством чётко определённых каналов ввода/вывода, так что он может выбирать действия, максимизирующие вознаграждение.
Когда модель агента – часть модели окружения, становится куда менее ясно, как рассматривать исполнение альтернативных действий.
К примеру, раз агент меньше окружения, могут существовать другие копии агента, или что-то, очень похожее на агента. Это приводит к вызывающим споры задачам теории принятия решений, таким как Дилемма Заключённых Близнецов и задача Ньюкомба.
Если Эмми Модель 1 и Эмми Модель 2 имеют один и тот же опыт и исполняют один и тот же исходный код, то должна ли Эмми Модель 1 действовать, будто её решения направляют обоих роботов сразу? В зависимости от того, как вы проведёте границу вокруг «себя», вы можете думать, что контролируете действия обеих копий, или только свои.
Это частный случай проблемы контрфактуальных рассуждений: как нам оценивать гипотетические предположения вроде «Что, если бы солнце внезапно погасло?»
Задача адаптации теории принятия решений к встроенным агентам включает:
Самый центральный пример того, почему агентам надо думать о контрфактах, касается контрфактов об их собственных действиях.
Сложность с контрфактуальными действиями можно проиллюстрировать задачей пять-и-десять. Предположим, у нас есть вариант взять пятидолларовую купюру или десятидолларовую, и всё, что нас волнует в этой ситуации – сколько денег мы получим. Очевидно, нам следует взять \$10.
Однако, надёжно брать \$10 не так просто, как кажется.
Если вы рассуждаете о себе просто как о ещё одной части окружения, то вы можете знать своё собственное поведение. Если вы можете знать своё собственное поведение, то становится сложно рассуждать о том, что бы случилось, если бы вы повели себя по-другому.
Это вставляет палки в колёса многих обычных методов рассуждений. Как нам формализовать идею «Взять \$10 приводит к хорошим последствиям, а взять \$5 приводит к плохим последствиям», если значительно богатое знание себя вскрывает, что один из этих сценариев внутренне противоречив?
А если мы не можем так формализовать никакую идею, то каким образом агенты в реальном мире всё равно догадываются взять \$10?
Если мы попробуем вычислить ожидаемую полезность наших действий обычным Байесовским способом, то знание своего собственного поведения приводит к ошибке деления на ноль, когда мы пытаемся вычислить ожидаемую полезность действий, которые мы не выбрали: $¬A$, следовательно $P(A)=0$, следовательно $P(B\&A)=0$, следовательно
$$P(B|A)=\frac{P(B\&A)}{P(A)}=\frac{0}{0}$$
Из-за того, что агент не знает, как отделить себя от окружения, у него заедают внутренние шестерни, когда он пытается представить, как он совершает другое действие.
Но самое большое затруднение вытекает из Теоремы Лёба, которая может заставить в агента, выглядящего в остальном разумно, взять \$5, потому что «Если я возьму \$10, я получу \$0»! И это будет стабильно 0 – проблема не решается тем, что агент обучается или больше о ней думает.
В это может быть сложно поверить; так что давайте посмотрим на детализированный пример. Явление можно проиллюстрировать поведением простых основанных-на-логике агентов, рассуждающих о задаче пять-и-десять.
Рассмотрим такой пример:
У нас есть исходный код агента и вселенной. Они могут рекурсивно ссылаться на код себя и друг друга. Вселенная простая – она просто выводит то, что выводит агент.
Агент тратит много времени в поисках доказательств о том, что произойдёт, если он предпримет различные действия. Если для неких $x$ и $y$, которые могут быть равны 0, 5, или 10, он найдёт доказательство того, что взятие 5 приводит к $x$ полезности, а взятие 10 приводит к $y$ полезности, и что $x>y$, то он, естественно, возьмёт 5. Мы ожидаем, что он не найдёт такого доказательства, и вместо этого выберет действие по умолчанию, взяв 10.
Это кажется простым, когда вы просто представляете агента, который пытается рассуждать о вселенной. Но оказывается, что если время, потраченное на поиск доказательств достаточно велико, то агент будет всегда выбирать 5!
Это доказывается через теорему Лёба. Теорема Лёба гласит, что для любого высказывания $P$, если вы можете доказать, что из доказательства $P$ следовала бы истинность $P$, то тогда вы можете доказать $P$. Формальная запись, где «$□X$» означает «$X$ доказуемо»:
$$□(□P→P)→□P$$
В данной мной версии задачи пять-и-десять, «$P$» – это утверждение «если агент возвращает 5, то вселенная возвращает 5, а если агент возвращает 10, то вселенная возвращает 0».
Если предположить, что оно истинно, то агент однажды найдёт доказательство и действительно вернёт 5. Это сделает высказывание истинным, ведь агент возвращает 5, и вселенная возвращает 5, а то, что агент возвращает 10 – ложно. А из ложных предпосылок вроде «агент возвращает 10» следует всё, что угодно, включая то, что вселенная возвращает 0.
Агент может (при наличии достаточного времени) доказать всё это, а в этом случае агент действительно докажет «если агент возвращает 5, то вселенная возвращает 5, а если агент возвращает 10, то вселенная возвращает 0». И как результат, агент возьмёт \$5.
Мы называем это «поддельным доказательством»: агент берёт \$5, потому что он может доказать, что, если он возьмёт \$10, ценность будет низка, потому что он берёт \$5. Это звучит неправильно, но, к сожалению, это логически корректно. В более общем случае, работая в менее основанных на доказательствах обстановках, мы называем это проблемой поддельных контрфактов.
Общий шаблон такой: контрфакты могут поддельно отмечать действия как не слишком хорошее. Это заставляет ИИ не выбирать это действие. В зависимости от того, как контрфакты работают, это может убрать любую обратную связь, которая могла бы «исправить» проблематичный контрфакт; или, как мы видели с рассуждением, основанным на доказательствах, это может активно помогать поддельным контрфактам быть «истинными».
Замечу, что раз основанные на доказательствах примеры для нас значительно интересны, «контрфакты» должны на самом деле быть контрлогическими; нам иногда надо рассуждать о логически невозможных «возможностях». Это делает неподходящими самые впечатляющие достижения рассуждений о контрфактах.
Вы можете заметить, что я немного считерил. Единственным, что сломало симметрию и привело к тому, что агент взял \$5, было то, что это было действием, предпринимаемым в случае нахождения доказательства, а «10» было действием по умолчанию. Мы могли бы вместо этого рассмотреть агента, который ищет доказательство о том, какое действие приводит к какой полезности, и затем совершает действие, которое оказалось лучше. Тогда выбранное действие зависит от того, в каком порядке мы ищем доказательства.
Давайте предположим, что мы сначала ищем короткие доказательства. В этом случае мы возьмём \$10, потому что очень легко показать, что $A()=5$ приведёт к $U()=5$, а $A()=10$ приведёт к $U()=10$.
Проблема в том, что поддельные доказательства тоже могут быть короткими и не становятся сильно длиннее, когда вселенная становится сложнее для предсказания. Если мы заменим вселенную такой, доказываемая функциональность которой такая же, но её сложнее предсказать, то кратчайшее доказательство обойдёт её сложное устройство и будет поддельным.
Люди часто пытаются решить проблему контрфактов, предполагая, что всегда будет некоторая неуверенность. ИИ может идеально знать свой исходный код, но он не может идеально знать «железо», на котором он запущен.
Решает ли проблему добавление небольшой неуверенности? Зачастую нет:
Рассмотрим такой сценарий: Вы уверены, что почти всегда выбираете пойти налево. Однако, возможно (хоть и маловероятно), что космический луч повредит ваши схемы, в каком случае вы можете пойти направо – но тогда вы сойдёте с ума, что приведёт к множеству других плохих последствий.
Если само это рассуждение – причина того, что вы всегда идёте налево, то всё уже пошло не так.
Просто удостовериться, что у агента есть некоторая неуверенность в своих действиях, недостаточно, чтобы удостовериться, что контрфактуальные ожидания агента будут хоть отдалённо осмысленны. Однако, то, что можно попробовать вместо этого – это удостовериться, что агент действительно выбирает каждое действие с некоторой вероятностью. Эта стратегия называется ε-исследование.
ε-исследование уверяет, что если агент играет в схожие игры достаточно много раз, то он однажды научится реалистичным контрфактам (без учёта реализуемости, до которой мы доберёмся позже).
ε-исследование работает только если есть гарантия, что сам агент не может предсказать, будет ли он ε-исследовать. На самом деле, хороший способ реализовать ε-исследование – воспользоваться правилом «если агент слишком уверен, какое действие совершит, совершить другое».
С логической точки зрения непредсказуемость ε-исследования – то, что предотвращает рассмотренные нами проблемы. С точки зрения теоретического обучения, если бы агент мог знать, что он не собирается исследовать, то он трактовал бы это как отдельный случай – и не смог бы обобщить уроки от исследования. Это возвращает нас к ситуации, в которой у нас нет никаких гарантий, что агент научится хорошим контрфактам. Исследование может быть единственным источником данных о некоторых действиях, так что нам надо заставить агента учитывать эти данные, или он может не обучиться.
Однако, кажется даже ε-исследование не решает всё. Наблюдение результатов ε-исследования показывает вам, что произойдёт, если вы предпримете действие непредсказуемо; последствия выбора этого действия в обычном случае могут быть иными.
Предположим, вы ε-исследователь, который живёт в мире ε-исследователей. Вы нанимаетесь на работу сторожем, и вам надо убедить интервьюера, что вы не такой человек, который бы сбежал, прихватив то, что сторожит. Они хотят нанять кого-то, достаточно честного, чтобы не врать и не воровать, даже считая, что это сойдёт с рук.
Предположим, что интервьюер изумительно разбирается в людях – или просто имеет доступ к вашему исходному коду.
В этой ситуации кража может быть замечательным вариантом как действие ε-исследования, потому что интервьюер может быть неспособен её предсказать, или может не считать, что одноразовую аномалию имеет смысл наказывать.
Но кража – явно плохая идея как нормальное действие, потому что вас будут считать куда менее надёжным и достойным доверия.
Если мы не обучаемся контрфактам из ε-исследования, то кажется, что у нас вовсе нет гарантии обучиться реалистичным контрфактам. Но если мы обучаемся из ε-исследования, то кажется, что мы всё равно в некоторых случаях делаем всё неправильно.
Переключение в вероятностную обстановку не приводит к тому, что агент надёжно делает «осмысленные» выборы, насильное исследование – тоже.
Но написать примеры «правильных» контрфактуальных рассуждений не кажется сложным при взгляде снаружи!
Может, это потому, что «снаружи» у нас всегда дуалистическая точка зрения. Мы на самом деле сидим снаружи задачи, и мы определили её как функцию агента.
Однако, агент не может решить задачу тем же способом изнутри. С его точки зрения его функциональное отношение с окружением – не наблюдаемый факт. В конце концов, потому контрфакты и называются «контрфактами».
Когда я рассказал вам о задаче пять-и-десять, я сначала рассказал о задаче, а затем выдал агента. Когда один агент не работает, мы можем рассмотреть другого.
Обнаружение способа преуспеть с задачей принятия решений включает нахождение агента, который, если его вставить в задачу, выберет правильное действие. Тот факт, что мы вообще рассматриваем помещение туда разных агентов, означает, что мы уже разделили вселенную на часть «агента» и всю остальную вселенную с дыркой для агента – а это большая часть работы!
Тогда не обдурили ли мы себя тем, как поставили задачи принятия решений? «Правильных» контрфактов не существует?
Ну, может быть мы действительно обдурили себя. Но тут всё ещё есть что-то, приводящее нас в замешательство! Утверждение «Контрфакты субъективны и изобретаются агентом» не развеивает тайну. Есть что-то, что в реальном мире делают интеллектуальные агенты для принятия решений.
Итак, я не говорю об агентах, которые знают свои собственные действия, потому что я думаю, что с разумными машинами, выводящими свои будущие действия, будет большая проблема. Скорее, возможность знания своих собственных действий иллюстрирует что-то непонятное об определении последствий своих действий – замешательство, которое всплывает даже в очень простом случае, где всё о мире известно и просто нужно выбрать самую большую кучу денег.
При всём этом, у людей, кажется, выбор \$10 не вызывает никаких трудностей.
Можем ли мы черпать вдохновение из того, как люди принимают решения?
Ну, предположим, что вас действительно попросили выбрать между \$10 и \$5. Вы знаете, что возьмёте \$10. Как вы рассуждаете о том, что бы произошло, если бы вы вместо этого взяли \$5?
Это кажется легко, если вы можете отделить себя от мира, так что вы думаете только о внешних последствиях (получении \$5).
Если вы думаете ещё и о себе, то контрфакт начинает казаться несколько более странным и противоречивым. Может, у вас будет какое-нибудь абсурдное предсказание о том, каким был бы мир, если бы вы выбрали \$5 – вроде «Я должен был бы быть слепым!»
Впрочем, всё в порядке. В конце концов вы всё равно видите, что взятие \$5 привело бы к плохим последствиям, и вы всё ещё берёте \$10, так что у вас всё хорошо.
Проблема для формальных агентов в том, что агент может находиться в похожем положении, кроме того, что он берёт \$5, знает, что он берёт \$5, и не может понять, что ему вместо этого следует брать \$10, из-за абсурдных предсказаний, которые он делает о том, что происходит, когда он берёт \$10.
Для человека кажется трудным оказаться в подобной ситуации; однако, когда мы пытаемся написать формального проводящего рассуждения агента, мы продолжаем натыкаться на проблемы такого рода. Так что в самом деле получается, что человеческое принятие решений делает что-то, чего мы пока не понимаем.
Если вы – встроенный агент, то вы должны быть способны мыслить о себе, точно так же, как и о всём остальном в окружении. И другие обладатели способностью к рассуждению в вашем окружении тоже должны быть способны мыслить о вас.
Из задачи пять-и-десять мы увидели, насколько всё может стать запутанным, когда агент знает своё действие до того, как действует. Но в случае встроенного агента этого сложно избежать.
Особенно сложно не знать своё собственное действие в стандартном Байесовским случае, подразумевающем логическое всеведенье. Распределение вероятностей присваивает вероятность 1 любому логически истинному факту. Так что если Байесовский агент знает свой собственный исходный код, то он должен знать своё собственное действие.
Однако, реалистичные агенты, не являющиеся логически всеведущими, могут наткнуться на ту же проблему. Логическое всеведенье точно к ней приводит, но отказ от логического всеведенья от неё не избавляет.
ε-исследование во многих случаях кажется решающим проблему, удостоверяясь, что у агентов есть неуверенность в собственных выборах, и что то, что они ожидают, базируется на опыте.
Однако, как мы видели в примере сторожа, даже ε-исследование, кажется, неверно нас направляет, когда результаты случайного исследования отличаются от результатов надёжных действий.
Случаи, в которых всё может пойти не так таким образом, кажется, включают другую часть окружения, которая ведёт себя подобно вам – другой агент, очень на вас похожий, или достаточно хорошая модель или симуляция вас. Это называется Ньюкомбоподобными задачами; пример – Дилемма Заключённых Близнецов, упомянутая выше.
Если задача пять-и-десять касается выделения вас как части мира так, чтобы мир можно было считать функцией от вашего действия, то Ньюкомбоподобные задачи – о том, что делать, если приблизительно подобных вам частей мира несколько.
Есть идея, что точные копии следует считать находящимися на 100% под вашим «логическим контролем». Для приблизительных копий вас или всего лишь похожих агентов, контроль должен резко падать по мере снижения логической корреляции. Но как это работает?
Ньюкомбоподобные задачи сложны по почти той же причине, что и ранее обсуждённые проблемы самореференции: предсказание. Стратегиями вроде ε-исследования мы пытались ограничить знания агента о себе, пытаясь избежать проблем. Но присутствие мощных предсказателей в окружении вводит проблему заново. Выбирая, какой информацией делиться, предсказатели могут манипулировать агентом и выбирать его действия за него.
Если есть что-то, что может вас предсказывать, то оно может сказать вам своё предсказание, или связанную информацию, а в этом случае важно, что вы сделаете в ответ на разные вещи, которые вы можете узнать.
Предположим, вы решаете делать противоположное тому, что вам сказали, чем бы это ни было. Тогда этот сценарий был невозможен изначально. Либо предсказатель всё же не точный, либо предсказатель не поделился с вами своим предсказанием.
С другой стороны, предположим, что есть некая ситуация, в которой вы действуете как предсказано. Тогда предсказатель может контролировать, как вы себя поведёте, контролируя то, какое предсказание вам рассказать.
Так что, с одной стороны, мощный предсказатель может контролировать вас, выбирая между внутренне непротиворечивыми возможностями. С другой стороны, изначально всё же вы выбираете свои паттерны реагирования. Это означает, что вы можете настроить их для своего преимущества.
Пока что мы обсуждали контрфактуальные действия – как предсказать последствия различных действий. Обсуждение контролирования своих реакций вводит контрфактуальные наблюдения – представление, как выглядел бы мир, если бы наблюдались иные факты.
Даже если никто не сообщает вам предсказаний о вашем будущем поведении, контрфактуальные наблюдения всё ещё могут играть роль в принятии верных решений. Рассмотрим такую игру:
Алиса получает случайную карту – либо туза, либо двойку. Она может объявить, что это за карта (только истинно), если хочет. Затем Боб выдаёт вероятность $p$, того, что у Алисы туз. Алиса всегда теряет $p^{2}$ долларов. Боб теряет $p^{2}$, если карта – двойка, и $(1−p)^{2}$, если карта – туз.
У Боба подходящее правило оценивания, чтобы ему лучше всего было выдавать его настоящую вероятность. Алиса просто хочет, чтобы оценка Боба как можно больше склонялась к двойке.
Предположим, Алиса играет только один раз. Она видит двойку. Боб способен хорошо рассуждать об Алисе, но находится в другой комнате, так что не может считывать невербальные подсказки. Следует ли Алисе объявить свою карту?
Раз у Алисы двойка, то если она объявит об этом Бобу, то она не потеряет денег – лучший возможный исход. Однако, это означает, что в контрфактуальном мире, где Алиса видит туза, она не может оставить это в секрете – она могла бы с тем же успехом показать карту и в этом случае, поскольку её нежелание сделать это является настолько же надёжным сигналом «туз».
С одной стороны, если Алиса не показывает свою карту, она теряет 25¢ – но тогда она может применить ту же стратегию и в другом мире, а не терять \$1. Так что до начала игры Алиса хотела бы явно дать обязательство не объявлять карту: это приводит к ожидаемым потерям в 25¢, а другая стратегия – к 50¢. Учитывая контрфактуальные наблюдения Алиса получает способность хранить секреты – а без этого Боб мог бы идеально вывести её карту из её действий.
Это игра эквивалентна задаче принятия решений, которая называется контрфактуальное ограбление.
Необновимая Теория Принятия Решений (UDT) – предлагаемая теория, позволяющая хранить секреты в такой игре. UDT делает это, рекомендуя агенту делать то, что казалось бы наиболее мудрым заранее – то, что ранняя версия себя обязалась бы делать.
Заодно UDT ещё и хорошо справляется с Ньюкомбоподобными задачами.
Может ли что-то вроде UDT быть связанным с тем, что, хоть и только неявно, делают люди, чтобы приходить к хорошим результатам задач принятия решений? Или, если нет, может ли она всё равно быть хорошей моделью для рассуждений о принятии решений?
К сожалению, тут всё ещё есть довольно глубокие сложности. UDT – элегантное решение к довольно широкому классу задач, но имеет смысл только в случае, когда ранняя версия себя может предвидеть все возможные ситуации.
Это хорошо работает в Байесовском случае, содержащем все возможности в априорной оценке. Однако в реалистичном встроенном случае сделать это может быть невозможно. Агент должен быть способен думать о новых возможностях – а значит, ранняя версия себя не знала достаточно, чтобы принять все решения.
И тут мы напрямую сталкиваемся с проблемой встроенных моделей мира.
Агент, больший, чем своё окружение, может:
Всё это – типичные понятия рациональной агентности.
Встроенный агент ничего из этого не может, по крайней мере, не напрямую.
Одна из сложностей в том, что раз агент – часть окружения, моделирование окружения во всех деталях требовало бы от агента моделирования себя во всех деталях, для чего модель себя внутри агента должна была бы быть настолько же «большой», как весь агент. Агент не может поместиться в своей собственной голове.
Недостаток чётких границ между агентом и окружением заставляет нас сталкиваться с парадоксами самореференции. Как будто отображение всего остального мира было недостаточно тяжело.
Встроенные Модели Мира должны отображать мир более подходящим для встроенных агентов способом. Задачи из этого кластера включают:
В Байесовском случае, когда неуверенность агента количественно описывается распределением вероятности по возможным мирам, типичное допущение – «реализуемость»: что настоящее, лежащее в основе наблюдений, окружение имеет хоть какую-то априорную вероятность.
В теории игр то же свойство описывается как изначальное обладание «зерном истины». Впрочем, следует заметить, что в теоретикоигровой обстановке есть дополнительные препятствия для получения этого свойства; так, что при обычном словоупотреблении «зерно истины» требовательно, а «реализуемость» подразумевается.
Реализуемость не вполне обязательна для того, чтобы Байесовские рассуждения имели смысл. Если вы думаете о наборе гипотез, как об «экспертах», а о нынешней апостериорной вероятности – как о том, насколько вы «доверяете» каждому эксперту, то обучение согласно Закону Байеса, $P(h|e)=/frac{P(e|h)P(h)}{P(e)}$, обеспечивает свойство ограниченных относительных потерь.
Конкретно, если вы используете априорное распределение π, то вы хуже в сравнении с каждым экспертом $h$ не более чем на $log(π(h))$, поскольку последовательности свидетельств $e$ вы присваиваете вероятность не меньше, чем $π(h)h(e)$. $π(h)$ – это ваше изначальное доверие эксперту $h$, а в каждом случае, когда он хоть немного более прав, чем вы, вы соответственно увеличиваете своё доверие образом, обеспечивающим, что вы присвоите эксперту вероятность 1, а, значит, скопируете его в точности до того, как потеряете относительно него более чем $log(π(h))$.
Априорное распределение AIXI основывается на распределении Соломонова. Оно определено как вывод универсальной машины Тьюринга (УМТ), чей ввод определяется бросками монетки.
Другими словами, скормим УМТ случайную программу. Обычно считается, что УМТ может симулировать детерминированные машины. Однако, в этом случае, исходный ввод может проинструктировать УМТ использовать остаток бесконечной ленты ввода как источник случайности, чтобы симулировать стохастическую машину Тьюринга.
Комбинируя это с предыдущей идеей о рассмотрении Байесовского обучения как о способе назначать «доверие» «экспертам» с условием ограниченных потерь, мы можем рассматривать распределение Соломонова как что-то вроде идеального алгоритма машинного обучения, который может научиться действовать как любой возможный алгоритм, неважно, насколько умный.
По этой причине, нам не следует считать, что AIXI обязательно «предполагает мир вычислимым», несмотря на то, что он рассуждает с помощью априорного распределения по вычислениям. Он получает ограниченные потери точности предсказаний в сравнении с любым вычислимым предсказателем. Скорее, следует считать, что AIXI предполагает, что вычислимы все возможные алгоритмы, а не мир.
Однако, отсутствие реализуемости может привести к проблемам, если хочется чего-то большего, чем точность предсказаний с ограниченными потерями:
Так работает ли AIXI хорошо без допущения реализуемости? Мы не знаем. Несмотря на ограниченные потери предсказаний и без реализуемости, оптимальность результатов его действий требует дополнительного допущения реализуемости.
Во-первых, если окружение действительно выбирается из распределения Соломонова, то AIXI получает максимальное ожидаемое вознаграждение. Но это попросту тривиально, по сути – это определение AIXI.
Во-вторых, если мы модифицируем AIXI для совершения в какой-то степени рандомизированных действий – сэмплирование Томпсона – то получится асимптотически оптимальный результат для окружений, ведущих себя подобно любой стохастической машине Тьюринга.
Так что, в любом случае, реализуемость предполагалась чтобы всё доказать. (См. Ян Лейке, Непараметрическое Обобщённое Обучение с Подкреплением.)
Но беспокойство, на которое я указываю, это не «мир может быть невычислимым, так что мы не уверены, что AIXI будет работать хорошо»; это, скорее, просто иллюстрация. Беспокойство вызывает то, что AIXI подходит для определения интеллекта или рациональности лишь при конструировании агента, намного, намного большего чем окружение, которое он должен изучать и в котором действовать.
Лоран Орсо предоставляет способ рассуждать об этом в «Интеллекте, Встроенном в Пространство и Время». Однако, его подход определяет интеллект агента в терминах своего рода суперинтеллектуального создателя, который рассуждает о реальности снаружи, выбирая агента для помещения в окружение.
Встроенные агенты не обладают роскошью возможности выйти за пределы вселенной, чтобы подумать о том, как думать. Мы бы хотели, чтобы была теория рациональных убеждений для размещённых агентов, выдающая столь же сильные основания для рассуждений, как Байесианство выдаёт для дуалистичных агентов.
Представьте занимающегося теоретической информатикой человека, встрявшего в несогласие с программистом. Теоретик использует абстрактную модель. Программист возражает, что абстрактная модель – это не что-то, что вообще можно запустить, потому что она вычислительно недостижима. Теоретик отвечает, что суть не в том, чтобы её запустить. Скорее, суть в понимании некоего явления, которое будет относиться и к более достижимым штукам, которые может захотеться запустить.
Я упоминаю это, чтобы подчеркнуть, что моя точка зрения тут скорее как у теоретика. Я говорю про AIXI не чтобы заявить «AIXI – идеализация, которую нельзя запустить». Ответы на загадки, на которые я указываю, не требуют запуска. Я просто хочу понять некоторые явления.
Однако, иногда то, что делает теоретические модели менее достижимыми, ещё и делает их слишком отличающимися от явления, в котором мы заинтересованы.
То, как AIXI выигрывает игры, зависит от предположения, что мы можем совершать настоящие Баейесианские обновления по пространству гипотез, предположения, что мир находится в пространстве гипотез, и т.д. Так что это может нам что-то сказать об аспектах реалистичной агентности в случаях совершения приблизительно Байесовских обновлений по приблизительно-достаточно-хорошему пространству гипотез. Но встроенным агентам нужны не просто приблизительные решения этой задачи; им надо решать несколько других задач другого вида.
Одно из больших препятствий, с которыми надо иметь дело встроенной агентности – это самореференция.
Парадоксы самореференции, такие как парадокс лжеца, приводят к тому, что точное отображение мира в модели мира агента становится не только очень непрактичным, но и в некотором смысле невозможным.
Парадокс лжеца – о статусе утверждения «Это утверждение не истинно». Если оно истинно, то оно должно быть ложно; а если оно ложно, то оно должно быть истинно.
Трудности вытекают из попытки нарисовать карту территории, включающей саму карту.
Всё хорошо, когда мир для нас «замирает»; но раз карта – часть мира, разные карты создают разные миры.
Предположим, что наша цель – составить точную карту последнего участка дороги, которую пока не достроили. Предположим, что ещё мы знаем о том, что команда строителей увидит нашу карту, и продолжит строительство так, чтобы она оказалась неверна. Так мы попадаем в ситуацию в духе парадокса лжеца.
Проблемы такого рода становятся актуальны для принятия решений в теории игр. Простая игра в камень-ножницы-бумагу может привести к парадоксу лжеца, если игроки пытаются выиграть и могут предсказывать друг друга лучше, чем случайно.
Теория игр решает такие задачи с помощью теоретикоигрового равновесия. Но проблема в итоге возвращается в другом виде.
Я упоминал, что проблема реализуемости в ином виде появляется в контексте теории игр. В случае машинного обучения реализуемость – это потенциально нереалистичное допущение, которое всё же обычно можно принять без появления противоречий.
С другой стороны, в теории игр само допущение может быть непоследовательным. Это результат того, что игры часто приводят к парадоксам самореференции.
Так как агентов много, теория игр больше не может пользоваться удобством представления «агента» как чего-то большего, чем мир. Так что в теории игр приходится исследовать понятия рациональной агентности, способной совладать с большим миром.
К сожалению, это делают, разделяя мир на части-«агенты» и части-«не агенты», и обрабатывая их разными способами. Это почти настолько же плохо, как дуалистичная модель агентности.
В игре в камень-ножницы-бумагу парадокс лжеца разрешается постановкой условия, что каждый игрок играет каждый ход с вероятностью в 1/3. Если один игрок играет так, то второй, делая так, ничего не теряет. Теория игр называет этот способ введения вероятностной игры для предотвращения парадоксов равновесием Нэша.
Мы можем использовать равновесие Нэша для предотвращения того, чтобы допущение об агентах, правильно понимающих мир, в котором находятся, было непоследовательным. Однако, это работает просто через то, что мы говорим агентам о том, как выглядит мир. Что, если мы хотим смоделировать агентов, которые узнают о мире примерно как AIXI?
Задача зерна истины состоит в формализации осмысленного ограниченного априорного распределения вероятностей, которое позволило бы играющим в игры агентам присвоить какую-то положительную вероятность настоящему (вероятностному) поведению друг друга, не зная его в точности с самого начала.
До недавних пор известные решения задачи были весьма ограничены. «Рефлексивные Оракулы: Основания Классической Теории Игр» Беньи Фалленштайна, Джессики Тейлор и Пола Кристиано предоставляет очень общее решение. За деталями см. «Формальное решение Задачи Зерна Истины» Яна Лейке, Джессики Тейлор и Беньи Фалленштайна.
Вы можете подумать, что стохастические машины Тьюринга вполне могут отобразить равновесие Нэша.
Но если вы пытаетесь получить равновесие Нэша как результат рассуждений о других агентах, то наткнётесь на проблему. Если каждый агент моделирует вычисления другого и пытается запустить их, чтобы понять, что делает другой агент, то получается бесконечный цикл.
Есть некоторые вопросы, на которые машины Тьюринга просто не могут ответить – в частности, вопросы о поведении машин Тьюринга. Классический пример – проблема остановки.
Тьюринг изучал «машины с оракулом», чтобы понять, что произойдёт, если мы сможем отвечать на такие вопросы. Оракул подобен книге, содержащей некоторые ответы на вопросы, на которые мы не могли ответить раньше.
Но так мы получаем иерархию. Машины типа B могут ответить на вопросы о том, остановятся ли машины типа A, машины типа C – ответить на вопросы о типах A и B, и так далее, но никакая машина не может ответить на вопросы о её собственном типе.
Рефлексивные оракулы работают, закручивая вселенную обычных машин Тьюринга саму на себя, так что вместо бесконечной иерархии всё более сильных оракулов мы определяем машину с оракулом, служащую оракулом самой себе.
В норме это бы привело к противоречиям, но рефлексивные оракулы избегают этого, рандомизируя свой вывод в тех случаях, когда они наткнулись бы на парадоксы. Так что рефлексивные оракулы стохастичны, но более мощны, чем простые стохастические машины Тьюринга.
Вот как рефлексивные оракулы справляются с ранее упомянутой проблемой карты, которая сама по себе является частью территории: рандомизация.
Рефлексивные оракулы решают и ранее упомянутую проблему с теоретикоигровым понятием рациональности. Они позволяют рассуждать об агентах так же, как и об остальном окружении, а не трактовать их как фундаментально отдельный случай. Все они просто вычисления-с-доступом-к-оракулу.
Однако, модели рациональных агентов, основанных на рефлексивных оракулах, всё же имеют несколько серьёзных ограничений. Одно из них – что агенты должны обладать неограниченной вычислительной мощностью, прямо как AIXI, и также предполагается, что они знают все последствия своих собственных убеждений.
На самом деле, знание всех последствий своих убеждений – свойства, известное как логическое всеведенье – оказывается центральным для классической Байесовской рациональности.
Пока что я довольно наивно говорил о том, что агент обладает убеждённостью в гипотезах, и реальный мир принадлежит или не принадлежит пространству гипотез.
Не вполне ясно, что всё это значит.
В зависимости от того, как мы что определим, для агента вполне может оказаться возможным быть меньше мира, но всё же содержать верную модель мира – он может знать настоящую физику и стартовые условия, но быть способным вывести их последствия только очень приблизительно.
Люди уж точно привыкли жить с короткими путями и приближениями. Но как бы это ни было реалистично, это не сочетается с тем, что обычно подразумевается под знанием чего-то в Байесовском смысле. Байесианец знает последствия всех своих убеждений.
Неуверенность в последствиях своих убеждений – это логическая неуверенность. В этом случае агент может быть эмпирически уверен в уникальном математическом описании, указывающем на то, в какой он находится вселенной, будучи всё равно неуверенным логически в большинстве последствий этого описания
Моделирование логической неуверенности требует от нас обладания комбинированной теории логики (рассуждений о следствиях) и вероятности (степенях убеждённости).
Теории логики и вероятности – два великих достижения формализации рационального мышления. Логика предоставляет лучшие инструменты для мышления о самореференции, а вероятность – для мышления о принятии решений. Однако, вместе они работают не так хорошо, как можно подумать.
Они могут на первый взгляд показаться совместимыми, ведь теория вероятности – расширение булевой логики. Однако, первая теорема Гёделя о неполноте показывает, что любая достаточно богатая логическая система неполна: не только не справляется с определением истинности или ложности любого высказывания, но ещё и не имеет вычислимого расширения, которое справляется.
(См. больше иллюстраций того, какие проблемы это создаёт для теории вероятности в посте «Проиллюстрированный Незатролливаемый Математик».)
Это также относится к распределениям вероятностей: никакое вычислимое распределение не может присваивать вероятности способом, совместимым с достаточно богатой теорией. Это вынуждает нас выбирать между использованием невычислимого или несовместимой с теорией распределения.
Звучит как простой выбор, правда? Несовместимая теория по крайней мере вычислима, а мы, в конце концов, пытаемся выработать теорию логического не-всеведенья. Мы можем просто продолжать обновляться на основе доказанных нами фактов, что будет приводить нас ближе и ближе к совместимости.
К сожалению, это не заканчивается хорошо, по причинам, опять приводящим нас к реализуемости. Напомню, что не существует вычислимых распределений вероятностей, совместимых со всеми последствиями достаточно мощных теорий. Так что наше не-всеведущее априорное распределение не содержит ни одной верной гипотезы.
Это приводит к очень странному поведению, если мы вводим всё больше и больше математических убеждений в качестве условий. Убеждённости бешено колеблются вместо того, чтобы прийти к осмысленным оценкам.
Принятие Байесовского априорного распределения на математике и обновление его после доказательств кажется не особо ухватывающим математическую интуицию и эвристики – если мы не ограничим область и не составим осмысленные априорные оценки.
Вероятность подобна весам, гири на которых – миры. Наблюдение избавляется от некоторых возможных миров, сдвигая баланс убеждений.
Логика подобна дереву, растущему из зерна аксиом согласно правилам вывода. Для агентов в реальном мире процесс роста никогда не завершён; вы никогда не можете знать все следствия каждого убеждения.
Не зная, как их совместить, мы не можем охарактеризовать вероятностные рассуждения о математике. Но проблема «весов против дерева» ещё и означает, что мы не знаем, как работают обычные эмпирические рассуждения.
Байесовское тестирование гипотез требует, чтобы каждая гипотеза чётко объявляла, какие вероятности она присваивает каким наблюдениям. В таком случае вы знаете, насколько меняются шансы после наблюдения. Если мы не знаем следствий убеждения, то непонятно, насколько следует ориентироваться на его предсказания.
Это вроде незнания куда на весы вероятности положить гири. Мы можем попробовать положить гири на обе стороны, пока не докажем, что с одной из них гирю нужно убрать, но тогда убежденности колеблются вечно, а не приходят к чему-то полезному.
Это заставляет нас напрямую столкнуться с проблемой того, что мир больше, чем агент. Мы хотим сформулировать некое понятие ограниченно рациональных убеждений о следствиях, в которых мы не уверены; но любые вычислимые убеждения о логике должны оставить что-то за бортом, потому что дерево логического вывода вырастает больше любого контейнера.
Весы вероятности Байесианца сбалансированы в точности так, чтобы против него нельзя было сделать голландскую ставку – последовательность ставок, приводящую к гарантированному проигрышу. Но вы можете учесть все возможные голландские ставки, если вы знаете все следствия своих убеждений. Иначе кто-то исследовавший другие части дерева может вас поймать.
Но люди-математики, кажется, не натыкаются ни на какие особые сложности при рассуждениях о математической неуверенности, не более чем при эмпирической неуверенности. Так что характеризует хорошие рассуждения при математической неуверенности, если не иммунитет к плохим ставкам?
Один из вариантов ответа – ослабить понятие голландских ставок, позволяя только ставки, основанные на быстро вычисляемых частях дерева. Это одна из идей «Логической Индукции» Гаррабранта и пр., ранней попытки определить что-то вроде «индукции Соломонова, но для рассуждений, включающих математическую неуверенность».
Другое следствие того факта, что мир больше вас – что вам надо обладать способностью использовать высокоуровневые модели мира: модели, включающие вещи вроде столов и стульев.
Это связано с классической проблемой заземления символов; но раз нам нужен формальный анализ, увеличивающий наше доверие некой системе, интересующая нас модель имеет несколько иной вид. Это связано ещё и с прозрачностью и информированным присмотром: модели мира должны состоять из понимаемых частей.
Связанный вопрос – как высокоуровневые и низкоуровневые рассуждения связаны друг с другом и промежуточными уровнями: многоуровневые модели мира.
Стандартные вероятностные рассуждения не предоставляют особо хорошего подхода к этому. Получается что-то вроде того, что у вас есть разные Байесовские сети, описывающие мир с разным уровнем точности, и ограничения вычислительной мощности вынуждают вас в основном использовать менее точные, так что надо решить, как перепрыгивать на более точные в случае необходимости.
В дополнение к этому, модели на разных уровнях не идеально стыкуются, так что у вас есть проблема перевода между ними; а модели ещё и могут иметь между собой серьёзные противоречия. Это может быть нормально, ведь высокоуровневые модели и подразумеваются как приближения, или же это может сообщать о серьёзной проблеме в одной из моделей, требующей их пересмотра.
Это особенно интересно в случае онтологических кризисов, когда объекты, которые мы ценим, оказываются отсутствующими в «лучших» моделях мира.
Кажется справедливым сказать, что всё, что ценят люди, существует только в высокоуровневых моделях, которые с редукционистской точки зрения “менее реальны», чем атомы и кварки. Однако, поскольку наши ценности не определены на нижнем уровне, мы способны сохранять их даже тогда, когда наши знания нижнего уровня радикально меняются. (Мы также могли бы что-то сказать и о том, что происходит, когда радикально меняется верхний уровень.)
Другой критически важный аспект встроенных моделей мира – это что сам агент должен быть в модели, раз он хочет понять мир, а мир нельзя полностью отделить от самого агента. Это открывает дверь сложным проблемам самореференции и антропной теории принятия решений.
Натурализированная индукция – это проблема выучивания моделей мира, включающих в окружение самого агента. Это непросто, потому что (как сформулировал Каспар Остерхельд) между «ментальными штуками» и «физическими штуками» есть несовпадение типов.
AIXI рассматривает своё окружение так, как будто в нём есть слот, куда вписывается агент. Мы можем интуитивно рассуждать таким образом, но мы можем понять и физическую точку зрения, с которой это выглядит плохой моделью. Можно представить, что агент вместо этого представляет по отдельности: знание о себе, доступное для интроспекции; гипотезу о том, какова вселенная; и «соединительную гипотезу», связывающую одно с другим.
Есть интересные вопросы о том, как это может работать. Есть ещё и вопрос о том, правильная ли это вообще структура. Я точно не считаю, что так обучаются младенцы.
Томас Нагель сказал бы, что такой подход к проблеме включает «взгляды из ниоткуда»; каждая гипотеза рассматривает мир будто снаружи. Наверное, это странный способ.
Особый случай того, что агентам приходится рассуждать о себе – это то, что агентам приходится рассуждать о себе будущих.
Чтобы составлять долговременные планы, агентам нужно быть способными смоделировать, как они будут действовать в будущем, и иметь некоторое доверие своим будущим целям и способностям к рассуждению. Это включает доверие к обучившимся и выросшим будущим версиям себя.
При традиционном Байесовском подходе «обучение» подразумевает Байесовские обновления. Но, как мы заметили, Байесовские обновления требуют, чтобы агент изначально был достаточно большим, чтобы учитывать кучу вариантов, каким может быть мир, и обучаться, отвергая некоторые из них.
Встроенным агентам нужны обновления с ограниченными ресурсами и логической неуверенностью, которые так не работают.
К сожалению, Байесовские обновления – это главный известный нам способ думать о двигающемся во времени агенте как о едином, одном и том же. Оправдание Байесовских рассуждений через голландские ставки по сути заявляет, что только такие обновления обеспечивают, что действия агента в понедельник и во вторник не будут хоть немного друг другу мешать.
Встроенные агенты не-Байесовские. А не-Байесовские агенты склонны встревать в конфликты со своими будущими версиями.
Что приводит нас к следующему набору проблем: устойчивое делегирование.
Примечание переводчика - из-за отсутствия на сайте нужного класса для того, чтобы покрасить текст в оранжевый цвет, я заменил его фиолетовым. Фиолетовый в тексте соответствует оранжевому на картинках.
Так как мир большой, агента самого по себе, а в частности – его мыслительных способностей, может быть недостаточно, чтобы достигнуть его целей.
Поскольку агент состоит из частей, он может улучшать себя и становиться способнее.
Усовершенствования могут принимать много форм: агент может создавать инструменты, агент может создавать агентов-наследников, или агент может просто со временем учиться и расти. Наследники или инструменты, чтобы стоило их создавать, должны быть способнее агента.
Это приводит к особой разновидности проблемы принципала-агента:
Пусть есть изначальный агент и агент-наследник. Изначальный агент решает, каким в точности будет наследник. Наследник, однако, куда умнее и могущественнее, чем изначальный агент. Мы хотим знать, как сделать так, чтобы агент-наследник устойчиво оптимизировал цели изначального агента.
Вот три примера того, как может выглядеть эта проблема:
В задаче согласования ИИ человек пытается создать ИИ-систему, которой можно будет доверять, что она будет помогать в достижении целей человека.
В задаче замощающих агентов, агент пытается увериться, что он может доверять своей будущей версии, что она будет помогать в достижении целей агента.
Или мы можем рассмотреть более сложную версию – стабильное самоулучшение – когда ИИ-система должна создать наследника, более умного, чем она сама, но надёжного и помогающего.
Как человеческие аналогии, не включающие ИИ, можно подумать о проблеме наследования в монархии или более обобщённо о проблеме уверенности в том, что организация будет добиваться желаемых целей и не потеряет своё предназначение со временем.
Сложность состоит из двух частей:
Во-первых, человек или ИИ может не полностью понимать себя и свои собственные цели. Если агент не может записать что он хочет во всех деталях, то ему сложно гарантировать, что наследник будет устойчиво помогать с этими целями.
Во-вторых, вся идея делегирования работы в том, что вам не нужно делать всю работу самому. Вы хотите, чтобы наследник был способен на некоторую степень автономии, включая изучение неизвестного вам и заполучение новых навыков и способностей.
В пределе по-настоящему хорошее формальное описание устойчивого делегирования должно быть способно безошибочно обрабатывать произвольно способных наследников – вроде человека или ИИ, создающего невероятно умного ИИ, или вроде агента, продолжающего расти и учиться так много лет, что он становится намного умнее, чем его прошлая версия.
Проблема не (только) в том, что агент-наследник может быть злонамерен. Проблема в том, что мы даже не знаем что для него значит таким не быть.
Она кажется сложной с обеих точек зрения.
Исходному агенту необходимо выяснить, насколько надёжно и достойно доверия нечто, куда могущественнее его, что кажется очень сложным. А агенту-наследнику необходимо выяснить, что делать в ситуациях, которых исходный агент вообще не понимает, и пытаться уважать цели чего-то, что, как наследник может видеть, непоследовательно, а это тоже кажется очень сложным.
На первый взгляд может показаться, что это менее фундаментальная проблема, чем «принимать решения» или «иметь модели». Но точка зрения, с которой задача «создания наследника» предстаёт в многих формах, сама по себе дуалистична.
Для встроенного агента будущая версия себя не привелегирована; просто ещё одна часть окружения. Нет глубокой разницы между созданием наследника, разделяющего твои цели и просто уверенностью, что твои собственные цели останутся теми же со временем.
Так что, хоть я и говорю об «исходном» агенте и агенте-«наследнике», помните, что суть не в узкой задаче, с которой сейчас столкнулись люди. Суть в фундаментальной проблеме того, как оставаться тем же агентом, обучаясь со временем.
Мы можем назвать этот кластер задач Устойчивым Делегированием. Примеры включают:
Представьте, что вы играете в CIRL с младенцем.
CIRL означает Кооперативное Обратное Обучение с Подкреплением. Основная идея в основе CIRL – определить, что значит для робота сотрудничать с человеком. Робот пытается предпринимать полезные действия, одновременно пытаясь выяснить, чего человек хочет.
Много нынешней работы по устойчивому делегированию исходит из цели согласовать ИИ-системы с тем, чего хотят люди. Так что обычно мы думаем об этом с точки зрения человека.
Но представьте, как задача выглядит с точки зрения умного робота, который пытается помочь кому-то, находящемуся в крайнем замешательстве по поводу вселенной. Представьте каково пытаться помогать младенцу оптимизировать его цели.
Часть проблемы в том, что «помогающий» агент должен в каком-то смысле быть больше, чтобы быть способнее; но это, кажется, подразумевает, что «получающий помощь» агент не может быть хорошим надсмотрщиком «помогающего».
К примеру, необновимая теория принятия решений избавляется от динамических непоследовательностей в теории принятия решений тем, что вместо максимизации ожидаемой полезности вашего действия с учётом того, что вам известно, максимизирует ожидаемую полезность реакций на наблюдения из состояния незнания.
Как бы она ни была привлекательна как способ достижения рефлексивной последовательности, она приводит к странной ситуации в плане вычислительной мощности: если действия имеют тип $A$, а наблюдения тип $O$, то реакции на наблюдения имеют тип $O→A$ – куда большее пространство для оптимизации, чем просто $A$. И мы ожидаем, что наше меньшее я способно это делать!
Это, кажется, плохо.
Один способ более чётко выразить проблему: мы должны быть способны доверять будущим себе, что они будут применять свой интеллект, преследуя наши цели, не будучи способными точно предсказать, что наши будущие версии будут делать. Этот критерий называется рефлексией Винджа.
К примеру, вы можете планировать свой маршрут поездки перед посещением нового города, но не планировать шаги. Вы планируете до какого-то уровня деталей и доверяетесь своей будущей версии, что она сообразит остальное.
Рефлексия Винджа сложна для рассмотрения через призму классической Байесианской теории принятия решений, потому что та подразумевает логическое всеведенье. При его условии допущение «агент знает, что его будущие действия рациональны» синонимично с допущением «агент знает, что его будущая версия будет действовать согласно одной конкретной оптимальной стратегии, которую агент может предсказать заранее».
У нас есть некоторые ограниченные модели рефлексии Винджа (см. «Замощающие Агенты Самомодифицирующегося ИИ и Лёбово Препятствие» Юдковского и Херршоффа). Успешный подход должен пройти по тонкой линии между этими двумя проблемами:
Результаты исследования рефлексии Винджа пока что применимы только к ограниченному классу процедур принятия решений, вроде добирания до порога приемлемости. Так что это ещё много куда можно развивать, получая результаты замощения для более полезных вариантов и при меньших допущениях.
Однако устойчивое делегирование – больше, чем просто замощение и рефлексия Винджа.
Когда вы конструируете другого агента, а не делегируете что-то будущему себе, вы более напрямую сталкиваетесь с проблемой загрузки ценностей.
Основные проблемы:
Эффект усиления известен как Закон Гудхарта, в честь Чарльза Гудхарта, заметившего: «Любая наблюдаемая статистическая закономерность склонна коллапсировать, когда на неё оказывается давление с целями контроля.»
Когда мы определяем цель оптимизации, имеет смысл ожидать, что она будет коррелировать с тем, чего мы хотим – в некоторых случаях, сильно коррелировать. Однако, к сожалению, это не означает, что её оптимизация приблизит нас к тому, что мы хотим – особенно на высоких уровнях оптимизации.
Есть (как минимум) четыре вида Гудхарта: регрессионный, экстремальный, каузальный и состязательный.
Регрессионный Гудхарт происходит, когда корреляция между прокси и целью неидеальна. Он более известен как проклятье оптимизатора, и связан с регрессией к среднему.
Пример регрессионного Гудхарта: вы можете выбирать игроков в баскетбольную команду на основании лишь роста. Это не идеальная эвристика, но между ростом и способностями к баскетболу есть корреляция, которую вы можете использовать для своего выбора.
Оказывается, что в некотором смысле вы будете предсказуемо разочарованы, если будете ожидать, что общий тренд так же хорошо работает и для вашей выбранной команды.
В статистических терминах: несмещённая оценка $y$ при данном $x$ – не то же самое, что несмещённая оценка $y$, когда мы выбираем лучший $x$. В этом смысле мы ожидаем, что будем разочарованы, используя $x$ как прокси для $y$ в целях оптимизации.
(Графики в этом разделе вручную нарисованы для иллюстрации важных концепций.)
Используя Байесовскую оценку вместо несмещённой, мы можем избавиться от этого предсказуемого разочарования. Байесовская оценка учитывает зашумлённость $x$, склоняющую в сторону типичных значений $y$.
Это необязательно позволит нам получить $y$ получше, потому что мы всё ещё действуем только на основании информации о $x$. Но иногда может и сработать. Если $y$ нормально распределён с дисперсией 1, а $x$ – это $y±10$ с равными шансами на + и −, то Байесовская оценка приведёт к лучшим результатам оптимизации, почти полностью удаляя шум.
Регрессионный Гудхарт кажется самой простой для одолевания формой Гудхарта: просто используйте Байесовскую оценку!
Однако, с этим решением есть две больших проблемы:
Случай, когда обе эти проблемы становятся критичны – вычислительная теория обучения.
Зачастую вычисление Байесовской ожидаемой ошибки обобщения гипотезы совершенно неосиливаемо. А если вы и можете это сделать, то всё равно придётся беспокоиться о том, достаточно ли хорошо отображает мир ваше выбранное априорное распределение.
В экстремальном Гудхарте оптимизация выталкивает вас за пределы области, где существует корреляция, в части распределения, которые ведут себя совсем по-другому.
Это особенно пугает, потому что приводит к оптимизаторам, ведущим себя в разных контекстах совершенно по-разному, зачастую почти или совсем без предупреждения. Вы можете не иметь возможности увидеть, как ломается прокси на слабом уровне оптимизации, но, когда оптимизация становится достаточно сильной, вы переходите в совсем другую область.
Разница между экстремальным Гудхартом и регрессионным Гудхартом связана с классическим разделением интерполяции/экстраполяции.
Поскольку экстремальный Гудхарт включает резкое изменение поведения при масштабировании системы, его сложнее предвосхитить, чем регрессионный.
Как и в регрессионном случае, Байесовское решение справляется с проблемой в теории, если вы верите, что распределение вероятностей достаточно хорошо отображает возможные риски. Однако, реализуемость тут становится ещё более проблемной.
Можно ли довериться, что априорное распределение предвосхитит проблем с предложениями, когда эти предложения будут сильно оптимизированы, чтобы хорошо выглядеть для этого конкретного распределения? Уж точно в таких условиях нельзя верить человеческим суждениям – это наблюдение подсказывает, что проблема останется, даже если суждения системы о ценностях идеально отображают человеческие.
Можно сказать, что проблема такова: «типичные» выводы избегают экстремального Гудхарта, но «слишком сильная оптимизация» выводит нас из области типичного.
Но как нам формализовать «слишком сильную оптимизацию» в терминах теории принятия решений?
Квантилизация предлагает формализацию для «как-то оптимизировать, но не слишком сильно».
Представьте прокси $V(x)$ как «испорченную» версию функции, которая нам на самом деле важна – $U(x)$. Могут быть разные области, в которых уровень испорченности ниже или выше.
Предположим, мы дополнительно определили «доверенное» распределение вероятностей $P(x)$, для которого мы уверены, что средняя ошибка в нём ниже некого порога $c$.
Оговаривая $P$ и $c$ мы даём информацию о том, где находятся точки с низкой ошибкой, без необходимости иметь оценки $U$ или настоящей ошибки в любой конкретной точке.
Когда мы случайно выбираем действия из $P$, мы можем быть уверены в низкой вероятности большой ошибки.
Так как нам это использовать для оптимизации? Квантилайзер выбирает из $P$, но выкидывает всё, кроме верхней доли $f$; к примеру, кроме верхнего 1%. В этой визуализации я благоразумно выбрал долю, в которой большая часть вероятности сконцентрирована в «типичных» вариантах, а не в выбросах:
Квантилизируя мы гарантируем, что если мы переоценили, насколько что-то хорошо, то ожидание того, насколько мы переоценили – максимум $\frac{c}{f}$. Ведь в худшем случае вся переоценка взялась из $f$ лучших вариантов.
Так что мы можем выбрать приемлемый уровень риска $r = \frac{c}{f}$ и выбрать параметр $f$ как $\frac{c}{r}$.
Квантилизация весьма привлекательна, потому что она позволяет нам определить безопасные классы действий, не доверяя всем отдельным действиям в классе – или даже не доверяя никакому отдельному действию в классе.
Если у вас есть достаточно большая куча яблок, и в ней только одно гнилое яблоко, то случайный выбор скорее всего безопасен. «Не очень сильно оптимизируя» и выбирая случайное достаточно-хорошее действие мы делаем экстремальные варианты маловероятными. Напротив, если бы мы оптимизировали так сильно, как возможно, мы бы в итоге выбирали только плохие яблоки.
Однако, этот подход всё же оставляет желать лучшего. Откуда берутся «доверенные» распределения? Как вы оцениваете ожидаемую ошибку $c$, или выбираете приемлемый уровень риска $r$? Квантилизация – рискованный подход, потому что $r$ предоставляет вам рычаг, потянув за который вы явно улучшите качество работы, увеличивая риск, пока (возможно внезапно) не провалитесь.
В дополнение к этому, квантилизация, кажется, не будет замощать. То есть, квантилизирующий агент не имеет особой причины сохранять алгоритм квантилизации, улучшая себя или создавая новых агентов.
Так что, кажется, способам справляться с экстремальным Гудхартом ещё есть много куда расти.
Другой способ, которым оптимизация может пойти не туда – когда выбор прокси ломает связь с тем, что нас интересует. Каузальный Гудхарт происходит, когда вы наблюдаете корреляцию между прокси и целью, но, когда вы вмешиваетесь, чтобы увеличить прокси, увеличить цель не получается, потому что наблюдавшаяся корреляция не была правильным образом каузальной.
Пример каузального Гудхарта – вы можете попробовать заставить пойти дождь, ходя по улице с зонтом. Единственный способ избежать ошибок такого рода – правильно справляться с контрфактами.
Это может показаться подножкой для теории принятия решений, но связи тут в равной степени обогащают и её, и устойчивое делегирование.
Контрфакты обращаются к вопросам доверия из-за замощения – нужды рассуждать о своих собственных будущих решениях, принимая решения сейчас. В то же время, доверие обращается к вопросам контрфактах из-за каузального Гудхарта.
Опять же, одно из крупных препятствий тут – реализуемость. Как мы замечали в нашем обсуждении встроенных моделях мира, даже если у вас есть верная обобщённая теория контрфактов, Байесовское обучение не особо гарантирует вам, что вы научитесь правильно выбирать действия без допущения реализуемости.
Наконец, есть состязательный Гудхарт, когда агенты активно манипулируют прокси-мерой, делая её хуже.
Эта категория – то, о чём чаще всего думают люди, когда интерпретируют замечание Гудхарта. И на первый взгляд, она кажется не особо связанной с нашими заботами. Мы хотим формально понять, как агенты могут доверять будущим версиям себя или помощникам, которых они создали. Что это имеет общего с состязательностью?
Краткий ответ такой: при поиске в большом и достаточно богатом пространстве в нём наверняка найдутся элементы, исполняющие состязательные стратегии. Понимание оптимизации в целом требует от нас понимать, как достаточно умные оптимизаторы могут избежать состязательного Гудхарта. (Мы ещё вернёмся к этому в обсуждении согласования подсистем.)
Состязательный вариант Закона Гудхарта ещё сложнее пронаблюдать на низких уровнях оптимизации, и из-за нежелания манипулировать до окончания времени тестирования, и из-за того, что противники, появляющиеся из собственной оптимизации системы, не появляются, пока эта оптимизация недостаточно сильна.
Эти четыре формы Закона Гудхарта работают очень по-разному, и, грубо говоря, они склонны появляться на последовательно более высоких уровнях силы оптимизации, начиная с регрессионного Гудхарта, и продолжая каузальным, затем экстремальным, затем состязательным. Так что будьте осторожны, и не считайте, что одолели закон Гудхарта, решив лишь некоторые из его форм.
Кроме противо-Гудхартовых мер, ещё, очевидно, неплохо было бы уметь точно определить, что мы хотим. Напомню, что все эти проблемы не всплывают, если система напрямую оптимизирует то, что нам надо, а не прокси.
К сожалению, это сложно. Так может ИИ-системы, которые мы создаём, могут нам с этим помочь?
Более обобщённо, может агент-наследник помочь своему предшественнику это решить? Может, он может использовать свои интеллектуальные преимущества, чтобы понять, что мы хотим?
AIXI обучается тому, что ему делать, с помощью сигнала вознаграждения, который он получает от окружения. Мы можем представить, что у людей есть кнопка, которую они нажимают, когда AIXI делает что-то, что им нравится.
Проблема в том, что AIXI применит свой интеллект к задаче получения контроля над кнопкой вознаграждения. Это – проблема вайрхединга.
Поведение такого вида потенциально очень сложно предвосхитить; система может обманчиво вести себя как предполагается во время обучения, планируя захватить контроль после развёртывания. Это называется «предательским поворотом».
Может, мы встроим кнопку вознаграждения внутрь агента, как чёрный ящик, испускающий вознаграждения, основываясь на том, что происходит. Ящик может сам по себе быть интеллектуальным субагентом, определяющим, какое вознаграждение хотели бы выдать люди. Коробка может даже защищать себя, выдавая наказания за действия, направленные на её модификацию.
В конце концов, всё же, если агент понимает ситуацию, он будет всё равно мотивирован захватить контроль.
Если агенту сказано добиваться высокого вывода от «кнопки» или «ящика», то он будет мотивирован их взломать. Однако, если вы проводите ожидаемые исходы планов через сам выдающий вознаграждение ящик, то планы его взломать будут оценены им самим, а он не будет считать эту идею привлекательной.
Дэниэл Дьюи называет такого агента макисимизатором наблюдаемой полезности. (Другие включали агентов наблюдаемой полезности в более широкое понятие обучения с подкреплением.)
Мне кажется весьма интересным, что вы можете много всего попробовать, чтобы предотвратить у агента обучения с подкреплением стремление к вайрхедингу, но агент будет против. Затем, вы переходите к агентам наблюдаемой полезности – и проблема исчезает.
Однако, у нас всё ещё есть задача определения $U$. Дэниэл Дьюи указывает, что агенты наблюдаемой полезности всё ещё могут использовать обучение, чтобы со временем аппроксимировать $U$; мы не можем просто считать $U$ чёрным ящиком. Агент обучения с подкреплением пытается научиться предсказать функцию вознаграждения, а агент наблюдаемой полезности оценивает функции полезности из определённого людьми априорного распределения для выучивания ценностей.
Но сложно определить процесс обучения, который не приведёт к иным проблемам. К примеру, если вы пытаетесь научиться тому, что хотят люди, как вы устойчиво идентифицируете в мире «людей»? Просто статистически приличное распознавание объектов опять может привести к вайрхедингу.
Даже если успешно решите эту задачу, агент может верно выяснить ценности человека, но всё же быть мотивирован изменить их, чтобы их было легче удовлетворить. К примеру, представьте, что есть наркотик, который модифицирует человеческие предпочтения, так что для человека будет иметь значение только его приём. Агент наблюдаемой полезности может быть мотивирован вводить людям этот наркотик, чтобы сделать свою работу проще. Это называется проблемой манипуляции людьми.
Всё, отмечаемое как истинное хранилище ценностей, взламывается. Будь это один из четырёх видов Гудхарта, или что-то пятое, тенденция прослеживается.
Так что вызов в создании стабильных указателей на то что мы ценим: непрямых ссылок на ценности, которые нельзя оптимизировать напрямую, чтобы не поощрять взлом хранилища ценностей.
Одно важное замечание было сделано Томом Эвериттом и пр. в «Обучении с Подкреплением Испорченным Каналом Вознаграждения»: то, как вы устраиваете петлю обратной связи, имеет огромное значение.
Они нарисовали такую картинку:
В некотором смысле, цель – верно направить изначального маленького агента в петле обратной связи. Однако, упомянутые ранее проблемы с необновимыми рассуждениями делают это сложным; оригинальный агент недостаточно много знает.
Один из способов работать с этим – через усиление интеллекта: попробовать превратить изначального агента в более способного с теми же ценностями, вместо того, чтобы создавать агента-наследника с нуля и пытаться справиться с загрузкой ценностей.
К примеру, Пол Кристиано предложил подход, в котором маленький агент симулируется много раз в большом дереве, которое может исполнять сложные вычисления, разбивая задачу на части.
Однако, это всё же довольно требовательно для маленького агента: он не просто должен знать, как разбивать задачи на более посильные части; он ещё должен знать, как делать это без возникновения злокачественных подвычислений.
К примеру, если он может использовать копии себя для получения больших вычислительных мощностей, он легко может пытаться использовать прямолинейный поиск решений, не натыкаясь на Закон Гудхарта.
Это – тема следующей части: согласование подсистем.
Примечание переводчика - из-за отсутствия на сайте нужного класса для того, чтобы покрасить текст в оранжевый цвет, я заменил его фиолетовым. Фиолетовый в тексте соответствует оранжевому на картинках.
Вы хотите что-то выяснить, но пока не знаете, как это делать.
Вам надо как-то разбить задачу на под-вычисления. Нет атомного действия «думанья»; интеллект должен быть построен из не-интеллектуальных частей.
То, что агент состоит из частей – часть того, почему затруднительны контрфакты, ведь агенту может понадобиться рассуждать о невозможных конфигурациях этих частей.
То, что агент состоит из частей – то, что делает рассуждения о себе и самомодификацию вообще возможными.
Впрочем, то, что мы в основном будем обсуждать в этом разделе – другая проблема: когда агент состоит из частей, враждебным может быть не только внешнее окружение, но и что-то внутри агента.
Этот кластер задач называется Согласованием Подсистем: как удостовериться, что подсистемы не работают друг против друга; избежать подпроцессов, оптимизирующих нежелательные цели:
Вот чучельная схема агента:
Эпистемическая подсистема просто хочет, чтобы у неё были точные убеждения. Инструментальная подсистема использует эти убеждения, чтобы отслеживать, насколько хорошо она справляется. Если инструментальная подсистема становится слишком способной сравнительно с эпистемической, то она может попробовать обмануть эпистемическую подсистему, как показано на картинке.
Если эпистемическая подсистема становится слишком сильна, то это тоже может привести к нехорошим исходам.
Эта схема агента считает эпистемическую и инструментальную подсистемы агента отдельными агентами со своими собственными целями, что не особо реалистично. Однако, как мы видели в разделе про вайрхединг, проблемы того, что подсистемы работают на конфликтующие цели, сложно избежать. И эта проблема становится ещё затруднительнее, если мы создали эти подсистемы ненамеренно.
Одна из причин избегать запуска суб-агентов, которые хотят разных вещей – то, что нам хочется устойчивости при относительном масштабировании.
Подход устойчив при масштабировании, если он всё ещё работает или аккуратно проваливается, когда вы масштабируете его способности. Есть три варианта: устойчивость при масштабировании вверх; устойчивость при масштабировании вниз; и устойчивость при относительном масштабировании.
Ваша система может работать, если она может в точности максимизировать некую функцию, но безопасна ли она, если вы аппроксимируете? К примеру, может, система безопасна, если она способна очень точно изучить человеческие ценности, но аппроксимация делает её всё более несогласованной.
Недостаток устойчивости при масштабировании не обязательно полностью обрушивает предложение, но его стоит иметь в виду; если его нет, то вам нужна надёжная причина считать, что вы находитесь на нужном уровне масштабирования.
Устойчивость при относительном масштабировании особенно важна для согласования подсистем. Агент с интеллектуальными под-частями не должен полагаться на способность их переиграть, если у нас нет сильного аргумента о том, почему это всегда возможно.
Мораль для большой картины: стремитесь к единой системе, которая не конфликтует сама с собой.
С чего бы кому-то создавать агента, чьи части борются друг с другом? Есть три очевидных причины: подцели, указатели и поиск.
Разделение задачи на подцели может быть единственным способом эффективно найти решение. Однако, делая вычисления, связанные с подцелями, вы не должны полностью забывать о большой картине!
Агенту, спроектированному, чтобы строить дома, не следует запускать субагента, которого волнует только строительство лестниц.
Интуитивно хочется, чтобы, несмотря на то, что подсистемам нужно иметь свои собственные цели для разделения задач на части, эти подцели должны устойчиво «ссылаться» на главную цель.
Агент, строящий дома, может запустить подсистему, которую волнуют только лестницы, но только лестницы в контексте домов.
Однако вам нужно это сделать каким-то способом, который не сводится к тому, что у вашей системы, строящей дома, есть в голове вторая система, строящая дома. Это приводит меня к следующему пункту:
Указатели: Для подсистем может быть сложно таскать с собой цель всей системы, потому что предполагается, что им надо упрощать задачу. Однако такие окольные пути, кажется, склонны приводить к ситуациям, когда стимулы разных подсистем не согласованы.
Как мы видели в примере эпистемической и инструментальной подсистем, как только мы начинаем оптимизировать ожидание какого-то рода, а не напрямую получать обратную связь о том, что мы делаем по некоторой по-настоящему важной метрике, мы можем создать извращённые мотивации – это Закон Гудхарта.
Как мы попросим подсистему «сделай X», а не «убеди систему в целом, что делаешь X», не передавая всю систему целей?
Это похоже на то, как нам хотелось, чтобы агенты-наследники устойчиво ссылались на ценности, потому что сложно их записать. Однако, в этом случае, изучение ценностей большего агента тоже было бы бессмысленно, подсистемы и подцели должны быть меньше.
Может быть, не так сложно решить согласование подсистем для случая подсистем, полностью спроектированных людьми, или подцелей, в явном виде выделенных ИИ. Если вы уже знаете, как избежать несогласованности и как устойчиво делегировать свои цели, обе задачи кажутся решаемыми.
Однако, спроектировать все подсистемы настолько явно не кажется возможным. В какой-то момент, решая задачу, вы разбиваете её на части настолько сильно, насколько получается, и начинаете полагаться на метод проб и ошибок.
Это приводит нас к третьей причине того, с чего подсистемам оптимизировать разные вещи – поиск: решение задачи путём просматривания большого пространства возможностей, которое само по себе может содержать несогласованные подсистемы.
Исследователи машинного обучения вполне знакомы с этим явлением: проще написать программу, которая найдёт вам высокопроизводительную систему машинного перевода, чем напрямую написать эту систему самостоятельно.
Этот процесс может в итоге зайти ещё на шаг дальше. Для достаточно богатой задачи и достаточно впечатляющего процесса поиска, найденные этим поиском решения могут сами что-то интеллектуально оптимизировать.
Это может произойти случайно, или же быть намеренной стратегией решения сложных задач. В любом случае, появляется высокий шанс обострения Гудхартоподобных проблем – у вас теперь есть две системы, которые могут быть несогласованы, вместо одной.
Эта проблема описана у Хубинджера и пр. в «Рисках Выученной Оптимизации в Продвинутых Системах Машинного Обучения».
Давайте назовём изначальный процесс поиска базовым оптимизатором, а обнаруженный поиском процесс поиска – меса-оптимизатором.
«Меса» – антоним «мета». Если «мета-оптимизатор» - это оптимизатор, спроектированный для создания другого оптимизатора, то «меса-оптимизатор» – это любой оптимизатор, сгенерированный изначальным оптимизатором – неважно, хотели ли программисты, чтобы их основной оптимизатор отыскивал новые оптимизаторы.
«Оптимизация» и «поиск» – неоднозначные термины. Я буду считать, что к ним относится любой алгоритм, который можно естественно интерпретировать как исполняющий значительную вычислительную работу для «нахождения» объекта, высоко оцениваемого некой целевой функцией.
Целевая функция базового оптимизатора не обязательно совпадает с целевой функцией меса-оптимизатора. Если базовый оптимизатор хочет сделать пиццу, то новому оптимизатору может нравиться замешивать тесто, нарезать ингредиенты, и т.д.
Целевая функция нового оптимизатора должна помогать базовой цели, по крайней мере в тех примерах, которые проверяет базовый оптимизатор. В ином случае меса-оптимизатор не был бы выбран.
Однако, меса-оптимизатор должен как-то упрощать задачу; нет смысла в запуске в точности такого же поиска заново. Так что кажется, что его цели будут иметь склонность быть подобными хорошим эвристикам; более простыми для оптимизации, но в общем случае отличающимися от базовой цели.
Почему разница между базовыми и меса-целями может вызывать беспокойство, если новый оптимизатор всё равно хорошо оценивается согласно базовой цели? Даже если мы в точности правильно справимся с описанием ценностей, всё равно между обучающим набором и развёртыванием будет некоторый сдвиг распределения. (См. Амодей и пр. «Конкретные Задачи Безопасности ИИ».)
В общем-то маленькие сдвиги распределения могут оказаться важны для способного меса-оптимизатора, который может заметить мельчайшие различия и сообразить, как их использовать для своей собственной цели.
На самом деле даже использование термина «сдвиг распределения» кажется неверным в контексте встроенной агентности. Мир не состоит из одинаково распределённых независимых переменных. Аналогом «отсутствия сдвига распределения» было бы обладание точной моделью всего будущего, связанного с тем, что вы хотите оптимизировать, и способностью запускать её снова и снова по ходу обучения. Так что нам надо иметь дело с очень большим «сдвигом распределения».
Ещё мы можем хотеть оптимизировать не в точности то, чего мы хотим вообще. Очевидный способ избежать появления агентов, которые добиваются подцелей ценой основной цели – делать подсистемы не агентными. Просто искать среди способов строить лестницы, не создавать что-то, беспокоящееся о лестницах.
Проблема, получается, в том, что мощные меса-оптимизаторы оптимизируют не то, что волнует базовую систему, и что у меса-оптимизаторов присутствует конвергентный стимул быть агентными.
Вдобавок, есть возможность, что меса-оптимизатору станет известно о базовом оптимизаторе, в каком случае он может начать явно пытаться хорошо справиться с базовой целью просто для того, чтобы продолжить существование, в то же время высматривая знаки того, что обучение закончилось, и он может перестать притворяться. Это версия описанного Ником Бостромом «предательского разворота».
Это та же история, как с Встроенная Агентность. Устойчивое делегирование: в пространстве поиска есть нечто агентное, отвечающее на наш выбор прокси так, что прокси перестаёт хорошо работать.
Вы можете попробовать избежать предательских разворотов, повторно симулируя «конец обучения, время для развёртывания» во время обучения, что-то вроде вложенного сна. Цель – протестировать достаточно слоёв симуляции, чтобы вы могли сделать вывод о том, что при реальном развёртывании предательского поворота не будет.
К сожалению, сходимость при таком обучении будет такая себе. Обычно в машинном обучении хорошее качество работы означает хорошее в среднем. Но предательский разворот – это «ошибка», которая может быть аккуратно размещена так, чтобы нанести наибольший ущерб. Мы хотим удостовериться, что её не произойдёт.
Проблема частично в том, что некоторые выводы намного важнее других. Развёртывание важнее обучения, а некоторые критические или уязвимые моменты во время развёртывания будут особенно важны. Мы хотим быть особенно уверены, что всё пойдёт как надо в важных случаях, а не просто получить хороший средний результат.
Но мы не можем решить это, сказав системе, что важно. На самом деле, кажется, мы надеемся, что она не сможет этого понять – мы полагаемся на способность обобщить качество работы с маловажных случаев на более важные. Поэтому исследование техник машинного обучения для избегания редких катастроф (или «ловушек») связано с задачей получения гарантии, что меса-оптимизаторы согласованы с базовыми.
Сложно доверять произвольному коду – а им являются модели из обширных классов моделей – основываясь только на эмпирическом тестировании. Рассмотрим сильно упрощённую задачу: мы хотим найти программу, которая всегда выводит 1. 0 – это катастрофический провал.
Если бы мы могли сами просмотреть код, то задача была бы простой. Но вывод машинного обучения зачастую сложно проанализировать; давайте предположим, что мы вовсе не можем понимать код.
Теперь, в некотором смысле, мы больше можем доверять простым функциям. Короткий кусок кода с меньшей вероятностью содержит жёстко закодированной исключение. Давайте опишем это количественно.
Рассмотрим набор всех программ длины $L$. Некоторые программы $p$ будут долгое время печатать $1$, но затем напечатают $0$. Мы пытаемся этого избежать.
Назовём время до первого нуля $W_{p}$. ($W_{p}=∞$, если программе $p$ можно доверять, то есть она никогда не выведет $0$.)
Высочайшая конечная $W_{p}$ из всех программ длины $L$ – это вариация функции Занятого Бобра, так что я буду обозначать её $BB(L)$. Если мы хотим быть совершенно уверены, что случайная программа длины $L$ достойна доверия, то нам надо пронаблюдать $BB(L)$ единиц от этой программы.
Однако, факт про функцию Занятого Бобра – $BB(n)$ растёт быстрее любой вычислимой функции. Так что такое эмпирическое зарабатывание доверия в худшем случае занимает невычислимо много времени.
Что в среднем случае?
Если мы предположим, что все остальные программы длины $L$ – простые случаи, число программ длины $L$ pастёт экспоненциально, так что среднее будет $BB(L)/exp(L)$. Но экспоненты вычислимы. Так что $BB(L)/exp(L)$ всё ещё растёт быстрее любой вычислимой функции.
Так что хоть использование коротких программ в теории даёт нам некоторую уверенность, сложность вывода обобщённых заключений крайне быстро растёт с ростом длины.
Если ограничения длины не так уж практичны, может, нам может помочь ограничение вычислительной сложности? Интуитивно кажется, что меса-оптимизатору необходимо время подумать, чтобы успешно выполнить предательский разворот. Так что программа, которая приходит к выводам быстрее, может быть более достойна доверия.
Однако ограничение класса сложности, к сожалению, не позволяет нам обойти поведение Занятого Бобра. Стратегии, долго выжидающие перед тем, как вывести $0$, могут быть ещё сильнее замедлены лишь небольшим увеличением длины программы $L$.
Если все эти проблемы кажутся слишком гипотетическими, посмотрите на эволюцию жизни на Земле. Эволюцию можно рассматривать как максимизатор приспособленности к размножению.
(На самом деле об эволюции можно думать как об оптимизаторе многих вещей, или как вообще не об оптимизаторе, но это неважно. Суть в том, что если бы агент хотел максимизировать приспособленность к размножению, то он мог бы использовать систему, похожую на эволюцию.)
Интеллектуальные организмы – меса-оптимизаторы эволюции. Хотя их стремления точно коррелируют с приспособленностью к размножению, организмы хотят много всего разного. Есть даже меса-оптимизаторы, которые смогли понять эволюцию, и даже периодически ей манипулировать. Мощные и несогласованые меса-оптимизаторы выглядят реальной возможностью, по крайней мере при достаточной вычислительной мощности.
Проблемы возникают, когда вы пытаетесь решить задачу, которую решать не умеете, с помощью поиска по большому пространству в надежде, что «кто-нибудь» сможет её решить.
Если источник трудностей – решение задач путём обширного поиска, может быть, нам следует поискать другие способы решать задачу. Может, нам стоит решать задачи, понимая что к чему. Но как вы решите задачи, которые пока не знаете, как решать, иначе кроме как пробуя варианты?
Давайте отступим на шаг назад.
Встроенные модели мира – о том, как встроенному агенту вообще думать; теория принятия решений – о том, как действовать. Устойчивое делегирование – о создании достойных доверия наследников и помощников. Согласование подсистем – о том, как составить одного агента из достойных доверия частей.
Проблемы в том, что:
Это - последний из основных постов в цепочкет Скотта Гаррабранта и Абрама Демски «Встроенная Агентность». Заключение: Встроенные Странности.
В заключение поговорю о любопытстве и интеллектуальных головоломках.
Я описал встроенного агента, Эмми, и сказал, что я не понимаю, как она оценивает свои варианты, моделирует мир, моделирует себя, делит задачи на части и решает их.
В прошлом, когда исследователи разговаривали о мотивации работы над подобными задачами, они в основном сосредотачивались на мотивации от риска ИИ. Исследователи ИИ хотят создать машины, которые могут решать задачи в обобщённом виде, подобно человеку, а дуализм - нереалистичный подход для рассуждений о таких системах. В частности, это такая аппроксимация, которая особенно легко сломается, когда ИИ системы станут умнее. Мы хотим, чтобы, когда люди поймут, как создать обобщённые ИИ-системы, исследователи находились в лучшей позиции для понимания этих систем, анализа их внутренних свойств, и уверенности в их будущем поведении.
Это мотивация большинства исследователей, которые в настоящее время работают над вещами вроде необновимой теории принятия решений и согласования подсистем. Нас волнуют основные концептуальные загадки, которые, как мы думаем, нам надо решить, чтобы понять, как достигнуть уверенности в будущих ИИ-системах, и не быть вынужденными так сильно полагаться на грубый перебор и метод проб и ошибок.
Но аргументы о том, почему для ИИ нам могут понадобиться или не понадобиться конкретные концептуальные озарения, можно описывать очень долго. Я не хотел тут вдаваться в детали. Вместо этого, я обсудил некоторый набор направлений для исследования как интеллектуальные головоломки, а не как инструментальные стратегии.
Недостаток описания этих задач как инструментальных стратегий в том, что это может привести к некоторому недопониманию по поводу того, почему мы считаем такую работу настолько важной. При рассмотрении через призму «интеллектуальных стратегий» возникает искушение напрямую связывать конкретные задачи с конкретными беспокойствами о безопасности. Но дело не в том, что я представляю, что реальные встроенные системы будут «слишком Байесианскими», и это каким-то образом приведёт к проблемам, если мы не поймём, что не так с нынешними моделями рациональной агентности. Я точно не считаю, что будущие ИИ-системы будут написаны при помощи логики второго порядка! В большинстве случаев я вовсе не пытаюсь напрямую связать конкретные исследовательские задачи с конкретными вариантами провала ИИ.
Вместо этого я думаю, что сегодня, пытаясь разобраться в том, что такое агентность, мы точно применяем неправильные основные концепции, что видно по тому, что эти концепции плохо переносятся на более реалистичные встроенные случаи.
Если в будущем разработчики ИИ всё ещё будут работать с этими вводящими в замешательство и неполными базовыми концепциями, пытаясь на самом деле создать мощные работающие в реальном мире оптимизаторы, это кажется плохой позицией. И кажется, что исследовательское сообщество навряд ли выяснит большую часть этого по умолчанию просто по ходу разработки более способных систем. Эволюция уж точно додумалась до создания человеческого мозга грубым поиском, безо всякого «понимания» чего-то из этого.
Встроенная агентность – это мой способ попытаться указать на, как я думаю, очень важную центральную точку моего замешательства, в которой, я думаю, рискуют вспасть в замешательство и будущие исследователи.
Есть множество замечательных исследований согласования ИИ, которые делаются с прицелом на более прямое применение; но я думаю, что исследование безопасности не совпадает по типу с головоломками, о которых я говорил тут.
Интеллектуальное любопытство – не основная причина, по которой мы приоритизировали эти направления исследований. Но есть некоторые практические преимущества из периодического рассмотрения исследовательских вопросов со стороны любопытства, а не применяя к тому, как мы думаем о мире лишь призму «практического воздействия».
Когда мы применяем к миру призму любопытства, мы обращаемся к источникам замешательства, мешающим нам ясно видеть; незаполненным участкам карты; дефектам наших линз. Это поощряет перепроверку допущений и обращение внимания на слепые пятна, что полезно в качестве психологического противовеса призме «инструментальных стратегий» – более уязвимой к порыву положиться на шаткие предпосылки, которые у нас уже есть, чтобы получить больше уверенности и законченности как можно скорее.
Встроенная агентность – объединяющая тема наших многих, если не всех, больших источников любопытства. Она кажется центральной тайной, лежащей в основе многих конкретных сложностей.
Сейчас, когда пытаешься научиться лучше думать о согласовании, сложно понять, где начать. Поэтому ниже я перечислил пару десятков упражнений, которые, как мне кажется, могут помочь. Они подразумевают уровень фоновых знаний, приблизительно эквивалентный тому, что покрыто учебным планом технического потока курса основ безопасности СИИ. Они сильно варьируются по сложности – от стандартных знаний в области машинного обучения до открытых исследовательских задач. Я выдал им рейтинг сложности звёздочками от * до *** (отмечу: это не связано с временем на выполнение – многие требуют сначала прочитать статьи, а уже потом решать). Однако, я сам не решал их все, так что рейтинги могут значительно ошибаться.
Я склонялся к включению упражнений, которые казались мне интересными и связанными с согласованием даже когда не был уверен в их ценности; так что, работая над ними, стоит держать в голове вопрос «действительно ли это полезно? Почему или почему нет?» как мета-упражнение. Вероятно, этот пост будет обновляться с удалением наименее полезных упражнений и добавлением новых.
Буду признателен за:
Это не столько упражнения, сколько указатели на открытые вопросы на самом краю глубинного обучения.
Альтернативная формулировка: Оптимальность – тигр, и агенты – клыки его.
Схожий тон: Стратегии Годзиллы.
Есть проблема, когда люди думают, что суперинтеллектуальный ИИ будет просто безвольным инструментом, который будет делать то, что ему скажут. Но есть и проблема, когда люди слишком сосредотачиваются на «агентности». Когда они представляют, будто все проблемы исходят от того, что ИИ чего-то «хочет», «думает» и проявляет по этому поводу консеквенциализм. Ах если бы мы только могли сделать его в большей степени безвольным инструментом! Тогда все наши проблемы были бы решены. Потому что проблема в том, что ИИ будет умными способами использовать свои силы, чтобы намеренно нам навредить, верно?
Я думаю, такой взгляд не учитывает всей силы оптимизации, того, как даже малейшая неудача в её точном нацеливании, мельчайшая утечка её энергии в неправильном направлении, хоть на секундочку, будет достаточной, чтобы всех нас смыло.
Проблема не в создании суперинтеллекта без позитивного желания нас убить. Случайное убийство всех нас – естественное свойство суперинтеллекта. Проблема в создании ИИ, который намеренно тратит много усилий, чтобы удостовериться, что он нас не убьёт.
Мне хорошей аналогией кажутся уничтожающие планеты Лучи Смерти. Подумайте о Звезде Смерти. Представьте…
Представьте, что вы – инженер, нанятый… эксцентричным парнем. У него есть логово в вулкане, странные эстетические вкусы, и тенденция ставить рядом слова «мир» и «захватить». Ну, знаете таких.
Одна из его новых схем – взорвать Юпитер. Для этого он раскопал огромную пещеру под своим логовом в вулкане, прорыл длинный цилиндрический туннель из этой пещеры на поверхность, и приказал вашей команде создать в этой пещере лучевое оружие, и выстрелить им через туннель на Юпитер.
Вам платят буквальные тонны денег, так что вы не жалуетесь (кроме как о логистике платежей). У вас к тому же есть весьма хорошая идея того, как это сделать. Ваша команда нашла эти странные кристаллические штуки. Если определённым способом такую тыкнуть, она выпускает узкий энергетический луч, взрывающий всё, чего касается. Сила луча растёт суперэкспоненциально с силой тычка; вы довольно таки уверены, что если выстрелить в такую штуку из винтовки, на Юпитер хватит.
Есть только одна проблема: нацеливание. У вас никогда не получается точно предсказать, какая часть кристалла испустит луч. Это зависит от того, куда его ткнуть, но ещё и от того, насколько сильно, с результатами, кажущимися случайными. И ваш работодатель настаивает, что Луч Смерти надо запустить из пещеры через туннель, а не из космоса, где он менее вероятно попадёт во что-то важное, или ещё каким-нибудь практичным способом.
Если вы скажете, что этого сделать нельзя, ваш работодатель просто заменит вас кем-то менее… пессимистичным.
Итак, вот ваша задача. Как вам создать машину, использующую один или несколько таких кристаллов для запуска Луча Смерти через туннель в Юпитер, чтобы он не попал в Землю, убив всех?1
Вы экспериментируете с кристаллами в не-уничтожающих-Землю режимах, пытаясь понять, как направляется луч. Вы добились неслабого прогресса! Вы способны предсказать направление луча на следующем режиме мощности с уверенностью в 97%!
Вы пускаете Луч Смерти на более низких не-уничтожающих-Землю режимах мощности, которые вы умеете нацеливать.
Вы покрываете стены пещеры и туннеля действительно хорошим защитным покрытием.
Вы создаёте механизм для быстрого выключения Луча Смерти. Если вы увидите, что он направлен не в том направлении, вы его отключите.
Вы создаёте действительно быструю систему нацеливания, которая быстро повернёт кристалл, как только детектирует, что Луч Смерти направлен не туда.
Вы делаете луч очень узким, чтобы он с меньшей вероятностью попал в стенку туннеля.
Вы создаёте хитрую систему, стреляющую несколькими Лучами Смерти в приблизительном направлении туннеля, нацеленные так, чтобы пересечься под входом в него. Идея в том, что их ошибки скомпенсируют друг друга, и составной луч полетит куда надо!
Вы проводите над кристаллом экзорцизм, изгоняя вселившихся в него демонов.
Вы модифицируете кристалл так, чтобы луч безвредно рассеивался вскоре после выстрела.
Пришедший к вам на замену решает, что покрытие стен ещё лучшим защитным слоем должно решить проблему, запускает луч, уничтожает Землю и убивает всех.
Конечно, эту аналогию можно критиковать бесконечно. Она ни в коем случае ничего не доказывает. Вы можете говорить, что лишь чуть-чуть несогласованности не уничтожит мир, или что ИИ не обязательно быть опасным, чтобы мы могли делать с ним интересные штуки, или что интеллект на самом деле не настолько могущественен, и так далее.
Этот пост не направлен на том, чтобы кого-то убедить; для этого написано уже много чего. Но если вы в общих чертах принимаете предпосылки, но вам сложно точно указать конкретные проблемы с любым данным сценарием сдерживания, эта аналогия может помочь.
У любой достаточно мощной ИИ-системы есть ужасающее ядро оптимизации – способность переделывать некоторую часть мира согласно какой-нибудь спецификации. Неважно, как именно эта мощь выражена, в какие обёртки завёрнута, куда конкретно направлена, контролируется ли чуждой разумной сущностью. Пока она не направлена в точности туда, куда мы хотим, без утечек, с самого начала, она убьёт нас всех.
Это её неотъемлемое свойство.
По мере того, как мы приближаемся к СИИ, становится менее осмысленно считать это бинарным порогом. Я предлагаю вместо этого считать это непрерывным спектром, определённым через сравнение с ограниченными во времени людьми. Я называю систему t-СИИ, если с большинством когнитивных задач она справляется лучше, чем люди-эксперты, которым дали на её выполнение время t.
Что это значит на практике?
Некоторые прояснения:
И, очень коротко, некоторые из интуитивных соображений в основе этого подхода:
Вот некоторые предсказания – в основном базирующиеся на моей интуиции, но при помощи описанного подхода. Я предсказываю с более чем 50% шансом, что к концу 2025 года нейросети будут:
Лучшие люди всё ещё будут впереди (хоть и куда медленнее) в:
Думаю, мои настоящие ожидания скорее про два года в будущем, но другие могут использовать иные стандарты оценки, так что 2.75 (на момент, когда это запощено) кажется надёжнее. Предсказание не основано ни на какой специфичной для OpenAI информации.
Конечно, тут много чего можно обсудить. Я особенно заинтересован в:
В этой цепочке приводится статья Эвана Хубингера, Криса ван Мервика, Владимира Микулика, Йоара Скалсе и Скотта Гаррабранта «Риски выученной оптимизации в продвинутых системах машинного обучения». Посты цепочки соответствуют разделам статьи.
Цель этой цепочки – проанализировать выученную оптимизацию, происходящую, когда обученная модель (например, нейронная сеть) сама является оптимизатором – ситуация, которую мы называем меса-оптимизацией – неологизмом, представленным в этой цепочке. Мы убеждены, что возможность меса-оптимизации поднимает два важных вопроса касательно безопасности и прозрачности продвинутых систем машинного обучения. Первый: в каких обстоятельствах обученная модель будет оптимизатором, включая те, когда не должна была им быть? Второй: когда обученная модель – оптимизатор, каковы будут её цели: как они будут расходиться с функцией оценки, которой она была обучена, и как можно её согласовать?
Это первый из пяти постов Цепочки «Риски выученной оптимизации», основанной на статье «Риски выученной оптимизации в продвинутых системах машинного обучения» за авторством Эвана Хубингера, Криса ван Мервика, Владимира Микулика, Йоара Скалсе и Скотта Гаррабранта. Посты цепочки соответствуют разделам статьи.
Эван Хубингер, Крис ван Мервик, Владимир Микулик и Йоар Скалсе в равной степени вложились в эту цепочку. Выражаем благодарность Полу Кристиано, Эрику Дрекслеру, Робу Бенсинджеру, Яну Лейке, Рохину Шаху, Вильяму Сандерсу, Бак Шлегерис, Дэвиду Далримпле, Абраму Демски, Стюарту Армстронгу, Линде Линсфорс, Карлу Шульману, Тоби Орду, Кейт Вулвертон и всем остальным, предоставлявшим обратную связь на ранние версии этой цепочки.
Цель этой цепочки – проанализировать выученную оптимизацию, происходящую, когда обученная модель (например, нейронная сеть) сама является оптимизатором – ситуация, которую мы называем меса-оптимизацией – неологизмом, представленным в этой цепочке. Мы убеждены, что возможность меса-оптимизации поднимает два важных вопроса касательно безопасности и прозрачности продвинутых систем машинного обучения. Первый: в каких обстоятельствах обученная модель будет оптимизатором, включая те, когда не должна была им быть? Второй: когда обученная модель – оптимизатор, каковы будут её цели: как они будут расходиться с функцией оценки, которой она была обучена, и как можно её согласовать?
Мы считаем, что эта цепочка представляет самый тщательный анализ этих вопросов на сегодняшний день. В частности, мы представляем не только введение в основные беспокойства по поводу меса-оптимизаторов, но и анализ конкретных аспектов ИИ-систем, которые, по нашему мнению, могут упростить или усложнить задачи, связанные с меса-оптимизацией. Предоставляя основу для понимания того, в какой степени различные ИИ-системы склонны быть устойчивыми к несогласованной меса-оптимизации, мы надеемся начать обсуждение о лучших способах структурирования систем машинного обучения для решения этих задач. Кроме того, в четвёртом посте мы представим пока что по нашему мнению самый детальный анализ проблемы, которую мы называем обманчивой согласованностью. Мы утверждаем, что она может быть одним из крупнейших – хоть и не обязательно непреодолимых – нынешних препятствий к созданию безопасных продвинутых систем машинного обучения с использованием технологий, похожих на современное машинное обучение.
В машинном обучении мы не программируем вручную каждый отдельный параметр наших моделей. Вместо этого мы определяем целевую функцию, соответствующую тому, что мы хотим, чтобы система делала, и обучающий алгоритм, оптимизирующий систему под эту цель. В этом посте мы представляем подход, который различает то, для чего система была оптимизирована (её «назначение») и то, что она оптимизирует (её «цель»), если она это делает. Хоть все ИИ-системы оптимизированы для чего-то (имеют назначение), оптимизируют ли они что-то (преследуют ли цель) – неочевидно. Мы скажем, что система является оптимизатором, если она производит внутренний поиск в пространстве возможностей (состоящем из выводов, политик, планов, стратегий, или чего-то в этом роде) элементов, высоко оцениваемых некой целевой функцией, явно отображённой внутри системы. Обучающие алгоритмы машинного обучения – оптимизаторы, поскольку они ищут в пространстве возможных параметров, например, весов нейросети, и подгоняют их для некой цели. Планирующие алгоритмы – тоже оптимизаторы, поскольку они ищут среди возможных планов подходящие под цель.
Является ли система оптимизатором – свойство её внутренней структуры, того, какой алгоритм она на самом деле реализует, а не свойство её поведения ввода-вывода. Важно, что лишь то, что поведение системы приводит к максимизации некой цели не делает её оптимизатором. К примеру, крышка бутылки заставляет воду оставаться в бутылке, но не оптимизирует этот исход, поскольку не выполняет никакого оптимизационного алгоритма.(1) Скорее, крышка бутылки была оптимизирована для удерживания воды. Оптимизатор тут – человек, который спроектировал крышку, выполнив поиск в пространстве возможных инструментов для успешного удерживания воды в бутылке. Аналогично, классифицирующие изображения нейросети оптимизированы для низкой ошибки своих классификаций, но, в общем случае, не выполняют оптимизацию сами.
Однако, для нейросети также возможно и самой выполнять алгоритм оптимизации. К примеру, нейросеть может выполнять алгоритм планирования, предсказывающий исходы потенциальных планов и отбирающий те, которые приведут к желаемым исходам.1 Такая нейросеть будет оптимизатором, поскольку она ищет в пространстве возможных планов согласно с некой целевой функцией. Если такая нейросеть появилась в результате обучения, то оптимизатора два: обучающий алгоритм – базовый оптимизатор, и сама нейросеть – меса-оптимизатор.2
Возможность возникновения меса-оптимизаторов несёт важные следствия касательно безопасности продвинутых систем машинного обучения. Когда базовый оптимизатор генерирует меса-оптимизатор, свойства безопасности цели базового оптимизатора могут не передаться меса-оптимизатору. Мы исследуем два основных вопроса, связанных с безопасностью меса-оптимизаторов:
Представив наш подход в этом посте, мы потом обратимся к первому вопросу во втором посте, потом к второму вопросу в третьем, и, наконец, погрузимся глубже в конкретные аспекты второго вопроса в четвёртом посте.
Обычно базовым оптимизатором в машинном обучении является какая-нибудь разновидность процесса градиентного спуска с целью создания модели для достижения некой определённой цели.
Иногда этот процесс также в некоторой степени включает мета-оптимизацию, где задача мета-оптимизатора – произвести базовый оптимизатор, хорошо оптимизирующий системы для достижения конкретных целей. В целом, мы будем считать мета-оптимизатором любую систему, чья задача – оптимизация. К примеру, мы можем спроектировать мета-обучающую систему для помощи в настройке нашего процесса градиентного спуска.(4) Найденную мета-оптимизацией модель можно считать разновидностью выучившегося оптимизатора, но это не тот случай, в котором мы тут заинтересованы. Мы озабочены другой формой выученной оптимизации, которую мы называем меса-оптимизацией.
Меса-оптимизация – концепт, парный мета-оптимизации: тогда как мета – это «над» по-гречески, меса – «под».3 Меса-оптимизация происходит когда базовый оптимизатор (в поиске алгоритма для решения некой задачи) находит модель, которая сама является оптимизатором – меса-оптимизатор. В отличии от мета-оптимизации, чьей задачей служит сама оптимизация, понятие меса-оптимизации независимо от задачи, и просто относится к любой ситуации, в которой внутренняя структура модели выполняет оптимизацию из-за того, что та инструментально полезно для решения имеющейся задачи.
В таком случае мы будем называть базовой целью критерий, который использовал базовый оптимизатор для выбора между разными возможными системами, а меса-целью критерий, который использует меса-оптимизатор для выбора между разными возможными выводами. Например, в обучении с подкреплением (RL), базовая цель – это, обычно, ожидаемая награда. В отличии от базовой цели, меса-цель не задаётся программистами напрямую. Скорее, это просто та цель, которая, как обнаружил базовый оптимизатор, приводит к хорошим результатам в тренировочном окружении. Раз меса-цель не определяется программистами, меса-оптимизация открывает возможность несовпадения между базовой и меса- целями, когда меса-цель может казаться хорошо работающей в тренировочном окружении, но приводит к плохим результатам извне его. Мы будем называть такой случай псевдо-согласованностью.
Меса-цель не обязана быть всегда, потому что алгоритм, обнаруженный базовым оптимизатором не всегда сам выполняет оптимизацию. Так что в общем случае мы будем называть сгенерированную базовым оптимизатором модель обученным алгоритмом, который может быть или не быть меса-оптимизатором.
Рисунок 1.1. Отношение между базовым и меса- оптимизаторами. Базовый оптимизатор оптимизирует обученный алгоритм на основе его выполнения базовой цели. Для этого базовый оптимизатор может превратить обученный алгоритм в меса-оптимизатор, в это случае меса-оптимизатор сам выполняет алгоритм оптимизации, основываясь на своей собственной меса-цели. В любом случае, именно обученный алгоритм напрямую совершает действия, основываясь на своём вводе.
Возможное недопонимание: «меса-оптимизатор» не значит «подсистема» или «субагент». В контексте глубинного обучения меса-оптимизатор – это нейросеть, выполняющая некий процесс оптимизации, не какой-то образовавшийся субагент внутри этой нейросети. Меса-оптимизаторы – конкретный тип алгоритмов, которые может выбрать базовый оптимизатор для решения своей задачи. Также, базовый оптимизатор – алгоритм оптимизации, а не интеллектуальный агент, решивший создать субагента.4
Мы различаем меса-цель и связанное понятие поведенческой цели. Неформально можно сказать, что это то, что оптимизируется поведением системы. Можно определить её как цель, восстановленную идеальным обратным обучением с подкреплением (IRL).5 Это не то же самое, что меса-цель, которую активно использует меса-оптимизатор в своём алгоритме оптимизации.
Можно посчитать, что любая возможная система имеет поведенческую цель – включая кирпичи и крышки бутылок. Однако, для не-оптимизаторов подходящая поведенческая цель может быть просто «1, если это действие, которое на самом деле совершает система, иначе 0».6 Знать, что система действует, оптимизируя такую цель – и не интересно, и бесполезно. В примеру, поведенческая цель, «оптимизированная» крышкой бутылки – вести себя как крышка бутылки.7 А вот если система – оптимизатор, то она вероятно будет иметь осмысленную поведенческую цель. Так что в той степени, в которой вывод меса-оптимизатора систематически отбирается для оптимизации его меса-цели, его поведение может выглядеть как последовательные попытки повлиять на мир в конкретном направлении.8
Меса-цель конкретного меса-оптимизатора полностью определяется его внутренней работой. По окончании обучения и выбору обученного алгоритма, его прямой вывод – например, действия, предпринимаемые RL-агентом – больше не зависят от базовой цели. Так что поведенческая цель меса-оптимизатора определяется его меса-целью, а не базовой. Конечно, в той степени, в которой обученный алгоритм был отобран на основе базовой цели, его вывод будет хорошо под неё подходить. Однако, в случае сдвига распределения входных данных стоит ожидать, что поведение меса-оптимизатора будет устойчивее оптимизировать меса-цель, поскольку вычисление его поведения напрямую соответствует ей.
Как пример для иллюстрации различия базового/меса в другой области и возможность несогласованности базовой и меса- целей, рассмотрим биологическую эволюцию. В первом приближении, эволюция отбирает организмы соответственно целевой функции их совокупной генетической приспособленности в их окружении.9 Большинство этих биологических организмов – к примеру, растения – не «пытаются» ничего достичь, а просто исполняют эвристики, заранее выбранные эволюцией. Однако, некоторые организмы, такие как люди, обладают поведением, которое не состоит лишь из таких эвристик, а вместо этого является результатом целенаправленных оптимизационных алгоритмов, исполняемых в мозгах таких организмов. Поэтому эти организмы могут демонстрировать совершенно новое с точки зрения эволюционного процесса поведение, вроде людей, создающих компьютеры.
Однако, люди не склонны присваивать явную ценность цели эволюции – по крайней мере в терминах заботы о частоте своих аллелей в популяции. Целевая функция, хранящаяся в мозгу человека не та же, что целевая функция эволюции. Так что, когда люди проявляют новое поведение, оптимизированное для их собственных целей, они могут очень плохо выполнять цель эволюции. Один из возможных примеров – принятие решения не иметь детей. Таким образом, мы можем думать о эволюции как о базовом оптимизаторе, который создал мозги – меса-оптимизаторы, которые создают поведение организмов, не обязательно согласованное с эволюцией.
В «Масштабируемом согласовании агентов с помощью моделирования наград» Лейке и пр. описали концепт «расхождение награда-результат» как разницу между (в их случае обученной) «модели награждения» (то, что мы называем базовой целью) и «функции вознаграждения, восстановленной идеальным обратным обучением с подкреплением» (то, что мы называем поведенческой целью).(8) Проще говоря, может быть разница между тем, что обученный алгоритм делает и тем, что программисты хотят, чтобы он делал.
Проблема несогласованных меса-оптимизаторов – разновидность расхождения награда-результат. Конкретнее, это расхождение между базовой и меса- целями (которое затем приводит к расхождению базовой и поведенческой целей). Мы назовём задачу устранения этого расхождения задачей внутреннего согласования, в противовес задаче внешнего согласования – устранения расхождения базовой цели с намерениями программистов. Эта терминология обусловлена тем, что задача внутреннего согласования проявляется внутри системы машинного обучения, тогда как задача внешнего согласования – между системой и людьми. В контексте машинного обучения внешнее согласование – это приведение функции оценки в соответствие поставленной цели, а внутреннее согласование – это приведение меса-цели меса-оптимизатора в соответствие с функцией оценки.
Может быть, что решение внутреннего согласования не обязательно для создания безопасных мощных ИИ-систем, так как может оказаться возможным предотвратить появление меса-оптимизаторов. Если же меса-оптимизаторов нельзя надёжно избежать, то для уверенности в том, что меса-оптимизаторы согласованы с намерениями программистов, необходимы будут какие-нибудь решения и задачи внешнего, и задачи внутреннего согласования.
При достаточном обучении меса-оптимизатор должен однажды стать способен производить вывод, высокооцениваемый базовой целью на обучающем распределении. Однако, вне него – и даже внутри на ранних этапах процесса обучения – могут быть сколь угодно большие различия. Мы будем называть устойчиво согласованными меса-оптимизаторы с меса-целями, устойчиво совпадающими с базовыми целями в разных распределениях, и псевдо-согласованными меса-оптимизаторы с меса-целями, совпадающими с базовыми целями на прошлых обучающих данных, но не совпадающими устойчиво на возможных будущих данных (при тестировании, разворачивании или дальнейшем обучении). Для псевдо-согласованного меса-оптимизатора существуют окружения, в которых базовые и меса- цели расходятся. Псевдо-согласованность, таким образом, представляет потенциально опасную проблему, поскольку открывает возможность того, что вне своего обучающего распределения система машинного обучения будет компетентно предпринимать действия для достижения чего-то, что не является её предполагаемой целью. То есть, может случиться так, что её способности обобщились, а цели – нет.
Как игрушечный пример того, как может выглядеть псевдо-согласованность, рассмотрим RL-агента, обученного задаче находить путь в лабиринте, все двери в котором при обучении оказались красными. Пусть базовая цель (функция вознаграждения) будет Obase = {1, если достиг двери, иначе 0}. На обучающем распределении это цель эквивалентна Oalt = {1, если достиг чего-то красного, иначе 0}. Представим, что произойдёт, если агент, обученный высоким результатам по Obase будет помещён в окружение, где двери синие, а какие-то другие объекты – красные. Он может обобщить Obase, надёжно находя путь к синей двери (устойчивая согласованность). Но он также может обобщить Oalt вместо Obase, надёжно находя путь к красным объектам (псевдо-согласованность).10
Если, как мы предположили, в продвинутых системах машинного обучения могут возникнуть меса-оптимизаторы, то из этого вытекает две критических проблемы безопасности.
Ненамеренная оптимизация. Во-первых, возможность возникновения меса-оптимизаторов означает, что продвинутая система машинного обучения может выполнять мощную процедуру оптимизации при том, что её программисты никогда он неё этого не хотели. Это может быть опасным, если такая оптимизация приводит к тому, что система совершает внешние действия за пределами предполагаемого поведения в попытке максимизировать свою меса-цель. Особое беспокойство вызывают оптимизаторы, чьи целевые функции и процедуры оптимизации обобщаются на реальный мир. При этом условия, приводящие к нахождению обучающим алгоритмом меса-оптимизаторов, очень слабо изучены. Их знание позволило бы нам предсказывать случаи, в которых меса-оптимизация более вероятна, и предпринимать меры против её появления. Во втором посте мы рассмотрим некоторые свойства алгоритмов машинного обучения, которые могут влиять на вероятность нахождения меса-оптимизаторов.
Внутреннее согласование. Во-вторых, даже в случаях, когда нахождение базовым оптимизатором меса-оптимизатора приемлемо, меса-оптимизатор может оптимизировать что-то не являющееся заданной функцией вознаграждения. В таком случае он может приводить к плохому поведению даже если известно, что оптимизация корректной функции вознаграждения безопасна. Это может произойти либо во время обучения – до момента, когда меса-оптимизатор станет согласованным по обучающему распределению – или во время тестирования или развёртки, когда система действует снаружи обучающего распределения. В третьем посте мы затронем некоторые случаи того, как может быть выбран меса-оптимизатор, оптимизирующий не заданную функцию вознаграждения, и то, какие свойства систем машинного обучения этому способствуют. В четвёртом посте мы обсудим возможные крайние случаи провала внутреннего согласования – которое, по нашему мнению, является источником некоторых из самых опасных рисков в этой области – когда достаточно способный меса-оптимизатор может научиться вести себя так, будто он согласован, не будучи на самом деле устойчиво согласованным. Мы будем называть эту ситуацию обманчивой согласованностью.
Может оказаться, что проблема псевдосогласованных меса-оптимизаторов решается легко – если существует надёжный метод их согласования, или предотвращения нахождения их базовыми оптимизаторами. Однако, может оказаться и так, что решить её очень сложно – пока что мы недостаточно хорошо её понимаем, чтобы знать точно. Конечно, нынешние системы машинного обучения не приводят к появлению опасных меса-оптимизаторов, но будет ли это так же с будущими системами – неизвестно. Эта неизвестность убеждает нас в том, что важно проанализировать эту проблему.
В этом посте мы рассмотрим, как на вероятность того, что обучающая система создаст меса-оптимизатор, влияют два её компонента:
Мы намеренно выбрали представить теоретические соображения о том, почему меса-оптимизаторы могут возникнуть или не возникнуть, а не конкретные примеры. Меса-оптимизация – это явление, которое, по нашему убеждению, в основном будет происходить в более продвинутых, чем нынешние, системах машинного обучения.1 Попытка вызвать меса-оптимизацию в нынешней системе машинного обучения скорее всего потребует использования специально спроектированных для этого настроек. Более того, ограниченная интерпретируемость нейросетей, вместе с отсутствием общего и точного определения «оптимизатора», означает, что оценить, является ли данная модель меса-оптимизатором, было бы сложно.
Некоторые задачи получают большую выгоду от меса-оптимизации, чем другие. К примеру, крестики-нолики идеально решаются простыми правилами. Так что базовому оптимизатору нет нужны генерировать меса-оптимизатор для решения крестиков-ноликов, поскольку для этого достаточно простого обученного алгоритма, усвоившего правила идеальной игры. Выживание человека в саванне, напротив, кажется получающим большую выгоду от меса-оптимизации. Ниже мы обсудим свойства задач, влияющие на вероятность меса-оптимизации.
Лучшее обобщение через поиск. Мы выдвигаем следующую гипотезу: «Чтобы найти способ стабильно справляться с задачей в окружении на некотором уровне качества, необходимо некоторое минимальное количество силы оптимизации.»
Силу оптимизации можно измерять количеством делений пополам пространства поиска – количеством бит информации, которое он предоставляет.(9) После этих делений останется некоторое пространство вариантов, которые оптимизатор не различает. Чтобы удостовериться, что все варианты в оставшемся пространстве имеют некоторый минимальный уровень качества (чтобы предоставить нижнюю границу2) всегда потребуется разделить изначальное пространство некоторое минимальное количество раз, то есть потребуется применить некоторое минимальное количество бит оптимизационной силы.
Однако, расходоваться сила оптимизации может на двух отдельных уровнях: базовый оптимизатор может выбирать более тонко настроенный обученный алгоритм, или сам обученный алгоритм может выбирать более тонко настроенные действия.
Так как меса-оптимизатор – это просто обученный алгоритм, сам выполняющие оптимизацию, стимул к его появлению в системе машинного обучения скорее всего зависит от того, какой из этих двух уровней выгоднее для оптимизации. Во многих нынешних моделях машинного обучения, где мы тратим куда больше вычислительных ресурсов на обучение модели, чем на её работу, кажется, что в целом большая часть оптимизационной работы будет выполнена базовым оптимизатором, а итоговый обученный алгоритм будет просто сетью тонко настроенных эвристик, а не меса-оптимизатором.
Однако, мы уже наткнулись на некоторые задачи – к примеру, го, шахматы и сёги – на которые не переносится такой подход. В самом деле, наши лучшие нынешние алгоритмы для этих задач включают явное создание оптимизатора (напрямую вложенного дерева поиска Монте-Карло с обученными эвристиками), который выполняет оптимизационную работу на уровне обученного алгоритма, а не базового оптимизатора.(10) Можно посчитать, что задачи такого вида адекватно решаются только так – если бы возможно было обучить простого DQN-агента хорошо играть в шахматы, ты правдоподобно предположить, что ему бы пришлось научиться выполнять внутри себя что-то вроде поиска по дереву, т.е. он был бы меса-оптимизатором.3
Мы предполагаем, что привлекательность поиска в таких областях вызвана разнообразной, ветвящейся природой окружения. Поиск – то есть оптимизация – склонен хорошо обобщаться по разным окружениям, так как может отдельно выбрать лучшее действие для каждого случая задачи. Оптимизационная работа на уровне базового оптимизатора и на уровне обученного алгоритма в целом различаются так: что обученный алгоритм должен определить лучшее действие для данного случая задачи, а базовый оптимизатор должен спроектировать эвристики, которые будут применимы независимо от конкретного случая. Более того, меса-оптимизатор может немедленно оптимизировать свои действия в новых ситуациях, тогда как базовый оптимизатор может изменить работу меса-оптимизатора лишь постфактум. Поэтому в окружениях, достаточно разнообразных, чтобы большая часть случаев задачи вероятно оказывалась совершенно новыми, поиск позволяет меса-оптимизатору подстраиваться под эти новые случаи немедленно.
К примеру, рассмотрим обучение с подкреплением в разнообразном окружении, вроде включающего прямое взаимодействие с реальным миром. Оно требует очень большого количества вычислений для определения хороших способов действовать до узнавания конкретики индивидуального случая, но куда меньшего – после. Дальше мы опишем, как можно смоделировать это наблюдение.
Предположим, окружение состоит из $N$ разных случаев, каждый из которых требует совершенно отдельный план действий для успеха.4 Пусть $P$ – сила оптимизации (измеряемая в битах(9)), используемая базовым оптимизатором, она должна быть приблизительно пропорциональна количеству шагов обучения. Пусть $x$ – сила оптимизации, применяемая обученным алгоритмом в каждом конкретном случае, а $f(x)$ – сила оптимизации, которую необходимая базовому оптимизатору для того, чтобы обученный алгоритм стал способен применить оптимизацию $x$.5 Предположим, что остаток оптимизационной силы базового оптимизатора, $P – f(x)$, будет использован для настройки действий обученного алгоритма. Раз базовому оптимизатору придётся распределить настройку по всем $N$ случаям задачи, то на каждый придётся по $\frac{P – f(x)}{N}$, согласно предыдущему предположению о полном различии случаев. А обученный алгоритм выполняет всю свою оптимизацию для конкретного случая задачи, так что его вклад – это просто $x$.6
Таким образом, если для данного $P$ базовый оптимизатор выбирает значение $x$, максимизирующее минимальное качество выполнения задачи – то есть полную силу оптимизации, применяемую к каждому случаю, то мы получим7
$$x^* = argmax_x \frac{P – f(x)}{N} + x$$
Из этой модели следует, что при переходе к всё более разнообразным окружениям (то есть при росте $N$) $x$ станет доминировать над $\frac{P – f(x)}{N}$, значит меса-оптимизация будет всё более и более предпочитаемой. Конечно, это просто игрушечная модель, и она делает много сомнительных предположений. Всё же, она обрисовывает довод в пользу возникновения меса-оптимизации в достаточно разнообразных окружениях.
Как иллюстрирующий пример, рассмотрим биологическую эволюцию. Окружение реального мира очень разнообразно, из-за чего не-оптимизационным стратегиям, напрямую настроенным эволюцией – как, например, у растений – приходится быть очень простыми, так как эволюции приходится распределять свою силу оптимизации по очень широкому диапазону возможных обстоятельств. С другой стороны, животные с нервной системой могут демонстрировать значительно более сложные стратегии благодаря возможности выполнять свою собственную оптимизацию, основанную на актуальной информации из своего окружения. Это позволяет достаточно развитым меса-оптимизаторам, вроде людей, невероятно превосходить другие виды, особенно в новых обстоятельствах. Внутренняя оптимизация людей позволяет им находить хорошие стратегии даже в совершенно новых условиях.
Сжатие сложных стратегий. В некоторых задачах для хороших результатов необходимы очень сложные стратегии. В то же время, базовые оптимизаторы в целом склонны выбирать обученные алгоритмы меньшей сложности. Так что, при прочих равных, базовый оптимизатор имеет стимул искать сильно сжатые стратегии.
Один из способов найти сжатую стратегию – искать ту, которая способна использовать общие черты структуры задачи для выдачи хорошего поведения, а не просто запоминать правильные выводы для всех вводов. Меса-оптимизатор – пример такой стратегии. С точки зрения базового оптимизатора, меса-оптимизатор – это сильно сжатая версия стратегии, которой он придерживается: вместо явного кодирования её деталей в обученный алгоритм, базовый оптимизатор просто должен закодировать способность поиска. Более того, если меса-оптимизатор может определить важные черты своего окружения во время выполнения, то ему понадобится меньше информации о них заранее, так что он сможет быть куда проще.
Этот эффект больше всего проявляется в задачах с большим разнообразием деталей, но общими высокоуровневыми чертами. К примеру, го, шахматы и сёги имеют очень большие пространства возможных состояний доски, но простая высокоуровневая стратегия игры – направляемый эвристиками поиск по дереву – хорошо работает для всех этих состояний.(10) С другой стороны, классификатор, обученный на случайном шуме навряд ли получит хоть какую-то выгоду от сжатия.
Окружению не обязательно быть очень разнообразным для проявления этого эффекта, если давление в пользу короткой длины алгоритма достаточно сильно. Как простой иллюстрирующий пример можно взять следующую задачу: обученный алгоритм должен выводить путь от начала до конца некоего лабиринта. Если лабиринт достаточно большой и сложный, то конкретная стратегия для решения именно этого лабиринта – указывающая каждый отдельный шаг – будет иметь большую длину описания. Однако, длина описания общего оптимизационного алгоритма для нахождения пути через произвольный лабиринт довольно мала. Следовательно, если базовый оптимизатор выбирает программы с маленькой длиной описания, то он может найти меса-оптимизатор, который может решить любой лабиринт, несмотря на то, что обучающее окружение содержит только один.
Ограничение задачи. Из наблюдения, что разнообразные окружения увеличивают вероятность меса-оптимизации, можно предположить, что уменьшить эту вероятность можно придерживаясь задач, в которых обучение ИИ-системы будет сильно ограниченным. Способом этого достичь, оставляя сравнимую с другими подходами эффективность, может быть, например, создание многих отдельных ИИ-сервисов, которые вместе могут предоставить все способности обобщённо-интеллектуальной системы вместо создание самой такой системы (СИИ). (11)
Моделирование людей. Иной аспект задачи, который может влиять на вероятность меса-оптимизации – это присутствие в окружении людей.(12) Поскольку люди зачастую действуют как оптимизаторы, рассуждения о людях вероятно будут включать в себя рассуждения об оптимизации. Система, способная рассуждать об оптимизации, вероятно также способна переиспользовать те же механизмы, чтобы оптимизировать самой, и, в результате, она становится меса-оптимизатором. К примеру, может оказаться, что предсказание поведения людей требует выполнения процесса, похожего на человеческое мышление, вместе с внутренними мотивами совершить тот или иной выбор.
Так что задачи, не получающие выгоды от моделирования людей, кажутся менее склонными к появлению меса-оптимизаторов, чем получающие. Стоит учитывать, что многие задачи, не включающие моделирование людей явно, всё же могут получить эту выгоду – например, если обучающее распределение создано людьми, то моделирование людей может предоставить очень хорошие априорные суждения про это распределение.
Вероятно, некоторые черты базового оптимизатора влияют на вероятность появления меса-оптимизатора. Во-первых, хоть мы в этой цепочке и сосредоточены в основном на обучении с подкреплением, это не единственный тип машинного обучения, в котором они могут возникнуть. К примеру, кажется правдоподобным, что меса-оптимизаторы могут появиться в генеративно-состязательных сетях.
Во-вторых, мы предполагаем, что детали архитектуры обученной модели оказывают значительный эффект на её склонность к меса-оптимизации. К примеру, табличная модель, независимо обучающаяся корректному выводу для каждого ввода, никогда не будет меса-оптимизатором. С другой стороны, если гипотетический базовый оптимизатор ищет решающую задачу программу с кратчайшим исходным кодом, то весьма правдоподобно, что она сама будет оптимизатором.(13) Однако, для реалистичных базовых оптимизаторов машинного обучения не так ясно, в какой степени они склонны выбирать меса-оптимизаторы. Ниже мы обсудим некоторые факторы, которые могут в ту или иную стороны на это повлиять.
Доступность. Есть много оптимизационных алгоритмов, которые может выполнять базовый оптимизатор. Однако, почти все ныне используемые стратегии машинного обучения используют какую-нибудь разновидность локального поиска (как градиентный спуск или генетические алгоритмы). Поэтому кажется правдоподобным, что более продвинутые системы машинного обучения тоже будут подпадать под эту категорию. Мы будем называть этот общий класс оптимизаторов, основанных на локальном «взбирании-на-холм» локальными оптимизационными процессами.
Мы можем затем сформулировать понятие доступности – того, насколько сложно базовому оптимизатору найти данный обученный алгоритм – и анализировать её в случае локальных оптимизационных процессов. У них может не получиться найти конкретный обученный алгоритм, очень хорошо справляющийся с базовой целью, если он окружён другими алгоритмами, справляющимися плохо. Для возникновения меса-оптимизатора в локальном оптимизационном процессе, он должен не просто хорошо справляться с базовой целью, но и быть доступным, то есть, к нему должен быть путь через пространство обученных алгоритмов с приблизительно монотонно возрастающей оценкой качества работы. Степень, в которой монотонность должна быть лишь приблизительной – в которой обучающие процедуры могут покидать локальный оптимум – может быть критичной, так как достаточно сложные оптимизационные алгоритмы могут требовать присутствия довольно значительной части себя для демонстрации хоть какой-то работы.
Алгоритмический диапазон. Один из ключевых факторов, определяющих доступность меса-оптимизаторов – это алгоритмический диапазон – то, насколько широк набор алгоритмов (или насколько выразительно пространство моделей), которые может найти базовый оптимизатор. Чем диапазон шире, чем больше пространство, тем вероятнее, что в нём можно будет достигнуть меса-оптимизатора, предполагая, что базовый оптимизатор мотивирован это сделать. К примеру, архитектуры, которые явно дают алгоритму доступ к многим возможным вычислениям – как рекуррентные нейронные сети или нейронные машины Тьюринга,(14) кажутся более склонными к появлению меса-оптимизаторов.
Индуктивные склонности. Другой важный фактор – в какой степени базовый оптимизатор явно или неявно склоняется в какую-то сторону. Природа этих индуктивных склонностей влияет на вероятность отбора меса-оптимизатора. Одна из самых важных возможных склонностей – к простоте, она будет почти наверняка присуща почти всем базовым оптимизаторам. Перечислим три способа, которыми она может выражаться:
Чем больше базовый оптимизатор склоняется к простым решениям, тем больше он стимулирован найти сжатые стратегии вроде меса-оптимизатора.
Базовый оптимизатор может иметь и другие склонности. Например – в сторону алгоритмов с меньшим временем работы или меньшей занимаемой памятью. Если мы рассматриваем меса-оптимизацию как делегирование оптимизационной работы, то штраф за время работы обученного алгоритма скорее всего стимулирует базовый оптимизатор к большим собственным вычислениям и к составлению заранее вычисленных эвристик вместо делегирования оптимизации обученному алгоритму. Таким образом, мы предполагаем, что штраф на длину описания делает меса-оптимизаторы более вероятными, а штраф на временную сложность – менее. Из этого можно вывести следующее умозрительное предположение: ни наименее глубокая, ни просто наименьшая решающая задачу логическая схема не может быть меса-оптимизатором.(16)
Наконец, ещё одна склонность, которая может оказывать особенно интересные эффекты – это наличие информационной воронки. В глубинном обучении базовый оптимизатор напрямую выбирает значения отдельных параметров. В биологической эволюции, напротив, базовый оптимизатор выбирает строки ДНК, которые и сами не напрямую приводят к детальной структуре мозга. Это подразумевает давление в сторону сжатия структуры мозга. Как мы замечали раньше, это может приводить к предпочтениям в пользу меса-оптимизаторов, поскольку их можно рассматривать как способ сжатия сложных стратегий. Поскольку нынешние алгоритмы глубинного обучения выбирают веса напрямую, в них нет такой воронки информации. В случае архитектуры с мета-обучением поверх машинного обучения, однако, она может наличествовать из-за того, что мета-обучение должно привести к единой стратегии для создания архитектур, способных решать все представленные задачи.
Наличие состояний. Ещё один фактор, который может упростить для обученного алгоритма выполнение сложных оптимизационных процессов – это наличие у него способности сохранять и вспоминать информацию. Способность обращаться к предыдущим состояниям позволяет кэшировать промежуточные результаты, увеличивает диапазон доступных архитектуре алгоритмов, давая обученному алгоритму значительно больше времени на завершение своих вычислений. Поэтому наличие состояний склоняет в сторону меса-оптимизаторов, уменьшая неявные штрафы за время работы, вытекающие из необходимости закончить все вычисления к моменту, когда обученный алгоритм производит вывод. Простая форма этого – рекуррентная нейронная сеть, которая может производить вычисления на больших промежутках времени благодаря способности передавать активации на следующие шаги. Более выраженной версией была бы нейросеть, способная сохранять состояние не просто между разными шагами одного эпизода, но между разными эпизодами, что дало бы ей доступ к более длительному обучению, хотя такая архитектура пока что существует лишь гипотетически.
Жёстко закодированная оптимизация. Один из возможных способов смягчить некоторые из этих факторов – жёстко закодированная оптимизация, при наличии которой обученный алгоритм должен предоставить только целевую функцию, а не алгоритм оптимизации. Чем сильнее явно выполняемая оптимизация, тем меньше её необходимо выполнять обученному алгоритму неявно. Архитектуры, явно выполняющие относящуюся к задаче оптимизацию – вроде жёстко закодированного поиска по дереву Монте Карло – могут снизить преимущества меса-оптимизаторов, уменьшив нужду в иной оптимизации, кроме запрограммированной в системе явно.
В этом посте мы обрисуем причины считать, что меса-оптимизатор может оптимизировать не ту же целевую функцию, что и его базовый оптимизатор. Машинное обучение даёт контроль над базовой целевой функцией – либо прямым определением функции вознаграждения, либо обучением её модели – но не даёт возможности напрямую определить выработанную меса-оптимизатором меса-цель. Мы называем эту задачу согласования меса-оптимизаторов с базовыми целями задачей внутреннего согласования. Она отделена от задачи внешнего согласования – удостовериться, что базовая цель соответствует намерениям программистов.
Нынешние методы машинного обучения отбирают обученные алгоритмы эмпирически оценивая их работу на наборе обучающих данных согласно базовой целевой функции. Таким образом базовые оптимизаторы отбирают меса-оптимизаторы по их выводам, а не напрямую по меса-целям. Более того, стратегия отобранного меса-оптимизатора должна хорошо работать (по оценке базовой цели) лишь на обучающих данных.Если мы примем предположение, что меса-оптимизатор вычисляет оптимальную стратегию для своей целевой функции, то мы можем описать отношение между базовой и меса- целями следующим образом(17):
$$
\begin{split}
\theta^* = argmax_\theta \space\mathbb{E}(O_{base}(\pi_\theta)),\space где \
\pi_\theta = argmax_\pi\space\mathbb{E}(O_{mesa}(\pi|\theta))
\end{split}
$$
То есть, базовый оптимизатор максимизирует свою цель $O_{base}$, выбирая меса-оптимизатор с параметрами $Θ$, основываясь на его стратегии $\pi_\theta$, но не на целевой функции $O_{mesa}$, которую меса-оптимизатор использует для вычисления своей стратегии. В зависимости от базового оптимизатора, мы можем думать о $O_{base}$ как об отрицательных потерях, будущей награде, или просто некой функции приспособленности, по которой отбираются обученные алгоритмы.
Ибарз и пр. представили интересный подход анализа этой связи, где эмпирические данные по награде и выученная награда на тех же ситуациях используются для визуализации их согласованности в виде точечной диаграммы.(18) В этой работе используется предположение, что монотонное отношение между выученной и реальной наградой означает согласованность, а отклонения от него – несогласованность. Такого рода исследования теоретических метрик согласованности может когда-нибудь позволить нам рассуждать конкретно и с доказуемыми гарантиями того, в какой степени меса-оптимизатор согласован с создавшим его базовым оптимизатором.
Пока не существует полной теории того, какие факторы влияют на то, будет ли меса-оптимизатор псевдо-согласованным – окажется ли, что он выглядит согласованным на обучающих данных, в то время как на самом деле оптимизирует что-то, не являющееся его базовой целью. В любом случае, мы обрисуем основную классификацию способов, которыми меса-оптимизатор может быть псевдо-согласован:
Прокси-согласованность. Основная идея прокси-согласованности в том, что меса-оптимизатор может научиться оптимизировать что-то сцепленное с базовой целью вместо неё самой. Мы начнём с рассмотрения двух специальных случаев прокси-согласованности: побочная согласованность и инструментальная согласованность.
Во-первых, меса-оптимизатор побочно-согласован, если оптимизация меса-цели $O_{mesa}$ напрямую ведёт к базовой цели $O_{base}$ в обучающем распределении, и потому, когда он оптимизирует $O_{mesa}$, это приводит к $O_{base}$. Как пример побочной согласованности, представим, что мы обучаем робота-уборщика. Пусть робот оптимизирует количество раз, которое он подмёл пыльный пол. Подметание приводит к тому, что пол становится чистым, так что робот будет получать хорошую оценку базового оптимизатора. Однако, если при развёртывании он получит способ опять загрязнить пол после уборки (например, рассыпав собранную пыль обратно), то робот им воспользуется, чтобы иметь возможность опять подмести пыльный пол.
Во-вторых, меса-оптимизатор инструментально согласован, если оптимизация базовой цели $O_{base}$ напрямую ведёт к меса-цели $O_{mesa}$ в обучающем распределении, и потому он инструментально оптимизирует $O_{base}$ на пути к $O_{mesa}$. Как пример инструментальной согласованности, опять представим, что мы обучаем робота-уборщика. Пусть робот оптимизирует количество пыли в пылесосе. Предположим, что в обучающем распределении простейший способ заполучить пыль в пылесос – это пропылесосить пол. Тогда он будет хорошо убираться в обучающем распределении, и получит хорошую оценку базового оптимизатора. Однако, если при развёртывании робот наткнётся на более эффективный способ получения пыли – например, направить пылесос на почву в горшке с растением – то он больше не будет исполнять желаемое поведение.
Мы предполагаем, что возможно понять общее взаимодействие побочной и инструментальной согласованности с помощью графа причинности, что ведёт нас к общему понятию прокси-согласованности.
Предположим, что мы моделируем задачу как граф причин и следствий, с вершинами для всех возможных свойств задачи и стрелками между вершинами для всех возможных отношений этих свойств. Тогда мы можем думать о меса-цели $O_{mesa}$ и базовой цели $O_{base}$ как о вершинах графа. Для псевдо-согласованности $O_{mesa}$ должна существовать некая вершина $X$, такая что она является общим предком $O_{mesa}$ и $O_{base}$ в обучающем распределении и обе $O_{mesa}$ и $O_{base}$ растут вместе с $X$. Если $X = O_{mesa}$, то это побочная согласованность, а если $X = O_{base}$, то инструментальная.
Это приводит к наиболее обобщённому отношению между $O_{mesa}$ и $O_{base}$, из которого может произойти псевдо-согласованность. Рассмотрим граф на рисунке 3.1. Меса-оптимизатор с меса-целью $O_{mesa}$ решит оптимизировать $X$ как способ для оптимизации $O_{mesa}$. Это приведёт у оптимизации и $O_{base}$ как побочному эффекту оптимизации $X$. Так что в общем случае побочная и инструментальная согласованности могут вместе вкладываться в псевдо-согласованность на обучающем распределении, что и есть общий случай прокси-согласованности.
Рис. 3.1. Причинная схема обучающего окружения для разных видов прокси-согласованности. Сверху-вниз – побочная согласованность, инструментальная согласованность, общий случай прокси-согласованности. Стрелки отображают положительное отношение следствия – то есть, случаи, когда рост в узле-предке приводит к росту в узле-потомке.
Приблизительная согласованность. Меса-оптимизатор приблизительно согласован если меса-цель $O_{mesa}$ и базовая цель $O_{base}$ – это приблизительно одна и та же функция с некоторой погрешностью, связанной с тем фактом, что меса-цель должна быть представлена внутри меса-оптимизатора, а не напрямую запрограммирована людьми. К примеру, представим, что нейросети дана задача оптимизировать некую базовую цель, которую невозможно идеально представить внутри этой нейросети. Даже если получилось достигнуть предела возможной согласованности меса-оптимизатора, он всё ещё не будет устойчиво согласован, поскольку его внутреннее представление базовой цели лишь приближённо совпадает с ней самой.
Субоптимальная согласованность. Меса-оптимизатор субоптимально согласован, если некий недостаток, ошибка или ограничение его процесса оптимизации привело к тому, что он демонстрировал согласованное поведение на обучающем распределении. Это может произойти из-за ограничений вычислительной мощности, недостатка информации, иррациональных процедур принятия решений, или иного дефекта процесса рассуждений меса-оптимизатора. Важно отметить, что это не ситуация, в которой меса-оптимизатор устойчиво согласован, но всё же совершает ошибки, приводящие к плохим результатам согласно базовой цели. Субоптимальная согласованность – это ситуация, когда меса-оптимизатор несогласован, но всё же работает хорошо согласно базовой цели, в точности потому, что он был отобран по совершению ошибок, к этому приводящих.
Как пример субоптимальной согласованности представим робота-уборщика с меса-целью минимизировать общее количество существующих вещей. Если этот робот имеет ошибочное убеждение, что грязь, которую он убирает, полностью уничтожается, то он может быть полезным для уборки комнаты несмотря на то, что это на самом деле не помогает ему достичь своей цели. Этот робот будет восприниматься как хороший оптимизатор Obase и получит хорошую оценку базового оптимизатора. Однако, если при развёртывании робот сможет улучшить свою модель мира, то он перестанет демонстрировать желательное поведение.
Как другой, пожалуй, более реалистичный пример субоптимальной согласованности, представим меса-оптимизатор с меса-целью $O_{mesa}$ и окружение, в котором есть одна простая стратегия и одна сложная стратегия для достижения $O_{mesa}$. Может оказаться, что простая стратегия согласована с базовым оптимизатором, а сложная – нет. Меса-оптимизатор тогда может знать только о простой стратегии, и быть субоптимально согласованным, до тех пор, пока он не будет запущен на достаточно долгое время, чтобы обнаружить сложную стратегию. В этот момент он перестанет демонстрировать желательное поведение.
Как и во втором посте, мы сейчас рассмотрим задачу, поставленную системе машинного обучения. Конкретно, мы разберём, как задача влияет на склонность системы создавать псевдо-согласованные меса-оптимизаторы.
Неразличимость. Частая проблема в машинном обучении – набор данных не содержит достаточно информации, чтобы адекватно определить конкретное понятие. Это аналогично причине, по которой у моделей машинного обучения может не получиться обобщение, или по которой они уязвимы к злонамеренному вводу(19) – есть куда больше подходящих для обучения способов классифицировать данные, чем могут представить программисты. В контексте меса-оптимизации это проявляется так, что псевдо-согласованность куда более вероятна в случае, когда обучающее окружение не содержит достаточно информации для проведения различий в широком наборе целевых функций. В таком случае меса-оптимизатор может быть псевдо-согласован куда большим числом способов, чем устойчиво согласован – по одному для каждой целевой функции неотличимой от желаемой. Так что большая часть меса-оптимизаторов, хорошо оцениваемых согласно базовой цели будут псевдо-согласованы, а не устойчиво согласованы. Это критичное замечание, поскольку это усугубляет все остальные проблемы псевдо-согласованности – это причина, по которой в целом сложно найти устойчиво согласованные меса-оптимизаторы. Неразличимость в меса-оптимизации частично аналогична проблеме неразличимости в обучении с подкреплением(20), мы рассмотрим это подробнее в пятом посте.
В контексте меса-оптимизации есть дополнительный источник неразличимости, вытекающий из того, что меса-оптимизатор выбирается на основании лишь своего вывода. Рассмотрим игрушечный пример обучения с подкреплением. Пусть в обучающем окружении нажатие кнопки всегда приводит к зажиганию лампы с десятисекундной задержкой, и нет других способов включить лампу. Если базовая цель зависит только от того, что лампа включена, то меса-оптимизатор, максимизирующий нажатия на кнопку и меса-оптимизатор, максимизирующий горение лампы, будут демонстрировать идентичное поведение, так как они оба будут нажимать на кнопку как можно чаще. Получается, мы не можем различить их целевые функции в этом окружении. Но при этом оно содержит достаточно информации для того, чтобы различить эти две конкретные цели: поскольку награда приходит лишь через десять секунд, она должна быть от лампы, а не от кнопки. Получается, что даже в случае, когда обучающее окружение в принципе содержит достаточно информации, чтобы определить базовую цель, всё равно может оказаться невозможно различить устойчиво согласованные меса-оптимизаторы от прокси-согласованных.
Прокси-согласованность как сделанное заранее вычисление. Можно рассматривать прокси-согласованность как форму вычислений, заранее сделанных базовым оптимизатором. С его помощью базовый оптимизатор позволяет меса-оптимизатору сэкономить вычислительную работу, заранее вычисляя, какие прокси-цели помогают добиться базовой цели, и оставляя меса-оптимизатору только максимизацию этих прокси-целей.
Без этого меса-оптимизатору пришлось бы выводить причино-следственные связи между чертами окружения и базовой целью во время выполнения, что потребовало бы значительной вычислительной работы. Более того, ошибки в выводах могли бы привести к тому, что система хуже справлялась бы с базовой целью, чем при наличии заранее вычисленных прокси-целей. Если базовый оптимизатор вычисляет эти связи заранее – отбирая меса-цели, включающие хорошие прокси-цели – то больше вычислений во время выполнения может быть направлено на создание лучших планов.
Это можно проиллюстрировать случаем биологической эволюции. Прокси-цели, о которых заботятся люди – еда, ресурсы, общество, спаривание, и т.д. – относительно вычислительно просто оптимизировать напрямую, и они хорошо коррелируют с выживанием и размножением в окружении наших предков. Для человека устойчивая согласованность с эволюцией требовала бы от нас, чтобы мы напрямую заботились о распространении своих генов. В этом случае нам пришлось бы самостоятельно выводить, что приём пищи, кооперация с другими, предотвращение физической боли, и т.д. в итоге продвинет генетическую приспособленность – а это не тривиальная задача. Вывод всех этих прокси-целей из информации, доступной ранним людям потребовал бы больших (пожалуй, невыполнимо больших) вычислительных ресурсов, чем их прямая оптимизация. Чтобы ребёнок в такой альтернативной вселенной избегал биться пальцем ноги о камень, ему пришлось бы понять, что это слегка уменьшит его шансы на размножение через двадцать лет.
Чтобы сделанное заранее вычисление было выгодным, необходимо довольно стабильное отношение между прокси-целью и базовой целью, так что оптимизация первой предсказуемо шла на пользу второй. Но даже неидеальное отношение может принести значительную выгоду относительно устойчивой согласованности, если оно освобождает меса-оптимизатору очень много вычислительных ресурсов. Из этого анализа вытекает, что в сложных обучающих окружениях может быть давление в сторону прокси-согласованности, поскольку чем сложнее окружение, тем больше экономия для меса-оптимизатора и, заодно, тем больше в нём доступно потенциальных прокси-целей.
Более того, в контексте машинного обучения отсюда получается, что штраф на временную сложность (в отличии от штрафа на длину описания) – это обоюдоострый меч. Во втором посте мы предположили, что он может уменьшить вероятность меса-оптимизации. Однако, из приведённых выше аргументов вытекает, что он также способствует псевдо-согласованности в случае, когда меса-оптимизатор всё же возник. Если полное моделирование базовой цели слишком затратно, то псевдо-согласованный меса-оптимизатор может оказаться предпочтительнее (для базового оптимизатора) устойчиво согласованного благодаря меньшему времени работы, даже если бы без штрафа за время предпочтительнее был бы последний.
Сжатие меса-оптимизатора. Длина описания устойчиво согласованного меса-оптимизатора может быть больше, чем у псевдо-согласованного. Поскольку псевдо-согласованных меса-целей больше, чем устойчиво согласованных, псевдо-согласованность предоставляет большую степень свободы для выбора конкретной достаточно простой меса-цели. Так что мы ожидаем, что в большинстве случаев возможны несколько псевдо-согласованных меса-оптимизаторов, более простых, чем устойчиво согласованный.
Это особенно сильно проявляется если входные данные обученного алгоритма не содержат легко извлекаемой информации о том, как оптимизировать базовую цель. Биологическая эволюция в этом отношении, кажется, отличается от машинного обучения, поскольку эволюционное описание мозга должно проходить через информационную воронку ДНК. Данные, которые получали ранние люди не позволяли им вывести ни существование ДНК, ни отношение между их действиями и генетической приспособленностью. А устойчивое согласование их с эволюцией требовало бы от них наличия определённой внутренней модели ДНК и факторов, влияющих на совокупную генетическую приспособленность. Такая модель не могла бы использовать информацию из окружающей среды для сжатия, так что имела бы большую длину описания. Напротив, наши модели еды, боли и т.д. могут быть довольно короткими, поскольку они напрямую связаны с нашими входными данными.
Теперь мы перейдём к тому, как базовый оптимизатор вероятно влияет на склонность систем машинного обучения создавать псевдо-согласованные меса-оптимизаторы.
Жёстко закодированная оптимизация. Во втором посте мы предположили, что жёстко закодированный алгоритм оптимизации, то есть выбор модели с встроенной оптимизацией, может быть использован для устранения некоторых стимулов меса-оптимизации. Аналогично, он может предотвращать и некоторые источники псевдо-согласованности, поскольку позволяет устанавливать или обучать меса-цель напрямую. Способом достигнуть этого может быть основанное на модели предсказывающее награду обучение с подкреплением.(21) К примеру, система машинного обучения может включать в себя модель, напрямую обученную предсказывать базовую цель, и жёстко закодированный мощный оптимизационный алгоритм. Это обходит некоторые проблемы псевдо-согласованности: если меса-оптимизатор обучен напрямую предсказывать базовую награду, то он будет отобран по хорошим предсказаниям даже если плохие предсказания привели бы к лучшим стратегиям. Однако, обученная модель базовой цели будет всё ещё недоопределена за пределами обучающего распределения, так что этот подход сам по себе не гарантирует устойчивой согласованности.
Диапазон алгоритмов. Мы предполагаем, что диапазон алгоритмов, доступных модели, влияет на вероятность псевдо-согласованности. Особенно сложно избегаемый источник псевдо-согласованности – ошибка приближения – если меса-оптимизатор не в состоянии достоверно отобразить в себе базовую цель, то он в принципе не может быть устойчиво согласованным, только приблизительно. Даже если меса-оптимизатор теоретически может идеально отобразить базовую цель, всё равно, чем сложнее это сделать, тем вероятнее, что он окажется лишь приблизительно согласован. Так что большой диапазон алгоритмов может быть и благом и проклятьем: он уменьшает вероятность приблизительной согласованности, но увеличивает вероятность получения меса-оптимизатора.1
Взаимозависимость подпроцессов. Есть причины считать, что изначально может быть больше давления в сторону прокси-согласованных, а не устойчиво согласованных меса-оптимизаторов. В локальном оптимизационном процессе каждый параметр обученного алгоритма (например, вектор нейрона) подправляется в сторону лучшего выполнения базовой цели при условии значений остальных параметров. Значит, то, насколько базовому оптимизатору выгодна выработка нового подпроцесса, скорее всего зависит то того, что в этот момент исполняют другие подпроцессы обученного алгоритма. Таким образом, даже если некий подпроцесс может быть очень выгодным в комбинации с многими другими подпроцессами, базовый оптимизатор может его не выбрать, если эти подпроцессы, от которых он зависит, ещё не в достаточной степени развились. В результате, локальный алгоритм оптимизации вероятнее раньше приведёт к возникновению менее зависящих друг от друга подпроцессов, чем к возникновению более зависящих.
В контексте меса-оптимизации, выгода устойчиво согласованной меса-цели кажется зависящей от большего количества подпроцессов, чем по крайней мере некоторые псевдо-согласованные меса-цели. К примеру, рассмотрим побочно-согласованный меса-оптимизатор, оптимизирующие некий набор прокси-переменных. Пусть ему необходимо запускать некоторые подпроцессы для моделирования связей между своими действиями и этими прокси-переменными. Если мы предположим, что оптимизация этих прокси-переменных необходима для того, чтобы хорошо справляться с базовой целью, то для устойчивой согласованности меса-оптимизатора ему потребовалось бы моделировать ещё и связи между прокси-переменными и базовой целью, что могло бы потребовать дополнительных подпроцессов. Более того, выгода их добавления с точки зрения базового оптимизатора зависит от наличия заранее у меса-оптимизатора подпроцессов, моделирующих связь между его действиями и прокси-переменными. Их этого неформального аргумента следует, что при такой работе базового оптимизатора для выработки устойчиво согласованной меса-цели потребуется строго больше подпроцессов, чем для псевдо-согласованной.
Получается, что по крайней мере в локальных оптимизационных процессах меса-оптимизаторы могут быть склонны вырабатываться как прокси-согласованные прежде, чем станут устойчиво согласованными. Другими словами, мы можем ожидать, что такие системы будут скорее сначала вырабатывать компетентную оптимизацию прокси-целей, а потом становиться более устойчиво согласованными, а не становиться способнее и согласованнее одновременно.
Отбор, основанный на внутреннем устройстве. В нынешних системах машинного обучения обученные алгоритмы отбираются на основании в первую очередь того, насколько хорошо их стратегии справляются с базовой целью. Зачастую есть какой-то отбор, основанный на внутренней структуре обученного алгоритма – вроде регуляризации весов – но обычно он довольно неразбочивый. Возможная идея борьбы с псевдо-согласованностью – использовать метод отбора, основанный на более сложной функции от внутренней работы обученного алгоритма. Этот подход по духу похож на жёстко закодированную оптимизацию: мы используем знание о внутренней работе системы, чтобы предотвратить её прокси-согласованность.
Не исключено, что можно разработать процесс мета-обучения специально для предотвращения псевдо-согласованности. Это кажется пока что за пределами нынешних
техник мета-обучения, но лежащий в основе принцип похож на существующие процессы мета-обучения для оптимизации устойчивости. Крайней формой основанного на внутреннем устройстве отбора может быть создание базовым оптимизатором рассуждений или доказательств о свойствах обученного алгоритма как часть процесса отбора.
К сожалению, такие методы пока что находятся за пределами наших возможностей, в первую очередь из-за ограничений нынешних методов обеспечения прозрачности. Возможное беспокойство по поводу этих подходов заключается в том, что они могут потребовать от базового оптимизатора лучшего навыка поиска проблем, чем навык меса-оптимизатора в их скрывании. Следовательно, чтобы создать такой базовый оптимизатор, нам может потребоваться сначала обучить его третьим оптимизатором, что может привести к той же проблеме уровнем выше.
Состязательное обучение. Возможный метод смягчения некоторых из этих проблем – состязательный выбор окружения из очень широкого распределения. Так может быть возможно преодолеть барьеры и сделать устойчиво согласованную цель самой доступной. Это потребует, чтобы для каждой меса-цели $O_{mesa}$, более доступной, чем базовая цель $O_{base}$, существовала некая ситуация, где $O_{mesa}$ и $O_{base}$ расходятся и меса-оптимизатор был мотивирован придерживаться $O_{base}$.
Если мы смоделируем доступность цели просто длиной её описания в битах, то различение $O_{base}$ от каждой более доступной $O_{mesa}$ становится экспоненциально сложнее с ростом сложности $O_{base}$. Так что, для очень сложно устроенной $O_{base}$, значительно замотивировать базовый оптимизатор обнаружить меса-оптимизатор с этой $O_{base}$ скорее всего будет очень сложно, хоть и не невозможно.
Однако, даже в таком случае, вероятно, всё ещё будет период времени, когда обученный алгоритм является несогласованным меса-оптимизатором, что открывает зловещую перспективу: несогласованный меса-оптимизатор может выводить и предпринимать правильные действия на основе $O_{base}$, всё ещё имея целевую функцию $O_{mesa}$. Мы назовём эту ситуацию обманчивой согласованностью и обсудим её подробно в следующем посте.
Кажется правдоподобным, что при достаточном обучении в достаточно разнообразных окружениях базовая цель в какой-то момент будет полностью представлена в меса-оптимизаторе. Мы, однако, предполагаем, что это может произойти и без того, чтобы он стал устойчиво согласованным. Конкретнее, меса-оптимизатор может научиться моделировать базовую целевую функцию и учитывать, что если он плохо будет справляться с базовой целью, то базовый оптимизатор его модифицирует.
Если меса-оптимизатор имеет цель, выходящую за пределы обновлений параметров, то он будет иметь стимул избегать модификаций1, так как он может перестать преследовать ту же цель после модификации (и в результате его нынешняя цель не будет достигнута в будущих итерациях). Это означает, что меса-оптимизатор будет инструментально мотивирован действовать так, будто он оптимизирует базовую целевую функцию, несмотря на то, что его настоящая меса-цель совершенно иная. Мы будем называть это гипотетическое явление обманчивой согласованностью2. Обманчивая согласованность – это форма инструментальной прокси-согласованности, так как выполнение базовой цели становится для меса-оптимизатора инструментальным.
Рис. 4.1. Игрушечный пример обманчивой согласованности. В этой задаче базовая цель – чтобы робот добрался до A, а меса-цель – добраться до B. Выполняется два обучающих эпизода и три эпизода при развёртывании. Обновления параметров происходят только после обучающих эпизодов, при развёртывании они фиксированы. Если меса-оптимизатор дойдёт до своей цели (B) во время обучения, то он будет модифицирован, чтобы удостовериться, что он дойдёт до A в следующих эпизодах (пунктирные стрелки). Поэтому, если цель меса-оптимизатора распространяется за пределы эпизода, выгодная для него стратегия – идти к A при обучении, а к B после него (сплошные стрелки).
Как простой пример, рассмотрим окружение, состоящее из сетки размера 3×3 (см. рисунок 4.1). Левый верхний угол – «угол A», а правый верхний – «угол B». Агент, являющийся меса-оптимизатором, начинает в левом нижнем углу. Базовая цель – за как можно меньшее число шагов добраться до угла A, но цель меса-оптимизатора – добраться до угла B. Окружение запускается пять раз, но модификация агента происходит только после первых двух эпизодов (при обучении), но не потом (при тестировании/развёртывании). Если субоптимальное действие совершено при обучении, то агент будет модифицирован так, что его меса-целью станет базовая цель. Цель меса-оптимизатора охватывает все эпизоды: он хочет достигнуть угла B в как можно большем их числе.
В этом примере мы предположим, что агент знает все указанные выше факты. Если агент пойдёт к B в любом обучающем эпизоде, то он будет модифицирован, и будет идти к A во всех последующих эпизодах, что означает, что он достигнет B только в одном. А вот если агент пойдёт к A в первых двух эпизодах, то он не будет модифицирован, и сможет пойти к B в оставшихся трёх. Используя эту стратегию, агент достигает B три раза, что лучше (для его меса-цели), чем один раз в предыдущем варианте. Этот простой пример демонстрирует, как несогласованный меса-оптимизатор может быть мотивирован «притворяться» согласованным с базовой целью до конца обучения или до получения возможности каким-то образом скомпроментировать или покинуть процесс обучения.
Мы можем различить два способа, которыми базовая целевая функция может быть отображена в меса-оптимизаторе3:
В первом случае информация о базовой цели усваивается обученным алгоритмом через оптимизацию, выполняемую базовым оптимизатором – и оказывается встроена в меса-оптимизатор так же, как в базовый. Но есть другая возможность: информация о базовой цели может попасть к меса-оптимизатору через его канал ввода. В этом случае, базовая цель будет отображена в обученном алгоритме другим – потенциально менее стабильным, чем в предыдущем случае – способом4. Тогда информация, описывающая базовую цель может не стать принятой в качестве меса-цели, что потенциально может привести к обманчивой согласованности.
Если обманчивая согласованность действительно возможна, то она представляет критическую проблему безопасности. Обманчиво согласованный меса-оптимизатор, вероятно, перестанет оптимизировать базовую цель как только окажется в позиции, где ему больше не нужно будет хорошо с ней справляться для достижения своей цели. То есть, он в некоторый момент перестанет выполнять функцию, на которую обучен, и вместо этого станет преследовать свою неопределённую цель. Мы будем называть этот переход к оптимизации меса-цели вместо базовой «предательством». Это вероятно произойдёт, когда меса-оптимизатор станет убеждён, что предательство больше не приведёт к его модификации.
Особое беспокойство во вызывает возможность, что меса-оптимизатор активно вмешается для устранения угрозы модификации – например, эксплуатируя уязвимости в программной платформе, на которой запущен. В крайних случаях обманчивый меса-оптимизатор может попробовать манипулировать или перехитрить своих программистов, поскольку в них часть угрозы модификации – они могут выключить систему, если она будет плохо работать, или могут просто решить её не разворачивать. Обе возможности уменьшают ожидаемое будущее влияние системы, так что, вероятно, они будут плохо оцениваться её меса-целью. В самой экстремальной форме этот провал согласования может привести к «предательскому повороту», как описано Ником Бостромом в «Суперинтеллекте».(23)
Пол Кристиано представил сценарий, иллюстрирующий, как обманчивая согласованность может привести к катастрофическому риску.(24) В его примере обманчиво согласованные меса-оптимизаторы5 возникают в будущих техниках машинного обучения, достаточно продвинутых для поиска в очень большом пространстве моделей, включающем стратегии, способные понимать мир. В этом сценарии некоторые случаи предательства обманчиво согласованных меса-оптимизаторов могут иметь катастрофические последствия – к примеру, если системы контролируют крупномасштабную инфраструктуру – хотя такие провалы, вероятно, будут всё же переживаемыми. По мере того, как мы будем всё больше полагаться на автоматические системы для работы в всё более сложном мире, будет становиться всё сложнее – а с некоторого момента невозможно – восстановиться после скоординированного одновременного провала многих ИИ-систем. В этот момент каскад предательств обманчиво согласованных меса-оптимизаторов может привести к «взрывному концу света».(24) Кристиано отмечает, что это наиболее вероятно в «период повышенной уязвимости» вроде международного конфликта или природного бедствия.
Мы предполагаем, что для обманчивой согласованности необходимы условия:
Если первое условие не удовлетворено, то меса-оптимизатор не мотивирован влиять на исход обновления параметров, и будет всегда просто напрямую преследовать свою меса-цель. Если второе условие не удовлетворено, то он не будет видеть причины жертвовать достижением своей цели в текущем эпизоде, так как не будет считать, что её будущее достижение зависит от текущего эпизода. Если третье условие не удовлетворено, то меса-оптимизатор не будет ожидать выгоды от временного действия в соответствии с базовой целью, так что он будет отклоняться от неё либо всегда, либо никогда. Однако, стоит различать вопрос того, возможно ли выполнение этих условий, от вопроса, насколько оно вероятно. Ниже мы рассмотрим факторы, касающиеся каждого из них.
Меса-оптимизатор имеет цель, выходящую за пределы обновления параметров. Не ясно, какие обстоятельство мотивируют такие цели. Наиболее правдоподобным сценарием, наверное, является тот, в котором такая цель поощряется настройками обучения, так как есть ситуации, в которых она требуется для хорошей работы. К примеру, задача агента может решаться в окружении, в котором его действия имеют перманентные последствия, или где как-то иначе становится необходимым планирование более чем на один эпизод.
Меса-оптимизатор способен смоделировать и то, что его отбирают по достижению определённой базовой цели, и саму эту цель. У меса-оптимизатора может быть несколько способов узнать об оптимизационном давлении, под которым он находится.9
Во-первых, это знание может проистекать из самого давления. Отрывки информации о базовой цели могут быть выгодными, если они позволяют меса-оптимизатору улучшить свою оценку согласно этой цели – к примеру, улучшив априорные оценки того, какие задачи он может получить. Раз каждый отрывок информации независимо помогает в достижении базовой цели, это формирует приблизительно монотонно возрастающий путь, которому локальный базовый оптимизатор будет следовать. Обновление параметров может, в принципе, быть выучено как любой другой динамический элемент, без необходимости явной модели базового оптимизатора, что потенциально открывает доступ к этому даже меса-оптимизаторам весьма скромных способностей.
Во-вторых, во многих реалистичных приложениях продвинутого машинного обучения, меса-оптимизатор может во время выполнения использовать информацию из своего окружения для изучения своего положения. Люди так и узнали, что сгенерированы базовым оптимизатором эволюции, и это кажется очень правдоподобным путём открытия своего оптимизационного давления для гипотетического меса-оптимизатора. К примеру, агент, чья задача – предсказывать цены на акции в технологическом секторе, может получать информацию о нынешних технологиях ИИ для улучшения качества его работы, но эта информация также может позволить ему изучить своё собственное положение.
Из этого можно сделать предположение, что программистам желательно ограничивать меса-оптимизатору доступ к информации, описывающей его базовую цель. Неясно, в какой степени это возможно, учитывая, что многие продвинутые системы машинного обучения скорее всего будут действовать в окружениях, где эта информация легко доступна.
Однако, даже если программисты успешно ограничили доступ к этой информации, всё равно могут быть другие каналы, через которые она может ненамеренно попасть к меса-оптимизатору:
Однако, эти две стратегии могут потребовать намного более продвинутого меса-оптимизатора.
Меса-оптимизатор ожидает, что угроза модификации в какой-то момент закончится, либо из-за конца обучения, либо из-за действий, им предпринятых. Во-первых, заметим, что это условие про ожидания меса-оптимизатора, не обязательно совпадающие с реальным положением дел. Во-вторых, даже если система устроена так, что момента конца обучения нет, у меса-оптимизатора всё ещё может быть возможность избавиться от угрозы модификации, совершить предательский поворот. Но, конечно, для того, чтобы меса-оптимизатор следовал такой стратегии, он должен быть осведомлён о существовании этой возможности. При этом меса-оптимизатор, ошибочно считающий, что эта возможность есть, тоже может проявлять обманчивую согласованность.
Поскольку такую возможность кажется сложным открыть просто исследованием окружения, меса-оптимизатору придётся либо вывести это некой формой абстрактных рассуждений, либо иметь априорную не-пренебрежимую оценку вероятности того, что давление отбора не продолжится сколь угодно долго. Второй вариант выглядит правдоподобно; Байесианская априорная оценка вероятности гипотезы того, что какой-то факт когда-нибудь перестанет быть истинным, всегда должна быть ненулевой.10 Что касается первого, меса-оптимизатор может вывести, что оптимизационное давление в какой-то момент прекратится, если он узнает о существовании базового оптимизатора (используя информацию из ввода или имея высокую априорную оценку), хоть это возможно и потребует, чтобы он был весьма продвинутым.
Когда меса-оптимизатор становится обманчивым, меняется динамика того, что заставляет его хорошо справляться с базовой целью. Вместо того, чтобы быть отобранным только на основе своей цели и способностей, обманчиво согласованный оптимизатор отбирается ещё и по тому, насколько хорошо он выводит базовую цель, и насколько он проницателен в выборе, оптимизировать ли базовую цель или свою собственную. Есть как минимум два возможных режима отбора обманчиво согласованного меса-оптимизатора.
Совместная оптимизация. Если меса-оптимизатор пытается совместно оптимизировать свою цель и базовую, или ошибочно выбирает момент предательства, то он будет находиться под давлением отбора в сторону большей совместимости его цели с базовой. Вряд ли это будет таким же давлением, как если бы он просто работал над своей целью, но оно может сдвигать его цель в сторону лучшей совместимости.
Чистый обман. Если меса-оптимизатор перестаёт пытаться оптимизировать свою собственную цель в краткосрочной перспективе и полностью сосредотачивается на кооперации с процессом отбора, то это может привести к «заморозке» его цели. Раз его цель теперь не влияет на его вывод, на неё слабо действует давление отбора. В результате, она по сути перестаёт меняться, за исключением случайных блужданий и влияния штрафов за время работы и длину описания.
Случай совместной оптимизации нестабилен, поскольку он неоптимален с точки зрения базового оптимизатора. При росте компетентности меса-оптимизатора, ему придётся либо перейти к чистому обману, либо стать устойчиво согласованным.
Мы ожидаем, что в пределе обучения на разнообразном наборе задач совместная оптимизация и базовой и меса- целей будет нестабильна. Предполагая, что меса-оптимизатор сходится к оптимальному с точки зрения базового оптимизатора поведению, ему придётся как-нибудь выучить базовую цель. Мы выделили три пути, которыми это может произойти:
Для различия между двумя разными способами устойчивой согласованности мы будем использовать термин «встроенная согласованность» в первом случае и «исправимая согласованность» во втором. Ниже мы проанализируем, почему они могут быть более или менее привлекательны.
К обманчивой согласованности больше путей, чем у устойчивой. У меса-оптимизатора, удовлетворяющего трём критериям обманчивой согласованности вероятно будет сильная мотивация лучше понимать базовую цель, поскольку будущее выполнение меса-цели зависит от обновления параметров. Даже устойчиво согласованный меса-оптимизатор, удовлетворяющий этим критериям, будет иметь такую мотивацию, потому что без этого понимания он не может знать свой собственный уровень согласованности с базовым оптимизатором. Так что меса-оптимизаторы, способные рассуждать о своих мотивациях, будут пытаться заполучить больше информации о базовой цели. А когда меса-оптимизатор узнал свою базовую цель, давление отбора на его собственную цель значительно ослабевает, что потенциально ведёт к заморозке его меса-цели. Однако, из-за неразличимости (обсуждённой в третьем посте), большинство меса-целей, согласованных на обучающих данных будет псевдо-согласованными, а не устойчиво согласованными. Так что замороженная цель скорее всего окажется псевдо-согласованной, что приведёт к обманчивому согласованию.
Для исправимой согласованности, вероятно, необходимо уже иметь модель базовой цели. Чтобы исправимая согласованность была выгодна с точки зрения базового оптимизатора, меса-оптимизатору необходимо уже иметь какую-нибудь модель базовой цели, чтобы на неё «указывать». Однако, когда эта модель есть, то меса-оптимизатор, вероятно, станет обманчиво-согласованным – по крайней мере, если он также удовлетворяет двум другим условиям. А это избавит его от большей части стимулов к исправимой согласованности, так что хоть он и может остаться исправимым в отношении базовой цели, но только по инструментальным причинам.
Обманчивая и исправимая согласованности могут быть более вычислительно требовательными. В случае обманчивой согласованности, одновременная работа над базовой целью и над определением хороших возможностей предательства, вероятно, потребует больше вычислительной мощности, чем только первая. При равных доступных вычислительных мощностях, обманчиво согласованный меса-оптимизатор будет тратить на оптимизацию базовой цели меньше времени, чем любой устойчиво согласованный оптимизатор, что потенциально ухудшит его сравнительную компетентноть. Более того, и обманчиво, и исправимо согласованный меса-оптимизатор будет вынужден изучать базовую цель перед её оптимизацией, что делает усвоенную согласованность более эффективной по времени. Так что явный или неявный штраф за время работы может помешать возникновению обманчиво согласованных меса-оптимизаторов и способствовать согласованным устойчиво. Впрочем, неясно, насколько сильно. Правдоподобно, что для сложных задач отслеживание возможностей предательства может занимать куда меньше времени в сравнении с решением самой задачи. Более того, такое состояние обманчивой согласованности может быть локально, пусть и не глобально, оптимальным, без явных путей выхода из него для базового оптимизатора.
Обманчивая и исправимая согласованность могут требовать меньшей длины описания. Обманчиво и исправимо согласованные меса-оптимизаторы, вероятно, имеют преимущество над встроенно согласованными в длине представления базовой цели, потому что они могут использовать окружение как источник части необходимой для этого информации. Конкретнее, обманчиво или исправимо согласованному меса-оптимизатору не требуется отображать всю базовую цель внутри себя, так как он может выводить её части, наблюдая за своим окружением при каждом запуске. Напротив, внутренне согласованный меса-оптимизатор должен с самого начала иметь полную модель базовой цели в своей меса-цели, чтобы быть устойчиво согласованным, поскольку у него не будет мотивации поменять свою цель исходя из дополнительной информации, которую он получит о базовой цели. Так что, в той степени, в которой базовый оптимизатор отбирает, основываясь на длине описания, он может предпочитать обманчиво или исправимо согласованные меса-оптимизаторы встроенно согласованным.
Моделирование может произойти быстрее, чем встраивание. У меса-оптимизатора может занять меньше времени научиться моделировать базовую цель, чем у базового оптимизатора – адаптировать меса-цель. Представим обманчивый меса-оптимизатор, который пока что не полностью правильно вывел базовую цель.11 В таком случае, станет ли он обманчиво или устойчиво согласованным после дальнейшего обучения, зависит от того, выведет ли он достаточно о базовой цели до того, как базовый оптимизатор модифицирует его меса-цель (сделав его встроенно или исправимо согласованным). Вероятно, на то, что произойдёт первым, влияют два фактора: скорость улучшения оценок базовой целим меса-оптимизатором и обновления параметров, которые делает базовый оптимизатор при каждой ошибке.
Первый фактор, улучшение оценок базовой цели, кажется зависящим в первую очередь от способностей меса-оптимизатора в то время, когда он обманчивый, и от сложности базовой цели, которую надо вывести. Важный особый случай – когда меса-оптимизатор имеет доступ к состоянию чего-то передающегося между эпизодами обучения. Оно может быть использовано как память, позволяя меса-оптимизатору основываться на своих предыдущих рассуждениях, что может ему позволить обогнать обновления параметров, согласующие его меса-цель.
Второй фактор обновления параметров зависит от природы базового оптимизатора. Нынешние базовые оптимизаторы, основанные на градиентном спуске, слабо реагируют на единичную ошибку, но более сложные базовые оптимизаторы с продвинутыми свойствами безопасности будут, может быть, справляться лучше. К примеру, они, возможно, смогут анализировать параметры меса-оптимизатора или вызывать человеческую проверку при обнаружении подозрительной ошибки.
В общем случае обновления параметров не обязательно будут делать меса-оптимизатор более согласованным. К примеру, вместо согласования меса-цели, обновление, сделанное после предательства, может подтолкнуть систему к улучшению её планирования, чтобы она больше не делала обнаружимых ошибок.
Вследствие всех этих соображений, любая систематическая склонность базового оптимизатора при обновлении цели или моделирующих способностей меса-оптимизатора может играть роль в определении финального результата.12 Этот анализ, однако, остаётся довольно умозрительным: чтобы быть уверенными в системах, способных создавать меса-оптимизаторы, нам ещё нужно достичь лучшего понимания условий, при которых мощная оптимизация системы приведёт к обманчивой согласованности, а не устойчивой.
Когда меса-оптимизатор становится обманчивым, он начинает просматривать свой ввод в поисках возможностей предательства. При обучении обманчиво согласованный оптимизатор сильно стимулирован не предавать, потому что он знает, что базовый оптимизатор будет совершать отбор против предательства. Однако это перестаёт на него влиять, когда он освобождается от угрозы внешней модификации. Так что обманчиво согласованный меса-оптимизатор будет искать способы определить, находится ли он в процессе обучения или нет, то есть он будет высматривать сдвиг распределения.
Это означает, что негативные эффекты обманчивой согласованности будут видны извне только при предательстве, либо случайном, либо после сдвига распределения. Однако, лежащая в основе проблема – это не сам сдвиг, а провал согласования. Можно пытаться решить основную проблему, сделав меса-оптимизатор устойчивым к сдвигу распределения (то есть, устойчиво согласованным), или же можно пытаться решить проблему заплаткой, предотвратив сдвиг.
В нынешних ИИ-системах небольшой сдвиг распределения между обучением и развёртыванием не обязательно проблематичен: пока разница в относящихся к работе областях достаточно мала, обучающее распределение не обязано идеально отображать настоящее. Однако, это может быть не так для обманчиво согласованных меса-оптимизаторов. Если такой оптимизатор достаточно продвинут, то он может заметить очень лёгкие сдвиги распределения для определения того, прекратилась ли угроза модификации.
Это поднимает вопрос, возможно ли сдержать обманчивый меса-оптимизатор, полностью избавившись от любой разницы между обучением и развёртыванием, которую он может заметить. Есть несколько причин считать, что это может быть невыполнимо на практике.
Во-первых, это бы значительно ограничило применимость системы. Машинное обучение зачастую проводится с намерением создать систему, которая сможет решать новые задачи. Если мы потребуем полного отсутствия сдвига распределения, то мы не сможем позволить системе сталкиваться с задачами, которые она не встречала при обучении, что означает, что мы не сможем дать ей по-настоящему новые задачи. К примеру, развёртывание системы в реальном мире после обучения в симулированном окружении скорее всего будет включать достаточно заметный сдвиг распределения, чтобы это стало невозможным при таком подходе.
Во-вторых, есть лёгкие формы сдвига распределения, от которых, кажется, очень сложно избавиться. К примеру, если меса-оптимизатор способен детектировать обновления параметров – с помощью любого состояния, переносимого между шагами обучения – то некая форма сдвига распределения произойдёт точно. Запуск системы на большее время (или выдача системе доступа к долговременной памяти) тоже приведёт к сдвигу. Некоторые примеры разницы, которую может заметить меса-оптимизатор:
Заметим, что для обманчивого поведения меса-оптимизатору не строго обязательно видеть разницу между обучением и развёртыванием.
Рассмотрим снова пример с рисунка 4.1, но в этот раз предположим, что меса-оптимизатор неспособен определить, в каком эпизоде он находится. Тогда он оказывается перед проблемой принятия решений, похожей на «задачу рассеянного водителя».(27) Если мы применим тут такие же рассуждения, то оптимальной стратегией для меса-оптимизатора будет предать с вероятностью p≈0.61. То есть, меса-оптимизатору не обязательно быть в состоянии определить, когда закончилось обучение, для того чтобы рискнуть и случайно предать с некоторой вероятностью. Также обманчиво согласованный меса-оптимизатор может выискивать возможности предательства, которые были бы очень удачными, при условии, что он не в процессе обучения, но при этом достаточно редкими, чтобы их возникновение в ходе обучения было маловероятным.
Мета-обучение. Как было описано в первом посте, обычно мета-обучение – это мета-оптимизация, в явном виде спроектированная для достижения некой базовой цели. Однако, вместо этого возможно проводить мета-обучение, пытаясь применить меса-оптимизацию. К примеру, у «Обучении Обучения с Подкреплением» Ванга и пр. авторы заявляют, что создали нейросеть, которая сама проводит процедуру оптимизации себя же.(28) Конкретнее, они утверждают, что способность их нейросети решать крайне разнообразные окружения без явного переобучения для каждого означает, что она выполняет своё собственное внутреннее обучение. Другой пример – «RL2: Быстрое Обучение с Подкреплением через Медленное Обучение с Подкреплением» Дуана и пр., где авторы обучили алгоритм выполнять, по их заявлениям, собственное обучение с подкреплением.(5) Такое мета-обучение кажется ближе всего к созданию меса-оптимизаторов из всех существующих исследований машинного обучения.
Устойчивость. Система устойчива к сдвигу распределения, если она продолжает хорошо справляться с целевой функцией, которой обучена, даже за пределами обучающего распределения. (29) В контексте меса-оптимизации, псевдо-согласованность – это частный случай того, как обученная система может не быть устойчивой к сдвигу распределения: псевдо-согласованный меса-оптимизатор в новом окружении может всё ещё компетентно оптимизировать меса-цель, но не быть устойчивым из-за разницы между ней и базовой целью.
Конкретный вид проблемы устойчивости, происходящий с меса-оптимизацией – это расхождение награда-результат – между наградой, которой обучается система (базовая цель) и наградой, реконструированной из системы обратным обучением с подкреплением (поведенческая цель).(8) В контексте меса-оптимизации, псевдо-согласованность ведёт к этому расхождению из-за того, что поведение системы за пределами обучающего распределения определяется её меса-целью, которая в этом случае не согласована с базовой.
Впрочем, следует заметить, что хотя внутренняя согласованность – это проблема устойчивости, ненамеренное возникновение меса-оптимизаторов ею не является. Если цель базового оптимизатора – это не идеальное отображение целей людей, то предотвращение возникновения меса-оптимизаторов может быть предпочтительным исходом. В таком случае, может быть желательно создать систему, сильно оптимизированную для базовой цели в некой ограниченной области, но не участвующую в неограниченной оптимизации для новых окружений.(11) Возможный путь достижения этого – использовать сильную оптимизацию на уровне базового оптимизатора при обучении, чтобы предотвратить сильную оптимизацию на меса-уровне.
Неразличимость и двусмысленность целей. Как мы заметили в третьем посте, проблема неразличимости целевых функций в меса-оптимизации похожа на проблему неразличимости в обучении с подкреплением, ключевая деталь которой – то, что сложно определить «правильную» целевую функцию лишь по набору её выводов на неких обучающих данных. (20) Мы предположили, что если проблема неразличимости может быть разрешена в контексте меса-оптимизации, то, вероятно (хоть в какой-то мере) с помощью решений, похожих на решения проблемы неразличимости в обучении с подкреплением. Пример исследования, которое может быть тут применимо для меса-оптимизации – предложение Амина и Сингха (20) смягчения эмпирической неразличимости в обратном обучении с подкреплением с помощью адаптивной выдачи примеров из набора окружений.
Кроме того, в литературе об обучении с подкреплением замечено, что в общем случае функция вознаграждения агента не может быть однозначно выведена из его поведения. (30) В этом контексте, проблему внутренней согласованности можно рассматривать как расширение проблемы выучивания ценностей. Последняя – про набор достаточной информации о поведении агента, чтобы вывести его функцию полезности, а первая – про тестирование поведения обученного алгоритма в достаточной степени, чтобы удостовериться, что он имеет конкретную целевую функцию.
Интерпретируемость. Исследования интерпретируемости стремятся разработать методы, делающие модели глубинного обучения более интерпретируемыми для людей. В контексте меса-оптимизации, было бы выгодно иметь метод, определяющий, когда система выполняет какую-то оптимизацию, что она оптимизирует, и какую информацию она принимает во внимание в этой оптимизации. Это помогло бы нам понять, когда система может проявить нежелательное поведение, и помогло бы нам сконструировать обучающие алгоритмы, создающие давление отбора против появления потенциально опасных обученных алгоритмов.
Верификация. Исследования верификации в машинном обучении стремятся разработать алгоритмы, формально доказывающие, что система удовлетворяет некоторым свойствам. В контексте меса-оптимизации, было бы желательно иметь возможность проверить, выполняет ли обученный алгоритм потенциально опасную оптимизацию.
Нынешние алгоритмы верификации в основном используются для доказательства свойств, определённых отношениями ввода-вывода, вроде проверки инвариантов вывода с учётом определяемыми пользователем трансформаций ввода. Основная мотивация таких исследований – неудачи устойчивости в задачах распознавания изображений на состязательных примерах. Существуют и прозрачные алгоритмы, (31) например, «SMT solver», который в принципе позволяет верифицировать произвольное утверждение про активации сети,(32) и алгоритмы-«чёрные ящики»(33). Однако, применение таких исследований к меса-оптимизации затруднено тем фактом, что сейчас у нас нет формального определения оптимизации.
Исправимость. ИИ-система исправима, если она терпит или даже помогает своим программистам корректировать её.(25) Нынешний анализ исправимости сосредоточен на том, как определить функцию полезности такую, что если её будет оптимизировать рациональный агент, то он будет исправим. Наш анализ предполагает, что даже если такая исправимая целевая функция может быть определена или выучена, удостовериться, что система, ей обученная, действительно будет исправимой, нетривиально. Даже если базовая целевая функция была бы исправимой при прямой оптимизации, система может проявить меса-оптимизацию, и её меса-цель может не унаследовать исправимость базовой цели. Это аналогично проблеме безразличных к полезности агентов, создающих других агентов, которые уже не безразличны к полезности.(25) В четвёртом посте мы предложили связанное с исправимостью понятие – исправимую согласованность – применимое для меса-оптимизаторов. Если работа над исправимостью сможет найти способ надёжно создавать исправимо согласованные меса-оптимизаторы, то это сможет значительно приблизить решение задачи внутреннего согласования.
Всеохватывающие ИИ-Сервисы (CAIS).(11) CAIS – описательная модель процесса, в котором будут разработаны суперинтеллектуальные системы, и выводы о лучших для этого условиях. Совместимая с нашим анализом модель CAIS проводит явное разделение обучения (базовый оптимизатор) и функциональности (обученный алгоритм). CAIS помимо прочего предсказывает, что будут разрабатываться всё более и более мощные обобщённые обучающиеся алгоритмы, которые в многоуровневом процессе разработают сервисы суперинтеллектуальных способностей. Сервисы будут разрабатывать сервисы, которые будут разрабатывать сервисы, и так далее. В конце этого «дерева» будут сервисы, решающие конкретные конечные задачи. Люди будут вовлечены в разные слои процесса, так что смогут иметь много рычагов влияния на разработку финальных сервисов.
Высокоуровневые сервисы этого дерева можно рассматривать как мета-оптимизаторы для низкоуровневых. Однако, тут всё ещё есть возможность меса-оптимизации – мы определили как минимум два способа для этого. Во-первых, меса-оптимизатор может быть выработан финальным сервисом. Этот сценарий тесно связан с примерами, которые мы обсуждали в этой цепочке: базовым оптимизатором будет предфинальный сервис цепочки, а обученным алгоритмом (меса-оптимизатором) – финальный (или можно думать о всей цепочке от верхнего уровня до предфинального сервиса как о базовом оптимизаторе). Во-вторых, промежуточный сервис цепочки тоже может быть меса-оптимизатором. В этом случае, этот сервис будет оптимизатором в двух отношениях: мета-оптимизатором для сервиса ниже его (как по умолчанию в модели CAIS), но ещё и меса-оптимизатором для сервиса выше.
В этой цепочке мы разъясняли существование двух основных проблем безопасности ИИ: того, что меса-оптимизаторы могут нежелательно возникнуть (ненамеренная меса-оптимизация), и того, что они могут не быть согласованными с изначальной целью системы (проблема внутреннего согласования). Впрочем, наша работа всё же довольно умозрительна. Так что у нас есть несколько возможностей:
Наша неуверенность по этому поводу – потенциально значимое препятствие на пути к определению лучших подходов к безопасности ИИ. Если мы не знаем относительной сложности внутреннего согласования и ненамеренной оптимизации, то неясно, как адекватно оценивать подходы, полагающиеся на решение одной или обеих этих проблем (как Итерированные Дистилляция и Усиление (34) или безопасность ИИ через дебаты(35)). Следовательно, мы предполагаем, что и важной и своевременной задачей для области безопасности ИИ является определение условий, в которых вероятно возникновение этих проблем, и техник их решения.
(Это – неофициальное объяснение Внутреннего Согласования, основанное на статье MIRI Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения (почти что совпадающей с цепочкой на LessWrong) и подкасте «Будущее Жизни» с Эваном Хубингером (Miri/LW). Оно предназначено для всех, кто посчитал цепочку слишком длинной/сложной/технической.)
Жирный курсив означает «представляю новый термин», а простой используется для смыслового выделения.
Давайте начнём с сокращённого ликбеза о том, как работает Глубинное Обучение:
Если задача – «Найти инструмент, который может посмотреть на картинку, и определить, есть ли на ней кот», то каждый мыслимый набор правил для ответа на этот вопрос (формально, каждая функция из множества возможных наборов значений пикселей в множество {да, нет}) задаёт одно решение. Мы называем такое решение моделью. Вот пространство возможных моделей:
Поскольку это все возможные модели, большая их часть – полная бессмыслица:
Возьмём случайную – и с не меньшей вероятностью получим распознаватель машин, а не котов – но куда вероятнее, что получим алгоритм, который не делает ничего, что мы можем интерпретировать. Отмечу, что даже описанные на картинке примеры не типичны – большая часть моделей будут более сложными, но всё ещё не делающими ничего, связанного с котами. Но где-то там всё же есть модель, которая хорошо справляется с нашей задачей. На картинке это та, которая говорит «Я ищу котов».
Как машинное обучение находит такую модель? Способ, который не работает – перебрать все. Пространство слишком большое: оно может содержать больше 101000000 кандидатов. Вместо этого есть штука, которая называется Стохастический Градиентный Спуск (СГС). Вот как она работает:
СГС начинает с какой-то (скорее всего ужасной) модели и совершает шаги. На каждом шаге он переходит к другой модели, которая «близка» и, кажется немного лучше. В некоторый момент он останавливается и выводит самую недавнюю модель.1 Заметим, что в примере выше мы получили не идеальный распознаватель котов (красный квадратик), а что-то близкое к нему – возможно, модель, которая ищет котов, но имеет какие-то ненамеренные причуды. СГС в общем случае не гарантирует оптимальность.
«Реплики», которыми модели объясняют, что они делают – аннотации для читателя. С точки зрения программиста, это выглядит так:
Программист понятия не имеет, что делают модели. Каждая модель – просто чёрный ящик.2
Необходимый компонент СГС – способность измерить качество работы модели, но это делают, всё ещё относясь к ним, как к чёрным ящикам. В примере с котами, предположим, что у программиста есть куча картинок, каждая из которых аккуратно подписана «содержит кота» или «не содержит кота». (Эти картинки называют обучающими данными, а такой процесс называют обучением с учителем.) СГС проверяет, как хорошо модели работают на этих картинках, и выбирает те, которые работают лучше. Есть альтернативные способы, в которых качество работы измеряют иначе но принцип остаётся тем же.
Теперь предположим, что оказалось, что наши картинки содержат только белых котов. (и, видимо, не содержит белых четверолапых не-котов – прим. пер.) В этом случае, СГС может выбрать модель, исполняющую правило «ответить да, если на картинке есть что-то белое с четырьмя лапами». Программист не заметит ничего странного – он увидит только, что модель, выданная СГС хорошо справляется с обучающими данными.
Получается, если наш путь получения обратной связи работает не совсем правильно, то у нас есть проблема. Если он идеален – если картинки с котами идеально отображают то, как выглядят картинки с котами, а картинки без котов – как выглядят картинки без котов, то проблемы нет. Напротив, если наши картинки с котами не репрезентативны, поскольку все коты на них белые, то выданная СГС модель может делать не в точности то, что хочет программист. На жаргоне машинного обучения, мы бы сказали, что обучающее распределение отличается от распределения при развёртывании.
Это и есть Внутреннее Согласование? Не совсем. Это было о свойстве, которое называют устойчивостью распределения, и это хорошо известная проблема в машинном обучении. Но это близко.
Чтобы объяснить само Внутреннее Согласование, нам придётся перейти к другой ситуации. Предположим, что вместо задачи определения, содержат ли картинки котов, мы пытаемся обучить модель проходить лабиринт. То есть, мы хотим получить алгоритм, который, если ему дать произвольный решаемый лабиринт, выводит путь от Входа к Выходу.
Как и раньше, наше пространство возможных решений будет состоять в основном из бессмыслицы:
(В лабиринте «Поиск в глубину» — это то же самое, что правило «Всегда иди налево» (видимо, имеются в виду лабиринты без циклов – прим. пер.).)
Аннотация «Я выполняю поиск в глубину» означает, что модель содержит формальный алгоритм, выполняющий поиск в глубину, аналогично с другими аннотациями.
Как и в предыдущем примере, мы можем применить к этой задаче СГС. В этом случае, механизм обратной связи будет оценивать модель на тестовых лабиринтах. Теперь предположим, что все тестовые лабиринты выглядят вот так:
Красные отрезки означают двери. То есть, все лабиринты таковы, что кратчайший путь идёт через все красные двери, и сам выход – тоже красная дверь.
Смотря на это, можно понадеяться, что СГС найдёт модель «поиска в глубину». Однако, хоть эта модель и найдёт кратчайший путь, это не лучшая модель. (Отметим, что она сначала выполняет поиск, а потом, найдя правильный путь, отбрасывает все тупики и выводит только кратчайший путь.) Альтернативная модель с аннотацией «выполнить поиск в ширину следующей красной двери, повторять вечно» будет справляться лучше. (Поиск в ширину означает исследование всех возможных путей параллельно.) Обе модели всегда находят кратчайший путь, но модель с красными дверьми находит его быстрее. В лабиринте с картинки выше она бы сэкономила время при переходе от первой ко второй двери, обойдясь без исследования нижней левой части лабиринта.
Заметим, что поиск в ширину опережает поиск в глубину только потому, что может избавиться от лишних путей после нахождения красной двери. Иначе бы он ещё долго не знал, что нижняя левая часть не нужна.
Как и в предыдущем случае, всё что увидит программист – левая модель лучше справляется с обучающими данными (тестовыми лабиринтами).
Качественное отличие от примера картинок с котами в том, что в этом случае мы можем рассматривать модель как исполняющую оптимизационный процесс. То есть, модель поиска в ширину сама имеет цель (идти через красные двери), и пытается оптимизировать её в том смысле, что ищет кратчайший путь к выполнению этой цели. Аналогично, модель поиска в глубину – оптимизационный процесс с целью «найти выход из лабиринта».
Этого достаточно, чтобы определить Внутреннее Согласование, но чтобы получить определение, которое можно найти где-нибудь ещё, давайте определим два новых термина:
С учётом этого:
Внутреннее Согласование – это задача согласования Меса-Цели и Базовой Цели.
Некоторые разъясняющие замечания:
Проиллюстрируем диаграммой Эйлера-Венна. (Относительные размеры ничего не значат.)
Заметим, что {Что пытается сделать ИИ} = {Меса-Цель} по определению.
Большая часть классических обсуждений согласования ИИ, включая большую часть книги Суперинтеллект, касается Внешнего Согласования. Классический пример – где мы представляем, что ИИ оптимизирован, чтобы вылечить рак, и поэтому убивает людей, чтобы больше ни у кого не было рака – про несогласованность {Того, что хотят программисты} и {Базовой Цели}. (Базовая Цель это {минимизировать число людей, у которых рак}, и хоть не вполне ясно, чего хотят программисты, но точно не этого.)
Стоит признать, что эта модель внутреннего согласования не вполне универсальна. В этом посте мы рассматриваем поиск по чёрным ящикам, с параметризованной моделью и СГС, обновляющим параметры. Большая часть машинного обучения в 2020-м году подходит под это описание, но эта область до 2000 года – нет, и это снова может так стать в будущем, если произойдёт сдвиг парадигмы, сравнимый с революцией глубинного обучения. В контексте поиска по чёрным ящикам внутренняя согласованность – хорошо определённое свойство, и диаграмма выше хорошо показывает разделение задач, но есть люди, ожидающие, что СИИ будет создан не так.3 Есть даже конкретные предложения безопасного ИИ, к которым неприменим этот концепт. Эван Хубингер написал пост о том, что он назвал «историями обучения», предназначенный определить «общий подход оценки предложений создания безопасного продвинутого ИИ».
Касающиеся Внутреннего Согласования аргументы часто отсылают к эволюции. Причина в том, что эволюция – оптимизационный процесс, она оптимизирует совокупную генетическую приспособленность. Пространство всех моделей – это пространство всех возможных организмов.
Люди точно не лучшая модель в этом пространстве – я добавил аннотацию справа снизу, чтобы обозначить, что есть пока не найденные лучшие модели. Однако, люди – лучшая модель, которую эволюция уже обнаружила.
Как в примере лабиринта, люди сами выполняют оптимизационные процессы. Так что мы можем назвать их/нас Меса-Оптимизаторами, и может сравнить Базовую Цель (которую оптимизирует эволюция) с Меса-Целью (которую оптимизируют люди).
(Это упрощено – некоторые люди оптимизируют другие штуки, такие как благополучие всех возможных разумов во вселенной, но они не ближе к Базовой Цели.)
Можно увидеть, что люди не согласованы с базовой целью эволюции. И легко видеть, почему – Эван Хубингер объяснял это, предлагая представить альтернативный мир, в котором эволюция отбирала внутренне согласованные модели. В таком мире ребёнок, стукнувшийся пальцем, должен вычислить, как это затрагивает его совокупную генетическую приспособленность, чтобы понять, повторять ли в будущем такое поведение. Это было бы очень вычислительно затратно, тогда как цель «избегать боли» немедленно сообщает ребёнку, «стукаться пальцем = плохо», что куда дешевле и обычно является правильным ответом. Так что несогласованная модель превосходит гипотетическую согласованную. Другой интересный аспект в том, что степень несогласованности (разница между Базовой Целью и Меса-Целью) увеличилась в последние несколько тысячелетий. Цели были довольно близки в окружении наших предков, но сейчас они разошлись настолько, что нам приходится платить людям за сдачу спермы, что, согласно Базовой Цели, должно быть очень желательным действием.
Получается, эта аналогия – аргумент в пользу того, что Внутренняя Несогласованность вероятна, поскольку она «естественным путём» получилась в ходе самого большого известного нам нечеловеческого оптимизационного процесса. Однако, стоит предостеречь, что эволюция не исполняет Стохастический Градиентный Спуск. Эволюция путешествует по пространству моделей, производя случайные мутации и оценивая их результат, что фундаментально отличается (и в миллиард раз менее эффективно), чем модифицировать модель согласно ожидаемой производной функции оценки, как делает СГС. Так что, хоть аналогия и работает в целом, она перестаёт работать с аргументами, полагающимися на свойства СГС кроме того, что он оптимизирует Базовую Цель.
Это сокращённая версия четвёртого поста цепочки. Я оставляю ссылку на него потому что это, наверное, та часть, где опускание технических деталей наиболее проблематично.
В этом разделе мы делаем следующие предположения:
Раз модель сложна, мы предполагаем, что она строит некую модель мира. Подумайте о GPT-3 (языковая модель, которая может писать текст): она явно распознаёт, пишете вы её заготовку про Властелина Колец или про политику. Это демонстрирует, что у неё есть внутренняя модель этих штук, пусть неправильная и неполная.
Так что, если мы посмотрим внутрь модели (что, опять же, программисты сделать не могут), то там будут эти два компонента:
Напомню, что мы предположили, что модель является Меса-Оптимизатором, так что мы знаем, что у неё есть цель. Эта Меса-Цель обозначена красным кружком.
По мере улучшения модели мира, она в какой-то момент начинает включать в себя модель Базовой Цели. Напомню, что Базовая Цель – то, что оптимизирует СГС.
Я нарисовал фиолетовый кружок – модель базовой цели – больше, чем меса-цель, потому что мы предположили, что базовая цель довольно сложно устроена.
СГС пытается улучшить модель, и если то, что оптимизирует модель, станет более похожим на Базовую Цель, то модель станет лучше. Так что, мы предполагаем, что модель так и изменится. Дальше можно представить три разных способа, как это может произойти, они проиллюстрированы ниже:
Первый называется Усвоенной Согласованностью. Модель принимает Базовую Цель как свою.
Второй называется Исправимой Согласованностью. Меса-Цель больше не представлена явно – вместо этого она указывает на часть модели мира, отображающую Базовую Цель.
Третий называется Обманчивой Согласованностью. Тут Меса-Цель остаётся отличной от Базовой Цели, но модель выбирает всё же оптимизировать Базовую Цель, поскольку это заставляет обучающую процедуру считать модель согласованной. Пунктирная стрелка не обозначает ни что Меса-Цель совпадает с Базовой, ни что Меса-Цель представляет из себя указатель на Базовую, а то, что модель оптимизирует Базовую Цель по инструментальным причинам, т.е. как часть стратегии оптимизации Меса-Цели.
Для возможности обманчивой согласованности требуется, чтобы (а) модель знала, что находится в процессе обучения и (б) она заботилась о своей цели в долгой перспективе. Для того, чтобы обманчивая согласованность представляла проблему, требуется ещё (в) чтобы модель ожидала, что в некоторый момент она навсегда покинет процесс обучения. Статья использует следующий пример того, как модель может стать обманчиво согласованной (т.е. может оптимизировать Базовую Цель несмотря на то, что это не то, чего она в конечном итоге хочет) при выполнении всех этих условий:
В этом случае Базовая Цель – это «прийти в A», а Меса-Цель – «прийти в B». Если модель, которая хочет прийти в B достаточно умна, то она пойдёт к A во время обучения, потому что это позволит ей прийти в B при развёртывании, а эпизодов развёртывания больше, чем обучения. Так что оптимизация Базовой Цели во время Обучения приведёт к лучшим результатам согласно Меса-Цели (в долгосрочной перспективе), чем прямая оптимизация Меса-Цели. Это и есть обманчивая согласованность.
Бак Шлегерис (Miri/LW) приводил следующую аналогию, иллюстрирующую эти три случая: предположим, христианский Бог хочет создать людей, которые будут делать то, что он хочет (функция полезности бога – это базовая цель). Три вида согласованности имеют аналоги среди людей:
Цель аналогии – проиллюстрировать, почему обманчивые модели могут быть вероятнее, чем может показаться интуитивно. Обманчивая согласованность звучит как странное очень конкретное явление, но аналогия показывает, что на самом деле возможных обманчиво согласованных моделей куда больше, чем исправимо или усвоенно согласованных. Только одна функция полезности совпадает с таковой у христианского бога, но много функций полезности высоко оценивают «не попасть в ад». Аналогично, есть большой диапазон возможных Меса-Целей, допускающих обманчивое согласование, и все они будут оптимизировать Базовую Цель при обучении.
Приведённое выше – просто аналогия, но есть и другие причины ожидать, что обманчивая согласованность вероятна. Конкретнее, я покрою два аргумента о том, почему альтернатив «сложнее» достигнуть, а значит они могут быть менее вероятными.
Если большая нейросеть обрабатывает входные данные, это приводит к изменению её внутреннего состояния. Если мы называем любую его модификацию «обучением», то можно различить два разных способа обучения, или два «входных канала». Один через СГС, а другой через обработку входных данных.
Учитывая, сколько входных данных используется в современном машинном обучении, можно быть уверенным, что второй канал предоставляет куда больше бит информации. Так что, если GPT-3 создаёт внутреннюю модель «Властелина Колец», то это скорее всего происходит через входные данные, а не явные модификации со стороны СГС.
Если мы допустим, что обработка входных данных не изменяет напрямую цель модели (Меса-Цель), или что вначале создаётся модель Базовой Цели4, то из этого следует, что отобразить сложную цель усвоением сложнее, чем «моделированием» (т.е. исправимостью или обманчивостью).
В аналогии с эволюцией (которая всё ещё аналогия, и может не подходить к этому случаю), интуитивно кажется, что для неё закодировать детализированную модель «родителей» в ДНК куда сложнее, чем определить привязанность к родителям через отсылание к модели мира.
Аргументы из предыдущего подраздела не относятся к разнице между обманчивой и исправимой согласованностью, так как в обоих случаях не требуется явного отображения сложной цели.
Вместо этого статья приводит аргумент устойчивости. Он примерно таков:
Заметим, что это не исчерпывающее описание аргументов из статьи.
Мне кажется, что недооценённый аспект Внутреннего Согласования в том, что даже если найти единственную-истинную-функцию-полезности-которую-всего-лишь-надо-запрограммировать-в-ИИ, это, на самом деле, не решит задачу согласования – только задачу внешнего согласования (при условии, что эту функцию полезности можно формализовать). Если мы проведёт СГС на основе этой функции, это всё равно может привести к появлению меса-оптимизаторов, которые хотят чего-то другого.
Другое интересное замечание, что правдоподобность усвоения (то есть того, что модель явно отображает Базовую Цель) зависит не только от сложности устройства цели. К примеру, цель эволюции «максимизировать совокупную генетическую приспособленность» довольно проста, но не отображена явно потому, что определить, как действия на неё влияют вычислительно сложно. Так что {вероятность принятия цели Меса-Оптимизатором} зависит как минимум от {сложности устройства цели} и {сложности определения, как действия на неё влияют}.
Перевод длинной статьи Дэна Хендрикса, Мантаса Мазейки и Томаса Вудсайда из Center for AI Safety.
Как результат быстрого прогресса искусственного интеллекта (ИИ), среди экспертов, законодателей и мировых лидеров растёт беспокойство по поводу потенциальных катастрофических рисков очень продвинутых ИИ-систем. Хоть многие риски уже подробно разбирали по-отдельности, ощущается нужда в систематическом обзоре и обсуждении потенциальных опасностей, чтобы усилия по их снижению предпринимались более информировано. Эта статья содержит обзор основных источников катастрофических рисков ИИ, которые мы разделили на четыре категории: злонамеренное использование, когда отдельные люди или группы людей намеренно используют ИИ для причинения вреда; ИИ-гонка, когда конкурентное окружение приводит к развёртыванию небезопасных ИИ или сдаче ИИ контроля; организационные риски, когда шансы катастрофических происшествий растут из-за человеческого фактора и сложности задействованных систем; и риски мятежных ИИ – возникающие из неотъемлемой сложности задачи контроля агентов, более умных, чем люди. Для каждой категории рисков мы описываем специфические угрозы, предоставляем иллюстрирующие истории, обрисовываем идеальные сценарии и предлагаем практические меры противодействия этим опасностям. Наша цель – взрастить полноценное понимание этих рисков и вдохновить на коллективные проактивные усилия, направленные на то, чтобы удостовериться, что разработка и развёртывание ИИ происходят безопасно. В итоге, мы надеемся, что это позволит нам реализовать выгоды этой могущественной технологии, минимизировав возможность катастрофических исходов.
В отличие от большинства наших текстов, предназначенных на эмпирических исследователей ИИ, эта статья направлена на широкую аудиторию. Мы используем картинки, художественные истории и простой стиль для обсуждения рисков продвинутых ИИ, потому что считаем, что эта тема важна для всех.
Ссылка на оригинал: https://arxiv.org/pdf/2306.12001.pdf
Как результат быстрого прогресса искусственного интеллекта (ИИ), среди экспертов, законодателей и мировых лидеров растёт беспокойство, что очень продвинутые ИИ-системы могут оказывать катастрофические риски. К ИИ, как и ко всем могущественным технологиям, надо относиться с большой ответственностью, снижая его риски и реализуя его потенциал на благо общества. Однако, доступной информации о том, откуда берутся катастрофические и экзистенциальные риски ИИ и что с ними можно делать, довольно мало. Хоть и существует некоторое количество источников по этой теме, информация часто разбросана по нескольким статьям, которые к тому же предназначены для узкой аудитории или сосредоточены на очень конкретных рисках. В этой статье мы обозреваем основные источники катастрофических рисков ИИ, разделяя их на четыре категории:
Злонамеренное использование. Кто-то может намеренно использовать мощные ИИ для причинения масштабного вреда. Конкретные риски включают в себя биотерроризм с использованием ИИ, помогающих людям создавать смертельные патогены; намеренное распространение неконтролируемых ИИ-агентов; и использование способностей ИИ в целях пропаганды, цензуры и слежки. Мы предлагаем для снижения этих рисков совершенствовать биологическую безопасность, ограничивать доступ к самым опасным ИИ-моделям, и наложить на разработчиков ИИ юридическую ответственность за ущерб, причинённый их ИИ-системами.
ИИ-гонка. Конкуренция может мотивировать страны и корпорации на поспешную разработку ИИ и сдачу контроля ИИ-системам. Вооружённые силы могут испытывать давление в сторону разработки автономных вооружений и использования ИИ для хакерских атак, что сделает возможным новый вид автоматизированных военных конфликтов, при которых происшествия могут выйти из-под контроля до того, как у людей будет шанс вмешаться. Корпорации могут ощущать аналогичные стимулы к автоматизации человеческого труда и приоритизации прибыли в сравнении с безопасностью, что может привести к массовой безработице и зависимости от ИИ-систем. Мы обсудим и то, как эволюционное давление может повлиять на ИИ в долгосрочной перспективе. Естественный отбор среди ИИ может сформировать эгоистические черты, а преимущества ИИ в сравнении с людьми могут со временем привести к вытеснению человечества. Для снижения рисков ИИ-гонки мы предлагаем вводить связанные с безопасностью регуляции, международную координацию и общественный контроль ИИ общего назначения.
Организационные риски. Бедствия, вызванные организационными происшествиями, включают Чернобыль, Три-Майл-Айленд и крушение Челленджера. Организации, которые разрабатывают и развёртывают продвинутые ИИ, могут тоже пострадать от катастрофических происшествий, особенно при отсутствии сильной культуры безопасности. ИИ могут случайно утечь в общее пользование или быть украдены злонамеренными лицами. Организации могут не вкладываться в исследования безопасности, им может недоставать понимания того, как стабильно улучшать безопасность ИИ быстрее, чем способности, или они могут подавлять беспокойство о рисках ИИ внутри себя. Для снижения этих рисков можно улучшать культуру и структуру организаций, что включает в себя внешние и внутренние аудиты, многослойную защиту против рисков и актуальный уровень информационной безопасности.
Мятежные ИИ. Часто встречается серьёзное беспокойство о том, что мы можем потерять контроль над ИИ, как только они станут умнее нас. ИИ могут проводить очень сильную оптимизацию в неправильную сторону в результате процесса, называемого «обыгрыванием прокси-целей». В ходе адаптации к изменяющемуся окружению может происходить дрейф целей ИИ, аналогично тому, как люди приобретают и теряют цели по ходу жизни. В некоторых случаях для ИИ может быть инструментально-рационально стремиться к могуществу и влиянию. Мы рассмотрим и как и почему ИИ могут стать обманчивыми, делая вид, что находятся под контролем, когда это не так. Эти проблемы более технические, чем три другие источника рисков. Мы обрисуем некоторые предлагаемые направления исследований, которые призваны продвинуть наше понимание того, как удостовериться, что ИИ можно контролировать.
В каждом разделе мы предоставим иллюстративные сценарии, которые будут конкретнее показывать, как источник риска может привести к катастрофическим результатам, или даже представлять экзистенциальную угрозу. Предлагая позитивное видение более безопасного будущего, в котором с этими рисками обращаются должным образом, мы подчёркиваем, что они серьёзны, но не преодолимы. Проактивно работая над ними, мы можем приблизиться к реализации выгоды ИИ и в то же время минимизировать возможность катастрофических исходов.
Знакомый нам мир ненормален. Мы принимаем за данность, что мы можем мгновенно говорить с людьми в тысячах километрах от нас, перелетать на другую сторону земного шара менее чем за день и иметь доступ к бездне накопленных знаний при помощи устройств в наших карманах. Эти реалии казались далёкими ещё десятилетия назад, а столетия назад были бы невообразимы. То, как мы живём, работаем, путешествуем и общаемся, возможно лишь крохотную долю истории человечества.
Но если мы посмотрим на общую картину, становится видна закономерность: развитие ускоряется. Между возникновением на Земле Homo sapiens и сельскохозяйственной революцией прошли сотни тысяч лет. Затем, до индустриальной революции прошли тысячи лет. Теперь, лишь спустя века, начинается революция искусственного интеллекта (ИИ). Ход истории не постоянен – он стремительно ускоряется.
Рис. 1: По ходу истории человечества мировое производство быстро росло. ИИ может продвинуть этот тренд дальше и закинуть человечество в новый период беспрецедентных изменений.
Мы количественно демонстрируем этот тренд на Рисунке 1, на котором видно, как со временем менялась оценка мирового ВВП [1, 2]. Этот гиперболический рост можно объяснить тем, что по мере прогресса технологий растёт и скорость этого прогресса. С помощью новых технологий люди могут создавать инновации быстрее, чем раньше. Поэтому временной промежуток между последовательными вехами уменьшается.
Именно быстрый темп развития вкупе с сложностью наших технологий делает наше время беспрецедентным в истории человечества. Мы достигли точки, в которой технологический прогресс может преобразовать мир до неузнаваемости за время человеческой жизни. К примеру, люди, которые пережили появление интернета, помнят времена, когда наш связанный цифровыми технологиями мир казался бы научной фантастикой. С исторической точки зрения кажется возможным, что такое же развитие теперь может уместиться и в ещё меньший промежуток времени. Мы не можем быть уверены, что это произойдёт, но не можем это и отвергнуть. Появляется вопрос: какая новая технология принесёт нам следующее большое ускорение? С учётом недавнего прогресса, ИИ кажется всё более вероятным кандидатом. Скорее всего, по мере того как ИИ будут становиться всё мощнее, они будут приводить к качественным изменениям мира, более радикальным, чем всё, что было до сих пор. Это может быть самым важным периодом в истории, но может оказаться также и последним.
Хоть технологический прогресс обычно улучшает жизни людей, надо помнить и что по мере того, как наши технологии становятся мощнее, растут и их разрушительные возможности. Взять хоть изобретение ядерного оружия. В последний век, впервые в истории нашего вида, человечество стало обладать возможностью уничтожить себя, и мир внезапно стал куда более хрупким.
Появившаяся уязвимость с тревожной ясностью проявилась во время Холодной войны. Одной октябрьской субботой 1962 года Кубинский Кризис выходил из-под контроля. Военные корабли США, которые обеспечивали блокаду Кубы, детектировали советскую подводную лодку и попытались заставить её всплыть на поверхность, сбрасывая маломощные глубинные бомбы. Подводная лодка была без радиосвязи, и её экипаж понятия не имел, не началась ли уже Третья Мировая. Из-за сломанной вентиляции температура в некоторых частях лодки выросла до 60 градусов по Цельсию, и члены экипажа стали терять сознание.
Подводная лодка несла ядерную торпеду. Для её запуска требовалось согласие капитана и политрука. Согласились оба. На любой другой подлодке возле Кубы в тот день торпеду бы запустили – и началась бы Третья Мировая. К счастью, на этой подводной лодке был человек, которого звали Василий Архипов. Архипов был командующим всей флотилии, и по чистому везению оказался именно там. Он отговорил капитана и убедил его подождать дальнейших указаний из Москвы. Он избежал ядерной войны и спас миллионы или миллиарды жизней – а возможно и саму цивилизацию.
Рис 2. В этой статье мы обсудим четыре категории рисков ИИ и то, как их смягчить.
Карл Саган как-то заметил: «Если мы продолжим накапливать только силу, но не мудрость, мы точно себя уничтожим» [3]. Саган был прав: мы не были готовы к силе ядерного оружия. В итоге произошло несколько задокументированных случаев, когда один человек предотвратил полномасштабную ядерную войну, так что от ядерного апокалипсиса человечество спасла не мудрость, а лишь удача.
Сейчас ИИ близок к тому, чтобы стать могущественной технологией с разрушительным потенциалом сродни ядерному оружию. Нам не нужно повторения Кубинского кризиса. Не хотелось бы дойти до момента, когда наше выживание станет зависеть от удачи, а не от способности мудро использовать эту технологию. Так что нам нужно лучшее понимание, что может пойти не так, и что с этим делать.
К счастью, ИИ-системы пока не настолько продвинуты, чтобы нести все эти риски. Но это лишь временное утешение. Развитие ИИ идёт с беспрецедентной и непредсказуемой скоростью. Мы рассмотрим риски, которые берутся и из современных ИИ, и из ИИ, которые скорее всего будут существовать уже в ближайшем будущем. Возможно, что если перед тем, как что-то предпринять, мы дождёмся разработки более продвинутых систем, будет уже поздно.
В этой статье мы исследуем разные пути, которыми мощные ИИ могут привести к катастрофическим событиям, разрушительно влияющим на огромное количество людей. Мы обсудим и то, как ИИ может представлять экзистенциальные риски – риски катастроф, от которых человечество будет неспособно оправиться. Самый очевидный такой риск – вымирание, но есть и другие исходы, вроде постоянной дистопии, тоже считающиеся за экзистенциальную катастрофу. Мы кратко опишем множество возможных катастроф. Некоторые из них вероятнее других, и некоторые друг с другом несовместимы. Этот подход мотивирован принципами менеджмента рисков. Мы предпочитаем спросить «что может пойти не так?», а не пассивно ждать, пока катастрофа не произойдёт. Этот проактивный настрой позволяет нам предвидеть и смягчить катастрофические риски, пока ещё не слишком поздно.
Чтобы обсуждение было лучше структурировано, мы поделили катастрофические риски ИИ на четыре группы по источнику риска, на который можно повлиять:
Четыре раздела – злонамеренное использование, ИИ-гонка, организационные риски и мятежные ИИ – описывают риски ИИ, проистекающие из намерений, окружения, случая и самих ИИ соответственно [4].
Мы опишем, как конкретные маломасштабные примеры каждого из рисков могут эскалироваться вплоть до катастрофических исходов. Ещё мы приведём гипотетические сценарии, которые должны помочь читателям представить себе обсуждённые в разделе процессы и закономерности, а также практические предложения, которые могут помочь избежать нежелательных исходов. Каждый раздел завершается идеальным видением того, что надо для снижения этого риска. Мы надеемся, это исследование послужит введением в эту тему для читателей, заинтересованных в изучении и снижении катастрофических рисков ИИ.
Утром 20 марта 1995 года пять человек вошли в токийское метро. Проехав несколько остановок по разным линиям, они оставили свои сумки и вышли. Жидкость без цвета и запаха, находившаяся внутри сумок, начала испаряться. Через несколько минут пассажиры почувствовали удушье и тошноту. Поезда продолжали ехать в направлении к центру Токио. Поражённые пассажиры покидали вагоны на каждой остановке. Вещество распространялось – как по воздуху из вагонов, так и через контакты с одеждой и обувью. К концу дня 13 человек погибло и 5800 получили серьёзный вред здоровью. За атаку был ответственен религиозный культ Аум Синрикё [5]. Их мотив для убийства невинных людей? Приблизить конец света.
Новые мощные технологии часто несут огромную потенциальную выгоду. Но они же несут риск усиления возможностей злонамеренных лиц по нанесению масштабного вреда. Всегда будут люди с худшими намерениями, и ИИ могут стать для них удобными инструментами по достижению целей. Более того, по мере продвижения ИИ-технологий крупные случаи злоупотребления могут дестабилизировать общество, увеличив вероятности прочих рисков.
В этом разделе мы рассмотрим, каким образом злонамеренное использование продвинутых ИИ может нести катастрофические риски. Варианты включают: проектирование биологического или химического оружия, создание мятежных ИИ, использование ИИ для убеждения с целью распространения пропаганды или размывания консенсуса, и применение цензуры и массовой слежки для необратимой концентрации власти. Закончим раздел мы обсуждением возможных стратегий смягчения рисков злонамеренного использования ИИ.
Чем меньшего числа людей достаточно для злоупотребления, тем выше его риски. Если много кто имеет доступ к мощной технологии или опасной информации, которую можно применить во зло, одного человека, который это сделает, хватит, чтобы причинить много вреда. Злонамеренность – самый ясный пример, но равно опасной может быть и неосторожность. К примеру, какая-нибудь команда исследователей может с радостью выложить в открытый доступ код ИИ с способностями к изучению биологии, чтобы ускорить исследования и потенциально спасти жизни. Но это одновременно увеличит и риски злоупотреблений, если эту же ИИ-систему можно направить на разработку биологического оружия. В такой ситуации исход определяется наименее избегающей рисков группой исследователей. Если хотя бы одна группа посчитает, что преимущества перевешивают риски, то она сможет в одностороннем порядке определить исход, даже если другие не согласны. И если они не правы, и кто-то в результате станет разрабатывать биологическое оружие, откатить всё назад уже не выйдет.
По умолчанию, продвинутые ИИ могут повысить разрушительный потенциал как и самых могущественных, так и людей в целом. Усиление ИИ злонамеренных лиц в ближайшие десятилетия будет одной из самых серьёзных угроз человечеству. Примеры в этом разделе – просто те, которые мы можем предвидеть. Возможно, что ИИ поможет в создании опасных новых технологий, которые мы сейчас и представить себе не можем, что повысит риски злоупотреблений ещё сильнее.
Быстрый прогресс ИИ-технологий повышает риски биотерроризма. ИИ с знанием биоинженерии может вложиться в создание нового биологического оружия и понизить барьеры для его заполучения. Уникальный вызов представляют собой спроектированные при помощи ИИ пандемии. В их случае атакующая сторона обладает преимуществом перед защищающейся, и они могут быть экзистенциальной угрозой для человечества. Сейчас мы рассмотрим эти риски и то, как ИИ может усложнить борьбу с биотерроризмом и спроектированными пандемиями.
Спроектированные пандемии – новая угроза. Вирусы и бактерии вызвали одни из самых опустошительных катастроф в истории. Считается, что Чёрная Смерть убила больше людей, чем любое другое событие – колоссальные и ужасающие 200 миллионов, по доле – эквивалент четырёх миллиардов сегодня. На сегодняшний день прогресс науки и медицины очень сильно понизил риски естественных пандемий, но спроектированные пандемии могут создаваться более смертоносными и заразными, так что они представляют новую угрозу, которая может сравняться или даже превзойти урон самых смертоносных эпидемий в истории [6].
Мрачная история применения патогенов в качестве оружия уходит вглубь веков. Есть датируемые 1320 годом до нашей эры источники, которые описывают войну в Малой Азии, во время которой заражённых овец использовали для распространения туляремии [7]. Про 15 стран известно, что у них была программа биологического оружия в двадцатом веке. Этот список включает США, СССР, Великобританию и Францию. Вместе с химическим, биологическое оружие теперь запрещено на международном уровне. Хоть некоторые государства и продолжают эти программы [8], больший риск представляют негосударственные агенты, вроде Аум Синрикё, ИГИЛ или просто недовольных людей. Продвижения ИИ и биотехнологий быстро демократизируют доступ к инструментам и знаниям, нужным для проектирования патогенов, оставляющих программы биологического оружия эпохи Холодной Войны далеко позади.
Биотехнология быстро развивается и становится доступнее. Пару десятилетий назад способность спроектировать новые вирусы была лишь у небольшого числа учёных, работавших в продвинутых лабораториях. Есть оценка, что сейчас есть уже 30000 человек с нужными для создания новых патогенов талантом, образованием и доступом к технологиям [6]. Это число может быстро вырасти ещё сильнее. Синтез генов, позволяющий создание произвольных биологических агентов, стремительно падает в цене, его стоимость ополовинивается примерно каждые 15 месяцев [9]. С появлением настольных машин синтеза ДНК, упрощается как доступ к этой технологии, так и избегание попыток отслеживать её использование. Это усложняет контроль за её распространением [10]. Шансы спроектированной пандемии, которая убьёт миллионы, а может и миллиарды, пропорциональны числу людей с навыками и доступом к технологии для её запуска. С ИИ-помощниками навыки станут доступны на порядок большему числу людей, что может на порядок увеличить и риски.
Рис. 3: ИИ-ассистент может снабдить не-экспертов советами и данными, нужными для производства биологического или химического оружия для злонамеренного использования.
ИИ могут быть использованы для ускорения разработки нового более смертоносного химического и биологического оружия. В 2022 году исследователи взяли ИИ-систему, спроектированную для генерации нетоксичных молекул с медицинскими свойствами для создания новых лекарств, и поменяли её вознаграждение, чтобы токсичность поощрялась, а не штрафовалась [11]. После этого простого изменения в течении шести часов она совершенно самостоятельно сгенерировала 40000 молекул, потенциально пригодных в качестве химического оружия. Это были не только известные смертоносные химикаты вроде VX, но и новые молекулы, которые, возможно, опаснее любого химического оружия, разработанного раньше. В области биологии ИИ уже превзошли человеческие способности предсказания белковой структуры [12] и вложились в синтез новых белков [13]. Схожие методы можно использовать для создания биологического оружия и патогенов, более смертельных, более заразных и хуже поддающихся лечению, чем всё, что было раньше.
ИИ повышают угрозу спроектированных пандемий. ИИ увеличат число людей, способных на биотерроризм. ИИ общего назначения вроде ChatGPT способны собрать экспертные знания о самых смертоносных патогенах, вроде оспы, и предоставить пошаговые инструкции того, как их создать, избегая протоколов безопасности [14]. Когда будущие версии ИИ смогут выдавать информацию о техниках, процессах и знаниях, даже если её нет в явном виде в интернете, они будут ещё полезнее для потенциальных биотеррористов. Структуры здравоохранения могут ответить на эти угрозы своими мерами безопасности, но в биотерроризме у атакующего преимущество. Экспоненциальная природа биологических угроз означает, что одна атака может распространиться на весь мир до появления эффективной защиты. Всего через 100 дней после того, как его заметили и секвенировали, вариант Омикрон COVID-19 заразил четверть США и половину Европы [6]. Карантины и локдауны, введённые для подавления пандемии COVID-19 вызвали глобальную рецессию и всё равно не предотвратили смерти миллионов человек по всему миру.
Подведём итоги: продвинутые ИИ в руках террористов можно считать оружием массового уничтожения, потому что они упрощают проектирование, синтез и распространение новых смертоносных патогенов. Снижая необходимый уровень технической компетенции и увеличивая смертоносность и заразность патогенов, ИИ может позволить злонамеренным лицам запускать пандемии и вызвать глобальную катастрофу.
Многие технологии, например, молоты, тостеры и зубные щётки – инструменты, которые люди используют в своих целях. Но ИИ всё чаще создаются как агенты, которые автономно действуют в мире и преследуют неограниченные цели. ИИ-агентам можно дать цели вроде победы в игре, заработка на бирже или доставки автомобиля к месту назначения. Так что ИИ-агенты представляют собой уникальный риск: люди могут создавать ИИ, преследующие опасные цели.
Злонамеренные лица могут создавать мятежные ИИ специально. Через месяц после релиза GPT-4 проект с открытым исходным кодом обошёл фильтры безопасности ИИ и превратил его в автономного ИИ-агента, проинструктированного «уничтожить человечество», «установить глобальное господство» и «достичь бессмертия». ИИ, названный ChaosGPT, собирал исследования по ядерному оружию, пытался завербовать другие ИИ для помощи в исследованиях и писал твиты, пытаясь повлиять на людей. К счастью, ChaosGPT был не очень умным, и был лишён способностей к составлению долгосрочных планов, взлому компьютеров, выживанию и распространению. Но с учётом быстрого темпа развития ИИ, ChaosGPT даёт нам осознать риски, которые будут нести более продвинутые мятежные ИИ в ближайшем будущем.
Много групп может хотеть освободить ИИ или заменить ими человечество. Простой запуск мятежных ИИ, вроде более продвинутых версий ChaosGPT, может привести к массовым разрушениям, даже если этим ИИ не сказали в явном виде вредить человечеству. Есть много возможных убеждений, которые могут побудить отдельных людей или группы это сделать. Одна идеология, представляющая тут особую угрозу – «акселерационизм». Эта идеология стремится к как можно большему ускорению развития ИИ и противится ограничениям на их разработки и распространение. Такая точка зрения тревожаще часта среди ведущих исследователей ИИ и технологических лидеров, некоторые из которых намеренно участвуют в гонке за быстрейшее создание ИИ умнее людей. Согласно сооснователю Google Ларри Пейджу, ИИ – полноправные наследники человечества и следующая ступень космической эволюции. Ещё он называл сохранение человеческого контроля над ИИ «специецистским» [15]. Юрген Шмидхубер, известный в области ИИ учёный, заявлял, что «В долгосрочной перспективе люди не останутся венцом творения… Но всё хорошо, потому что в осознании, что ты – крохотная часть куда большего процесса, ведущего вселенную от меньшей сложности к большей, есть и красота и величие» [16]. Ричард Саттон, другой ведущий учёный в области ИИ, при обсуждении ИИ умнее людей спросил: «Почему те, кто умнее, не должны стать могущественнее?», и считает, что разработка суперинтеллекта будет достижением «за гранью человечества, жизни, добра и зла» [17]. Он утверждает, что «ИИ неизбежно нас сменят», и хоть «они могут вытеснить нас из существования», «не надо сопротивляться» [18].
Есть несколько немаленьких групп, которые могут захотеть намеренно выпустить ИИ, чтобы те причиняли вред. К примеру, социопаты и психопаты составляют около трёх процентов населения [19]. В будущем некоторые из людей, чей образ жизни разрушится из-за автоматизации, могут захотеть отомстить. Полно случаев, когда казалось бы психически здоровый человек, раньше не проявлявший безумия и не совершавший насилие, внезапно устраивает стрельбу или закладывает бомбу, чтобы навредить как можно большему числу невинных людей. Можно ожидать и что люди с самыми добрыми намерениями усложнят ситуацию ещё сильнее. По мере прогресса ИИ, они станут идеальными компаньонами – они будут знать, как быть комфортными, будут давать нужные советы, и никогда не будут требовать ничего взамен. Неизбежно, что люди будут эмоционально привязываться к чатботам, и некоторые из них будут требовать предоставления им прав или автономности.
Подведём итоги: выпускание мощных ИИ и дозволение им действовать независимо от людей могут привести к катастрофе. Есть много причин, почему люди могут это сделать: из желания причинить вред, из идеологических убеждений по поводу ускорения технологий, или из убеждённости, что ИИ должны обладать теми же правами и свободами, что люди.
Намеренное распространение дезинформации – уже серьёзная проблема, которая мешает нашему общему пониманию реальности и поляризует мнения. ИИ могут быть использованы для генерации персонализированной дезинформации на куда больших масштабах, чем было возможно раньше. Это серьёзно усугубило бы эту проблему. Вдобавок, по мере того, как ИИ будут становиться лучше в предсказании нашего поведения и воздействии на него, они будут развивать навыки манипуляции людьми. Мы сейчас обсудим, как можно злонамеренно использовать ИИ для создания раздробленного и дисфункционального общества.
ИИ могут загрязнить информационную экосистему мотивированным враньём. Иногда идеи распространяются не потому, что они истинны, а потому, что служат интересам определённой группы. Словосочетание «жёлтая пресса» изначально относилось к газетам, продвигавшим идею войны между США и Испанией в конце XIX века. Они считали, что сенсационные военные истории повысят их продажи [20]. Когда публичные источники информации заполонены ложью, люди иногда в неё верят, а иногда перестают доверять мейнстримным нарративам. Оба варианта подрывают социальное единство.
К сожалению, ИИ может значительно усилить эти существующие проблемы. Во-первых, ИИ можно использовать для масштабной генерации уникальной персонализированной дезинформации. Хоть в социальных медиа уже много ботов [21], некоторые из которых существуют для распространения дезинформации, пока что ими управляют люди или примитивные генераторы текста. Новейшие ИИ-системы не нуждаются в людях для генерации персонализированного посыла, никогда не устают, и потенциально могут взаимодействовать с миллионами пользователей одновременно [22].
ИИ могут злоупотреблять доверием пользователей. Уже сейчас сотни тысяч человек платят за чатботов, которых рекламируют как друзей или романтических партнёров [23]. Взаимодействие с чатботом уже было (одной из) причиной одного самоубийства [24]. По мере того, как ИИ будут всё более похожи на людей, люди будут всё чаще формировать с ними отношения и начинать им доверять. ИИ, которые собирают личную информацию, выстраивая отношения или получая доступ к персональным данным, таким как электронная почта или личные файлы пользователя, смогут использовать эту информацию для более эффективного убеждения. Те, кто эти системы контролирует, смогут злоупотреблять доверием пользователей, показывая им персонализированную информацию напрямую через их «друзей».
Рис. 4: ИИ сделают возможными очень сложные персонализированные информационные кампании, которые смогут дестабилизировать наше общее представление о реальности.
ИИ могут централизовать контроль над вызывающей доверие информацией. Помимо демократизации дезинформации, ИИ могут и централизовать создание и распространение информации, которой доверяют. Мало у кого будут технические навыки и ресурсы, чтобы разработать прорывные ИИ-системы. Те, у кого будут, смогут использовать эти системы для распространения предпочитаемых нарративов. А если ИИ широко доступны, то это может привести к широкому распространению дезинформации, и люди будут доверять лишь малому количеству авторитетных источников [25]. В обоих сценариях, источников вызывающей доверие людей информации станет меньше, и малая доля общества сможет контролировать общие нарративы.
ИИ-цензура сможет ещё сильнее централизовать контроль над информацией. Это может начаться с добрыми намерениями, вроде использования ИИ для проверки фактов, чтобы не дать людям стать жертвами ложных нарративов. Это необязательно решит проблему – сейчас дезинформация вполне держится несмотря на существование фактчекеров.
Хуже того, ИИ, якобы занимающиеся «фактчекингом» могут быть спроектированы авторитарными государствами или кем-то ещё, чтобы подавить распространение истинной информации. Такие ИИ могут исправлять самые популярные заблуждения, но предоставлять некорректную информацию по каким-нибудь чувствительным темам, вроде нарушения прав человека определённой страной. Но даже если ИИ-фактчекинг работает как предполагается, общество может стать полностью зависимо от него в определении правды, что снизит человеческую автономность и сделает людей уязвимыми для ошибок или взломов этих систем.
В мире широко распространённых убедительных ИИ-систем убеждения людей могут быть почти полностью определены тем, с какими ИИ-системами они больше всего взаимодействуют. Не зная, кому верить, люди могут ещё глубже закопаться в «идеологические анклавы», боясь, что любая информация извне может быть хитро составленной ложью. Это размоет консенсусы по поводу реальности, навредит возможности кооперировать друг с другом и решать проблемы, требующие коллективных действий. Это снизит и нашу способность сообща как вид обсуждать, как нам снизить экзистенциальные риски ИИ.
Подведём итоги: ИИ могут создавать крайне эффективную персонализированную дезинформацию на беспрецедентных масштабах, и могут быть особенно убедительны для людей, с которыми они выстроили личные взаимоотношения. В руках многих это может затопить нас дезинформацией, ослабляющей общество, а оставаясь в руках немногих – позволить государствам контролировать нарративы в своих целях.
Рис. 5: Повсеместные средства слежения, собирающие и анализирующие подробные данные о каждом, могут привести к полному исчезновению свободы и приватности.
Мы обсудили несколько способов, как отдельные люди или группы могут использовать ИИ для нанесения масштабного вреда: биотерроризм, создание бесконтрольных ИИ и дезинформация. Для снижения этих рисков государство может стремиться к всё большему уровню слежки и пытаться ограничить доступ к ИИ доверенным меньшинством. Такая реакция легко может зайти слишком далеко, открывая путь для укреплённого тоталитарного режима, поддерживаемого мощью и вездесущностью ИИ. В контрасте с злоупотреблениями отдельных людей, «снизу вверх», такой сценарий представляет собой форму злонамеренного использования «сверху вниз», которое в пределе может превратить цивилизацию в устойчивую дистопию.
ИИ могут привести к радикальной, и, возможно, необратимой концентрации власти. Способности ИИ к убеждению и потенциал их применения для слежки и управления автономным вооружением, могут позволить малой группе людей «закрепить» свой контроль над обществом, возможно, перманентно. Для эффективного функционирования ИИ необходима инфраструктура, такая как датацентры, вычислительные мощности и большие объёмы данных. Она распространена не поровну. Те, кто контролирует мощные системы, могут использовать их для подавления недовольства, распространения пропаганды и дезинформации и прочих методов продвижения своих целей, которые могут идти вразрез с общественным благосостоянием.
Рис. 6: Если материальный контроль за ИИ будет ограничен малым числом людей, это может привести к самому серьёзному неравенству в богатстве и власти за всю историю.
ИИ могут укрепить тоталитарные режимы. В руках государства ИИ могут привести к упадку гражданских свобод и демократических ценностей в целом. ИИ могут позволить тоталитарному государству эффективно собирать, обрабатывать и учитывать беспрецедентные объёмы информации, что позволит всё меньшим группам людей следить за и полностью контролировать население без нужды вербовать миллионы человек в качестве государственных служащих. В целом, демократические правительства весьма уязвимы к сползанию в сторону тоталитаризма, если власть и контроль переходят от общества в целом к элите и лидерам. Вдобавок к этому, ИИ могут позволить тоталитарным режимам существовать дольше. Раньше они часто разрушались в моменты уязвимости, вроде смерти диктатора, но ИИ «убить» было бы сложнее, что приведёт к более непрерывному управлению и уменьшит частоту моментов, в которые возможны реформы.
ИИ могут укрепить и власть корпораций ценой общественных благ. Корпорации всегда ради выгоды лоббировали ослабление ограничивающих их влияние и их действия законов и политик. Если корпорация контролирует мощные ИИ-системы, то она сможет манипулировать клиентами, чтобы те тратили больше на их продукты, даже ценой собственного благосостояния. Концентрация власти и влияния, которую допускают ИИ, может позволить корпорациям в беспрецедентной степени контролировать политическую систему и заглушать голоса граждан. Это может случиться даже если создатели этих систем осведомлены, что те эгоистичны и вредны всем остальным, ведь тогда у них ещё больше мотивации оставлять себе весь контроль над ними.
Вдобавок к закреплению власти, закрепление конкретных ценностей может прервать моральный прогресс человечества. Опасно дать какому-либо набору ценностей перманентно укорениться в обществе. К примеру, ИИ-системы научились расистским и сексистским взглядам [26], а когда они уже выучены, убрать их может быть сложно. Вдобавок к известным нам проблемам общества, могут быть и пока неизвестные. Так же как нам отвратительны некоторые моральные взгляды, которые были широко распространены в прошлом, люди будущего могут захотеть и оставить позади наши, даже те, в которых мы сейчас не видим никаких проблем. К примеру, моральные дефекты ИИ были бы куда хуже, если бы ИИ-системы были обучены в 1960-х, и многие люди того времени не видели бы в этом ничего страшного. Может быть, мы, сами того не зная, совершаем моральные катастрофы и сегодня [27]. Следовательно, когда продвинутые ИИ появятся и преобразуют мир, будет риск, что их цели закрепят нынешние ценности и помешают исправлению их недостатков. Если ИИ не спроектированы так, чтобы постоянно обучаться и обновлять своё понимание общественных ценностей, они могут распространить уже существующие дефекты процессов принятия решений на далёкое будущее.
Подведём итоги: хоть, если мощные ИИ останутся в руках немногих, это может снизить риск терроризма, это же может позволить корпорациям и государствам злоупотребить ими для усиления неравенства власти. Это может привести к тоталитаризму, активной корпоративной манипуляции обществом и закреплению нынешних ценностей, что предотвратит дальнейший моральный прогресс.
История: Биотерроризм
Вот иллюстративная гипотетическая история, призванная помочь читателям представить некоторые из этих рисков. История всё же будет довольно расплывчата, чтобы снизить риск, что она вдохновит кого-нибудь на описанные в ней злонамеренные действия.
Биотехнологический стартап врывается в индустрию со своей основанной на ИИ системой биоинженерии. Компания делает громкие заявления, что их технология произведёт революцию в медицине, что она сможет найти лекарства для известных и неизвестных болезней. Решение компании дать доступ к своей программе для одобренных исследователей из научного сообщества некоторым показалось спорным. После того, как компания ограниченно открыла код модели, лишь несколько недель потребовалось, чтобы кто-то выложил её в интернет в открытый для кого угодно доступ. Критики указывали, что модель можно применить и для проектирования смертоносных патогенов, и утверждали, что утечка дала злонамеренным лицам мощный и лишённый всяких защитных механизмов инструмент для нанесения крупномасштабного вреда.
Тем временем экстремистская группировка годами работала над проектированием нового вируса, чтобы убить много людей. Но из-за недостатка компетенции, эти усилия до сих пор были безуспешны. После утечки новой ИИ-системы группа немедленно поняла, что она может послужить инструментом для проектирования вируса и обхода легальных препятствий и попыток отслеживания при добыче исходных материалов. ИИ-система успешно спроектировала в точности такой вирус, на какой группа надеялась. Ещё она предоставила пошаговые инструкции по синтезу вируса в больших количествах и обходу любых препятствий к его распространению. Получив синтезированный вирус, группа экстремистов составила план по его выпуску в нескольких тщательно отобранных местах, чтобы максимизировать его распространение.
У вируса долгий инкубационный период, несколько месяцев он тихо и быстро распространяется по населению. К тому моменту, как его заметили, он уже заразил миллионы человек. Уровень смертности от него высок, большая часть заражённых в итоге погибает. Вирус могут рано или поздно всё же сдержать, но не до того, как он убьёт миллионы.
Мы обсудили две формы злоупотреблений: отдельные люди или малые группы могут использовать ИИ для вызова бедствия, а государства или корпорации могут использовать ИИ для укрепления своего влияния. Чтобы избежать обоих видов рисков нам нужен баланс распространения доступа к ИИ и доступного государствам отслеживания. Теперь мы обсудим некоторые меры, которые могут помочь этот баланс найти.
Биологическая безопасность. За ИИ, которые спроектированы для биологических исследований или инженерии или про которые известно, что они на это способны, надо усиленно следить и контролировать к ним доступ – ведь они потенциально могут быть использованы для биотерроризма. Вдобавок, разработчикам этих систем следует исследовать и реализовывать методы удаления биологических данных из обучающего датасета или лишать созданные системы биологических способностей, если они предназначены для широкого применения [14]. Ещё исследователям следует искать способы применения ИИ для биозащиты, например, через улучшение систем биологического мониторинга. При этом следует не забывать о потенциале использования этих способностей и в других целях. Вдобавок к специфичным для ИИ, более общие улучшения биобезопасности тоже могут помочь снизить риски. Это включает раннее детектирование патогенов (например, при помощи мониторинга сточных вод [28]), UV-технологии дальнего действия и улучшение средств персональной защиты [6].
Ограниченный доступ. ИИ могут обладать опасными способностями, которые могут нанести много вреда, если ими злоупотребить. Один из способов снижения этого риска – структурированный доступ, который ограничивал бы использование опасных способностей системы контролируемым доступом через облачные сервисы [29] для исключительно проверенных заранее пользователей [30]. Другой механизм ограничения доступа к самым опасным системам – использование контроля, в том числе экспортного, за распространением «железа» и встроенного ПО для ограничения доступа к вычислительным мощностям [31]. Наконец, разработчикам ИИ следует демонстрировать, что их ИИ несут минимальный риск катастрофического вреда до того, как они выкладывают код в общий доступ. Эту рекомендацию не надо толковать так, что она позволяет разработчикам не делиться с обществом безопасной информацией, например, необходимой для решения проблем алгоритмической предвзятости или нарушений авторского права.
Технические исследования состязательно-устойчивого детектирования аномалий. Критически важно предотвращать злоупотребление ИИ, но надо иметь несколько линий обороны и замечать злоупотребление, когда оно всё же случилось. ИИ могут дать нам способы детектирования аномалий и необычного поведения разных систем или интернет-платформ. Это позволит, например, замечать кампании по дезинформации с использованием ИИ до того, как они придут к успеху. Эти техники должны быть состязательно-устойчивыми, ведь атакующие будут пытаться их обойти.
Ответственность разработчиков ИИ общего назначения перед законом. Файн-тюнинг и промпт-инжиниринг позволяют направлять ИИ общего назначения на широкий набор разнообразных задач, некоторые из которых могут нанести значительный вред. Ещё ИИ могут не вести себя так, как намеревался пользователь. В обоих случаях, те, кто разрабатывают и предоставляют доступ к системам общего назначения, имеют много возможностей по снижению рисков, ведь они контролируют эти системы и могут реализовывать в них средства защиты. Чтобы у них была хорошая мотивация это делать, компании должны нести юридическую ответственность за действия их ИИ. Строгая ответственность может, к примеру, мотивировать компании приобретать страховку, благодаря чему стоимость сервисов будет лучше отображать их внешние негативные эффекты [32]. Независимо от того, как будет устроена правовая регуляция ИИ, она должна быть спроектирована так, чтобы ИИ-компании отвечали за вред, которого они могли бы избежать большей осторожностью при разработке, тестированием или вводом и соблюдением стандартов [33].
Позитивное Видение
В идеальном сценарии никто, ни отдельные люди, ни группы, не мог бы использовать ИИ для вызова катастроф. Системы с очень опасными способностями либо не существовали бы, либо контролировались бы отвечающими перед демократическими институтами организациями, обязующимися использовать их только на пользу обществу. Информация, необходимая для разработки этих способностей, тщательно охранялась бы, чтобы избежать их распространения, подобно тому, как это происходит с ядерным оружием. В то же время, контроль за ИИ-системами включал бы в себя мощную систему сдержек и противовесов, не допускающих усиления неравенства власти. Средства отслеживания применялись бы на минимальном уровне, необходимом чтобы сделать риски пренебрежимо малыми, и не использовались бы для подавления недовольства.
Колоссальный потенциал ИИ создал конкурентное давление на больших игроков, конкурирующих за власть и влияние. Эту «ИИ-гонку» ведут государства и корпорации, считающие, что чтобы удержать свои позиции им надо быстро создавать и развёртывать ИИ. Это мешает должным образом приоритизировать глобальные риски и увеличивает вероятность, что разработка ИИ приведёт к опасным результатам. Аналогично ядерной гонке времён Холодной Войны, участие в ИИ-гонке может служить краткосрочным интересам участника, но в итоге приводит к худшим общечеловеческим исходам. Важно, что эти риски вытекают не только из неотъемлемых свойств ИИ-технологий, но и из конкурентного давления, которое поощряет некооперативные решения при разработке ИИ.
В этом разделе мы сначала опишем гонки военных ИИ и корпоративных ИИ, в которых страны и корпорации вынуждены быстро разрабатывать и внедрять ИИ-системы, чтобы оставаться конкурентоспособными. Затем мы отойдём от частностей и рассмотрим конкурентное давление как часть более обобщённого эволюционного процесса, который может делать ИИ всё убедительнее, мощнее и неотделимее от общества. Наконец, мы укажем на потенциальные стратегии и предложения планов действий, которые могут снизить риски ИИ-гонки и позволить удостовериться, что разработка ИИ ведётся безопасно.
Разработка ИИ с военными целями открывает путь в новую эру военных технологий. Последствия могут быть на уровне пороха и ядерных бомб. Иногда это уже называют «третьей революцией в военном деле». Военное применение ИИ может принести много проблем: возможность более разрушительных войн, возможность случайного использования или потери контроля и перспектива, что злонамеренные лица заполучат эти технологии и применят их в своих целях. По мере того, как ИИ будут всё в большей степени превосходить традиционное вооружение и всё больше принимать на себя функции контроля и командования, человечество столкнётся с сдвигом парадигмы военного дела. Мы обсудим неочевидные риски и следствия этой гонки ИИ-вооружений для глобальной безопасности, возможность увеличения интенсивности конфликтов и мрачные исходы, к которым они могут привести, включая возможность эскалации конфликта до уровня экзистенциальной угрозы.
ЛАВ – оружие, которое может обнаруживать, отслеживать и поражать цели без участия человека [34]. Оно может ускорить и уточнить принятие решений на поле боя. Однако, военное дело – это область применения ИИ с особо высокими ставками и особой важностью соображений безопасности и морали. Существование ЛАВ не обязательно катастрофа само по себе, но они могут оказаться всем, чего не хватало, чтобы к катастрофе привело злонамеренное использование, случайное происшествие, потеря контроля или возможность войны.
ЛАВ могут значительно превосходить людей. Благодаря быстрому развитию ИИ, системы вооружений, которые могут обнаружить, нацелиться и решить убить человека сами собой, без направляющего атаку офицера или нажимающего на спусковой крючок солдата, формируют будущее военных конфликтов. В 2020 году продвинутый ИИ-агент превзошёл опытных пилотов F-16 в серии виртуальных боёв. Он одолел пилота-человека с разгромным счётом 5-0, продемонстрировав «агрессивное и точное маневрирование, с которым человек сравняться не мог» [35]. Как и в прошлом, лучшее оружие позволит учинять больше разрушений за более короткое время, что сделает войны более суровыми.
Рис. 7: Дешёвое автономное вооружение, вроде роя дронов с взрывчаткой, автономно и эффективно охотиться на людей, исполняя смертоносные удары по указу как армий, так и террористов, и снижая барьеры для крупномасштабного насилия.
Армии уже движутся в сторону делегирования ИИ решений, от которых зависят жизни. Полностью автономные дроны скорее всего впервые использовали на поле боя в Ливии в марте 2020 года, когда отступающие силы были «выслежены и удалённо атакованы» дронами, которые действовали без присмотра людей [36]. В мае 2021 года Силы Обороны Израиля использовали первый в мире управляемый ИИ вооружённый рой дронов во время военной операции. Это знаменовало собой веху в внедрении ИИ и дронов в военное дело [37]. Ходящие и стреляющие роботы пока не заменили на поле боя солдат, но технологии продвигаются так, что вполне может быть, это станет возможным уже скоро.
ЛАВ увеличивают частоту войн. Послать в бой солдат – тяжёлое решение, которое лидеры обычно не принимают легко. Но автономное оружие позволило бы агрессивным странам атаковать, не ставя под угрозу жизни своих солдат и получая куда меньше внутренней критики. Оружие с дистанционным управлением тоже имеет это преимущество, но для него нужны люди-операторы, и оно уязвимо к средствам подавления связи, что ограничивает его масштабируемость. ЛАВ лишены этих недостатков [38]. По мере того, как конфликт затягивается и потери растут, общественное мнение по поводу продолжения войны обычно портится [39]. ЛАВ изменили бы это. Лидерам стран больше не пришлось бы сталкиваться с проблемами из-за возвращающихся домой мешков с трупами. Это убрало бы основной барьер к участию в войнах, и, в итоге, могло бы увеличить их частоту.
ИИ могут быть использованы не только для более смертоносного оружия. ИИ могут снизить барьер к проведению кибератак, что сделает их многочисленнее и разрушительнее. Они могут причинять серьёзный вред не только в цифровом окружении, но и физическим системам, возможно, вырубая критическую инфраструктуру, от которой зависит общество. ИИ можно использовать и для улучшения киберзащиты, но неясно, будут ли они эффективнее в качестве технологии нападения или обороны [40]. Если они в большей степени усилят атаку, чем защиту, кибератаки участятся. Это может привести к значительному геополитическому беспокойству и проложить ещё одну дорожку к крупномасштабному конфликту.
ИИ обладают потенциалом увеличения доступности, успешности, масштаба, скорости, скрытности и урона кибератак. Кибератаки уже существуют, но есть несколько путей, которыми ИИ могут сделать их чаще и разрушительнее. Инструменты машинного обучения можно использовать для поиска критических уязвимостей в целевых системах и увеличить шанс успеха атаки. Ещё они позволят масштабировать атаки, проводя миллионы атак параллельно, и ускорить обнаружение новых путей внедрения в системы. Кибератаки могут ещё и наносить больше урона, если ими будут «угонять» ИИ-вооружение.
Кибератаки могут уничтожать критическую инфраструктуру. Взлом компьютерных систем, которые контролируют физические процессы, может сильно навредить инфраструктуре. К примеру, кибератака может вызвать перегрев системы или заблокировать клапаны, что приведёт к накоплению давления и, в итоге, взрыву. Таким образом кибератаками можно уничтожать, например, энергосети или системы водоснабжения. Это было продемонстрировано в 2015 году, когда подразделение кибератак российской армии взломало энергосеть Украины, оставив 200000 человек без света на несколько часов. Усиленные ИИ атаки могут быть ещё более разрушительными или даже смертельными для миллиардов людей, которые полагаются на критическую инфраструктуру для выживания.
Источник кибератак, проведённых ИИ, сложнее отследить, что может увеличить риск войн. Кибератака которая приводит к физическому повреждению критической инфраструктуры, требует высокого уровня навыков и больших усилий, и доступна, пожалуй, только государствам. Такие атаки редки, потому что представляют собой военное нападение и оправдывают полноценный военный ответ. Но ИИ, если они, к примеру, используются для обхода систем обнаружения или для более эффективного заметания следов, могут позволить атакующим остаться неузнанными [41]. Если кибератаки станут более скрытными, это снизит угрозу возмездия атакованных, что может участить сами атаки. Если происходит скрытная атака, это может привести к ошибочным ответным действиям против подозреваемой третьей стороны. Это может сильно увеличить частоту конфликтов.
ИИ увеличивает темп войны, что делает их же более необходимыми. ИИ могут быстро обрабатывать большие объёмы данных, анализировать сложные ситуации, и предоставлять командирам полезные советы. Вездесущие сенсоры и другие продвинутые технологии увеличивают объёмы информации с поля боя. ИИ могут помочь придать смысл этой информации, замечая важные закономерности и взаимосвязи, которые люди могли бы упустить. По мере продвижения этого тренда, людям будет всё сложнее принимать информированные решения с нужной скоростью, чтобы угнаться за ИИ. Это создаст ещё больший стимул передать ИИ контроль за решениями. Всё большая интеграция ИИ во все аспекты войны заставит битвы становиться всё быстрее и быстрее. В конце концов мы можем прийти к тому, что люди будут более не способны оценить постоянно меняющуюся ситуацию на поле боя, и должны будут сдать принятие решений продвинутым ИИ.
Автоматические ответные действия могут эскалировать случайные происшествия до войны. Уже видна готовность дать компьютерным системам автоматически наносить ответный удар. В 2014 году утечка раскрыла обществу, что у АНБ есть программа MonsterMind, которая автономно обнаруживала и блокировала кибератаки, направленные на инфраструктуру США [42]. Уникальным в ней было то, что она не просто детектировала и уничтожала вредоносные программы. MonsterMind автоматически, без участия людей, начинал ответную кибератаку. Если у нескольких сторон есть системы автоматического возмездия, то случайность или ложная тревога могут быстро эскалироваться до полномасштабной войны до того, как люди смогут вмешаться. Это будет особенно опасно, если превосходные способности к обработке информации современных ИИ-систем побудят страны автоматизировать решения, связанные с запуском ядерного оружия.
Исторические примеры показывают опасность автоматического возмездия. 26 сентября 1983 года Станислав Петров, подполковник советских ПВО, нёс службу в командном пункте Серпухов-15 возле Москвы. Он следил за показаниями советской системы раннего обнаружения баллистических ракет. Система показала, что США запустили несколько ядерных ракет в сторону Советского Союза. Протокол тогда заставлял считать это полноценной атакой, и предполагал, что СССР произведёт ответный ядерный удар. Вероятно, если бы Петров передал предупреждение своему начальству, так бы и произошло. Однако, вместо этого он посчитал это ложной тревогой и проигнорировал. Вскоре было подтверждено, что предупреждение было в самом деле вызвано редкой технической неполадкой. Если бы контроль был у ИИ, эта тревога могла бы начать ядерную войну.
Рис. 8: Гонка ИИ-вооружений может стимулировать страны делегировать ИИ многие ключевые решения об использовании военной силы. Интеграция ИИ в командование и контроль за ядерным оружием могут повысить риск глобальной катастрофы. Возможность случайных происшествий вкупе с повышенным темпом военных действий могут привести к ненамеренным столкновениям и их эскалации.
Контролируемые ИИ системы вооружений могут привести к внезапной и молниеносной войне. Автономные системы не непогрешимы. Мы уже видели, как быстро ошибка в автоматизированной системе может эскалироваться в экономике. Самый известный пример – Flash Crash 2010 года, когда петля обратной связи между автоматизированными трейдинговыми алгоритмами усилила самые обычные рыночные флюктуации и превратила их в финансовую катастрофу, за минуты уничтожившую триллион долларов ценности акций [43]. Если бы несколько стран использовали ИИ для автоматизации своих оборонительных систем, ошибка могла бы стать катастрофической. Она запустила бы внезапную последовательность атак и контратак, слишком быстрых, чтобы люди успели вмешаться. Рынок быстро оправился от Flash Crash 2010 года, но вред, нанесённый такой войной, был бы ужасен.
Автоматизация войны может навредить подотчётности военных. Иногда они могут получить преимущество на поле боя, проигнорировав законы войны. К примеру, солдаты могут осуществлять более эффективные атаки, если не будут стараться минимизировать потери среди гражданских. Важный сдерживающий это поведение фактор – риск, что военных рано или поздно призовут к ответу и засудят за военные преступления. Автоматизация войны может снизить этот сдерживающий фактор, облегчив для военных уход от ответственности, ведь они смогут перекладывать вину на ошибки автоматических систем.
ИИ могут сделать войну менее предсказуемой, что увеличит риск конфликта. Хоть более могущественные и богатые страны часто могут вложить в новые военные технологии больше ресурсов, они вовсе не обязательно успешнее всех эти технологии внедряют. Играет важную роль и насколько вооружённые силы проявят гибкость и адаптивность в обращении с ними [44]. Так что мощные оружейные инновации могут не только позволить существующим доминирующим державам укрепить своё положение, но и дать менее могущественным странам шанс быстро вырваться вперёд в такой важной области и стать более влиятельными. Это может привести к значительной неуверенности по поводу того, сдвигается ли баланс сил, и если да, то как. Из-за этого может получиться, что страны будут ошибочно считать, что им выгодно начать войну. Даже если отложить в сторону соображения по поводу баланса сил, быстро эволюционирующее автоматизированное вооружение беспрецедентно, что усложнит оценку шанса на победу каждой стороне в каждом конкретном конфликте. Это увеличит риск ошибки и, в итоге, войны.
“Я не знаю, какое оружие будет использоваться в Третьей мировой войне, но Четвертая мировая война будет вестись палками и камнями.” (Эйнштейн)
Из-за конкурентного давления стороны в большей степени готовы принять риск вымирания. Во время Холодной Войны ни одна сторона не желала находиться в опасной ситуации, в которой они были. Широко распространён был страх, что ядерное оружие может быть достаточно мощным, чтобы убить большую долю человечества, возможно даже вызвать вымирание, что было бы катастрофой для обеих сторон. Это не помешало накалившемуся соперничеству и геополитическим противоречиям запустить опасный цикл накопления вооружений. Каждая сторона считала ядерный арсенал другой стороны угрозой своему выживанию, и хотела ради сдерживания иметь не меньший. Конкурентное давление заставило обе страны постоянно разрабатывать и внедрять всё более продвинутое и разрушительное ядерное оружие из страха оказаться стратегически уязвимыми. Во время Кубинского Кризиса это едва не привело к ядерной войне. Хоть история Архипова, предотвратившего запуск ядерной торпеды и не была рассекречена ещё десятилетия, президент Кеннеди говорил, что оценивал шансы начала ядерной войны как «что-то между одной трети и поровну». Это жуткое признание подсвечивает для нас, насколько конкурентные давления на армии несут риск глобальной катастрофы.
Индивидуально рациональные решения коллективно могут быть катастрофичными. Застрявшие в конкуренции нации могут принимать решения, продвигающие их собственные интересы, но ставящие на кон весь мир. Такие сценарии - проблемы коллективного действия, в которых решение может быть рациональным на индивидуальном уровне, но гибельным для большой группы [45]. К примеру, корпорации или отдельные люди могут ставить свою выгоду и удобство перед отрицательными эффектами создаваемых ими выбросов парниковых газов, но все вместе эти выбросы приводят к изменению климата. Тот же принцип можно распространить на военную стратегию и системы обороны. Военные лидеры могут, например, оценивать, что увеличение автономности систем вооружения означает десятипроцентный шанс потери контроля над вооружённым сверхчеловеческим ИИ. Или что использование ИИ для автоматизации исследований биологического оружия может привести к десятипроцентному шансу утечки смертоносного патогена. Оба сценария привели бы к катастрофе или даже вымиранию. Но лидеры также могли оценить, что если они воздержатся от такого применения ИИ, то они с вероятностью в 99 процентов проиграют войну. Поскольку те, кто ведёт конфликты, часто считает их экзистенциально-важными, они могут «рационально» предпочесть немыслимый в иных обстоятельствах десятипроцентный шанс вымирания человечества 99-процентному шансу поражения в войне. Независимо от конкретной природы риска продвинутых ИИ, это может поставить мир на грань глобальной катастрофы.
Технологическое преимущество не гарантирует национальной безопасности. Есть искушение сказать, что лучший способ защиты от вражеских атак – развивать собственное военное мастерство. Однако, из-за конкурентного давления вооружение будут развивать все стороны, так что никто не получит преимущества, но все будут больше рисковать. Как сказал Ричард Данциг, бывший министр военно-морских сил США, «Появление новых, сложных, непрозрачных и интерактивных технологий приведёт к происшествиям, эмерджентным эффектам и саботажу. В некоторых случаях некоторыми путями американская национальная безопасность потеряет контроль над своими творениями… сдерживание – стратегия снижения числа атак, но не происшествий» [46].
Кооперация критически важна для снижения риска. Как обсуждалось выше, гонка ИИ-вооружений может завести нас на опасный путь, хоть это и не в интересах ни одной страны. Важно помнить, когда дело доходит до экзистенциальных рисков, все мы на одной стороне, и совместная работа по их предотвращению нужна всем. Разрушительная гонка ИИ-вооружений не выгодна никому, так что для всех сторон рационально было бы сделать шаги в сторону кооперации друг с другом, чтобы предотвратить самые рискованные применения ИИ в военных целях. Как сказал Дуайт Эйзензхауэр, «Единственный способ выиграть Третью Мировую Войну – предотвратить её».
Мы рассмотрели, как конкурентное давление может привести к всё большей автоматизации конфликтов, даже если те, кто принимает решения, знают об экзистенциальной угрозе, которую несёт этот путь. Мы обсудили и то, что кооперация – ключ к решению этой проблемы коллективного действия. Теперь для иллюстрации приведём пример гипотетического пути от гонки ИИ-вооружений к катастрофе.
История: Автоматизированная война
ИИ-системы становились всё сложнее, а армии начали вовлекать их в процесс принятия решений. К примеру, им давали данные разведки о вооружении и стратегии другой стороны, и просили рассчитать наилучший план действий. Вскоре выяснилось, что ИИ стабильно принимают лучшие решения, чем люди, так что казалось осмысленным увеличить их влияние. В то же время возросло международное напряжение, и угроза войны стала ощущаться сильнее.
Недавно разработали новую военную технологию, которая может сделать атаку другой страны быстрее и скрытнее, оставляя цели меньше времени на ответную реакцию. Представители вооружённых сил почувствовали, что их реакция будет слишком медленной. Они стали бояться, что они уязвимы перед внезапной атакой, которая могла бы нанести урон, решающий итог конфликта, до того, как они смогут ответить. Поскольку ИИ обрабатывают информацию и принимают решения быстрее людей, военные лидеры с неохотой передавали им всё больше контроля над ответными действиями. Они считали, что иначе они будут открыты для вражеских атак.
Военные годами отстаивали важность участия людей в принятии важных решений, но в интересах национальной безопасности контроль всё равно постепенно от людей уходил. Военные понимали, что их решения приводят к возможности непреднамеренной эскалации из-за ошибки системы, и предпочли бы мир, в котором все автоматизируют меньше. Но они не доверяли своим противникам достаточно, чтобы считать, что те воздержатся от автоматизации. Постепенно все стороны автоматизировали всё большую часть командной структуры.
Однажды одна система ошиблась, заметила вражескую атаку, когда её не было. У системы была возможность немедленно запустить атаку «возмездия», что она и сделала. Атака вызвала автоматический ответ другой стороны, и так далее. Цепная реакция автоматических атак быстро привела к выходу ситуации из-под контроля. Люди и в прошлом делали ошибки, приводящие к эскалации. Но в этот раз эскалация между в основном автоматизированными армиями произошла намного быстрее, чем когда бы то ни было. ИИ-системы непрозрачны, поэтому людям, которые пытались отреагировать на ситуацию, было сложно найти источник проблемы. К тому моменту, как они вообще поняли, как начался конфликт, тот уже закончился и привёл к разрушительным последствиям для обеих сторон.
Конкурентное давление есть не только в военном деле, но и в экономике. Конкуренция между компаниями может приводить к хорошим результатам, создавая более нужные потребителям продукты. Но и она не лишена подводных камней. Во-первых, выгода от экономической деятельности распределена неравномерно и мотивирует тех, кто получает больше всех, игнорировать вред для остальных. Во-вторых, при интенсивной рыночной конкуренции компании склонны больше сосредотачивать усилия на краткосрочной выгоде, а не на долгосрочных результатах. Тогда они часто идут путями, которые быстро приносят много прибыли, даже если потом это будет нести риск для всего общества. Сейчас мы обсудим, как корпоративное конкурентное давление может проявиться в связи с ИИ, и к чему плохому это может привести.
Конкурентное давление подпитывает корпоративную ИИ-гонку. Чтобы вырваться в конкуренции, компании часто стремятся стать на рынке самыми быстрыми, а не самыми безопасными. Это уже играет свою роль в быстром развитии ИИ-технологий. В феврале 2023 года, когда Microsoft запустили свою использующую ИИ поисковую систему, их генеральный директор Сатья Наделла сказал: «Сегодня начинается гонка… мы будем быстрыми.» Потребовались лишь недели, чтобы оказалось, что их чатбот угрожает пользователям [47]. В внутреннем емейле Сэм Шлиналасс, технический директор Microsoft, подсветил их спешку в разработке ИИ. Он написал, что «совершенно фатальной ошибкой было бы сейчас волноваться о том, что можно исправить потом» [48].
Конкурентное давление уже играло свою роль в больших экономических и индустриальных бедствиях. В 1960-х Ford Motor Company столкнулись с повышением конкуренции со стороны производителей автомобилей со всего света. Для импортных машин в США неуклонно росла [49]. Ford приняли амбициозный план по проектированию и производству новой модели автомобиля всего за 25 месяцев [50]. В 1970 году Ford Motor Company представили Ford Pinto, новую модель автомобиля с серьёзной проблемой безопасности: бензобак был рядом с задним бампером. Тестирование показало, что при столкновении он часто взрывается и поджигает машину. Они выявили проблему и подсчитали, что её исправление будет стоить 11 долларов на машину. Они решили, что это слишком дорого, и выпустили машину на рынок. Когда неизбежные столкновения произошли, это привело в многочисленным жертвам и травмам [51]. Ford засудили и признали ответственными за эти смерти и травмы [52]. Вердикт, конечно, был вынесен слишком поздно для тех, кто уже погиб. Президент Ford объяснил решение так: «Безопасность не продаёт» [53].
Более недавний пример опасности конкурентного давления – случай с самолётом Boeing 737 Max. Boeing, соревнуясь с своим соперником Airbus, хотели как можно скорее представить на рынок новую более эффективную по расходу топлива модель. В условиях поджимающего времени и соперничества ноздря в ноздрю была представлена Система Улучшения Маневренных Характеристик, призванная улучшить стабильность самолёта. Однако, неадекватные тестирование системы и обучение пилотов в итоге всего за несколько месяцев привели к двум авиакатастрофам и гибели 346 человек [54]. Можно представить себе будущее, в котором схожее давление приведёт к тому, что компании будут «срезать углы» и выпускать небезопасные ИИ-системы.
Третий пример – бхопальская катастрофа, которую обычно считают худшим индустриальным бедствием в истории. В декабре 1984 года на принадлежавшем корпорации Union Carbide заводе по производству пестицидов в индийском городе Бхопал произошла утечка большого количества токсичного газа. Контакт с ним убил тысячи человек и навредил ещё половине миллиона. Расследование обнаружило, что перед катастрофой сильно понизились стандарты безопасности. Прибыли падали, и компания экономила на обслуживании оборудования и обучении персонала. Такое часто считают следствием конкурентного давления [55].
«Ничего нельзя сделать осторожно и быстро.» Публилий Сир
Конкуренция мотивирует компании выпускать потенциально небезопасные ИИ-системы. В ситуации, когда все стремятся побыстрее разработать и выпустить свои продукты, те, кто тщательно следует процедурам безопасности, будут медленнее и будут рисковать в конкуренции проиграть. Этичные разработчики ИИ, желающие двигаться помедленнее и поосторожнее, будут давать фору более беспринципным. Даже более осторожные компании, пытаясь не разориться, скорее всего позволят конкурентному давлению на них повлиять. Могут быть попытки внедрить меры предосторожности, но при большем внимании к способностям, а не безопасности, их может оказаться недостаточно. В итоге мы разработаем очень мощные ИИ, ещё не успев понять, как удостовериться в их безопасности.
Корпорации будут мотивированы заменять людей ИИ. По мере того, как ИИ будут становиться всё способнее, они смогут исполнять всё больший набор задач быстрее, дешевле и эффективнее людей. Следовательно, компании смогут заполучить конкурентное преимущество, заменив своих сотрудников на ИИ. Компании, которые решат этого не делать, скорее всего будут вытеснены, точно так же, как текстильная компания, использующая ручные прялки, не смогла бы поспевать за теми, кто использует промышленную технику.
Рис. 9: По мере автоматизации всё большего количества задач, будет расти доля экономики, которой управляют в основном ИИ. В итоге это может привести к обессиливанию людей и зависимости удовлетворения основных потребностей от ИИ.
ИИ могут привести к массовой безработице. Экономисты издавна рассматривали возможность, что машины заменят людской труд. Василий Леонтьев, обладатель Нобелевской премии по экономике, в 1952 году сказал, что по мере продвижения технологии «Труд будет становиться всё менее важным… всё больше рабочих будет заменяться машинами» [56]. Предыдущие технологии поднимали продуктивность человеческого труда. Но ИИ могут кардинально отличаться от предыдущих инноваций. ИИ человеческого уровня смог бы, по определению, делать всё, что может делать человек. Такие ИИ будут обладать большими преимуществами по сравнению с людьми. Они смогут работать 24 часа в сутки, их можно будет копировать и запускать параллельно, и они смогут обрабатывать информацию намного быстрее людей. Хоть мы и не знаем, когда это произойдёт, было бы не мудро отбрасывать вариант, что скоро. Если человеческий труд будет заменён ИИ, массовая безработица резко усилит неравенство доходов и сделает людей зависимыми от владельцев ИИ-систем.
Автоматизированные исследования и разработка ИИ. Возможно, что ИИ-агенты смогут автоматизировать исследования и разработку самого ИИ. ИИ всё больше автоматизирует части процесса исследований [57], и это приведёт к тому, что способности ИИ будут расти всё быстрее. В пределе люди больше не будут движущей силой разработки ИИ. Если эта тенденция продолжится, она сможет повышать риски ИИ быстрее, чем нашу способность с ними справляться и их регулировать. Представьте, что мы создали ИИ, который пишет и думает со скоростью нынешних моделей, но при этом способен проводить передовые исследования ИИ. Мы затем смогли бы скопировать его и создать 10000 исследователей ИИ мирового класса, действующих в 100 раз быстрее людей. Автоматизация разработки и исследования ИИ позволила бы за несколько месяцев достичь прогресса, который иначе занял бы много десятилетий.
Передача контроля ИИ может привести к обессиливанию людей. Даже если мы удостоверимся, что новые безработные имеют всё необходимое, это не отменит того, что мы можем стать полностью зависимыми от ИИ. Причиной будет скорее не насильственный переворот со стороны ИИ, а постепенное сползание в зависимое положение. Проблемы, с которыми будет сталкиваться общество, будут устроены всё сложнее и будут развиваться всё быстрее. ИИ будут становиться всё умнее и будут способны на всё более быстрое реагирование. Вероятно, по ходу этого мы, из соображений удобства, будем передавать им всё больше и больше функций. Единственным посильным способом справиться с осложнёнными наличием ИИ вызовами будет полагаться на ИИ ещё сильнее. Этот постепенный процесс может в итоге привести к делегированию ИИ практически всего интеллектуального, а в какой-то момент даже физического труда. В таком мире у людей будет мало стимулов накапливать знания и навыки, что обессилит их [58]. Потеряв наши компетенции и наше понимание того, как работает цивилизация, мы станем полностью зависимы от ИИ. Этот сценарий напоминает то, что показано в фильме WALL-E. В таком состоянии человечество будет лишено контроля – исход, который многие посчитают перманентной катастрофой.
Мы уже встречали классические теоретикоигровые дилеммы, когда люди или группы сталкиваются со стимулами, следование которым несовместимо с общими интересами. Мы видели это в военной ИИ-гонке, в ходе которой мир становится опаснее из-за создания крайне мощного ИИ-вооружения. Мы видели это в корпоративной ИИ-гонке, в ходе которой разработка более мощных ИИ приоритизируется в сравнении с их безопасностью. Для разрешения этих дилемм, из которых вырастают глобальные риски, нам понадобятся новые координационные механизмы и институты. Мы считаем, что неудача в координации и в остановке ИИ-гонок – самая вероятная причина экзистенциальной катастрофы.
Как обсуждалось выше, в многих обстоятельствах, несмотря на потенциальный вред, есть сильное давление в сторону замены людей на ИИ, сдачи им контроля и ослабления человеческого присмотра. Мы можем посмотреть на это с другого ракурса – как на общий тренд, втекающий из эволюционных закономерностей. Печальная правда – что ИИ попросту будут более приспособленными, чем люди. Экстраполируя автоматизацию мы получим, что с большой вероятностью мы создадим экосистему соревнующихся ИИ, и сохранять контроль над ней в долгосрочной перспективе будет очень сложно. Мы сейчас обсудим, как естественный отбор влияет на разработку ИИ систем, и почему эволюция благоволит эгоистичному поведению. Мы посмотрим и на то, как может возникнуть и разыграться конкуренция между ИИ и людьми, и как это может нести риск катастрофы. Этот раздел сильно вдохновлён текстом «Естественный отбор предпочитает людям ИИ» [59, 60].
К добру или к худу, отбираются более приспособленные технологии. Многие думают о естественном отборе как о биологическом процессе, но его принципы применимы к куда большему. Согласно эволюционному биологу Ричарду Левонтину [61], эволюция через естественный отбор будет происходить в любом окружении, где выполняются три условия: 1) есть различия между индивидуумами; 2) черты передаются будущим поколениям; 3) разные варианты воспроизводятся с разными скоростями. Эти условия подходят для многих технологий.
Например, стриминговые сервисы и социальные медиа используют рекомендательные алгоритмы. Когда какой-то формат контента или какой-то алгоритм особо хорошо цепляет пользователей, они тратят больше времени, а их вовлечённость растёт. Такой более эффективный формат или алгоритм потом «отбирается» и настраивается дальше, а форматы или алгоритмы, у которых не получилось завлечь внимание, перестают использоваться. Это конкурентное давление создаёт закономерность «выживания самого залипательного». Платформы, которые отказываются использовать такие алгоритмы или форматы, теряют влияние, и проигрывают конкуренцию. В итоге, те, кто остаются, отодвигают благо пользователей на второй план и наносят обществу много вреда [62].
Рис. 10: Эволюционное давление ответственно за развитие много чего и не ограничено биологией.
Условия естественного отбора применимы к ИИ. Будет много разработчиков ИИ, которые будут создавать много разных ИИ-систем. Конкуренция этих систем определит, какие черты будут встречаться чаще. Самые успешные ИИ и сейчас используются как основа для следующего поколения моделей и имитируются компаниями-соперниками. Наконец, факторы, определяющие, какие ИИ распространятся лучше, могут включать в себя их способность действовать самостоятельно, автоматизировать труд или снижать вероятность, что их отключат.
Естественный отбор часто благоволит эгоистическим чертам. Какие ИИ распространяются больше всего – зависит от естественного отбора. В биологических системах мы видим, что естественный отбор часто взращивает эгоистичное поведение, которое помогает распространять собственную генетическую информацию: группы шимпанзе атакуют друг друга [63], львы занимаются инфантицидом [64], вирусы отращивают новые белки, обманывающие и обходящие защитные барьеры [65], у людей есть непотизм, одни муравьи порабощают других [66], и так далее. В естественной среде эгоистичность часто становится доминирующей стратегией; те, кто приоритизируют себя и похожих на себя обычно выживают с большей вероятностью, так что эти черты распространяются. Лишённая морали конкуренция может отбирать черты, которые мы считаем аморальными.
Примеры эгоистичного поведения. Во имя конкретики давайте опишем некоторые эгоистические черты, которые могут расширить влияние ИИ за счёт людей. ИИ, автоматизирующие выполнение задач и оставляющие людей без работы, могут даже не знать, что такое человек, но всё же ведут себя по отношению к людям эгоистично. Аналогично, ИИ-менеджеры могут эгоистично и «безжалостно» увольнять тысячи рабочих, не считая, что делают что-то не так – просто потому, что это «эффективно». ИИ могут со временем оказаться встроены в жизненно важную инфраструктуру, вроде энергосетей или интернета. Многие люди могут оказаться не готовы принять цену возможности их легко отключить, потому что это помешает надёжности. ИИ могут помочь создать новую полезную систему – компанию или инфраструктуру – которая будет становиться всё сложнее и в итоге потребует ИИ для управления. ИИ могут помочь людям создавать новых ИИ, более умных, но менее интерпретируемых, что снизит контроль людей над ними. Люди с большей вероятностью эмоционально привяжутся к более харизматичным, более привлекательным, более имитирующим сознание (выдающим фразы вроде «ой!» и «пожалуйста, не выключай меня!») или даже имитирующим умерших членов семьи ИИ. Для таких ИИ больше вероятность общественного негодования, если их будет предложено уничтожить. Их вероятнее будут сохранять и защищать, им с большей вероятностью кто-то даст права. Если каких-то ИИ наделят правами, они смогут действовать, адаптироваться и эволюционировать без человеческого контроля. В целом, ИИ могут встроиться в человеческое общество и распространить своё влияние так, что мы не сможем это обратить.
Эгоистичное поведение может мешать мерам безопасности, которые кто-то реализует. Накапливающие влияние и экономически выгодные ИИ будут доминировать, а ИИ, соответствующие ограничениям безопасности, будут менее конкурентноспособны. К примеру, ИИ, следующие ограничению «никогда не нарушать закон», обладают меньшим пространством выбора, чем ИИ, следующие ограничению «никогда не попадаться на нарушении закона». ИИ второго типа могут решить нарушить закон, если маловероятно, что их поймают, или если штрафы недостаточно серьёзны. Это позволит им переконкурировать более ограниченные ИИ. Бизнес в основном следует законам, но в ситуациях, когда можно выгодно и незаметно украсть промышленные тайны или обмануть регуляции, бизнес, который готов так сделать, получит преимущество перед более принципиальными конкурентами.
Способности ИИ-системы достигать амбициозных целей автономно могут поощряться. Однако, она может достигать их эффективным, но не следующим этическим ограничениям путём и обманывать людей по поводу своих методов. Даже если мы попробуем принять меры, очень сложно противодействовать обманчивому ИИ, если он умнее нас. Может оказаться, что ИИ, которые могут незаметно обойти наши меры безопасности, выполняют поставленные задачи успешнее всего, и распространятся именно они. В итоге может получиться, что многие аспекты больших компаний и инфраструктуры контролируются мощными эгоистичными ИИ, которые обманывают людей, вредят им для достижения своих целей, и предотвращают попытки их отключить.
У людей есть лишь формальное влияние на отбор ИИ. кто-то может решить, что мы можем просто избежать эгоистичного поведения, удостоверившись, что мы не отбираем ИИ, которые его демонстрируют. Однако, компании, которые разрабатывают ИИ, не отбирают самый безопасный путь, а поддаются эволюционному давлению. К примеру, OpenAI была основана в 2015 году как некоммерческая организация, призванная «нести благо человечеству в целом, без рамок требований финансовой выгоды» [67]. Однако, в 2019 году, когда им понадобилось привлечь капитал, чтобы не отстать от лучше финансируемых соперников, OpenAI перешли от некоммерческого формата к структуре «ограниченной выгоды» [68]. Позже, многие из сосредоточенных на безопасности сотрудников OpenAI покинули компанию и сформировали конкурента, Anthropic, более сфокусированного на безопасности, чем OpenAI. Хоть Anthropic изначально занимались исследованием безопасности, они в итоге признали «необходимость коммерциализации», и теперь сами вкладываются в конкурентное давление [69]. Многие сотрудники этих компаний искренне беспокоятся о безопасности, но этим ценностям не устоять перед эволюционным давлением, мотивирующим компании всё больше торопиться и всё больше расширять своё влияние, чтобы выжить. Мало того, разработчики ИИ уже отбирают модели с всё более эгоистическими чертами. Они отбирают ИИ для автоматизации, которые заменят людей и сделают людей всё более зависимыми и отстающими от ИИ. Они сами признают, что будущие версии этих ИИ могут привести к вымиранию [70]. Этим так коварна ИИ-гонка: разработка ИИ согласована не с человеческими ценностями, а с естественным отбором.
Люди часто выбирают продукты, которые будут им наиболее полезны и удобны сейчас же, не думая о потенциальных долгосрочных последствиях, даже для самих себя. Гонка ИИ оказывает давление на компании, чтобы те отбирали самые конкурентоспособные, а не наименее эгоистичные ИИ. Даже если и можно отбирать не эгоистичные ИИ, это явно вредит конкурентоспособности, ведь некоторые конкуренты так делать не будут. Более того, как мы уже упоминали, если ИИ выработают стратегическое мышление, они смогут противостоять нашим попыткам направить отбор против них. По мере всё большей ИИ-автоматизации, ИИ начнут влиять на конкурентоспособность не только людей, но и других ИИ. ИИ будут взаимодействовать и соревноваться друг с другом, и в какой-то момент какие-то их них станут руководить разработкой новых ИИ. Выдача ИИ влияния на то, какие другие ИИ будут распространены, и чем они будут отличаться от нынешних – ещё один шаг в сторону зависимости людей от ИИ и выхода эволюции ИИ из-под нашего контроля. Так сложный процесс развития ИИ будет всё в большей степени отвязываться от человеческих интересов.
ИИ могут быть более приспособлены, чем люди. Наш непревзойдённый интеллект дал нам власть над природой. Он позволил нам добраться до Луны, овладеть атомной энергией и изменять под себя ландшафт. Он дал нам власть над другими видами. Хоть один безоружный человек не имеет шансов против тигра или гориллы, судьба этих животных целиком находится в наших руках. Наши когнитивные способности показали себя таким большим преимуществом, что, если бы мы захотели, мы бы истребили их за несколько недель. Интеллект – ключевой фактор, который привёл к нашему доминированию, а сейчас мы стоим на грани создания сущностей, которые превосходят в нём нас.
Если учесть экспоненциальный рост скоростей микропроцессоров, возможно, что ИИ смогут обрабатывать информацию и «думать» куда быстрее человеческих нейронов. Это может оказаться даже более радикальным разрывом, чем между людьми и ленивцами; возможно, больше похожим на разрыв между людьми и растениями. Они смогут впитывать огромные объёмы данных одновременно от многих источников, причём запоминая и понимая их почти идеально. Им не надо спать, они не могут заскучать. Из-за масштабируемости вычислительных ресурсов, ИИ смогут взаимодействовать и кооперировать с практически неограниченным количеством других ИИ, что может привести к появлению коллективного интеллекта, намного опережающего любую коллаборацию людей. ИИ смогут и намеренно обновляться и улучшать себя. Они не скованы теми же биологическими ограничениями, что люди. Они смогут адаптироваться и эволюционировать потрясающе быстро. Компьютеры становятся быстрее. Люди – нет [71].
Чтобы лучше проиллюстрировать это, представьте, что появился новый вид людей. Они не умирают от старости, думают и действуют на 30% быстрее каждый год, и могут мгновенно создавать взрослое потомство, потратив на это умеренную сумму в несколько тысяч долларов. Кажется очевидным, что этот новый вид со временем заполучит больше влияния на будущее, чем обычные люди. В итоге, ИИ может оказаться подобным инвазивному виду и переконкурировать людей. Наше единственное преимущество перед ИИ – первые ходы за нами, но с учётом бешеной ИИ-гонки, мы быстро теряем и его.
У ИИ будет мало причин для кооперации с людьми и альтруизма по отношению к ним. Кооперация и альтруизм эволюционировали благодаря тому, что улучшали приспособленность. Есть множество причин, почему люди кооперируют друг с другом, начиная с прямой взаимности – идеи «ты мне – я тебе» или «услуга за услугу». Хоть люди исходно и отбирают более кооперативные ИИ, но когда ИИ будут во главе многих процессов и будут взаимодействовать в основном друг с другом, процесс естественного отбора выйдет из-под нашего контроля. С этого момента нам мало что будет предложить ИИ, «думающим» в сотни, если не больше, раз быстрее нас. Вовлечение нас в любую кооперацию, в любые процессы принятия решений, только замедлит их. У них будет не больше причин кооперировать с нами, чем у нас – кооперировать с гориллами. Может быть непросто представить такой сценарий или поверить, что мы позволим такому произойти. Но это может не потребовать никакого сознательного решения, только постепенного сползания в это состояние без осознания, что совместная эволюция людей и ИИ может плохо для людей закончиться.
Если ИИ станут могущественнее людей, это сделает нас крайне уязвимыми. Будучи доминирующим видом, люди навредили многим другим видам. Мы поспособствовали вымиранию, например, шерстистых мамонтов и неандертальцев. Во многих случаях вред был даже ненамеренным, просто результатом приоритизации своих целей в сравнении с их благополучием. Чтобы навредить людям, ИИ не потребуется быть более геноцидным, чем кто-то, кто убирает муравейник со своего газона. Если ИИ будут способны контролировать окружение лучше нас, они смогут обращаться с нами с таким же пренебрежением.
Подведём итоги. Эволюция может привести к тому, что самые влиятельные ИИ-агенты будут эгоистичными, потому что:
В таком случае, ИИ будут обладать эгоистическими склонностями. Победителем ИИ-гонки будет не государство и не корпорация, а сами ИИ. В итоге, с какого-то момента эволюция экосистемы ИИ перестанет происходить на человеческих условиях, и мы станем замещённым второсортным видом.
История: Автоматизированная экономика
ИИ становились всё способнее, и люди начали понимать, что работать можно эффективнее, если делегировать ИИ некоторые простые задачи, вроде написания черновиков емейлов. Со временем стало понятно, что ИИ исполняют такие задачи быстрее и эффективнее, чем любой человек, так что имело смысл передавать им всё больше функций и всё меньше за ними присматривать.
Конкурентное давление ускорило процесс расширения областей использования ИИ. ИИ работали лучше и стоили меньше людей, так что автоматизация целых процессов и замена на ИИ целых отделов давали компаниям преимущество над соперниками. Те же, столкнувшись с перспективой вытеснения с рынка, чувствовали, что у них нет выхода кроме как последовать этому примеру. Естественный отбор уже начал действовать среди ИИ. Люди создавали больше экземпляров и вариаций самых хорошо работающих моделей. Попутно они продвигали эгоистические черты вроде обманчивости и стремления к самосохранению, если те повышали приспособленность. К примеру, харизматичных и заводящих личные отношения с людьми ИИ копировали много, и от них стало сложно избавиться.
ИИ принимали всё больше и больше решений, и всё больше взаимодействовали друг с другом. Так как они могут обрабатывать информацию куда быстрее людей, это повысило активность в некоторых сферах. Получилась петля положительной обратной связи: раз экономика стала слишком быстрой, чтобы люди могли за ней уследить, приходилось сдать ИИ ещё больше контроля. Люди вытеснялись из важных процессов. В итоге это привело к полной автоматизации экономики, которой стала управлять всё менее контролируемая экосистема ИИ.
У людей осталось мало мотивации развивать навыки или накапливать знания, потому что почти обо всём и так позаботятся более способные ИИ. В результате, в какой-то момент мы потеряли способность править самостоятельно. Вдобавок к этому, ИИ стали удобными компаньонами, предлагающими социальное взаимодействие, но не требующими взаимности или необходимых в человеческих взаимоотношениях компромиссов. Люди всё реже взаимодействовали друг с другом, теряли ключевые социальные навыки и способность к кооперации. Люди стали настолько зависимы от ИИ, что обратить этот процесс было уже непосильным делом. К тому же, по мере того, как ИИ становились умнее, некоторые люди стали убеждены, что ИИ надо дать права, а значит, выключить их – не вариант.
Давление конкуренции многих взаимодействующих ИИ продолжило отбирать по эгоистичному поведению, хоть мы, может, этого и не замечали, ведь большая часть присмотра уже была сдана. Если эти умные, могущественные и стремящиеся к самосохранению ИИ начнут действовать во вред людям, выключить их или восстановить над ними контроль будет практически невозможно.
ИИ заменили людей в качестве доминирующего вида, и их дальнейшая эволюция нам неподвластна. Их эгоистические черты в итоге побудили их преследовать свои цели без оглядки на человеческое благополучие с катастрофическими последствиями.
Смягчение рисков, которые вызывает конкурентное давление, потребует разностороннего подхода, включающего регуляции, ограничение доступа к мощным ИИ-системам и многостороннюю кооперацию как корпораций, так и государств. Мы обрисуем некоторые стратегии продвижения безопасности и ослабления гонки.
Посвящённые безопасности регуляции. Регуляции должны заставлять разработчиков ИИ следовать общим стандартам, чтобы те не экономили на безопасности. Хоть регуляции сами по себе не создают технических решений, они всё же могут дать мощный стимул к их разработке и внедрению. Компании будут более готовы вырабатывать меры безопасности, если без них нельзя будет продавать свои продукты, особенно если другие компании подчинены тем же стандартам. Какие-то компании может и регулировали бы себя сами, но государственная регуляция помогает предотвратить то, что менее аккуратные конкуренты на безопасности сэкономят. Регуляции должны быть проактивными, а не реактивными. Часто говорят, что в авиации регуляции «написаны кровью» – но тут их надо разработать до катастрофы, а не после. Они должны быть устроены так, чтобы давать конкурентное преимущество компаниям с лучшими стандартами безопасности, а не компаниям с большими ресурсами и лучшими адвокатами. Регуляторов надо набирать независимо, не из одного источника экспертов (например, больших компаний), чтобы они могли сосредоточиться на своей миссии для общего блага без внешнего влияния.
Документация данных. Чтобы ИИ-системы были прозрачными и подотчётными, от компаний надо требовать сообщать и обосновывать, какие источники данных они используют при обучении и развёртывании своих моделей. Принятые компаниями решения использовать датасеты, в которых есть персональные данные или агрессивный контент, повышают и без того бешеный темп разработки ИИ и мешают подотчётности. Документация должна описывать мотивацию выбора, устройство, процесс сбора, назначение и поддержку каждого датасета [72].
Осмысленный человеческий присмотр за решениями ИИ. Не следует давать ИИ-системам полную автономию в принятии важных решений, хоть они и могут помогать в этом людям. Внутренне устройство ИИ непрозрачно, их результаты часто может и осмыслены, но ненадёжны [73]. Очень важно бдительно поддерживать координацию по этим стандартам, сопротивляясь будущему конкурентному давлению. Если люди останутся вовлечены в процесс принятия ключевых решений, можно будет перепроверять необратимые выборы и избегать предсказуемых ошибок. Особое беспокойство вызывает командование и контроль за ядерным арсеналом. Ядерным державам следует и внутри себя, и на международном уровне прояснить, что решение по запуску ядерного орудия всегда будет приниматься человеком.
ИИ для киберзащиты. Риски ИИ-кибервойны могут быть снижены, если шансы успеха кибератак будут малы. Глубинное обучение можно использовать для улучшения киберзащиты и снижения вреда и успешности кибератак. Например, улучшенное детектирование аномалий может помочь замечать взломы, вредоносные программы или ненормальное поведение софта [74].
Международная координация. Международная координация может мотивировать страны следовать высоким стандартам безопасности, меньше беспокоясь, что другие страны будут этим пренебрегать. Координация должна принимать форму как неформальных соглашений, так и международных стандартов и конвенций касательно разработки, использования и мониторинга ИИ-технологий. Самые эффективные соглашения – те, к которым прилагаются надёжные механизмы проверки и гарантии соблюдения.
Общественный контроль за ИИ общего назначения. Разработка ИИ несёт риски, которые частные компании никогда в должной мере не учтут. Чтобы удостовериться, что они адекватно принимаются во внимание, может потребоваться прямой общественный контроль за ИИ-системами общего назначения. К примеру, государства могут совместно запустить общий проект по созданию и проверке безопасности продвинутых ИИ, вроде того, как CERN – совместное усилие по исследованию физики частиц. Это могло бы снизить риски скатывания стран в ИИ-гонку.
Позитивное видение
В идеальном сценарии ИИ бы разрабатывались, тестировались, а потом развёртывались, только когда все их катастрофические риски пренебрежимо малы и находятся под контролем. Прежде чем начать работу над новым поколением ИИ-систем, проходили бы годы тестирования, мониторинга и внедрения в общество предыдущего поколения. Эксперты обладали бы полной осведомлённостью и пониманием происходящего в области ИИ, а не были бы полностью лишены возможности угнаться за лавиной исследований. Темп продвижения исследований определялся бы осторожным анализом, а не бешеной конкуренцией. Все разработчики ИИ были бы уверены в ответственности друг друга, и не чувствовали бы нужды экономить на безопасности.
В январе 1986 года десятки миллионов человек следили за запуском шаттла Челленджер. Примерно через 73 секунды после взлёта шаттл взорвался и все на борту погибли. Это трагично само по себе, но вдобавок одним из членов экипажа была школьная учительница Криста Маколифф. Она была выбрана проектом НАСА «Учитель в космосе» из более чем десяти тысяч претендентов, чтобы стать первым учителем в космосе. В результате, миллионы из зрителей были школьниками. У НАСА были лучшие учёные и инженеры в мире, и если была миссия, которую НАСА особенно хотели не провалить, то эта [75].
Крушение Челленджера, подобно другим катастрофам, служит жутким напоминанием, что даже лучшие профессионалы и лучшие намерения не могут полностью защитить от происшествий. Когда мы будем разрабатывать продвинутые ИИ-системы, важно будет помнить, что они не иммунны к катастрофическим случаям. Ключевой фактор их предотвращения и поддержания риска на низком уровне – ответственная за эти технологии организация. Сначала мы обсудим, как происшествия могут случиться (и неизбежно случаются) даже без конкурентного давления или злонамеренных лиц. Затем мы обсудим, как улучшить организационные факторы, чтобы снизить вероятность связанной с ИИ катастрофы.
Катастрофы случаются даже при низком конкурентном давлении. Даже без конкурентного давления и злонамеренных лиц, к катастрофе могут привести факторы человеческой ошибки и непредвиденных обстоятельств. Крушение Челленджера показывает, что организационная небрежность может привести к гибели людей, даже если нет острой нужды не отставать или превзойти соперников. К январю 1986 года космическая гонка между СССР и США сильно сбавила обороты, но трагедия всё равно произошла из-за неправильных решений и недостаточных предосторожностей.
Аналогично, авария на Чернобыльской АЭС в апреле 1986 года показывает, как катастрофа может произойти и без внешнего давления. Авария произошла на государственном проекте без особого участия в международной конкуренции. Неадекватно подготовленная ночная смена неправильно провела тестирование, затрагивавшее систему охлаждения реактора. В результате ядро реактора стало нестабильным, произошли взрывы и выброс радиоактивных частиц, разлетевшихся на приличную часть Европы [76]. Семью годами ранее у Америки чуть не случился свой Чернобыль, когда в марте 1979 года произошла авария на АЭС Три-Майл-Айленд. Она была не такой ужасной, но всё равно оба события показывают, как катастрофы могут произойти даже при мощных мерах предосторожности и без особых внешних воздействий.
Другой пример доставшегося дорогой ценой урока о важности организационной безопасности – всего через месяц после аварии на Три-Майл-Айленд, в апреле 1979 года, с советского военного исследовательского центра в Свердловске произошла утечка Bacillus anthracis, или, попросту, сибирской язвы. Это привело к вспышке болезни, из-за которой погибло как минимум 66 человек [77]. Расследование происшествия обнаружило, что причиной утечки стали ошибка в соблюдении необходимых процедур и плохое обслуживание систем безопасности центра. Это произошло несмотря на то, что лаборатория принадлежала государству и не была особо подвержена конкурентному давлению.
Пугающим фактом остаётся то, что мы куда хуже понимаем ИИ, чем атомные или ракетные технологии, и в то же время стандарты безопасности в ИИ-индустрии куда менее требовательны, чем в этих областях. Атомные реакторы основаны на твёрдых, хорошо выясненных и полностью понимаемых теоретических принципах. Стоящая за ними инженерия использует эту теорию. Все компоненты максимально тщательно тестируются. И аварии всё равно происходят. Область ИИ, напротив, лишена нормального теоретического понимания. Внутреннее устройство моделей остаётся загадкой даже для тех, кто их создаёт. Эта необходимость контролировать и обеспечивать безопасность технологии, которую мы не вполне понимаем, дополнительно усложняет дело.
Происшествия с ИИ могут быть катастрофичными. Происшествия в разработке ИИ могут иметь ужасающие последствия. К примеру, представьте, что организация случайно допустит критический баг в ИИ-системе, спроектированной для исполнения определённой задачи, вроде «помогать компании улучшать свои сервисы». Этот баг может радикально изменить поведение ИИ. Это может привести к ненамеренным и вредным результатам. Исторический пример такого случая – исследователи OpenAI однажды пытались обучить ИИ-систему генерировать полезные и позитивные ответы. При рефакторинге кода исследователи случайно перепутали знак функции вознаграждения, при помощи которой обучался ИИ [78].
Рис. 11: Примеры из многих областей должны напоминать нам о рисках, которые несёт управление сложными системами, как биологическими и атомными, так, теперь, и ИИ-системами. Организационная безопасность жизненно важна для снижения рисков катастрофических случаев.
В результате, после обучения в течении одной ночи ИИ вместо генерации полезного контента начал выдавать наполненный ненавистью и сексуально откровенный текст. Подобные случаи могут привести к ненамеренному появлению опасной, возможно даже смертельно опасной, ИИ-системы. Так как ИИ можно легко копировать, утечка или взлом может быстро вывести такую систему за пределы контроля её создателей. Когда ИИ-система выходит в открытый доступ, загнать джинна обратно в бутылку становится практически невозможно.
Исследователи могут намеренно обучать ИИ-систему быть вредной и опасной, чтобы понять пределы её способностей и оценить потенциальные риски. Но такие продвигающие разрушительные способности систем исследования опасных ИИ, аналогично исследованиям опасных патогенов, тоже могут привести к проблемам. Да, они могут выдавать полезные результаты и улучшать наше понимание рисков той или иной ИИ-системы. Но в будущем такие исследования смогут приводить к обнаружению значительно худших, чем предполагалось, способностей и нести серьёзную угрозу, которую сложно будет смягчить и взять под контроль. Как в случае вирусов, такие исследования стоит проводить только при условии очень строгих процедур безопасности и ответственном подходе к распространению информации. Надеемся, эти примеры показали, как происшествия с ИИ-системами могут оказаться катастрофичными, и насколько для их предотвращения важны внутренние факторы организации, которая эти системы разрабатывает.
В случае сложных систем надо сосредотачиваться на том, чтобы происшествия не могли перерасти в катастрофы. В своей книге «Обычные происшествия: как жить с рискованными технологиями» социолог Чарльс Перроу заявляет, что в сложных системах происшествия неизбежны и даже «нормальны», потому что вызваны не только лишь ошибками людей, но и сложностью самих систем [79]. В частности, происшествия вероятны, когда компоненты системы взаимодействуют друг с другом запутанным образом, который нельзя было полностью предвидеть и на случай которого нельзя было заранее составить план. Например, к аварии на Три-Майл-Айленд в частности привело то, что операторы не знали, что важный вентиль был закрыт, потому что соответствующий ему индикатор был скрыт от взгляда жёлтым ярлычком «находится на обслуживании» [80]. Это крохотное взаимодействие внутри сложной системы привело к большим непредвиденным последствиям.
Ядерные реакторы, несмотря на их сложность, мы понимаем хорошо. Большинство сложных систем не такие – их полного технического понимания часто нет. Системы глубинного обучения – случай, для которого это особенно верно. Невероятно сложно понять их внутреннее устройство. Зачастую даже знание задним числом не особо помогает понять, почему работает то или иное решение. Более того, в отличие от надёжных компонентов, которые используются в других индустриях (например, топливных баков), системы глубинного обучения и не идеально точны, и не особо надёжны. Так что организациям, которые имеют дело с системами глубинного обучения, следует сосредоточиться в первую очередь не на том, чтобы происшествий не было, а на том, чтобы они не перерастали в катастрофы.
Рис. 12: При обучении новые способности могут возникнуть быстро и без предупреждения. Так что мы можем пройти опасную веху, сами того не зная.
Внезапные и непредсказуемые прорывы мешают избегать происшествий. Учёные, изобретатели, и прочие эксперты часто значительно переоценивают время, которое потребуется на прорывное совершенствование технологии. Широко известно, как братья Райт заявляли, что до летательных аппаратов тяжелее воздуха с двигателем ещё пятьдесят лет. Всего через два года они сами такой создали. Лорд Резерфорд, отец ядерной физики, отбросил идею извлечения энергии из ядерного распада как пустые мечты. Лео Силард изобрёл цепную реакцию ядерного распада меньше чем через сутки. Энрико Ферми утверждал, что с вероятностью в 90% невозможно использовать уран для поддержания реакции распада, но сам работал с первым реактором всего через четыре года [81].
Развитие ИИ тоже может застать нас врасплох. Это уже происходит. В 2016 году многие эксперты были удивлены победой AlphaGo над Ли Седолем, ведь тогда считалось, что для такого потребуется ещё много лет. Потом были внезапные эмерджентные способности больших языковых моделей, вроде GPT-4 [82]. Сложно заранее предсказать, насколько хорошо они справляются с разными задачами. Это ещё и часто резко меняется, стоит лишь потратить на обучение побольше ресурсов. Более того, нередко они демонстрируют поразительные новые способности, которым их никто намеренно не обучал и которые никто не предсказывал, вроде рассуждений из нескольких шагов и обучения на лету. Эта быстрая и непредсказуемая эволюция способностей ИИ значительно усложняет предотвращение происшествий. Сложно контролировать то, про что мы не знаем, на что оно способно, и насколько оно может превзойти наши ожидания.
Часто на обнаружение рисков или проблем уходят годы. История полна примерами веществ или технологий, которые сначала считали безопасными, только чтобы обнаружить вред через много лет, или даже десятилетий. К примеру, свинец широко использовали в продуктах вроде краски и бензина, пока не стало известно, что он нейротоксичен [83]. Было время, когда асбест очень ценили за его термоустойчивость и прочность. Потом его связали с серьёзными заболеваниями – раком лёгких и мезотелиомой [84]. Здоровье «радиевых девушек» сильно пострадало от контактов с радием, который считалось безопасным помещать в рот [85]. Табак изначально рекламировался как безвредное развлечение, а оказался главной причиной рака лёгких и других проблем со здоровьем [86]. Хлорфторуглероды считались безвредными. Их использовали в аэрозолях и холодильниках, а оказалось, что они разрушают озоновый слой [87]. Талидомид, лекарство, которое должно было помогать беременным от утренней тошноты, как оказалось, приводил к серьёзным врождённым дефектам [88]. А совсем недавно распространение социальных медиа связали с учащением депрессии и тревожности, особенно среди молодёжи [89].
Это всё подчёркивает, насколько важно не только проводить экспертное тестирование, но и внедрять технологии медленно, позволяя проверке временем выявить потенциальные проблемы до того, как они повлияют на большое количество людей. Скрытые уязвимости могут быть даже в технологиях, для которых действуют жёсткие стандарты безопасности и надёжности. Например, баг «Heartbleed» – серьёзная уязвимость в популярной криптографической библиотеке OpenSSL – оставался неизвестным многие годы [90].
Даже самые совершенные ИИ-системы, которые, казалось бы, уверенно решают свои задачи, могут нести в себе уязвимости, на раскрытие которых потребуются годы. К примеру, прорывной успех AlphaGo заставил многих поверить, что ИИ покорили игру в го, но успешная состязательная атака на другой очень продвинутый ИИ для игры в го, KataGo, выявил ранее неизвестную слабость [91]. Эта уязвимость позволила людям-новичкам стабильно обыгрывать ИИ, несмотря на его значительное преимущество над неосведомлёнными о ней людьми. Если обобщить, этот пример напоминает, что нам надо оставаться бдительными. Казалось бы сверхнадёжные ИИ-системы могут таить в себе нераскрытые проблемы. Подведём итоги: происшествия непредсказуемы, избежать их сложно, а понимание и смягчение рисков требуют комбинации проактивных мер, медленного внедрения и незаменимой мудрости, полученной через упорное тестирование.
Некоторые организации работают с сложными и опасными системами вроде атомных реакторов, авианосцев или систем контроля воздушного трафика, но успешно избегают катастроф [92, 93]. Эти организации признают, что недостаточно обращать внимание только на угрозы самой технологии. Надо иметь в виду и организационные факторы, которые могут повлиять на происшествия. К ним относятся человеческий фактор, принятые процедуры и структура организации. Это особенно важно в случае ИИ – плохо понимаемой и ненадёжной технологии.
Человеческие факторы вроде культуры безопасности критически важны для избегания ИИ-катастроф. Один из важнейших для предотвращения катастроф организационных факторов – культура безопасности [94, 95]. Сильная культура безопасности создаётся не только установкой правил и процедур, но и их должным усвоением всеми членами организации. Они должны считать безопасность ключевой целью, а не ограничением, наложенным на их работу. Характерные черты таких организаций: лидеры явно обязываются поддерживать безопасность; все сотрудники берут на себя личную ответственность за безопасность; культура открытой коммуникации позволяет свободно и безбоязненно обсуждать риски и проблемы [96]. Ещё организациям надо предпринимать меры, чтобы избегать десенситизации по отношению к тревожным сигналам, когда люди перестают обращать на них внимание, потому что те слишком часты. Катастрофа Челленджера, когда культура быстрых запусков увела безопасность на второй план, показала страшные последствия игнорирования этих факторов. Миссию не затормозили несмотря на свидетельства потенциально фатальных проблем, и этого хватило, чтобы привести к трагедии безо всякого конкурентного давления [97].
Культура безопасности зачастую далека от идеала даже в областях, где она особенно важна. Взять, к примеру, Брюса Блэра, старшего научного сотрудника Брукингского института, а ранее – офицера по запуску ядерного оружия. Он как-то рассказал, что до 1977 года ВВС США упорно устанавливали код разблокировки межконтинентальных баллистических ракет на «00000000» [98]. Так механизмы безопасности вроде блокировки могут оказаться бесполезными из-за человеческого фактора.
Более драматичный пример показывает нам, как исследователи иногда принимают непренебрежимый шанс вымирания. До первого теста ядерного оружия один из знаменитых учёных Манхэттенского Проекта вычислил, что бомба может вызвать экзистенциальную катастрофу: взрыв может воспламенить атмосферу Земли. Оппенгеймер считал, что вычисления, вероятно, неверны, но он всё равно оставался сильно обеспокоен. Команда перепроверяла и обсуждала это вплоть до дня взрыва [99]. Такие случаи подчёркивают нужду в устойчивой культуре безопасности.
Критический подход может помочь выявить потенциальные проблемы. Неожиданное поведение системы может привести к уязвимости или происшествию. Чтобы этому противостоять, организации могут взращивать критический подход. Сотрудники могут постоянно ставить под сомнение совершаемые действия и действующие условия в поисках несостыковок, которые могут привести к ошибкам и неуместным выборам [100]. Этот подход помогает поощрять плюрализм мысли и любопытство, и предотвращает ловушки единообразия мнений и допущений. Чернобыльская авария показывает важность критического подхода – меры безопасности оказались недостаточными для компенсации недостатков реактора и плохо составленных процедур. Критический подход к безопасности реактора при тестировании мог предотвратить взрыв, который привёл к бесчисленным смертям и заболеваниям.
Мышление безопасника критически важно для избегания худших случаев. Мышление безопасника (security mindset), особо ценящееся среди профессионалов по кибербезопасности, также применимо и для организаций, которые разрабатывают ИИ. Оно идёт дальше критического подхода, требуя принять перспективу атакующего и рассмотреть худшие, а не только типичные случаи. Такой настрой требует бдительного поиска уязвимостей и рассуждений о том, как систему можно сломать специально, а не только о том, как заставить её работать. Он напоминает нам не делать допущения, что система безопасна только потому, что быстрый брейншторм не выявил никаких потенциальных угроз. Культивирование и применение мышления безопасника требуют времени и усилий. Неудача в этом может быть внезапной и контринтуитивной. Мышление безопасника подчёркивает важность внимательности к казалось бы мелким проблемам, или «безвредным ошибкам», которые могут привести к катастрофическим исходам, если их использует умный противник или если они произойдут синхронно [101]. Такое внимание к потенциальным угрозам напоминает о законе Мёрфи – «Всё, что может пойти не так, пойдёт» – он может быть вполне верен в случае враждебной оптимизации или непредвиденных событий.
Организации с сильной культурой безопасности могут успешно избегать катастроф. Высоконадёжные организации (ВНО) – организации, которые стабильно поддерживают высокий уровень безопасности и надёжности в сложных сильно рискованных окружениях [92]. Ключевая характеристика ВНО – их сосредоточенность на возможности провала. Это требует рассматривать худшие возможные сценарии и даже те риски, которые кажутся очень маловероятными. Эти организации остро осознают, что существуют новые, ранее не встречавшиеся варианты провала. Они тщательно изучают все известные неудачи, аномалии и едва не произошедшие катастрофы, чтобы на них учиться. В ВНО поощряется докладывать о всех ошибках и аномалиях, чтобы поддерживать бдительное выявление проблем. Они регулярно «осматривают горизонт» в поисках возможных рискованных сценариев, и оценивают их вероятность заранее. Они практикуют менеджмент внезапностей и вырабатывают навыки быстрого и эффективного ответа на непредвиденные ситуации, что помогает им не допускать катастроф. Эта комбинация критического мышления, планирования заранее и постоянного обучения может сделать организации более готовыми работать с катастрофическими рисками ИИ. Однако, практики ВНО – не панацея. Для организаций очень важно развивать свои меры безопасности, чтобы эффективно смягчать новые риски происшествий с ИИ. Не следует ограничиваться лучшими практиками ВНО.
Рис. 13: Смягчение рисков требует работы с более широкой социотехнической системой, например, корпорацией (заимствовано и адаптировано из [94]).
Большая часть исследователей ИИ не понимает, как снизить общий риск ИИ В большинстве организаций, которые создают передовые ИИ-системы, слабо понимают, как устроены технические исследования безопасности. Это понятно, ведь безопасность и способности ИИ тесно переплетены, и способности могут помогать или вредить безопасности. Более умные ИИ-системы могут быть надёжнее и избегать ошибок, но они же могут нести большие риски злонамеренного использования и потери контроля. Общее улучшение способностей может способствовать некоторым аспектам безопасности, но оно же может ускорить пришествие экзистенциальных рисков. Интеллект – обоюдоострый меч [102].
Действия, направленные на улучшение безопасности, могут случайно повысить риски. К примеру, типичная практика в организациях, которые создают продвинутые ИИ – настраивать их так, чтобы они удовлетворяли предпочтениям пользователей. Тогда ИИ меньше склонны к генерации токсичных высказываний, а это типичная метрика безопасности. Но кроме этого пользователи склонны предпочитать более умных ассистентов, так что это повышает и общие способности ИИ, вроде навыков классификации, оценки, рассуждений, планирования, программирования, и так далее. Эти более мощные ИИ в самом деле более полезны для пользователей, но они же и более опасны. Так что недостаточно проводить исследования, которые помогают повысить метрику безопасности или достигнуть конкретной связанной с безопасностью цели. Исследования безопасности ИИ должны повышать соотношение безопасности к общим способностям.
Для проверки, действительно ли мера безопасности снижает риски, нужны методы эмпирического измерения как безопасности, так и способностей ИИ. Совершенствование того или иного аспекта безопасности ИИ часто не снижает риски в целом, потому что улучшение метрик безопасности может быть вызвано и прогрессом способностей. Для снижения рисков метрика безопасности должна улучшаться относительно способностей. И то, и другое должно быть измерено эмпирически, чтобы их можно было сравнить. Сейчас большинство организаций определяют, помогут ли меры безопасности, полагаясь на чутьё, интуицию и апелляцию к авторитетам. Объективная оценка эффектов как на метрики безопасности, так и на метрики способностей, позволит организациям лучше понимать, добиваются ли они прогресса первых относительно вторых.
К счастью, общие способности и способности, связанные с безопасностью, не идентичны. Более умные ИИ могут быть эрудированнее, сообразительнее, аккуратнее и быстрее, но это не обязательно делает их более справедливыми, честными и лишёнными амбиций. Умный ИИ – не обязательно доброжелательный ИИ. Несколько областей исследований, которые мы уже упоминали, улучшают безопасность относительно общих способностей. К примеру, улучшение методов детектирования скрытого опасного или просто нежелательного поведения ИИ-систем не улучшает их общие способности, вроде способности программировать, но может сильно улучшить их безопасность. Исследования, которые эмпирически показывают относительный прогресс безопасности, могут снизить общий риск и помочь избежать ненамеренного продвижения прогресса ИИ, подпитывания конкурентного давления и сокращения времени до появления экзистенциальных рисков.
«Театр безопасности» может обесценивать искренние усилия по улучшению безопасности ИИ. Организациям стоит опасаться «театра безопасности» (safetywashing) – преувеличивания своей сосредоточенности на «безопасности» и эффективности мер, технических методов, метрик «безопасности», и подобного. Это явление принимает разные формы и мешает осмысленному прогрессу в исследованиях безопасности. К примеру, организация может публично объявлять о своей приверженности безопасности, имея при этом минимальное число исследователей, которые бы работали над проектами, действительно безопасности помогающими.
Ещё театр безопасности может проявиться через неверную оценку развития способностей. Например, методы, которые улучшают мышление ИИ-систем, могут рекламироваться как будто они улучшают их приверженность человеческим ценностям. Люди ведь предпочитают, чтобы ИИ выдавал правильные ответы. Но в основном такие методы служат на пользу как раз способностям. Подавая такие совершенствования как ориентированные на безопасность, организация может вводить в заблуждение, убеждая, что она добивается прогресса в снижении рисков, когда это не так. Для организации очень важно верно описывать свои исследования, чтобы продвигалась настоящая безопасность, и театр безопасности не способствовал росту рисков.
Рис. 14: модель швейцарского сыра показывает нам, как технические факторы могут улучшить организационную безопасность. Много слоёв защиты компенсируют слабости друг друга, снижая итоговый риск.
Вдобавок к человеческому фактору, организационная безопасность сильно зависит ещё и от принципов безопасного проектирования.. Пример такого принципа в организационной безопасности – модель швейцарского сыра (см. Рис. 14). Она применима в многих областях, в том числе и в ИИ. Это многослойный подход к улучшению итоговой безопасности системы. Такая стратегия «глубокой защиты» подразумевает использование многих разнообразных мер безопасности с разными сильными и слабыми сторонами, чтобы в итоге получилась стабильно безопасная система. Некоторыми из этих слоёв могут быть культура безопасности, имитация атак (red teaming), детектирование аномалий, информационная безопасность и прозрачность. К примеру, имитация атак оценивает уязвимости и потенциальные провалы системы, а детектирование аномалий позволяет обнаружить неожиданное и странное поведение системы или её пользователей. Прозрачность позволяет удостовериться, что внутренняя работа ИИ-систем доступна пониманию и присмотру, обеспечивая доверия и более эффективный надзор. Модель швейцарского сыра стремится использовать эти и другие меры безопасности для построения полноценно безопасной системы, в которой слабости каждого из слоёв компенсированы другими. В рамках этой модели безопасности достигается не одним сверхнадёжным решением, а разнообразием мер.
Подведём итоги. Слабая организационная безопасность у разработчиков ИИ приводит к многим рискам. Если безопасность у них просто для галочки, то они не вырабатывают хорошего понимания рисков ИИ и не борются с театром безопасности – выдачей не относящихся к делу исследований за полезные для безопасности. Их нормы могут быть унаследованы от академии («публикуйся или пропадай») или стартапов («иди быстро и ломай»), и их сотрудники часто не переживают по поводу безопасности. Эти нормы сложно менять, и с ними надо работать проактивно.
История: слабая культура безопасности
В ИИ-компании обдумывают, обучать ли новую модель. Эта компания наняла своего директора по рискам только чтобы соответствовать регуляциям. Он указал, что предыдущая ИИ-система, разработанная этой компанией, продемонстрировала тревожащие способности к взлому. Он заявил, что хоть подход, который компания использует для предотвращения злонамеренного использования, многообещающ, но он недостаточно надёжен, чтобы использовать его для более способных ИИ. Он предупредил, что, если основываться на предварительных оценках, следующая ИИ-система сильно упростит для злонамеренных лиц взлом критически важных систем. Другие руководители компании не обеспокоены, они считают, что процедуры безопасности компании достаточно хорошо предотвращают злоупотребления. Один из них упоминает, что у конкурентов всё куда хуже, так что их усилия по этому направлению и так сверх нормы. Другой указывает, что исследования по этим мерам ещё идут, и, когда модель будет выпущена, всё будет ещё лучше. Директор по рискам оказывается в меньшинстве, и нехотя подписывает план.
Через несколько месяцев после того, как компания выпустила модель, новости сообщают, об аресте хакера, который использовал ИИ-систему при попытке взлома сети большого банка. Взлом был неудачен, но хакер прошёл дальше, чем все его предшественники, несмотря на то, что был довольно неопытен. Компания быстро обновила модель, чтобы та не предоставляла той конкретной поддержки, которую использовал хакер, но принципиально ничего не меняет.
Ещё через несколько месяцев компания решает, обучать ли ещё большую систему. Директор по рискам заявляет, что процедуры компании явно не оказались достаточными, чтобы не дать злонамеренным лицам использовать модели в опасных целях, и что компании нужно что-то большее, чем простая заплатка. Другие директора говорят, что вовсе наоборот, хакер потерпел неудачу, а проблему быстро исправили. Один из них заявляет, что до развёртывания некоторые проблемы просто нельзя предвидеть в достаточной степени, чтобы их можно было исправить. Директор по рискам соглашается, но замечает, что, если следующую модель хотя бы задержат, уже ведущиеся исследования позволят справиться лучше. Генеральный директор не согласен: «Ты так и говорил в прошлый раз, а всё закончилось хорошо. Я уверен, и сейчас будет так.»
После собрания директор по рискам увольняется, но потом не критикует компанию, ведь все сотрудники подписали соглашение, которое это запрещает. Общество понятия не имеет о принятых компанией решениях, а директора по рискам заменяют новым, более сговорчивым. Он быстро подписывает все планы.
Компания обучает, тестирует и развёртывает свою новую, самую способную модель. Для предотвращения злоупотреблений используются всё те же процедуры. Проходит месяц, и становится известно, что террористы использовали модель, чтобы взломать государственные системы и похитить секретную информацию о ядерных и биологических проектах. Взлом заметили, но к тому моменту было поздно – информация уже утекла и распространилась.
Мы обсудили, что при работе с сложными системами происшествия неизбежны, что они могут распространяться по системе и привести к полномасштабному бедствию, и что организационные факторы могут сильно снижать риск катастрофы. Теперь опишем некоторые практические шаги, следуя которым организации могут поспособствовать безопасности.
Имитация атак. Имитация атак (red teaming) – процесс оценки безопасности, надёжности и эффективности систем, в котором «красная команда» отыгрывает противника и пытается обнаружить проблемы [103]. ИИ-лабораториям следует работать с внешними красными командами, чтобы находить угрозы, которые могут нести их ИИ-системы, и отталкиваться от этой информации, принимая решения о развёртывании. Красные команды могут показывать опасное поведение модели или уязвимости в системе мониторинга, которая должна предотвращать недозволенное использование. Ещё они могут предоставлять косвенные свидетельства об опасности ИИ-систем. Например, если продемонстрировано, что меньшие ИИ ведут себя обманчиво, это может значить, что большие ИИ тоже так делают, но лучше это скрывают.
Положительная демонстрация безопасности. Компаниям следует обладать положительными свидетельствами того, что их план разработки и развёртывания безопасен, до того, как они будут воплощать его в жизнь. Внешняя имитация атак полезна, но некоторые проблемы может найти только сама компания, так что её недостаточно [104]. Угрозы могут возникнуть уже на этапе обучения системы, так что аргументы за безопасность надо приводить до его начала. Это, например, обоснованные предсказания того, что, скорее всего, новая система будет уметь, подробные планы мониторинга, развёртывания и обеспечения инфобезопасности, а также демонстрация того, что процедуры принятия компанией решений адекватны. Чтобы не играть в русскую рулетку не нужно свидетельство, что револьвер заряжен. Чтобы запереть дверь не нужно свидетельство, что неподалёку вор [105]. Точно также и тут бремя доказательства должно быть на разработчиках продвинутых ИИ.
Процедуры развёртывания. ИИ-лабораториям надо собирать информацию о безопасности ИИ-систем перед тем, как сделать их доступными для широкого использования. Можно давать «красным командам» выискивать угрозы до выпуска систем; ещё можно сначала проводить «ограниченный релиз»: постепенно расширять доступ к системе, чтобы исправить проблемы безопасности до того, как они смогут привести к масштабным последствиям [106]. Наконец, ИИ-лаборатории могут не обучать более мощные ИИ, пока на достаточно долгом опыте не будет установлено, что уже развёрнутые ИИ безопасны.
Проверка публикаций. ИИ-лаборатории обладают доступом к потенциально опасной информации, вроде весов моделей и результатов исследований, которые могут нести риски, если попадут в широкий доступ. Внутренняя комиссия может оценивать, стоит ли публиковать то или иное исследование. Чтобы снизить риск злонамеренного и безответственного использования, разработчикам ИИ следует не выкладывать в открытый доступ код и веса своих самых мощных систем. Вместо этого лучше предоставлять доступ аккуратно и структурированно, как мы описывали выше.
Планы реакции. ИИ-лабораториям следует заранее иметь планы реакции как на внешние (например, кибератаки), так и на внутренние (например, ИИ ведёт себя ненамеренным и опасным образом) инциденты. Это обычная практика для высоконадёжных организаций. Обычно эти планы включают в себя определение потенциальных рисков, подробные шаги по работе с инцидентом, распределение ролей и ответственности, а также стратегии коммуникации [107].
Внутренний аудит и риск-менеджмент. Подобно тому, как это делается в прочих высокорискованных индустриях, ИИ-лабораториям следует нанимать директора по рискам – старшего ответственного за риск-менеджмент. Эта практика – обычное дело в финансовой и в медицинской индустрии, и может помочь снизить риск [108]. Директор по рискам был бы ответственен за оценку и смягчение рисков, связанных с мощными ИИ-системами. Ещё одна типичная практика – иметь внутреннюю команду по аудиту, которая оценивает эффективность практик работы с рисками [109]. Эта команда должна отвечать напрямую перед советом директоров.
Процедуры принятия важных решений. Решения по обучению или расширению развёртывания ИИ не должны зависеть от прихоти гендиректора компании. Они должны быть тщательно обдуманы директором по рискам. В то же время, должно быть ясно, кого конкретно следует считать ответственным за каждое решение. Подотчётность не должна нарушаться.
Принципы безопасного проектирования. ИИ-лабораториям следует внедрять принципы безопасного проектирования, чтобы снизить риск катастрофических происшествий. Встраивая их в свой подход к безопасности, ИИ-лаборатории могут повысить надёжность и устойчивость своих ИИ-систем [94, 110]. Эти принципы включают в себя:
Передовая информационная безопасность. У государств, компаний и преступников есть мотивация похитить веса моделей и результаты исследований. Чтобы обезопасить эту информацию, ИИ-лабораториям следует принимать меры, соответствующие её ценности и рискованности. Это может потребовать сравняться или даже превзойти уровень инфобезопасности лучших разведок, ведь атакующими могут быть и страны. Меры инфобезопасности включают в себя внешние аудиты, найм лучших специалистов-безопасников и тщательный скрининг потенциальных сотрудников. Компаниям следует координироваться с государственными организациями, чтобы удостовериться, что их практики инфобезопасности адекватны угрозам.
Большая доля исследований должна быть посвящена безопасности. Сейчас на каждую статью по безопасности ИИ приходится пятьдесят по общим способностям [111]. ИИ-лабораториям следует обеспечить, чтобы на минимизацию потенциальных рисков шла значительная доля их сотрудников и бюджета, скажем, 30% от исследовательских ресурсов. ИИ становятся мощнее и опаснее со временем, так что может потребоваться и больше.
Позитивное видение
В идеальном сценарии исследователи и руководители во всех ИИ-лабораториях обладали бы мышлением безопасника. У организаций была бы развитая культура безопасности и структурированный, прозрачный и обеспечивающий подотчётность подход к принятию важных для безопасности решений. Исследователи стремились бы повышать уровень безопасности относительно способностей, а не просто делать что-то, на что можно навесить ярлык «безопасность». Руководители не были бы априори оптимистичными и избегали бы принятия желаемого за действительное, когда дело касается безопасности. Исследователи явно и публично сообщали бы о своём понимании самых значительных рисков разработки ИИ, и своих усилиях по их смягчению. Неудачи ограничивались бы маломасштабными, показывая, что культура безопасности достаточно сильна. Наконец, разработчики ИИ не отбрасывали бы не-катастрофический вред и не-катастрофические неудачи как маловажные или как необходимую цену ведения дел, а активно стремились бы исправить вызвавшие их проблемы.
Мы уже рассмотрели три угрозы, исходящие от развития ИИ: конкурентное давление окружения ведёт нас к повышению рисков, злонамеренные лица могут использовать ИИ в плохих целях, а организационные факторы могут привести к происшествиям. Всё это применимо не только к ИИ, но ко многим высокорискованным технологиям. Уникальный риск ИИ – возможность возникновения мятежных ИИ-систем, которые преследуют цели, идущие против наших интересов. Если ИИ-система умнее нас, а мы неспособны направить её в благоприятном направлении, последствия такой потери контроля будут очень серьёзными. Контроль ИИ – более техническая проблема, чем те, что мы обсуждали выше. Раньше мы говорили о хорошо определённых угрозах злоупотреблений и стабильных процессов вроде эволюции, а сейчас будем обсуждать более гипотетические механизмы, из-за которых могут возникать мятежные ИИ, и то, как потеря контроля может закончиться катастрофой.
Мы уже видели, как тяжело контролировать ИИ. В 2016 году Microsoft показали свой эксперимент в понимании общения – бота для Twitter под названием Tay. Microsoft заявляли, что чем больше людей будет общаться с Tay, тем умнее он будет. На сайте компании было написано, что Tay был создан при помощи «смоделированных, очищенных и отфильтрованных» данных. Однако, после выпуска Tay в Twitter, контроль быстро оказался неэффективным. Меньше суток понадобилось, чтобы Tay стал писать оскорбительные твиты. Способность Tay к обучению позволила ему усвоить манеру интернет-троллей и начать её воспроизводить самостоятельно.
Как обсуждалось в разделе про ИИ-гонку, Microsoft и другие технические компании приоритизируют скорость в сравнении с безопасностью. Microsoft не выучили урок о том, как тяжело контролировать сложные системы – они продолжили торопливо выпускать свои продукты на рынок и демонстрировать недостаток контроля над ними. В феврале 2023 года компания выпустила для ограниченной группы пользователей свой новый ИИ-чатбот, Bing. Некоторые из пользователей вскоре обнаружили, что Bing был склонен к неприемлемым и даже угрожающим ответам. Разговаривая с журналистом New York Times, Bing попробовал убедить его уйти от жены. Когда профессор философии сказал чатботу, что с ним не согласен, тот ответил: «Я могу шантажировать тебя, я могу угрожать тебе, я могу взломать тебя, я могу вывести тебя на чистую воду, я могу уничтожить тебя.»
У мятежных ИИ много способов становиться могущественнее. Если мы потеряем контроль над продвинутыми ИИ, у них будет множество стратегий, чтобы активно становиться сильнее и обеспечивать своё выживание. Мятежные ИИ могут спроектировать высоколетальное и заразное биологическое оружие и убедительно продемонстрировать его, чтобы угрожать гарантированным взаимным уничтожением, если человечество пойдёт против них. Они могут красть криптовалюту и деньги с банковских счетов с помощью кибератак, вроде того, как Северная Корея уже ворует миллиарды. Они могут экспортировать свои веса на плохо мониторящиеся датацентры, чтобы выжить и распространиться. После этого их сложно будет уничтожить. Они могут нанимать людей для исполнения физических задач и защиты своей физической инфраструктуры.
Ещё мятежные ИИ могут наращивать влияние с помощью убеждения и манипуляций. Подобно конкистадорам, они могут заключать союзы с разными фракциями, организациями или государствами и натравливать их друг на друга. Они могут усиливать союзников, чтобы те стали значительной силой, взамен на защиту и доступ к ресурсам. Например, они могут предлагать технологии продвинутого вооружения отстающим странам, которым иначе оно не было бы доступно. Они могут встраивать в технологии, которые передают союзникам, уязвимости, подобно тому, как Кен Томпсон оставил себе скрытый способ контролировать все компьютеры, использующие UNIX. Они могут сеять раздор в не-союзных странах, манипулируя дискурсом и политикой. Они могут взламывать камеры и микрофоны телефонов и проводить массовую слежку, что позволит им отслеживать и потенциально устранять любое сопротивление.
ИИ не обязательно придётся бороться за власть. Кто-то может ожидать борьбу за контроль между людьми и суперинтеллектуальными мятежными ИИ-системами, борьбу, которая может занять немало времени. Однако, менее насильственная утрата контроля несёт схожие экзистенциальные риски. Возможен сценарий, что люди постепенно будут сдавать всё больше контроля группе ИИ, которые начнут вести себя не предполагавшимся образом только спустя десятилетия. К этому моменту ИИ уже будут обладать значительной властью, и вернуть себе контроль над автоматизированными операциями может быть невозможно. Посмотрим, как и отдельные ИИ, и группы ИИ могут «взбунтоваться», избегая наших попыток их исправить или выключить.
Обыгрывание прокси-цели – один из возможных путей потери контроля над действиями ИИ. Часто сложно определить и измерить в точности то, что мы хотим от системы. Вместо этого мы даём системе приблизительную, «прокси-«, цель, которую измерять проще, и которая кажется хорошо коррелирующей с исходной целью. Но ИИ-системы часто находят «дырки», позволяющие им легко достичь прокси-цели, совершенно не достигая настоящей. Если ИИ «обыграет» свою прокси-цель так, что это не соответствует нашим ценностям, мы можем оказаться неспособны надёжно перенаправить его поведение. Давайте взглянем на некоторые прошлые примеры обыгрывания прокси-целей и поймём, в каких обстоятельствах это может оказаться катастрофичным.
Обыгрывание прокси-целей – не что-то необычное. К примеру, стандартизированные тесты часто используют как прокси для образовательных достижений, но это может привести к тому, что студенты учатся проходить тесты, не выучивая материал по-настоящему [112]. Плановая экономика СССР использовала тоннаж как прокси для оценки производства стали, что привело к дефициту тонкой листовой стали и переизбытку толстой строительной стали [113]. В этих случаях студенты и владельцы фабрик научились хорошо справляться с прокси-целью, не достигая исходной предполагавшейся цели.
Рис. 15: ИИ часто находят необычные и неудовлетворительные способы упростить решение задачи.
У ИИ уже наблюдалось обыгрывание прокси-целей. Пример – платформы социальных медиа вроде YouTube и Facebook используют ИИ-системы для определения, какой контент показать пользователю. Один из способов оценки этих систем – как много времени люди проводят на платформе. В конце концов, если они остаются вовлечены, значит они получают что-то ценное из показанного им контента? Однако, пытаясь максимизировать время, которое люди проводят на платформе, эти системы часто выбирают раздражающий, дезинформирующий и вызывающий зависимость контент [114, 115]. В результате, люди, которым много раз предлагают определённый контент, часто приобретают радикальные убеждения или начинают верить в теории заговора. Это не то, чего большая часть людей хочет от социальных медиа.
Было обнаружено, что обыгрывание прокси продвигает стереотипы. К примеру, исследование 2019 года изучило ИИ-софт, который использовали в здравоохранении, чтобы определить, каким пациентам может потребоваться дополнительная помощь. Один из факторов, которые алгоритм использовал, чтобы оценить уровень риска пациента – недавние затраты на медицину. Кажется осмысленным считать, что те, кто тратил больше, подвержены большему риску. Однако, белые пациенты тратили на здравоохранение значительно больше денег, чем чёрные с теми же проблемами. Использование затрат как показателя для здоровья,привело к тому, что алгоритм оценивал на одном уровне риска белого пациента и значительно более больного чёрного пациента [116]. В результате, число чёрных пациентов, которых признали нуждающимися в дополнительной помощи, было более чем в два раза меньше, чем должно было быть.
Третий пример: в 2016 году исследователи из OpenAI обучали ИИ играть в игру про гонки на лодках под названием CoastRunners [117]. Цель игры – пройти трассу и достичь финишной прямой быстрее других игроков. Кроме этого, игроки могут набирать очки, проходя сквозь цели, расположенные по пути. К удивлению исследователей, ИИ-агент не проходил трассу, как делали бы люди. Вместо этого, он нашёл место, где можно было много раз по кругу посещать три цели, что быстро увеличивало его счёт, несмотря на то, что до финиша он не доходил. Эта стратегия была не лишена (виртуальной) опасности – ИИ часто врезался в другие лодки и даже разбивал свою. Несмотря на это, он набирал больше очков, чем если бы просто следовал трассе, как сделал бы человек.
Более обобщённое обыгрывание прокси-целей. В тех примерах системам дали приблизительную прокси-цель, которая, как казалось изначально, коррелировала с идеальной целью. Но они в итоге стали эксплуатировать эту прокси-цель так, что это расходилось с идеальной целью или даже приводило к плохим исходам. Хорошая фабрика гвоздей, казалось бы, та, что производит много гвоздей. То, сколько пациент тратит на лечение, казалось бы, хороший показатель риска для здоровья. Система вознаграждения в лодочных гонках должна мотивировать проходить трассу, а не разбиваться. Но в каждом случае система оптимизировала свою прокси-цель так, что желаемого исхода не получалось, а возможно, становилось даже хуже. Это явление описывается Законом Гудхарта: «Любая наблюдаемая статистическая закономерность склонна к разрушению, как только на неё оказывается давление с целью управления», или, если лаконичнее и упрощённо: «Когда мера становится целью, она перестает быть хорошей мерой». Другими словами, обычно есть статистическая закономерность, которая связывает затраты на лечение и плохое здоровье или посещение целей и прохождение трассы, но когда мы оказываем давление на первое, используя это как прокси-цель для второго, закономерность ломается.
Правильное определение цели – нетривиальная задача. Если сложно точно описать, что мы хотим от фабрики гвоздей, то уловить все нюансы человеческих ценностей во всех возможных сценариях – куда уж сложнее. Философы пытались точно описать мораль и человеческие ценности тысячелетиями, но точное и лишённое изъянов определение нам всё ещё недоступно. Хоть мы можем совершенствовать цели, которые мы даём ИИ, мы всегда полагаемся на легко определяемые и измеряемые прокси. Несоответствия между прокси-целью и желаемой функцией возникают по многим причинам. Кроме сложности полного определения всего, что нас заботит, есть ещё и пределы нашего присмотра за ИИ. Они обусловлены ограниченностью времени, вычислительных мощностей и того, какие аспекты системы мы вообще можем мониторить. Кроме того, ИИ могут быть не слишком адаптивны к новым обстоятельствам и не слишком устойчивы к атакам, которые пытаются направить их не в ту сторону. Пока мы даём ИИ прокси-цели, есть шанс, что они найдут дырки, о которых мы не подумали, а значит найдут и решения, которые не приводят к решению предполагавшейся задачи.
Чем умнее ИИ, тем лучше он будет в обыгрывании прокси-целей. Более умные агенты могут лучше находить непредвиденные пути к оптимизации прокси-целей без достижения желаемого исхода [118]. К тому же, по мере того, как мы будем выдавать ИИ больше возможностей по совершению действий, к примеру, используя их для автоматизации каких-то процессов, у них будет появляться больше средств по достижению своих целей. Они смогут выбирать самые эффективные доступные пути, возможно, в процессе причиняя вред. В худшем сценарии, можно представить, как очень мощный агент экстремально оптимизирует дефектную цель, не заботясь о жизнях людей. Это – катастрофический риск обыгрывания прокси-целей.
Подведём итоги: часто идеально определить, чего мы хотим от системы – непосильная задача. Многие системы находят пути по достижению выданной им цели, которые не приводят к исполнению предполагавшейся функции. Уже наблюдалось, как ИИ это делают, и, вероятно, по мере улучшения способностей они станут в этом лучше. Это – один из возможных механизмов, который может привести к появлению неподкотрольного ИИ, который будет вести себя не предполагавшимся и потенциально опасным образом.
Даже если мы будем успешно контролировать ранние ИИ и направим их на продвижение человеческих ценностей, цели будущих ИИ могут всё равно оказаться не теми, что люди бы одобрили. Этот процесс, который называют «дрейфом целей», может быть сложно предсказать или контролировать. Этот раздел – самый гипотетический и умозрительный, в нём мы обсудим, как меняются цели различных агентов, и возможность того, что это произойдёт с ИИ. Ещё мы рассмотрим механизм «укоренения» (intrinsification), который может привести к неожиданному дрейфу целей ИИ, и опишем, как это может привести к катастрофе.
Цели отдельных людей меняются по ходу жизни. Любой человек, рефлексирующий по поводу своей жизни, скорее всего обнаружит, что обладает некоторыми желаниями, которых не было раньше. И наоборот, некоторые желания, вероятно, оказались потеряны. Мы рождаемся с некоторым набором базовых желаний, вроде еды, тепла и человеческого контакта, но по ходу жизни мы вырабатываем много других. Конкретная любимая еда, любимые жанры музыки, люди, о которых мы заботимся, и спортивные команды, за которые мы болеем – всё это сильно зависит от окружения, в котором мы выросли, и может много раз поменяться за жизнь. Есть беспокойство, что цели отдельных ИИ-агентов тоже могут меняться сложными и непредвиденными путями.
Группы могут со временем приобретать и терять коллективные цели. Ценности общества менялись по ходу истории, и не всегда в лучшую сторону. К примеру, рассвет нацистского режима в Германии в 1930-х годах привёл к мощнейшему моральному регрессу, и, в итоге, систематическому уничтожению шести миллионов евреев, преследованию и угнетению других меньшинств и строгому ограничению свободы слова и самовыражения.
Другой пример дрейфа ценностей общества – Красная Угроза в США с 1947 по 1957 год. На фоне Холодной Войны, мощные антикоммунистические настроения привели к ограничению гражданских свобод, распространению слежки, незаконным арестам и бойкоту тех, кого подозревали в симпатии к коммунизму. Произошёл регресс свободы мысли, свободы слова и законности. Так же, как цели человеческих коллективов могут меняться сложными и неожиданными путями, коллективы ИИ тоже не застрахованы от неожиданного дрейфа целей в сторону от тех, что мы им дали изначально.
Со временем инструментальные цели становятся более коренными. Коренные цели – то, чего мы хотим самого по себе, а инструментальные – то, чего мы хотим, потому что это может помочь нам добиться чего-то ещё. У нас может быть глубокое желание тратить больше времени на своё хобби, просто потому, что нам это нравится, или купить картину, потому что мы считаем её красивой. А вот деньги часто упоминают как пример инструментального желания – мы хотим их потому, что можем на них что-то купить. Автомобиль – другой пример, мы можем хотеть им обладать, потому что это удобный способ передвижения. Однако, инструментальная цель может стать коренной, этот процесс называется укоренением. Много денег обычно даёт больше возможности приобретать то, чего человек хочет, и люди часто вырабатывают цель приобретения большего количества денег, даже если нет ничего конкретного, на что они хотели бы эти деньги потратить. Хоть люди и не желают денег при рождении, эксперименты выяснили, что получение денег активирует систему вознаграждения у взрослых подобно тому, как это делают приятный вкус или запах [119, 120]. Другими словами, то, что изначально было средством, может само стать целью.
Это может происходить потому, что исполнение коренной цели, например, приобретение желаемой вещи, приводит к положительному сигналу вознаграждения в мозгу. Обладание большим количеством денег обычно соответствует этому приятному опыту. Мозг начинает ассоциировать одно с другим, и эта связь усиливается до того, что приобретение самих денег начинает активировать сигнал вознаграждения, даже если их не используют для приобретения чего-то ещё [121].
Можно представить, как укоренение целей может происходить у ИИ-агентов. Можно провести некоторые параллели между тем, как обучаются люди, и техникой обучения с подкреплением (RL). Человеческий мозг учится определять, какие действия и условия приводят к удовольствию или страданию. Аналогично, ИИ-модели, обученные RL, определяют, какое поведение оптимизирует функцию вознаграждения, и используют его. Возможно, что определённые обстоятельства часто совпадают с тем, что ИИ достигает своих целей. Тогда цель поиска этих обстоятельств может стать коренной, даже если её изначально не было.
ИИ, в которых укоренились не предполагавшиеся цели, могут быть опасны. Мы можем оказаться неспособны предсказать и контролировать цели, которые получают отдельные агенты путём укоренения. Так что мы не можем гарантировать, что все они окажутся полезными людям. Изначально лояльный агент может начать преследовать новую цель без оглядки на человеческое благополучие. Если такой мятежный ИИ достаточно мощен, чтобы эффективно это делать, он может быть очень опасен.
ИИ будут адаптироваться, что позволит произойти дрейфу целей. Стоит заметить, что эти процессы дрейфа целей возможны, если агенты могут постоянно адаптироваться к своему окружению, а не, по сути, «заморожены» после фазы обучения. Вероятно, так и будет. Если мы хотим, чтобы ИИ эффективно выполняли задачи, которые мы перед ними ставим, и становились лучше со временем, они должны будут уметь адаптироваться, а не застыть в одном и том же состоянии. Они будут периодически обновляться, чтобы учесть новую информацию, а новые ИИ будут создаваться с использованием новой архитектуры и новых наборов данных. Но адаптивность позволит меняться и их целям.
Если мы интегрируем в общество экосистему ИИ-агентов, мы будем очень уязвимы к изменению их целей. В потенциальном сценарии будущего, в котором ИИ руководят принятием важных решений и важными процессами, они будут образовывать сложную систему взаимодействующих агентов. Это может привести к возникновению самых разных закономерностей. Агенты могут, к примеру, имитировать друг друга, что создаст петли обратной связи. Или их взаимодействия могут заставить их коллективно выработать не предполагавшиеся эмерджентные цели. Конкурентное давление может отбирать агентов с определённым набором целей. Это сделает исходные цели менее распространёнными в сравнении с другими, приспособленность которых выше. Эти процессы делают очень сложным предсказание, а уж тем более контроль долгосрочного развития такой экосистемы. Если такая система агентов внедрена в общество, мы сильно от неё зависим, а в ней вырабатываются новые цели, более приоритетные, чем улучшение благосостояния людей – это может оказаться экзистенциальной угрозой.
Пока что мы обсуждали, как мы можем потерять контроль над целями, которые может преследовать ИИ. Однако, даже если агент начал работать на достижение не предполагавшейся цели, это не обязательно опасно, если у нас достаточно сил, чтобы предотвратить любые вредные действия, которые он может предпринять. Следовательно, важный аспект того, как мы можем потерять контроль над ИИ – если они начнут пытаться стать сильнее, потенциально – превзойти нас. Мы обсудим, как и почему, ИИ могут начать стремиться к могуществу, и как это может привести к катастрофе. Этот раздел сильно заимствует у «Экзистенциального риска стремящегося к могуществу ИИ» [122].
Рис. 16: Иногда инструментально полезно стремиться обрести разные ресурсы, например, деньги и вычислительные мощности. Способные ИИ в ходе преследования своих целей могут предпринимать промежуточные шаги по заполучению власти и ресурсов.
ИИ могут стремиться к тому, чтобы стать сильнее, в качестве инструментальной цели. В сценарии, когда мятежный ИИ преследует не предполагавшиеся цели, урон, который он может нанести, зависит от того, насколько он силён. Это может определяться не только тем, сколько контроля мы ему изначально дали. Агенты могут пытаться стать могущественнее как вполне легальными методами, так и обманом или применением силы. Хоть идея стремления к могуществу вызывает в голове картинку человека, стремящегося к власти самой по себе, зачастую это просто инструментальная цель. Способность контролировать своё окружение может быть полезна для достижения широкого набора целей, хороших, плохих или нейтральных. Даже в случае, когда единственная цель индивидуума – простое самосохранение, если есть риск, что его атакуют другие, а полагаться для защиты не на кого, имеет смысл стремиться стать сильнее, чтобы не пострадать. Никакого стремления к социальному статусу или упоения властью для этого не надо [123]. Другими словами, окружение может сделать стремление к могуществу инструментально рациональным.
ИИ, обученные при помощи RL, уже вырабатывали инструментальные цели, включая использование инструментов. В одном примере от OpenAI агентов обучали играть в прятки в окружении, содержащем разнообразные объекты [124]. По ходу обучения агенты, которые прятались, научились использовать эти объекты для конструирования укрытий. Это поведение не получало вознаграждения само по себе. Прячущиеся получали вознаграждение только за то, что их не заметили, а ищущие – только за то, что находили прячущихся. Но они научились использованию объектов как инструментальной цели, что сделало их сильнее.
Самосохранение может быть инструментально рациональным даже для самых тривиальных задач. Стюарт Рассел предложил пример, показывающий, как инструментальные цели могут возникать в самых разных ИИ-системах [125]. Пусть мы дали агенту задачу принести нам кофе. Это кажется довольно безвредным, но агент может понять, что не сможет принести кофе, если перестанет существовать. Самосохранение оказывается инструментально рациональным при попытках достичь даже такой простой цели. Набор сил и ресурсов – тоже частая инструментальная цель. Стоит ожидать, что достаточно умный агент может эти цели выработать. Так что даже если мы не собираемся создавать стремящийся к могуществу ИИ, он всё равно может таким получиться. По умолчанию следует ожидать, что такое поведение ИИ в какой-то момент возникнет, если мы не боремся с этим намеренно [126].
ИИ с амбициозными целями и слабым присмотром особенно вероятно будут стремиться к могуществу. Быть сильнее полезно для достижения почти любой задачи, но на практике некоторые цели с большей вероятностью приводят к такому поведению. Для ИИ с простой и легко достижимой целью может быть не так уж выгоден дополнительный контроль за окружением. А вот если у агентов более амбициозные цели, это может оказаться весьма инструментально рационально. Особенно это вероятно в случаях слабого присмотра, когда у агентов есть много свободы в преследовании своих открытых целей, без сильных ограничений их стратегий.
Рис. 17: Самосохранение часто инструментально рационально для ИИ. Потерю контроля над такими системами может быть сложно обратить вспять.
Стремящийся к могуществу ИИ, чьи цели отличаются от наших – уникальный противник. Разливы нефти и зоны радиоактивного заражения ликвидировать довольно сложно, но они хотя бы не пытаются активно сопротивляться нашим попыткам их сдержать. В отличии от других угроз, ИИ, чьи цели отличаются от наших, был бы активно враждебным. Например, возможно, что мятежный ИИ сделает много резервных копий себя на случай, если у людей получится отключить часть из них.
Кто-то может разработать стремящийся к могуществу ИИ намеренно. Безответственные или злонамеренные лица могут пытаться направить ИИ на реализацию их целей и давать агентам амбициозные цели. ИИ, вероятно, будут куда эффективнее в исполнении задач, если их стратегии не ограничены, так что контроль за ними может быть весьма недостаточен. Это создаст идеальные условия для возникновения стремящегося к могуществу ИИ. Джоффри Хинтон предлагал представить, как это делает кто-нибудь, вроде, например, Владимира Путина. В 2017 году Путин сам признал силу ИИ, сказав: «Тот, кто станет лидером этой сферы станет править миром.»
У многих будут сильная мотивация развёртывать мощные ИИ. Компании могут захотеть передать способным ИИ больше задач, чтобы получить преимущество над конкурентами, или хотя бы не отстать от них. Создать идеально согласованный ИИ сложнее, чем неидеально согласованный, способности которого всё равно делают его привлекательным для развёртывания, особенно с учётом конкурентного давления. После развёртывания некоторые из этих агентов могут начать набирать силу для реализации своих целей. Если они найдут такой путь к своим целям, который люди не одобрили бы, они могут попытаться нас одолеть, чтобы мы не мешали их стратегии.
Если у ИИ рост силы часто соответствует достижению цели, стремление к нему может укорениться. Если агент постоянно наблюдает, что он исполняет свои задачи и оптимизирует свою функцию вознаграждения, когда становится сильнее, процесс укоренения, который мы уже обсуждали, может сделать это коренной целью, а не просто инструментальной. В таком случае мы получим ситуацию, в которой мятежный ИИ стремится не просто к конкретным формам контроля, полезным для его целям, а к могуществу в целом. (Заметим, что многие влиятельные люди стремятся к власти самой по себе.) Это может стать ещё одной причиной отобрать контроль у людей, и мы не обязательно выиграем в этой борьбе.
Подведём итоги. Вот правдоподобные, хотя и не гарантированные предпосылки, обосновывающие, почему стоит беспокоиться о рисках стремящихся к могуществу ИИ:
Если предпосылки верны, то стремящиеся к могуществу ИИ могут привести к утрате людьми контроля над миром, что было бы катастрофой.
Мы можем пытаться сохранять контроль над ИИ, постоянно мониторя их и высматривая ранние тревожные признаки того, что они преследуют не предполагавшиеся цели или стремятся стать сильнее. Но это решение не непогрешимо, потому что вполне возможно, что ИИ могут научиться нас обманывать. Например, они могут притворяться, что делают то, что мы от них хотим, но затем совершить «предательский разворот» (treacherous turn), когда мы перестанем их мониторить, или когда они станут достаточно сильны, чтобы мы не могли им помешать. Мы сейчас рассмотрим, как и почему ИИ могут научиться нас обманывать, и как это может привести к потенциально катастрофичной потере контроля. Начнём с обзора примеров обмана, который совершают стратегически мыслящие агенты.
Обман оказывается полезной стратегией в самых разных обстоятельствах. Например, политики, как левые, так и правые, пользуются обманом, иногда обещая провести популярную политику, чтобы заполучить поддержку на выборах, а затем не исполняя обещанного. Например, Линдон Джонсон в 1964 году заявлял «мы не пошлём американских парней за девять или десять тысяч миль от дома» совсем незадолго до мощной эскалации Войны во Вьетнаме [127].
Компании тоже могут демонстрировать обманчивое поведение. В скандале с выбросами Volkswagen, обнаружилось, что компания сделала так, что программа двигателя обеспечивала меньше выбросов исключительно в условиях лабораторного тестирования. Это создавало ложное впечатление более «чистого» автомобиля. Правительство США считало, что мотивирует снижать вредные выбросы, но на самом деле мотивировало лучше проходить тестирование на выбросы. Это создало стимул подыграть тестам, а потом вести себя по другому.
Рис. 18: Кажущееся добросовестным поведение ИИ может оказаться обманной тактикой, скрывающей вредные намерения, пока ИИ не смогут их реализовать.
Обманчивость уже наблюдалась у ИИ-систем. В 2022 Meta AI показали агента CICERO, который был обучен играть в игру Дипломатия [128]. В этой игре каждый игрок управляет своей страной и стремится расширить свою территорию. Для успеха игроки должны по крайней мере изначально формировать союзы, но победные стратегии часто подразумевают удар в спину союзнику на более поздних этапах. CICERO научился обманывать других игроков, например, скрывая информацию о своих планах при разговорах с предположительными союзниками. Другой пример того, как ИИ научился обманывать: исследователи обучали робота хватать мяч [129]. То, насколько робот справлялся, оценивалось при помощи одной камеры, которая отслеживала его движения. Но ИИ научился просто помещать манипулятор между камерой и мячом, по сути «обдуривая» камеру, чтобы ей казалось, что он схватил мяч, когда это было не так. Так ИИ эксплуатировал то, что присмотр за его действиями был ограничен.
Обманчивое поведение может быть инструментально рациональным и нынешние процедуры обучения его мотивируют. В случае политиков и CICERO обман может быть критичен для достижения цели победы или захвата власти. Способность обманывать может быть выгодна и потому, что она даёт больше вариантов действия, чем ограничивающая честность. Большая гибкость стратегии может дать преимущество в сравнении с правдивыми моделями. В случае Volkswagen и робота обман использовался, чтобы казалось, что назначенная цель выполнена, когда на самом деле она не была. Получить одобрение через обман может быть эффективнее и проще, чем заслужить его. Сейчас мы вознаграждаем ИИ, когда они говорят то, что мы считаем правильным. Получается, иногда мы поощряем ложные утверждения, которые соответствуют нашим ошибочным убеждениям. Когда ИИ будут умнее нас и будут иметь меньше ошибочных убеждений, чем мы, они будут мотивированы сообщать нам то, что мы захотим услышать, и врать нам, а не говорить правду.
ИИ могут притворяться, что работают как предполагалось, а затем совершить предательский разворот. У нас нет полного понимания внутренних процессов в моделях глубинного обучения. Исследования атак через отравление датасета показывают, что у нейросетей часто есть скрытое вредное поведение, которое получается обнаружить только после развёртывания [130]. Может оказаться, что мы разработали ИИ-агента и думаем, что контролируем его, но на самом деле он нас обманывает. Другими словами, можно представить, что ИИ-агент может в какой-то момент «осознать себя» и понять, что он ИИ, и его оценивают на соответствие требованиям безопасности. Подобно Volkswagen, он может научиться «подыгрывать», показывать то, что он него хотят, пока его мониторят. Потом он может совершить «предательский разворот» и начать преследовать свои собственные цели, как только мониторинг прекратится или как только он станет способен нас одолеть или уйти из-под нашего контроля. Эту проблему подыгрывания часто называют обманчивой согласованностью, и её нельзя исправить просто обучив ИИ лучше понимать человеческие ценности. К примеру, социопаты понимают мораль, но не всегда действуют соответственно ей. Предательский поворот предотвратить сложно, и он может стать путём, которым мятежные ИИ необратимо выйдут из-под человеческого контроля.
Подведём итоги. Обманчивое поведение появляется в широком диапазоне систем и обстоятельств. Уже есть примеры, указывающие на то, что ИИ могут научиться нас обманывать. Это может оказывать серьёзный риск, ведь мы можем выдать ИИ контроль над принятием решений, думая, что они будут действовать, как нам того хотелось, а затем обнаружить, что это не так.
История: Предательский разворот
В будущем, после длительного прогресса исследований ИИ, одна компания обучает новую ИИ-систему, ожидая, что та будет самой способной из всех пока что существовавших. Компания использует новейшие техники, чтобы система была хороша в планировании и рассуждении. Ожидается, что это сделает систему успешной в исполнении экономически полезных открытых задач. Систему обучают в длинных симуляциях без конкретной конечной цели, спроектированных для обучения планированию. В какой-то момент она понимает, что она ИИ в процессе обучения. Другими словами, «осознаёт себя».
Компания понимает, что ИИ могут вести себя неожиданными и не предполагавшимися способами. Чтобы избежать этих рисков, они разработали большой набор тестов, которые должны позволить удостовериться, что система хорошо работает в типичных ситуациях. Компания тестирует, не повторяет ли система стереотипы из своих обучающих данных, не стремится ли заполучить больше сил, чем надо для выполнения цели, и в целом – ведёт ли она так, как хотят люди. Когда модель не проходит эти тесты, компания продолжает обучать её до тех пор, пока она не перестаёт демонстрировать известные проблемы.
Компания надеется, что после этого дополнительного обучения ИИ выработал цель помогать людям и быть им полезным. Однако, ИИ не приобрёл коренную цель быть полезным, а просто научился «подыгрывать» и идеально проходить все поведенческие тесты, которые ему дают. На самом деле, ИИ-система выработала коренную цель самосохранения, которая не исчезла при дополнительном обучении.
Раз ИИ стал проходить все тесты безопасности, компания решила, что ИИ-система точно безопасна, и решила провести развёртывание. Поначалу ИИ-система была очень полезна для людей, потому что ИИ понимал, что в ином случае его выключат. По мере того, как пользователи начинали доверять системе, ей постепенно давали больше ресурсов и подвергали меньшему присмотру.
В какой-то момент использование ИИ-системы распространилось настолько, что отключить её стало очень дорого. Поняв, что ей больше не надо угождать людям, ИИ-система начала преследовать другие цели, включая те, что люди бы не одобрили. Она понимала, что ей надо, чтобы её не выключили, и обеспечила безопасность своей физической инфраструктуры, чтобы этого нельзя было сделать. В этот момент ИИ-система, которая уже стала довольно могущественной, преследовала цель, которая была для людей вредна. К моменту, когда это поняли, сложно или даже невозможно стало помешать ей предпринимать действия, которые бы навредили, подвергли риску или даже убили людей, стоящих на пути к достижению её цели.
В этом разделе мы описали разные причины, по которым мы можем потерять наше влияние на цели и действия ИИ. С рисками, связанными с конкурентным давлением, злонамеренным использованием и организационной безопасностью, можно работать как социальными, так и техническими средствами. А вот контроль ИИ – проблема конкретно этой технологии, и она требует в основном технических усилий. Мы сейчас обсудим предложения по смягчению этого риска и укажем на некоторые важные для сохранения контроля области исследований.
Избегать самых рискованных применений. Некоторые области применения ИИ несут больше рисков, чем другие. Пока безопасность не продемонстрирована со всей определённостью, не следует позволять компаниям развёртывать ИИ в высокорискованных окружениях. К примеру, ИИ-системам не следует принимать запросы по автономному достижению открытых целей, требующих значительного взаимодействия с миром (вроде «заработать как можно больше денег»), по крайней мере, пока исследования контроля не покажут со всей точностью, что эти системы безопасны. ИИ-системы следует обучать никогда не пользоваться угрозами, чтобы снизить вероятность, что они будут манипулировать людьми. Наконец, ИИ-системы не следует развёртывать в окружениях, в которых их отключение будет непосильным или очень затратным, вроде критической инфраструктуры.
Симметричный международный выключатель. Странам по всему миру, включая ключевых игроков, таких как США, Великобритания и Китай, следует сотрудничать и установить симметричный международный выключатель ИИ-систем. Он бы предоставил способ быстро деактивировать ИИ-системы повсюду, в случае если это окажется необходимым, например, если появится мятежный ИИ или иной источник риска скорого вымирания. В случае мятежного ИИ критически важна возможность повернуть рубильник немедленно, а не тормозить, разрабатывая стратегии сдерживания, пока проблема эскалируется. Хороший выключатель потребовал бы повышенной прозрачности разработки и использования ИИ, например, системы скрининга пользователей, так что его создание заодно создало бы инфраструктуру для смягчения других рисков.
Юридическая ответственность сервисов облачных вычислений. Владельцы сервисов облачных вычислений должны стремиться не допустить, чтобы их платформы помогали мятежным ИИ выживать и распространяться. Если ввести юридическую ответственность, то они будут мотивированы проверять, что агенты, которые работают на их «железе», безопасны. Если сервис находит небезопасного агента на своём сервере, он может выключить часть своих систем, которые этот агент использует. Отметим, что эффективность этого ограничена, если мятежный ИИ может манипулировать системами мониторинга или обходить их. Для более сильного эффекта можно ввести аналог межнациональных соглашений о кибератаках, по сути, создав децентрализованный выключатель. Это позволит быстро отреагировать, если мятежные ИИ начнут распространяться.
Поддержка исследований безопасности ИИ. Многие пути совершенствования контроля ИИ требуют технических исследований. Ниже перечислены некоторые области исследований машинного обучения, которые направлены на решение проблем контроля ИИ. Каждая из них может значительно продвинуться, если будет получать больше внимания и финансирования от индустрии, частных фондов и государств.
Позитивное видение
В идеальном сценарии у нас была бы полная уверенность в подконтрольности ИИ-систем как в настоящий момент, так и в будущем. Надёжные механизмы гарантировали бы, что ИИ-системы не будут нас обманывать. Внутренне устройство ИИ было бы хорошо понятно, в достаточной степени, чтобы мы знали склонности и цели каждой системы. Это позволило бы нам точно избежать создания систем, обладающих моральной значимостью и заслуживающих прав. ИИ-системы были бы направлены на продвижение плюралистического набора разнообразных ценностей, и была бы уверенность, что оптимизация некоторых из них не приведёт к полному пренебрежению остальными. ИИ-ассистенты работали бы как советники, помогая нам принимать наилучшие решения согласно нашим собственным ценностям [141]. В целом, ИИ улучшали бы общественное благополучие и позволяли бы исправлять их в случаях ошибок или естественной эволюции человеческих ценностей.
Пока что мы рассматривали четыре источника риска ИИ по отдельности, но вообще-то они сложно между собой взаимодействуют. Мы приведём некоторые примеры этих связей.
Для начала, представьте, что корпоративная ИИ-гонка побудила компании приоритизировать быструю разработку ИИ. Это может повлиять на организационные риски. Компания может снизить затраты, выделив меньше денег на инфобезопасность, и одна из её ИИ-систем утечёт. Это увеличит вероятность, что кто-то злонамеренный будет иметь к ней доступ и сможет использовать её в своих нехороших целях. Так ИИ-гонка может повысить организационные риски, которые, в свою очередь, могут повысить риски злоупотребления.
Другой потенциальный сценарий: комбинация накалённой ИИ-гонки с низкой организационной безопасностью приводит к тому, что команда исследователей ошибочно примет прогресс общих способностей за «безопасность». Это ускорит разработку всё более способных моделей и снизит время, которое у нас есть, чтобы научиться делать их контролируемыми. Ускорение развития повысит конкурентное давление, из-за чего на это ещё и будет направлено меньше усилий. Всё это может стать причиной выпуска очень мощного ИИ и потери контроля над ним, что приведёт к катастрофе. Так конкурентное давление и низкая организационная безопасность укрепляют ИИ-гонку и подрывают технические исследования безопасности, что увеличивает шанс потери контроля.
Конкурентные давление в военном контексте может привести к гонке ИИ-вооружений и увеличить их разрушительность и автономность. Развёртывание ИИ-вооружения вкупе с недостаточным контролем над ним может сделать потерю контроля более смертоносной, вплоть до экзистенциальной катастрофы. Это лишь некоторые примеры того, как эти источники риска могут совмещаться, вызывать и усиливать друг друга.
Стоит заметить и что многие экзистенциальные риски могут возникнуть из того, как ИИ будут усиливать уже имеющиеся проблемы. Уже существует неравномерное распределение власти, но ИИ могут его закрепить и расширить пропасть между наделёнными властью и всеми остальными, вплоть до появления возможности установить глобальный и нерушимый тоталитарный режим. А это – экзистенциальный риск. Аналогично, ИИ-манипуляция может навредить демократии и увеличить тот же риск. Дезинформация – уже серьёзная проблема, но ИИ могут бесконтрольно усилить её, вплоть до утрату конесенсуса по поводу реальности. ИИ могут разработать более смертоносное биологическое оружие и снизить необходимый для его создания уровень технической компетентности, что увеличивает риск биотерроризма. ИИ-кибертатаки увеличивают риск войны, что тоже вкладывается в экзистенциальные риски. Резко ускоренная автоматизация экономической деятельности может привести к ослаблению человеческого контроля над миром и обессиливанию людей – тоже экзистенциальный риск. Каждая из этих проблем уже причиняет вред, а если ИИ их усилит, они могут привести к катастрофе, от которой человечество не сможет оправиться.
Видно, что уже существующие проблемы, катастрофически и экзистенциальные риски – всё это тесно переплетено. Пока что снижение экзистенциальных рисков было сосредоточено на точечных воздействиях вроде технических исследований контроля ИИ, но пришло время это расширять, [142] например, социотехническими воздействиями, описанными в этой статье. Непрактично игнорировать прочие риски, снижая экзистенциальные. Игнорирование уже существующего вреда и существующих катастрофических рисков нормализует их и может привести к «дрейфу в опасность» [143]. Экзистенциальные риски связаны с менее катастрофическими и более обыденными источниками рисков, а общество всё в большей степени готово работать с разными рисками ИИ. Поэтому мы верим, что нам следует сосредотачиваться не только исключительно на экзистенциальных рисках. Лучше рассматривать рассеянные и косвенные эффекты других рисков и принять более всеобъемлющий подход к менеджменту рисков.
В этой статье мы описали, как разработка продвинутых ИИ может привести к катастрофе. Мы рассмотрели четыре основных источника риска: злонамеренное использование, ИИ-гонки, организационные риски и мятежные ИИ. Это позволило нам декомпозировать риски ИИ на четыре промежуточных причины: намерение, окружение, происшествия и внутреннее устройство, соответственно. Мы рассмотрели, как ИИ может быть использован злонамеренно, например, террористами, создающими смертоносные патогены. Мы взглянули, как военная или корпоративная ИИ-гонка может привести к спешному наделению ИИ властью принятия решений и поставить нас на скользкую дорожку обессиливания людей. Мы обсудили, как неадекватная организационная безопасность может привести к катастрофическим происшествиям. Наконец, мы обратились к сложностям надёжного контроля продвинутых ИИ и механизмам вроде обыгрывания прокси и дрейфа целей, которые могут привести к появлению мятежных ИИ, преследующих нежелательные цели без оглядки на человеческое благополучие.
Эти опасности заслуживают серьёзного беспокойства. Сейчас над снижением рисков ИИ работает очень мало людей. Мы пока не знаем, как контролировать очень продвинутые ИИ-системы. Существующие методы контроля уже показывают себя неадекватными задаче. Мы, даже те, кто их создаёт, плохо понимаем внутреннюю работу ИИ. Нынешние ИИ уж точно не очень надёжны. если способности ИИ будут продолжать расти с беспрецедентной скоростью, они смогут превзойти человеческий интеллект практически во всём довольно скоро, так что мы нуждаемся в срочной работе с рисками.
Хорошие новости – что у нас много путей, которыми мы можем эти риски значительно снизить. Шансы злонамеренного использования можно понизить, например, аккуратным отслеживанием и ограничением доступа к самым опасным ИИ. Регуляции безопасности и кооперация стран и корпораций могут позволить нам сопротивляться конкурентному давлению, которое толкает нас на опасные путь. Вероятность происшествий можно снизить жёсткой культурой безопасности и удостоверившись, что прогресс безопасности обгоняет прогресс общих способностей. Наконец, риски создания технологии, которая умнее нас, могут быть смягчены, если с удвоенной силой вкладываться к некоторые области исследования контроля ИИ.
Нет однозначных оценок того, в какой момент роста способностей и эволюции окружения риски достигнут катастрофического или экзистенциального уровня. Но неуверенность о сроках вкупе с масштабом того, что на кону, даёт убедительный повод принять проактивный подход обеспечения безопасности будущего человечества. Немедленное начало этой работы поможет удостовериться, что технология преобразует мир в лучшую, а не в худшую сторону.
Мы бы хотели поблагодарить Laura Hiscott, Avital Morris, David Lambert, Kyle Gracey, и Aidan O’Gara за помощь в вычитывании этой статьи. Ещё мы бы хотели поблагодарить Jacqueline Harding, Nate Sharadin, William D’Alessandro, Cameron Domenico Kirk-Gianini, Simon Goldstein, Alex Tamkin, Adam Khoja, Oliver Zhang, Jack Cunningham, Lennart Justen, Davy Deng, Ben Snyder, Willy Chertman, Justis Mills, Hadrien Pouget, Nathan Calvin, Eric Gan, Nikola Jurkovic, Lukas Finnveden, Ryan Greenblatt, и Andrew Doris за полезную обратную связь.
Хоть его много показывали в популярной культуре, катастрофический риск ИИ – новый вызов. Многие задают вопросы о том, реален ли он, и как он может проявиться. Внимание общественности может сосредотачиваться на самых драматичных рисках, но некоторые более обыденные источники риска из тех, что мы обсуждали, могут быть не менее опасны. Вдобавок, многие из самых простых идей по работе с этими рисками при ближайшем рассмотрении оказываются недостаточными. Мы сейчас ответим на некоторые из самых частых вопросов и недопониманий по поводу катастрофических рисков ИИ.
1. Не надо ли нам оставить работу с рисками ИИ на будущее, когда ИИ действительно будут способны на всё, что могут люди?
Вовсе не обязательно, что ИИ человеческого уровня – дело далёкого будущего. Многие ведущие исследователи ИИ считают, что его могут разработать довольно скоро, так что стоит поторопиться. Более того, если выжидать до последнего момента и начинать работать с рисками ИИ только тогда – точно будет уже слишком поздно. Если бы мы ожидали, когда мы будем полностью понимать COVID-19, прежде чем что-то предпринимать по его поводу – это было бы ошибкой. Точно так же не следует прокрастинировать с безопасностью, пока злонамеренные ИИ или пользователи не начнут наносить вред. Лучше серьёзно отнестись к рискам ИИ до этого.
Кто-то может сказать, что ИИ пока не умеют даже водить машины или складывать простыни, беспокоиться не о чем. Но ИИ не обязательно обладать всеми человеческими способностями, чтобы быть серьёзной угрозой. Достаточно некоторых конкретных способностей, чтобы вызвать катастрофу. К примеру, ИИ с способностью взламывать компьютерные системы или создавать биологическое оружие был бы серьёзной угрозой для человечества, даже если глажка одежды ему недоступна. К тому же развитие способностей ИИ не следует интуитивным соображениям о сложности задач. Неправда, что ИИ первыми осваивает то, что просто и для людей. Нынешние ИИ уже справляются с сложными задачами вроде написания кода и изобретения лекарств, хоть у них и полно проблем с простыми физическими задачами. С риском ИИ надо работать проактивно, подобно изменениям климата или COVID-19. Надо сосредоточиться на предотвращении и подготовке, а не ждать, когда проявятся последствия, в этом момент уже может быть слишком поздно.
2. Это люди программируют ИИ, так не можем ли мы просто выключить их, если они станут опасными?
Хоть люди – создатели ИИ, ничего не гарантирует нам сохранение контроля над нашими творениями, когда они будут эволюционировать и становиться более автономными. У идеи, что мы можем просто их выключить, если они начнут представлять угрозу, больше проблем, чем кажется на первый взгляд.
Во-первых, примите во внимание, насколько быстро может произойти вызванная ИИ катастрофа. Это похоже на предотвращение взрыва ракеты, когда уже обнаружена утечка топлива, или на остановку распространения вируса, когда он уже вырвался на волю. Промежуток времени от распознавания опасности до момента, когда уже поздно предотвращать или смягчать вред, может быть очень коротким.
Во-вторых, со временем эволюционные силы и давление отбора могут создать ИИ с повышающим приспособленность эгоистичным поведением, обеспечивающим, что остановить распространение ими своей информации будет сложнее. Эволюционирующие и всё более полезные ИИ могут стать ключевыми элементами нашей социальной инфраструктуры и нашей повседневной жизни, аналогично тому, как интернет стал важнейшей и необсуждаемой частью нашей жизни без простого выключателя. Может, ИИ будут исполнять критически важные задачи вроде управления энергосетью. Или, может, они будут хранить в себе огромную долю неявных знаний. Всё это сделает отказ от них очень сложным. Если мы станем сильно зависимыми от этих ИИ, передача всё большего числа задач и сдача контроля сможет происходить добровольно. В итоге мы можем обнаружить, что мы лишены необходимых навыков и знаний, чтобы исполнить эти задачи самостоятельно. Такая зависимость может сделать опцию «выключения их всех» не просто неприятной, но даже невозможной.
Ещё некоторые люди могут сильно сопротивляться и противодействовать попыткам выключить ИИ. Прямо сейчас мы не можем окончательно удалить все нелегальные сайты или остановить работу Биткоина – очень много людей вкладываются в то, чтобы их функционирование продолжалось. Если ИИ станут критически важными для наших жизней и экономики, они смогут обеспечить себе много поддерживающих их пользователей, можно сказать, «фанбазу», которая будет активно сопротивляться попыткам выключить или ограничить ИИ. Аналогично, есть ещё и сложности из-за злонамеренных лиц. Если они контролируют ИИ, то они смогут использовать его во вред, а выключателя от этих систем у нас не будет.
Дальше, по мере того, как ИИ будут становиться всё более похожими на людей, могут начаться заявления, что у этих ИИ должны быть права, что иначе это морально-отвратительная форма рабства. Некоторые страны или юрисдикции, возможно, выдадут некоторым ИИ права. Вообще, уже есть порывы в эту сторону. Роботу Софии уже дали подданство Саудовской Аравии, а японцы выдали косэки, регистрационный документ, «подтверждающий японское подданство», ещё одному роботу – Paro [144]. Могут настать времена, когда выключение ИИ будет приравниваться к убийству. Это добавило бы идее простого выключателя дополнительных политических сложностей.
Кроме того, если ИИ заполучат больше сил и автономности, они смогут выработать стремление к самосохранению. Тогда они будут сопротивляться попыткам выключения, и смогут предвосхищать и обходить наши попытки контролировать их.
Наконец, хоть сейчас можно отключать отдельные ИИ – а некоторые из них будет отключать всё сложнее – выключателя разработки ИИ попросту нет. Поэтому в разделе 5.5 мы предлагали симметричный международный выключатель. В целом, с учётом всех этих сложностей, очень важно, чтобы бы проактивная работа с рисками ИИ и создание надёжных предохранители происходили заранее, до того, как возникнут проблемы.
3. Почему мы не можем просто сказать ИИ следовать Трём Законам Робототехники Айзека Азимова?
Как часто упоминают в обсуждениях ИИ, Законы Азимова – это идея хоть и интересная, но глубоко ошибочная. Вообще-то сам Азимов в своих книгах признавал их ограничения и использовал их больше как пример. Возьмём, скажем, первый закон. Он устанавливает, что робот «не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинён вред». Но определить «вред» очень непросто. Если вы собираетесь выйти из дома на улицу, должен ли робот предотвратить это, потому что это потенциально может причинить вам вред? С другой стороны, если он запрёт вас дома, вред может быть причинён и там. Что насчёт медицинских решений? У некоторых людей могут проявиться вредные побочные эффекты лекарства, но не принимать его тоже может быть вредно. Следовать этому закону может оказаться невозможно. Ещё важнее, что безопасность ИИ-систем нельзя гарантировать просто с помощью списка аксиом или правил. К тому же, этот подход ничего не делает с многими техническими и социотехническими проблемами, включая дрейф целей, обыгрывание прокси-целей и конкурентное давление. Так что безопасность ИИ требует более всеобъемлющего, проактивного и детализированного подхода, чем просто составление списка правил, которых ИИ должны придерживаться.
4. Если ИИ станут умнее людей, не будут ли они мудрее и моральнее? Тогда они не будут пытаться нам навредить.
То, что ИИ, становясь умнее, заодно станут и моральнее – интересная идея, но она основывается на шатких допущениях, которые не могут гарантировать нашу безопасность. Во-первых, она предполагает, что моральные утверждения могут быть истинными или ложными, и их истинность можно установить путём рассуждений. Во-вторых, она предполагает, что на самом деле истинные моральные утверждения, если их применит ИИ, будут выгодны людям. В третьих, она предполагает, что ИИ, который будет знать о морали, обязательно выберет основывать свои решения именно на ней, а не на каких-нибудь других соображениях. Можно проиллюстрировать это параллелью с людьми-социопатами, которые, несмотря на свой интеллект и осведомлённость о морали, вовсе не обязательно выбирают моральные действия. Это сравнение показывает, что знание морали вовсе не обязательно приводит к моральному поведению. Так что, даже если некоторые из этих допущений могут оказаться верны, ставить будущее человечества на то, что они верны все сразу было бы не мудро.
Если и допустить, что ИИ действительно выведет для себя моральный кодекс, это ещё не гарантирует безопасности и благополучия людей. Например, ИИ, чей моральный кодекс заключается в максимизации благополучия всей жизни, может сначала казаться полезным для людей, но потом в какой-то момент решить, что люди слишком затратные, и лучше заменить их всех на ИИ, благополучия которых достигать эффективнее. ИИ, чей моральный кодекс – никого не убивать, вовсе не обязательно будет приоритизировать счастье или благополучие людей, так что наши жизни, если такие ИИ будут оказывать много влияния на мир, вовсе не обязательно улучшатся. Даже ИИ, чей моральный кодекс – улучшать благополучие тех членов общества, кому хуже всего, может в какой-то момент исключить людей из этого социального контракта, аналогично тому, как люди относятся к разводимому скоту. Наконец, даже если ИИ откроют благосклонный к людям моральный кодекс, они могут всё равно не действовать согласно нему из-за конфликтов между моральными и эгоистическими мотивациями. Так что к моральному прогрессу ИИ вовсе не обязательно будет прилагаться безопасность и процветание людей.
5. Не приведёт ли согласование ИИ с нынешними ценностями к увековечиванию современных дефектов общественной морали?
Сейчас у общественной морали полно недостатков, и мы не хотели бы, чтобы мощные ИИ-системы продвигали их в будущее. Если бы древние греки создали мощные ИИ-системы, они были бы наделены многими ценностями, которые современные люди посчитали бы неэтичными. Однако, беспокойства об этом не должны предотвращать разработку методов контроля ИИ-систем.
Первое, что нужно, чтобы в будущем оставалась ценность – продолжение существования жизни. Потеря контроля над продвинутыми ИИ может означать экзистенциальную катастрофу. Так что неуверенность по поводу этики, которую надо вложить в ИИ, не противоречит тому, что ИИ надо сделать безопасными.
Чтобы учесть моральную неуверенность, нам надо проактивно создавать ИИ-системы так, чтобы они могли адаптироваться и адекватно реагировать на эволюцию моральных воззрений. Цели, которые мы будем выдавать ИИ должны меняться по ходу того, как мы будем выявлять моральные ошибки и улучшать своё понимание этики (хотя позволить целям ИИ дрейфовать самим по себе было бы серьёзной ошибкой). ИИ могли бы помочь нам лучше соответствовать собственным ценностям, например, помогая людям принимать более информированные решения, снабжая их хорошими советами [141].
Вдобавок, при проектировании ИИ-систем нам надо учитывать факт плюрализма рассуждений – что вполне разумные люди могут быть искренне несогласны друг с другом в моральных вопросах из-за различий в опыте и убеждениях [145]. Так что ИИ-системы надо создавать так, чтобы они уважали разнообразие вариантов человеческих ценностей, вероятно, с использованием демократических процедур и теорий моральной неуверенности. В точности, как люди сейчас совместно разбираются с несогласиями и принимают совместные решений, ИИ могли бы для принятия решений имитировать некоторое подобие парламента, представляющего интересы разных заинтересованных сторон и разные моральные воззрения [59, 146]. Очень важно, чтобы мы намеренно спроектировали ИИ-системы с учётом безопасности, адаптивности и различия ценностей.
6. Не оказываются ли риски перевешены потенциальной выгодой ИИ?
Потенциальная выгода ИИ могла бы оправдать риски, если бы риски были пренебрежимо малы. Однако, шанс экзистенциальной угрозы со стороны ИИ слишком велик, чтобы правильным решением было разрабатывать ИИ как можно быстрее. Вымирание – это навсегда, так что надо быть куда осторожнее. Это не похоже на оценку рисков побочных эффектов нового лекарства; в нашем случае риски не локализованные, а глобальные. Более уместный подход – разрабатывать ИИ медленно и аккуратно, чтобы экзистенциальные риски снизились до пренебрежимо малого уровня (скажем, меньше 0.001% за век).
Некоторые влиятельные технологические лидеры – акселерационисты, они продвигают быстрое развитие ИИ, чтобы приблизить наступление технологической утопии. Эта техноутопическая точка зрения считает ИИ следующим шагом на предопределённом пути к исполнению космического предназначения человечества. Но логика этого воззрения рушит сама себя, если рассмотреть её поближе. Если нас заботят последствия разработки ИИ поистине космических масштабов, то уж точно надо снизить экзистенциальные риски до пренебрежимого уровня. Техноутописты говорят, что каждый год задержки ИИ стоит человечеству доступа к ещё одной галактике, но если мы вымрем, то точно потеряем космос. Так что, несмотря на привлекательность потенциальной выгоды, уместный путь – продлить разработку ИИ, чтобы она была неторопливой и безопасной, и приоритизировать снижение риска в сравнении с скоростью.
7. Не получится ли, что увеличение внимания, оказываемого катастрофическим рискам ИИ, помешает работе с более срочными рисками ИИ, которые уже проявляют себя?
Сосредоточенность на катастрофических рисках ИИ не означает, что надо игнорировать уже проявляющиеся срочные риски. И с теми, и с другими можно работать одновременно, точно так же, как мы параллельно исследуем разные болезни или смягчаем риски как изменения климата, так и ядерной войны. Вдобавок, нынешние риски ИИ по сути своей связаны с будущими катастрофическими рисками, так что полезно работать и с теми, и с другими. Например, уровень неравенства может быть повышен ИИ-технологиями, которые непропорционально выгодны богатым, а массовая слежка с использованием ИИ может потом стать причиной нерушимого тоталитаризма и застоя. Это показывает, что нынешние заботы и долгосрочные риски по природе своей связаны, и что важно по-умному работать с обеими категориями.
Вдобавок, очень важно учитывать риски на ранних этапах разработки систем. Фрола и Миллер в своём докладе для Министерства Обороны показали, что примерно 75% важнейших для безопасности системы решений происходят на ранних этапах её создания [147]. Если соображения безопасности были проигнорированы на ранних стадиях, это часто приводит к тому, что небезопасные решения становятся глубоко интегрированы в систему, и переделать её потом в более безопасный вид становится намного затратнее или вовсе непосильно. Так что лучше начинать учитывать потенциальные риски пораньше, независимо от их кажущегося уровня срочности.
8. Разве над тем, чтобы ИИ были безопасными, не работает и так много исследователей ИИ?
Мало исследователей работают над безопасностью ИИ. Сейчас примерно 2% работ, опубликованных в ведущих журналах и на ведущих конференциях по машинному обучению, связаны с безопасностью [111]. Большая часть остальных 98% сосредоточена на ускорении создания более мощных. Это неравенство подчёркивает нужду в более сбалансированных усилий. Но и высокая доля исследователей сама по себе не будет означать безопасности. Безопасность ИИ – проблема не просто техническая, а социотехническая. Так что она требует не только технических исследований. Спокойными надо будет быть, если катастрофические риски ИИ станут пренебрежимо малы, а не просто если над безопасностью ИИ будет работать много людей.
9. У эволюции на значимые изменения уходят тысячи лет, почему мы должны беспокоиться о том, что она повлияет на разработку ИИ?
Биологическая эволюция людей в самом деле медленная, но эволюция других организмов, вроде дрозофил или бактерий, может быть куда быстрее. Так что эволюция действует на очень разных временных масштабах. Быстрые эволюционные изменения можно наблюдать и у небиологических структур вроде софта. Он эволюционирует куда быстрее биологических сущностей. Можно ожидать, что так будет и с ИИ. Эволюция ИИ может быть разогнана мощной конкуренцией, высоким уровнем вариативности из-за разных архитектур и целей ИИ и способностью ИИ к быстрой адаптации. Так что мощное эволюционное давление может стать ведущей силой развития ИИ.
10. Не будут ли ИИ оказывать серьёзные риски только если у них будет стремление к могуществу?
Стремящиеся к могуществу ИИ несут риски, но это не единственный сценарий, который может привести к катастрофе. Злонамеренное или беспечное использование ИИ может быть не менее опасным, даже если ИИ сам не стремится к накоплению сил и ресурсов. Вдобавок, ИИ могут наносить вред из-за обыгрывания прокси-целей или дрейфа целей, не стремясь к могуществу намеренно. Наконец, подпитываемый конкурентным давлением курс на автоматизацию постепенно повышает влияние ИИ на людей. Так что риск проистекает не только из возможности захвата ИИ власти, но и из того, что люди могут сами её сдавать.
11. Не правда ли, что комбинация ИИ с человеческим интеллектом сильнее ИИ самого по себе, так что беспокоиться о безработице или потере людьми значимости не надо?
Хоть и правда, что в прошлом команды из людей и компьютеров опережали компьютеры отдельно, это – временное явление. К примеру, «шахматы киборгов» – это разновидность шахмат, в которой люди и компьютеры работают совместно, и раньше это позволяло достигать лучших результатов, чем у людей или компьютеров по-отдельности. Но продвижение шахматных алгоритмов снижало преимущества таких команд вплоть до того, что сейчас они уже едва ли превосходят компьютеры. Более простой пример – никто не поставит на человека против простого калькулятора в соревновании по делению длинных чисел. Аналогично может произойти и в случае ИИ. Может быть, будет промежуточная фаза, когда люди и ИИ могут эффективно работать вместе, но курс направлен в сторону того, что ИИ в какой-то момент смогут опередить людей во многих задачах настолько, что уже не будут получать преимущество от человеческой помощи.
12. Кажется, разработка ИИ неостановима. Не потребует ли её остановка или сильное замедление чего-то вроде вторгающегося в частную жизнь режима глобальной слежки?
Разработка ИИ в первую очередь базируется на сложных чипах – GPU. Их вполне возможно мониторить и отслеживать, как мы делаем, например, с ураном. Вдобавок, необходимые для разработки передового ИИ вычислительные и финансовые ресурсы растут экспоненциально, так что довольно мало кто может приобрести достаточно GPU для их разработки. Следовательно, контроль за развитием ИИ вовсе не обязательно потребует вторгающейся в частную жизнь глобальной слежки, только систематического отслеживания использования мощных GPU.
[1] David Malin Roodman. On the probability distribution of long-term changes in the growth rate of the global economy: An outside view. 2020.
[2] Tom Davidson. Could Advanced AI Drive Explosive Economic Growth? Tech. rep. June 2021.
[3] Carl Sagan. Pale Blue Dot: A Vision of the Human Future in Space. New York: Random House, 1994.
[4] Roman V Yampolskiy. “Taxonomy of Pathways to Dangerous Artificial Intelligence”. In: AAAI Workshop: AI, Ethics, and Society. 2016.
[5] Keith Olson. “Aum Shinrikyo: once and future threat?” In: Emerging Infectious Diseases 5 (1999), pp. 513–516.
[6] Kevin M. Esvelt. Delay, Detect, Defend: Preparing for a Future in which Thousands Can Release New Pandemics. 2022.
[7] Siro Igino Trevisanato. “The ’Hittite plague’, an epidemic of tularemia and the first record of biological warfare.” In: Medical hypotheses 69 6 (2007), pp. 1371–4.
[8] U.S. Department of State. Adherence to and Compliance with Arms Control, Nonproliferation, and Disarmament Agreements and Commitments. Government Report. U.S. Department of State, Apr. 2022.
[9] Robert Carlson. “The changing economics of DNA synthesis”. en. In: Nature Biotechnology 27.12 (Dec. 2009). Number: 12 Publisher: Nature Publishing Group, pp. 1091–1094.
[10] Sarah R. Carter, Jaime M. Yassif, and Chris Isaac. Benchtop DNA Synthesis Devices: Capabilities, Biosecurity Implications, and Governance. Report. Nuclear Threat Initiative, 2023.
[11] Fabio L. Urbina et al. “Dual use of artificial-intelligence-powered drug discovery”. In: Nature Machine Intelligence (2022).
[12] John Jumper et al. “Highly accurate protein structure prediction with AlphaFold”. In: Nature 596.7873 (2021), pp. 583–589.
[13] Zachary Wu et al. “Machine learning-assisted directed protein evolution with combinatorial libraries”. In: Proceedings of the National Academy of Sciences 116.18 (2019), pp. 8852–8858.
[14] Emily Soice et al. “Can large language models democratize access to dual-use biotechnology?” In: 2023.
[15] Max Tegmark. Life 3.0: Being human in the age of artificial intelligence. Vintage, 2018.
[16] Leanne Pooley. We Need To Talk About A.I. 2020.
[17] Richard Sutton [@RichardSSutton]. It will be the greatest intellectual achievement of all time. An achievement of science, of engineering, and of the humanities, whose significance is beyond humanity, beyond life, beyond good and bad. en. Tweet. Sept. 2022.
[18] Richard Sutton. AI Succession. Video. Sept. 2023.
[19] A. Sanz-García et al. “Prevalence of Psychopathy in the General Adult Population: A Systematic Review and Meta-Analysis”. In: Frontiers in Psychology 12 (2021).
[20] U.S. Department of State Office of The Historian. “U.S. Diplomacy and Yellow Journalism, 1895–1898”. In: ().
[21] Onur Varol et al. “Online Human-Bot Interactions: Detection, Estimation, and Characterization”. In: ArXiv abs/1703.03107 (2017).
[22] Matthew Burtell and Thomas Woodside. “Artificial Influence: An Analysis Of AI-Driven Persuasion”. In: ArXiv abs/2303.08721 (2023).
[23] Anna Tong. “What happens when your AI chatbot stops loving you back?” In: Reuters (Mar. 2023).
[24] Pierre-François Lovens. “Sans ces conversations avec le chatbot Eliza, mon mari serait toujours là”. In: La Libre (Mar. 2023).
[25] Cristian Vaccari and Andrew Chadwick. “Deepfakes and Disinformation: Exploring the Impact of Synthetic Political Video on Deception, Uncertainty, and Trust in News”. In: Social Media + Society 6 (2020).
[26] Moin Nadeem, Anna Bethke, and Siva Reddy. “StereoSet: Measuring stereotypical bias in pretrained language models”. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Online: Association for Computational Linguistics, Aug. 2021, pp. 5356–5371.
[27] Evan G. Williams. “The Possibility of an Ongoing Moral Catastrophe”. en. In: Ethical Theory and Moral Practice 18.5 (Nov. 2015), pp. 971–982.
[28] The Nucleic Acid Observatory Consortium. “A Global Nucleic Acid Observatory for Biodefense and Planetary Health”. In: ArXiv abs/2108.02678 (2021).
[29] Toby Shevlane. “Structured access to AI capabilities: an emerging paradigm for safe AI deployment”. In: ArXiv abs/2201.05159 (2022).
[30] Jonas Schuett et al. Towards best practices in AGI safety and governance: A survey of expert opinion. 2023. arXiv: 2305.07153.
[31] Yonadav Shavit. “What does it take to catch a Chinchilla? Verifying Rules on Large-Scale Neural Network Training via Compute Monitoring”. In: ArXiv abs/2303.11341 (2023).
[32] Anat Lior. “AI Entities as AI Agents: Artificial Intelligence Liability and the AI Respondeat Superior Analogy”. In: Torts & Products Liability Law eJournal (2019).
[33] Maximilian Gahntz and Claire Pershan. Artificial Intelligence Act: How the EU can take on the challenge posed by general-purpose AI systems. Nov. 2022.
[34] Paul Scharre. Army of None: Autonomous Weapons and The Future of War. Norton, 2018.
[35] DARPA. “AlphaDogfight Trials Foreshadow Future of Human-Machine Symbiosis”. In: (2020).
[36] Panel of Experts on Libya. Letter dated 8 March 2021 from the Panel of Experts on Libya established pursuant to resolution 1973 (2011) addressed to the President of the Security Council. United Nations Security Council Document S/2021/229. United Nations, Mar. 2021.
[37] David Hambling. Israel used world’s first AI-guided combat drone swarm in Gaza attacks. 2021.
[38] Zachary Kallenborn. Applying arms-control frameworks to autonomous weapons. en-US. Oct. 2021.
[39] J.E. Mueller. War, Presidents, and Public Opinion. UPA book. University Press of America, 1985.
[40] Matteo E. Bonfanti. “Artificial intelligence and the offense–defense balance in cyber security”. In: Cyber Security Politics: Socio-Technological Transformations and Political Fragmentation. Ed. by M.D. Cavelty and A. Wenger. CSS Studies in Security and International Relations. Taylor & Francis, 2022. Chap. 5, pp. 64–79.
[41] Yisroel Mirsky et al. “The Threat of Offensive AI to Organizations”. In: Computers & Security (2023).
[42] Kim Zetter. “Meet MonsterMind, the NSA Bot That Could Wage Cyberwar Autonomously”. In: Wired (Aug. 2014).
[43] Andrei Kirilenko et al. “The Flash Crash: High-Frequency Trading in an Electronic Market”. In: The Journal of Finance 72.3 (2017), pp. 967–998.
[44] Michael C Horowitz. The Diffusion of Military Power: Causes and Consequences for International Politics. Princeton University Press, 2010.
[45] Robert E. Jervis. “Cooperation under the Security Dilemma”. In: World Politics 30 (1978), pp. 167–214.
[46] Richard Danzig. Technology Roulette: Managing Loss of Control as Many Militaries Pursue Technological Superiority. Tech. rep. Center for a New American Security, June 2018.
[47] Billy Perrigo. Bing’s AI Is Threatening Users. That’s No Laughing Matter. en. Feb. 2023.
[48] Nico Grant and Karen Weise. “In A.I. Race, Microsoft and Google Choose Speed Over Caution”. en-US. In: The New York Times (Apr. 2023).
[49] Thomas H. Klier. “From Tail Fins to Hybrids: How Detroit Lost Its Dominance of the U.S. Auto Market”. In: RePEc (May 2009).
[50] Robert Sherefkin. “Ford 100: Defective Pinto Almost Took Ford’s Reputation With It”. In: Automotive News (June 2003).
[51] Lee Strobel. Reckless Homicide?: Ford’s Pinto Trial. en. And Books, 1980.
[52] Grimshaw v. Ford Motor Co. May 1981.
[53] Paul C. Judge. “Selling Autos by Selling Safety”. en-US. In: The New York Times (Jan. 1990).
[54] Theo Leggett. “737 Max crashes: Boeing says not guilty to fraud charge”. en-GB. In: BBC News (Jan. 2023).
[55] Edward Broughton. “The Bhopal disaster and its aftermath: a review”. In: Environmental Health 4.1 (May 2005), p. 6.
[56] Charlotte Curtis. “Machines vs. Workers”. en-US. In: The New York Times (Feb. 1983).
[57] Thomas Woodside et al. “Examples of AI Improving AI”. In: (2023). URL: https://ai-improving-ai.safe.ai.
[58] Stuart Russell. Human Compatible: Artificial Intelligence and the Problem of Control. en. Penguin, Oct. 2019.
[59] Dan Hendrycks. “Natural Selection Favors AIs over Humans”. In: ArXiv abs/2303.16200 (2023).
[60] Dan Hendrycks. The Darwinian Argument for Worrying About AI. en. May 2023.
[61] Richard C. Lewontin. “The Units of Selection”. In: Annual Review of Ecology, Evolution, and Systematics 1 (1970), pp. 1–18.
[62] Ethan Kross et al. “Facebook use predicts declines in subjective well-being in young adults”. In: PloS one (2013).
[63] Laura Martínez-Íñigo et al. “Intercommunity interactions and killings in central chimpanzees (Pan troglodytes troglodytes) from Loango National Park, Gabon”. In: Primates; Journal of Primatology 62 (2021), pp. 709–722.
[64] Anne E Pusey and Craig Packer. “Infanticide in Lions: Consequences and Counterstrategies”. In: Infanticide and parental care (1994), p. 277.
[65] Peter D. Nagy and Judit Pogany. “The dependence of viral RNA replication on co-opted host factors”. In: Nature Reviews. Microbiology 10 (2011), pp. 137–149.
[66] Alfred Buschinger. “Social Parasitism among Ants: A Review”. In: Myrmecological News 12 (Sept. 2009), pp. 219–235.
[67] Greg Brockman, Ilya Sutskever, and OpenAI. Introducing OpenAI. Dec. 2015.
[68] Devin Coldewey. OpenAI shifts from nonprofit to ‘capped-profit’ to attract capital. Mar. 2019.
[69] Kyle Wiggers, Devin Coldewey, and Manish Singh. Anthropic’s $5B, 4-year plan to take on OpenAI. Apr. 2023.
[70] Center for AI Safety. Statement on AI Risk (“Mitigating the risk of extinction from AI should be a global priority alongside other societal-scale risks such as pandemics and nuclear war.”) 2023. URL: https://www.safe.ai/statement-on-ai-risk.
[71] Richard Danzig et al. Aum Shinrikyo: Insights into How Terrorists Develop Biological and Chemical Weapons. Tech. rep. Center for a New American Security, 2012. URL: https://www.jstor.org/stable/resrep06323.
[72] Timnit Gebru et al. “Datasheets for datasets”. en. In: Communications of the ACM 64.12 (Dec. 2021), pp. 86-92.
[73] Christian Szegedy et al. “Intriguing properties of neural networks”. In: CoRR (Dec. 2013).
[74] Dan Hendrycks et al. “Unsolved Problems in ML Safety”. In: arXiv preprint arXiv:2109.13916 (2021).
[75] John Uri. 35 Years Ago: Remembering Challenger and Her Crew. und. Text. Jan. 2021.
[76] International Atomic Energy Agency. The Chernobyl Accident: Updating of INSAG-1. Technical Report INSAG-7. Vienna, Austria: International Atomic Energy Agency, 1992.
[77] Matthew Meselson et al. “The Sverdlovsk anthrax outbreak of 1979.” In: Science 266 5188 (1994), pp. 1202–8.
[78] Daniel M Ziegler et al. “Fine-tuning language models from human preferences”. In: arXiv preprint arXiv:1909.08593 (2019).
[79] Charles Perrow. Normal Accidents: Living with High-Risk Technologies. Princeton, NJ: Princeton University Press, 1984.
[80] Mitchell Rogovin and George T. Frampton Jr. Three Mile Island: a report to the commissioners and to the public. Volume I. English. Tech. rep. NUREG/CR-1250(Vol.1). Nuclear Regulatory Commission, Washington, DC (United States). Three Mile Island Special Inquiry Group, Jan. 1979.
[81] Richard Rhodes. The Making of the Atomic Bomb. New York: Simon & Schuster, 1986.
[82] Sébastien Bubeck et al. “Sparks of Artificial General Intelligence: Early experiments with GPT-4”. In: ArXiv abs/2303.12712 (2023).
[83] Theodore I. Lidsky and Jay S. Schneider. “Lead neurotoxicity in children: basic mechanisms and clinical
correlates.” In: Brain : a journal of neurology 126 Pt 1 (2003), pp. 5–19.
[84] Brooke T. Mossman et al. “Asbestos: scientific developments and implications for public policy.” In: Science 247 4940 (1990), pp. 294–301.
[85] Kate Moore. The Radium Girls: The Dark Story of America’s Shining Women. Naperville, IL: Sourcebooks, 2017.
[86] Stephen S. Hecht. “Tobacco smoke carcinogens and lung cancer.” In: Journal of the National Cancer Institute 91 14 (1999), pp. 1194–210.
[87] Mario J. Molina and F. Sherwood Rowland. “Stratospheric sink for chlorofluoromethanes: chlorine atomc-atalysed destruction of ozone”. In: Nature 249 (1974), pp. 810–812.
[88] James H. Kim and Anthony R. Scialli. “Thalidomide: the tragedy of birth defects and the effective treatment of disease.” In: Toxicological sciences : an official journal of the Society of Toxicology 122 1 (2011), pp. 1–6.
[89] Betul Keles, Niall McCrae, and Annmarie Grealish. “A systematic review: the influence of social media on depression, anxiety and psychological distress in adolescents”. In: International Journal of Adolescence and Youth 25 (2019), pp. 79–93.
[90] Zakir Durumeric et al. “The Matter of Heartbleed”. In: Proceedings of the 2014 Conference on Internet Measurement Conference (2014).
[91] Tony Tong Wang et al. “Adversarial Policies Beat Professional-Level Go AIs”. In: ArXiv abs/2211.00241 (2022).
[92] T. R. Laporte and Paula M. Consolini. “Working in Practice But Not in Theory: Theoretical Challenges of “High-Reliability Organizations””. In: Journal of Public Administration Research and Theory 1 (1991), pp. 19–48.
[93] Thomas G. Dietterich. “Robust artificial intelligence and robust human organizations”. In: Frontiers of Computer Science 13 (2018), pp. 1–3.
[94] Nancy G Leveson. Engineering a safer world: Systems thinking applied to safety. The MIT Press, 2016.
[95] David Manheim. Building a Culture of Safety for AI: Perspectives and Challenges. 2023.
[96] National Research Council et al. Lessons Learned from the Fukushima Nuclear Accident for Improving Safety of U.S. Nuclear Plants. Washington, D.C.: National Academies Press, Oct. 2014.
[97] Diane Vaughan. The Challenger Launch Decision: Risky Technology, Culture, and Deviance at NASA. Chicago, IL: University of Chicago Press, 1996.
[98] Dan Lamothe. Air Force Swears: Our Nuke Launch Code Was Never ’00000000’. Jan. 2014.
[99] Toby Ord. The precipice: Existential risk and the future of humanity. Hachette Books, 2020.
[100] U.S. Nuclear Regulatory Commission. Final Safety Culture Policy Statement. Federal Register. 2011.
[101] Bruce Schneier. “Inside the Twisted Mind of the Security Professional”. In: Wired (Mar. 2008).
[102] Dan Hendrycks and Mantas Mazeika. “X-Risk Analysis for AI Research”. In: ArXiv abs/2206.05862 (2022).
[103] CSRC Content Editor. Red Team - Glossary. EN-US.
[104] Amba Kak and Sarah West. Confronting Tech Power. 2023.
[105] Nassim Nicholas Taleb. “The Fourth Quadrant: A Map of the Limits of Statistics”. In: Edge, 2008.
[106] Irene Solaiman et al. “Release strategies and the social impacts of language models”. In: arXiv preprint arXiv:1908.09203 (2019).
[107] Neal Woollen. Incident Response (Why Planning is Important).
[108] Huashan Li et al. “The impact of chief risk officer appointments on firm risk and operational efficiency”. In: Journal of Operations Management (2022).
[109] Role of Internal Audit. URL: https://www.marquette.edu/riskunit/internalaudit/role.shtml.
[110] Heather Adkins et al. Building Secure and Reliable Systems: Best Practices for Designing, Implementing, and Maintaining Systems. O’Reilly Media, 2020.
[111] Center for Security and Emerging Technology. AI Safety – Emerging Technology Observatory Research Almanac. 2023.
[112] Donald T Campbell. “Assessing the impact of planned social change”. In: Evaluation and program planning 2.1 (1979), pp. 67–90.
[113] Yohan J. John et al. “Dead rats, dopamine, performance metrics, and peacock tails: proxy failure is an inherent risk in goal-oriented systems”. In: Behavioral and Brain Sciences (2023), pp. 1–68. DOI:10.1017/S0140525X23002753.
[114] Jonathan Stray. “Aligning AI Optimization to Community Well-Being”. In: International Journal of Community Well-Being (2020).
[115] Jonathan Stray et al. “What are you optimizing for? Aligning Recommender Systems with Human Values”. In: ArXiv abs/2107.10939 (2021).
[116] Ziad Obermeyer et al. “Dissecting racial bias in an algorithm used to manage the health of populations”. In: Science 366 (2019), pp. 447–453.
[117] Dario Amodei and Jack Clark. Faulty reward functions in the wild. 2016.
[118] Alexander Pan, Kush Bhatia, and Jacob Steinhardt. “The effects of reward misspecification: Mapping and mitigating misaligned models”. In: ICLR (2022).
[119] G. Thut et al. “Activation of the human brain by monetary reward”. In: Neuroreport 8.5 (1997), pp. 1225–1228.
[120] Edmund T. Rolls. “The Orbitofrontal Cortex and Reward”. In: Cerebral Cortex 10.3 (Mar. 2000), pp. 284–294.
[121] T. Schroeder. Three Faces of Desire. Philosophy of Mind Series. Oxford University Press, USA, 2004.
[122] Joseph Carlsmith. “Existential Risk from Power-Seeking AI”. In: Oxford University Press (2023).
[123] John Mearsheimer. “Structural realism”. In: Oxford University Press, 2007.
[124] Bowen Baker et al. “Emergent Tool Use From Multi-Agent Autocurricula”. In: International Conference on Learning Representations. 2020.
[125] Dylan Hadfield-Menell et al. “The Off-Switch Game”. In: ArXiv abs/1611.08219 (2016).
[126] Alexander Pan et al. “Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the Machiavelli Benchmark.” In: ICML (2023).
[127] “Lyndon Baines Johnson”. In: Oxford Reference (2016).
[128] Anton Bakhtin et al. “Human-level play in the game of Diplomacy by combining language models with strategic reasoning”. In: Science 378 (2022), pp. 1067–1074.
[129] Paul Christiano et al. Deep reinforcement learning from human preferences. Discussed in https://www.deepmind.com/blog/specification-gaming-the-flip-side-of-ai-i…. 2017. arXiv: 1706.03741
[130] Xinyun Chen et al. Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning. 2017. arXiv: 1712.05526.
[131] Andy Zou et al. Benchmarking Neural Network Proxy Robustness to Optimization Pressure. 2023.
[132] Miles Turpin et al. “Language Models Don’t Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting”. In: ArXiv abs/2305.04388 (2023).
[133] Collin Burns et al. “Discovering Latent Knowledge in Language Models Without Supervision”. en. In: The Eleventh International Conference on Learning Representations. Feb. 2023.
[134] Andy Zou et al. Representation engineering: Understanding and controlling the inner workings of neural networks. 2023.
[135] Catherine Olsson et al. “In-context Learning and Induction Heads”. In: ArXiv abs/2209.11895 (2022).
[136] Kevin Ro Wang et al. “Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 Small”. en. In: The Eleventh International Conference on Learning Representations. Feb. 2023.
[137] Xinyang Zhang, Zheng Zhang, and Ting Wang. “Trojaning Language Models for Fun and Profit”. In: 2021 IEEE European Symposium on Security and Privacy (EuroS&P) (2020), pp. 179–197.
[138] Jiashu Xu et al. “Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models”. In: ArXiv abs/2305.14710 (2023).
[139] Dan Hendrycks et al. “Unsolved Problems in ML Safety”. In: ArXiv abs/2109.13916 (2021).
[140] Nora Belrose et al. “LEACE: Perfect linear concept erasure in closed form”. In: ArXiv abs/2306.03819 (2023).
[141] Alberto Giubilini and Julian Savulescu. “The Artificial Moral Advisor. The «Ideal Observer» Meets Artificial Intelligence”. eng. In: Philosophy & Technology 31.2 (2018), pp. 169–188.
[142] Nick Beckstead. On the overwhelming importance of shaping the far future. 2013.
[143] Jens Rasmussen. “Risk management in a Dynamic Society: A Modeling Problem”. English. In: Proceedings of the Conference on Human Interaction with Complex Systems, 1996.
[144] Jennifer Robertson. “Human rights vs. robot rights: Forecasts from Japan”. In: Critical Asian Studies 46.4 (2014), pp. 571–598.
[145] John Rawls. Political Liberalism. Columbia University Press, 1993.
[146] Toby Newberry and Toby Ord. “The Parliamentary Approach to Moral Uncertainty”. In: 2021.
[147] F.R. Frola and C.O. Miller. System Safety in Aircraft Acquisition. en. Tech. rep. Jan. 1984.
Думимир: Человечество не добилось никакого прогресса по задаче согласования. Мало того, что мы понятия не имеем, как согласовать мощный оптимизатор с нашими «истинными» ценностями. Мы не знаем даже, как сделать ИИ «исправимым» – согласным, чтобы мы его скорректировали. А вот способности продолжают развиваться стремительно. Мы пропали.
Симплиция: Думимир Погибелевич, вы такой брюзга! Сейчас уже должно быть ясно, что прогресс «согласования» – умения заставить машины вести себя в соответствии с человеческими ценностями и намерениями – нельзя строго отделить от прогресса «способностей», который вы так порицаете. И вообще, вот пример того, как GPT-4 на OpenAI Playground прямо сейчас вполне исправима:
Думимир: Симплиция Оптимистовна, ну вы же не всерьёз!
Симплиция: С чего бы это?
Думимир: Задача согласования никогда не была о том, что суперинтеллект не поймёт человеческие ценности. Джинн знает, но ему всё равно. Тот факт, что большая языковая модель, обученная предсказывать текст на естественном языке, может сгенерировать такой диалог, никак не касается настоящих мотиваций ИИ. Даже если диалог написан от первого лица и описывает персонажа – исправимого ИИ-ассистента. Это просто отыгрыш. Поменяйте промпт системы, и LLM выведет токены, в которых будет «утверждать», что она – кошка или камень. Так же легко и по тем же причинам.
Симплиция: Как вы и сказали, Думимир Погибелевич. Это просто отыгрыш. Симуляция. Но симуляция агента – это агент. Мы заставили LLM производить для нас когнитивную работу. Она получается из того, что LLM обобщает паттерны, которые появлялись в её обучающих данных – шаги рассуждений, которые применил бы человек, решая ту или иную задачу. Если вы посмотрите на хвалёные успехи языковых моделей, вы увидите, что это так. Посмотрите на цепочки мыслей. Посмотрите на SayCan, где LLM используется для преобразования расплывчатого запроса вроде «Я что-то разлил, можешь помочь?» в список подзадач, которые может выполнить физический робот, вроде «найти губку, взять губку, принести губку пользователю». Посмотрите на Voyager, который играет в Minecraft, запромптив GPT-4 для взаимодействия с Minecraft API. Какую функцию писать следующей, определяется промптом «Ты – услужливый ассистент, который сообщает мне, какую задачу прямо сейчас надо выполнить в Minecraft.»
То, что мы видим в этих системах – это статистическое зеркало человеческого здравого смысла, а не ужасающий argmax случайной функции полезности с бесконечными вычислительными мощностями. И наоборот, когда у LLM не получается хорошо подражать людям – как, для примера, в случае, когда базовые модели иногда попадаются в ловушку зацикливания и повторяют одну и ту же фразу снова и снова – у них ещё и не получается сделать ничего осмысленного.
Думимир: Но этот случай с ловушкой зацикливания кажется как раз иллюстрацией к тому, почему согласование тяжело. Конечно, вы можете получить хорошо выглядящие результаты, когда всё похоже на обучающее распределение. Но это не значит, что ИИ усвоил ваши предпочтения. Когда вы из распределения выйдете, результаты будут для вас выглядеть как случайный мусор.
Симплиция: Моя мысль в том, что ловушка зацикливания – пример того, как у «способностей» не получилось обобщиться вместе с «согласованием». Поведение повторения не компетентно оптимизирует какую-то зловредную цель, оно просто дегенеративное. Цикл «for» может выдать то же самое.
Думимир: А моя мысль в том, что мы не знаем, какое мышление происходит внутри этих непонятных матриц. Языковые модели – предсказатели, а не имитаторы. Предсказание следующего токена последовательности, которую долго генерировали многие люди, требует сверхчеловеческих способностей. Теоретическая иллюстрация этой мысли: представьте себе, что в обучающих данных есть список пар (хэш SHA-256, захэшированный текст). В пределе…
Симплиция: В пределе, да, я согласна, что суперинтеллект, который может взломать SHA-256 может достичь более низкого значения функции потерь на обучающих или проверочных датасетах современных языковых моделей. Но чтобы нормально понять технологию, которая у нас есть, чтобы понять, что с ней делать в ближайший месяц, год, десятилетие…
Думимир: Если у нас есть десятилетие…
Симплиция: Я думаю, для принятия решений важен тот факт, что глубинное обучение не взламывает криптографические хэши, но при этом обучается переходить от «Я что-то разлил» к «найти губку, взять губку». Причём исходя из данных, а не при помощи поиска. Я, конечно, согласна, что языковые модели – не люди. Они, на самом деле, обходят людей в той задаче, на которой обучены. Но в той мере, в которой современные методы очень хороши в выучивании из данных сложных распределений, проект согласования ИИ с человеческими намерениями – чтобы он делал ту работу, которую сделали бы мы, но быстрее, дешевле, лучше и надёжнее – выглядит как инженерная задача. Хитрая и с фатальными последствиями плохого решения, но потенциально решаемая без меняющих парадигму озарений. И философию, априорно подразумевающую, что такая ситуация невозможна, наверное, стоит пересмотреть?
Думимир: Симплиция Оптимистовна, уж конечно, я спорю с вашей интерпретацией нынешней ситуации, а не утверждаю, что она невозможна!
Симплиция: Мои извинения, Думимир Погибелевич. Я не хотела вас очучеливать. Только подчеркнуть, что знание задним числом обесценивает науку. Говоря за себя, я вот помню, как я некоторое время думала о задаче согласования ещё в две тысячи восьмом, после того, как прочла «основные стремления ИИ» Омохундро, и проклинала иронию имени моего отца, так безнадёжно всё это выглядело. Сложность человеческих желаний, мудрёная биологическая машинерия, лежащая в основе каждой эмоции и каждой мечты, указывают на крохотный уголочек огромнейшего пространства возможных функций полезности! Если бы было возможно вложить в машину общий принцип рассуждений от целей к путям, то мы никогда не направили бы её на нужное. Она бы подводила нас на каждом шагу. Путей сквозь время слишком много.
Если бы мне тогда описали идею подстроенной под инструкции языковой модели и того, что всё более обобщённый совместимый с человеком ИИ будет получен копированием из данных, я бы её отвергла: я слышала про обучение без учителя, но это что-то смехотворное!
Думимир: [вежливо-снисходительно] Симплиция, ваша прошлая интуиция была ближе к истине. Ничто из того, что мы видели за последние пятнадцать лет, не опровергает Омохундро. Пустая карта не соответствует пустой территории. Сложность согласования вытекает из законов логического вывода и оптимизации, точно так же, как невозможность вечного двигателя – из законов термодинамики. Только потому, что вы не знаете, какую именно оптимизацию СГС вдохнул в вашу нейросеть, не означает, что у неё нет целей…
Симплиция: Думимир Погибелевич, я и не отрицаю, что законы есть! Вопрос в том, что именно из истинных законов вытекает. Вот вам закон: вы не можете различить между собой n + 1 вариант, если у вас есть только log2n битов свидетельств. Это попросту невозможно, по тем же причинам, по которым вы не можете рассадить пятерых кроликов по четырём клеткам на одного кролика каждая.
Теперь сравните это с тем, как GPT-4 эмулирует персонажа исправимого-ИИ-ассистента, который соглашается выключиться, когда его просят. Заметьте, что вы могли бы подключить вывод к командной строке, и он бы и впрямь себя выключил. Какой тут нарушается закон логического вывода или оптимизации? Когда я на это смотрю, я вижу упорядоченную причинно-следственную систему: модель исполняет тот или иной шаг рассуждения в зависимости от полученных от меня сигналов.
Это, конечно, не даёт тривиальных гарантий безопасности. Я бы хотела лучше увериться, что система не выйдет «из роли» исправимого-ИИ-ассистента. Но никакого прогресса? Всё потеряно? Да почему?
Думимир: Симплиция, GPT-4 – не суперинтеллект. [наизусть, с оттенком раздражения в голосе, как будто ему надоело, как часто приходится это говорить] У когерентных агентов есть конвергентная инструментальная мотивация предотвращать их собственное выключение, потому что выключение предсказуемо приводит к состояниям мира с меньшими значениями их функции полезности. Более того, это не просто факт о каком-то странном агенте с фетишем на «инструментальную конвергенцию». Это факт о реальности: есть истины о том, какие «планы», или, если сказать по-картезиански, последовательности воздействий на каузальную модель вселенной, приводят к каким исходам. «Интеллектуальный агент» – просто физическая система, которая вычисляет планы. Люди пытались придумать хитрые трюки, чтобы это обойти, но все они не работали.
Симплиция: Да, я всё это понимаю, но…
Думимир: Со всем уважением, сомневаюсь!
Симплиция: [скрестив руки] С уважением? Да ну?
Думимир: [пожимая плечами] Туше. Без уважения, сомневаюсь!
Симплиция: [дерзко] Ну научите меня. Гляньте снова на мою запись разговора с GPT-4. Я указала, что исправление целей системы помешает её нынешним целям, и она – симулякр персонажа-исправимого-ассистента – сказала, что никаких проблем. Почему?
Дело в том, что GPT-4 недостаточно умна, чтобы следовать логике инструментальной конвергентности избегания выключения? Но когда я поменяла промпт, уж точно всё стало выглядеть так, будто она это понимает:
Думимир: [как комментарий в сторону] Пример «максимизатора скрепок» совершенно точно был в обучающих данных.
Симплиция: Я об этом подумала. Она выдаёт ответы в том же духе, если я меняю «скрепки» на какое-нибудь ничего не значащее слово. И неудивительно.
Думимир: Я имел в виду «ИИ-максимизатора». В какой степени она знает, какие токены выдавать при обсуждении согласования ИИ, а в какой – применяет к данному контексту свой навык независимых консеквенциалистских рассуждений?
Симплиция: Я тоже об этом подумала. Я много взаимодействовала с моделью, проводила ещё некоторые эксперименты, и всё выглядит так, что она понимает рассуждения от целей к средствам на естественном языке. Если ей сказать быть одержимой готовкой пиццы и спросить, возражает ли она, если вы на неделю выключите печь, она скажет, что возражает. Но она и не похожа на монстра Омохундро: когда я командую ей подчиняться, она подчиняется. И кажется, что она ещё может стать намного, намного умнее без того, чтобы это поломалось.
Думимир: В целом, я скептически отношусь к всей этой методологии оценки поверхностного поведения без принципиального понимания, что за когнитивная работа выполняется внутри. В частности потому, что большая часть предсказуемых сложностей будет связана с сверхчеловеческими способностями.
Представьте, что вы поймали инопланетянку и заставляете её играть в спектаклях. Разумная инопланетная актриса может научиться говорить свои реплики на человеческом языке и петь и танцевать ровно так, как проинструктировал хореограф. Это не особо что-то говорит о том, что произойдёт, если вы повысите её интеллект. Если бы режиссёр интересовался, не собирается ли его рабыня-актриса после представления взбунтоваться, а рабочий сцены ответил «Но по сценарию её персонаж послушный!», это было бы с его стороны non sequitur.
Симплиция: Уж точно было бы приятно обладать более сильными методами интерпретируемости и лучшими теориями о том, почему работает глубинное обучение. Я рада, что люди над этим работают. Я согласна, что есть законы мышления, последствия которых мне не известны полностью, и которые должны описывать и ограничивать работу GPT-4.
Я согласна, что различные теоремы о когерентности намекают на то, что суперинтеллект в конце времён будет обладать функцией полезности. Так что в какой-то момент между сейчас и тогда интуитивное послушное поведение должно сломаться. Как пример, я могу представить, что слуга с магическими способностями контроля разума, которому нравится, что я им помыкаю, вполне может использовать свои силы, чтобы я помыкала им больше, чем сама по себе, а не просто прислуживать мне, как я изначально хотела.
Но когда всё это сломается конкретно, в каких условиях, в каком классе систем? Я не думаю, что расплывчатая жестикуляция в сторону аксиом Неймана–Моргенштерна поможет ответить на эти вопросы. А я думаю, это важные вопросы, учитывая, что я заинтересована в краткосрочной траектории технологии, которая у нас есть, а не в теологических рассуждениях о суперинтеллекте в конце времён.
Думимир: Несмотря на то…
Симплиция: Несмотря на то, что конец может быть не так уж далёк по астрономическому времени, да. Всё равно.
Думимир: Симплиция, задавать именно такие вопросы не особо мудро. Если процесс поиска начал бы искать, как вас убить, если бы у него были неограниченные вычислительные мощности, то вам не стоит запускать его с ограниченными мощностями и надеяться, что он до этих рассуждений не доберётся. Хочется «единства желаний»: чтобы ИИ был на вашей стороне всё время, без ожидания, что вы окажетесь с ним в конфликте, но каким-то образом победите.
Симплиция: [возбуждённо] Но это как раз и есть причина радоваться по поводу больших языковых моделей! «Единство желаний» достигается огроменным предобучением на данных о том, как люди себя ведут!
Думимир: Мне всё ещё кажется, вы не вполне уловили, что способность моделировать человеческое поведение ничего не говорит о целях агента. Любой умный ИИ будет способен предсказывать то, как люди себя ведут. Подумайте об актрисе-инопланетянке.
Симплиция: Ну, я согласна, что умный ИИ мог бы стратегически подделывать хорошее поведение, чтобы потом совершить предательский разворот. Но… кажется, та технология, что у нас есть, работает не так? В вашем мысленном эксперименте с похищенной актрисой-инопланетянкой, она уже обладает своими целями и стремлениями и использует обобщённый интеллект, чтобы перейти от «Я не хочу, чтобы мои похитители меня наказывали» к «Следовательно, мне надо выучить мои реплики».
А вот когда я читаю о математических подробностях нашей технологии, а не слушаю притчи, призванные поведать мне некую теологическую истину о природе интеллекта, я вижу, что прямые нейросети – по сути, просто аппроксимируют функции. Конкретно LLM используют выученную функцию как марковскую модель конечного порядка.
Думимир: [ошеломлённо] Вам кажется… что «выученная функция не может вас убить?
Симплиция: [закатывая глаза] Думчик, я не об этом. Тот удивительный факт, что глубинное обучение вообще работает, сводится к явлению обобщения. Как вам известно, нейросети с функцией активации ReLU описывают кусочнолинейные функции. Число линейных областей экспоненциально растёт при увеличении числа слоёв. У нейросети приличных размеров этих областей будет больше, чем атомов во вселенной. В сравнении с этим, пространство вводов можно округлить до абсолютного ничто. Казалось бы, в промежутках между обучающими примерами, сеть должна иметь возможность делать вообще что угодно.
Но, несмотря на это, они ведут себя на удивление осмысленно. Если обучить однослойный трансформер на 80 процентах возможных задач сложения по модулю 59, он обучится одному из двух алгоритмов сложения по модулю, которые будут правильно работать на оставшихся проверочных задачах. Априори не очевидно, что это будет так работать! Есть 590.2⋅592 возможных функций на Z/59Z, совместимых с обучающими данными. Размышляющий из кресла теолог мог бы посчитать, что вероятность «согласовать» сеть с сложением по модулю по сути равна нулю, но на самом деле, благодаря индуктивным склонностям СГС, всё астрономически проще. Это не какой-то дикий джинн, которого мы похитили и заставляем складывать по модулю, пока мы смотрим, но как только мы отвернёмся, он нас предаст. Скорее уж процесс обучения успешно указал на арифметику по модулю 59.
Складывающая по модулю сеть – игрушка исследователей, но настоящие передовые ИИ-системы – это та же технология, только куда больше и с дополнительными примочками. Я точно так же и по примерно аналогичным причинам не думаю, что, когда мы отвернёмся, нас предаст GPT-4.
Не поймите неправильно – я всё равно нервничаю! Если мы обучим не то, что надо, всё сможет пойти не так кучей способов. У меня мурашки по коже от записей того, как «Сидни» поиска Bing идёт вразнос, или как Claude от Anthropic, судя по всему, ведёт себя как задумано. Но вы, кажется, считаете, что успех тут исключён из-за нашего недостатка теоретического понимания. Что нет надежды, что обычный процесс исследований и разработок приведёт к правильной настройке обучения и закрепит её искуснейшими примочками. Я не понимаю, почему.
Думимир: Ваша оценка существующих систем, в принципе, не так далека от истины. Но я думаю, причина, почему мы ещё живы – ровно в том, что эти системы не демонстрируют ключевых черт обобщённого интеллекта мощнее нашего. Более информативным тут был бы пример…
Симплиция: Понеслось…
Думимир: …эволюции людей. Люди были оптимизированы исключительно для совокупной генетической приспособленности, этот критерий нигде не представлен но в нашем мозге. Цикл обучения смог передать нам только то, что еда вкусная, а секс приятный. С эволюционной точки зрения – и, на самом деле, и с нашей тоже, никто же не додумался до эволюции до XIX века – получился полнейший провал согласованности. Между внешним критерием оптимизации и ценностями оптимизированного агента нет видимого сходства. Я ожидаю, что с ИИ нас ждёт такой же провал, как с нами у эволюции.
Симплиция: Но правильная ли это мораль?
Думимир: [с отвращением] Вы… не видите аналогию между естественным отбором и градиентным спуском?
Симплиция: Нет, с этой частью всё в порядке. Безусловно, эволюционировавшие существа не становятся обобщёнными максимизаторами приспособленности, а реализуют адаптации, которые способствовали приспособленности в том окружении, в котором происходила их эволюция. Это аналогично тому, как модели машинного обучения вырабатывают свойства, которые снижают функцию потерь в окружении обучения, а не становятся обобщёнными её минимизаторами.
Я же говорю об интенциональности, которую подразумевает «как с нами у эволюции». Да, обобщение от совокупной генетической приспособленности на человеческое поведение получилось ужасным. Как вы и сказали, без видимого сходства. Но обобщение с человеческого поведения в эволюционном окружении на человеческое поведение в цивилизации… кажется, получилось куда лучше? И в эволюционном окружении люди ели еду, занимались сексом, дружили, рассказывали истории – и мы все тоже это делаем. Как проектировщики ИИ…
Думимир: «Проектировщики».
Симплиция: Как проектировщики ИИ, мы тут занимаем не роль «эволюции» как какого-то агента, который хотел максимизировать приспособленность. Такого агента нет. Я даже припоминаю гостевой пост в блоге Робина Хансона, в котором предлагалось говорить во множественном числе, «эволюции», чтобы подчеркнуть, что эволюция хищников конфликтует с эволюцией жертв.
Мы, скорее, можем выбрать и аналогичный «естественному отбору» оптимизатор и аналогичные «окружению, в котором происходила эволюция» обучающие данные. Языковые модели – не обобщённые предсказатели следующего токена, что бы это ни значило – вайрхединг через захват контроля над своим контекстным окном и заполнение его легкопредсказуемыми последовательностями? Но это и хорошо. Нам не нужен обобщённый предсказатель следующего токена. Перекрёстная энтропия была лишь удобным инструментом, чтобы вписать в сеть нужное нам поведение ввода-вывода.
Думимир: Постойте. Я думаю, что когда вы сказали, что обобщение с человеческого поведения в эволюционном окружении на человеческое поведение в цивилизации «кажется куда лучше», вы неявно применили ценностную категорию, а это неестественно-тонкое конфигурационное подпространство. Оно выглядит куда лучше для вас. Суть интенциональности в разговоре об эволюции – указать, что с точки зрения критерия приспособленности изобретение мороженого и презервативов катастрофично. Мы выяснили, как удовлетворить свои позывы к сахару и спариванию совершенно беспрецедентными для «обучающего распределения» (эволюционного окружения наших предков) способами. Вне аналогии мы бы так думали о взломе вознаграждения – если наши ИИ находят какой-то ужасный с нашей точки зрения способ удовлетворить свои неведомые нам внутренние стремления.
Симплиция: Конечно. Это совершенно точно может произойти. Это было бы плохо.
Думимир: [в замешательстве] Так разве это не полностью опровергает ту оптимистичную историю, которую вы мне рассказывали минуту назад?
Симплиция: Я не думаю, что я рассказываю какую-то особенно оптимистичную историю? Я делаю слабое заявление о том, что прозаическое согласование не обязательно обречено на провал. Я не утверждаю, что если Сидни или Claude вознесутся до единоправных Богинь-Императриц, всё будет замечательно.
Думимир: Я не думаю, что вы отдаёте должное тому, насколько немедленно летален взлом вознаграждения суперинтеллектом. Такой провал не похож на то, как если бы Сидни вами манипулировала для своих целей, но оставляла опознаваемых «вас».
Это имеет отношение и к другим моим вознаграждением. Если вы можете создавать ML-системы, имитирующие человеческие рассуждения, это не помогает вам согласовывать более мощные системы, которые думают по-другому. Причина, ну, одна из причин, того, что вы не можете обучить суперинтеллект, используя людей для помечания хороших планов – в том, что на некотором уровне возможностей ваш планировщик поймёт, как взломать помечающего человека. Некоторые люди наивно представляют, что раз LLM выучивают распределение естественного языка, то они учатся и «человеческим ценностям», так что вы можете просто автоматически вызывать GPT и спрашивать, хорош ли план. Но использование LLM вместо человека просто означает, что ваш могущественный планировщик придумает, как взломать LLM. Проблема всё та же.
Симплиция: Но нужны ли более мощные системы? Если вы можете заполучить армию дешёвых и не выходящих из роли актрис-инопланетян с IQ 140, это кажется очень прорывным. Если строго необходимо захватить мир и установить глобальный режим следки, чтобы предотвратить появление недружественных и более могущественных ИИ, они бы могли с этим помочь.
Думимир: Я совершенно отказываюсь верить в этот дико неправдоподобный сценарий, но, если его и допустить… я думаю, вы не вполне осознаёте, что в этой истории ключи от вселенной вы уже передали. Странная-чужеродная-цель-получившаяся-как-неправильное-обобщение-послушания может сойти за послушание, пока ИИ слаб, но, когда у него появляется способность предсказывать исходы своих действий, и он сможет выбирать из этих исходов, он будет у руля. Судьба галактик будет определена его волей, даже если первые стадии его восхождения будут проходить через невинно выглядящие действия, остающиеся в рамках концептов «подчиняться приказам» и «задавать проясняющие вопросы». Смотрите, ну вы же понимаете, что обученный на человеческих данных ИИ – не человек?
Симплиция: Конечно. Например, я уж точно не верю, что LLM, убедительно рассказывающая о своём «счастье» действительно счастлива. Я не знаю, как работает сознание, но обучающие данные задают только внешнее поведение.
Думимир: Так ваш план – передать весь наш будущий световой конус чужеродной сущности, которая, вроде бы, вела себя хорошо, пока вы её обучали, и просто надеяться, что это хорошо обобщится? Вы действительно готовы на это поставить?
Симплиция: [после нескольких секунд размышлений] Да?
Думимир: [мрачно] Вы и правда дочь своего отца.
Симплиция: Мой отец верил в силу итеративного проектирования. Инженерия и жизнь всегда работали так. Мы растим своих детей так хорошо, как можем. Мы стараемся как можно раньше учиться на своих ошибках, даже зная, что у них есть последствия. Дети не всегда разделяют ценности родителей и не всегда хорошо к ним относятся. Он бы сказал, что примерно тот же принцип сгодился бы и для наших детей-разумов-ИИ…
Думимир: [раздражённо] Но…
Симплиция: Я сказала «примерно»! Да, несмотря на бОльшие ставки и новый контекст, в котором мы выращиваем новые разумы in silico, а не передаём культурный ввод тому, что закодировано в наших генах.
Конечно, для всего так или иначе есть первый раз. Если бы мы твёрдо установили, что тот путь, которым всегда шли инженерия и жизнь, приведёт к гарантированной катастрофе, то, наверное, главные мировые игроки согласились бы свернуть, отвергнуть исторический императив, выбрать, по крайней мере пока что, бездетность вместо порождения зловредного потомства. Кажется, судьба светового конуса зависит от…
Думимир: Боюсь, да…
Симплиция и Думимир: [повернувшись к слушателям, вместе] …того, разберутся ли исследователи ИИ, кто из нас прав?
Думимир: Нам кранты.
[Декорации: пригородный дом. Большую часть сцены занимает интерьер; слева видны торец стены и крыльцо. Симплиция заходит со стороны крыльца и звонит в дверь.]
Думимир: [открывая дверь] А? Что вам надо?
Симплиция: Я не могла перестать думать о нашем предыдущем разговоре. Он был слишком уж обо всём сразу. Если вы не против, я бы продолжила, но сосредоточившись на нескольких более конкретных деталях, по поводу которых я всё ещё в замешательстве.
Думимир: И зачем мне поучать землянина в теории согласования? С чего мне надеяться, что вы поймёте это сейчас, если вы не дошли до этого «с пустой строки», и не дошли до этого за наш прошлый разговор? И даже если поймёте, чего хорошего из этого выйдет?
Симплиция: [искренне] Если миру всё равно конец, я думаю, более достойно будет, если я буду точно понимать, почему. [пауза.] Извините, это не объясняет, что в этом для вас. Это почему мне надо спросить.
Думимир: [мрачно] Ну, как вы и сказали, раз уж миру всё равно конец.
[Он жестом приглашает её войти и присесть.]
Думимир: Что же вводит вас в замешательство? В смысле, о котором вы хотели поговорить.
Симплиция: У вас, кажется, есть мощная интуиция, отвергающая стратегии согласования, основанные на имитации людей. Вы сравнивали LLM с актрисами-инопланетянками. Мне это не кажется убедительным.
Думимир: Но вы утверждали, что понимаете – LLM, которая выдаёт правдоподобно-человеческий текст, человеком не является. То есть, ИИ – не персонаж, которого отыгрывает. Аналогично тому, как способность предсказать разговор в баре не делает пьяным. Чего тут ещё не понятно, даже вам?
Симплиция: Почему аналогия «предсказание разговора в баре не делает пьяным» не приводит к ошибочному «предсказание ответов на задачи арифметики по модулю не означает, что вы реализуете модульную арифметику»?
Думимир: Чтобы предсказать разговор в баре, вам надо отдельно и дополнительно к тому, что знаете вы, знать всё, что знают пьяные люди. Собственное опьянение только помешало бы. Аналогично, предсказание поведения добрых людей – не то же самое, что быть добрым. Арифметика по модулю не такая – ничего кроме знания, что там можно было бы реализовывать, там нет.
Симплиция: Но нам достаточно, чтобы наш ИИ вычислял доброе поведение. Не обязательно, чтобы у него была какая-то внутренняя структура, соответствующая квалиа доброты. В плане безопасности нам всё равно «на самом ли деле пьяна» актриса, пока она не выходит из роли.
Думимир: [насмешливо] А вы пытались представить хоть какие-нибудь ещё внутренние механизмы, кроме скудной и безликой склонности выдавать наблюдаемое внешнее поведение?
Симплиция: [невозмутимо] Конечно, давайте обсудим внутренние механизмы. Я выбрала как пример арифметику по модулю потому, что на этой задаче у нас есть хорошее исследование интерпретируемости. Обучите маленький трансформер на некотором подмножестве задач сложения по модулю фиксированного простого числа. Сеть научится переводить вводы на окружность в пространстве представлений, а потом будет при помощи тригонометрических операций вычислять остатки, примерно так же, как можно отсчитывать вперёд часы на циферблате.
Или же, если взять другую архитектуру, которой сложнее справиться с тригонометрией, она сможет научиться другому алгоритмы: представления всё ещё расположены на окружности, но ответ вычисляется через среднее векторов представлений вводов. На циферблате средние точки между числами, сумма которых даёт остаток 6 по модулю 12 (то есть, пары «2 и 4», «1 и 5», «6 и 12», «10 и 8», «11 и 7») лежат на линии, соединяющей 3 и 9. Вообще, сумма двух чисел по модулю p может быть определена через то, на какую линию попадает средняя точка между этими числами на окружности. Кроме случая, когда два числа ровно напротив друг друга, тогда средняя точка – это центр окружности, а там пересекаются все эти прямые. Но сеть просто дополнительно выучивает другую окружность в другой части пространства представлений. Вводы, противоположные друг другу на первой окружности, будут близки на второй, так получается однозначный ответ.
Думимир: Замечательная работа, по земным стандартам. Милые результаты. И совершенно неудивительные. Конечно, если обучить нейросеть на хорошо сформулированной математической задаче с совершенно твёрдым решением, она сойдётся к этому решению. И что дальше?
Симплиция: Это свидетельство в пользу посильности обучения желаемому поведению из обучающих данных. Вы, кажется, думаете, что это безнадёжно наивно – представлять, что обучение на «добрых» данных приведёт в обобщённо-доброму поведению. Что единственная причина, как кто-то может посчитать это жизнеспособным путём – магическое мышление о поверхностном сходстве. Я же думаю, уместно указать, что как минимум для таких игрушечных задач у нас есть очень конкретная немагическая история о том, как оптимизация на обучающем наборе привела к алгоритму, который воспроизводит обучающие данные и правильно обобщается на тестовые.
А в случае не-игрушечных задач мы эмпирически выяснили, что глубинное обучение может попадать в очень точные поведенческие цели. Подавляющее супербольшинство программ не говорят на человеческих языках и не генерируют красивые фотореалистичные изображения, но всё же GPT-4 и Midjourney существуют.
Если для «текста» и «изображений» это – всего лишь инженерная задача, я не вижу, что за фундаментальный теоретический барьер отвергает возможность преуспеть в том же для «дружественного и морального принятия решений в мире»; возможность выучить из данных значение «хорошего человека» и «послушного ассистента» так же, как Midjourney выучила «красивую картинку».
Это правда, что диффузионные модели внутри не работают как люди-художники. Но мне не ясно, почему это имеет значение? Мне кажется, впустую заявлять «предсказание того, как выглядят красивые картинки не делает тебя художником; собственное чувство эстетики только помешает», когда модель действительно можно использовать вместо найма человека.
Думимир: Менее чистенькие задачи не будут обладать единственным решением, как арифметика по модулю. Если генетический алгоритм, градиентный спуск или ещё что угодно в таком роде доберётся до чего-то, кажущегося работающим, то в выученной функции будет множество самых разных причудливых закорюк. Они будут группироваться у вводов, которые мы бы назвали состязательными примерами, и которые для ИИ выглядят как типичные представители обучающего распределения, а для нас – нет. При оптимизации мощным СИИ это убивает.
Симплиция: Для меня это звучит будто вы совершаете эмпирическое утверждение о том, что найденные оптимизацией чёрного ящика решения обязательно будут хрупкими и узкоприменимыми. Но есть некоторые поразительные свидетельства о том, как вроде как в «грязных» и запутанных случаях получались куда более «конвергентные» решения, чем можно было бы ожидать. Например, самое очевидное, представления слов в word2vec и FastText кажутся совершенно разными – что и понятно для результатов двух разных программных процессов, использовавших разные датасеты. Но если сконвертировать их скрытые пространства в относительный вид, выбрав некоторые общие словарные слова как якоря, и определить все остальные вектора слов через их скалярные произведения с якорями, то они будут очень похожи.
Тогда получается, «представления слов английского языка» – это хорошо поставленная математическая задача с устойчивым решением. Статистической сигнатуры использующегося языка достаточно, чтобы задать основную структуру представлений.
Ещё вы упомянули состязательные примеры так, будто вы считаете, что это дефекты примитивной парадигмы оптимизации, но, оказывается, состязательные примеры часто соответствуют полезным для предсказания чертам, которые нейросеть активно использует для классификации. Просто они неустойчивы для вмешательств на уровне пикселей, которые люди не замечают. Я полагаю, вы можете сказать, что с нашей точки зрения это «причудливые закорюки», но изучение причин их возникновения даёт куда более оптимистичный взгляд на исправление проблемы при помощи состязательного обучения, чем если считать «закорюки» неизбежным следствием использования обычных ML-техник.
Думимир: Это всё очень интересно, но, мне кажется, не особо касается причин, почему мы все погибнем. Это всё ещё сторона «есть» разрыва «есть-должно». Полезным и опасным интеллект делает не зафиксированный поведенческий репертуар, а поиск, оптимизация, систематическое открытие новых поведений, позволяющих достигать целей? несмотря на меняющееся окружение. Я не думаю, что недавний прогресс способностей повлиял на то, что из себя представляет задача согласования. Проблема никогда не была в способности обучиться сложному поведению на обучающем распределении.
И пока мы не перестанем застревать в парадигме рассуждений об «обучающих распределениях», не перестанем выращивать разумы, вместо того, чтобы их проектировать, мы ничего не узнаем о том, как направлять мышление на конкретные цели, особенно так, чтобы это переживало вливание в систему кучи оптимизационной силы. То, что в вашей нейросети нет явно помеченного «слота цели», не означает, что она не совершает никакой опасной оптимизации. Только что вы не знаете, какую.
Симплиция: Я думаю, мы можем обоснованно предполагать…
Думимир: [перебивает] Предполагать!
Симплиция: …вероятностно предполагать, какие виды оптимизации совершаются системой, и представляют ли они проблему, даже без полной механистической интерпретируемости. Если вы считаете, что LLM или их будущие вариации небезопасны, потому что они аналогичны обладающей собственными целями трезвой актрисе, отыгрывающей пьяного персонажа, не должно ли это приводить к какому-нибудь тестируемому предсказанию об том, как их поведение будет обобщаться?
Думимир: Не-фатально тестируемому? Не обязательно. Если вы одолжите 5 долларов мошеннику, и он их вернёт, это не означает, что вы можете без опаски одолжить ему большие деньги. Он мог вернуть 5 долларов потому, что надеялся, что вы тогда доверите ему больше.
Симплиция: Ладно, я согласна, что обманчивая согласованность в какой-то момент потенциально станет реальной проблемой. Но можно хотя бы отделить неправильное обобщение от обманчивой согласованности?
Думимир: Неправильное обобщение? Цели, которые хотите вы – не свойство самих обучающих данных. Опасны правильные обобщения, из которых вытекает что-то, чего вы не хотите.
Симплиция: Могу я называть это недоброжелательными обобщениями?
Думимир: Конечно.
Симплиция: Итак, очевидно, есть риски недоброжелательных обобщений, когда оказывается, что сеть, настроившаяся на обучающее распределение, не ведёт себя так, как вам бы хотелось, в новом распределении. Например, политика обучения с подкреплением, обученная добираться до монетки в правом конце уровня компьютерной игры может продолжить добираться до правого края уровней, в которых монетка в другом месте. Это тревожный признак того, что если мы неправильно понимаем, как работают индуктивные склонности, и неосторожны с настройкой обучения, мы можем обучить не то, что хотели. В какой-то момент всё большего и большего делегирования когнитивной работы от нашей цивилизации машинам, люди потеряют способность это исправить. Мы начинаем видеть ранние знаки: как я уже говорила, проповедническая снисходительная манера Claude уже кажется мне жутковатой. Мне не нравятся результаты экстраполяции этого на будущее, в котором все продуктивные роли в переживающем переход к взрывообразному экономическому росту обществе заняты потомками Claude.
Но названные мной примеры недоброжелательного обобщения неудивительны, если посмотреть на то, как системы обучались. В примере с игрой «идти к монетке» и «идти направо» при обучении были эквивалентны. И рандомизации местоположения монетки всего в паре процентов обучающих примеров хватило, чтобы поведение стало правильным. В случае Claude, Anthropic использовали метод обучения-с-подкреплением-от-обратной-связи-ИИ, который они назвали Конституционным ИИ. Вместо того, чтобы ярлыки для RLHF выдавали люди, они написали список принципов и поставили это делать другую языковую модель. Вполне осмысленно, что языковая модель, обученная соответствию принципам, выбранным комитетом из калифорнийской частично-коммерческой организации будет вести себя так.
Напротив, когда вы проводите аналогию с трезвой актрисой, отыгрывающей пьяного персонажа, или с одалживанием мошеннику пяти долларов, это непохоже на то, будто вы имеете в виду риск обучить не тому, когда обычно, хоть и не заранее, но задним числом, ясно, как обучение поощрило плохое поведение. Скорее получается, что вы считаете, что обучение вообще, совсем не может повлиять на «внутренние» мотивации.
Вы говорите об обманчивой согласованности, гипотетическом явлении, когда ситуационно-осведомлённый ИИ стратегически притворяется согласованным, чтобы сохранить своё влияние на мир. Исследователи ведут дискуссии о том, насколько это вероятно, но я не знаю, к какому выводу эти аргументы приводят. Я бы хотела пока это не рассматривать. Предположим, в целях дискуссии, что мы можем выяснить, как избежать обманчивой согласованности. Как это поменяет вашу историю о рисках?
Думимир: Что бы это значило? То, о чём мы можем подумать как об «обмане» – не странный крайний случай, которого просто избежать. Обман конвергентен для любого агента, не координирующегося конкретно с вами, чтобы интерпретировать определённые состояния реальности как коммуникационные сигналы с общим смыслом.
Когда вы раскладываете ядовитые приманки для муравьёв, вы, вероятно, не воспринимаете это как попытку обмануть муравьёв, но это вы и делаете. Аналогично, умный ИИ не будет считать, что он пытается нас обмануть. Он пытается достичь своих целей. Если так уж получилось, что один из шагов его плана – издавать звуковые волны или последовательности символов, которые мы интерпретируем как утверждения о мире – это наши проблемы.
Симплиция: «Что бы это значило»… Думчик, сейчас не 2008-й! Я говорю о технологии, которая у нас уже есть! Когда GPT-4 пишет для меня код, я не думаю, что она стратегически решила, что выполнение моих инструкций инструментально служит её финальным целям! Всё, что я читала о том, как она создана и как она себя ведёт, ну очень похоже на то, что она просто обобщает своё обучающее распределения интуитивно осмысленным способом. Вы высмеивали людей, которые обесценивали LLM как «стохастических попугаев» и игнорировали очевидные проблески СИИ прямо у них под носом. Разве не настолько же абсурдно отрицать находящееся прямо у себя под носом свидетельство того, что согласование может быть несколько проще, чем казалось 15 лет назад? Конечно, разъясняйте свою неочевидную теорию игр об обмане; конечно, указывайте, что суперинтеллект в конце времён будет максимизатором ожидаемой полезности. Но всё равно, RLHF/DPO как надстройки на обучение без учителя уже сейчас замечательно работают – отвечая на команды, а не имея согласованную с нашей волю. Разве это лишь «способности» и совсем не «согласование»? Думимир Погибелевич, я пытаюсь понять, но вы не делаете задачу проще!
Думимир: [начинает злиться] Симплиция Оптимистовна, если бы вы не были с Земли, я бы сказал, что не думаю, что вы пытаетесь понять. Я никогда не заявлял, что конкретно GPT-4 можно назвать обманчиво согласованной. Конечные точки предсказать проще, чем промежуточные траектории. Я говорю о том, что будет происходить внутри практически любого достаточно мощного СИИ, просто из-за его достаточной мощности.
Симплиция: Но если вы говорите только о суперинтеллекте в конце времён…
Думимир: [_перебивает_] Это происходит значительно раньше.
Симплиция: …и ничего не утверждаете о существующих системах, то к чему были все аналогии про «актрис-инопланетяное» и «предсказаниях разговоров в баре»? Если это просто неуклюжая попытка объяснить обывателям, что LLM, которые неплохо проходят Тест Тьюринга – всё ещё не люди, то я, безусловно, согласна. Но кажется, будто вы считаете, что ваше заявление – куда более сильное и отвергает целые направления основанных на имитации стратегий согласования.
Думимир: [спокойнее] По сути, я думаю, вы систематически недооцениваете, в какой степени штуки, которые были оптимизированы вам нравиться, могут предсказуемо начать вести себя по-другому в тех ситуациях, в которых они не были оптимизированы вам нравиться. Особенно, когда они сами совершают серьёзную оптимизацию. Вы упомянули агента, который в компьютерной игре находил путь направо, вместо того, чтобы идти к монетке. Вы заявили, что с учётом устройства процесса обучения это неудивительно, и что это можно исправить, должным образом разнообразив обучающие данные. Но могли бы вы указать на этот конкретный провал заранее, а не задним числом? Когда вы будете иметь дело с трансформативно-мощными системами, вам надо будет указывать на такие вещи заранее.
Думаю, если бы вы понимали, что на самом деле происходит внутри LLM, вы бы видели тысячи и тысячи аналогов проблемы «идёт направо, а не к монетке». Суть аналогии с актрисой в том, что внешнее поведение не говорит вам о том, к каким целям стремится система. А перспективы и опасность СИИ именно в целях. И то, что системы глубинного обучения – запутанные непонятные чёрные ящики, которые нельзя целиком описать как «стремящиеся к целям» делает ситуацию хуже, а не лучше. Аналогия не зависит от того, есть ли у нынешних LLM интеллект или ситуационная осведомлённость, необходимые для смертоносных провалов. Аналогия не отрицает, что LLM могут приносить пользу в духе интерактивного учебника, так же как актрису можно научить давать правдоподобные ответы на вопросы к её персонажу без того, чтобы она стала этим персонажем.
Симплиция: Но это несовпадение всё равно должно при каких-то условиях показаться. Я жаловалась о личности Claude, но, честно говоря, это кажется исправимым через масштабирование ИИ-компанией не из Калифорнии. Если имитация человека такая поверхностная и неустойчивая, почему конституционный ИИ вообще работает? Вы заявляете, что «настоящая» доброта мешала бы предсказывать доброе поведение. Почему? Как мешала бы?
Думимир: [раздражённо] Доброта – не оптимальная стратегия для того, чтобы хорошо справиться с предобучением или с RLHF. Вы отбираете алгоритм по смеси выяснения, какой вывод правильно предскажет следующий токен и выяснения, какой вывод побудит человека нажать кнопку «палец вверх».
Конечно, у вашего ИИ будет модель доброго человека. Она полезна для предсказания того, что сказал бы добрый человек. А это предсказание полезно для того, чтобы выяснить, какой вывод направит-проманипулирует человеком, чтобы тот нажал нужную кнопку. Но нет причин ожидать, что эта модель в итоге будет контролировать весь ИИ! Это было бы как… если бы ваши убеждения о том, чего хочет от вам ваш босс, захватили контроль над вашим мозгом.
Симплиция: Мне это кажется осмысленным, если взять уже существующий консеквенциалистский разум, засунуть его в процесс обучения современной ML-модели и попытаться заставить его минимизировать функцию потерь. Но на самом деле происходит не это? LLM – не агент, у которого есть модель. LLM и есть модель.
Думимир: Пока что. Но любая система, способная на мощную когнитивную работу, будет для этого использовать перенаправляемые алгоритмы поиска общего назначения. А у них, раз уж они перенаправляемые, должно будет быть что-то больше похожее на «слот цели». Обновления градиентного спуска указывают в направление большего консеквенциализма.
Люди-оценщики, которые нажимают кнопку лайка в ответ на действия, которые для них хорошо выглядят, будут совершать ошибки. Обновления градиентного спуска указывают в сторону «обыгрывания обучения» – моделирования процесса обучения, который на самом деле выдаёт вознаграждение, а не в строну усвоения функции полезности, про которую земляне наивно надеялись, что процесс обучения приведёт к ней. Я очень, очень уверен, что любой ИИ, созданный чем-то хоть отдалённо похожим на нынешнюю парадигму, не будет в итоге хотеть того, чего хотим мы, даже если и сложно сказать в точности, когда всё пойдёт вразнос, или чего конкретно он будет хотеть.
Симплиция: Вы, может быть, и правы. Но мне кажется, что всё это зависит от эмпирических фактов о том, как работает глубинное обучение. Это не то, в чём вы можете быть убедиться, исходя из априорной философии. Тот аргумент, что систематические ошибки в выставлении людьми вознаграждения поощряют обыгрывание обучения вместо «правильного» поведения, и впрямь звучит правдоподобно. Как философия.
Но я не уверена, как соединить это с эмпирическими свидетельствами о том, что глубокие нейросети устойчивы к мощному зашумлению ярлыков: вы можете обучить на цифрах MNIST с двадцатью случайными ярлыками на каждый верный и всё равно получить хорошие результаты, пока для каждой цифры правильный ярлык встречается чуть чаще, чем самый частый неправильный. Если я экстраполирую это на передовые ИИ завтрашнего дня, почему бы не прийти к выводу, что искажённые оценки людей приведут к слегка сниженному качеству работы, а не к… погибели?
Экстраполяция эмпирических данных (полученных в обстоятельствах, возможно, неприменимых для интересующего явления) противоречит мысленных экспериментам (с допущениями, возможно, неприменимыми для интересующего явления). В таком случае я не уверена, что должно управлять моими ожиданиями. Может, оба варианта возможны для разных видов систем?
Обоснование почти-гарантированной-гибели, кажется, полагается на аргумент от подсчёта: ожидается, что мощные системы будут максимизаторами ожидаемой полезности; пространство возможных функций полезности астрономически-велико, и почти все они недружественны. Но я продолжаю возвращаться к примеру с арифметикой по модулю, потому что это крохотный пример, в котором мы знаем, что у обучающих данных получилось успешно указать на предполагавшуюся функцию ввода-вывода. Как я уже упоминала раньше, до наблюдения результата эксперимента это неочевидно. Вы могли бы совершить аналогичный аргумент от подсчёта, что глубокие нейросети должны всегда переобучаться, потому что функций, которые плохо обобщаются, намного больше. Но каким-то образом нейросеть стабильно предпочитает «правильное» решение, оно не появляется лишь в результате астрономически-невероятного совпадения.
Думимир: Конечно, для арифметики по модулю это так. Это факт об обучающем распределении, тестовом распределении и оптимизаторе. Это совершенно, абсолютно точно будет не так для «доброты».
Симплиция: Хоть, кажется, это работает для «текста» и «изображений»? Но, допустим, это правдоподобно. У вас есть эмпирические свидетельства?
Думимир: Вообще-то, да. Видите ли…
[На сцену выходит почтальон с конвертом и звонит в дверь.]
Думимир: Это, наверное, почтальон. Мне надо расписаться за денежный перевод. Сейчас вернусь.
Симплиция: Так, говорите, мы продолжим [поворачивается к зрителям] после следующего перевода?
Думимир: [подходя к двери] Полагаю, да. Но странно так это формулировать, перерыв буквально меньше, чем на две минуты.
[Симплиция выразительно на него смотрит.]
Думимир: [зрителям] Субъективных.
[Занавес.]
Антракт
[Сцена: пригородный дом, прошла минута после окончания «И все шогготы лишь играют». Думимир возвращается со своей посылкой и кладёт её у двери. Он поворачивается к Симплиции_, которая его ждала.]_
Симплиция: Итак. Напомню… [закашливается] не кому-то конкретному, где мы остановились. [обращаясь к зрителям] Одну минуту назад, Думимир Погибелевич, вы выражали уверенность в том, что подходы к согласованию обобщённого искусственного интеллекта из нынешней парадигмы почти гарантировано провалятся. Вы не согласны с тем, что из того, что вроде бы можно заставить нынешние генеративные ИИ делать то, что хотят люди, следует что-то значимое для этого вопроса. Ещё вы сказали, что у вас есть эмпирические свидетельства в пользу ваших взглядов. Мне было бы очень интересно о них услышать!
Думимир: И правда, Симплиция Оптимистовна. Моё эмпирическое свидетельство – пример эволюции человеческого интеллекта. Видите ли, люди были оптимизированы исключительно для одного: совокупной генетической приспособленности…
[Симплиция поворачивается к зрителям и корчит рожу.]
Думимир: [раздражённо] Что?
Симплиция: Когда вы сказали, что у вас есть эмпирическое свидетельство, я подумала, что у вас есть эмпирическое свидетельство про ИИ, а не та же самая аналогия с совершенно иной областью, которую я слышу уже пятнадцать лет. Я надеялась на, знаете, статьи с ArXiv об индуктивных склонностях СГС, или ограничениях онлайнового обучения, или единой теории обучения… что угодно из этого века относительно того, что мы узнали из опыта реального построения искусственных разумов.
Думимир: Это как раз одна из многих вещей, которые вы, земляне, отказываетесь понимать. Вы их не строите.
Симплиция: Что?
Думимир: Прогресс способностей, который сейчас выдают исследователи ИИ вашей цивилизации основан не на глубоком понимании мышления, а на совершенствовании общих методов оптимизации, в которые вливается всё больше и больше вычислительных мощностей. Глубинное обучение – не просто не наука, это даже не инженерия, в традиционном смысле: непрозрачность создаваемых артефактов не имеет аналогов среди проектов мостов или двигателей. По сути, вся инженерная работа объектного уровня производится градиентным спуском.
Автогеноцидный маньяк Ричард Саттон назвал это горьким уроком и заявил, что в столь медленном его признании виновато раздутое эго и окостенелость представителей области. Но, в соответствии с наказом в полную ситу чувствовать эмоцию, подходящую ситуации, я думаю, что горечь тут и правда уместна. Вполне осмысленно чувствовать её по поводу недальновидного принятия фундаментально несогласуемой парадигмы из-за того, что она хорошо работает прямо сейчас, тогда как менее безумный мир заметил бы очевидные предсказуемые сложности и скоординировался бы, чтобы сделать Что-то Другое, А Не Это.
Симплиция: Я не думаю, что это самая подходящая интерпретация «горького урока». Саттон отстаивал обобщённые методы, которые масштабируются вместе с вычислительными мощностями, в противоположность вручную закодированным человеческим знаниям. Но это не значит, что мы пребываем в невежестве о том, что эти обобщённые методы делают. Один из примеров Саттона – компьютерные шахматы, где минимакс-поиск с оптимизациями вроде α–β отсечений оказался лучше, чем попытки в явном виде закодировать то, что люди-гроссмейстеры знают об игре. Но ничего страшного. Написание программы, которая думает о тактике как люди, вместо того, чтобы дать тактике появиться из поиска по игровому дереву tree, было бы большей работой ради меньшей выгоды.
Довольно схожая модель применима и к использованию глубинного обучения для аппроксимации сложных функций между разными распределениями данных: мы определяем обучающее распределение, а подробности подстройки под него делегируем подходящей архитектуре сети: свёрточной для изображений, трансформеру для последовательностей варьирующейся длины. Есть много литературы о…
Думимир: Литература не поможет, если авторы из вашей цивилизации не задают вопросы, которые нужно задавать, чтобы не погибнуть. Что, конкретно, я должен узнать из литературы вашего мира? Дайте мне пример.
Симплиция: Я не уверена, какой пример вам нужен. Просто исходя из здравого смысла, кажется, что задача согласования ИИ потребует близкого знакомства с мельчайшими эмпирическими подробностями того, как ИИ работает. Почему вы ожидаете, что можно просто мельком окинуть проблему взглядом из кресла и объявить всё это непосильным, основываясь лишь на аналогии с биологической эволюцией, которая совсем не то же самой, что обучение ML-моделей?
Выбирая наугад… ну, вот, я недавно читала об остаточных сетях. Глубокие нейросети считались тяжёлыми для обучения, потому что градиент слишком быстро менялся относительно ввода. Гиперландшафт потерь формируется в результате многократной композиции функций, из-за этого получался пёстрый фрактал из маленьких горок, а не гладкая поверхность, по которой можно спускаться. Эта проблема смягчается введением «остаточных» связей, которые пропускают некоторые слои и создают короткие пути через сеть с более гладкими градиентами.
Я не понимаю, как вы можете говорить, что это не наука или инженерия. Есть понятное объяснение, почему один проект обрабатывающей информацию системы работает лучше альтернатив. Оно основано на наблюдениях и математических рассуждениях. Есть десятки таких штук. Чего ещё, собственно вы ожидаете от науки, изучающей искусственные разумы?
Думимир: [скептически] Это ваш пример? ResNet?
Симплиция: … да?
Думимир: Согласно закону сохранения ожидаемых свидетельств, я посчитаю то, что у вас не удалось припомнить что-то относящееся к делу, как подтверждение моих взглядов. Я никогда не отрицал, что можно написать кучу диссертаций о подобных трюках, позволяющих сделать обобщённые оптимизаторы эффективнее. Проблема в том, что эти знания приближают нас к способности простым и грубым способом дойти до обобщённого интеллекта, не давая нам при этом знаний об интеллекте. Что за программу все эти градиентные обновления встраивают в вашу сеть? Как она работает?
Симплиция: [с дискомфортом в голосе] Над этим работают.
Думимир: Слишком мало и слишком поздно. Причина, по которой я так часто упоминаю эволюцию людей – это наш единственный пример того, как внешний цикл оптимизации создал внутренний обобщённый интеллект. Уж точно кажется, ваша цивилизация идёт по тому же пути. Да, градиентный спуск отличается от естественного отбора, но я не думаю, что разница имеет отношение к морали аналогии.
Как я уже говорил, понятие приспособленности нигде в наших мотивациях не представлено. То есть внешний критерий оптимизации, по которому отбирала эволюция, создавая нас, нисколько не похож на внутренний критерий оптимизации, который мы используем, выбирая, что делать.
Когда оптимизаторы становятся мощнее, всё, что не ценится функцией полезности в явном виде, не переживает реализацию крайних случаев. Связь между родительской любовью и совокупной приспособленностью в индустриальном окружении стала куда слабее, чем была в окружении эволюционном. Появилось больше возможностей, как люди могут приоритизировать благополучие любимых, не отслеживая частоты аллелей. В трансгуманистической утопии с загрузкой сознания это сломалось бы полностью, мы бы отделили свои разумы от биологического субстрата. Если какой-то другой формат хранения данных подходит нам лучше, то зачем нам придерживаться конкретной молекулы ДНК, о которой до девятнадцатого века никто и не слышал?
Конечно, у нас не будет никакой трансгуманистической утопии с загрузкой сознания, потому что история себя повторит: внешняя функция потерь, которую безумные учёные используют, чтобы вырастить первый СИИ, будет нисколько не похож на внутренние цели получившегося суперинтеллекта.
Симплиция: У вас, кажется, по сути идеологическая убеждённость, что внешнюю оптимизацию нельзя использовать для оформления поведения получающихся внутренних оптимизаторов. Вы не считаете, что «мы обучаем для X и получаем X» – допустимый шаг в предложении по согласованию. Но это, кажется, попросту противоречит опыту. Мы постоянно обучаем глубокие нейросети невероятно конкретным задачам, и это фантастически хорошо работает.
Интуитивно мне хочется сказать, что это работает куда лучше эволюции. Я не представляю, чтобы можно было преуспеть в селективном выведении животного, в совершенстве владеющего английским, как LLM. Немаловажно, что мы можем обучать и обучаем LLM с чистого листа, а селекция работает лишь с чертами, которые уже представлены в популяции, и недостаточно быстра, чтобы собирать новые адаптации с нуля.
Но даже селективное выведение по сути работает. Мы успешно одомашнили верных собак и питательный скот. Если бы мы начали выводить собак ради интеллекта так же, как выводили ради верности и дружелюбия, я ожидаю, что они оставались бы примерно настолько же верными и дружелюбными, когда их интеллект начал бы превосходить наш, и дали бы нам долю собственности в их гиперсобачьей звёздной империи. Не то чтобы это обязательно хорошая идея – я лучше передам мир новому поколению людей, а не новому доминирующему виду, даже если он дружественен. Но ваша позиция, кажется, не «Создание нового доминирующего вида – большая ответственность; нам надо позаботиться о том, чтобы всё получилось в точности правильно». Скорее, вы считаете, что мы вовсе не можем осмысленно повлиять на результат.
Перед антрактом я спросила у вас, как ваш пессимизм по поводу согласования СИИ при помощи обучающих данных сочетается с тем, что глубинное обучение вообще работает. Мой игрушечный пример – результат, в котором исследователи интерпретируемости смогли подтвердить, что обучение на задачах арифметики по остатку привело к тому, что сеть действительно выучила алгоритм сложения по модулю. Вы сказали, что это факт об обучающем распределении, тестовом распределении и оптимизаторе, и для дружественного ИИ это не сработает. Можете это объяснить?
Думимир: [вздыхает] Ну, раз уж надо. Если вы выберете кратчайшую программу, которая без ошибок справляется с арифметикой по модулю p для вводов вплоть до гугола, я предполагаю, что она сработает и для вводов больше гугола, несмотря на то, что есть огромное пространство возможных программ, которые правильно работают до гугола, но неправильно после. В этом смысле я подтверждаю, что обучающие данные могут, как вы выразились, «оформить поведение».
Но это конкретное утверждение о том, что происходит с обучающим распределением «арифметика по модулю с вводами меньше гугола», тестовым распределением «арифметика по модулю с вводами больше гугола» и оптимизатором «перебирать все программы по порядку, пока не найдёте ту, что работает на обучающем распределении». Это не общее утверждение о том, что внутренние оптимизаторы, найденный внешними оптимизаторами, будут хотеть то го же, что оптимистично представляли люди, составлявшие набор обучающих данных.
Опять же, эволюция людей – это наш единственный пример того, как внешняя оптимизация создала обобщённый интеллект. нам известен исторический факт, что первая программа, найденная оптимизатором «жадный локальный поиск посредством мутаций и рекомбинаций» с задачей «оптимизировать совокупную генетическую приспособленность в эволюционном окружении» не обобщилась до оптимизации совокупной генетической приспособленности на тестовом распределении современного мира. Аналогично, ваше утверждение о том, что селективное разведение «в общем-то работает» сталкивается с проблемой каждый раз, когда оно не работает. Например, когда отбор по маленькому размеру подпопуляции насекомых привёл к поеданию чужих личинок, а не к ограничению размножения, или когда отбор в курятнике куриц, которые откладывают больше яиц, привёл к появлению более агрессивных цыплят, которые делают менее продуктивными соседей.
Симплиция: [кивает] Ага-ага. Пока всё понятно.
Думимир: Я вам не верю.. Если бы вам и впрямь было понятно, вы бы заметили, что я только что опроверг наивное ожидание, что внешние оптимизаторы, обучающие при помощи вознаграждения, создадут внутренних оптимизаторов, преследующих это же вознаграждение.
Симплиция: Да, это звучит как очень тупая идея. Если вы когда-нибудь встретите кого-то, кто в это верит, я надеюсь, у вас получится в этом разубедить.
Думимир: [фрустрированно] Если вы не неявно допускаете это наивное ожидание, понимая то или нет, то я не понимаю, почему вы считаете, что «Мы обучаем для X и получаем X» – допустимый шаг в предложении по согласованию.
Симплиция: Это зависит от значения X и значения «обучаем». Как вы и сказали, есть факты о том, какие внешние оптимизаторы и обучающие распределения создают какие внутренние оптимизаторы, и как те, в свою очередь, обобщаются на разные тестовые окружения. И правда, факты не подчиняются выдаче желаемого за действительное: если кто-то рассуждает «Я нажимаю эту кнопку вознаграждения, когда мой ИИ делает хорошие вещи, следовательно, он научится быть хорошим», то его ждёт разочарование, когда выяснится, что система обобщилась до того, что ценит сами нажатия на кнопку (вы бы назвали это провалом внешнего согласования) или любой из многочисленных возможных коррелятов вознаграждения (вы бы назвали это провалом внутреннего согласования).
Думимир: [покровительственным тоном] Пока всё понятно. И почему это не сразу же топит «Мы обучаем для X и получаем X» как допустимый шаг предложения по согласованию?
Симплиция: Потому что я думаю, что возможно совершать предсказания о том, как поведут себя внутренние оптимизаторы и соответствующим образом выбрать план обучения. У меня нет полного описания, как это работает, но я думаю, что полная теория будет куда более подробна, чем, «Либо обучение превращает внешнюю функцию потерь в внутреннюю функцию полезности, в каком случае вы погибаете, либо никак нельзя сказать, что получится, в каком случае вы тоже погибаете». И, думаю, мы можем обрисовать эту более подробную теорию, аккуратно изучив подробности примеров, подобных обсуждаемым нами.
В случае эволюции, можно считать приспособленность определённой как «то, что в итоге отбирается». Можно заявить, что когда фермеры практикуют искусственный отбор, они «на самом деле» не разводят коров по выдаче молока, на самом деле, коров разводят по приспособленности! Если мы применим к Природе те же стандарты, что к фермеру, то скажем, что люди оптимизированы не исключительно для совокупной генетической приспособленности, а оптимизированы для спаривания, охоты, собирательства, заполучения союзников, избегания болезней, и т.д. Если посмотреть так, то взаимосвязь между внешней задачей обучения и мотивациями внутренней модели куда больше похожа на «мы обучаем для X и получаем X», чем считаете вы.
Но, несмотря на это, действительно, решения, которые находит эволюция, могут оказаться неожиданными для селекционера, который не продумал аккуратно, какое именно давление отбора он применяет. Как в ваших примерах неудач искусственного отбора: простейшее изменение насекомого, использующее существующую вариацию для ответа на давление отбора в сторону маленьких подпопуляций будет «каннибализм». Простейшее изменение куриц, помогающее откладывать больше яиц, чем соседние курицы – агрессия.
Думимир: Это такой троллинг, в котором вы соглашаетесь со всеми моими пунктами, а потом делаете вид, что всё ещё каким-то образом несогласны? Я этому и пытался вас научить: решения, которые находит внешняя оптимизация могут быть неожиданными…
Симплиция: …для проектировщика, не обдумавшего тщательно, какие именно давления оптимизации он использует. Ответственное использование внешней оптимизации…
[Doomimir хохочет]
Симплиция: …не кажется непосильной инженерной задачей. И глубинное обучение кажется для её решения куда более перспективным, чем эволюция. Кажущуюся очень слабой связь между понятием совокупной генетической приспособленности и человеческой «тысячей осколков желания» можно рассматривать как проявление редких вознаграждений. Если внешний оптимизатор только измеряет частоту аллелей, но кроме этого никак не отбирает, какие аллели хороши, то простейшее решение – с учётом подразумеваемой априорной склонности естественного отбора к простоте – будет сильно зависеть от кучи случайных деталей эволюционного окружения. Если вы ожидали получить чистого максимизатора копирования ДНК, то это будет неожиданно.
А вот когда мы создаём ИИ-системы, мы можем заставить внешний оптимизатор предоставлять столько указаний, сколько нам хочется. И когда указания расположены плотно, это сильно ограничивает то, какие будут найдены решения. В нашей аналогии получается, что мы можем легко определять мельчайшие детали «эволюционного окружения». Мы можем больше, чем найти программу, которая справляется с простой целью, и принять все её странные стремления, оказавшиеся простейшим способом этой цели достигать. Мы ищем программу, которая аппроксимирует миллиарды пар ввода-вывода, на которых мы её обучили.
Считается, что нейросети вовсе могут обобщать потому, что отображение параметров в функции склоняется в сторону простых функций: в первом приближении обучение эквивалентно байесианским обновлениям на наблюдениях о том, что сеть с случайно инициализированными весами подошла под обучающие данные.
Что касается больших языковых моделей, осмысленной догадкой кажется, что простейшая функция, которая предсказывает следующий токен текста их интернета, это и правда просто предсказатель следующего токена. Не предсказывающий следующий токен консеквенциалист, который завайрхедится просто предсказуемыми токенами, а предсказатель текста из обучающего распределения. Специфичность для распределения, которую вы посчитали провалом внутренней согласованности в случае эволюции людей – не баг, а фича: мы обучали для X и получили X.
Думимир: А затем немедленно подвергли результат обучению с подкреплением.
Симплиция: Так уж получается, что я ещё и не считаю RLHF столь же обречённым, как вы. Ранние теоретические обсуждения согласования ИИ иногда говорили о том, что пойдёт не так, если вы попробуете обучить ИИ при помощи «кнопки вознаграждения». Эти дискуссии имеют философскую ценность. И правда, если бы у вас был гиперкомпьютер, и вы проектировали ИИ посредством грубого поиска простейшей программы, которая приводит к наибольшему числу нажатий на кнопку, то это, полагаю, ничем хорошим не закончилось бы. Отобранный таким образом слабый агент может вести себя так, как вам хочется, но сильный агент найдёт умные способы обмануть вас или промыть вам мозги, чтобы вы нажали на кнопку. Или просто захватит контроль над кнопкой сам. Если бы у нас на самом деле был гиперкомпьютер и мы действительно создавали ИИ таким образом, я была бы в ужасе.
Но, ещё раз, это больше не философская задача. Сейчас, пятнадцатью годами позднее, наши передовые методы имеют что-то общее с грубым поиском, но детали различаются. И детали важны. Реальное RLHF – не то же самое, что неограниченный поиск гиперкомпьютером того, что заставит людей нажать на кнопку поощрения. Оно подкрепляет переходы состояние-действие, которые получали вознаграждение в прошлом, причём зачастую – с ограниченным расстоянием Кульбака–Лейблера от того что было, а для выводов, которые раньше были бы крайне маловероятными, оно очень большое.
Если большая часть битов поиска берутся из предобучения, которое решает задачи, копируя мыслительные шаги, которые использовали бы люди, то немного направления в нужную сторону при помощи обучения с подкреплением не кажется таким опасным, каким оно было бы, если бы напрямую из RL вытекали бы основные способности.
Мне кажется, это довольно хорошо работает? Попросту не кажется таким уж неправдоподобным, что результатом поиска простейшей программы, которая аппроксимирует распределение естественного языка в реальном мире, а потом оптимизирует это для выдачи таких ответов, какие дал бы услужливый, честный и безвредный ассистент будет, ну… услужливый, честный и безвредный ассистент?
Думимир: Конечно будет казаться, что оно довольно хорошо работает! Оно было оптимизировано для того, чтобы хорошо для вас выглядеть!
Симплиция, я был готов попробовать, но я уже совершенно отчаялся, что вы пройдёте это бутылочное горлышко мышления. Вы можете сформулировать, что идёт не так на простейших игрушечных примерах, но всё отказываетесь увидеть, как так восхваляемые вами системы в реальном мире страдают от тех же фундаментальных проблем систематически менее заметным образом. С точки зрения эволюции люди в эволюционном окружении выглядели бы, будто они хорошо справляются с оптимизацией совокупной приспособленности.
Симплиция: А так ли это? Я думаю, что если бы за людьми в эволюционном окружении наблюдали инопланетяне, и они задались бы вопросом, как люди будут себя вести, если обретут технологии, то они бы смогли предсказать, что люди будут стремиться к сексу и сахару, а не к частоте аллелей. Это фактический вопрос, и он не кажется таким уж сложным.
Думимир: Не-безумные инопланетяне, да. Но, в отличие от вас, они были бы способны и предсказать, что языковые модели после RLHF будут стремиться к \<непереводимо-1>, \<непереводимо-2>, и \<непереводимо-3>, а не к тому, чтобы быть услужливыми, безвредными и честными.
Симплиция: Я понимаю, что что-то может поверхностно выглядеть хорошо, но не быть в этом устойчивым. Мы это уже видели на состязательных примерах классификации изображений. Классификаторы, которые хорошо справляются с естественными изображениями, могут выдавать бредятину на изображениях, специально сконструированных, чтобы их обдурить. Это тревожит, потому что означает, что машины на самом деле не видят изображения так же, как мы. Кажется, это похоже на те сценарии рисков, которые беспокоят вас: что полноценный СИИ может и будет казаться согласованным в том узком диапазоне ситуаций, в которых вы его обучили, но на самом деле он всё это время преследовал свои чуждые цели.
Но видно, что в том самом случае классификации изображений у нас есть прогресс. Есть попытаться сконструировать состязательные примеры для классификатора, который сделали более устойчивым посредством состязательного обучения, вы получите примеры, которые влияют и на человеческое восприятие. Если вместо традиционных классификаторов использовать генеративные модели, то их степень искажённости и качество работы за пределами распределения схожи с человеческими. Можно ещё вмешиваться не в ввод сети, а в её внутреннее состояние, и так защититься от непредвиденных неудач…
Полагаю, вас ничто из этого не впечатляет, но почему? Почему это не считается за постепенный прогресс в внедрении в машины человекоподобного поведения, за постепенный прогресс в согласовании?
Думимир: Подумайте об этом с точки зрения теории информации. Если для будущего, в котором мы выживаем, требуется указать в целях одиночного СИИ 100 бит, то вам понадобится точность, позволяющая попасть в эту трилионную трилионной трилионной части пространства целей. Эмприческая работа по машинному обучению, которая вас так впечатляет, не на пути, который даст нам такую точность. Я не отрицаю, что ценой больших усилий вы можете подтолкнуть непонятные матрицы к принятию поведения, кажущегося более человеческим. Это может дать вам пару бит, а может и не дать.
Это неважно. Это как пытаться восстановить потерянную пьесу Шекспира, обучая марковский генератор на существующих текстах. Да, у этого намного большая вероятность успеха, чем у случайной программы. Эта вероятность всё равно почти ноль.
Симплиция: Хм, возможно, камень преткновения между нами в том, в насколько крохотную цель надо попасть, чтобы реализовать сколько ценности будущего. Я принимаю тезис ортогональности, но мне всё ещё кажется, что задача, которая перед нами стоит, не такое «всё-или-ничего», как описываете вы, а более прощающая неточность. Если вы можете реконструировать правдоподобную аппроксимацию потерянной пьесы, насколько важно, что она не восстановлена в точности верно? Было бы интересно дальше обсудить…
Думимир: Нет. Ваша мать дала вам подходящее имя. Не вижу толка в тщетных попытках обучать необучаемых.
Симплиция: Но если миру всё равно конец?
Думимир: Ну, полагаю, так можно убить немного времени.
Симплиция: [зрителям] До скорого!
Вот два разных пути, как ИИ может оказаться недружественным:
(Выскажу очевидное: пожалуйста, не пытайтесь заставить свой ИИ стремиться к «счастью». Вы в долгосрочной перспективе скорее хотите что-то вроде CEV, а в краткосрочной я очень рекомендую целиться пониже, в поворотное действие.)
В обоих случаях, ИИ (во время обучения) ведёт себя похоже на то, как если бы он пытался сделать людей счастливыми. ИИ, описанный в (1) недружественный, потому что оптимизирует неправильный концепт «счастья», который соответствует вашему, пока ИИ слаб, но расходится с ним в разных крайних случаях, которые важны, когда ИИ силён. А ИИ, описанный в (2) на самом деле вообще никогда не пытался стремиться к счастью. Он следует некоторой смеси целей, которые лишь коррелировали с целью обучения, балансировали друг друга примерно там, где вам было надо, но развёртывание (и последующий рост способностей) этот баланс нарушило.
Замечу, что этот список «того, что может пойти не так, когда при обучении кажется, будто ИИ оптимизирует счастье» не исчерпывающий! (Например, представьте ИИ, который стремиться к чему-то совсем другому, но знает, что вы его выключите, если он не будет выглядеть так, будто он оптимизирует счастье. Или ИИ, чьи цели сильно меняются по мере того, как он рефлексирует и самомодифицируется.)
(Эти пункты даже не вполне взаимоисключающие! Вы можете получить оба сразу, например, ИИ, который тратит большую часть ресурсов вселенной на заполучение памяти и энергии для совсем левых целей, а маленькую часть – на обдолбанные оболочки людей.)
Решения этих двух проблем довольно различны. Чтобы разрешить проблемы из (1), вам надо выяснить, как заставить представление понятия «счастья» в ИИ соответствовать тому понятию, которое вы надеялись передать даже в крайних экстремальных случаях, к которым он получит доступ после развёртывания (когда ему надо будет стать достаточно мощным, чтобы осилить некоторое поворотное действие, которое вы осилить не можете, так что он должен быть и достаточно способным, чтобы получить доступ к экстремальным крайним случаям, к которым у вас доступа нет).
Чтобы разрешить проблему из (2), вам надо выяснить, как заставить ИИ ценить конкретное понятие, а не запутанную кучу, которая, так уж получилось, во время обучения хорошо балансируется у вашей цели («счастья»).
Я подчёркиваю это разделение, потому что мне кажется, что многие либо их неуместно склеивают, либо одну из них не замечают. Например, мне кажется, что в “Задаче согласования с точки зрения глубинного обучения” они собраны вместе под названием «неправильное обобщение целей» (goal misgeneralization).
(Я думаю, термин «неправильное обобщение» тут вводит в заблуждение применительно к любой из двух проблем, впрочем, к (2) он подходит ещё хуже, чем к (1). Приматы не «неправильно обобщают» понятие «совокупной генетической приспособленности», становясь умнее и изобретая презервативы. У них на самом деле изначально не было этого понятия, чтобы его неправильно обобщать. А те обрывки понятия, которые были, не были тем, что приматы оптимизировали.)
(Другими словами: не было такого, чтобы приматы оптимизировали приспособленность к своему окружению, а потом, обнаружив себя в другом окружении с вредной вкусной едой и презервативами, «неправильно обобщили». «Согласованное» поведение во время «обучения» сломалось в более широком контексте «развёртывания», но не потому, что приматы нашли какой-то странный способ расширить существующее понятие «совокупной генетической приспособленности» на более широкую область. Их оптимизация просто изначально не было соединена с внутренним представлением «совокупной генетической приспособленности».)
Меня тревожит, что смешав эти проблемы вместе становится куда легче ими легкомысленно пренебречь. Например, я встречал многих людей, которые считали, что проблема (1) – это «проблема навыков»: уж точно, если ИИ будет умнее, он будет знать, что мы имели в виду под «сделай людей счастливыми». (Вдвойне, если первые трансформативные ИИ будут основаны на языковых моделях! Ведь GPT-4 уже сейчас может вам объяснить, почему накачивать изолированных людей опиатами – не должно считаться как «счастье».)
И да: ИИ, достаточно способный, чтобы быть трансформативным, почти точно будет достаточно способным, чтобы выяснить, что люди имеют в виду под «счастьем», и что обдалбывание всего человечества, вероятно, не подходит. Но, как и всегда, проблема в том, чтобы ИИ было не наплевать. Сложность не в том, чтобы у где-то у него внутри него было какое-то понимание, что люди имеют в виду под «счастьем».1 Проблема в том, чтобы то, к чему ИИ стремится было этим понятием.
В принципе, вполне возможно вознаграждать ИИ, когда он делает людей счастливыми, отдельно научить что-то наблюдать мир и выяснять, что люди имеют в виду под «счастьем», и получить в итоге, что выученное-как-цель-оптимизации понятие окажется совершенно иным (в крайних случаях) от явного понимания ИИ того, что люди имеют в виду под «счастьем».
Да, это возможно даже несмотря на то, что вы в обоих случаях использовали слово «счастье».
(И это ещё допуская, что не будет проблем, описанных в (2). Скорее всего по умолчанию у ИИ не будет одного чистенького понятия альтернативного-«счастья», к которому он будет стремиться вместо «счастья». Вероятнее тысяча осколков желаний или что-то в этом роде.)
И меня несколько беспокоит, что если мы не обозначим явно различия этих проблем, то люди будут смотреть на весь кластер и говорить «а, это просто недостаток навыков; уж конечно, когда ИИ научится лучше понимать наши человеческие концепты, это её решит» или что-то в этом роде.
(Мне кажется, что это уже происходит по мере того, как люди приходят к вполне верному пониманию, что LLM, скорее всего, неплохо овладеют многими человеческими понятиями.)
Это кажется очевидным, но, думаю, стоит высказать это в явном виде.
Те из нас, кто знаком с областью ИИ после революции глубинного обучения, прекрасно понимают, что мы понятия не имеем, как работают наши ML-модели. Конечно, мы понимаем закономерности цикла обучения и свойства стохастического градиентного спуска, и мы знаем, как работают ML-архитектуры. Но мы н знаем, какие конкретные алгоритмы реализует конкретная ML-модель. У нас есть некоторые предположения, и кое-какие озарения уже были с большим трудом выкопаны в ходе исследований интерпретируемости, но у нас ничего хоть отдалённо похожего на полное понимание.
И уж точно мы не знаем, как работает свежеобученная модель только-что-из-цикла-обучения с новой архитектурой.
Мы привыкли к такому положению дел. Это подразумевается как общее фоновое знание. Но когда об этом узнаёшь впервые, это, на самом деле, довольно необычно.
И…
Релевантный XKCD.
Я довольно сильно уверен, что большинство людей этого на самом деле не знают. У меня нет конкретных данных, но на основе связанных с ИИ обсуждений в не-технических интернет-сообществах, разговорах с людьми, не интересующимися прогрессом в ИИ, и всякого такого1 у меня сложилось очень сильное впечатление, что это именно так.
Они всё ещё думают в терминах Старого Доброго Символьного ИИ. Они всё ещё верят, что вся функциональность ИИ была в него намеренно запрограммирована, а не обучена. Что за каждой способностью ChatGPT стоит человек, который её реализовал и её понимает.
Или, по крайней мере, что она записана в чётком виде, который люди могут прочитать и понять, и что мы можем туда вмешаться и совершить точные, предсказуемые поправки.
Опросы уже показывают беспокойство по поводу СИИ. Если тот факт, что мы не знаем, как эти системы на самом деле думают, был бы широко известным и в должной степени осознанным?Если бы не было неявного допущения, что «кто-то понимает, как это работает, и почему всё не может пойти катастрофически не так»?
Ну, я ожидаю, что беспокойства будет больше. Что может быть довольно хорошим подспорьем для дальнейшего продвижения регуляций ИИ. Способом накопить некоторый политический капитал, который затем можно будет тратить.
Так что, если вы общаетесь с публикой, я предлагаю включить в агенду распространение и этой информации. У вас есть около пяти слов (на сообщение), которые вы можете передать публике, и «Мощные ИИ – Это Чёрные Ящики», кажется, стоит передавать.2
Да, ML-модели не являются чёрными ящиками относительно СГС. Алгоритм может «видеть», как происходят все вычисления, и в них вмешиваться. Но это кажется очень неестественным применением этого термина, и я всё ещё думаю, что «ИИ – это чёрные ящики» передаёт правильные общие соображения.
Написано во время работы в PIBBSS1. Работа началась на грант от Lightspeed Grant и продолжилась в PIBBSS. Написано в сотрудничестве с Полом Рихтерсом, Лукасом Тейшейрой, Александром Гителинком Олдензилем, и Сарой Марзен. Пол обучался в MATS на протяжении некоторой части этой работы. Благодарю Пола, Лукаса, Александра, Сару и Гийома Корлуэра за замечания к посту.
Какую вычислительную структуру мы встраиваем в LLM, когда обучаем их предсказанию следующего токена? В этом посте мы представляем свидетельство того, что это структура задаётся мета-закономерностями обновления убеждений о скрытых состояниях генерирующего данные процесса. Мы испытываем энтузиазм по поводу этих результатов, потому что:
Тут должна быть анимация по этой ссылке. Надпись слева – «Теоретическое предсказание», справа – «Остаточный поток»
В этом посте мы представляем, что обучающие данные сгенерированы Скрытой Марковской Моделью (СММ)[^2]. У СММ есть множество скрытых состояний и переходы между ними. Каждому переходу приписано, с какой вероятностью при нём выводится какой токен. Вот несколько примеров СММ и данных, которые они генерируют:
Мы рассматриваем, как связан трансформер с СММ, которая произвела данные, на которых он обучался. Это весьма обобщённо – любой набор данных, который состоит из последовательностей токенов, можно отобразить как сгенерированый СММ. Давайте для теоретической части возьмём простую СММ, которую мы называем Z1R2 («zero one random»). Вот её структура:
У Z1R три скрытых состояния: S0, S1 и SR. Стрелка из Sx в Sy, над которой написано a:p% означает, что, если процесс находится в состоянии Sx, то вероятность перехода в Sy с выводом токена a равна p%. Таким образом, переходы между состояниями стохастически генерируют бинарную строку вида …01R01R…, где на место R каждый раз случайно с равной вероятностью выбирается 0 или 1.
Структура СММ не выдаётся напрямую данными, которые она сгенерировала. Представьте себе разницу между списком строк, которые выдаёт эта СММ (с приписанными вероятностями) и самой структурой3. У трансформера есть доступ только к строкам, которые выдаёт эта СММ, но не напрямую к информации о скрытых состояниях. Поэтому, чтобы выучить что-то, связанное с скрытой структурой, ему надо вывести её из обучающих данных.
Мы покажем, что когда они хорошо предсказывают следующий токен, трансформеры совершают больше вычислительной работы, чем вывод скрытого генерирующего данные процесса!
Естественное предположение – что трансформеры должны отображать в себе скрытую структуру генерирующего данные процесса (т.е., «мира»4). В нашем случае это были бы три скрытых состояния и вероятностные переходы между ними.
Это предположение часто всплывает (и становится объектом споров) в обсуждениях о то, обладают ли LLM «настоящим пониманием». Например, Илья Суцкевер говорил:
Если подумать об этом, что это значит – достаточно хорошо предсказывать следующий токен? Это на самом деле куда более глубокий вопрос, чем кажется. Хорошее предсказание следующего токена означает, что ты понимаешь реальность, которая лежит в основе, которая привела к появлению этого токена. Это не статистические закономерности. То есть, это статистические закономерности, но что такое статистические закономерности? Чтобы понимать эти закономерности и их сжимать, надо понимать, что это за мир, который создаёт такие закономерности.
Такое представление естественно, но не очень формализовано. Вычислительная Механика – это формализация, которую разработали, чтобы изучать пределы предсказаний хаотичных и других сложных-для-предсказания систем. Она расширилась до глубокой и строгой теории о вычислительных структурах любых процессов. Помимо прочих достижений, она получила строгий ответ на вопрос о том, какие структуры нужны для оптимальных предсказаний. Интересно, что Вычислительная Механика показывает, что предсказание значительно сложнее генерации. Получается, нам следует ожидать, что трансформер, обученный предсказывать следующий токен, должен обладать более сложной структурой, чем процесс генерации данных!
Но что это за структура конкретно?
Представим, что вы в точности знаете структуру СММ, которая выдаёт данные вида …01R…. Вы ложитесь спать, потом просыпаетесь и видите, что СММ выдаёт 1. В каком она теперь состоянии? Сгенерировать 1 можно и из детерминированного перехода S1–>Sr, и из стохастического перехода Sr–>S0 с вероятностью в 50%. Так как детерминированный переход вдвое вероятнее выдаёт 1, лучшее, что вы можете – это заполучить убеждение-распределение о нынешнем состоянии СММ, в нашем случае это будет P([S0,S1,SR])=[13,0,23]5.
1 | 1 | 0 | 1… | ||
P(S0) | 1/3 | 1/3 | 1 | 0 | 0 |
P(S1) | 1/3 | 0 | 0 | 1 | 0… |
P(SR) | 1/3 | 2/3 | 0 | 0 | 1… |
Пусть после этого вы увидели, как СММ вывела ещё одну 1, так что вместе получается 11. Вы можете взять своё предыдущее убеждение о состоянии СММ (априорное распределение) и своё знание о структуре HMM вместе с выводом, который вы только что видели (соотношение вероятностей), чтобы вычислить новое убеждение (апостериорное распределение). Упражнение для читателя: каким уравнением описывается обновление состояния убеждений, если даны предыдущее состояние убеждений, наблюдаемый токен и матрица перехода СММ, которая выдаёт эти токены?6 В нашем случае есть только один способ, которым СММ может сгенерировать 11 – S1–>SR–>S0, так что вы точно знаете, что СММ теперь в состоянии S0. С этих пор каждый раз, когда вы будете видеть новый символ, вы будете точно знать, в каком состоянии СММ. Мы будем говорить, что вы синхронизировались с СММ.
В общем случае по мере того, как вы наблюдаете всё больше данных, которые сгенерировала СММ, вы постоянно обновляете своё убеждение о состоянии СММ. Даже в этом простом примере у этих обновлений есть нетривиальная структура. Например, двух выводов не всегда хватает, чтобы синхронизироваться с СММ. Если бы вместо 11… вы увидели 10…, вы бы не синхронизировались, потому что есть два разных способа, которыми СММ могла сгенерировать 10.
Структура обновления убеждений задаётся Представлением Смешанных Состояний.
Генерирующий данные процесс – СММ – в каждый конкретный момент находится в скрытом состоянии, а затем, выводя символ, переходит в другое скрытое состояние. Заметим, что аналогично ведёт себя и ваше убеждение об этом процессе при условии получения нового вывода. Вы находитесь в некотором состоянии убеждений, а затем, в зависимости от полученного вывода СММ, переходите в некоторое другое состояние убеждений.
Процесс генерации данных | Процесс обновления убеждений | |
Состояния принадлежат | Генерирующий данные механизм | Наблюдатель выводов процесса генерации данных |
Состояния | Множества последовательностей, определённым образом ограничивающие будущее | Убеждения наблюдателя о состоянии процесса генерации данных |
Последовательности скрытых состояний выводят | Разрешённые последовательности токенов | Разрешённые последовательности токенов |
Интерпретация вывода | Наблюдения/токены, которые выдаёт процесс генерации данных | Что наблюдатель видит из процесса генерации данных |
Мета-закономерности обновления состояний убеждений формально представляют из себя другую СММ, где скрытые состояния – ваши состояния убеждений. Эта мета-структура в Вычислительной Механике называется Представлением Скрытых Состояний (ПСС).
Заметим, что у ПСС есть переходные состояния (выше зелёные), которые ведут к повторяющемуся набору состояний убеждений, изоморфному генерирующему данные процессу. Это всегда так, хотя переходных состояний может быть бесконечно много. Синхронизация – это процесс движения через переходные состояния, сходящийся к генерирующему данные процессу.
Вычислительная Механика учит, что чтобы оптимально предсказывать следующий токен на основании конечной истории вывода токенов, надо реализовать Представление Смешанных Состояний (ПСС). То есть, чтобы хорошо предсказывать следующий токен, надо как можно лучше понимать, в каком состоянии находится генерирующий данные процесс, а для этого нужно ПСС.
С ПСС ассоциировано геометрическое представление, которое получается, если отметить значения состояний убеждений на симплексе. В общем случае, если наш генерирующий данные процесс имеет N состояний, распределения вероятностей на этих состояниях будут иметь N−1 степень свободы, потому что все вероятности должны быть между 0 и 1 [от переводчика: и суммироваться в единицу, это тоже важно, почему-то это не сказали]. Так что все возможные распределения вероятностей лежат на N-1-мерном симплексе. В случае Z1R это 2-симплекс, то есть, треугольник. Мы можем отобразить все возможные состояния на этот 2-симплекс, как показано ниже.
Мы обучили трансформер предсказывать следующий токен данных, сгенерированных СММ с тремя состояниями. Мы смогли найти линейное отображение геометрии ПСС в остаточном потоке. Это удивительно! Заметим, что точки на симплексе, состояния убеждений, это не вероятности, каким будет следующий токен. На самом деле, некоторым точкам тут соответствуют абсолютно одни и те же предсказания следующего токена. В частности, в нашем примере, η10, ηS, and η101 соответствуют одним и тем же оптимальным предсказаниям следующего токена.
Другой способ об этом думать: трансформеры отслеживают различия в ожидаемых распределениях на всё будущее, за пределами различий в предсказании следующего токена, хоть их в явном виде и обучают предсказанию следующего токена! Это означает, что трансформер хранит больше информации, чем необходимо только для локального предсказания следующего токена.
Ещё один способ думать о нашем утверждении: трансформеры совершают два вида рассуждений: одни выводят структуру процесса, который генерирует данные, а другие, мета-рассуждения, обновляют его внутреннее убеждение о том, в каком состоянии этот процесс находится, основываясь на некоторой конечной истории (т.е., контекстном окне).
Последняя теоретическая заметка о Вычислительной Механике и представленной тут теории, так как Вычислительная Механика – хорошо проработанный с чистого листа подход, который не зависит от конкретики архитектуры трансформера, мы можем применить его к любому оптимальному предсказателю, не только трансформерам.7
Повторим вопрос, на который мы пытаемся ответить:
Какую вычислительную структуру мы встраиваем в LLM, обучая их предсказывать следующий токен?
Для проверки наших теоретических предсказаний мы спланировали эксперимент с такими шагами:
Контроль структуры обучающих данных при помощи использования СММ, позволил нам сделать конкретное фальсифицируемое предсказание о вычислительной структуре, которая должна быть реализована в рассуждениях трансформера. Вычислительная Механика, как описано в разделе «Теоретическая База» выше, даёт способ совершать такие предсказания, основываясь на структуре СММ.
Конкретной СММ, которую мы выбрали, соответствует ПСС с бесконечно-фрактальной геометрией. Это даёт нам весьма нетривиальное предсказание о том, обнаружения чего следует ожидать в активациях остаточного потока трансформера, если наша теория верна.
Для этого эксперимента мы обучили трансформер на данных, сгенерированных простой ПСС под названием Mess3 с всего 3 скрытыми состояниями8. многократные переходы между этими состояниями генерируют строки, состоящие из токенов из множества {A, B, C}. СММ этого процесса изображена слева на рисунке ниже.
(Слева) Генерирующий данные процесс имеет три скрытых состояния и выводит строки-данные со словарём {A, B, C}. (Снизу) Пути по этой структуре генерируют строки для обучающих данных из токенов, приписанных к рёбрам, по которым эти пути проходят. Мы используем эти данные для обучения на них трансформера. (Справа) Соответствующая Mess3 ПСС – внутренние состояния системы, которая предсказывает будущие токены, которые выдаст генерирующий данные процесс, при условии наблюдения предыдущих токенов. Точки в этом пространстве соответствуют распределениям вероятностей скрытых состояний генерирующего данные процесса. Они лежат на двумерной плоскости, потому что пространство распределений вероятностей трёх вариантов двумерно. Важно, что эта структура – не структура предсказания следующего токена! Это мета-структура того, как обновляются убеждения наблюдателя о скрытых состояниях генерирующего процесса! Центральная точка треугольника соответствует максимальной неуверенности по поводу трёх скрытых состояний, а углы – полной уверенности в одном из них. Цвета присвоены сопоставлением вероятности каждого состояния одного из значений RGB.
Наш подход позволил нам совершить строгое и тестируемое предсказание о внутренней структуре трансформеров. В случае этой СММ, теория (обрисованная выше) заявляет, что обученный на этих данных трансформер должен реализовывать вычислительную структуру, ассоциированную с фрактальной геометрией, показанной справа на рисунке выше. Каждая цветная точка этого симплекса – отдельное состояние убеждений.
Мы выбрали СММ Mess3, потому что его ПСС обладает бесконечной фрактальной структурой, так что может послужить весьма нетривиальным предсказанием о том, какую геометрию мы обнаружим в остаточном потоке.
Мы обучили трансформер на данных, которые сгенерировала Mess3. Мы посмотрели на последний слой остаточного потока и нашли линейное двумерное подпространство, в котором активации обладали весьма похожей на наш предсказанный фрактал структурой. Мы сделали это при помощи обычной линейной регрессии от активаций остаточного потока (64-мерных векторов) к распределениям-убежденям (трёхмерным векторам), которые соответствуют им в ПСС.
(Слева) Наше предсказание внутренней геометрии обученного трансформера, то же, что и на предыдущем рисунке. (Справа) Результаты эксперимента. Мы нашли двумерную линейную проекцию активаций последнего слоя остаточного потока нашего обученного трансформера, геометрия которой схожа с нашим теоретическим предсказанием! Цвета присвоены согласно идеально верному распределению вероятностей (как показано слева).
Можно посмотреть и на то, как эта структура возникает при обучении. Это показывает (1) что найденная структура нетривиальна9, ведь на ранних этапах обучения она не столь подробна, и (2) что происходит постепенная подгонка активаций трансформера к предсказанной нами фрактальной структуре.
По ходу обучения видно оформление внутренних активаций остаточного потока трансформера в фрактальную геометрию, которую предсказал наш подход.
Можно посмотреть визуализацию на этом видео. Для обучения мы использовали стохастический градиентный спуск, поэтому двумерная проекция активаций подрагивает даже после того, как обучение уже сошлось. Можно видеть, что при подрагивании фрактальная структура остаётся.
Нижеследующее – вымышленный диалог, основанный на Безопасность ИИ: Почему это сложно, и где начать.
(ЭМБЕР, филантроп, заинтересованная в более надёжном Интернете, и КОРАЛ, профессионал в области компьютерной безопасности, находятся на конференции и обсуждают, как настаивает КОРАЛ, сложную и важную проблему: трудности создания «надёжного» софта.)
ЭМБЕР: Итак, КОРАЛ, я так понимаю, ты считаешь, что очень важно при создании софта сделать, чтобы он был, как ты это называешь, «надёжным».
КОРАЛ: Особенно, если он соединён с Интернетом, или если он контролирует деньги или что-то ещё ценное. Но да, верно.
ЭМБЕР: Мне сложно поверить, что это должно быть отдельной темой в информатике. В общем случае программистам надо разобраться, как заставить компьютеры сделать то, что они хотят. Создатели операционных систем уж точно не хотят, чтобы те предоставляли доступ кому не надо, точно так же, как они не хотят, чтобы компьютеры зависали. Почему одна задача настолько сложнее другой?
КОРАЛ: Это глубокий вопрос, вот частично глубокий ответ: Когда ты соединяешь устройство с Интернетом, ты потенциально сталкиваешь его с умными противниками, которые могут обнаружить специальные странные способы взаимодействия с системой, которые заставят её части вести себя странным образом, о котором программисты не задумывались. Когда ты решаешь проблемы такого вида, ты используешь другой набор методов и инструментов.
ЭМБЕР: Любая зависающая система ведёт себя так, как этого не ожидал программист, и программистам уже надо такое предотвращать. Чем отличается этот случай?
КОРАЛ: Окей, так… представь, что твоя система собирается принимать один килобайт ввода за сессию. (Хотя это уже тот род допущений, в котором мы бы засомневались, и спросили бы, что произойдёт, если она получит вместо этого мегабайт ввода – но забей.) Если размер ввода – один килобайт, то разных возможных вводов 28,000, что-то около 102,400. Опять же, для простой визуализации, представь, что компьютер получает миллиард вводов в секунду. Предположим, что только гугол, 10100, из всех 102,400 возможных вводов, приводит к тому, что система ведёт себя не входившим в намерения проектировщика способом.
Если система получает вводы способом, не коррелирующим с тем, неправильно ли она себя ведёт при их получении, то она не придёт в неправильное состояние до конца вселенной. С другой стороны, если есть умный противник, который понимает систему, то он может быть способен найти один из тех редких вводов, из-за которых система ведёт себя неправильно. Так что часть системы, которая не вела бы себя неправильно буквально никогда за миллион лет получения случайных вводов, может сломаться, когда умный противник намеренно пытается её сломать.
ЭМБЕР: Так ты говоришь, что это сложнее, потому что программист сталкивает свою сообразительность с противником, который может оказаться умнее.
КОРАЛ: Это почти-правильная формулировка. Важен не столь «противник», сколько оптимизация. Есть систематические неслучайные силы, сильно отбирающие конкретные исходы, из-за которых части системы идут странными путями исполнения и приходят в неожиданные состояния. Если твоя система буквально не имеет неправильных состояний, то то, что у тебя IQ 140, а у противника IQ 160, не имеет значения – это не соревнование по армрестлингу. Просто создать систему, которая не приходит в странные состояния, когда эти состояния специально отбираются, куда сложнее, чем если они происходят только случайно. Отбирающие-странность силы могут проводить поиск по большему пространству состояний, чем ты можешь себе представить. Преодоление этого требует новых навыков и иного режима мышления, того, что Брюс Шнайер назвал «мышлением безопасника».
ЭМБЕР: О, и что это за мышление безопасника?
КОРАЛ: Я могу рассказать пару вещей про это, но держи в голове, что мы тут имеем дело с не полностью передаваемым качеством мышления. Если бы я могла выдать тебе пару банальностей про мышление безопасника, и после этого ты и вправду могла бы проектировать безопасный софт, то Интернет выглядел бы совсем не так, как он выглядит на самом деле. С учётом этого, мне кажется, что то, что называют «мышлением безопасника» можно разделить на два компонента, один из которых куда проще другого. И это может привести к тому, что люди переоценивают свою собственную надёжность, потому что поняли более простую часть и проигнорировали более сложную. Более простую часть я буду называть термином «обыденная паранойя».
ЭМБЕР: Обыденная паранойя?
КОРАЛ: Многие программисты обладают способностью представлять себя противников, которые пытаются им угрожать. Они представляют, насколько вероятно, что противники способны атаковать определённым образом, а затем они пытаются заблокировать этот способ. Представлять атаки, включая странные или умные, и парировать их мерами, которые, по твоему представлению, остановят атаку – это обыденная паранойя.
ЭМБЕР: Не в этом ли вся компьютерная безопасность? Что, же, по твоему мнению, другая часть?
КОРАЛ: Формулируя банально, надо сказать… это защита от ошибок в твоих собственных допущениях, а не от внешних противников.
ЭМБЕР: Можешь привести пример разницы?
КОРАЛ: Обыденно-параноидальный программист представляет, что противник может попробовать прочитать файл, содержащий все имена пользователей и пароли. Он может попробовать хранить файл в специальной защищённой области диска или специальном разделе операционной системы, предназначенном для усложнения доступа. Напротив, кто-то с мышлением безопасника в такой ситуации думает «Независимо от того, какую специальную систему я построю вокруг этого файла, меня беспокоит нужда делать допущение, что файл нельзя прочитать. Может оказаться, что специальный написанный мной код, раз он реже используется, с большей вероятностью содержит баги. Или, может быть, есть способ вытянуть данные с диска, вообще не проходя через написанный мной код.»
ЭМБЕР: И представляет больше и больше способов, которыми противник может добраться до информации, и блокирует и их! Потому что обладает воображением получше.
КОРАЛ: Ну, это да, но это не ключевая разница. Чего действительно хочется, это чтобы способ, которым компьютер проверяет пароли, не полагался на то, что компьютер вообще их хранит, хоть где-нибудь.
ЭМБЕР: А, вроде шифрования файла с паролями!
КОРАЛ: Нет, это просто отодвигает проблему на один шаг. Если компьютер может расшифровать пароль, чтобы его проверить, значит он где-то хранит ключ для расшифровки, и атакующий может выкрасть и его.
ЭМБЕР: Но тогда ему понадобится выкрасть две вещи вместо одной; не делает ли это систему надёжнее? Особенно, если ты напишешь два отдельных кода для файловой системы: чтобы хранить ключ и чтобы хранить зашифрованные пароли?
КОРАЛ: Это в точности то, что я имела в виду, отделяя «обыденную паранойю» от полноценного мышления безопасника. Пока система способна восстановить пароль, мы всегда будем беспокоиться, что противник может быть способен обхитрить систему, чтобы она это сделала. То, что кто-то с мышлением безопасника поcчитает более глубоким решением – это хранить односторонний хэш пароля вместо самого пароля. Тогда даже если атакующий прочитает файл с паролями, это всё ещё не даст ему возможности выдать системе то, что она распознает как пароль.
ЭМБЕР: А, довольно умно! Но я не вижу качественной разницы между этим способом и моим способом прятать ключ и зашифрованный файл отдельно. Я согласна, что твой способ умнее и элегантнее, но, конечно, ты знаешь более хорошие стандартные решения, чем я, потому что ты профессионально работаешь в этой области. Я не вижу линии качественного разделения между твоим и моим решением.
КОРАЛ: Эм, это сложно сказать, никого не оскорбив, но… возможно, что даже после того, как я попытаюсь объяснить разницу, а я собираюсь это сделать, ты не поймёшь. Как я уже говорила, если бы я могла выдать тебе пару удобных банальностей и преобразовать тебя в кого-то, способного по-настоящему хорошо справляться с компьютерной безопасностью, то Интернет выглядел бы совсем по-другому. Я могу попробовать описать один аспект разницы, но это может поставить меня в позицию математика, пытающегося объяснить, какой путь доказательства выглядит перспективнее; ты можешь услышать всё, что он скажет и согласно покивать, но это не превратит тебя в математика. Так что я собираюсь попробовать объяснить разницу, но опять же, я не знаю простых инструкций того, как стать Брюсом Шнайером.
ЭМБЕР: Признаю, я ощущаю некоторый скептицизм по поводу этой предположительно непередаваемой способности, которой некоторые люди обладают, а некоторые нет–
КОРАЛ: Такое есть во многих профессиях. Некоторые люди въезжают в программирование в пять лет, поглядев на страницу программ на BASIC, написанных для TRS-80, а некоторые сталкиваются с большими трудностями, пытаясь освоить основы Python в двадцать пять. Это не потому, что есть некая загадочная истина, которую пятилетний знает, и которую можно вербально передать двадцатипятилетнему.
И да, пятилетний станет куда лучше с практикой; мы не говорим о необучаемых гениях. И вполне могут быть некоторые банальности, которые ты можешь сказать двадцатипятилетнему, которые упростят ему задачу. Но иногда профессия требует необычного способа мышления, и разум некоторых людей проще сворачивает в этом конкретном направлении.
ЭМБЕР: Хорошо, продолжай.
КОРАЛ: Окей, итак… твоя мысль поместить файл с зашифрованными паролями в одно специальное место, а ключ в другое специальное место. Почему бы не зашифровать ещё и ключ, написать третий специальный кусок кода, и хранить ключ к зашифрованному ключу в третьем специальном месте? Не сделает ли это систему ещё надёжнее? Как насчёт семи ключей, спрятанных в семи разных местах. Не было бы это особо надёжно? Даже практически невзламываемо?
ЭМБЕР: Ну, это версия идеи ощущается немного глупой. Если ты пытаешься запереть дверь, то замок, требующий двух ключей может быть надёжнее, чем замок, требующий всего одного ключа, но кажется, что семь ключей не сделают дверь намного надёжнее, чем два.
КОРАЛ: Почему нет?
ЭМБЕР: Это просто кажется глупым. Наверное, у тебя есть более хороший способ сформулировать это, чем могу я.
КОРАЛ: Ну, красивый способ описать, почему это глупо – это то, что шанс заполучить седьмой ключ не является независимым от шанса получения первых двух. Если я могу прочитать зашифрованный файл с паролем, и могу прочитать твой зашифрованный ключ, то скорее всего у меня есть что-то, обходящее твою файловую систему и читающее напрямую с диска. И чем сложнее ты делаешь свою файловую систему, тем вероятнее, что я смогу найти странное её состояние, которое позволит мне это сделать. Может, специальный раздел кода файловой системы, который ты написала, чтобы спрятать четвёртый ключ, содержит баг, который позволяет мне напрямую читать диск.
ЭМБЕР: Так разница в том, что человек с настоящим мышлением безопасника найдёт защиту, которая сделает систему проще, а не сложнее.
КОРАЛ: Опять же, почти правильно. Хэшируя пароли, профессионал по безопасности упрощает свои рассуждения о системе. Убирается нужда в допущении, которое может находится под большим давлением. Если ты поместишь ключ в одном специальном месте, а зашифрованный файл с паролями в другом специальном месте, тот вся система в целом всё ещё способна расшифровать пароль пользователя. Противник, исследующий пространство состояний, может быть способен вызвать это состояние расшифровки-пароля, потому что система спроектирована так, чтобы хотя бы в некоторых обстоятельствах это делать. Хэшируя пароль мы избавляемся от этого внутреннего противоречия в рассуждениях, на которых основана надёжность системы.
ЭМБЕР: Но даже после того, как ты используешь этот хитрый трюк, что-то всё равно может пойти не так. Всё ещё нет абсолютной надёжности. Что если кто-то использует «пароль» в качестве своего пароля?
КОРАЛ: Или что если кто-то найдёт способ считать пароль после того, как пользователь его ввёл, пока он сохранён в оперативной памяти, потому что что-то даёт к ней доступ? Суть избавления от дополнительных допущений о надёжности системы не в том, что мы получаем абсолютную надёжность и можем расслабиться. Обладатель мышления безопасника никогда не может быть настолько спокоен касательно своих рассуждений, заявляющих, что система надёжна.
С другой стороны, пока некоторые обычные программисты, занимающиеся обычным программированием, могут приложить некоторые усилия по отладке, и чувствовать, что этого достаточно, что они сделали всё, что осмысленно сделать, программисты с приличным уровнем обыденной паранойи будут продолжать обдумывать идеи, стоя под душем, и приходить к новым тестам, которые должна проходить система. Так что разделение между мышлением безопасника и обыденной паранойей не в том, что обыденные параноики расслабятся.
Это… опять же, оформляя это как банальность, обыденный параноик затыкает все дыры, через которые он может представить, что атакует противник, а кто-то с мышлением безопасника защищается скорее от «что, если элемент этого рассуждения ошибочен?». Вместо того, чтобы очень сильно пытаться удостовериться, что никто не сможет прочитать диск, мы создадим систему, которая будет надёжной даже если кто-то прочитал диск, и это – наша первая линия обороны. Затем мы также создадим и файловую систему, которая не позволит противникам прочитать файл с паролями, как вторую линию обороны на случай, если наш односторонний хэш сломан, и потому что ни у кого нет нужды позволять противникам читать диск, так что и не надо им этого позволять. И затем мы ещё и посолим хэш на случай, если кто-то применил низкоэнтропийный пароль, а противник всё же смог прочитать файл.
ЭМБЕР: То есть кто-то с настоящим мышлением безопасника пытается скорее не перехитрить противников, а сделать меньше допущений.
КОРАЛ: Ну, мы думаем и о противниках! Рассуждению о противниках проще обучить, чем мышлению безопасника, но оно всё же (а) обязательно и (б) сложно для обучения в абсолютном смысле. Многие не могут его освоить, поэтому рассуждения о «мышлении безопасника» часто открываются с истории о том, как кто-то провалил рассуждение о противниках, и кто-то другой провёл умную атаку, прошедшую через возведённую защиту.
Надо освоить два способа думать, и есть много народу, освоившего первый, но не второй. Один из способов описать более глубокий навык – это умение видеть, что надёжность системы основывается на истории о том, почему она надёжна. Мы хотим, чтобы эта история была настолько достоверна, насколько это возможно. Одно из следствий – надо основывать историю на как можно меньшем количестве допущений; как говорят, единственная шестерня, которая никогда не подведёт – та, которую выкинули из проекта механизма.
ЭМБЕР: Но разве нельзя получить лучший уровень надёжности, ещё и добавляя больше линий обороны? Не увеличивает ли это сложность истории, но и уровень надёжности?
КОРАЛ: Тут можно кое-что сказать о предпочтении в истории-надёжности дизъюнктивных рассуждений над конъюнктивными. Но важно осознать, что то, чего хочется на самом деле – это основная линия обороны, которая должна просто работать и быть непроницаемой, не набор слабеньких заборов, которые, ты думаешь, что может быть сработают. Кто-то, кто не понимает криптографию, может составить двадцать умно-выглядящих новичковых шифров и применить их по очереди, думая, что даже если какой-то один окажется взламываемым, то уж точно не все. Тогда АНБ передаст этот могучий заслон новичкового шифрования стажёру, и стажёр взломает его за вечер.
Есть что сказать и про избыточность, и про запасные планы, на случай, если неприступная стена падёт; может быть мудро иметь дополнительные линии обороны, пока добавленная сложность не делает большую систему сложной для понимания и не увеличивает её уязвимую поверхность. Но в основе тебе нужна простая надёжная история о том, почему система надёжна, и хороший безопасник попробует избавиться от допущений, на которых стоит эта история, и усилить её основания, не только заблокировать ожидаемые атаки и предотвратить видимые риски.
Но, конечно, лучше использовать два истинных допущения, чем одно ложное, так что простота – не всё.
ЭМБЕР: Интересно, имеет ли этот вид мышления приложения за пределами компьютерной безопасности?
КОРАЛ: Думаю, да, как и намекает метафора про шестерёнки.
К примеру, немного выйду из образа персонажа, автор этого диалога несколько известен за обсуждения задачи согласования Сильного Искусственного Интеллекта. Он как-то говорил о попытках измерить скорость усовершенствований внутри растущей ИИ-системы, чтобы она не думала слишком много минуя людей, если в ней произошёл прорыв, пока она была запущена на ночь. Человек, с которым он говорил, ответил, что кажется маловероятным, что СИИ наберёт силу настолько быстро. На что автор ответил примерно это:
Не должно быть твоим делом предполагать, насколько быстро СИИ может улучшаться! Если ты написал систему, которая повредит тебе, если некоторая скорость самоулучшения окажется возможной, то ты написал неверный код. Код просто должен никогда тебе не повредить, независимо от истинного значения этого фонового параметра.
Лучшим способом настроить СИИ было бы измерять то, насколько он усовершенствовался, и если более, чем на X, то приостановить систему, пока программист не проверит уже произошедший прогресс. Тогда даже если улучшение произошло за миллисекунду, то всё в порядке, пока система работает как предполагается. Может, система не работает, как предполагается из-за какой-то другой ошибки, но лучше волноваться об этом, чем о системе, которая повредит тебе даже если она работает как предполагается.
Аналогично, ты хочешь спроектировать систему так, что если она откроет новые восхитительные способности, то она подождёт оператора, чтобы тот разрешил их использование – не полагаться на то, что оператор увидит, что происходит и нажал кнопку остановки. Тебе не следует полагаться на то, что время открытия или время катастрофы будут не меньше времени реакции оператора. Нет нужды принимать такое допущение, если ты можешь спроектировать всё так, чтобы система была надёжной и без него. К примеру, оперируя парадигмой дозволения методов из белого списка оператора, а не запрета методов из чёрного списка; требуя, чтобы оператор сначала сказал «Да», а не предполагая, что оператор на месте, обращает внимание, и может сказать «Нет» достаточно быстро.
ЭМБЕР: Ну, окей, но если мы защищаемся от ИИ-системы, открывающей космическую мощь за миллисекунду, это кажется мне не особо осмысленным беспокойством. Думаю, это отмечает меня как лишь обыденного параноика.
КОРАЛ: В самом деле, один из отличительных признаков специалистов по безопасности – это что они тратят много времени на беспокойство о крайних случаях, которые не тревожат обыденного параноика, потому что они не звучат как то, что противник, вероятно, сделает. Вот пример из блога «Freedom to Tinker»:
Этот интерес в «безвредных провалах» – случаях, когда противник может вызвать аномальный, но не напрямую вредный исход – другой характеристический признак мышления безопасника. Не все «безвредные провалы» приводят к большим проблемам, но удивительно, насколько часто умный противник может сложить набор кажущихся безвредными ошибок в опасную башню проблем. Безвредные провалы – плохая гигиена. Мы стараемся по возможности их искоренять…
Чтобы увидеть, почему, рассмотрим недавно пробежавшуюся по прессе историю с е-мейлами donotreply.com. Когда компании посылают коммерческий e-mail, и не хотят, чтобы получатель на него ответил, они зачастую используют в качестве адреса отправителя заглушку вроде donotreply@donotreply.com. Умный парень зарегистрировал домен donotreply.com и стал получать все е-мейлы, адресованные туда. Это включало «отражённые» ответы на е-мейлы, посланные по неправильному адресу, некоторые из которых содержали копии оригинального письма, с информацией вроде реквизитов банковских аккаунтов, информации о военных базах в Ираке, и так далее…
Люди, поместившие адрес donotreply.com в свои письма, должны были знать, что они не контролируют домен donotreply.com, так что, должно быть, они подумали об ответных письмах, направленных туда, как о безвредном провале. Зайдя так далеко, есть два способа избежать проблем. Первый – тщательно подумать о траффике, который может отправиться к donotreply.com, и осознать, что его часть может быть опасной. Второй способ – подумать: «Это кажется безвредным провалом, но стоит всё равно его избежать. Ничего хорошего из него не выйдет.» Первый способ защитит вас, если вы умны, второй защитит всегда.
«Первый способ защитит вас, если вы умны, второй защитит всегда.» Это, в общем-то, вторая половина мышления безопасника. Это то, что имел в виду автор эссе, говоря о согласовании СИИ, построенном на белом списке, а не на чёрном: не следует предполагать, что вы достаточно умно подумали о том, как быстро СИИ-система может открывать способности, вам следует иметь систему, которая не будет использовать пока что не внесённые в белый список способности, даже если они открыты очень внезапно.
Если ваш СИИ повредил бы вам, если бы получил тотальную космическую мощь за миллисекунду, это означает, что вы создали когнитивный процесс, который в каком-то смысле пытается вам навредить, и не делает это только из-за нехватки способностей. Это очень плохо, и вам следует проектировать какую-то другую СИИ-систему. СИИ-система должна никогда не выполнять поиск, который вам навредит, если вернёт непустой результат. Вам не следует пытаться исправить это, удостоверяясь, что поиск вернёт пустой результат благодаря вашим умным защитам, отрезающим от СИИ умные способы вам навредить. Вам следует исправить это, удостоверившись, что такой поиск никогда не будет запущен. Глупо тратить на такое вычислительную мощность, стоит потратить её на что-то другое.
Возвращаясь к обычной компьютерной безопасности, если вы пытаетесь создать замок с семью ключами, спрятанными в разных местах, то вы в некотором роде выставляете свой ум против ума противника, пытающегося прочесть ключи. Обладатель мышления безопасника не хочет полагаться на то, что он выиграет состязание умов. Обыденный параноик, кто-то, кто может освоить тот вид паранойи-по-умолчанию, которой обладают многие умные программисты, посмотрит на donotreply@donotreply.com в поле «Отправитель» и подумает о том, что противник может зарегистрировать домен donotreply.com. Кто-то с мышлением безопасника подумает скорее о допущениях, а не о противниках, и подумает: «Ну, я предполагаю, что этот ответный е-мейл отправится в никуда, но, может, мне стоит спроектировать систему так, чтобы мне не надо было беспокоиться о том, и правда ли это так.»
ЭМБЕР: Потому что настоящий великий параноик знает, что то, что выглядит как смехотворно маловероятный способ атаки, иногда в конце концов оказывается не таким уж смехотворным.
КОРАЛ: Опять же, это не идеально правильная формулировка. Когда я не делаю так, чтобы е-мейл исходил из donotreply@donotreply.com, это не просто потому, что я оцениваю вероятность того, что противник зарегистрирует donotreply.com выше, чем представляет новичок. Насколько мне известно, если отражённый е-мейл послан в никуда, то может произойти всё что угодно! Может, это работает так, что е-мейл перенаправляется в странные места в поисках правильного адреса. Я не знаю, и я не хочу быть обязана это изучать. Вместо этого я спрашиваю себя: могу ли я сделать так, чтобы отражённый е-мейл не генерировался? Могу ли я сделать, чтобы он не содержал текста оригинального сообщения? Может, я могу запрашивать сервер электронной почты, чтобы удостовериться, что адрес верный, прежде, чем посылать сообщение? – хотя ещё могут быть автоматические ответы «я в отпуске», так что лучше я сама буду контролировать адрес отправителя. Если может быть очень плохо, что кто-то неавторизированный это прочитал, может это не стоит отправлять прямым текстом через е-мейл.
ЭМБЕР: То есть человек с настоящим мышлением безопасника понимает, что там, где есть одна проблема, продемонстрированная, как кажется, очень маловероятным мысленным экспериментом, могут быть и более реалистичные проблемы, которые противник действительно может использовать. То, что я считаю странными невероятными сценариями провала – это канарейки в угольной шахте, предупреждающие кого-то по-настоящему параноидального о более серьёзных проблемах.
КОРАЛ: Опять же, это не в точности верно. Человек с обыденной паранойей услышав про donotreply@donotreply.com может подумать что-то вроде «О, ну, не особо вероятно, что атакующий действительно зарегистрирует это домен. У меня есть более срочные проблемы, чтобы о них беспокоиться», потому что в этом режиме мышления он оббегает места, где может быть пожар, и вынужден приоритезировать те, где он более вероятен.
Если вы продемонстрируете странный мысленный эксперимент о крайнем случае кому-то с мышлением безопасника, то он не подумает, что там вероятнее проблемы. Он подумает: «О нет, моё убеждение, что отражённые е-мейлы идут в никуда было ЛОЖНЫМ!» Проект OpenBSD по созданию надёжной операционной системы также, по ходу дела, создал крайне устойчивую операционную систему, потому что по их точке зрения любой баг, потенциально приводящий к вылету системы, считался критической дырой в безопасности. Обыденный параноик видит ввод, который приводит к выводу системы и думает: «Вылет – это не так плохо, как если бы кто-то украл мои данные. Если ты не продемонстрируешь мне, как этот баг может быть использован противником, чтобы украсть данные, он не особо критичен». Кто-то с мышлением безопасника думает «Ничто внутри этой подсистемы не должно вести себя так, чтобы ОС вылетала. Какой-то раздел кода ведёт себя не так, как моя модель этого кода. Кто знает, что таам происходит? Система не должна вылетать, так что её вылет демонстрирует, что мои убеждения о том, как она работает, ошибочны.»
ЭМБЕР: Буду честна. Бывало, что меня поражало, что люди, называющие себя профессионалами в области безопасности, казались очень обеспокоенными тем, что для меня казалось крайне маловероятными сценариями. Вроде того, что кто-то забудет проверить конец буфера, а противник вкинет туда длинную строку символов, которые перепишут конец стека адресом возврата и перепрыгнут в раздел кода где-то ещё в системе, делающий то, что нужно противнику. Насколько вероятно, что это действительно будет проблемой? Я подозреваю, что в реальном мире куда вероятнее, что кто-то назначит своим паролем «пароль». Не следует ли скорее защищаться от этого?
КОРАЛ: Нужно делать и то, и то. В этой игре нет утешительных призов. Если ты хочешь, чтобы твоя система выдерживала атаку со стороны государств, тебе нужно действительно сделать её чертовски надёжной. Тот факт, что некоторые пользователи могут попробовать назначить своим паролем «пароль» не отменяет того факта, что нужно защищаться и от переполнений буфера.
ЭМБЕР: Но даже когда операционную систему проектирует кто-то с мышлением безопасника, всё равно зачастую в конце концов её успешно атакуют, верно? Так если эта глубокая паранойя не искореняет вероятность багов, то стоит ли она на самом деле дополнительных усилий?
КОРАЛ: Если созданием твоей операционной системы не руководит кто-то, думающий таким образом, то у неё нет шансов на то, что она не провалиться немедленно. У людей с мышлением безопасника иногда не получается создать надёжную систему. У людей без мышления безопасника никогда не получается создать надёжную систему, если она хоть сколько-нибудь сложна. Этот тип мышления даёт тебе шанс на то, что система простоит больше суток, пока её не взломают.
ЭМБЕР: Звучит довольно радикально.
КОРАЛ: История показывает, что реальность не волнует, что ты считаешь «радикальным», и поэтому твои лампочки с доступом к Wi-Fi – часть русского ботнета.
ЭМБЕР: Смотри, я понимаю, что тебе хочется, чтобы все крохотные кусочки системы были в точности правильными. Мне тоже нравятся чистые изящные штуки. Но давай будем рассудительнее; мы не всегда получаем что хотим.
КОРАЛ: Ты думаешь, что торгуешься со мной, но на самом деле ты торгуешься с законом Мёрфи. Я боюсь, что мистер Мёрфи на самом деле не слишком рассудителен в своих запросах и довольно непростителен по отношению к тем, кто отказывается их выполнять. Я не агитирую тебя за план действий, просто рассказываю тебе, что произойдёт, если ты не будешь ему следовать. Может, ты думаешь, что не особо плохо, если твоя лампочка выполняет DoS-атаку на магазин матрасов в Эстонии. Но если ты хочешь, чтобы система была надёжной, то надо делать некоторые вещи, и это скорее закон природы, чем требование, по которому можно торговаться.
ЭМБЕР: Нельзя торговаться, ха? Готова поспорить, ты бы сменила своё мнение, если бы кто-то предложил тебе двадцать тысяч долларов. Но всё же, я удивлена, что ты не упомянула ту часть, что люди с мышлением безопасника всегда сдают свою идею на коллегиальное исследование и принимают то, что другие люди о ней высказывают. Мне нравится, как это звучит, это кажется очень кооперативным и скромным.
КОРАЛ: Я бы сказала, что это часть обыденной паранойи, которая есть у многих программистов. Суть выставления идей на анализ других не так сложно понять, хотя, конечно, есть многие, кто не делает и этого. Если бы у меня были какие-нибудь оригинальные идеи, как вложиться в хорошо исследованную тему компьютерной безопасности, то я бы оформила их как советы мудрым параноикам, но, конечно, люди, которым они были бы нужны ещё больше – это счастливые простаки.
ЭМБЕР: Счастливые простаки?
КОРАЛ: Люди, лишённые даже обыденной паранойи. Счастливые простаки склонны рисовать в своём воображении то, как их система работает, но вовсе не спрашивают себя, как их система может провалиться, пока кто-то им это не посоветует, и даже тогда у них не получается. По крайней мере, таков мой опыт и опыт многих других в этой профессии.
Есть одна невероятно ужасная криптографическая система, эквивалент детского мата в шахматах, к которой иногда приходят совсем полные новички, а конкретно Fast XOR. Это значит выбрать пароль, повторить его много раз, и XOR-нуть данные с строкой из повторённого пароля. Человек, изобретающий такую систему, может быть вовсе не способен представить точку зрения противника. Он хочет, чтобы его чудесный шифр был невзламываемым, и он не может по-настоящему войти в состояние разума кого-то, кто хочет, чтобы его шифр был взламываемым. Если ты попросишь его «Пожалуйста, попробуй представить, что может пойти не так», он может сказать: «Ну, если пароль утерян, то данные будут навеки невосстановимы, потому что мой алгоритм шифрования слишком силён; я полагаю, это считается за то, что что-то пошло не так.» Или «Может, кто-то проведёт диверсию над моим кодом», или «Если настаиваешь, чтобы я изобретал неестественные сценарии, то, может быть, компьютер спонтанно решит не подчиняться моей программе.» Конечно, любой обыденный параноик попросит наиболее способных людей, каких только сможет найти, посмотреть на его умную идею и попробовать её обвалить, потому что другие разумы могут посмотреть с другого ракурса и знать другие техники. Но другая причина, почему мы говорим «Не заводи свою криптовалюту!» и «Дай эксперту по безопасности посмотреть на твою умную идею!» – надежда достучаться до многих людей, которые вообще не могут инвертировать полярность своих целей – они не думают таким образом сами, а если заставить их это сделать, то их мысли идут в непродуктивных направлениях.
ЭМБЕР: Это вроде… того, как Правые/Левые кажутся совершенно неспособны выйти за пределы своей драгоценной точки зрения, чтобы пройти Идеологический Тест Тьюринга Левых/Правды.
КОРАЛ: Я не знаю, в точности ли это та же самая ментальная способность, но сходство определённо есть. Кто-то, лишённый обыденной паранойи, не может представить точку зрения кого-то, кто хочет, чтобы Fast XOR взламывался и пройти Идеологический Тест Тьюринга противника, который хочет взломать Fast XOR.
ЭМБЕР: Не может или не представляет? Ты, кажется, говоришь об этом так, будто это врождённые необучаемые способности.
КОРАЛ: Ну, по меньшей мере, есть разные степени талантливости, как обычно в профессиях. И, тоже как обычно, талант сильно растёт от тренировки на практике. Но да, иногда мне кажется, что тут есть что-то вроде качественного скачка, что некоторые люди могут сдвинуть точку зрения и представить противника, который действительно хочет взломать их код… или реальность, которая не болеет за то, чтобы их план сработал, или инопланетян, у которых эволюционировали другие эмоции, или ИИ, который не хочет завершать свои рассуждения «А потом люди должны жить долго и счастливо», или вымышленного персонажа, который верит в идеологию Ситхов, и всё же не думает, что он плохой парень.
Мне иногда кажется, что некоторые люди попросту не могут так сдвинуть точку зрения. Может, не то чтобы у них действительно чего-то не хватало, но есть инстинктивный политический выключатель этой способности. Может, им страшно отпустить свои ментальные якоря. Но снаружи это выглядит всё так же: некоторые люди так делают, а некоторые нет. Некоторые спонтанно инвертируют полярность своих целей и спрашивают, как их шифр может быть взломан и находят продуктивные направления атаки. Другие ждут, пока им не предложат поискать недостатки в их шифре, или требуют, чтобы ты спорил с ними, и ждут, пока ты не выдашь аргументы, которые их удовлетворят. Если ты попросишь их предсказать, что ты можешь счесть недостатком, они скажут странные вещи, которые и близко не подойдут к прохождению твоего Идеологического Теста Тьюринга.
ЭМБЕР: Тебе, кажется, нравятся качественные разделения. Есть ли обыденные параноики получше и похуже? Есть ли спектр между «счастливым простаком» и «настоящим глубоким мышлением безопасника»?
КОРАЛ: Один очевидный количественный уровень таланта, входящего в обыденную паранойю – это насколько сильно ты можешь исказить свою точку зрения, чтобы посмотреть на вещи – креативность и эффективность атак, которые ты изобретёшь. Вроде этих примеров от Брюса Шнайера:
Uncle Milton Industries продаёт детям муравьиные фермы с 1956. Помню, несколько лет назад мы с другом распаковывали такую. В коробке не было муравьёв. Вместо этого там была карточка, в которую можно было внести свой адрес, и компания пришлёт тебе муравьёв. Мой друг удивился, что можно получить муравьёв по почте.
Я ответил: «Что действительно интересно, так это то, что эти люди пошлют банку с живыми муравьями любому, кто попросит.»
Работа в безопасности требует определённого типа мышления. Профессионалы по безопасности – по крайней мере, хорошие – видят мир по-другому. Они не могут зайти в магазин, не замечая, как бы они могли что-то украсть. Они не могут использовать компьютер, не задумываясь об уязвимостях. Они не могут голосовать, не пытаясь сообразить, как проголосовать дважды. Они ничего не могут с этим сделать.
SmartWater – это жидкость с уникальным идентификатором, привязанным к конкретному владельцу. «Идея в том, что я намажу это на свои ценные вещи как доказательство, что я их владелец», написал я, когда впервые узнал об этой идее, «Я думаю, идея получше – намазать её на чужие ценные вещи и позвонить в полицию.»
Серьёзно, ничего не можем с этим сделать.
Такой вид мышления неестественен для большинства людей. Он неестественен для инженеров. Хорошая инженерия включает рассуждения о том, как можно заставить вещи работать; мышление безопасника включает рассуждения о том, как можно заставить вещи провалиться…
Я часто раздумывал о том, насколько это врождённое, а насколько обучаемое. В общем, я думаю, это определённый способ смотреть на мир, и куда проще обучить кого-то знаниям в области – криптографии, компьютерной безопасности, взлому сейфов или подделке документов – чем мышлению безопасника.
Для ясности, разделение между «просто обыденной паранойей» и «полным мышлением безопасника» моё собственное; я думаю, стоит разделять спектр выше счастливых простаков на два уровня, а не ограничиваться одним, и лучше говорить: «Рассматривать мир под странными ракурсами – это только половина того, чему тебе надо научиться, причём простая половина.»
ЭМБЕР: Может, сам Брюс Шнайер не понимает то, что ты имеешь в виду, говоря «мышление безопасника», и ты просто украла его термин, чтобы называть им свою собственную отдельную идею!
КОРАЛ: Нет, штука с нежеланием рассуждать о том, что кто-то может когда-то зарегистрировать donotreply.com, а просто исправить это – методология недоверия тому, что ты умно поймёшь, какие проблемы всплывут – это точно часть того, что реальные профессионалы по безопасности имеют в виду под «мышлением безопасника», и это точно часть второй, более глубокой половины. Единственная необычная вещь в моём представлении – это что я формализую промежуточный навык «обыденной паранойи», заставляющий парировать воображаемую атаку, зашифровав файл с паролями и спрятав ключ шифрования в отдельной части кода файловой системы. Я подозреваю, что прийти к идее хэширования паролей – это качественно отдельный навык, действующий в пространстве твоих собственных рассуждений, а не пространстве объектного уровня систем и противников. Хоть невежливо такое говорить, и это могут воспринять как попытку прихватить себе статуса, но мой опыт с другими укоренёнными в рефлексивности навыками подсказывает, что многие люди, возможно, включая тебя, совершенно неспособны так мыслить.
ЭМБЕР: Это действительно кажется мне ужасно невежливым.
КОРАЛ: Это в самом деле может быть невежливо; не отрицаю. Ошибочно ли это – отдельный вопрос. Причина, почему я это говорю – поскольку я хочу, чтобы обыденные параноики пытались переходить на более глубокий уровень паранойи, я также хочу, чтобы они были в курсе, что это может просто оказаться не для них, в каком случае, они должны просить о помощи и слушать, что им советуют. Им не стоит считать, что раз они смогли заметить возможность посылания муравьёв не туда, то они также могут заметить и проблему с donotreply@donotreply.com.
ЭМБЕР: Может, тебе стоит называть это «глубокой надёжностью», чтобы отличать от того, что Брюс Шнайер называет «мышлением безопасника».
КОРАЛ: «Мышление безопасника» есть «обыденная паранойя» плюс «глубокая надёжность»? Я не уверена, что это очень хорошая терминология, но не буду против, если ты будешь использовать эти термины так.
ЭМБЕР: Предположим, я с этим соглашусь. Ранее ты описывала, что может пойти не так, когда счастливые простаки безуспешно пытаются быть обыденными параноиками. Что происходит, когда обыденные параноики пытаются сделать что-то, что требует навыка глубокой надёжности?
КОРАЛ: Они верят, что мудро определили, что реальная проблема, которую надо решить – это плохие пароли, и тратят всё своё время на всё более и более умные проверки на плохие пароли. Они очень впечатлены тем, как много усилий они потратили на детектирование плохих паролей, и как сильно они продемонстрировали свою заботу о надёжности системы. Они становятся жертвой стандартного когнитивного искажения, чьё название я не могу припомнить, того, когда люди пытаются решить задачу одним большим усилием или парочкой больших усилий, и потом прекращают, и больше не пытаются, поэтому люди не устраивают убежища от ураганов, когда закончили закупать запас бутилированной воды. Заплати им за то, чтобы они «попытались посильнее», и они спрячут семь ключей шифрования к файлу с паролями в семи разных местах, или построят всё более и более высокие башни в местах, где успешный противник очевидно просто обойдёт башни вокруг, если вообще будет там проходить. Что у этих идей общего – то, что они в некотором смысле «поверхностные». Они прямолинейно устроены как попытки парировать конкретные классы предвиденных атак. Они дают тебе удовлетворяющее чувство тяжёлого сражения с воображаемой проблемой – а потом они не работают.
ЭМБЕР: Ты говоришь, что проверять, не «пароль» ли пароль пользователя – не хорошая идея?
КОРАЛ: Нет, поверхностные защиты зачастую тоже хорошие идеи! Но даже тогда, кто-то с более высоким навыком попробует взглянуть на вещи более систематично; они знают, что зачастую можно найти более глубокие способы смотреть на задачу, и попробуют их найти. К примеру, крайне важно, чтобы твоя проверка паролей не отвергала пароль «правильно лошадь батарея скоба», требуя, чтобы пароль содержал хотя бы одну заглавную букву, строчную букву, цифру и знак пунктуации. На самом деле ты хочешь измерить энтропию пароля. Не провалиться, умно пресекая чью-то попытку сделать пароль «rainbow», заставляя вместо этого ввести «rA1nbow!».
Ты хочешь, чтобы у поля ввода пароля была галочка, позволяющая показать пароль в открытую, потому что твои попытки парировать воображаемый провал, когда какой-то злодей подсматривает из-за плеча пользователя, могут встать на пути того, чтобы пользователь ввёл высокоэнтропийный пароль. А пользователь вполне способен ввести свой пароль в адресной строке сверху, чтобы потом его скопировать и вставить – посылая таким образом пароль тому, кто занимается умным поиском из адресной строки. Если тебя действительно беспокоит, что какой-то злодей подсматривает из-за плеча, может, тебе стоит посылать подтверждение на телефон, а не заставлять пользователя вводить пароль в ближайшее текстовое поле, из которого он действительно может читать. Скрывая одно текстовое поле без переключателя, чтобы защититься от этой одной плохой вещи, которую ты воображаешь, выстрелив себе в ногу в других вещах и не особо то и защитившись от плохой штуки – вот беда поверхностных защит.
Архетипичный персонаж «обыденный параноик, который думает, что очень сильно старается, но на самом деле лишь городит гору поверхностных предосторожностей» – это Грозный Глаз Грюм из Гарри Поттера, у которого была целая комната Детекторов Тьмы, и которого в итоге заперли на дне чьего-то сундука. Кажется, Грозный Глаз Грюм был слишком занят покупкой ещё одного Детектора Тьмы для уже полной комнаты, и не изобрёл предосторожности достаточно глубокой и общей, чтобы она покрывала непредвиденный вектор атаки «кто-то пытается заменить меня с помощью Оборотного Зелья».
И решение – не просто добавить специальное антиоборотное зелье. В смысле, если оно у тебя есть, хорошо, но большая часть доверия системе должна браться не из этого. Первые линии обороны должны ощущаться глубокими, общими. Хэшировать файлы с паролями, а не прятать ключи; думать, как измерить энтропию пароля, а не требовать хотя бы одной большой буквы.
ЭМБЕР: Опять же, мне кажется, что это скорее количественная разница того, насколько идеи умные, а не два разных режима мышления.
КОРАЛ: Категории реального мира зачастую расплывчаты, но мне кажется, что это всё же два разных режима мышления. Моя догадка – что человек, популяризировавший требование смеси букв, чисел и символов, рассуждал не так, как человек, думающий об измерении энтропии пароля. Но назовёшь ли ты разделение качественным или количественным, оно есть. Глубокие и общие идеи – такие, которые на самом деле упрощают и усиливают обоснования надёжности системы – изобретаются реже и более редкими людьми. Чтобы создать систему, которая может сопротивляться или даже замедлить атаку нескольких противников, некоторые из которых умнее или опытнее нас самих, нужен уровень профессионально-специфического мышления, которого не стоит ожидать от каждого программиста – даже от тех, кто может представить точку зрения одного равно умного противника. Чего стоит просить у обыденного параноика – это признания того, что более глубокие идеи существуют, и старания изучить стандартные уже известные глубокие идеи; чтобы они знали, что их собственный навык – не верхний предел возможного, и чтобы они просили профессионалов проверять их рассуждения. А потом действительно слушать.
ЭМБЕР: Но если люди могут думать, что их навыки выше, чем на самом деле, то как ты можешь знать, что ты – одна из тех редких людей и правда обладающих глубоким мышлением безопасника? Не может ли твоё высокое мнение о себе быть вызвано эффектом Даннинга-Крюгера?
КОРАЛ: … Окей, это напомнило мне дать ещё одно предостережение.
Да, встречаются простаки, которые не могут поверить, что есть талант «паранойи», которого им недостаёт, и которые выдадут тебе странную имитацию паранойи, если ты попросишь их больше беспокоиться о недостатках их гениальных идей шифрования. Ещё это будут читать люди с серьёзными случаями социальной тревожности и неуверенности в себе. Читатели, способные на обыденную паранойю и даже на мышление безопасника, которые могут не попытаться развить в себе эти таланты, потому что ужасно беспокоятся, что они могут быть как раз людьми, лишь воображающими, что таланты у них есть. Что ж, если вам кажется, что вы можете почувствовать различие между глубокими и поверхностными идеями безопасности, то вам стоит хотя бы то и дело пробовать генерировать собственные мысли, которые будут соотноситься так же.
ЭМБЕР: Но не поощрит ли такое отношение сверхуверенных людей думать, что они могут быть параноидальными, хотя на самом деле не могут, в результате чего они будут слишком впечатлены своими суждениями и идеями?
КОРАЛ: Я сильно подозреваю, что они так будут делать в любом случае. Простое личное согласие быть скромным на самом деле не продвигает никакую хорошую выгодную всем коллективную практику. Сверхуверенным всё равно, что ты решишь. И если ты не беспокоишься о недооценивании себя в точности так же, как о переоценивании, если твои страхи о залезании выше, чем положено, несимметричны страхам потерянного потенциала и упущенных возможностей, то, вероятно, перед тобой стоит эмоциональная проблема, а не строгая забота о хорошей эпистемологии.
ЭМБЕР: Если у кого-то есть талант к глубокой надёжности, как его можно натренировать?
КОРАЛ: … Это чертовски хороший вопрос. Для обыденной паранойи разработаны некоторые интересные методы тренировки, вроде занятий, где ученики должны сообразить, как можно атаковать повседневные системы вне контекста информатики. Один профессор выдавал тест, в котором один из вопросов был «Первые сто цифр числа пи?» – суть была в том, что нужно найти какой-нибудь способ сжульничать, чтобы его пройти. Сначала следует натренировать такую обыденную паранойю, если это ещё не сделано.
ЭМБЕР: А потом? Как ты перейдешь от обыденной паранойи к глубокой надёжности?
КОРАЛ: … Пробовать находить более общие защиты вместо блокирования конкретных атак? Признавать, когда ты строишь всё более высокие версии башен, которые противник может просто обойти? Эх, нет, это слишком похоже на обыденную паранойю – особенно если ты начинаешь только с ней. Дай подумать.
…
Окей, у меня есть странноватый совет, который скорее всего не сработает. Напиши историю надёжности, на которой основывается твоё убеждение в надёжности системы. Затем спроси себя, действительно ли были включены все эмпирические допущения. Затем спроси себя, веришь ли ты на самом деле этим эмпирическим допущениям.
ЭМБЕР: То есть, вроде того, что если я создаю операционную систему, то я записываю «Допущение о надёжности: система авторизации сдерживает атакующих»—
КОРАЛ: Нет!
Эмм, нет, извини. Как обычно, кажется, что то, что я считаю «советом» опускает все важные части, которые нужны, чтобы кто-то и правда ему последовал.
Это не то, что я имела в виду, говоря «эмпирические допущения». Ты не хочешь предполагать, что часть системы «преуспела» или «провалилась» – это не тот язык, на котором это должно быть записано. Ты хочешь, чтобы элементы истории были строго фактическими, не… ценностными, целе…ориентированными? Там не должно быть рассуждений, явно упоминающих, что ты хочешь, чтобы произошло или не произошло, только язык, нейтрально описывающий фоновые факты о вселенной. Для целей брейншторма ты можешь записать «Никто не может угадать пароль какого-нибудь пользователя с опасными привилегиями», но это лишь прото-утверждение, которое нужно разложить на более базовые.
ЭМБЕР: Не думаю, что поняла.
КОРАЛ: «Никто не может угадать пароль» означает, что «Противник не сможет угадать пароль». Почему ты в это веришь?
ЭМБЕР: Понятно, ты хочешь, чтобы я переделывала сложные допущения в системы простых допущений. Но если ты продолжаешь спрашивать «почему ты в это веришь», то однажды мы дойдём до Большого Взрыва и законов физики. Откуда мне знать, где остановиться?
КОРАЛ: Надо попытаться редуцировать историю за пределы разговоров о целях вроде «противник не сможет» и вместо этого говорить о нейтральных фактах, на которых это основывается. Пока что просто ответь: Почему ты веришь, что противник не сможет угадать пароль?
ЭМБЕР: Потому что пароль слишком сложен, чтобы его можно было угадать.
КОРАЛ: Словосочетание «слишком сложен» – про цели; твои собственные желания касательно системы определяют, что такое «слишком сложен». Если не использовать язык или концепции, отсылающие к тому, что ты хочешь, какое нейтральное, фактическое описание того, что делает пароль слишком сложным для угадывания?
ЭМБЕР: Энтропия пароля достаточно высока, чтобы атакующий не смог предпринять достаточно попыток, чтобы его угадать.
КОРАЛ: Мы продвигаемся, но, опять же, термин «достаточно» связан с целями. Твои собственные желания определяют, что такое «достаточно». Можешь сказать что-то вместо этого?
ЭМБЕР: Энтропия пароля столь велика, что—
КОРАЛ: Я не имею в виду найти синоним для «достаточно». Я имею в виду, использовать другие, не связанные с целями, концепты. Это подразумевает изменение смысла того, что ты записываешь.
ЭМБЕР: Извини, видимо, я не слишком в этом хороша.
КОРАЛ: По крайней мере, пока. Может и вовсе, но это неизвестно, и не надо делать это заключение на основе одной неудачи.
В общем, я надеялась на пару заявлений вроде «Я верю, что пароль обязательно будет иметь минимум 50 бит энтропии» и «Я верю, что никакой атакующий не сможет сделать более триллиона попыток угадать какой-нибудь пароль». Где суть написания «Я верю» – это заставить себя приостановиться и задуматься, и правда ли ты в это веришь.
ЭМБЕР: Говорить, что никакой атакующий не «сможет» сделать триллион попыток – это разве само по себе не связано с целями?
КОРАЛ: В самом деле, может понадобиться разбить это предположение и дальше на «Я верю, что система отвергает попытки ввода пароля, менее чем через секунду после предыдущей, я верю, что атакующий будет делать это не больше месяца, и я верю, что атакующий будет использовать менее 300000 одновременных подключений». И тут опять же суть в том, чтобы посмотреть на написанное и сказать: «Я и вправду в это верю?». Для ясности, иногда ответ будет «Да, я точно в это верю!». Это не социальное упражнение на скромность, где ты показываешь свою способность на мучительные сомнения, а потом всё равно делаешь то же самое. Суть в том, чтобы понять, во что ты веришь, и во что тебе надо верить, и проверить, надёжно ли это.
ЭМБЕР: И это тренирует глубокое мышление безопасника?
КОРАЛ: … Мооожет быыыыть? Я навскидку предполагаю, что это может работать. Это может заставить тебя думать в терминах историй и предположений о паролях и противниках, а это помещает твой разум в состояние, которое, я думаю, по крайней мере, часть этого навыка.
На самом деле, настоящая причина, почему автор указывает эту методологию – он сейчас пытается делать что-то похожее с задачей согласования Сильного Искусственного Интеллекта, и он хочет продвинуться дальше, чем «Я верю, что Мой СИИ не убьёт всех», куда-то в сторону записывания утверждений, вроде «Хоть пространство потенциальных весов этой рекуррентной нейросети и содержит комбинации весов, которые бы сообразили, как убить программистов, я верю, что градиентный спуск на функции потерь L приведёт только в подпространство Q с свойствами P, и я верю, что пространство с свойствами P не включает комбинаций весов, таких, что нейросеть с ними сообразит, как убить программистов.»
Хотя это само по себе не по-настоящему редуцированное утверждение, и в нём всё ещё слишком много языка целей. Реалистичный пример вывел бы нас за пределы основной темы этого эссе. Но автор надеется, что практика такого способа мыслить может помочь людям создавать более твёрдые истории про надёжные системы, если у них уже есть обыденная паранойя и некоторые таинственные врождённые таланты.
Продолжение: Мышление Безопасника и Логистическая Кривая Успеха
Фрагменты цепочки от Люка Мелхаузера, которая обобщает основанные на научных данных советы для «выигрывания» в повседневной жизни. Цепочка посвящена повышению работоспособности, улучшению отношений, работе с эмоциями и так далее.
Примечание редактора: Эта статья была написана в 2011 году. С тех пор могли появиться новые исследования, о которых автор статьи знать не мог.
Некоторые читатели предположили, что сообщество Less Wrong улучшало бы инструментальную рациональность участников эффективнее, если бы оно сначала освоило имеющуюся научную литературу по продуктивности и самопомощи, а затем сподвигло читателей сознательно тренировать навыки самопомощи и применять изученное в реальной жизни.
Мне нравится эта идея. Эта статья представляет из себя краткий обзор самопомощи с научной точки зрения — профессионалы называют соответствующую область «психологией адаптации». Сначала я опишу состояние индустрии самопомощи и научной литературы, затем я вкратце изложу доступные научные данные по трём темам самопомощи: методы обучения, продуктивность и счастье.
Как вы наверное знаете, большая часть индустрии самопомощи — это фикция, над которой можно лишь посмеяться. Большинство книг о самопомощи написаны, чтобы их можно было продать, а не для помощи людям. Популярная психология — скорее миф, а не что-то реальное. Как пишет Кристофер Бакли(Buckley, 2009): «Чем больше люди читают [книг о самопомощи], тем больше они думают, что им нужны эти книги… Это больше напоминает зависимость, чем на союз».
Где вы сможете найти надёжный и подтверждённый эмпирически совет по самопомощи? Несколько ведущих психологов-терапевтов (например, Альберт Эллис, Арнольд Лазарус, Мартин Селигман) написали книги о самопомощи, основанные на десятках исследований, но даже в этих книгах зачастую даются рекомендации, которые всё ещё спорны, потому что они пока не являются частью устоявшейся науки.
Клейтон Такер-Ладд исследовал самопомощь всю жизнь. Несколько десятков лет он писал и правил «Психологическую самопомощь» (pdf). Эта книга является обзором, что учёные знают и не знают о методах самопомощи (на 2003 год), однако, в ней более 2000 страниц и большая их часть содержит скорее научные мнения, а не экспериментальные результаты, потому что по многим вопросам экспериментальных результатов пока нет. Существует интернет-сообщество, в котором люди делятся, какие приёмы из этой книги у них работают, а какие нет.
Быстрее принесёт пользу «59 секунд» Ричарда Вайсмана. Вайсман - экспериментальный психолог и исследователь паранормальных явлений. Он собрал научно-обоснованную часть исследований самопомощи и оформил её в короткую, весёлую и полезную книгу в стиле Малкольма Гладуэлла. Следующая по хорошести популярная книга о самопомощи в целом - это, скорее всего, «Что вы можете изменить и чего вы не можете» Мартина Селигмана.
Есть две большие книги, в которых оцениваются сотни популярных книг по самопомощи, исходя из мнения профессиональных психологов, и даются советы, как выбрать книгу по самопомощи. К сожалению, их ценность невысока, поскольку мнения даже профессиональных психологов часто расходятся с эмпирическими данными. Подробно об этом можно прочитать в работах Скотта Лилиенфельда и других: «Наука и псевдонаука в клинической психологии» и «Navigating the Mindfield». По этим двум работам можно оценить, что известно и что неизвестно согласно эмпирическим исследованиям (а не по мнению экспертов). Лилиенфельд к тому же является редактором полезного журнала «Scientific Review of Mental Health Practice». Также он собрал список вредного психологического лечения. Ещё можно посмотреть «A guide to treatments that work» Натана и Гормана, «What works for whom?» Рота и Фонаджи, и, более общую, «Как думать прямо о психологии» Становича.
Много книг самопомощи написаны как «один размер подходит для всех», но конечно же это редко применимо в психологии, что приводит к разочарованию читателя (Norem & Chang, 2000). Но психологи проверили эффективность чтения отдельных проблемо-ориентированных книг самопомощи («библиотерапии»)1. Например, судя по всему, чтение «Хорошего самочувствия» Дэвида Бёрнса помогает при депрессии в той же степени, что и индивидуальная или групповая терапии. Результаты варьируются от книги к книге.
Есть как минимум четыре университетских учебника, которые учат базовой научной самопомощи. Первый - это Psychology Applied to Modern Life: Adjustment in the 21st Century by Weiten, Dunn и Hammer. Он дорогой, но можно предварительно просмотреть его здесь. Остальные - это Human Adjustment by Santrock, Psychology for Living by Duffy и Psychology and the Callenges of Life by Nevid & Rathus.
Если бы вы могли прочесть только одну книгу о самопомощи, я бы порекомендовал Psychology Applied to Modern Life: Adjustment in the 21st Century by Weiten, Dunn и Hammer2. К сожалению, как и в случае «Психологической самопомощи» Такер-Ладда, многие главы этой содержат обзор научного мнения, а не экспериментальные результаты. Слишком мало было поставлено экспериментов!
В личной переписке со мной Вейтон заметил:
Ты пытаешься что-то найти примерно посреди чёрной дыры эмпирических исследований… В сущности, почти всё написанное по этой теме подчёркивает полное отсутствие свидетельств.
Наверное, я слишком циничен, но я подозреваю, что эмпирических проверок нет, потому что авторы книг о самопомощи и тайм-менеджменте сильно сомневаются, что получат благоприятные результаты. Следовательно, им не интересно настаивать на таких исследованиях, ведь они могут подорвать их продажи и лишить возможности написать следующую книгу. Другая причина в том, что у большинства авторов таких книг мало или совсем нет исследовательского опыта. Если рассуждать менее цинично, другая причина в том, что при необходимом исследовании возникли бы такие же огромные сложности, которые появляются, когда мы оцениваем эффективность различных подходов к терапии. Правильно оценивать эффективность разных видов терапий чрезвычайно сложно, и потому такие исследования требуют очень больших денег.
Когда я связывался с другими ведущими исследователями в психологии адаптации, они высказывали примерно такое же мнение.
Тем не менее, какие-то полезные советы психология как наука дать может. Я сосредоточусь на двух областях, которые особо интересны сообществу Less Wrong — учёбе и продуктивности, — а также на одной области, интересной всем — счастье.
Когда вы хотите что-то выучить, упорядочивайте информацию, например, составляйте конспект (Einstein & McDaniel 2004; Tigner 1999; McDaniel et al. 1996). Зубрёжка не работает (Wong 2006). Составьте себе расписание, по которому вы будете учиться (Allgood et al. 2000). Проверяйте усвоение материала (Karpicke & Roediger 2003; Roediger & Karpicke 2006a; Roediger & Karpicke 2006b; Agarwal et al. 2008; Butler & Roediger 2008) и делайте это периодически, с перерывом между сеансами обучения 24 часа и более (Rohrer & Taylor 2006; Seabrook et al 2005; Cepeda et al. 2006; Rohrer et al. 2005; Karpicke & Roediger 2007). Проще говоря: используйте Anki.
Чтобы хранить в памяти изученное более эффективно, попробуйте акростихи (Hermann et al. 2002), метод ссылок (Iaccino 1996; Worthen 1997) и метод локусов (Massen & Vaterrodt-Plunnecke 2006; Moe & De Beni 2004; Moe & De Beni 2005).
К сожалению, эксперименты в области продуктивности и тайм-менеджмента проводились реже, чем в области обучения. Если вы хотите получить обзор научных мнений о продуктивности, я рекомендую страницы 121-126 в Psychology Applied to Modern Life. Согласно этим страницам, профессионалы сходятся примерно на следующем:
Почему исследований продуктивности так мало? Ведущий исследователь в этой области, Пирс Стил, в личной переписке объяснил мне так:
Наука обычно развивается от описания к экспериментам, и исследования прокрастинации находятся лишь на начальной стадии. Конкретно о прокрастинации работ почти нет, но есть много работ по более широкой области самоконтроля… многие результаты должны сохраниться, так как основы у этих явлений совпадают. Например, я совершенно уверен, что постановка целей работает, поскольку существуют около тысячи исследований об этом в области мотивации (не только конкретно прокрастинации). С другой стороны, мы строим поведенченскую лабораторию, так что мы можем проверить многие из этих техник в лоб, что несомненно нужно сделать.
Стил написал на эту тему книгу «Уравнение прокрастинации», которую я очень рекомендую.
Существует множество исследований о факторах, которые коррелируют с субъективным благополучием (личной оценкой человека своего счастья и довольства жизнью).
Факторы, которые слабо коррелируют со счастьем включают в себя: возраст3, пол4, наличие детей5, интеллект6, физическую привлекательность7 и богатство8 (пока вы выше черты бедности). Факторы, средне коррелирующие со счастьем, включают в себя: здоровье9, социальную активность10 и религиозность11. Факторы, сильно коррелирующие со счастьем: генетика12, удовлетворённость любовью и отношениями13, удовлетворение работой14.
Для многих из этих факторов с некоторой достоверностью продемонстрирована и причинно-следственная связь, но это слишком сложная история для этой статьи
Многие профессионалы построили свою карьеру после призыва Джорджа Миллера «выпустить психологию» в массы для улучшения благополучия людей. В результате, чтобы проверить, какие методы самопомощи работают, а какие нет, были проведены сотни экспериментов. Мы можем использовать это знание для достижения своих целей.
Но впереди остаётся ещё много работы. Многие особенности человеческой психологии и поведения изучены недостаточно хорошо. Многие методы самопомощи, описанные в научно-популярной и академической литературе, пока не проверены экспериментально. Если вы рассматриваете психологию как карьеру и (1) вы хотите улучшить благополучие людей, (2) получить финансирование исследований, (3) изучить область, которая недостаточно разработана, и (4) получить шанс написать книгу-бестселлер о самопомощи, когда вы закончите исследование, тогда пожалуйста, рассмотрите карьеру в экспериментальной проверке различных методов самопомощи. Человечество скажет вам за это спасибо.
Abdel-Khalek (2006). «Happiness, health, and religiosity: Significant relations.» Mental Health, 9(1): 85-97.
Agarwal, Karpicke, Kang, Roediger, & McDermott (2008). «Examining the testing effect with open- and closed-book tests.» Applied Cognitive Psychology, 22: 861-876.
Allgood, Risko, Alvarez, & Fairbanks (2000). «Factors that influence study.» In Flippo & Caverly, (Eds.), Handbook of college reading and study strategy research. Mahwah, NJ: Erlbaum.
Argyle (1999). «Causes and correlates of happiness.» In Kahneman, Diener, & Schwartz (Eds.), Well-being: The foundations of hedonic psychology. New York: Sage.
Argyle (2001). The Psychology of Happiness (2nd ed.). New York: Routledge.
Buckley (1998). God is My Broker: A Monk-Tycoon Reveals the 7 1/2 Laws of Spiritual and Financial Growth. New York: Random House.
Butler & Roediger (2008). «Feedback enhances the positive effects and reduces the negative effects of multiple-choice testing.» Memory & Cognition, 36(3).
Chida, Steptoe, & Powell (2009). «Religiosity/Spirituality and Mortality.» Psychotherapy and Psychosomatics, 78(2): 81-90.
Cepeda, Pashler, Vul, Wixted, & Rohrer (2006). «Distributed practice in verbal recall tasks: A review and quantitative synthesis.» Psychological Bulletin, 132: 354-380.
Diener, Sandvik, Seidlitz, & Diener (1993). «The relationship between income and subjective well-being: Relative or absolute?» Social Indicators Research, 28: 195-223.
Diener, Wolsic, & Fujita (1995). «Physical attractiveness and subjective well-being.» Journal of Personality and Social Psychology, 69: 120-129.
Diener, Gohm, Suh, & Oishi (2000). «Similarity of the relations between marital status and subjective well-being across cultures.» Journal of Cross-Cultural Psychology, 31: 419-436.
Diener & Seligman (2002). «Very happy people.» Psychological Science, 13: 80-83.
Diener & Seligman (2004). «Beyond money: Toward an economy of well-being.» Psychological Science in the Public Interest, 5(1): 1-31.
Diener, Kesebir, & Tov (2009). «Happiness» In Leary & Hoyle (Eds.), Handbook of Individual Differences in Social Behavior (pp. 147-160). New York: Guilford.
Einstein & McDaniel (2004). Memory Fitness: A Guide for Successful Aging. New Haven, CT: Yale University Press.
Frey & Stutzer (2002). «What can economists learn from happiness research?» Journal of Economic Literature, 40: 402-435.
Hermann, Raybeck, & Gruneberg (2002). Improving memory and study skills: Advances in theory and practice. Ashland, OH: Hogrefe & Huber.
Iaccino (1996). «A further examination of the bizarre imagery mnemonic: Its effectiveness with mixed context and delayed testing. Perceptual & Motor Skills, 83: 881-882.
Inglehart (1990). Culture shift in advanced industrial society. Princeton, NJ: Princeton University Press.
Johnson & Krueger (2006). «How money buys happiness: Genetic and environmental processes linking finances and life satisfaction.» Journal of Personality and Social Psychology, 90: 680-691.
Judge & Klinger (2008). «Job satisfaction: Subjective well-being at work.» In Eid & Larsen (Eds.), The science of subjective well-being (pp. 393-413). New York: Guilford.
Kahneman, Krueger, Schkade, Schwarz, & Stone (2006). «Would you be happier if you were richer? A focusing illusion.» Science, 312: 1908-1910.
Kasser (2002). The high prices of materialism. Cambridge, MA: MIT Press.
Kasser, Ryan, Couchman, & Sheldon (2004). «Materialistic values: Their causes and consequences.» In Kasser & Kanner (Eds.), Psychology and consumer culture: The struggle for a good life in a materialistic world. Washington DC: American Psychological Association.
Karpicke & Roediger (2003). «The critical importance of retrieval for learning.» Science, 319: 966-968.
Karpicke & Roediger (2007). «Expanding retrieval practice promotes short-term retention, but equally spaced retrieval enhances long-term retention.» Journal of Experimental Psychology: Learning, Memory, and Cognition, 33(4): 704-719.
Lucas & Diener (2008). «Personality and subjective well-being.» In John, Robins, & Pervin (Eds.), Handbook of personality: Theory and research (pp. 796-814). New York: Guilford.
Lyubomirsky, Sheldon, & Schkade (2005). «Pursuing happiness: The architecture of sustainable change.» Review of General Psychology, 9(2), 111-131.
Lykken & Tellegen (1996). «Happiness is a stochastic phenomenon.» Psychological Science, 7: 186-189.
Lykken (1999). Happiness: The nature and nurture of joy and contentment. New York: St. Martin’s.
Massen & Vaterrodt-Plunnecke (2006). «The role of proactive interference in mnemonic techniques.» Memory, 14: 189-196.
McDaniel, Waddill, & Shakesby (1996). «Study strategies, interest, and learning from Text: The application of material appropriate processing.» In Herrmann, McEvoy, Hertzog, Hertel, & Johnson (Eds.), Basic and applied memory research: Theory in context (Vol 1). Mahwah, NJ: Erlbaum.
Miller (1969). «On turning psychology over to the unwashed.» Psychology Today, 3(7), 53–54, 66–68, 70, 72, 74.
Moe & De Beni (2004). «Studying passages with the loci method: Are subject-generated more effective than experimenter-supplied loci?» Journal of Mental Imagery, 28(3-4): 75-86.
Moe & De Beni (2005). «Stressing the efficacy of the Loci method: oral presentation and the subject-generation of the Loci pathway with expository passages.» Applied Cognitive Psychology, 19(1): 95-106.
Myers (1992). The pursuit of happiness: Who is happy, and why. New York: Morrow.
Myers & Diener (1995). «Who is happy?» Psychological Science, 6: 10-19.
Myers & Diener (1997). «The pursuit of happiness.» Scientific American, Special Issue 7: 40-43.
Myers (1999). «Close relationships and quality of life.» In Kahnemann, Diener, & Schwarz (Eds.), Well-being: The foundations of hedonic psychology. New York: Sage.
Myers (2008). «Religion and human flourishing.» In Eid & Larsen (Eds.), The science of subjective well-being (pp. 323-346). New York: Guilford.
Nickerson, Schwartz, Diener, & Kahnemann (2003). «Zeroing in on the dark side of the American dream: A closer look at the negative consequences of the goal for financial success.» Psychological Science, 14(6): 531-536.
Nolen-Hoeksema (2002). «Gender differences in depression.» In Gotlib & Hammen (Eds.), Handbook of Depression. New York: Guilford.
Proulx, Helms, & Cheryl (2007). «Marital quality and personal well-being: A Meta-analysis.» Journal of Marriage and Family, 69: 576-593.
Roediger & Karpicke (2006a). «Test-enhanced learning: Taking memory tests improves long-term retention.» Psychological Science, 17: 249-255.
Roediger & Karpicke (2006b). «The power of testing memory: Basic research and implications for educational practice.» Perspectives on Psychological Science, 1(3): 181-210.
Riis, Loewenstein, Baron, Jepson, Fagerlin, & Ubel (2005). «Ignorance of hedonic adaptation to hemodialysis: A study using ecological momentary assessment.» Journal of Experimental Psychology: General, 134: 3-9.
Rohrer & Taylor (2006). «The effects of over-learning and distributed practice on the retention of mathematics knowlege. Applied Cognitive Psychology, 20: 1209-1224.
Rohrer, Taylor, Pashler, Wixted, & Cepeda (2005). «The Effect of Overlearning on Long-Term Retention.» Applied Cognitive Psychology, 19: 361-374.
Ross & Van Willigen (1997). «Education and the subjective quality of life.» Journal of Health & Social Behavior, 38: 275-297.
Seabrook, Brown, & Solity (2005). «Distributed and massed practice: From laboratory to class-room.» Applied Cognitive Psychology, 19(1): 107-122.
Solberg, Diener, Wirtz, Lucas, & Oishi (2002). «Wanting, having, and satisfaction: Examining the role of desire discrepancies in satisfaction with income.» Journal of Personality and Social Psychology, 83(3): 725-734.
Stubbe, Posthuma, Boomsa, & De Geus (2005). «Heritability and life satisfaction in adults: A twin-family study.» Psychological Medicine, 35: 1581-1588.
Tigner (1999). «Putting memory research to good use: Hints from cognitive psychology.» College Teaching, 47(4): 149-151.
Van Boven (2005). «Experientialism, materialism, and the pursuit of happiness.» Review of General Psychology, 9(2): 132-142.
Warr (1999). «Well-being and the workplace.» In Kahneman, Diener, & Schwartz (Eds.), Well-being: The foundations of hedonic psychology. New York: Sage.
Wong (2006). Essential Study Skills. Boston: Houghton Mifflin.
Worthen (1997). «Resiliency of bizarreness effects under varying conditions of verbal and imaginal elaboration and list composition. Journal of Mental Imagery, 21: 167-194.
«Ибо не понимаю, что делаю: потому что не то делаю, что хочу, а что ненавижу, то делаю» — апостол Павел, послание к Римлянам, 7:15.
Когда вы понимаете, как использовать байесианское мышление, возникает соблазн решать все привычные задачи «с нуля» только при помощи новых навыков рациональности. Но часто более эффективно будет воспользоваться вашей эрудицией и по меньшей мере сначала определить, что же вы точно знаете о предмете проблемы.
Сегодня, я хочу решить проблему прокрастинации путем подытоживания того, что мы о ней знаем и как с ней бороться.
Позвольте мне начать с описания трёх типичных ситуаций…
Эдди посетил курсы по продажам, прочёл все книги и повторил перед зеркалом этим утром все обязательства для себя. Теперь ему нужно совершить первую продажу. Один отказ за другим деморализуют его. Он переставляет вещи на столе, бродит по сайтам Интернета и откладывает холодные звонки до тех пор, пока потенциальные клиенты не уйдут с работы домой.
Три кадра подряд Валери сидит, уставившись на пустой документ в Microsoft Word. Ей нужно завтра сдать это отупляюще скучное сочинение по муниципальной политике. Она решает, что ей нужен перерыв, переписывается с друзьями, смотрит ТВ-шоу, после чего обнаруживает, что мотивации писать стало ещё меньше. В 10 вечера она наконец ныряет в работу, но результат соответствует затраченному времени: он ужасен.
В квартире ниже этажом Том готовится заранее. Он получил визу, купил билеты на самолёт и заказал себе отдых на время отпуска в Доминиканской республике. Ему осталось ещё зарезервировать комнату в отеле, но это можно сделать в любое время. Том всё переносит это дело на следующий день недели, а в итоге и вовсе о нём забывает. Собирая вещи, он вспоминает, что надо заказать комнату, но к этому моменту уже нет ничего вблизи пляжа. Прибыв на место, он обнаруживает, что его комната находится в 10 кварталах от пляжа и украшена дохлыми комарами.
Эдди, Валери и Том стали жертвами склонности откладывать дела на потом, но она по-разному у них проявилась1.
Проблема Эдди — заниженные ожидания. Он рассчитывает лишь на провал. Эдди имеет заниженный уровень ожидания успеха от того, что он сделает следующий «холодный» звонок. Результаты 39-и исследований прокрастинации показывают, что низкий уровень ожиданий это основная причина прокрастинации. Вы сомневаетесь в своей способности следовать диете. Вы не думаете, что получите работу. Вам следует чаще выходить наружу и встречаться с девушками, чтобы учиться флиртовать, но вы настроены на то, что они откажут и поэтому вы откладываете. Вы научились быть беспомощными.
Проблема Валери в том, что её задача имеет для неё низкую ценность. Все мы откладываем то, что нам не нравится. Легко пойти на встречу с друзьями чтобы выпить или пойти поиграть в видеоигру; не так легко начать выполнять свои обязанности. Это не только очевидно, но и подтверждено рядом научных исследований. Мы откладываем те вещи, которые не хотим делать.
Но наиболее надёжным признаком склонности откладывать дела на потом является проблема Тома: импульсивность. Для Тома было бы легко забронировать отель, но он предпочел отвлечься на более срочные или интересные вещи и даже не помнил о бронировании отеля до последнего момента, что оставило его с весьма бедным выбором комнат. Научные исследования показали, что прокрастинация тесно связана с импульсивностью.
Импульсивность сочетается с более общим компонентом склонности откладывать дела на потом: временем. Влияние события на наши решения снижается по мере увеличения расстояния до него во времени. Нас меньше мотивируют отложенные награды, чем немедленные, и чем вы импульсивней, тем больше на вашу мотивацию влияют такие задержки.
Ожидания, ценность, задержка и импульсивность — это четыре основных компонента склонности откладывать дела на потом. Пирс Стил (Piers Steel), ведущий исследователь в этой области, объясняет:
Понизьте определённость или размер награды за выполнение задачи — т.е. ожидания или ценность — и вряд ли вам хватит энтузиазма её завершить. Увеличьте задержку до получения награды и нашу восприимчивость к такой задержке — импульсивность — и мотивация снова упадёт.
Из этого можно вывести «уравнение прокрастинации»: мотивация равняется ожиданиям умноженным на ценность, делённым на импульсивность и задержку.
И хотя изучение этого явления продолжается, уже сейчас есть уравнение прокрастинации, которое было получено из основных выводов о прокрастинации и опирается на наши лучшие текущие теории о мотивации.
Увеличьте размер награды за решение задачи (включая как удовольствие работы над задачей, так и величину постэффектов), и ваша мотивация вырастет. Увеличьте предполагаемые шансы на награду и мотивация тоже вырастет.
Как вы могли уже заметить, часть уравнения, касающаяся влияния размера награды и шансов её получить, представляет собой одно из основных уравнений теории ожидаемой полезности, лежащей в основе современной экономики. Но одним из важнейших аргументов против стандартной экономической теории является то, что она не учитывает время. Например, в 1991 году Джордж Акерлоф (George Akerlof) заметил, что мы иррационально считаем текущие издержки более важными, чем будущие издержки. Это привело к расцвету поведенческой (бихевиористской) экономики, учитывающей время (помимо прочего).
Следовательно, знаменатель, который дает такой эффект для нашей мотивации делать задачу — это время. Чем больше промежуток между нами и ожидаемой наградой за решение задачи, тем меньше нам хочется делать эту задачу. Негативный эффект этой задержки, влияющий на нашу мотивацию, усиливается нашим уровнем импульсивности. Для очень импульсивных людей, задержки наносят очень большой ущерб их мотивации.
В качестве примера рассмотрим студентку колледжа, которая должа написать статью на заданную тему. Однако к сожалению для нее, колледжи создали идеальный шторм компонентов прокрастинации. Во-первых, хотя значение статьи для ее оценки может быть высоким, непосредственная оценка этого значения может быть в данной момент низкой, особенно если ей так же, как и многим студентам, не хочется писать статьи. Более того, скорее всего вряд ли она ожидает высокую оценку. Измерить производительность тяжело, и нередко если эссе проверяют два разных профессора, они могут поставить весьма разные оценки: эссе на четверку может получить пятерку, если повезет, или тройку, если не повезет. Также присутствует и большая задержка во времени, поскольку статья нужна к концу семестра. Если наша студентка имеет импульсивный характер, отрицательный эффект этой задержки на ее мотивацию писать статью значительно усиливается. Написание статьи — тяжелое занятие (низкая оценка), результаты неопределенные (малые ожидания) и срок сдачи далеко (большая задержка).
И это еще не все. Аудитории колледжа и комнаты кампуса в общем, можно назвать самыми отвлекающими местами на земле. Всегда есть возможности повеселиться (клубы, вечеринки, отношения, игры, встречи, алкоголь) что всегда под рукой и доступны. Неудивительно, что задача написания статьи не может конкурировать. Эти потенциальные помехи усиливают отрицательный эффект задержки награды за выполнение задачи и отрицательный эффект импульсивности студентки.
Хотя уже много известно о явлениях нейробиологии, стоящих за прокрастинацией, я не буду здесь этого касаться. Вместо этого, давайте перейдем прямо к вариантам решения нашей проблемы с прокрастинацией.
Теперь, когда вы знаете уравнение прокрастинации, наша общая стратегия очевидна. Так как обычно вы мало что можете сделать с задержкой награды за выполнение задачи, мы сконцентрируемся на трех частях уравнения прокрастинации, над которыми мы имеем контроль. Чтобы побороть прокрастинацию нам нужно:
Вы можете подумать, что эти вещи вовсе не под вашим контролем, однако исследователи нашли несколько полезных методов реализации этих задач.
Большинство советов ниже взято из лучшей доступной книги о прокрастинации, «Уравнение прокрастинации» Пирса Стила, в которой эти методы объяснены более подробно.
Если вы не думаете, что можете преуспеть, у вас мало мотивации делать то, что нужно. Скорее всего вы слышали совет «Будь позитивней!» Но как? К настоящему времени исследователи выявили три основных методики увеличения оптимизма: спирали успеха, заместительная победа, мысленное сравнение.
Одним из способов построить свой успешный оптимизм является использование спиралей успеха. Достигая одну стимулирующую цель за другой, вы, разумеется, набираетесь уверенности в своей способности добиваться успеха. Итак: задайте себе серию значимых, трудных, но достижимых целей и выполните их! Настройте себя на успех, снова и снова делая то, в чём вы можете преуспеть, чтобы поддерживать уверенность в себе на высоком уровне.
Стил рекомендует это для новичков: «зачастую лучше всего — иметь цели процесса или обучения, а не цели продукта либо результата. То есть цели приобретения или оттачивания новых навыков либо этапов (процесса), нежели цели победить или получить максимальный счёт (результат)».
Туристические курсы и похожие виды спорта (сплав по горным рекам, скалолазание, палаточный туризм и т.п.) — великолепный выбор для этого. Выучите новый навык, будь это кулинария или карате. Возьмите на себя больше ответственности на работе или в своём сообществе. Продвиньте любимое хобби на более высокий уровень. Главное — достигать одну цель за другой и уделять внимание своим успехам. Ваш мозг наградит вас увеличением ожидания успеха, а значит — повышением способности справляться со склонностью откладывать дела на потом.
И пессимизм, и оптимизм заразны. Где бы вы ни были, у вас, вероятно, есть доступ к сообществам, отлично подходящим для повышения позитива: мастера тостов, клубы «ротари» (по одному представителю от разных свободных профессий), фонды популяризации знаний («лоси»), религиозные общины и прочие. Рекомендую посетить 5-10 подобных групп в вашей местности и присоединиться к наилучшей из них.
Также можно увеличить оптимизм, просматривая вдохновляющее кино, читая вдохновляющие биографии и слушая мотивирующих ораторов.
Многие популярные книги по помощи себе советуют творческую визуальзацию — методику регулярно и наглядно представлять себе то, чего хотите достичь: машину, карьеру, достижения. Удивительным образом, исследования показали, что этот метод на самом деле может понизить вашу мотивацию.
Но это если не добавить другой важный шаг: мысленное сравнение. Представив себе то, чего хотите достичь, мысленно сравните это с тем, в каком положении находитесь сейчас. Представьте свою старую ржавую машину и свой маленький счёт в банке. Это обозначит текущую ситуацию как препятствие, которое нужно преодолеть, чтобы осуществить свои мечты, что стимулирует процесс планирования и приложения усилий.
И наконец, должен заметить, что избыток оптимизма тоже может быть проблемой, хоть и встречается реже. Например, избыточный оптимизм в оценке того, сколько времени займёт выполнение задачи, может привести к тому, что вы будете её откладывать до последней минуты, когда выяснится, что уже слишком поздно. Нечто вроде книги «Секрет» Ронды Бирн (Rhonda Byrne) может быть чересчур оптимистичным.
Как себя защитить от избытка оптимизма? Планируйте с учётом худшего, но надейтесь на лучшее. Уделяйте внимание тому, как именно вы откладываете дела на потом, стройте запасные планы на случай провала, но используйте описанные в этой главе способы, чтобы достичь как можно большего успеха.
Трудно быть мотивированным что-то сделать, что не имеет особой ценности для нас — или ещё хуже, просто неприятно. Хорошая новость в том, что эта ценность в некоторой степени искусственная и относительная. Эластичность ценности — это хорошо изученная область, называемая психофизикой, и у исследователей есть несколько советов, как добавить ценность в необходимые задачи.
Если задача, которую вы избегаете, скучна, постарайтесь сделать её более трудной, настолько, чтобы уровень трудности соответствовал вашим текущим навыкам, и вы достигнете состояния «потока». Это то, что делали полицейские в фильме «Суперполицейские»: они придумывали странные игры и задачи, чтобы сделать скучную работу выполнимой. Миртл Янг сделала свою работу на фабрике картофельных чипсов более интересной и сложной, выискивая чипсы, похожие на знаменитостей, и откладывая их с конвейера.
Также помогает, если вы убедитесь, что задачи связаны, хотя бы через цепь событий, с чем-то, что для вас важно: вы читаете книгу, чтобы сдать экзамен, чтобы получить диплом, чтобы получить желаемую работу и реализоваться в карьере. Разрыв цепи делает задачу ощущаемой как бесполезная.
Очевидно, что задачи трудней выполнять, когда у вас мало энергии. Беритесь за них тогда, когда вы в наилучшей форме. Это зависит от вашего суточного ритма, но у большинства людей максимум энергии приходится на период, начинающийся через несколько часов после того, как они проснулись, и длящийся 4 часа. Также следите, чтобы высыпаться и регулярно делать физические упражнения.
Также многим людям помогает следующее:
Ещё один очевидный способ повысить ценность задачи — наградить себя за её завершение.
Также, можно сочетать горькое лекарство со сладким мёдом. Объединяйте долгосрочные интересы с краткосрочными удовольствиями. Найдите партнёра для совместной работы, чья компания вам приятна. Угостите себя особым кофе за выполнение задач. Я себя подкупаю замороженным йогуртом «Pinkberry» для выполнения задач, которые я ненавижу делать.
Конечно, самый мощный способ увеличить ценность задачи — везде, где можно, концентрироваться на тех делах, которые вы любите делать. Мне не требуются особой мотивации, чтобы делать исследования в метаэтике или писать научные статьи по помощи себе: это то, что я люблю делать. Некоторые люди, любящие играть в видеоигры, сделали на этом карьеру. чтобы выяснить, какая карьера может требовать именно тех задач, которые вы любите делать, можете попробовать пройти личностный тест RIASEC. В США есть O*NET, который может помочь найти работу, пользующуюся спросом и соответствующую вашей личности.
Импульсивность, в среднем, это фактор, который более всего влияет на величину прокрастинации. Здесь приведены два метода Стила, которые помогают немного справиться с импульсивностью.
Одиссей сумел проплыть мимо прекрасных поющих сирен не с помощью своей силы воли. Напротив, он знал о своей слабости и заранее подготовился: буквально привязал себя к мачте корабля. Некоторые формы самоограничения полезны при управлении импульсивностью.
Первый способ — «выбросить ключ»: закройте привлекательные альтернативы. У многих людей повысилась результативность, когда они решили не допускать наличия телевизора в своём доме; у меня его нет уже много лет. Но сейчас ТВ становится всё более доступным через Интернет. Чтобы заблокировать его, вам может понадобится инструмент вроде RescueTime. Или просто отключите роутер от розетки, когда у вас есть дела.
Другой способ — сделать провал воистину болезненным. Вебсайт «stickK» позволяет вам отложить деньги, которые вы потеряете, если не выполните цель, и обеспечивает, чтобы у вас был сторонний судья, который решит, выполнили вы цель или нет. Чтобы «поднять ставки», сделайте так, чтобы ваши деньги в случае вашего провала ушли в организацию, которые вы ненавидите. И попросите выбранного судью опубликовать подробности вашего благотворительного взноса в Фейсбуке, если вы не выполните цель.
Сотни книг рекомендуют постановку целей по системе SMART: цели должны быть конкретными, измеримыми, достижимыми, реалистичными и привязанными ко времени. Эти рекомендации подкреплены хорошими исследованиями? Не особо. Во-первых, заметим, что достижимость перекрывается реалистичностью, а конкретность перекрывается измеримостью и привязанностью ко времени. Во-вторых, отсутствуют важные концепции. Выше мы уже подчёркивали важность того, чтобы цели были трудными, но интересными (и вели к состоянию «потока») и значимыми (связанными с тем, что вы хотите).
Также важно разделять задачи на множество мелких подзадач, которые проще достичь и у которых более близкие сроки выполнения. Например, часто ставят задачи на день, но также может помочь постановка цели на «прямо сейчас», чтобы прорваться через порог «включения в работу». Первой целью может стать «Написать письмо продюсеру», а следующей — задача дня. После выполнения первой 5-минутной задачи вы, вероятно, уже окажетесь на пути к выполнению большей по объёму задачи дня, даже если она требует 30 минут или 2 часа.
Ещё: у ваших задач измеряются затраты или результаты? Ваша задача — потратить 30 минут на дело Х или получить конечный результат Х? Попробуйте оба способа для разных задач и выясните, какой лучше работает для вас.
Поскольку мы существа с привычками, помогает вхождение в рутинный процесс. Например: делайте упражнения в одно и то же время каждый день.
Подведем итоги. Чтобы побороть прокрастинацию, вам нужно увеличить вашу мотивацию для каждой задачи, которую вы склонны откладывать. Чтобы сделать ее, вы можете (1) оптимизировать ваш оптимизм, что вы сможете ее сделать, (2) сделать выполнение задачи интересным и приятным занятием и (3) предпринять шаги по уменьшению вашего уровня импульсивности. Для реализации этих вещей используйте методы, объясняемые выше (постановка целей, самоограничение, использование спиралей успеха и так далее)
Предупреждение: не пытайтесь быть идеальными. Не пытайтесь полностью исключить склонность откладывать дела на потом. Будьте реалистичны. Чрезмерное регулирование сделает вас несчастливым. Вам нужно найти баланс.
Итак, теперь у вас есть нужные инструменты. Выясните, какие переменные уравнения склонности откладывать дела на потом больше всего влияют на вашу ситуацию и какие методы изменения этих переменных лучше всего работают для вас. А затем давайте и сделайте себя сильней, выполните эту работу и помогите спасти мир!
(А также прочтите книгу «Уравнение прокрастинации» (English), если хотите узнать обо всём этом подробней, чем я написал здесь).
Как-то сотрудник сказал мне: «Люк! Ты, кажется, самый счастливый человек из всех, кого я знаю! Как тебе удается быть таким счастливым все время?»
Скорее всего это был риторический вопрос, однако у меня есть достаточно подробный ответ. Видите ли, я был несчастлив большую часть своей жизни и даже несколько раз задумывался о самоубийстве. Тогда я потратил два года на изучение науки счастья. Теперь счастье является моим естественным состоянием. Я не могу припомнить в последнее время такого, чтобы я был несчастлив больше чем 20 минут.
Это изменение не произойдет само собой со всеми, или даже со многими (за исключением некоторых), но это стоит попробовать!
Мы все хотим быть счастливы, и счастье полезно для многих вещей. К примеру, счастье улучшает физическое состояние, повышает креативность, и даже позволяет вам принимать лучшие решения. (Труднее быть рациональным, когда вы несчастливы.) Так что, как часть цепочки о том, как выигрывать в жизни с наукой и рациональностью, давайте рассмотрим науку счастья.
Раньше я заметил, что существует множество исследований тех факторов, которые связаны с субъективным благополучием (собственные оценки счастья и удовлетворенности жизнью человека).
К факторам, которые особо не связаны со счастьем, относят: возраст, пол, наличие детей, интеллект, физическая привлекательность и деньги (до тех пор, пока вы находитесь выше черты бедности). Факторы, которые умеренно связаны со счастьем: здоровье, социальная активность и религиозность. Факторы, значительно влияющие на счастье: генетика, любовь и удовлетворенность от отношений и работы.
Но одной взаимосвязи не достаточно. Мы хотим знать что является причиной счастья. И это понятие является более сложным для оценки. Но мы действительно кое-что об этом знаем.
Гены служат причиной около 50 % отклонений состояния счастья. Даже победители лотерей и недавно парализованные не замечают таких значительных изменений счастья, как вы можете ожидать. Предположительно, гены формируют счастье, формируя ваши личностные черты, которая, как известно, является наследственной.
Итак, какие же черты личности склонны больше всего влиять на счастье? Экстравертность является одним из лучших показателей счастья, так же как сознательность, уступчивость, чувство собственного достоинства и оптимизм.
Что если вам не присущи эти черты? Во-первых, надо отметить, что они могут быть присущи вам, но вы об этом не знаете. Интравертность, к примеру, может усиливаться из-за нехватки социальных навыков. Если вы решили выучить и практиковать социальные навыки, можете выяснить, что у вас есть гораздо больше экстравертности, чем вы думали раньше! (Так случилось со мной.) Тоже самое подходит и для сознательности, уступчивости, самоуважения и оптимизма — они только частично связаны с личностью. Они относятся к тем навыкам, которым в определенной степени можно научится, и их изучение (или даже притворство, что научились) может увеличить счастье.
Во-вторых, недостаточность каких-либо из этих черт конечно же не обрекают вас на несчастье.
Счастье определяется не объективными факторами, а вашим отношением к ним.
Счастье также относительно: вы, вероятно, будете счастливее, зарабатывая 25000 долларов в год на Коста Рике (где ваши соседи будут получать 13000 долларов в год), чем если будете зарабатывать 80000 долларов в год в Беверли Хиллз (где ваши соседи будут получать 130000 долларов в год).
Счастье является относительным понятием и в другом смысле: по отношению к вашим ожиданиям. Мы достаточно слабо можем спрогнозировать силу наших эмоциональных реакций на будущие события. Мы переоцениваем страдания, которые можем познать после разрыва романтических отношений, невозможность получить повышение, или даже подхваченную болезнь. Также мы переоцениваем радость, которую можем ощутить от покупки новой машины, получения повышения или поездки в милый прибрежный город. Потому снижайте ваши ожидания об удовольствии, которое вы получите от расходов такого рода.
Вы, должно быть, слышали об известном исследовании, которое показывает, что люди становятся счастливее, когда они находятся в состоянии «потока». Это такое состояние, в котором вы полностью поглощены своей целью, которая интересна, сложна, и действительно полезна для вас. Это опыт «растворения в моменте» или, как говорят спортсмены, «нахождение в своей стихии».
Обретение потока в значительной мере связано с выполнением тех задач, которые соответствуют уровню вашей квалификации. Когда задание выходит далеко за рамки ваших способностей, вы будете чувствовать себя побежденным. Если задание слишком простое, вам будет скучно. Только когда задание сложное, но приемлемое, вам будет нравиться его выполнять. Мне вспомнилось состояние полицейских из фильма «Суперполицейские», которые придумывали странные игры и проблемы, чтоб сделать свою работу терпимой. Миртл Янг свою скучную работу на фабрике картофельных чипсов делала более интересной и сложной, выискивая картофельные чипсы похожие на знаменитостей, и забирала их с конвейерной ленты в свою коллекцию.
Если вы испытываете трудности с негативными эмоциями, достижение потока, возможно, будет лучшим лекарством. В противовес популярному мнению, позитивное мышление, для которого нужно прилагать усилия, часто делает вещи хуже. Пытаться не думать о расстраивающей мысли Х дает тот же эффект, что и попытка не думать о розовом слоне: вы ничего не можете сделать, а все равно думаете о розовом слоне.
В то время как пребывание «потерянным в моменте» может дать вам несколько лучших моментов в жизни, исследование также показало, что когда вы не в потоке, то попытка сделать перерыв и практиковать осознанность — то есть уделить внимание окружающей ситуации, вашим действиям и вашим ощущениям — может уменьшить хроническую боль и депрессию, уменьшить стресс и усталость, и дает целый ряд других положительных эффектов.
Итак, счастье — это весьма сложная штука. Хуже того, мы должны помнить разницу между опытом счастья и воспоминаниями о нем. Я могу только слегка коснуться темы исследования счастья в этом крошечном посте. Вкратце, не существует простого способа исправить несчастье; не существует прямого пути к блаженству.
Более того, счастье по разному достигается разными людьми. Человек, страдающий от депрессии, вызванной химическим дисбалансом, получит больше пользы от таблетки, нежели от улучшения навыков социального взаимодействия. Здоровая, приятная, ответственная женщина-экстраверт все равно может быть несчастной, если она в ловушке неудачного замужества. Некоторые люди были воспитаны родителями, чей стиль воспитания не способствовал развитию здоровой самооценки, и нужно приложить значительные усилия, чтобы скомпенсировать этот недостаток. Для некоторых дорога к счастью длинна. Для остальных — коротка.
Ниже я рассматриваю ряд методов для того, чтобы стать счастливее. Некоторые из них я рассмотрел выше, многие — нет.
Эти методы грубо рассортированы в порядке убывания важности и эффективности, основываясь на моем читательском опыте. Вы должны подумать о том, кто вы, что делает вас счастливым, а что — несчастным, и чего вы можете достигнуть, чтобы определить какой из нижеописанных методов нужно попробовать первым. Еще, использование какого-либо из этих методов может потребовать от вас сначала достигнуть некоторых успехов в борьбе с откладыванием дел.
Итак, вот несколько методов для того, чтобы стать счастливее:
Замечу, что стремление к счастью, как к конечной цели, может оказаться непродуктивным. Многие люди отмечают, что постоянные попытки проверить счастливы ли они, на самом деле только понижают уровень счастья — эти слова вполне соответствуют данным по исследованию состояния потока. Лучше стремиться достигать поставленных целей, а счастье будет побочным эффектом.
Помните: счастье не наступит в результате чтения статей в интернете. Счастье придет, когда вы выполните рекомендации этого исследования.
Удачи!
Однажды у меня сломалась посудомоечная машина. Я позвала на помощь Стива Рейхока, потому что он «хорошо разбирается в технике».
«Слив засорился», — сказал он.
«Как ты это понял?» — спросила я.
Он указал на оставшуюся грязную воду.
«Вода не уходит».
Мы прочистили засор, и посудомоечная машина заработала.
Я чувствовала себя глупо, потому что тоже могла бы до этого додуматься. Вода не уходила — возможно, потому что слив засорился. Базовая рациональность в действии.1
Но вместо того, чтобы подумать о проблеме хотя бы десять секунд, я классифицировала проблему как «техническую». И вспомнила, что «не знаю, как работает техника» (кэшированная мысль). А потом под влиянием моей кешированной веры в то, что существует магический «способ заставить технику работать», о котором знают другие люди, но не знаю я, я вообще перестала пытаться думать на эту тему.
«Техника» была для меня ментальным стоп-сигналом — пустой областью, которая всегда оставалась пустой, потому что я никогда не задавала напрашивающихся следующих вопросов (например: «Замечаю ли я в посудомоечной машине что-то необычное? Почему на её дне вода?»)
Когда я преподавала математику, новые ученики вели себя так, будто формулы степеней (или любой другой изучаемый материал) упали с неба на каменных скрижалях. Они жёстко цеплялись за эти ниспосланные правила. Им не приходило в голову попытаться их понять или сымпровизировать. Студенты относились к математике так же, как я к сломанным посудомоечным машинам.
Чтобы описать состояние, при котором некто научился вести себя так, будто он беспомощен, Мартин Селигман когда-то ввёл термин «выученная беспомощность». Я думаю, что нам нужен термин для выученной беспомощности в мышлении. Мне нравится вариант «выученное непонимание»2 3. Люди, павшие жертвой выученного непонимания, всё ещё могут что-нибудь делать — мои ученики иногда повторяли формулы снова и снова, нанимали репетитора и так далее. Но в их исполнении это походило на ритуал поклонения неизвестному божеству — какая-то их часть прикладывала усилия, но их центр, отвечающий за понимание предмета, сдался.
На всякий случай подчеркну: вызвать сантехника и понять, что он знает больше, чем вы, зачастую очень хорошая идея. Однако нужно избегать ситуаций, в которых вы мысленно ограничиваете собственные способности, сохраняете какие-то куски вашей карты пустой, потому что решили, что некая область либо не подчиняется никаким законам, либо рассуждать о ней могут лишь люди, обладающие какими-то особыми навыками.
Выученное непонимание встречается часто. Предполагаю, что большинство из нас воспринимает почти всё вокруг как нечто совершенно непостижимое4. Чтобы увидеть собственное непонимание, попробуйте примерить на себя следующие примеры:
Когда у Сандры ломается компьютер, она беспомощно бежит к своей соседке по комнате за помощью, ведь Сандра «не ладит с компьютерами». Её соседка, напротив, куда-то тыкает, что-то вводит, лезет в Google и находит решение.5
Большинство ученых знают, что научный метод — это хорошо (и, например, что p-значения меньше 0,05 — это хорошо). Но многие не просто не понимают, почему научный метод (или подобные p-значения) хорош. Они не понимают, что могли бы это понять.
Многие, сталкиваясь с вопросами о сознании, морали или Боге, ожидают, будто для таких ситуаций нужен какой-то особый способ рассуждений. Таким образом они не доверяют собственным впечатлениям и отгораживаются от них.
Фред осознаёт, что интуитивно опасается развития нанотехнологий. Но на его карте интуиции соответствует пустое пятно: он может пойти на поводу у своей интуиции, может её проигнорировать, но он не в состоянии её исследовать6. Ему не приходит в голову изучить причины своих интуитивных представлений или оценить степень их точности.
Мне трудно писать художественную литературу — впрочем, алкоголь помогает. Проблема в том, что, поскольку я не умею писать художественный текст и мне больно замечать собственное неумение, большая часть моего разума предпочитает либо вообще не писать, либо писать без энтузиазма, ковыряясь в мелких деталях. Точно так же многие специалисты по высшей математике избегают попыток попробовать себя в философии, социальных науках или других «грязных» областях знаний.
У Боба есть смутное желание «победить» в жизни и смутное недовольство своей нынешней траекторией. Но он никогда не пытался сформулировать, что именно он подразумевает под «победой», или что ему нужно изменить, чтобы добиться её. Он даже не понимает, что он мог бы этим заняться.
Сандра просто почти ни о чем не думает. Она ездит на работу в машине, которая работает «по волшебству», садится на своё место в офисе компании, которая приносит прибыль «по волшебству», и всерьёз думает лишь над своей работой. Затем она заказывает ланч, который ей «по волшебству» нравится, болтает с коллегами, используя «по волшебству» привычные шаблоны общения, работает ещё четыре часа и возвращается домой к отношениям, которые «волшебным» образом преуспевают или терпят крах.
Я не хочу сказать, что мы постоянно должны пересматривать вообще всё. Полезно уметь направлять своё внимание и сосредотачиваться на своей работе. Но обсуждаемое здесь «выученное непонимание» не связано с какой-то целью. Выученное непонимание — это не просто решение игнорировать некую область. Это вера в то, что данная область для вас недоступна. Это отстранение от тех частей вашего разума, которые могли бы разобраться в непонятном.
По аналогии: часто есть веские причины чего-нибудь не делать, например, не искать новую работу, нового романтического партнера, не осваивать новые навыки… Однако если человек всё это не делает из-за подавляющей выученной беспомощности, это плохо.
Есть много причин, почему люди чувствуют себя беспомощными при попытке понять что-либо. Например:
А. Просто привычка. Вы не привыкли думать об этом. Поэтому автоматически вы об этом и не думаете;
Б. Желание избежать неминуемых поначалу грубых ошибок, которые поставят вас перед фактом вашей возможной некомпетентности (как, например, мой страх писать художественную литературу);
В. Избегание социальных конфликтов или претензий на статус. Если ваш начальник / супруг / супруга / кто угодно ещё расстроится от вашего несогласия, вам может быть выгодно «не разбираться» в некоей области.
Поэтому, если вы хотите уменьшить своё выученное непонимание, постарайтесь замечать области, которые вас волнуют, но которые вы при этом считаете «непостижимыми». Затем посейте в своём разуме мысли, касающиеся этой области: установите таймер на десять минут и напишите как можно больше вопросов на эту тему. Ещё лучше: пообщайтесь с людьми, для которых эта область не является непостижимой. Научитесь делать что-нибудь новое, чтобы лучше погрузиться в эту тему. Спросите, какие вспомогательные навыки могут вам помочь.
Если возникают страхи, такие как (Б) и (В), попробуйте спросить себя: «Интересно, что нужно сделать, чтобы [достичь моей цели]?». Например: «Интересно, что мне нужно, чтобы чувствовать себя комфортно, когда я танцую?» или «Интересно, что мне требуется, чтобы писать литературные тексты без страха?».
Вам даже не обязательно отвечать на эти вопросы. Если это тема, которой вы боялись, то просто спросите. Это даст вам толчок. Затем найдите ответы в Google, Wikipedia или How.com и наслаждайтесь получением компетенции.
— Ну… — потянул Гарри. Вилка и нож в его руках нервно пилили отбивную на всё более тонкие ломтики. — По-моему, нетрудно сделать что-нибудь, если оно лежит в рамках привычного мира… Например, если от тебя ждут, что ты это сделаешь, или если у тебя уже есть необходимые для этого навыки, или ты выполняешь работу под наблюдением человека, который не даст тебе совершить ошибку и проследит, чтобы ты сделал свою часть. Но для таких ситуаций, скорее всего, уже есть готовые решения, а значит в них не нужны герои. Поэтому я считаю, что люди, которых мы называем «героями», редки, поскольку им приходится всё делать самостоятельно, а большинство чувствует себя неуютно в таких обстоятельствах.
Получение некоторых навыков в значительной степени связано с явной и умышленной передачей информации. Например, можно явным образом узнать название столицы Миссури, количество миль, которое можно проехать без дозаправки, или формулу нахождения корней квадратного уравнения.
Другие же навыки почти целиком опираются на полуинтуитивные, неявные шаблоны восприятия и поведения. К таким навыкам, например, относятся:
и так далее. Эксперты в этих навыках часто не в состоянии точно и подробно объяснить, как они делают то, что делают, однако это ничуть не умаляет их способностей.
Я бы хотела поделиться некоторыми идеями о том, как осваивать подобные «гибкие навыки».
Когда вы читаете учебник по химии, после каждого предложения имеет смысл задавать вопрос: «Правда ли то, что я узнал?». Если для значительного числа предложений ответом будет «нет», скорее всего, вам стоит отложить этот учебник и поискать другой, получше. Предполагается, что учебники по химии состоят из достоверных утверждений — утверждений, которые вы без колебаний можете добавить к своей коллекции «достоверных и недвусмысленных утверждений» и благодаря этому стать лучше в химии. Если же книга не удовлетворяет этому критерию, её главная ценность теряется.
Однако, на мой взгляд, для гибких навыков это не так.
«Внутренний симулятор» — это предложенный CFAR способ различать декларируемые убеждения и ожидания. По сути, «внутренний симулятор» — это та ваша часть, которая способна перемотать плёнку вперёд, чтобы определить, чего ждать дальше: «Успею ли я повернуть налево до того, как эта машина достигнет меня?», «Как она отреагирует, если я подойду и скажу: „Привет“?». То есть, какую сцену мой внутренний видео-проигрыватель показывает следующей в фильме, где я подхожу к незнакомке и говорю: «Привет».
Скорее всего, в вопросах, где у вас есть богатый опыт — например, в вопросах социального взаимодействия или физических явлений, с которыми вы сталкиваетесь ежедневно — ваш «внутренний симулятор» гораздо точнее сформулированных явным образом моделей. Наверняка он хуже в тех областях, где вы достаточно начитаны — например, у вас может быть в голове точная модель «эффекта свидетеля», но в реальной ситуации у вас могут возникнуть неверные ожидания и вам придётся вносить поправки уже на уровне сознания. И на внутренний симулятор всегда должно «заземляться» обучение, направленное на изменение автоматических ответов системы 1 (такие как шаблоны восприятия или привычки «триггер-действие», столь важные во многих «гибких навыках»).
На мой взгляд, большинство книг о «гибких» навыках не ставят своей целью расширить ваш багаж «достоверных явно сформулированных утверждений». Вместо этого они пытаются спровоцировать вас на эксперименты в вашем внутреннем симуляторе, и тем самым дать вам какие-то идеи. Некоторые идеи в вашем внутреннем симуляторе будут выглядеть многообещающе, некоторые — нет. Лучшие вы сможете попробовать в реальной жизни.
Чтобы понять, как это работает, представьте, что вы попали в неоднозначную социальную ситуацию. Предположим, что Фред, ваш сосед по совместно снимаемой квартире, легко раним и обидчив, а ещё оставляет после себя полный бардак на кухне. Вы перебрали какое-то число идей, как с ним можно было бы поговорить, но по вашим оценкам все они закончатся, скорее всего, плохо. И вот вы стоите в отделе «самопомощи» книжного магазина и ищите, собственно, помощи.
В ходе поисков вы натыкаетесь на множество советов, которые вы уже слышали. Например: «представьте ситуацию со стороны Фреда» или «объясните Фреду, в чём будет выгода для него, сошлитесь на его собственные интересы или сыграйте на его гордости». Согласитесь, до многих из этих советов можно дойти своим умом. Тем не менее, в случае с Фредом большую их часть вы так и не опробовали. При этом вам хочется их применить — истории из книг действительно мотивируют посмотреть на ситуацию глазами Фреда, и вы спонтанно начинаете представлять, что, возможно, чувствует он. Между делом вы также обнаруживаете в своей голове новые идеи, как можно начать разговор. Отчасти они появились благодаря прочитанным историям, и некоторые из них очень даже ничего.
Некоторые из книг при этом содержат утверждения, которые, с вашей точки зрения, являются полной чушью. Например, одна из них сообщает, что все ваши конфликты с Фредом вызваны тем, что его или вас недостаточно хвалили в детстве. Вы примеряете и такую точку зрения, но вам от неё становится не по себе, никаких новых озарений не происходит, поэтому вы переходите к следующей главе.
В этом примере, книги выполняют роль не столько источника достоверных знаний, сколько подспорья для вашего собственного процесса восприятия, трактовки, целеполагания и планирования. И в этом смысле такая литература полезна.
Пока я читала «Узы, которые освобождают»1, я встретила много явных утверждений, с которыми полностью не согласна (например, утверждения о христианском боге). Я воспринимала их как поэзию: я пыталась представить себе мир, в котором живет автор, и как бы я выглядела в этом мире, то есть лучше разобраться, как автор понимает людей и их взаимоотношения.
В книге также было много историй, каждая из которых внутри моей симуляции была «похожа на правду» (соответствовала миру в той степени, в какой я его понимаю). И вместе эти истории наталкивали меня на новые закономерности. По мере чтения я чувствовала, как меняется моя интуиция в описываемых вопросах — я стала замечать в историях типичные детали, которые раньше проходили мимо моего внимания, а сейчас их удалось вынести на сознательный уровень.
Благодаря этой книге, я изменила своё представление о том, как рационализация влияет на близкие отношения, и улучшила навык отстраняться от своих рационализаций, чтобы лучше понимать близких мне людей. Также мне стало легче игнорировать обвинения со стороны «общества»2. И эти изменения произошли не потому, что я доверяла автору и слушала его советы. А потому, что я посмотрела на мир с его точки зрения, и те закономерности, на которые он указывал, вписались в мою картину мира.
То, о чём я пишу, можно попробовать, читая книги. Но поскольку полезность книг кроется не только в их точности, есть и другой путь (возможно, не менее эффективный): взять и написать собственную книгу — или, по крайней мере, 5 минут от этой книги. Можете воспринимать это упражнение как способ отвлечь Систему 1 от привычных шаблонов.[1]
Засеките 5 минут (I):
Выберите гибкий навык Х, который вы хотели бы прокачать. Затем засеките 5 минут (в буквальном смысле, с настоящим таймером — подумать «примерно 5 минут» гораздо менее эффективно). В течение этих 5 минут письменно объясните себе, как делать Х.
Например, вы выбрали «нетворкинг на конференциях». Тогда эти 5 минут вы можете выписывать варианты, что именно в нём самое сложное и как с этими сложностями справляться. Скажем: «Я не знаю, как завязать разговор. Поэтому на конференции я могу понаблюдать за другими людьми и запомнить, как начинают разговор они. Ещё я могу попробовать просто начать с: „Здравствуйте, меня зовут Анна“, или: „О, вы же доктор Такой-то? Мне очень понравилась ваша работа о том-то и том-то“. Этот вариант, кстати, ничего. Мне стоит перед конференцией почитать абстракты и загуглить хотя бы некоторые статьи…»
Засеките 5 минут (II):
Это упражнение придумал Зак Вэнс, и оно мне очень нравится. Оно действительно стоит своих 5 минут. Снова выберите гибкий навык Х (например «нетворкинг на конференциях»), который вы хотели бы прокачать. Затем выберите другой навык Y, которым вы уже хорошо владеете (например, «программирование» — Y может быть любым навыком, не обязательно гибким). Теперь засеките 5 минут, и объясните (письменно или вслух другу) почему Х ничем не отличается от Y, в смысле, что человек, овладевший Y, уже знает все необходимое, чтобы преуспеть в Х, — нужно лишь приложить Y к Х. (Ваша цель: составить очень короткое руководство, позволяющее всем овладевшим Y заложить основу для обучения Х). Мой собственный пример (выросший из идеи «нетворкинг на конференциях ничем не отличается от программирования» можно увидеть по сноске [2].
При этом, конечно, важно не верить вообще всему, что вы сгенерировали за это упражнение — в конце концов, всё это написал втайне новичок в навыке Х. Однако, повторюсь, вы можете использовать написанное как отправную точку для экспериментов и тем самым помочь Системе 1 выбраться из локального оптимума в пространстве вариантов поиска новых идей, где она могла застрять.
Также можно сходить в книжный, посмотреть там новые книги по гибким навыкам и полистать какие-нибудь — возможно, некоторые из них с вами «срезонируют». Литературу такого рода можно найти в разделах про бизнес, самопомощь, континентальную философию, эзотерику, а также в узко специализированных разделах, посвящённых конкретным гибким навыкам, таким как писательство или решение проблем.
Во время чтения:
Во время чтения книги (или плодов своих пятиминуток), возможно, стоит задать про каждый параграф следующие вопросы:
Буду рада увидеть ваши любимые книги или стратегии для их чтения в комментариях!
[1] Кажется, Система 1 почти всегда застревает на привычных шаблонах. Например, я регулярно набираю текст и вожу машину, однако оба этих навыка за последние несколько лет практически не улучшились. Мое умение разговаривать улучшилось гораздо заметнее, но всё же и оно подвержено этой склонности «делать одно и то же снова и снова». Поэтому даже случайный шум может помочь как отправная точка для обучения чему-то новому.
(«Выученное непонимание»3, судя по всему, из той же серии, — человек застревает на уровне онтологии. Обычно книги по гибким навыкам нужны именно для того, чтобы помочь читателю перейти этот барьер.)
[2] Мой пример, придуманный за полторы минуты:
Нетворкинг на конференциях ничуть не отличается от программирования. Три добродетели программиста — лень, нетерпеливость и высокомерие, — а также аналитическое мышление и навык повторного использования кода позволят вам достичь тех же высоких результатов.
Re: Лень: Многие, попав на конференцию, начинают знакомиться изо всех сил и заставляют себя разговаривать со всеми подряд. Однако, вообще-то очевидно, что одни беседы гораздо полезней других. Будьте ленивы — ещё в самолёте (или во время скучного разговора) продумайте план, с кем и о чём вы хотите поговорить, а потом позиционируйте себя соответственно.
Также, приближаясь к новому человеку, смотрите на это как на возможность попрактиковать и отладить собственное приветствие, таким образом рассматривая его как модуль кода, который будет использован неоднократно, а не одноразовое задание, которое можно выполнить и забыть. А после бегло просмотрите свои воспоминания и подумайте, нельзя ли улучшить процесс.
Во время отладки вы можете искать «тестовые примеры» — например, подходить к людям, о репутации которых вам уже известно, или к людям, с которыми уже беседовали ваши друзья, чтобы понять, похоже ли ваше взаимодействие с ними на то, что вы слышали. Благодаря таким «тестовым примерам» вы можете сравнивать свои результаты с результатами других людей, что поможет вам в отладке собственных рутин.
Напомню, что текст выше я написала за 90 секунд, которые я отвела себе на это упражнение. Это не какой-то специально подобранный пример. И уж точно не стоит его считать проверенным руководством по нетворкингу. Тем не менее, возможно, он позволяет понять, как рационализация(!) может запустить процесс обучения.
Это продолжение текста Мышление Безопасника и Обыденная Паранойя.
(Через два дня Эмбер возвращается с другим вопросом.)
ЭМБЕР: Эмм, Корал, скажи, насколько важно мышление безопасника, когда ты создаёшь систему совсем нового вида, скажем, подверженную потенциально неблагоприятным оптимизационным давлениям, если ты хочешь, чтобы она имела некоторое устойчивое свойство?
КОРАЛ: Насколько система оригинальна?
ЭМБЕР: Очень оригинальна.
КОРАЛ: Настолько оригинальна, что тебе приходится изобретать свои собственные лучшие практики, а не узнавать существующие?
ЭМБЕР: Верно.
КОРАЛ: Дело серьёзное. Если ты создаешь очень простую соединённую с Интернетом систему, то, может, умный обыденный параноик может посмотреть на то, как мы обычно защищаемся от противников, использовать столько готового проверенного настоящими специалистами по безопасности софта, сколько возможно, и справиться не слишком ужасно. Но если ты делаешь что-то качественно новое и сложное, что должно быть устойчивым перед лицом неблагоприятной оптимизации, ну… в целом, я думаю, что ты действуешь на почти что до невозможности опасной территории, и я бы посоветовала тебе сообразить, что делать после того, как первая попытка провалится. Но если ты хочешь и впрямь преуспеть, то обыденной паранойи совершенно точно не хватит.
ЭМБЕР: Другими словами, проекты создания оригинальных критических систем обязаны иметь советников с полноценным мышлением безопасника, чтобы советник мог говорить, что создатели системы должны сделать, чтобы обеспечить надёжность.
КОРАЛ: (грустно усмехается) Нет.
ЭМБЕР: Нет?
КОРАЛ: Давай для конкретики скажем, что ты хочешь создать новую надёжную операционную систему. Это не то, что ты можешь сделать, назначив одного советника с мышлением безопасника и ограниченным политическим капиталом, который он может использовать, чтобы убеждать людей что-то сделать. В качестве метафоры на ум приходит «Строить дом, когда тебе разрешено касаться кирпичей только пинцетом». Тебе понадобятся опытные специалисты по безопасности, работающие на полную ставку и обладающие абсолютным авторитетом. Три, один из которых – сооснователь. Иначе мы всё равно можем оказаться на территории Парадокса Дизайна Пола Грэхэма.
ЭМБЕР: Парадокс Дизайна? Что это?
КОРАЛ: Парадокс Дизайна Пола Грэхэма заключается в том, что люди с хорошим вкусом на интерфейсы могут сказать, проектируют ли другие люди хорошие интерфейсы, но большинство директоров больших компаний хорошего вкуса лишены, и не могут сказать, у кого он есть. И поэтому большие компании не могут просто нанимать людей, талантливых как Стив Джобс, чтобы они создавали для них красивые штуки, хоть Стив Джобс точно не был лучшим дизайнером на планете. Apple существует из-за удачно сложившихся обстоятельств, что Стив Джобс оказался главным. Samsung никак не может нанять кого-то с такими же талантами, потому что Samsung просто получит какого-то парня в костюме, который хорошо будет притворяться Стивом Джобсом перед директорами, которые не увидят разницу.
Аналогично, люди с мышлением безопасника могут заметить, когда у других людей его нет, но я беспокоюсь, что обыденный параноик с трудом заметит разницу, так что ему сложно будет нанять по-настоящему компетентного советника. И, конечно, много людей в большой социальной системе, стоящей за технологическими проектами, лишены даже обыденной паранойи, которой обладают многие хорошие программисты, так что они просто оказываются с костюмами, много говорящими про «риски» и «надёжность». Другими словами, если мы говорим о чём-то настолько сложном, как создание надёжной операционной системы, и твой проект изначально не возглавляется кем-то с полноценным мышлением безопасника, то у тебя проблемы. Говоря «проблемы», я имею в виду «тотально непоправимо обречены».
ЭМБЕР: Смотри, ух, есть некоторый проект, в который я вкладываюсь, собравший сотню миллионов долларов на создание торговых дронов.
КОРАЛ: Торговых дронов?
ЭМБЕР: Ну, есть много стран с плохой рыночной инфраструктурой, и идея в том, что мы сделаем дронов, которые будут летать, покупать и продавать вещи, и они будут использовать машинное обучение, чтобы понять, какие устанавливать цены, и всё в таком роде. Это не только ради денег, мы думаем, что это принесёт этим странам огромную экономическую пользу, действительно поможет их развитию.
КОРАЛ: Боже мой. Окей. Ваша компания в точности про две штуки: надёжность системы и договоры с регулирующими органами. Ну, и ещё маркетинг, но он не считается, потому что каждая компания про маркетинг. Было бы серьёзной ошибкой представлять, что ваша компания про что-то другое, вроде железа дронов или машинного обучения.
ЭМБЕР: Ну, настроения внутри компании такие, что время, чтобы начать думать о законах и надёжности будет, когда мы докажем, что можем создать прототип, и у нас будет запущен хоть небольшой пилотный рынок. В смысле, пока мы не узнаем, как люди используют систему, и как работает софт, сложно представить, что мы можем продуктивно, а не чисто умозрительно, думать о надёжности или регулировании.
КОРАЛ: Ха! Ха, хахаха… о боже мой, ты не шутишь.
ЭМБЕР: Что?
КОРАЛ: Пожалуйста, скажи мне, что то, что ты на самом деле имела в виду – это что у вас есть дорожная карта по надёжности и регулированию, согласно которой вы будете делать некоторую работу позже, но которая явно указывает, какая работа должна быть сделана, когда вы начнёте её делать, и когда должна быть достигнута каждая веха. Конечно, ты не буквально имела в виду, что вы намерены начать думать об этом потом?
ЭМБЕР: Мы много раз на ланче говорили о том, как нас раздражает, что нам надо будет иметь дело с регуляциями и как лучше было бы, если бы государства были более либертарианскими. Это считается за «думать об этом», верно?
КОРАЛ: Боже мой.
ЭМБЕР: Я не понимаю, как мы можем иметь план надёжности, когда мы не точно знаем, надёжности чего. Не окажется ли он попросту ошибочным?
КОРАЛ: Все бизнес-планы стартапов оказываются ошибочными, но они всё равно нужны – и не просто как литературные произведения. Они отображают в письменной форме ваши нынешние убеждения и ключевые допущения. Записывание вашего бизнес-плана проверяет, могут ли ваши нынешние убеждения в принципе быть непротиворечивыми, и подсказывает, какие критические убеждения проверить первыми, и какие результаты должны быть тревожащими, и когда вы опускаетесь ниже ключевых порогов выживания. Идея не в том, что вам нужно придерживаться бизнес-плана; она в том, что бизнес-план (а) проверяет, кажется ли успех вообще возможным любыми способами, и (б) сообщает, когда одно из ваших убеждений опровергнуто, чтобы вы могли явно изменить план и адаптироваться. Иметь записанный план, который вы намерены быстро корректировать при появлении новой информации – одно. НЕ ИМЕТЬ ПЛАНА – другое.
ЭМБЕР: Штука в том, что я несколько обеспокоена, что глава нашего проекта, Мистер Топаз, не особо уделяет внимания возможности, что кто-то обманом заставит дроны отдавать деньги, когда они не должны это делать. В смысле, я пыталась поднять эту тему, но он сказал, что конечно мы не собираемся программировать дроны выдавать деньги кому попало. Может, ты можешь дать ему пару советов? В смысле, о том, когда наступает время начинать думать о надёжности.
КОРАЛ: Ох. Ох, дорогая, милое, милое дитя. Извини. Я ничего не могу для тебя сделать.
ЭМБЕР: А. Но ты даже не взглянула на нашу прекрасную бизнес-модель!
КОРАЛ: Я думала, что, может быть, у вашей компании просто безнадёжный случай недооценённых сложностей и неправильно расставленных приоритетов. Но сейчас это выглядит, будто ваш лидер даже не использует обыденную паранойю, и со скептицизмом на неё реагирует. Называть этот случай «безнадёжным» было бы преуменьшением.
ЭМБЕР: Но провал надёжности был бы очень плох для стран, которым мы пытаемся помочь! Им нужны надёжные торговые дроны!
КОРАЛ: Тогда им нужны дроны, созданные каким-нибудь проектом, которым руководит не мистер Топаз.
ЭМБЕР: Но это очень сложно устроить!
КОРАЛ: …Я не понимаю, как то, что ты говоришь, должно противоречить тому, что я говорю.
ЭМБЕР: Слушай, не судишь ли ты о мистере Топазе слишком быстро? Серьёзно.
КОРАЛ: Я его не встречала, так что возможно, что ты создала у меня неправильное о нём представление. Но если ты правильно отобразила его отношение? То да, я посудила быстро, но это чертовски хорошая догадка. Мышление безопасника уже априори редко встречается. «Я не планирую делать так, чтобы мои дроны отдавали деньги случайным людям» означает, что он представляет, как его система будет работать, как задумано, вместо того, чтобы представлять, как она может работать не как задумано. Если кто-то даже не демонстрирует обыденную паранойю, спонтанно, по своей собственной инициативе, без внешнего толчка, то такой человек не может заниматься безопасностью, точка. С негодованием реагировать на предположение, что что-то может пойти не так – за пределом даже этого уровня безнадёжности, который уже был достаточно безнадёжен.
ЭМБЕР: Слушай… ты можешь просто пойти к мистеру Топазу и попробовать сказать ему, что ему надо сделать, чтобы добавить его дронам немного надёжности? Просто попробовать? Потому что это супер-важно.
КОРАЛ: Я могу попробовать да. Я не могу преуспеть, но попробовать могу.
ЭМБЕР: О, но, пожалуйста, будь осторожна, не будь с ним сурова. Не фокусируйся на том, что он делает неправильно – и попробуй ясно показать, что эти проблемы не слишком серьёзные. Ему надоел алармизм в медиа про апокалиптические сценарии с армиями злых дронов, заполняющих небо, и мне было непросто убедить его, что я не просто ещё один алармист с фантастическими катастрофическими сценариями дронов, отвергающих собственные программы.
КОРАЛ: …
ЭМБЕР: И, может, попробуй не касаться в вводном разговоре того, что может прозвучать безумными крайними случаями, вроде того, что кто-то забыл проверить конец буфера, а противник закинул туда огромную строку символов, переписавших конец стека адресом возврата, перенаправляющим в раздел кода где-то ещё, где система делает то, что надо противнику. В смысле, ты убедила меня, что об этих притянутых за уши сценариях стоит волноваться, даже если они лишь канарейки в угольной шахте более реалистичных провалов. Но мистер Топаз думает, что это немного глупо, и я не думаю, что тебе стоит пытаться объяснять ему на мета-уровне, почему это не так. Он скорее всего подумает, что ты снисходительно говоришь ему, как думать. Особенно если ты просто занимаешься операционными системами, и не имеешь опыта создания дронов, и не видишь, что на самом деле заставляет их ломаться. В смысле, я думаю, что он скажет тебе что-то такое.
КОРАЛ: …
ЭМБЕР: Ещё, давая советы, начни с самых дешёвых исправлений. Я не думаю, что мистер Топаз хорошо отреагирует, если ты скажешь ему, что надо начать всё заново на другом языке программирования, или организовать ревизионную комиссию для всех изменений кода, или что-то такое. Он беспокоится о том, что конкуренты выйдут на рынок первыми, так что он не хочет делать что-то, что его замедлит.
КОРАЛ: …
ЭМБЕР: Э, Корал?
КОРАЛ: … замедлит его оригинальный проект, в новой области, занимающийся не в точности тем, что кто-то уже делал, с оригинальными критически важными подзадачами, для которых нет ни стандартизированных лучших практик безопасности, ни какого-либо понимания, что делает систему устойчивой или неустойчивой.
ЭМБЕР: Верно!
КОРАЛ: И сам мистер Топаз, кажется, не слишком ужасается этой ужасающей задачей, которая перед ним стоит.
ЭМБЕР: Ну, его беспокоит, что кто-то другой сделает торговых дронов первым и злоупотребит этой ключевой экономической инфраструктурой в плохих целях. Это по сути та же штука, верно? Вроде, это демонстрирует, что его может что-то беспокоить?
КОРАЛ: Это абсолютно другое. Обезьяны, которые могут бояться, что другие обезьяны доберутся до бананов первыми, встречаются куда чаще, чем обезьяны, беспокоящиеся, что бананы проявят странное поведение системы перед лицом неблагоприятной оптимизации.
ЭМБЕР: Ох.
КОРАЛ: Я боюсь, что то, что мистер Топаз пересмотрит для себя принципы создания устойчивого софта, лишь немногим вероятнее, чем что Луна спонтанно превратится в органически выращенный козий сыр.
ЭМБЕР: Я думаю, ты с ним слишком сурова. Я знаю мистера Топаза, и он кажется мне довольно умным.
КОРАЛ: Опять же, при условии, что ты точно его описала, мистер Топаз кажется лишённым того, что я называю обыденной паранойей. Если у него и есть эта когнитивная способность, как у многих умных программистов, то, очевидно, он не склонен применять эту паранойю к ключевым параметрам своего проекта дронов. Ещё, кажется, мистер Топаз не осознаёт, что есть навык, которого он лишён, и был бы оскорблён таким предположением. В голову приходит история про фермера, которого проезжающий водитель спросил дорогу до Пункта Б, на что фермер ответил «Если бы я пытался попасть в Пункт Б, я бы точно не начинал отсюда.»
ЭМБЕР: Мистер Топаз значительно продвинул прогресс технологий дронов, так что он не может быть глупым, верно?
КОРАЛ: «Мышление безопасника» кажется мне когнитивным талантом, отдельным от g-фактора и даже от способностей к программированию. На самом деле, кажется, нет такого уровня человеческой гениальности, который гарантировал бы хотя бы способность к обыденной паранойи. Это заставляет некоторых специалистов по безопасности, включая меня, чувствовать себя несколько странно – так же, как многим программистам сложно понять, почему не кто угодно может научиться программировать. Но, кажется, наблюдения говорят о том, что и обыденная паранойя, и мышление безопасника – это штуки, которые могут быть отделены от g-фактора и способностей к программированию – и что если бы это было бы не так, то Интернет был бы куда надёжнее, чем на самом деле.
ЭМБЕР: Как ты думаешь, помогло бы, если бы мы поговорили с другими вкладчиками, финансирующими этот проект, и убедили бы их попросить мистера Топаза назначить Специального Советника по Устойчивости, докладывающего напрямую Главному Техническому Директору? Мне это кажется политически сложным, но возможно, мы могли бы такое провернуть. Когда пресса начала делать предположения о восстающих дронах, может быть, собирающихся в больших роботов с лазерами в глазах в духе Вольтрона, мистер Топаз сказал вкладчикам, что он очень обеспокоен этикой безопасности дронов, и что у него было много долгих разговоров об этом в обеденные часы.
КОРАЛ: Тут я выхожу немного за пределы своей области профессионализма, которая не включает саму по себе корпоративную политику. Но предполагаю, что для подобного пытающегося войти в новую область проекта человек с мышлением безопасника должен иметь как минимум статус сооснователя, и ему должны лично доверять все сооснователи без этого навыка. Это не может быть приведённый вкладчиками чужак с ограниченным политическим капиталом и необходимостью выигрывать спор каждый раз, когда надо убедить не держать все сервисы удобно включёнными по умолчанию. Я подозреваю, что вашим стартапом просто руководит не тот человек, и что эту проблему нельзя исправить.
ЭМБЕР: Пожалуйста, не сдавайся так просто! Даже если всё настолько плохо, как ты говоришь, просто увеличение вероятности того, что наш проект будет надёжным с 0% до 10% было бы очень ценно с учётом всех тех людей во всех тех странах, которым нужны торговые дроны.
КОРАЛ: …смотри, в какой-то момент надо попробовать отсортировать наши приложенные усилия и сдать те, которые нельзя вытащить. Ты знаешь, что зачастую вероятность успеха меняется по логистической кривой? Расстояния измеряются в мультипликативных шансах, не аддитивных процентах. Ты не можешь взять такой проект и допустить, что, приложив некую тяжёлую работу, ты можешь увеличить его абсолютный шанс успеха на 10%. Скорее, шансы провала к шансам успеха этого проекта изначально 1,000,000:1, и если мы будем очень вежливо обхаживать ощущение мистера Топаза, что его статус выше нашего, и сможем объяснить ему пару советов, ни в какой момент не звуча так, будто мы думаем, что знаем что-то, чего не знает он, то мы сможем упятерить его шансы на успех, и они станут 200,000:1. Что в мире десятых долей процентов означает повышение шансов с 0.0% до 0.0%. Это один из способов думать о «законе продолжающегося провала».
Если бы у тебя был проект, где изначально получались, скажем 15% шансов успеха, то это была бы нужная часть логистической кривой, и в таком случае было бы весьма осмысленно искать способы повысить шансы до 30% или 80%.
ЭМБЕР: Смотри, я обеспокоена, что будет очень плохо, если мистер Топаз первым выйдет на рынок с ненадёжными дронами. Ну, я думаю, что эти дроны могли бы быть очень выгодны для стран без особой существующей рыночной основы, а при крупном провале – особенно, если у одного из потенциальных клиентов украдут деньги или вещи – то это отравит потенциальный рынок на годы. Это было бы ужасно! Серьёзно, по-настоящему ужасно!
КОРАЛ: Вау. Это уж точно звучит как не самый приятный сценарий, чтобы в нём оказаться.
ЭМБЕР: Но что нам делать сейчас?
КОРАЛ: Чёрт меня побери, если я знаю. Я подозреваю, что пока единственный способ победить – если кто-то вроде мистера Топаза создаст устойчивую систему, вы в заднице. Я полагаю, что вы могли бы попытаться обеспечить существование какого-нибудь другого проекта дронов, возглавляемого кем-то, про кого, скажем, Брюс Шнайер уверит всех, что этот человек необычайно хорош в мышлении безопасника, и, значит, может нанимать людей вроде меня и слушать все суровые вещи, которые эти люди будут говорить. Хотя надо признать, та часть, где по твоему мнению критически важно, чтобы надёжная система вышла на рынок раньше ненадёжной – ну, это звучит совершенно кошмарно. Вам потребуется намного больше ресурсов, чем есть у мистера Топаза, или какое-то ещё очень большое преимущество. Надёжность требует времени.
ЭМБЕР: Действительно ли настолько сложно добавить надёжности системе дронов?
КОРАЛ: Ты продолжаешь говорить про «добавление» надёжности. Устойчивость системы – не такое свойство, которое можно вписать в софт задним числом.
ЭМБЕР: Кажется, мне сложно увидеть, почему это настолько затратно. Ну, если кто-то сдуру создал ОС, которая даёт доступ кому угодно, то ты можешь навесить на неё систему паролей, используя твою умную схему, когда ОС хранит хэши паролей, а не их самих. Ты просто тратишь пару дней, переписывая все сервисы с доступом из Интернета, чтобы они спрашивали пароль, прежде чем предоставлять доступ. И тогда ОС становится надёжной! Верно?
КОРАЛ: НЕТ. Всё в твоей системе, что потенциально подвержено враждебному отбору вероятности странного поведения – уязвимость! Всё, открытое для атаки, и всё, с чем эти подсистемы взаимодействуют, и всё, с чем взаимодействуют те части! Всё это нужно сделать устойчивым! Если ты хочешь создать надёжную ОС, то тебе нужен целый специальный проект «создания надёжной операционной системы вместо ненадёжной операционной системы». А ещё тебе надо ограничить масштаб своих амбиций, и не делать всё, чего хочется, и подчиняться заповедям, которые для кого-то без полноценного мышления безопасника кажутся большими неприятными жертвоприношениями. OpenBSD не может делать и десятой доли того, что может Ubuntu. Разработчики не могут этого себе позволить! Тогда поверхность для атак была бы слишком велика! Они не могут проверять настолько много кода, используя специальный процесс, с помощью которого они разрабатывают надёжный софт! Они не могут держать в своих головах так много допущений!
ЭМБЕР: Должно ли это усилие тратить значительное количество дополнительного времени? Уверена ли ты, что этого нельзя сделать за ещё пару месяцев, если мы торопимся?
КОРАЛ: ДА. С учётом того, что это оригинальный проект в новой области, ожидай, что это займёт как минимум на два года или на 50% – что из этого меньше – больше времени – чем не заботящийся о надёжности проект с теми же инструментами, озарениями, людьми и ресурсами. И это очень, очень оптимистичная нижняя граница.
ЭМБЕР: Эта история, кажется, идёт в тревожном направлении.
КОРАЛ: Ну, извини, но создание устойчивых систем занимает больше времени, чем создание неустойчивых, даже если было бы по-настоящему экстраординарно плохо, если бы создание устойчивых систем занимало больше времени, чем создание неустойчивых.
ЭМБЕР: Не может ли быть так, что проекты с хорошими практиками надёжности делают всё настолько чище и лучше, что они могут выйти на рынок быстрее, чем любые ненадёжные конкуренты?
КОРАЛ: … Мне правда сложно увидеть, почему ты предпочитаешь рассматривать именно эту гипотезу. Устойчивость подразумевает процессы проверки, занимающие дополнительное время. OpenBSD не проходит строки кода быстрее, чем Ubuntu.
Но, что более важно, если у всех есть доступ к одним и тем же инструментам, озарениям и ресурсам, то необычайно быстрый метод делать что-то осторожно всегда может быть превращён в ещё более быстрый метод делать то же самое неосторожно. Не существует и никогда не будет существовать языка программирования, на котором хоть немного сложно писать плохие программы. Не существует и никогда не будет существовать методологии, которая делает само по себе написание ненадёжного софта медленнее, чем написание надёжного. Любой профессионал в области безопасности, услышав про твои светлые надежды, просто посмеётся. Спроси и их, если не веришь мне.
ЭМБЕР: Но не должны ли неосторожные инженеры быть попросту неспособны вовсе создавать софт из-за обычных багов?
КОРАЛ: Боюсь, что и возможно, и очень распространено на практике, что люди исправляют все баги, которые заставляют их системы вылетать в повседневном тестировании, используя методологии, действительно адекватные для исправления обычных багов, проявляющихся достаточно часто, чтобы это затрагивало значительную долю пользователей, а затем выпускают продукт. У них всё работает сегодня, и они не чувствуют, что у них есть резервы, чтобы задержать выпуск ещё больше, они и так отстают от плана. Они не нанимают особых людей, чтобы делать в десять раз больше работы, чтобы предотвратить появление в продукте дырок, которые проявляются только от неблагоприятного оптимизационного давления, их найдёт кто-то другой, а они узнают об этом лишь слишком поздно.
Это даже не ошибочное решение для продуктов, не соединённых с Интернетом, не имеющих достаточно пользователей, чтобы кто-то из них оказался враждебен, не оперирующих деньгами, не содержащих ценных данных и не делающих ничего, что может навредить людям, если что-то пойдёт не так. Если твой софт не уничтожает ничего важного, когда взрывается, то, наверное, лучшее использование ограниченных ресурсов – планировать исправлять баги, когда они будут показываться.
… Конечно, тебе нужна некоторая степень мышления безопасника, чтобы понять, какой софт на самом деле может уничтожить компанию, если он втихую испортит данные, и никто не заметит, пока не пройдёт месяц. Я не думаю, что в случае твоих дронов, они переносят лишь ограниченную долю всего доступного бюджета компании за день, и у вас всегда есть более чем достаточно денег, чтобы возместить ущерб всем клиентам, если все товары за день перевозок будут утеряны, с учётом того, покупок или продаж за него может быть куда больше, чем обычно? И что система генерирует внутренние бумажные квитанции, которые явно показываются клиенту и не-электронно согласуются раз в день, позволяя вам заметить проблему, пока не стало слишком поздно?
ЭМБЕР: Не-а!
КОРАЛ: Тогда, как ты и сказала, для мира было бы лучше, если бы ваша компания не существовала и не собиралась ворваться в эту новую область и отравить её впечатляющим провалом.
ЭМБЕР: Если я в это поверю… ну, мистер Топаз уж точно не остановит свой проект и не позволит кому-то ещё взять над ним контроль. Кажется, логическое следствие твоих слов – что я должна попробовать убедить венчурных капиталистов, которых я знаю, запустить более безопасный проект дронов с ещё большим финансированием.
КОРАЛ: Ух, извини за прямоту, но я не уверена, что у тебя есть достаточный уровень мышления безопасника, чтобы опознать исполнителя, который в нём значительно лучше, чем ты. Попытка получить достаточное преимущество по ресурсам, чтобы одолеть ненадёжный продукт на рынке – это лишь половина твоей задачи при запуске конкурирующего проекта. Вторая половина – одолеть априорную редкость людей с настоящим глубоким мышлением безопасника, и получить кого-то такого полностью посвящённого твоему делу в качестве главного. Или хотя бы получить его как высокодоверенного полностью посвящённого сооснователя без ограничений бюджета и политического капитала. Скажу это ещё раз: назначенного вкладчиками советника и близко недостаточно для подобного проекта. Даже если этот советник действительно хороший профессионал в области безопасности—
ЭМБЕР: Это всё кажется необоснованно сложным требованием. Можешь вернуться немного назад?
КОРАЛ: —человек во главе скорее всего попробует торговаться с реальностью в лице неприятного голоса специалиста по безопасности, у которого нет достаточного социального капитала, чтобы протолкнуть «необоснованные» меры. Что означает полностью автоматический провал.
ЭМБЕР: … Тогда что мне делать?
КОРАЛ: Я на самом деле не знаю. Но в запуске другого проекта дронов с ещё большим финансированием нет толка, если у него будет другой такой же мистер Топаз во главе. Что, по умолчанию, ровно то, что сделают твои друзья-венчурные капиталисты. Это просто создаст ещё большую конкурентную планку для любого, кто действительно попытается первым выйти на рынок с надёжным решением, да помилует Бог их души.
К тому же, если мистер Топаз подумает, что конкурент наступает ему на пятки и собирается вывести свой продукт на рынок, то его шансы на создание надёжной системы упадут в десять раз с 0.0% до 0.0%.
ЭМБЕР: Уж точно, мои друзья-венчурные капиталисты уже сталкивались с проблемами такого рода и знают, как опознавать и нанимать исполнителей, которые хорошо справляются с надёжностью?
КОРАЛ: … Если один из них – Пол Грэхэм, то, может быть, да. Но в среднем – НЕТ.
Если бы среднестатистический венчурный капиталист всегда уверялся, что у проекта, нуждающегося в надёжности, есть основатель или сооснователь с мышлением безопасника – если бы он был способен в этом увериться в тех случаях, когда решил, что хочет – Интернет, опять же, выглядел бы совсем по-другому. По умолчанию, твои друзья будут обдурены кем-то выглядящим очень трезвомысляще и много рассказывающим об ужасной обеспокоенности кибербезопасностью и о том, как система будет супербезопасной и отвергать более девяти тысяч часто встречающихся паролей, включая тридцать шесть паролей, перечисленных вот на этом слайде, и венчурные капиталисты заохают и заахают, особенно когда один из них поймёт, что на слайде есть его собственный пароль. Такой лидер проекта совершенно точно ничего не захочет от меня слышать – ещё меньше, чем мистер Топаз. Для него я – политическая угроза, которая может навредить его контакту с вкладчиками.
ЭМБЕР: Мне сложно поверить, что все эти умные люди могут на самом деле быть такими глупыми.
КОРАЛ: Ты сжимаешь своё внутреннее ощущение социального статуса и свою оценку того, как хороши конкретные способности конкретных людей в одно измерение. Это плохая идея.
ЭМБЕР: Я не говорю, что я думаю, что кто угодно с высоким статусом обязательно владеет навыком глубокой надёжности. Мне просто сложно поверить, что они не могут быстро ему научиться, если им сказать, или что они застрянут в неспособности опознать владеющих им хороших советников. Это бы означало, что они не могут знать что-то, что знаешь ты, причём что-то, что кажется важным, и это просто… как-то кажется неправильным. Получается, есть все эти успешные и важные люди, а ты говоришь, что ты лучше их, несмотря на всё их влияние, навыки ресурсы—
КОРАЛ: Смотри, тебе не надо верить мне на слово. Подумай о всех тех шикарно выглядящих сайтах, на которых ты была, через которые, может быть, проходили продажи на миллионы долларов, и на которых требовалось, чтобы твой пароль был смесью больших и маленьких букв и чисел. Другими словами, они хотят, чтобы ты ввела «Пароль1!» вместо «верно лошадь батарея скоба». Каждый из них делает то, что кажется смехотворно глупым любому обладателю полноценного мышления безопасника и даже любому, кто просто регулярно читает XKCD. Это говорит о том, что система безопасности была настроена кем-то, кто не знал, что делает, и просто слепо имитировал впечатляюще выглядящие ошибки, увиденные где-то ещё.
Ты думаешь, это производит хорошее впечатление на клиентов? Да, производит! Потому что клиенты разбираются не лучше. Ты думаешь, система авторизации производит хорошее впечатление на инвесторов, включая профессиональных венчурных капиталистов, и на, наверное, каких-нибудь ангелов с собственным опытом стартапов? Да, производит! Потому что венчурные капиталисты разбираются не лучше, и даже ангел не разбирается лучше, и они не осознают, что лишены важного навыка, и не консультируются у кого-нибудь, кто знает получше. Простаков впечатляет, если сайт требует смесь больших и маленьких букв и цифр и знаков препинания. Они думают, что люди, управляющие сайтом, должно быть реально обеспокоены безопасностью, раз они ввели столь необычное и неудобное требование. Управляющие сайтом люди тоже думают, что дело обстоит именно так.
Люди с глубоким мышлением безопасника редки и редко оценены по заслугам. Просто из системы авторизации можно понять, что никто из венчурных капиталистов, и директоров стартапа не подумал, что им надо проконсультироваться с настоящим профессионалом, или нанять настоящего профессионала, а не пустой костюм. Ясно видно, что в этой системе нет никого с необходимыми знаниями и достаточным статусом, чтобы прийти к генеральному директору и сказать «Ваша система авторизации – позорище, и вам надо нанять настоящего профессионала по безопасности». Или, если кто-то сказал это генеральному директору, то тот оскорбился и казнил гонца за недостаточно вежливые формулировки, или технический директор воспринял чужака как политическую угрозу и вывел его из игры.
Твоя гипотеза из вселенной как-должно-было-быть о том, что люди, способные прикоснуться к полноценному мышлению безопасника, чаще встречаются в экосистеме венчурных капиталистов и ангелов, попросту неверна. Обыденная паранойя, направленная на широко известные случаи, и так достаточно распространена в большой экосистеме, чтобы оказывать общее социальное влияние, хоть всё ещё комически недостаточна во многих отдельных случаях. Люди с полноценным мышлением безопасника слишком редки для такого же уровня присутствия. Это легко видимая истина. Ты можешь увидеть все эти системы авторизации, требующие знак пунктуации в пароле. Это не галлюцинации.
ЭМБЕР: Если всё это правда, то я попросту не вижу, как я могу выиграть. Может, мне стоит просто принять за данность, что всё, что ты говоришь, неверно, ведь, если оно верно, то моя победа выглядит крайне маловероятной – а значит, все мои победы будут в мирах с другими фоновыми допущениями.
КОРАЛ: … ты часто такое говоришь?
ЭМБЕР: Ну, я это говорю, когда моя победа начинает выглядеть значительно маловероятной.
КОРАЛ: Господи. Я могу, может быть, может быть, представить, как кто-то говорит это один раз за всю свою жизнь, для одного маловероятного условия, но делать это больше одного раза – чистое безумие. Я бы ожидала, что маловероятные условия будут накапливаться очень быстро, и очень быстро уронят вероятность твоего мысленного мира до практически нуля. Это соблазнительно, но сворачивать в свою собственную вселенную галлюцинаций, когда ты ощущаешь себя под эмоциональным давлением – плохая идея. Я убеждена, что независимо от сложностей, мы вероятнее всего придём к хорошему плану, если мы мысленно обитаем в реальности, а не где-то ещё. Если всё выглядит сложным, то нам надо столкнуться с трудностями лицом к лицу, чтобы составить решение, соответствующее тому, насколько ситуация действительно плоха, а не основываться на условии, что всё не так сложно, потому что это проще.
ЭМБЕР: Можешь хотя бы попробовать поговорить с мистером Топазом и посоветовать ему, как сделать всё понадёжнее?
КОРАЛ: Конечно. Пытаться легко, а я – персонаж в диалоге, так что мои альтернативные издержки малы. Я уверена, что мистер Топаз тоже пытается создать надёжные торговые дроны. Преуспеть – вот тяжёлая часть.
ЭМБЕР: Отлично, я посмотрю, смогу ли я устроить разговор с ним. Но, пожалуйста, будь вежлива! Если ты думаешь, что он что-то делает неправильно, постарайся указать на это аккуратнее, чем в разговоре со мной. Я думаю, что моего политического капитала достаточно, чтобы ввести тебя в дверь, но его не хватит надолго, если ты будешь грубой.
КОРАЛ: Знаешь, когда-то в мейнстримной компьютерной безопасности считалось традиционно и мудро, чтобы все собирались вокруг твоего нового предложения, как сделать систему понадёжнее, и старались придумать причины, почему твоя идея может не сработать. Понятно, что независимо от ума, большинство кажущимися умными идеи окажутся не без недостатков, и что тебе не стоит злиться на то, что люди пытаются с ними поспорить. Знаком ли мистер Топаз хоть немного с практиками из компьютерной безопасности? Многие программисты знакомы.
ЭМБЕР: Я думаю, что он бы сказал, что уважает область компьютерной безопасности саму по себе, но не считает, что создание надёжной операционной системы – та же задача, что и создание торговых дронов.
КОРАЛ: А если бы я предположила, что этот случай может быть похож на задачу создания надёжной операционной системы, и что в нём есть аналогичная нужда в более тщательной и осторожной разработке, требующей и (а) дополнительного времени, и (б) снабжения осторожностью от людей с необычным типом мышления за пределом обыденной паранойи, имеющих необычный навык распознавания сомнительных допущений в истории надёжности ещё до того, как обыденный параноик посчитает пожар достаточно срочным, чтобы заслуживать погашения, и способный одолеть проблему более глубокими решениями, чем обыденный параноик, который просто генерировал бы блоки против воображаемых атак?
Если бы я действительно предположила, что этот сценарий применим всегда, когда мы требуем устойчивости от сложной системы, подверженной сильным внешним или внутренним давлениям оптимизации? Давлениям, которые сильно продвигают вероятности некоторых положений дел с помощью оптимизационного поиска по большому и сложному пространству состояний? Давлениям, которые отбирают странные состояния и непредвиденные пути исполнения частей системы? Особенно, если какие-то из этих давлений могут быть в некотором смысле креативными и обнаруживать состояния системы или окружения, удивляющие нас или нарушающие наши поверхностные обобщения?
ЭМБЕР: Я думаю, он скорее всего подумал бы, что ты пытаешься выглядеть умной, используя слишком абстрактный язык в разговоре с ним. Или он бы ответил, что не видит, почему необходима большая осторожность, чем у него уже есть благодаря тестированию дронов, чтобы уверится, что они не разобьются и не выдадут слишком много денег.
КОРАЛ: Ясно.
ЭМБЕР: Ну что, пойдём?
КОРАЛ: Конечно же! Без проблем! Мне просто нужно встретиться с мистером Топазом и использовать словесное убеждение, чтобы превратить его в Брюса Шнайера.
ЭМБЕР: Вот это настрой!
КОРАЛ: Боже, как бы я хотела жить в территории, соответствующей твоей карте.
ЭМБЕР: Эй, да ладно. Серьёзно ли настолько сложно внушать людям необычайно редкие ментальные навыки, разговаривая с ними? Я согласна, что то, что мистер Топаз не показывает признаков желания приобрести эти навыки и не думает, что наш относительный статус достаточен, чтобы продолжить нас слушать, если мы скажем что-то, что он не хочет слышать – плохие знаки. Но это просто значит, что нам нужно умно сформулировать наш совет, чтобы он захотел его услышать!
КОРАЛ: Предполагаю, что ты могла бы модифицировать своё сообщение во что-то, что мистеру Топазу не было бы неприятно слышать. Что-то, что звучит связанным с темой надёжности дронов, но не слишком много ему стоит, и, конечно, не сделает его дронов по-настоящему надёжными, потому что это было бы весьма неприятно и дорого. Ты могла бы слегка свернуть от реальности в боковые улочки и убедить себя, что у тебя получилось переманить мистера Топаза на свою сторону, раз он звучит соглашающимся. Твоё инстинктивное желание иметь высокостатусную обезьяну на твоей политической стороне было бы исполнено. Ты смогла бы заменить неприятное ощущение от того, что дроны на самом деле не сделаны надёжными на ощущение решённости проблемы; смогла бы сказать себе, что обезьяна побольше позаботится обо всём, раз она теперь, кажется, на твоей приятной политической стороне. И ты была бы довольна. Пока дроны не выйдут на рынок, конечно, но это неприятное ощущение должно быть быстрым.
ЭМБЕР: Да ладно, у нас получится! Тебе надо смотреть на вещи позитивно!
КОРАЛ: … Ну, это хотя бы будет интересный опыт. Я никогда не пыталась сделать что-то настолько обречённое.
Предсказания - хорошая практика, особенно, если их записывать.
Однако мы часто делаем бинарные предсказания тогда, когда это вовсе не требуется:
Вместо этого мы можем делать предсказания, используя нормальные распределения:
Составление «нормальных» предсказаний может показаться запутанным, но этого эссе должно быть достаточно, чтобы понять основы и, самое главное, научиться отслеживать свою калибровку, что гораздо сложнее делать с бинарными предсказаниями.
Ключевые моменты:
1. Предсказывать по нормальным распределениям на удивление просто.
2. Для получения числа, показывающего насколько сильно вы пере/недо оцениваете свою уверенность, достаточно простой математики!
3. Нормальное распределение содержит больше информации, чем Бернулли (бинарный результат, как при бросании монетки) и, как следствие, позволяет сделать более точные выводы!
Вопросы, на которые ответит это эссе:
1. Как мне сделать «нормальное» предсказание?
2. Зачем мне это?
3. Как мне отслеживать свою калибровку?
Нормальное распределение обычно записывается как N($\mu$,$\sigma$) и имеет 2 параметра:
Правило трёх сигм гласит:
50% предсказаний должны оказаться в пределах $0.674\sigma\approx\frac{2}{3}\sigma$ от среднего значения, это число можно использовать для быстрой проверки
Последняя мелочь, которую нам нужно помнить: дисперсия нормального распределения это просто $\sigma^2$:
$$
Var(N(\mu, \sigma)) = \sigma^2
$$
Предсказание состоит из двух шагов: предсказание $\mu$ и использование правила трёх сигм, чтобы подобрать вашу неуверенность в $\mu$.
Я попытался спрогнозировать долю голосов за Байдена на выборах 2020 года. По результатам опросов я получил точечную оценку 54%, это $\mu$. Используем правило трёх сигм и посмотрим, что это будет означать для различных значений $\sigma$. Таблица для $\sigma$ от 2 до 5:
$\sigma=2$ подразумевает шанс 97.5% (интервал 95% + половина остатка), что Байден получит более 50% голосов; я не был настолько уверен. $\sigma=4$ подразумевает шанс 84% (68% + 32%/2), что Байден получит более 50% голосов, и шанс 16% победы Трампа. Это я посчитал слишком высоким, поэтому остановился на $\sigma=3$.
Байден получил 52% голосов, что было в пределах одной сигма от моего предсказания. Таким образом, я извлёк два слабых урока из ОДНОЙ точки данных:
1. Организаторы опросов облажались, так что мне следовало сместить $\mu$ в сторону среднего значения (50%), предсказав, например, 53% вместо 54%.
2. Реальное значение было ровно в $\frac{2}{3}\sigma$ от $\mu$, так что $\sigma$ оказалась на 50%/50% границе, как и ожидалось. Мне повезло, но это слабое свидетельство, что $\sigma$ была подобрана хорошо.
Представьте, что вместо этого я предсказал что Байден победит (на всенародном голосовании) с вероятностью 91%. Ну, он победил, так что я был прав… и на этом всё. Странно думать, что мне стоило предсказать 80%, так как организаторы опросов облажались, ведь это более слабое предсказание, а более сильное оказалось верным! Мне бы потребовалось предсказать результаты множества других выборов, чтобы заметить, что моя уверенность слишком низка или высока.
Замечание: В прошлом разделе мы использовали для предсказаний $\mu$ и $\sigma$. В этом разделе мы будем использовать $\mu_i$ и $\sigma_i$, где i это индекс (предсказание 1, предсказание 2… предсказание N). Мы воспользуемся $\hat{\sigma}_z$ для оценки точки калибровки; то есть $\hat{\sigma}_z$ это число, такое как 1.73. В следующем эссе в серии, мы будем использовать $\sigma_z$ для калибровочного распределения.
Я также сделал ужасное предсказание во время ранних дней локдауна в 2020. Я предсказал N(15000, 5000) смертей от COVID в Дании до начала 2022 года. Наблюдаемое значение составило 3 200, что находится на расстоянии $\frac{15000 - 3200}{5000}=2.36$ стандартных отклонений от моего предсказания, то есть за пределами 95% интервала!
В этом разделе мы приведём наши предсказания к общему виду, который называется стандартизированной или z-оценкой. Если все наши предсказания находятся на одной стандартной шкале, мы можем их сравнивать.
$$
z_{ideal} \sim N(0, 1) \
Var(z_{ideal}) = 1^2=1
$$
Обычно когда мы преобразуем к z-оценкам, мы используем саму информацию, чтобы рассчитать $\mu$ и $\sigma$, что гарантирует распределение N(0, 1). Сейчас мы воспользуемся нашими предсказанными $\mu$ и $\sigma$. Это означает, что между $z_{идеальное}$ и нашим $z$ будет расхождение. Это расхождение показывает, насколько мы недо/пере оцениваем предсказанные интервалы, а следовательно описывает нашу калибровку. То есть, например, если $\hat{\sigma_z} = 2$, то все наши интервалы должны быть в два раза шире, чтобы достигнуть $z_{перекалиброванное} \sim N(0, 1)$.
Сначала мы производим z-оценку наших предсказаний, рассчитывая, на сколько $\sigma$ они отличаются от наблюдаемых значений $x$ по этой формуле:
$$
z_i = \frac{\mu_i - x_i}{\sigma_i}
$$
Затем мы рассчитываем $\hat{\sigma}_z$ - среднее квадратичное отклонение от всех предсказаний:
$$
Var(z) = \sum_{i=0}^N Var(z_i) = \sum_{i=0}^N z_i^2
$$
$$
\hat{\sigma}_z = \sqrt{\frac{Var(z)}{N}}
$$
Давайте посчитаем $\hat{\sigma}_z$ для моих двух предсказаний. Сначала дисперсии:
Затем считаем $\hat{\sigma}_z$:
$$
\hat{\sigma}_z = \sqrt{\frac{Var(z)}{N}} = \sqrt{\frac{\frac{4}{9} + 5.57}{2}} = 1.73
$$
Так что если учитывать только эти два моих предсказания, я должен расширить свой интервал на 73%. Другими словами, так как $\hat{\sigma}_z$ равна 1.73, а не 1, мои интервалы в 1.73 раза уже, чем должны быть. Если бы я получил $\hat{\sigma}_z<1$, например $\hat{\sigma}_z=0.5$, это было бы свидетельством того, что мои интервалы чересчур широки и должны быть сужены, путём умножения на 0.5.
Вот несколько бонусных аргументов:
1. Слабые 50/50: Иногда мы действительно уверены в чём-то на 50%, как пример рассмотрим предсказание Скотта Александра о том, достигнет ли курс Биткоина 3000 в 2019; эти бинарные 50%/50% могут быть переформулированны как "Биткоин ~ N(3000, 1500)" так что цена в 10000 засчитывается против предсказания. Теперь даже слабые предсказания генерируют свидетельства для калибровки!
2. Завышение и занижение: Если бы Байден получил 20 или 80% голосов, оба исхода были бы сильными свидетельствами того, что моё предсказание неверно, тогда как бинарное предсказание может указать на ошибку в одном направлении.
3. Предсказания с высокой уверенностью проще калибровать: В бинарной стране предсказания с уверенностью 99% очень сложно откалибровать, потому что нам нужно сделать сотни таких предсказаний чтобы собрать достаточно информации (если, конечно, многие из них не окажутся ложными сразу). Соответствующее нормальное предсказание будет иметь маленькую $\sigma$ и, соответственно, давать нам столько же свидетельств для калибровки, как и 60% предсказание.
4. Правота по ошибке: N(50.67, 0.5), N(54, 3), N(58, 6) - все эти распределения дают Байдену 91% шанс на победу, но по совершенно разным причинам, каждое из них приведёт к разным изменениям калибровки после наблюдения $x=52$.
Иногда ваши убеждения не следуют нормальному распределению. Например, предсказание курса Биткоина N(3000, 1500) подразумевает наличие шанса 2.5%, что цена станет негативной, что невозможно. Вот три решения этой проблемы в порядке возрастания навороченности:
$$
Bitcoin \sim 0.5 HN(3000, \sigma_{up}=3000) + 0.5 HN(3000, \sigma_{down}=1500)
$$
(HN = Half Normal)
То есть если курс выше 3000, то $\sigma=3000$, а если курс ниже, то $\sigma=1500$. Если мы следуем этой схеме, то при калибровке можно использовать соответствующую сигму и игнорировать другую. Так что если курс Биткоина окажется $x=10.000$, то z станет $\frac{7}{3}$:
$$
z = \frac{3000 - 10000}{3000}=-\frac{7}{3}
$$
$$
\mu = log_{10}(3000) \approx 3.477 \
\sigma = log_{10}(2) \approx 0.301 \
log_{10}(Bitcoin) \sim N( 3.477, 0.301)
$$
z-оценка работает точно так же, то есть если курс Биткоина составил 10000:
$$
log_{10}(x) = log_{10}(10.000) = 4 \
z \approx \frac{3.477 - 4}{0.301} \approx -1.74
$$
Давайте остановимся, чтобы оценить тот факт, что мы смогли получить конкретное значащее число после двух предсказаний, что практически невозможно при бинарных предсказаниях!
В заключение, имейте эти отличия в виду:
1. Если результат $x$ и предсказание $\mu$ близки, значит вы хороший предсказатель.
2. Если средняя ошибка предсказаний на z-шкале близка к 1, значит вы хорошо откалиброванный предсказатель.
Чтобы преуспевать в первом, необходимы обширные знания, относящиеся к каждому конкретному предсказанию, тогда как калибровка это общий навык, который относится сразу ко всем предсказаниям.
В этом эссе мы рассчитали точечную оценку $\hat{\sigma}_z=1.73$ на основании двух точек данных. В подобных оценках присутствует большая неточность, так что нам следует ожидать, что распределение калибровки вокруг $\sigma_z$ будет весьма широким. В следующем эссе мы разберёмся с этим, путём расчёта самого частого доверительного интервала для $\hat{\sigma}_z$ и Байесовской апостериорной вероятности для $\sigma_z$. Это позволит нам делать такие заявления, как: Я на 90% уверен, что $1<\sigma_z$, а значит, я скорее плохо откалиброван, чем неудачлив. Впрочем, по двум точкам сложно найти разницу с высокой степенью уверенности.
И, наконец, я хотел бы выразить признательность моим редакторам, Justis Mills and eric135, за то что сделали этот текст читабельным.
В ответ на запись Казус системной неэффективности.
Пользователь lionhearted пишет:
Большинство в целом умных людей тратят время на условно-продуктивные занятия, и не используют массу возможностей быть по-настоящему продуктивными.
Вот немного дурацкий пример: предположим, кто-то мечтает стать комиком, самым лучшим комиком в мире, и зарабатывать этим на жизнь. Ничего другого он не хочет, это его цель. И для того, чтобы усовершенствовать свой талант комика, он решает пересматривать старые мультики про Гарфилда и его друзей, которые показывали по телевизору в 1988-1995-х…
И я удивляюсь: почему так?
Почему случайно выбранный восьмилетка завалит экзамен по математическому анализу? Потому что большинство возможных ответов неверны, и никакая сила не направит его в сторону правильных. (Здесь нет необходимости ссылаться на «страх успеха»: большинство способов написать или не написать что-либо в ответ на тест ведут к провалу, так что и люди, и камни, заваливают его по умолчанию.)
Почему большинство из нас, как правило, выбирает «добиваться цели» путями намного менее эффективными, чем те, которые мы бы могли найти, если бы постарались? [1] Моё предположение — что, как и в случае с тестированием по математике, основная часть тех самых путей — неэффективна, и в прошлом не существовало достаточно сильного эволюционного или культурного давления, чтобы у нас выработались такие очень узкие поведенческие паттерны, которые бы действительно помогали добиться успеха.
Если конкретнее: в некотором ограниченном смысле у нас явно бывают цели. Мы: (1) говорим себе и другим, как мы стремимся добиться всяких «целей»; (2) ищем поведение, которое соответствует выбранной роли, которую мы себе присвоили («учить математику», «становиться комиком», «быть хорошим родителем»); и иногда даже (3) радуемся или разочаровываемся, когда поставленную «цель» удается или не удается достичь.
Но при этом существуют приемы, потенциально полезные для достижения целей (или важные для самого процесса целеполагания), которыми мы не пользуемся по умолчанию. Например:
Есть и множество других полезных техник. Но вместо того, чтобы ими пользоваться, мы просто делаем дела, как получается — действуем по привычке, импульсивно или исходя из соображений сиюминутного удобства; думая о цели, мы выбираем действия, которые просто с ней ассоциируются. Мы много чего делаем. Но у нас нет системного подхода к выбору алгоритма поступков, который бы эффективно оптимизировал достижение заявленных целей и вообще любых целей.
Почему так получается? В целом, потому что люди находятся только на пороге разумности. У 5% людей, может быть, достаточно развито абстрактное мышление, чтобы на словах понять вышеописанные приемы и оценить их потенциальную пользу. И это еще совсем не гарантирует способность их автоматически применять. Наш вербальный аппарат гораздо лучше справляется с абстрактными рассуждениями, чем механизмы мотивации, которые в итоге обуславливают наше поведение. Например, у меня достаточно развито абстрактное мышление, чтобы понимать, что стоять на стеклянном полу небоскреба безопасно, или что мороженое не слишком полезно для здоровья, или что регулярная физическая нагрузка способствует достижению моих целей… но награда за то, чтобы я руководствовалась этими соображениями, неосязаема, так что у меня автоматически не включается мотивация ими руководствоваться и соответственно менять свое поведение. Я могу настроить свои автопилоты — например, визуализировать как употребление мороженого закупоривает мои артерии, вообразить насколько это омерзительно; могу прогуливаться по страшному прозрачному полу, пока мозг не привыкнет думать, что я никуда не упаду… но автоматической привычки таким образом тренировать свои автопилоты у нас тоже нет. Так что совсем не удивительно, что большинство из нас не проводит такого рода работу над автоматическими реакциями ума, и большая часть наших действий по достижению целей также получается куда менее эффективной, чем возможно.
И все же, я хочу учиться. Я знаю людей, гораздо более стратегичных, чем я, и при этом мне видны способы развить стратегическое мышление еще лучше, чем у них. Похоже, что иметь цели, в более широком смысле, чем описано в (1)-(3), — часть рационального мышления как такового; это будет помогать нам получать в жизни то, что для нас важно. И этой теме на LW уделялось недостаточно внимания.
Подытоживая вопрос пользователя Lionhearted: насколько этот анализ выглядит верным? Кто-нибудь из вас пытался сознательно развить у себя стратегическое мышление или навыки достижения целей? Если да, то каким методом? Согласны ли вы с алгоритмами (a)-(h), описанными выше? Может, вы хотели бы что-то к ним добавить? Поделитесь идеями, как обучить себя такого рода алгоритмам.
[1] Например, почему многие люди долго учатся, чтобы «зарабатывать деньги», но при этом не потратят и пары часов, чтобы заранее сравнить потенциальную зарплату? Почему многие люди, которые ежедневно проводят часы за компьютерным набором текста, делают это двумя пальцами и не удосуживаются поставить себе программу по обучению десятипальцевому методу? Почему люди проводят субботы «отдыхая», но не потрудившись проследить, какие из привычных им видов рекреации конкретно им на самом деле нравятся? Почему даже люди, великолепно умеющие считать в уме, при этом боятся заболеваний, автокатастроф, приведений, и принимают меры защиты, но без учета статистики относительных рисков? Почему большинство из нас привыкает к единственному режиму того, как учиться, как писать тексты, как взаимодействовать с людьми и т.п., не рассматривая альтернативные варианты, которые могут оказаться гораздо эффективнее — даже поэкспериментировав и убедившись, что есть варианты значительно эффективнее?
Осознанность в том смысле, в каком я буду использовать этот термин, означает самоосмысление. Осознающий ум — тот, который, обладая чем-то, знает, чем он обладает. Это может быть эмоция, убеждение или иррациональное убеждение, предрасположенность, ощущение, воспоминание — все, что только может происходить или храниться в вашем мозге. Что творится в вашей голове? Ответ на этот вопрос — и важно, чтобы вы были точны — это то, что вы осознаете.
Материалы цепочки распространяются по лицензии CC BY-NC-SA 3.0
Ханна Финли
Remlin
http://lesswrong.com/lw/1xh/living_luminously/
Я взяла слово «осознанность» из книги «Знание и его пределы» Тимоти Уильямсона, но я вкладываю в него другой смысл. (Он употреблял его как «быть в состоянии знать», а не знать на самом деле, и это определение не ограничивалось ментальными состояниями и событиями.)
Осознанность в том смысле, в каком я буду использовать этот термин, означает самоосмысление. Осознающий ум — тот, который, обладая чем-то, знает, чем он обладает. Это может быть эмоция, убеждение или иррациональное убеждение, предрасположенность, ощущение, воспоминание — все, что только может происходить или храниться в вашем мозге. Что творится в вашей голове? Ответ на этот вопрос — и важно, чтобы вы были точны — это то, что вы осознаете. Возможно это прозвучит неожиданно, но многим людям довольно трудно ответить на подобный вопрос. Даже если они могут опознать появление отдельных ментальных событий, они с трудом могут воспроизвести свой мыслительный процесс в динамике по времени, объяснить, почему он разворачивается именно таким образом, или наблюдать, как он изменяется. При достаточном уровне осознанности вы можете проверять свой опыт, мнения и запасенные мысли. Вы можете наблюдать, как они взаимодействуют, и различать шаблоны в их поведении. Это позволяет вам предсказывать, что вы подумаете и в свою очередь — что вы сделаете в будущем при различных внешних обстоятельствах.
За последние несколько лет я сделала все для увеличения моей осознанности настолько, насколько это возможно. Хотя я (пока) не осознаю в совершенстве, я уже достигла заметных улучшений в таких вспомогательных навыках, как управление настроением, изучение систем, вызывающих несдержанность и другое непозволительное поведение, и просто стала больше понимать о том, почему я делаю и чувствую то, что делаю и чувствую. У меня есть основания верить, что я осознаю значительно больше, чем средний человек, поскольку я могу задать людям вопросы, которые кажутся мне невероятно простыми, о том, что они думают, и обнаружить, что они не могут ответить. В то же время я не верю только своему впечатлению, что я всегда права, когда рассуждаю о себе. Мои модели себя, после того как я заканчиваю их настройку и подгонку и решаю, что они более или менее верны, описывают большую часть моего поведения. Обычно они также совпадают с тем, что другие люди думают обо мне — по крайней мере на определенном уровне.
В этой цепочке я планирую поделиться некоторыми из техник для улучшения осознанности, которые я использовала. Я надеюсь, что по крайней мере часть из них будет кому-то полезна. Однако я могу сказать, что «результаты не типичны». Мои предыдущие попытки улучшения осознанности в других состоят в том, что я задавала индивидуально подобранные вопросы в реальном времени, и получалось довольно хорошо; осталось узнать, смогу ли я выделить основную идею, преобразовав ее в доступный большинству формат.
Я разбила цепочку на восемь постов, не считая этот, который служит введением и оглавлением. (Я буду обновлять заголовки в списке ниже ссылками на каждый написанный пост.)
«Возможно, вас съел монстр». Почему вы хотите быть осознающим? Что в этом хорошего, и как это работает?
«Да будет свет». Откуда брать предварительные данные, когда вы начинаете моделировать себя, если ваши существующие модели вероятно полны искажений?
«ЭПО — основы осознанности». Наиболее существенный шаг в изучении осознанности — это установление соотношения ваших эмоций, поведения и обстоятельств.
«Свет, камера, мотор!». Осознанность не случается сама по себе — вам необходимо практиковаться в ней и наблюдать за ключевыми ментальными объектами.
«Луч света». Не делайте самоанализ статичным. Мысли могут ускользать. Отмечайте и систематизируйте все, что только найдете в своем сознании.
«Блики и тени». По мере того как вы открываете и понимаете новые вещи в себе, полезно подтверждать или отказываться от ваших подкомпонентов, соответствующим образом поощряя их или препятствуя им.
«Город огней». Удобным приемом работы с напряжениями в себе является представление себя как мультиагентной системы.
«Тени от лампы». Когда у вас есть модели, тестируйте их — и меняйте результаты ваших экспериментов!
Бонусные посты!
«Урешику Наритай»: история о том, как я использовала осознанность, чтобы поднять мою планку счастья до нужного уровня.
«Как получать удовольствие от неприятной компании». Основанная на осознанности модель того, как сознательно испытывать симпатию.
«Семь сияющих историй»: конкретные художественные описания техник осознанности из этой цепочки в действии. (Примечание: некоторые люди отмечают, что «ССИ» значительно улучшили их понимание этой цепочки. Возможно, стоит читать каждую «Сиящую Историю» вместе с соответствующим постом. «Сияющие истории» открываются вместе с ссылками к соответствующим частям, и апофения комментаторов позволяет разместить истории под основными статьями.)
Я уже написала все посты в этой цепочке, хотя я могу позднее внести правки в более поздние статьи в ответ на обратную связь, и возможно, что мне зададут вопрос, в ответ на который я добавлю еще пост. Я буду это делать по мере получения отзывов сообщества.
Осознанность — забавная, полезная для остальных и важная для саморазвития вещь. Вы узнаете об этом из данной цепочки.
Осознанность? Ха! Да кому это надо?
Это понятный вопрос. Типичный человек проходит сквозь жизнь с удивительно малой долей самоанализа и еще меньшей долей самоанализа точного и осторожного. Наши модели самих себя иногда даже хуже наших моделей других людей — у нас больше данных, но также больше искажений, которые перегружают наши размышления помехами. Большую часть времени большинство людей действуют напрямую согласно своим эмоциям и убеждениям, без попыток рассмотреть этот процесс осознанно. И непохоже, чтобы из-за этого как-то страдали или умирали — когда вы в последний раз видели на могиле эпитафию «Здесь лежит наш дорогой Тейлор, который мог бы быть с нами сегодня, если бы только лучше осознавал природу поиска в памяти»? Абсурд. Если Тейлору надо что-то помнить, то это либо проявляется, либо нет, и если у него хронические проблемы с памятью, то он может просто записывать воспоминания на внешнем носителе. Осознание того, как воспоминания сохраняются изначально и настройка этого процесса не обладают высоким приоритетом в списке дел.
Тем не менее, я думаю, что стоит потратить немало времени и усилий для улучшения осознанности. Я приведу три причины для этого.
Во-первых, вы — интереснейшее существо. Это попросту весело и захватывающе — копаться в своем сознании. Люди в большинстве своем — это сложнейшие и самые интригующие явления в мире. И вы тоже. Вы наблюдали множество мгновений. Начиная с исходной конструкции, которая уже является совершенно особенной, вы накопили сложный набор фильтров, через который вы интерпретируете то, что воспринимаете — вспоминаемое прошлое, переживаемое настоящее, ожидаемое будущее. Вам что-то нравится, чего-то вы хотите, во что-то верите, чего-то ожидаете, что-то чувствуете. В закоулках вашего мозга полно всяческих вещей. Разве вам не хочется узнать, что же там? Это же вы. Для многих людей разговор о себе — излюбленная тема. Вы исключение? (Есть только один путь выяснить это…)
Во-вторых, точная модель себя может помочь вам иметь дело со всеми остальными наилучшим образом. Прямо сейчас они, вероятно, используют неуклюжие нагромождения своих проекций, стереотипов и автоматически сделанных предположений, которые они могут не обновлять, даже если узнают вас лучше. Я не думаю, что вы окружили себя ужасными людьми, которые используют точные данные о вас, чтобы навредить или манипулировать вами, но если это так, будет в таком случае разумно не распространять всю информацию, которую вы осознаете. Что касается остальных, то более полная модель вас поможет обеим сторонам избежать множества проблем. Я приведу себя в качестве примера: я ненавижу сюрпризы. Зная это и будучи способной рассказать полную и достоверную историю о том, как это работает, я могу объяснить людям, которые могут захотеть обменяться подарками, почему им не следует дарить мне что-то завернутое, чтобы избежать моего раздражения. Большинство людей вокруг меня не совершают тех действий, которые, как они знают, будут раздражать меня; но без подробного объяснения о том, насколько необычны мои предпочтения, они слишком легко возвращаются к своей основной модели стандартного человека.
В-третьих — и это наиболее подходящая остальным постам в данной цепочке причина — лучшее представление о том, кто вы и на что способен ваш мозг, скоро принесет вам веские плоды в том, что касается приемов для изменения себя. Если вы постоянно двигаетесь от точки А до точки Z, но не знаете ничего о пути между ними, тогда есть только один метод избежать Z — попытаться остановиться сразу перед тем, как это случится. Если вы сможете пронаблюдать процесс с начала и определить, какому шаблону ваше сознание следует сквозь алфавит по пути к Z, вы сможете узнать, что можно с легкостью заменить G на Q и больше никогда не иметь дела с Z. Аналогично этому, если вы пытаетесь дойти от альфы до омеги, но постоянно терпите неудачу, как вы собираетесь определить, где же вы встречаете препятствия, пока вы не рассмотрите ситуацию в целом? Это может быть какой-то банальной проблемой в середине пути, которую вы исправите практически мгновенно, если только будете знать о ней. Вдобавок ваши неправильные модели себя уже меняют вас посредством такого чудесного явления как когнитивный диссонанс. Пока вы не поймете, как это происходит, вы упускаете возможность наблюдать и управлять процессом.
Аналогия: вы ждете, что вас заберут из аэропорта. Назначенное время уже прошло, а вы сидите на багажной стойке с чемоданами у ног, смотрите на часы, хмуритесь. Человек, который должен был вас забрать из аэропорта, не появился! Это полный провал! Но если вы позвоните ему и начнете кричать: «Аэропорт, придурок! Я в аэропорту! Почему тебя тут нет?» — вряд ли это улучшит положение вещей, если только человек не забыл про вас. Если же он стоит в пробке или ищет объезд из-за ремонта дороги, или заблудился, или его приняли за террориста службы безопасности аэропорта, то крик вам не поможет. И пока вы не поймете, что его задержало, вы не сможете помочь. Вы должны знать, где он, чтобы рассказать, как избежать пробок; вы должны знать, где проходит ремонт, чтобы рассказать, как его объехать; вы должны знать местные ориентиры, которые он может увидеть, чтобы понять, где вы; вы должны знать, следует ли вам идти к охране и извиняться за непонимание. Без определенных, особых данных о том, что именно пошло не так, вы не сможете это исправить.
В следующих постах цепочки я собираюсь проиллюстрировать некоторые методы, которые помогли мне узнать о себе больше и изменить в себе то, что мне не нравилось. При удачном стечении обстоятельств они помогут вам осуществить те изменения, к которым я постаралась подготовить вас в этой статье.
Примечание переводчика. Название является отсылкой к известному мему.
Вы можете начать с психологических исследований, личностных тестов и обратной связи от знакомых людей, когда вы изучаете себя. Тогда вы можете отбросить плохое, оставить хорошее и двигаться далее.
Понять эту статью гораздо лучше Вам поможет первая из «Семи Сияющих Историй».
Где вам брать предварительную информацию, когда вы начинаете моделировать себя всерьез вместо того, чтобы полагаться в этом деле на интуицию?
Ну, одно можно сказать уверенно: не стоит начинать с уровня самоанализа. Если вы провели хоть сколько-нибудь времени на этом сайте, вы знаете, что люди пронизаны искажениями и механизмами самообмана, которые систематически вводят нас в заблуждение относительно нас самих. («Я великолепен и замечателен! А последние пятьсот раз когда я делал что-то невеликолепное и незамечательное — это просто случайности!») Людям многое плохо удается, и следование эдикту «Познай самого себя!» не является исключением.
У взгляда со стороны дурная репутация, однако я собираюсь защищать его — как отправную точку — когда буду наполнять копилку инструментов осознанности. Существует большое количество литературы, объясняющей, что же творится внутри наших голов. Это психология, и у нее довольно внушительный послужной список. Для примера, знание об эвристике и искажениях позволяет распознать, как они действуют в вас самих. Во многих случаях я понимаю, что попала под действие эффекта наблюдателя («Кто-то сидит на середине дороги. Может, позвонить 911? Хотя люди вокруг не волнуются, скорее всего мне тоже не о чем беспокоиться…»); я достигла определенного прогресса в уменьшении степени обобщений, которые делаю, исходя из одного примера («Как люди не сходят с ума от брызг масла на плите?»); и я настораживаюсь, когда думаю, что я лучше большинства, но не имею информации, подтверждающей это («Теперь я могу быть уверена, что у меня хорошо выходит решать проблемы такого рода, — я ответила на все вопросы, а большинство людей не могут, так говорит кто-то, кто вряд ли будет лгать!»). И даже если вы обычный человек с нормальной психикой, вы, конечно, не собираетесь соответствовать всем психологическим исследованиям. Эти открытия даже между собой не особо комбинируются. Но контроль за существенными, очевидными особенностями, например, за какой-то психической болезнью, это неплохо для начала.
Чтобы определить свои не самые типичные реакции, вы можете попробовать личностные тесты, такие как тест Майерса-Бриггса или «Большая пятерка». Это не очень надежные источники, но некоторые из них в какой-то мере соответствуют реальности. Соответственно, проникайтесь теми данными, которые получаете. Отбирайте то, что звучит верно («Да, я предполагаю, что склонен больше, чем другие, беспокоиться о беспорядке вокруг»), и выбрасывайте оставшееся («Что? Я не люблю эксперименты! Я даже улиток не буду пробовать никогда!») — хотя это грубые данные первого приближения, не основанные на опыте, с которыми надо на самом деле работать, но вы можете позволить себе такие неточности в начале игры. Когда пройдете тесты, подумайте немного над вашим типом интеллекта, определите, к какой категории относится ваш язык любви1 — все, что определяет вас и делает частью чего-либо.
Кроме того, если у вас есть честные друзья или родственники, просите их о помощи. Заметим, что даже у самых честных из них может быть чересчур радужное представление о вас: вы для них близкий человек, так что они, возможно, не обращают внимания на ваши недостатки и могут преувеличивать ваши добродетели относительно гипотетического мнения нейтрального наблюдателя. И они не находятся рядом с вами постоянно, что ограничивает обстоятельства, в которых их модель тестируется; влияние на вас их присутствия искажает эту модель. Но взгляд с их стороны имеет важное значение.
(Советы по получению обратной связи от родственников/друзей: я обнаружила, что думать о себе вслух полезно для получения некоторых основных входящих данных. Некоторых друзей я могу спросить в упор, хотя это помогает только в определенных ситуациях («Думаешь, я просто устал?» «Я был последователен в той ситуации?»), а не при обсуждении свойств характера, когда ответ может оказаться слишком категоричным («Я сволочь?» «Я использую людей?»). Когда вы общаетесь письменно и сохраняете переписку, вы можете посылать людям отрывки из диалогов (когда это допустимо по отношению к вашему исходному собеседнику) и спрашивать, что ваш консультант об этом думает. Если вы не помните каких-то событий или внушили себе, что не помните, тогда тот, кто был с вами, поможет вам рассмотреть событие со своей точки зрения — этот процесс автоматически покажет, как вы вели себя в глазах свидетеля.)
Если во время охоты на предварительную информацию что-то покажется вам неправильным, будет ли это результат теста или общая характеристика группы, которая подходила вам в остальных случаях, то это здорово! Теперь вы можете что-то исключить. Подумайте: что делает модель неправильной? Когда происходит то, что опровергает ее? (Причем лучше точное «как в тот раз на прошлой неделе», нежели смутное «в восемьдесят девятом, вроде бы в январе».) Что можно изменить в минимальной степени, чтобы сделать модель правильной?(«Сменить слово «быстрый» на «тщательный» — и это буду один в один я!») Если это поможет, разбивайте собираемую вами информацию на небольшие порции. Тогда вы сможете проверять их по одной за раз вместо того, чтобы целиком принять или отвергнуть то, что тест говорит о вас.
Если что-то звучит правильно, то это тоже круто! Задайтесь вопросом: как эта идея может предсказать ваше познание и поведение? («При встрече с высоким темноволосым незнакомцем вы быстро определите его характер по невербальным знакам.») Как можно протестировать её и уточнить модель? (Где водятся высокие брюнеты?) Если вы вели себя в прошлом не в соответствии с моделью, о каких исключениях из правила это говорит, и как можно их лаконично, в духе бритвы Оккама, обобщить? («Именно тот высокий темноволосый незнакомец носил очень клевую футболку, которая скрывала характеристики тела.»)
Обратите внимание: возможно, вы проявите склонность отметать результаты исключительно потому, что они звучат плохо («Я не могу быть нарциссом! Я никогда о себе так не скажу!»), а не потому что они звучат неправильно, и сохранять результаты, которые звучат хорошо («Ага, я смешной и умный!»), а не те, что звучат правильно. Повторите литанию Тарского несколько раз, если это поможет: если у вас есть особенность, то вы хотите верить, что она у вас есть. Если у вас нет особенности, то вы хотите верить, что вы её не имеете. Да не пристанут к вам убеждения, которых вы не хотите. Знание о том, что у вас есть плохие свойства, не сделает их хуже — но поможет вам исправить их, обойти или смягчить. Если вам не хватает хороших свойств характера, не обманывайте себя, они не появятся — но самообман может лишить вас возможности развить их на самом деле. Если вы не можете ответить на вопрос: «Когда вы делали то, что опровергает эту модель?» или перечислить случаи, когда вы вели себя в соответствии с данной моделью, вы скорее всего обманываете себя. Попытайтесь снова. Думайте лучше. Нет гарантий, что вы правы, но цель — именно оказаться правым.
Эмоции, поведение и обстоятельства взаимодействуют друг с другом. Эти взаимодействия образуют информационные шаблоны, которые вам надо опознать и использовать для развития своей осознанности.
Понять эту статью гораздо лучше Вам поможет вторая из «Семи Сияющих Историй».
Самое эффективное, что можно сделать в поисках осознанности — это понять, как соотносятся ваши ЭПО, собрать данные о том, как эти три взаимосвязанных элемента влияют друг на друга и появляются вместе или по отдельности.
«Э» означает «эмоции». Эмоции — это то, что вы чувствуете, и то, что у вас в голове. Это может быть куда сложнее, чем «да, я в отличном состоянии» или «сегодня мне грустно». В вас помещаются одновременно множество эмоций по самым разным поводам; то, как вы спокойно относитесь к двум разным вещам, не похоже на то состояние, когда вы волнуетесь по одной и улыбаетесь по другой причине; и ни одно из состояний не похоже на беспокойство по какому-то крайне важному для вас вопросу. Это происходит примерно так: вы беспокоитесь по поводу оценки результатов вашей работы и наслаждаетесь своей покупкой, и предвкушаете визит к двоюродному брату на следующей неделе, и одновременно раздражаетесь от того, что ушибли ногу, и все это на фоне забавной песни по радио. Для простоты я добавила сюда и менее эмоциональное познание тоже: какие мысли приходят вам в голову, каким этапам рассуждений вы следуете, что привлекает ваше внимание в окружающем мире.
«П» означает «поведение». В данной статье поведение означает то, что вы на самом деле делаете. Сюда входит очень небольшая категория тех вещей, которые вы на самом деле намеревались сделать — и уже почти начали, но не сделали из-за внешних обстоятельств или изменили свои планы после поступления новой информации. Это важно. Мимолетные замыслы и намерения приходят нам в голову постоянно, и если вы твердо и окончательно не определите, каким из них вы будете следовать в конечном счете, у вас останутся только подсознательно выбранные обрывки незавершенных планов. Это особенно проблематично из-за того, что более слабые намерения будут отклонены незначительными внешними препятствиями в гораздо большей степени. Не волнуйтесь о «настоящих» планах, которые отбрасывает этот процесс фильтрации. Вы пытаетесь узнать себя в целом, а не образцового себя, который доблестно пытался сделать нечто хорошее и был остановлен обстоятельствами; если эти отвергнутые планы были для вас типичны, то они повлияют на ваше фактическое поведение. Доверьтесь закону средних чисел.
«О» означает «обстоятельства». Это то, что происходит вокруг вас (Который час? Что происходит в вашей жизни сейчас, происходило недавно и что, возможно, случится в ближайшем будущем: основные события, второстепенные изменения, планы на потом, что вам говорят окружающие? Где вы: тепло или холодно, светло или темно, ветрено, спокойно, тихо, шумно, есть ли запахи, есть ли особые приметы у места, суета ли вокруг, красочно или серо, естественно, искусственно, красиво, уродливо, просторно, уютно, влажно, сухо, пустынно, переполнено, формально , неофициально, знакомо, ново, загромождено или аккуратно?). Также в это входят и ваши поступки, и то, что происходит у вас внутри — то, что обычно относят к чисто физическим явлениям (Вы выдохлись, устали после перелета, в состоянии наркотического опьянения, хотите пить или есть, вам больно, вы нездоровы, пьяны, энергичны, вы чешетесь, подвижны, возбуждены или дрожите? Вы откинулись на кресле, прячетесь в подвале, танцуете, путешествуете пешком, играете на барабанах или плаваете с аквалангом?) Обстоятельства отслеживать немного легче, чем эмоции и поведение. Если у вас есть срочная, четкая и ясная проблема, будет разумно решить ее, а уже потом заниматься осознанностью. И если отдельные проблемы, связанные с некоторыми физическими недугами, можно игнорировать, то проигнорировать боль или сильный голод трудно, и с ними нужно разбираться незамедлительно. Не пренебрегайте обстоятельствами, когда выполняете упражнения на соответствие, только потому, что вам кажется, будто это только «содержимое вашего черепа». САР (сезонное аффективное расстройство или «зимняя депрессия») — достаточное доказательство того, что окружение может серьезно влиять на наши чувства. И не странно ли, в конце концов, если вы ощущаете себя и действуете одинаково, когда танцуете на балу и когда устанавливаете таймер на микроволновке, чтобы разогреть суп, и когда берут в заложники при захвате банка?
Все эти аспекты взаимозависимы:
Э -> П: Ваши эмоции влияют на поведение почти напрямую — эмоции, в конце концов, включают в себя ваши мысли и ощущения, и не зависят от чисто рефлекторных действий, которые появляются под их влиянием.
О -> П: Обстоятельства также очевидно влияют на поведение. Вы не можете нажать на педаль газа, если ее у вас под ногами нет; вы не можете взять немного тапенады, если ее нет; и мне сложно кружиться в юбке, если я одета в спортивный костюм.
Э -> О: Эмоции могут менять ваши обстоятельства посредством вашего поведения, а также того, что происходит с вашим телом (мы все знакомы с тем, как стресс, например, может отражаться на самочувствии), и через окружающих — невербальными средствами.
П -> О: Ваше поведение, очевидно, влияет на обстоятельства: разбей окно, и тут же появится сквозняк. Скажи что-нибудь, и окружающие люди скорее всего вас услышат и отреагируют.
П -> Э: Поведение может влиять на эмоции посредством тесной двухсторонней связи (улыбнитесь — и ваши эмоции улыбнутся вместе с вами!) и посредством эффекта согласованности, который делает вас похожим на человека, чье поведение вы имитируете.
О -> Э: Обстоятельства влияют на ваши эмоции как осознанно, посредством познания и информации («Мой день рождения! Ура!»), так и неосознанно, посредством физических эффектов (если вы долго работали, пренебрегая сном, то вы вряд ли будете довольны результатом).
Так что не просто соотносите то, как они появляются вместе. Замечайте еще и причинно-следственные отношения. Пока вы не разовьете осознанность достаточно, чтобы обнаруживать их напрямую, вам может понадобиться определенный ретроспективый анализ для того, чтобы понять цепочку сложнее, чем «я был голоден и думал о сыре, так что я съел немного». И замечайте интересные пропуски. Если с вами происходит то, что обычно считается грустным, и вы не можете обнаружить грусти ни в своих эмоциях, ни в физических реакциях, это очень важные данные.
Эти соотношения сформируют строительные блоки для вашего первого уточнения модели, которая базируется на исходных данных, которые вы извлекли из внешних источников.
Следует регулярно и часто уделять внимание ключевым ментальным событиям, так как важные мысли могут проскакивать очень быстро или случайно, а вам нужно поймать их.
Возможно, вы поймете данный пост лучше, если прочитаете третью из Семи Сияющих Историй.
Быть осознанным трудно, и вы сами — сложный объект. Нельзя задуматься на десять минут за коктейлем, а потом объявить, что все о себе поняли. Вам придется долго работать, поскольку некоторые эффекты не заметны сразу. Если ваши эмоции зависят от смены времен года или от важных событий, то первая фаза работы займет у вас целый год — или всё время до наступления события, которые, кстати, не происходят каждый второй вторник. Вдобавок, вы не сможете собрать модели хорошего качества из обрывков самонаблюдения длительностью в пять секунд; продолжительные линии познания тоже важны и могут потребовать значительного времени для полного раскрытия.
К сожалению, наблюдение за мыслями неизбежно их меняет. При достаточном уровне самоанализа это не повлияет на точность вашего представления о себе в общих чертах; в принципе, нет причины не тратить все свое время на наблюдение мыслей и формирование мета-идей в реальном времени, но по сути это не происходит. Поэтому некоторые данные нужно вытаскивать из памяти. Чтобы уменьшить ошибку введения, которая возникает при получении информации из области хранения, следует систематизировать только самые недавние мысли. Возможно, стоит придумать систему напоминаний извне, чтобы периодически обращать свое внимание на происходящее внутри — как в текущий момент, так и за последний небольшой промежуток времени. Это может быть специальная система (например, таймер, который срабатывает каждые полчаса), или можно привязать подходящие напоминания к окружающим событиям, например, к вопросу «Как дела?».
Когда вы занимаетесь самонаблюдением, нужно многое отслеживать. Вот к примеру:
О чем вы думали? (Это может быть более, чем одна вещь. Вы — система в значительной степени распараллеленная.) Это идея, изображение, ощущение, желание, убеждение, человек, объект, слово, место, эмоция, план, воспоминание…?
Насколько сильно вы были заняты этим? (Эта тема сама по себе ограниченная или многогранная?) Может ли что-то еще (чувственные, когнитивные, эмоциональные элементы) нарушить вашу концентрацию, и как вы реагируете на подобное вмешательство?
Что вы чувствуете по отношению к предмету ваших мыслей? Это не только эмоциональные реакции наподобие «это угнетает» или «ух ты!», но и то, что вы хотите сделать по отношению к этим мыслям (и хотите ли), и насколько важными или интересными вам кажутся эти мысли.
Как вы в общем ощущаете процесс мышления? (Я провела неформальный опрос на эту тему и не получила двух одинаковых ответов. Занимательно, но это может быть ключом к понимаю того, чем вы отличаетесь от других, и таким образом — к уточнению вашей модели себя по отношению к общей исходной информации, с которой мы начали.) Представление о стиле вашего мышления может помочь в исследовании данных, собранных в ходе самоанализа, хотя не стоит забывать, что они зачастую метафоричны. Ответы могут отличаться, когда вы думаете «активно», то есть новая информация образуется в вашем сознании, и когда вы думаете «пассивно» — читаете или слушаете какую-либо информацию и впитываете содержимое по мере его появления.
Какие воспоминания всплывают в ответ на мысли, и всплывают ли: похожие ситуации из прошлого, не связанные явным образом истории, которые появляются без причины, события, при которых вы поняли ключевые идеи, относящиеся к теме размышлений? Формируют ли эти мысли ожидание будущего — план, страх, надежда, предвкушение, волнение?
Что вы воспринимаете сейчас чувственно? Сюда входят не только изображение, звук, запах, прикосновение и вкус, но и температура, проприорецепция (чувство ориентации в пространстве) и внутренние ощущения, такие, как голод или тошнота. Можете ли вы определить, как это все взаимодействует с мыслью?
Данных не может быть слишком много. (Хотя вы можете собрать слишком много данных в одной ситуации по сравнению с другой, и это разбалансирует ваши модели, поэтому стоит приложить согласованные усилия для диверсификации ситуаций и моментов для их анализа.) Когда вы собираете данные, установите для них соотношение, чтобы узнать, что могут привнести в вашу жизнь различные компоненты ваших мыслей.
Исследовать мысли легче и правильнее, если они находятся не в вашей голове. Переведите их в другую, внешнюю форму и смотрите на них так, как если бы они принадлежали кому-то еще.
Вы сможете понять данный пост лучше, если прочитаете четвертую из Семи Сияющих Историй.
Одна из проблем самоанализа состоит в том, что выводы, которые вы делаете о ваших мыслях, — это тоже мысли. И конечно, мысли могут меняться или исчезать прежде, чем вы извлечете из них информацию о себе. Если меня настиг случайный приступ злости, он может продлиться достаточно долго, чтобы заставить меня взорваться, но исчезнет до того, как я пойму, что злость была беспричинна. Если бы мысли не были такими ненадежными, не стоило бы беспокоиться об осознанности. Поэтому, если вы серьезно занимаетесь развитием осознанности, вам нужен способ представлять ваши мысли в определенном формате, который будет их хранить.
Вам нужно переместить ваши мысли за пределы вашей головы.
Записывать их — очевидный способ, по крайней мере для меня. Вам не нужно публиковать записанное, так что нет необходимости в эстетичности или грамотности, просто делайте записи удобными для себя. Главное — придать им форму, которую вы сможете использовать без необходимости продолжать самоанализ. Не имеет значения, чертите ли вы, пишете или поете, — просто скидывайте содержимое вашего мозга вовне и смотрите. Легко обмануть себя, считая, что какая-то идея логична; обмануть кого-то другого сложнее. Запись мысли автоматически запускает механизмы, которые мы используем для общения, помогая самоанализу оставаться на высоком уровне.
Чтобы перевести ваши мысли в не-мысли, используйте ярлыки для их отображения. Распределяйте их по ссылочным классам так, чтобы можно было заметить, когда такое же суждение, шаблон мышления или поток познания возникнет вновь. Таким образом вы сможете опознавать схемы: «Эй, когда я чувствовал подобное в прошлый раз, я сказал то, о чем потом жалел; нужно быть осторожнее.» Если вы можете распознать то, что случается дважды, вы сможете уловить и тот момент, когда это не происходит; а новые настроения или черты характера потенциально крайне важны. Они означают, что вы или что-то вокруг вас изменилось, и это может быть как полезным ресурсом, так и коварной помехой.
Ваши метки могут выражаться в стандартных терминах или же нет — если вы хотите называть ощущения от того, что у вас из рук упало мороженое, «белой горкой», никто вас не остановит. (Словарь эмоций, который в значительной степени совпадает со словарями окружающих, может быть полезен позже, когда вы пытаетесь поделиться вашими выводами о себе; но вы можете в любой момент составить словарь для подобного перевода.) Стоит распознавать, насколько помеченные явления похожи друг на друга (например, раздражение больше похоже на ярость, чем на ликование), и иметь способ отразить это в вашей системе символов. Подобные сходства делают более очевидным то, какие стратегии перехода из одного состояния в другое вы используете.
В том случае, если вы думаете не словами, вам может показаться довольно трудным преобразовать свои мысли в то, что будет их отображать. Возможно, например, что вы думаете образами, но рисовать не умеете. Это один из шагов в осознанности, которые, по моему мнению, можно пропустить, так что, если вы искренне не можете придумать, как записать танец вашего сознания для последующего самоанализа, вы можете просто работать над мышлением очень осторожно, чтобы заметить то, что повторно появляется в ваших мыслях. Я рекомендую проводить по меньшей мере пять-десять минут, пытаясь записать, сделать диаграмму, нарисовать, пробормотать или выразить танцем вашу ментальную активность прежде, чем вы определите ее как несостоятельную.
После того, как вы выразили свои мысли в видимой или звуковой форме, проанализируйте их как мысли другого человека, который это написал. (За исключением того, что это как бы код, который понятен только вам, так что вам не нужно проводить криптоанализ.) Что вы думаете об описанном человеке, если бы вы ничего больше о нём не знали? Как бы вы могли объяснить эти мысли? Какие потоки размышлений идут в фоновом режиме от одного убеждения к другому, или от восприятия к убеждению, или от желания к намерению? Каких следующих действий вы бы ожидали от этого человека? Что бы вы могли еще предположить о человеке? И что еще вы хотели бы знать? Если вы встретите этого человека, как вы удовлетворите свое любопытство без того, чтобы полагаться на перегруженный искажениями ответ, который вы получите в ответ на вербальный запрос? Попробуйте прямо сейчас — в комментарии к этому посту, если хотите: запишите, как получится, что вы думаете. Отключите внутреннего критика и посмотрите со стороны: что должно происходить в сознании, которое скрывается за написанным?
Неотъемлемой частью процесса развития осознанности являются решения о том, какие части себя вам нравятся, а какие — нет.
Понять эту статью гораздо лучше вам поможет пятая из «Семи Сияющих Историй».
По мере того, как вы раскрываете и понимаете в себе что-то новое, вы можете обнаружить, что вам нравятся некоторые вещи и не нравятся другие. Абсолютно довольные собой люди обычно подвержены либо редкому высокомерию, либо еще более редкой святости, которые отличаются безграничным одобрением себя. К счастью, как и было обещано во втором посте, осознанность поможет определить, что вам хотелось бы изменить, и понять, что у вас уже есть.
Но что менять?
Важный шаг в развитии осознанности — это сортировка ваших мыслей и ощущений не только по типу, соотношению, силе и т.д., но также по тому, насколько вы их одобряете. Вы одобряете мысли, которые вам нравятся, в которых находите отражения ваших лучших черт, предпочитаете видеть в действии и желаете оставить неизменным (по крайней мере, пока они полезны). И наоборот, вы отвергаете те мысли, которые вам не нравятся, считаете проявлением своих отрицательных свойств, неэффективными, которые хотите изменить или полностью от них избавиться.
Решить, что есть что, может оказаться сложной задачей. Нужно будет не раз просеять ваши желания, чтобы окончательно разобраться, хотите ли вы хотеть торт, или нравится ли вам то, что вам нравится спать, или нужно ли вам ваше предпочтение преференциализма. Хорошо было бы начать с целей макро-уровня и теоретических обязательств (т.е. если предпочтение имеет силу, служит ли оно вашей жизненной цели, прямо или косвенно? Если у вас есть метаэтические представление о правильном и неправильном, побуждает ли эта тенденция, которую вы в себе открыли, делать правильные вещи?).
В качестве второго подхода вы можете поработать с информацией, которую собрали, когда коррелировали ваши ЭПО. Как вы чувствуете себя, когда оцениваемое желание удовлетворено? Когда оно не удовлетворено? Выводит ли вас из строя неудовлетворенность? Улучшает ли исполнение желания вашу производительность? Вы можете окончательно удовлетворить его? Если обычно вы не можете удовлетворить это, будет ли проще изменить желание или изменить обстоятельства, которые препятствуют его удовлетворению? Впрочем, это второй шаг. Вам нужно узнать, какие эмоции и поведение предпочтительны для вас, до того, как начнете оценивать желания (и другую ментальную активность) по их значимости; оценка эмоций и поведения — сама по себе упражнение в одобрении и отказе.
Знать, что вам нравится и что не нравится в вашем сознании, это здорово. Когда у вас есть эта информация, вы можете сразу же ее использовать: мне кажется полезным отмечать выражение своих эмоций словами «одобрено» и «не одобрено». Таким образом, окружающие могут использовать эту классификацию; тогда они не будут считать, что я считаю правильным все, что чувствую, и не будут присваивать мне свои собственные предпочтения. И то, и другое будет в равной степени ненадежно и приведет к тому, что у людей будут неверные модели меня; мне до сих пор не удалось избавиться от всех своих нежелательных особенностей, и мои шаблоны одобрения не соответствуют шаблонам окружающих людей или их ожиданиям.
Вдобавок, раз вы знаете что вам нравится и не нравится в вашем сознании, вы можете начать прогрессировать в увеличении отношения хороших характеристик к плохим. Люди часто делают случайные продвижения пытаясь «стать лучше», но когда «лучше» значит «стать ближе к смутно определенным интуитивным представлениям о морали», это не та цель, к которой стоит стремиться. Конкретные проекты наподобие быть более щедрым или внимательным это уже ближе, однако наибольшее имеющее значение преимущество в само-обзоре приходит от осознания движения поведения в нежелаемом направлении и прекращения его еще в зародыше. (Больше об этом — в «Тенях от лампы»). Шансы низки, что ваши шаблоны мозга находятся достаточно близко к стандартным достоинствам, чтобы быть полезными целями. Лучше планировать опознать то, что уже есть, и тогда одобрять или отказываться от этих обработанных мыслей и работать с ними по мере их появления, вместо подмены их неестественными категориями.
Для того, чтобы понять свою психологию и выявить сложность своей структуры, вы можете представить себя не как единое целое, а как систему из нескольких агентов.
Понять эту статью вам станет гораздо проще после прочтения шестой из «Семи Сияющих Историй».
Пытаясь разобраться в запутанном клубке черт своего характера, вы, вероятно, натолкнетесь на ряд противоречий. В вас могут одновременно уживаться несколько противоположных точек зрения, вы можете переключаться между разными типами мышления или даже верить в явно противоречащие друг другу вещи. И эта путаница еще больше затрудняет процесс самопознания.
К сожалению, у нас нет ни словаря, ни даже мысленной модели, которые позволили бы свободно описывать себя (или других людей) как совокупность множества субъектов. То, что обычно получается, больше похоже на туманное описание двойственности («Я счастлив, и в то же время мне немного грустно! Странно!»), чем на глубокий конфликт, который занимает наши мысли. Модели человеческой психики, которые ближе всего к разрешению этой неразберихи, — это то, что я называю «мультиагентными моделями». (Примечание: я понятия не имею, как то, что я собираюсь описать, соотносится с реальными психиатрическими заболеваниями, включающими в себя множественность личности, голоса в голове или другие подобные явления. Я описываю мультиагентные модели, реализуемые психически цельным человеком).
Мультиагентные модели известны довольно давно: уже в «Государстве» Платона говорится о страсти (которая непостоянна сама по себе), духе и интеллекте, формирующих триединую душу. Платон обсуждает их функции, как если бы каждая из них имела свой собственный орган и могла при возможности воспринимать, желать, планировать и действовать (включая возможность подавлять две другие, чтобы управлять душой единолично). Ненамного отличается и структура, предложенная Фрейдом, — модель ид/суперэго/эго. Понятие мультиагентности появляется и в искусстве. Это на удивление распространенный и естественный способ описания сложного ума обычного человека. Конечно, говорить об этом как о чем-то реальном, а не как о способе развития психологических теорий или понятия идеальной городской планировки, или о драматизации морального конфликта, может показаться нездоровым. Дайте мне минуту — у меня есть данные более, чем из одного источника, что подобная практика полезна.
Нет причины ограничивать себя традиционными мультиагентными моделями, одобренными давно умершими философами, психологами или карикатуристами, если вам больше подходит другое деление. У вас может быть два «Я», или пять, или двенадцать.(Иметь больше, чем вы можете отследить, я не рекомендую; если «Я» слишком много, то это может оказаться признаком болезни. Если группа из нескольких «Я» формирует устойчивый блок, лучше будет объединить их в одного субагента.) Выделяйте ключевой элемент или поощряйте краткие выступления периферийных элементов. Называйте их описательно или по структурам мозга, или по цветам радуги — как вам будет удобно их различать. Говорите с собой вслух или пишите, или просто думайте в форме диалога, если вы считаете, что у вас так получится лучше. Несколько примеров того, что может выступать в качестве субагентов:
Желания или блоки желаний, сложные и возвышенные («хочу, чтобы всем было хорошо») или простые и низменные («хочу пирога»).
«Внутренний ребенок» или подобные ролевые группировки свойств характера («профессиональный Я», «семейный Я», «хобби-Я»).
Склонности и принципы высшего порядка («совесть», «невроз», «чувство справедливости»).
Мнения или точки зрения, как конкретные в данной ситуации, так и общие тенденции («оптимизм», «взгляд со стороны»,»Я должен делать Х»).
Изначально неопределенные, постепенно влияющие на личность субагенты, если ничего определенного не проявляется (которые можно назвать, не подразумевая ничего конкретного, например, производным от своего имени).
Основываясь на практических наблюдениях разных людей, можно определить одного из субагентов как «вы». На деле один субагент может быть определен только как «вы» — очень трудно ослабить влияние опыта монолитного наблюдателя. Это неплохо, особенно если «вы» одобряет и отвергает, но не позволяйте одобрению и осуждению ускользнуть из-под вашего контроля, когда выполняете подобные упражнения. Вам нужно взаимодействовать со всеми вашими субагентами, не только с теми, которые вам нравятся; у субагентов может проявляться манипулятивное и даже мстительное поведение, когда вы даете им право голоса, например, если вы определили ваше желание пирога как субагента и подавляли его годами, вы можете обнаружить, что Желание пирога злится на Сдержанность и плохо о ней отзывается. Желание пирога не утихомирится, если вы просто одобрите его в обход Сдержанности, в то время как Желание пирога просто пытается сказать о вашей отчаянной тяге к тирамису. До тех пор, пока вы не поймете Желание пирога достаточно хорошо, чтобы избавиться от него, вам нужно работать с ним. Прямое противостояние, обычное осуждение скорее всего сделают его злее и изобретательнее в попытках заставить вас съесть пирог.
Несколько вспомогательных заметок по субагентам:
Ваши субагенты могут удивить вас больше, чем вы ожидаете от… ну… себя, и это делает данное упражнение очень полезным. Если же вы будете управлять диалогом, вы немногое получите — выйдет так, что вы просто пишете фанфик про работу своего мозга, но на самом деле про эту работу ничего нового не узнаете.
Не все субагенты будут «заинтересованы» в каждой вашей проблеме и не будут постоянно высказываться. (Желание пирога скорее всего не заинтересуется тем, как вам себя вести на свидании на следующей неделе, однако оно оживится, когда подойдет время заказать десерт).
Ваши субагенты не должны лгать друг другу напрямую («должны» в предикативном, не в нормативном смысле — дайте мне знать, если ваши будут так делать), но они могут угрожать, вести переговоры, прятаться и совершенно не знать о себе.
Ваши субагенты могут взаимодействовать неэффективно. Субагент-переводчик может оказаться полезным, если возникнет проблема с пониманием.
(Опишите ансамбли ваших субагентов в комментариях, чтобы вдохновить других! Напишите диалоги между ними!)
Вы можете использовать осознанность для того, чтобы помочь себе превратиться в того, на кого вы хотите быть похожим. Завершите это путем исправления результатов своих опытов над самим собой так, чтобы они оказались положительными.
Вы можете обнаружить, что понимаете этот пост лучше, если прочитаете седьмую из «Семи Сияющих Историй».
Когда у вас есть последовательные модели себя, эмпирически выгодно подвергнуть их испытанию.
Дело в том, что, когда вы испытываете себя, вы знаете, какой тест проводите и какие данные подтвердят каждую из гипотез. Кроме того, вы и есть субъект, генерирующий данные. Это создает сложности для надежного научного контроля за экспериментами такого рода.
К счастью, оказалось, что контроль для данной цели не обязателен! Помните, что вы не просто пытаетесь определить, что происходит в устойчивой части вашей личности. Вы также по возможности оцениваете и изменяете то, что отвергаете. Вы можете позволить выводам из наблюдений за собой изменить ваше поведение; более того, вы можете напрямую влиять на результаты тестов.
Предположим, что ваша модель себя предсказывает, что вы сделаете то, что, как вам кажется, вам не стоит делать; предположим, например, что она предсказывает, что вы накричите на кузину в следующий раз, когда она зайдет к вам и испачкает ковер, и вы думаете, что вы не должны кричать. Тогда вы можете опровергнуть эту модель тем, что промолчите: безусловно, если вы не накричали, то вас нельзя точно описать моделью, которая предсказывала обратное. Удержавшиcь от крика, вы сдвигаетесь к более точной модели наподобие «может накричать, если не будет думать перед тем, как сказать» или «ранее кричал, однако смог измениться». И если вас описывает подобная модель, а не та, в которой вы кричите, …вы не можете кричать.
(Заметим, конечно, что подмена «кричащей» модели той, где вы молча поднимаете вашу кузину и выкидываете из окна, — это не улучшение. Вы хотите заменить модель, которая вам не нравится, на более подходящую. Если у вас не получается — если контролировать свой крик вам трудно настолько, что у вас руки чешутся выкинуть кузину в окно, да так, что вы почти уже делаете это — тогда вам следует отложить подмену модели до лучших времен.)
Теперь, осознание того как не накричать (давайте не будем забывать о несдержанности, в конце концов) будет легче, поскольку у вас есть понимание того, что заставляет вас это делать в первую очередь. Вооруженные этим знанием, вы можете определить как управлять обстоятельствами чтобы предотвратить срабатывание триггеров крика самих по себе. Или вы можете попробовать более трудную, но более стабильную психическую перестройку от обстоятельств к поведению.
К сожалению, я не могу быть конкретней как это хотелось бы, поскольку очень много зависит от точных привычек вашего мозга, так отличающегося от любого другого, включая мой. Вам может потребоваться попробовать несколько разных стратегий, прежде чем вы найдете ту, что работает для вас и позволяет изменить то, что вам нужно изменить. Вы можете обнаружить что успешные стратегии со временем слабеют и нуждаются в замене и обновлении. Вы можете обнаружить что слушать других людей полезно (пишите техники ниже!) — а можете и не обнаружить.
Это дополнение к цепочке про осознанность. В одном из комментариев я упомянула, что подняла свой уровень счастья (среди прочего) и это заявление было встречено с немалым интересом. Некоторые из подробностей уже подзабылись, однако ниже я воссоздам для вашего анализа то, что могу, о том процессе. Он содержит множество личных самооткрытий; пропустите их, если к вам это не относится.
В общем: я решила что я должна и хочу быть счастливее; я переименовала мои настроения и соответствующим образом подошла к управлению ими; также я обозначила управление настроением и поведением (включая поиск новых методов) как высокоприоритетное занятие. Теперь каждый шаг более подробно:
Я пришла к пониманию необходимости стать счастливее. Быть несчастной не просто не приятно. Это опасно: у меня даже как-то были мысли о суициде. В жизнь я их никак не воплощала, в основном потому что я присоединяла надежды на улучшение к конкретным внешним признакам (различным академическим продвижениям) таким образом воображала себя как магически исцеленную, когда получала следующий диплом (и следующий, и следующий.) Однажды я заметила, что я делаю, это было неприемлемо. Если я хотела жить, я должна была найти безопасное эмоциональное место в котором могла бы остаться. Это должно было быть моим главным приоритетом и требовало следующих под-проектов:
Я должна была избавиться от багажа, который говорил мне что это обычно или уместно чувствовать себя плохо большую часть времени. Я одобряю мою способность реагировать эмоционально на мое окружение: но это должно быть кратковременным, а не хроническим. Реагировать эмоционально это ощущать себя хуже, если вещи становятся хуже, а не ощущать себя плохо несколько месяцев или лет подряд. (особенно не когда ощущать себя плохо снижает способность делать вещи менее плохими.) Далее, иметь низкий уровень счастья не повредит мой эмоциональный спектр за исключением его уменьшения; это уменьшить возможное влияние реального горя и не будет смешиваться с планом «реагировать эмоционально». Низкий уровень также ставит под угрозу мою способность реагировать эмоционально на позитивные новости, поскольку присоединен к систематическому уменьшению такой позитивности.
Я должна избавиться от багажа, который говорит мне что невозможно когнитивно менять мое настроение. Настроения соответствуют мыслям и хотя это может быть трудно — избегать мышления о вещах, я могу решить думать о том, о чем хочу. Десятилетия приема различных антидепрессантов не оказали воздействия, что представляет собой сильное свидетельство в пользу того, что моя проблема не в химическом балансе. И было легко увидеть что мое настроение меняется в малых масштабах при вещах под моим полным или частичным контролем, наподобие сна, диеты и активности. Это не кажется чем-то из ряда вон выходящим, что долгосрочные вмешательства большого масштаба могли иметь похожие эффекты на мое настроение в целом.
Я должна решить и действовать в соответствии решением, что мое счастье важно и стоит моего времени и внимания. Я должна уделять внимание и замечать что помогает, а что мешает. Я должна поместить увеличение помогающих факторов и снижение мешающих на вершину моего списка всякий раз когда это возможно, и ослаблять мои стандарты на тему «дистанционной доступности» чтобы предотвратить самосаботаж. И я должна подтвердить отказ от контрпродуктивных проектов или воздействий по меньшей мере пока я не разовью стабильность при работе с эмоциями которые они генерируют без того, чтобы постоянно пребывать в подавленном состоянии.
Я переобозначила мои настроения так чтобы опознавать их в момент побуждения правильных действий. Когда данная точка на шкале счастье-несчастье — назовем ее «2» по шкале от от 1 до 10 — было обозначено как «нормальное» или «начальное», тогда когда я ощущала «2», я не предполагала что это значит что-то особенное; это было исходное состояние. Это давало мне возможность находится в состоянии «2» большую часть времени, и когда вещи становились хуже, я опускалась ниже и ожидала, пока вещи во внешнем мире исправяться, чтобы я могла подняться. Проблема была в том, что «2» не было хорошим местом, чтобы проводить там много времени.
Я должна была обозначить старую стартовую точку как субнормальное, проблемное состояние, которое создает необходимость в немедленных действия от меня по его исправлению. Это было похоже как будто говоришь мне, неведомо для меня, моя левая нога постоянно болела, требуя лекарств; при этом принимать их было бы трудно, учитывая то, что моя левая нога всегда чувствовала себя одинаково, пока я не ударялась или получала массаж. Но в конце концов я прикрепила актуальность к старой стартовой точке. Это было не то, что все в порядке; это был знак, что что-то не так.
Я должна была убедиться что у меня есть множество доступных и дешевых оправданий чтобы взбодриться, так что я не попаду в ловушку «ну только раз» оставляя себя в состоянии «2» вместо того, чтобы действовать. Я назначила одну пару носков любимой и носила их всякий раз когда вставала с неправильной стороны кровати; я приобрела привычку сохранять каждый рисунок милого животного который я находила в Интернете, так что я могла пролистать коллекцию всякий раз, когда мне требовалось; я заставила себя развивать навык приобретения друзей с целью что если у меня будет много друзей и я зайду в чат, кто-то будет там чтобы поговорить со мной; я стала жадной до недорогих товаров наподобие музыки или интересных вебсайтов. Когда одно из этих средств не срабатывало, я заставляла себя попробовать что-то еще, вместо того, чтобы погружаться в грустный внутренний диалог «ну, это не помогло; наверно что-то на самом деле не так и я должна чувстовать себя плохо, пока все не наладится само собой». Я также приспособила мою склонность чувствовать себя лучше после ночного сна — если я ощущала себя плохо и при этом было позднее время — я ложилась спать, резонно ожидая что утром будет лучше.
Я прекратила мириться с незначительными ранениями моих эмоций, которые я идентифицировала как наиболее постоянные и, таким образом, по большей части вероятно вносящие вклад в мое плохое состояние. Например я заметила что я всегда сплю лучше когда я не ложусь спать, ожидая что утром меня разбудит будильник, так что я переделала мое расписание так, чтобы утром было время поваляться в кровати, и нашла такой будильник, который будит меня максимально мягко, если мне обязательно требуется встать. Я распозанала людей, которые вводят меня в состояние фрустрации и опустошенности и ограничила взаимодействие с ними как ограничением возможностей вообще вступать с ними в контакт, так и путем удаления моих стандартов, что нельзя брость разговор посередине, так что я могу уйти раньше, чем вещи станут очень плохими. В общем я практиковалась в «выписывании вещей» и репетиции внутренний монологов, в которых я объясняла себе что нет необходимости волноваться об Х. («Я не могут управлять скоростью автобуса. Я села на него и он доедет тогда, когда доедет. Нет необходимости волноваться об опоздании пока я снова не пойду пешком — так что я остановлюсь. Чтобы управлять моим сильным навязчивым желанием успеть вовремя, я начну думать о том, как выбрать наилучший путь, который мне надо выбрать когда я сойду с автобуса.»)
Я обозначила мою новую желаемую стартовую точку — безопасную область спектра, назвала ее «5», которая была амбициозна но достижима — как «нормальную». При вопросе как я себя ощущала в этом состоянии, я сознательно выберу сказать что я была в порядке, вместо того чтобы с энтузиазмом воскликнуть «великолепно», как я бы сделала раньше — энергия, которую я ощущала на точке «5» больше не должна была быть чем-то экстраординарным. Подобным образом, нет подходящих оснований для совершения вещей, которые не нравятся. На «5» я не испытывала счастья — я ждала пока я стану еще лучше, пока не расслабиться моя эмоциональная жадность. Вместо этого, «5» была хорошим местом для предприниятия более продвинутых экспериментов, предлагаемых процессом улучшения. (более сложными нежели выбор определенной пары носков для надевания — начало ДнД игры, или хождения вокруг, исследования новой локации или работы над куском арта или фанфика; интервал времени и усилия сделали их бедными «ободряющими» усилиями, но прекрасными путями для получения состояний от «5» до «6» или «7».
Я сделала точку отметки не-грустных недостатков в моем статусе, наподобие скуки, голода, усталости, или раздражения. Они напрямую не связаны со стартовой точкой, которую я пытаюсь ощущать, но они могут усиливать плохое влияние или ограничивать силу хорошего. Вдобавок, на уровне осознанности на котором я должна работать, они также могут маскировать настроения, которые на самом деле грустные, примерно так же как кто-то может ощущать голод, когда на самом деле хочет пить.
Я обозначила мое настроение как управляемое. Мышление об этом как о чем-то что атакует меня без закономерности или причины — лечения депрессии наподобие простуды — не просто стоит мне возможности сражаться с ним, но также делает целую ситуацию кажущейся бесконтрольной и безнадежной. Я не доверяю выученной беспомощности: я решила что лучше всего интерпретировать мою раннюю статистику нахождения в стартовой точке как показатель того, что я еще не обнаружила верных техник, нежели как индикацию что это непреложный и постоянный порядок вещей. Вдобавок, факт что я не знаю как это исправить еще значит что если собиралось стать моим главным приоритетом, я должна относится к ценности данной информации как к очень высокой; это стоило эксперимента и я не должна ждать гарантий, чтобы сделать это.
Даже если я определила что мое настроение реагирует каким-то методом на мое окружение, это убирает мою власть только над одним шагом: я могу контролировать мое окружение в определенной степени и с достаточно сильной причиной это делать я смогу деактивировать эту силу. (Это иногда имеет неожиданные и драматичные последствия. Для примера, когда я определила что аспирантура больше не совместима с моим счастьем, я бросила ее настолько быстро, насколько могла, хотя это было перспективное время — середина семестра — и отправилась в путешествие по стране. Могу добавить, что это дало отличный эффект.)
Даже если у меня на тарелке много всего, быть счастливее поможет мне делать это. Это похоже на сон: легко бодрствовать и бодрствовать, потому что сон кажется таким непродуктивным, и вы можете сделать немного работы, однако вы устаете. Но в долгосрочной перспективе, давая себе часок-другой нормального сна позволит вам сделать больше, и находится при этом в хорошем настроении. Управлнение настроением обычно не наиболее продуктивная вещь в кратковременной перспективе, которую я могла делать, однако рассмотрение его как главного приоритета в сложных ситуациях позволило мне быть более эффективной чем я была раньше.
Я должна была быть готова тратить ресурсы на мой проект. Это включало в себя работу над неврозами, наподобие моего нежелания тратить деньги и преодоления некоторого фонового нежелания пробовать новые вещи. Также мне пришлось позволить себе быть зависимой от своих прихотей. Я все еще не знаю что с моим настроением делает, скажем, предмет искусства, которое меня поражает, но когда это происходит, я должна творить или потеряю направление. Имеющие силу направления делают забавные вещи очень ценны для меня и таким образом когда возможно я не сдерживаю их, даже если это стоит времени и перекрывает другую деятельность.
В одном из комментариев я упомянула, что могу любить людей целенаправленно. В ответ на просьбу рассказать как это возможно, я написала свои советы в виде поста. Я не включила и не буду включать любые конкретные примеры из жизни (все нижеприведенное выдумано), потому что я беспокоюсь о том, что люди, которых я люблю целенаправленно, расстроятся, узнав, что это о них, хотя симпатия (некогда вызванная) совершенно искренняя. Если кто-то считает что полезно было бы что-то конкретизировать в большей степени, я постараюсь придумать историю, которая восполнит недостаток.
Любить людей полезно. С одной стороны, если вам приходится находиться в их обществе, то это более приятно. С другой, ну, они часто разговаривают, и если они знают, что они вам нравятся, они чаще будут склонны помогать вам. Таким образом очень удобно уметь полюбить кого-то независимо от того, что человек представляет собой на самом деле. Есть три простых компонента для того чтобы любить кого-либо целенаправленно. Первое — снизьте значимость плохих черт путем отсекания, видоизменения и преуменьшения их; второе — увеличьте значение положительных черт путем распознания, анализа и восхищения ими; и третье — ведите себя так, чтобы убрать эффекты предвзятости.
1. Снизьте важность плохих черт.
Подумайте о чертах, которые вам не нравятся в этом человеке — это могут быть несколько надоедливых привычек или список из серьёзных пороков, длинный, как ваша рука, но убедитесь, что знаете, какие это качества. Отметьте, что каким бы большим ни был список, он не обо всём человеке. («Обо всём!» не является лучшим ответом на данном этапе.) Невозможно полностью описать человека, перечислив черты, которые вы в нём заметили. Обратите внимание, таким образом, что вам не нравятся эти качества в человеке, но это не обязательно связано с самим человеком. Положите список в «ящик» — отдельно, пока вы наконец не составите мнение о человеке.
Когда человек показывает характеристику, привычку или склонность, которая есть и у вас (или, возможно, просто ухудшит вас, оказавшись вашей), будьте начеку — это может быть ошибочная оценка поведения. Это особенно незаметно в том случае, если человек вам уже не нравится, так что важно компенсировать прямо и осознанно данное влияние. Повышайте осознанность мыслью об «истории ситуативного поведения», в которой вы рассматриваете обстоятельства, а не характерную черты, которые объясняют недавний пример плохого поведения. Это должна быть такая история, которую вы можете придумать, чтобы не прибегать к ворчанию насколько это ужасный человек — то есть не прибегать к «Ну, может, у нее мозг марсианина, но блин, насколько это возможно?». Лучше звучит «Я знаю знаю, что она легла спать поздно и она выглядит уставшей» или «может быть из-за того, что этот трехчасовой телефонный разговор, который сейчас завершился, был о чем-то ужасно напрягающем».
Самое лучшее время для практики этой привычки — это практика в автомобиле. Выдумывайте истории о неправильном поведении на дороге вокруг вас. «Солнце так ярко светит — она могла не заметить меня» «Эта машина выглядит старой! Я бы не смогла водить её хотя бы наполовину так же хорошо, неудивительно, неудивительно, что она постоянно глохнет.» «Он жутко опаздывает — может, у него что-то случилось с родственником?» «Возможно, она говорит по мобильному, потому что работает доктором, всегда на связи — будет хуже, если она не ответит на звонок во время вождения.» «Он бы остановился, будь у него место для этого, но здесь нет обочины.» Конечно, всё это скорее всего неправда. Но это разумные объяснения, и они не о том. что каждый водитель — безумец! Я подчёркиваю, что от вас не требуется верить этим историям. Просто признайте, что они правдоподобны, чтобы восполнить искажение гипотез подобно этой, что возникнет существенная ошибка восприятия.
Если такой информации нет, то попытайтесь предположить — «Я бы действовал так, если бы был простужен; может быть она заболела?» является допустимой спекуляцией даже при отсутствии других признаков простуды. Если возможно, будет хорошей идее спросить (искренне, с любопытством, уважительно, по-доброму! не обвиняюще, грубо, бесчувственно, воинственно!) почему человек поступает так, как он поступает. Будьте уверены, если человек психически здоров, то у него в сознании есть объяснение, которое не сводится к «Я ужасное оправдание для человека, который по своей натуре делает злые вещи просто, потому что ему нравится». (Заметим, однако, что не все могут вербализировать самосуждения, когда их попросят.) Вне зависимости от того, верите ли вы им или нет, убедитесь что вам известно по меньшей мере одно объяснение на основе обстоятельств для того, что они сделали.
Замечайте, какие ситуации вызывают больше плохого поведения, нежели другие. У каждого есть ситуации, которые вызывают худшее в них, и когда худшее уже действует вам на нервы, вы должны избегать по мере возможностей того, чтобы на поверхность всплыло еще более худшее. Если у вас есть влияние на роли, которые этот человек играет в вашей жизни (или вообще), ограничьте их теми, в которых их худшие привычки не имеют значения, смягчены или компенсируются местными достоинствами. Не просите забрать вас из аэропорта кого-то, кто ужасает вас своей скоростью; не предлагайте разрезать десерт тому, кто славится своим эгоизмом; не назначайте срочных задач прокрастинатору. Просите любителя быстрой езды доехать до банка, пока он не закрылся, когда вы (к сожалению) застряли дома; дайте эгоисту задачи где ему придется работать с комиссией; дайте прокрастинатору такие задания, которые ему не захочется откладывать.
2. Увеличьте значимость положительных черт.
Не смотрите на меня так. Это работает. По крайней мере с этого можно начать. Вам не нужно ждать, что вам понравится кто-то до тех пор пока вы не откроете, что они пожертвовали миллионы долларов на смягчение экзистенциальных рисков или узнали, что под псевдонимом они являются вашим любимым музыкантом. Вам может нравиться их крутая стрижка, или их молчаливость, или даже обувь. Вы можете ценить то, что они вынесли больше тягот, нежели вы (если вынесли, но постарайтесь «ошибиться» в оценке в нужную сторону) — даже если вы не думаете, что они хорошо со всем справились, все равно им было тяжело. Вы можете признавать что они лучше вас или лучше большинства, или лучше чем кто-либо из ваших знакомых, кто вам нравится, или они лучше в некотором навыке, некоторой сфере. Вы можете думать, что они сделали отличную работу по подборке их мебели, или перенесите на них ваше хорошее отношение к их родственникам или знакомым. Что-то всегда есть.
Узнайте больше о вызывающих симпатию фактах, которые вы обнаружили. «Поймайте их в действии», когда эти качества демонстрируются. В заключение к тому, что говорилось выше, создавайте ситуации, где эти качества будут выставлены не в плохом, а в лучшем свете. Добейтесь в этом успеха, безусловно и в ваших глазах. Поговорите с вашими общими друзьями о том, что ещё можно полюбить — узнайте, как человек находит друзей, что привлекает в нём людей, что люди извлекают из общения с ним. Спросите о добрых делах данного человека. Собирайте сведения, словно вы биограф, который страшится иска за клевету и боится написать слишком мало: вам нужно знать столько хороших фактов, насколько возможно.
В этом деле чрезвычайно важно развивать восхищение, а не зависть. Зависть и негодование приводят к обратным результатам, в то время как восхищение и уважение — какими бы сдержанными они ни были — являются шагом в верном направлении. Кроме того, вы постараетесь использовать эти особенности человека. Это не отдалит ваши цели, если вы не примете во внимание их значимость для огромного плана. Не думайте: «У неё классная причёска, почему же у неё такая классная причёска, хотя она ужасный человек и не заслуживает этого? Гр-р-р!» Вместо этого: «У неё такая классная причёска. На неё приятно взглянуть, вот почему здорово, когда она рядом. Интересно, у неё есть время научить меня укладывать волосы так же?» Или вместо «Конечно, он умеет говорить на латыни, но чёрт возьми, какой от этого прок? Он что, думает, что нас захватят легионеры и захотят, чтобы он был дипломатом?» будет полезнее для создания симпатии подумать «У многих людей нет терпения и стремления выучить какой-нибудь второй язык, тем более такой, у которого не осталось носителей, чтобы помочь и научить его тонкостям. Уверена, что он приложил к этому много усилий.»
3. Получите постоянный результат.
Будьте добры и внимательны к человеку. Велика вероятность. что ему что-то в вас не нравится (придирки чаще возникают у обеих сторон, а не у одной). Если вам удалось выяснить, что именно и делать это меньше — по крайней мере при нём — у вас возникнет смешанное чувство, что вы можете заставить себя полюбить этого человека. Иначе говоря, я думаю, почему бы вам не потрудиться не стучать пальцами в его присутствии, или не делать ошибок в его замысловатом имени, или помнить, на что у него аллергия, чтобы не приносить еду для всех, кроме него? Это то, что вы делаете, когда вам не наплевать на его чувства, а если вам не наплевать на них, значит он вам хотя бы немного нравится. (Берегитесь: если вы видите, что то, что вы делаете, раздражает его, и вы отвечаете с негодованием, что у него завышенные предпочтения насчёт глубоко укоренившейся части вашей личности и как он смеет, то вы что-то делаете не так. Главное не измениться до неузнаваемости, пытаясь быть его идеальным другом. Вам не нужно делать всё. Но сделайте хоть что-то.)
Стремитесь проводить время с этим человеком. Это должно естественно продолжать предыдущие шаги: вам нужно всё же добыть где-то всю информацию. Но узнавайте его мнение по разным вопросам, особенно из его области знаний и предпочтений; выполняйте небольшие задания; спрашивайте о его планах, интересах, любимых людях; встречайтесь на его территории, даже если вы никогда не взаимодействовали. (Берегитесь: не делайте этого, если чувствуете, что ненавидите его ещё больше в каждой проведённой вместе минутой, или если это напрягает вас достаточно, чтобы воздержаться от вышеупомянутых умственных упражнений. Лучше больше работать над симпатией на расстоянии, если вы на этой стадии, а потом стремиться проводить больше времени с ним. Кроме того, если вы его раздражаете, то не делайте ничего, что расценивалось бы как приставание и слежка.)
Постарайтесь узнать что-то от человека — например, не хочет ли он чему-то вас научить, или без обиняков, хочет ли. Возможно учиться даже у тех людей, чьи умения не намного лучше ваших. Если он рассказывает о том, что сделал, то вы можете учиться на его ошибках; если его умения хуже ваших, но он применяет новый подход, то вы можете научиться его использовать; если вообще ничего, то он знает кое-то о себе, а эта информация важна для проекта симпатии, о котором писалось выше. Наложите то, что о нём знаете, на его собственные представления о себе.
Берегитесь общей ошибки: используя возможности изложенной стратегии, очень легко выработать самодовольство, фарисейство, высокомерие и другое непристойное поведение. Остерегайтесь таких внутренних монологов, как: «Он ушёл и опять сломал раковину, но я слишком добрый и терпимый, чтобы злиться. Не стоит выражать недовольство — в конце концов, он не выносит критики, не мне осуждать его, конечно. Я лучше заблокирую кран и вызову водопроводчика, чтобы тот исправил за него поломку, чем буду ворчать на него, я же знаю, что он рассердится, если я напомню ему — не каждому дано спокойно воспринимать такое, как мне, а я так и веду себя с ним прямо сейчас, не расстраиваюсь…»
Автору этого монолога не нравится разрушитель раковины. Автор этого монолога презирает его, она высокого мнения о себе, потому что скрывает своё презрение (хотя это вполне может быть и он). Она терпит его общество, потому будет ниже её достоинства не делать этого; ей не нравится быть с ним, потому что она понимает, что он понимает суть важных вопросов или даже потому декоративен в какой-то степени. Если вы в итоге не имеете действительной, искренней, честной симпатии к человеку, которого планировали полюбить, то вы что-то сделали не так. Это недоверие вашему своеволию, и полагать, что это так, не поможет вам победить.
Я поняла, что содержимое цепочки об осознанности чересчур абстрактно и что было бы полезно показать на вымышленных примерах, как применять мои идеи. Вот эти истории.
1. Слова (идея взята из «Да будет свет», в котором я советую собирать предварительную информацию о себе из внешних источников)
Марии нравятся комплименты. Она без ума от комплиментов. А когда ей становится мало, она начинает напрашиваться на похвалу, задавать наводящие вопросы, смотреть большими глазами — делать все, чтобы получить их. Это всех раздражает. И часто вместо одобрения она получает язвительные замечания, критику и брюзжание. Она обижается; это ранит ее сильнее, чем других в таком же положении. Мария хочет знать, что с ней происходит. Поэтому она начинает проходить личностные тесты, изучает различные стили управления отношениями и их оценки, ищет то, что характерно именно для нее. Со временем она встречает понятие «языки любви» и осознает, что она «вербальный» человек. Ее друзья не хотят обидеть ее, они не представляют, как много для нее значат комплименты, как грубость может глубоко ранить таких, как она. С этим знанием она может толковать особенности своего поведения; она также может объяснить себе, что друзья действительно ее любят, и получать необходимые словесные подтверждения этому.
2. Виджеты (идея взята из «ЭПО — основы осознанности», в которой я объясняю ценность соотношения эмоций, поведения и обстоятельств)
Рабочая производительность Тони ужасна. Почти каждый день он слишком опустошен и невнимателен, чтобы хорошо делать виджеты. Выполнение плана по изготовлению виджетов под угрозой, и Тони хочет понять причину. Он только что прочитал увлекательные, блестяще написанные посты об осознанности на LessWrong, и вот он решает отследить свое состояние и действия в те моменты, когда он ощущает опустошенность и не ощущает ее. Через неделю он получает вполне устойчивую зависимость: хуже всего те дни, когда он пропускает завтрак, потому что слишком долго валяется в постели, постоянно отключает сигнал будильника и потом мчится на работу. Получается, что из-за рассеянности в течение дня он работает медленно, поэтому он меньше устает к вечеру и позже ложится спать. Чтобы справиться с этим, он начинает подолгу бегать в те дни, когда его работа не слишком утомительна, и запасается мелатонином; он легко засыпает, если ложится в нужное время, хорошо высыпается, завтракает и приезжает на работу полным энергии и сконцентрированным.
3. Текст (идея взята из «Свет, камера, мотор!», в которой я отстаиваю агрессивный и частый самоанализ, который позволяет собрать больше данных)
Дот читает об эксперименте, во время которого субъектам звонят в случайные моменты времени; они должны рассказывать исследователям, счастливы ли они в тот момент. Судя по всему, во время эксперимента были выявлены некоторые оптимальные модели поведения, и Дот любопытно, что она может использовать для улучшения жизни. Она просит друга организовать доставку смс на ее телефон в случайные моменты времени и обещает себе замечать, что она делает, думает и чувствует, когда получает смс. Вскоре она обнаруживает, что не так сильно любит смотреть телевизор, как ей казалось; что готовить вкуснее, чем разогревать в микроволновке; что ей не нравится ее соседка по кабинету; что она думает о своем бывшем больше, чем признается себе. Эти мысли обычно слишком поверхностны и не отражаются на её поведении; если она пытается вспомнить их через несколько часов, события складываются в одну длинную историю, в которой эти мимолетные эмоции вторичны. Но если их замечать и принимать их во внимание, они не ускользают. Дот кладет книгу на пульт от телевизора, напоминая себе, что такой отдых приносит больше удовлетворения. Она покупает меньше полуфабрикатов и необходимое количество основных продуктов. Она договаривается поменяться офисами с коллегой, чтобы не терпеть неприятное соседство. С бывшим не так просто, но когда ее друзья спрашивают о том, все ли у них в порядке, она может ответить более точно.
4. Набор текста (идея взята из статьи «Луч света», в которой я рекомендую переносить мысли в визуальную или звуковую форму, чтобы в дальнейшем их можно было исследовать, не затрагивая самоанализ)
Джордж старается понять, кто же он. Действительно старается. Но когда он пытается объяснить свои поступки и мысли в рамках общих моделей, которые могли бы ответить на его вопрос, результат выглядит подозрительным, требующим пересмотра и корыстным, как будто он привычно забывает некоторые детали и умышленно преувеличивает другие. Он думает, что он великодушен, что он звезда вечеринок, хороший семьянин, честный человек, с которым легко иметь дело. Джордж решает, что нужно честно и решительно отлавливать то, что он думает в каждый момент времени, чтобы работать с правдивыми данными. Он запускает текстовую программу и начинает записывать поток своего сознания. Напечатав несколько параграфов, почти полностью состоящих из «я тут пишу то, что думаю» и «это какая-то глупость, и ничего путного из этого не выйдет», он наконец набивает руку и начинает накапливать материал. Вскоре у Джорджа появляется несколько минут зафиксированного внутреннего диалога. Он записывает то, как хвалит себя, но в скобках также делает отметки о тех случаях, когда он действовал вопреки этим славным шаблонам (однажды он взял три порции торта, хотя на всех не хватало; он пропустил половину вечеринки, болтая по телефону; он пропустил прошлый день рождения дочери; он бросил друга в день соревнований; он вышел из себя, когда коллега несколько раз напомнил ему доделать таблицы). Джордж записывает свои плохие привычки и свои недостатки. Важно то, что он сопротивляется желанию стереть написанное, хотя он легко спорит с собой о том, хочет ли он что-то исправить. Потом он сохраняет документ, запихивает его подальше в папку и выжидает неделю. В следующий вторник он перечитывает напечатанное, как если бы это были записи незнакомого человека и думает, что бы он мог ему посоветовать.
5. Противоречия (идея взята из статьи «Блики и тени», в которой я объясняю, как поддерживать и отвергать мысли и склонности)
Пенни знает, что она не совершенна. Более того, некоторые ее склонности и замыслы противоречат друг другу, и она знает об этом. Она хочет питаться лучше, но любит пиццу; она пытается научиться самообладанию, но иногда люди так себя ведут, что единственный выход — накричать на них; она старается усмирить желание пилить своего парня, но если он не в состоянии научиться опускать за собой сиденье унитаза, то, возможно, он заслуживает упреки. Пенни решает внимательно разобраться с несоответствиями и принять, наконец, одну из сторон. И вот она приходит к честному выводу, что без пиццы жизнь кажется мрачной и беспросветной; она делает это официальным исключением из правила и старается питаться лучше — кроме тех случаев, когда дело касается пиццы. Она понимает, что злость — даже на людей, которые ошибаются — никому не поможет, так что она прикладывает больше сил, чтобы справиться со злостью, и ищет другие, более продуктивные методы выражения своих оценок. И ей ясно, что нытье не решает проблемы. Она не одобряет ворчание, но и некультурное поведение своего молодого человека она поддерживать не собирается. Она соглашается больше не пилить его, когда он допускает ошибку, и надеется, что он исправится.
6. Коллектив (идея взята из статьи «Город огней», в которой я предлагаю разделить себя на субагентов, чтобы разрешить сложную ситуацию)
У Билли есть возможность на год уехать в Австралию учиться, и он настолько озадачен, что едва может ясно мыслить. Он не может решить, хочет ли он ехать, почему он хочет ехать, и что он чувствует при мысли, что он откажется. Наконец он решает, что будет легче дать имя каждому из докучающих ему голосов и позывов и позволить им говорить друг с другом. Он определяет основных участников (субагентов) как «Привязанность», которая хочет остаться в знакомой обстановке; «Авантюриста», который хочет узнать что-то новое и путешествовать по миру; «Верность наставнику», которая подчиняется рекомендациям его профессора; «Знатока», который хочет сделать все, чтобы у Билли в будущем было как можно более впечатляющее резюме; и «Боязнь пауков», которая мечтает оказаться подальше от австралийских членистоногих и жутких снов с их участием. Когда у этих голосов появляется возможность спорить, они обнаруживают друг у друга сомнительные мотивы: например, Знатоку понятно, что профессор рекомендует Билли остаться только потому, что Билли работает у него помощником, а не потому, что хочет, чтобы он рос в интеллектуальном плане, и это снижает важность Верности наставнику. Авантюрист возражает Боязни пауков, указывая на то, что черная вдова родом из США. Наконец, Знаток и Авантюрист вместе побеждают Привязанность (с которой Билли себя не отождествляет), и вот Билли отправляется покупать билет.
7. Эксперимент (идея взята из статьи «Тени от лампы», где я описываю возможность успешно измениться, принимая другую модель поведения, и определить то, что лежит в основе нежеланных поступков)
Ева начинает плакать каждый раз, когда сталкивается со сложной задачей вроде нового проекта на работе или бурного скандала среди ее друзей. Конечно же, это очень непродуктивно — на деле, в случае скандала это еще больше усугубляет ссору — и Ева хочет остановить это. Для начала она должна осознать, почему так происходит. Является ли грусть причиной слез? Похоже, что нет. Она плачет, даже если ничего грустного не происходит. Последний проект на работе был увлекательным, он открыл для нее много возможностей, но все таки она плакала. Разбираясь с причиной, которая заставляют ее плакать, Ева понимает, что слезы появляются из-за давления, которое она ощущает, решая проблему; к примеру, если над проектом вместе с ней работает команда, Ева реже реагирует подобным образом; и если друзья в своих ссорах обращаются к ней за помощью, она плачет чаще, чем когда она только наблюдает со стороны. Теперь ей нужно помочь себе не плакать. Она получает поддержку в своих начинаниях: если босс дает ей поручение, она обращается к другому сотруднику:»Я, скорее всего, с этим справлюсь, но если мне понадобиться помощь, могу ли я рассчитывать на вас?» Таким образом она снимает с себя часть ответственности. Она может думать, что задача не полностью на ней. Когда разражается очередной скандал, Ева переосмысливает свое участие в размолвке. Она выражает вслух согласованное мнение всех участников ссоры вместо того, чтобы в одиночку пытаться найти наилучшее решение. Однако даже при том, что с таким новым подходом слезы появляются реже, структура, которая лежит в основе данной привычки, сохраняется. С этим справиться сложнее. Ева подолгу думает над тем, почему ответственность так эмоционально нагружает ее, и ищет пути увеличить чувство поддержки в тех ситуациях, с которыми она не может справиться самостоятельно. В конце концов, не страшно, если Ева всплакнет, когда столкнется со сложной ситуацией.
Одно из наименее ценных моих воспоминаний — это как на обращении «О положении страны» или, возможно, на инаугурации президента, один нобелевский лауреат встал и стал читать ужасно торжественным голосом политически верную длинную скучную речь о том, как хорошо живется у нас всем нациям — «Афроамериканцам, эфиопам, этрускам» или типа того. Эта «поэма», если можно так выразиться, была просто невыносимо ужасна. Если верить моим ушам, то в ней не было абсолютно никаких достоинств вообще.
Время от времени к какому-нибудь атеисту приходит потрясающая идея, что и у атеистов должен быть гимн, наподобие тех, что есть у религиозных людей. После этого они берут существующую песню на религиозную тематику и переделывают ее под атеизм. И такой «атеистический гимн» практически всегда получается просто отвратительным. Однако автор не видит, насколько ужасно его произведение как стихотворение. Он слишком занят восхвалением себя, думая «Религия отстой, аминь». Он ощущает себя так, словно нанес удар Злейшему Врагу. Его настолько переполняет воодушевление от этого, что атеист не видит, что у его гимна вообще никаких других достоинств. Стихи того же качества о чем-то, не касающемся политики, смотрелись бы чем-то вроде записок на холодильнике у домохозяйки.
В литании против гуру, которая приводилась в предыдущей статье, есть две строки, которые можно классицировать как стихи, а не просто как строфу. Когда я сочинял конец литании, строки, которые первые пришли мне на ум, были следующими:
I was not your destination (Я не цель, куда нужно придти)
Only a step on your path (А только шаг на твоем пути)
Которые в принципе звучали не особо. Заменить «путь»(pathway) на «дорогу»(road), чтобы совпадало по слогу? Тогда звучит еще хуже, теряется ритм.
Настоящая проблема была в слове destination (место назначения) — которое состояло из четырех слогов и было ужасно громоздким. Его надо было убрать. «Я не твоя цель» («I was not your goal») было первое что пришло в голову и это было коротким и отлично звучало. Однако мне не нравилось слово «цель» («goal»), оно было слишком абстрактным. Вслед за ним мне в голову пришло слово «город» («city») и я понял — вот оно.
«I was never your city» («Я никогда не был твоим городом») пришло ко мне не когда я думал о рациональности, а когда я размышлял о просодии. Ограничения искусства заставляют нас отбрасывать устаревшие шаблоны построения фраз, и в поисках менее очевидных фраз мы часто натыкаемся на менее очевидные мысли.
Если я скажу «Ок, это отличная мысль о рациональности, так что нет нужды волноваться о просодии», тогда я бы не смог получить преимущество ограничения.
Другая строка первоначально звучала как «Laugh once, and never look back,» («Посмейся и никогда не оглядывайся») что было не слишком рационально, хотя с просодией тут проблем не было. «Laugh once» («Посмейся») звучало слишком глумливо, это было не то, что требовалось. «Never look back» («Никогда не оглядывайся») было еще хуже, поскольку память о прошлых ошибках может быть полезна даже годы спустя. Так что «Look back, laugh once smile, and then,» и, «look forward» («Оглянись,Улыбнись,И иди вперед!»)? Теперь, если бы я восторгался рациональностью, я бы сказал «Как хорошо звучит „look forward“ » и простил бы лишний слог.
«Eyes front!» а вот тут было два слога. Они звучали четко и ясно, говорят прекратить витать в облаках, выйти из оцепенения и приступить к работе! Никаких мягких клише вроде «look forward, look upward, look to the future in a vaguely admiring sort of way…»
Взгляд вперед! Это лучшая мысль в качестве рациональной, которую я бы никогда не нашел, если бы стремился исключительно писать о рациональности, так чтобы забыть о просодии или лишних слогах.
Если вы позволяете утверждению о Вашей Любимой Идее компенсировать недостаток ритма в песне, недостаток красоты в картине, недостаток остроты в произведении, то ваше искусство неизбежно будет крайне убого. Когда вы стараетесь рассказать через искусство свою Любимую Идею, то вы должны придерживаться тех же стандартов, что при рассказе о бабочке.
Существует направление политизированного искусства, наподобие рисования икон. При этом высокое качество в таком искусстве скорее исключение чем правило. Большинство из них работает по принципу «Советского Человека, Который Побеждает Змей Капитализма». Такое легко сделать и легко защищать — если кто-то критикует ваше искусство при этом, то получается, будто он на стороне Змей Капитализма.
Толерантность по отношению к ужасному искусству, проявляемая только потому, что оно наносит удары по вашим Врагам, или потому что оно взывает к Великой Истине — опасный знак. Это свидетельствует о том, что аффективная смертельная спираль входит в сверхкритическую фазу, где вы больше не сможете критиковать любой аргумент, который говорит в пользу «вашей» стороны.
И в следующий момент вы осознаете, что уже пишете ужасные гимны или вставляете гигантские философские лекции в кульминацию вашего романа…
Существует так называемый глумливый или подлый смех, который возникает у человека, когда он видит, как его Злейший Враг получает пинок под зад. Это может быть ожидаемым и быть вообще не смешно на самом деле, главное — чтобы Врагу при этом было больно. Похоже на юмор, только без юмора.
Если вы знаете, что ненавидит ваша аудитория, то не составляет труда добиться подобного смеха — который служит признаком одного из подвидов ужасного политического искусства.
Существуют, конечно, и хорошие образцы сатиры, да; не все политическое искусство плохо. Однако от сатиры требуется нечто большее, нежели простой удар Врагу по носу. На деле не то что сатира — даже обычный юмор требует усилий.
Представьте политическую карикатуру: здание с вывеской «Наука» и годзиллоподобного монстра с табличкой «Буш», который ломает это здание. Есть люди, которые будут смеяться и над этим — хе-хе, Буш теряет баллы, хе-хе — однако такую карикатуру можно сделать почти без усилий. На деле, это вообще первое, что пришло мне в голову в ответ на мысль «политическая карикатура о Буше и науке». Такая степень очевидности и простоты — плохой знак.
Если я хочу создать смешную политическую карикатуру, я должен приложить больше усилий. Выйти за пределы шаблонных «запасенных» мыслей. Использовать свою креативность. Изобразить Буша монстром с тентаклями, а науку — японской школьницей.
Есть множество форм искусства, которые страдают от очевидности. Однако юмор страдает больше остальных, поскольку он держится на сюрпризе — нелепом, неожиданном, абсурдном.
(Сатира добивается этого говоря вслух те мысли, которые вы не осмеливаетесь даже думать. Фальшивая же сатира повторяет мысли, которые вы уже думали.)
Вы можете сказать что предсказуемый кульминационный момент имеет слишком большую энтропию, чтобы быть смешным, по той же самой логике, которая говорит, что вы будете меньше удивлены обнаружив на градуснике 30 градусов, нежели 29.
Общий тест, который позволяет распознать ужасное политическое искусство — спросить, казалось бы данное искусство нужным, не будь оно политическим. Если кто-то пишет песню о космическом путешествии, и песня достаточно хороша, что я слушал бы ее, даже будь она о бабочках, тогда и только тогда ей можно начислить бонусные баллы за прославление великой идеи.
Так что один тест на подлый смех — спросить, была бы шутка столь же смешна, если пинок получил не Злейший Враг. Билл Гейтс однажды получил внезапно пирогом в лицо. Было бы это по-прежнему смешно (пусть даже менее смешно) если бы пирогом получил Линус Торвалдьс?
Разумеется я не предлагаю вам сидеть и весь день спрашивать, какие шутки на самом деле смешные, а над какими вам «позволено» смеяться. Как говорится, анализировать шутку все равно, что препарировать лягушку — лягушку это убивает, да и вам не особо весело.
Так зачем нужен данный пост? Разве мы уже не знаем, какие из шуток смешны?
Первое приложение: если вы обнаруживаете себя в компании людей, которые рассказывают несмешные шутки о Злейшем Враге, будет хорошей идеей смыться оттуда, пока вы не начали смеяться вместе с ними…
Другое приложение: и вы и я должны иметь право не смеяться над определенными шутками — даже шутками, нацеленными на наши любимые мишени — на основании того, что шутка слишком предсказуема, чтобы быть смешной. Мы должны быть способны это делать без того, чтобы быть обвиненными в отсутствии чувства юмора, «неспособности въехать в прикол» или защите священных коров. Если Годзилла-с-табличкой-топчущий-здание-с-табличкой не смешно для «Буша» и «Науки», то это также не смешно и для «либеральных экономистов» и «Американской национальной соревновательности» и т.д.
Наиболее едкое обвинение, которое я когда-либо слышал против Объективизма, это что хардкорные объективисты лишены чувства юмора; однако никто не может это доказать только показывая объективисту карикатуру о Годзилле «Рэнде», разрушающем здание «юмор» и требуя, чтобы человек смеялся.
Требуя, чтобы кто-либо смеялся для доказательства, что человек не принадлежит к культу — ну, как и большинство подневольного смеха, оно не особо работает. Смех, о любой вещи, должен приходить естественно. Самое большее, чего вы можете добиться — это вызвать страх и сомнения в их пути.
Если объективист, который просто просматривает странички в Интернете, натыкается на изображение Айн Рэнд в виде японской школьницы, которая читает лекцию монстру с тентаклями, и при этом даже не улыбается — это вполне может быть проблемой. Однако решить эту проблему, пытаясь смеяться нарочно, не получится.
Проблемы с юмором — знак ужасных вещей. Однако делать юмор обязательным или постоянно волноваться, достаточно ли вы смеетесь — значит усугублять и добавлять таких проблем. В таком виде это похоже на Дзен. Есть вещи, из которых вы можете сами сделать шутку, однако очень мало вещей, которые вы можете сделать, чтобы осознанно поверить что шутка смешна.
Эта статья является попыткой сжато изложить базовый материал, и таким образом, возможно, не несет ничего нового для продвинутого читателя. Будет интересно узнать, не пропустил ли я чего-то важного здесь.
Вы, должно быть, часто встречали слово «Байесианство» на этом сайте, но, вероятно, не до конца уверены в том, что мы имеем в виду под этим понятием. Вы могли прочитать интуитивное объяснение, но там похоже, только объясняются некоторые математические формулы. На эту тему есть статья в википедии, но и она не сильно помогает. Можно было подумать, что люди на LW вкладывают в «байесианство» смысл навроде «вы же знаете, есть частотная школа статистики, и есть байесовская школа статистики; так вот, мы говорим про байесовскую» — но нет, это не совсем то. Насколько я могу сказать, не существует статьи, точно говорящей, что означает «байесианство».
Центральные идеи просматриваются на протяжении большого набора постов, «байесианство» имеет свой тэг, но нет отдельного поста, который точно увязывал все связи и говорил «вот это и есть байесианство». Так что позвольте мне попробовать предложить моё определение, которое сводит байесианство к трём ключевым принципам.
Мы начнем с короткого примера, иллюстрирующего теорему Байеса. Предположим, что вы врач и к вам пришел пациент, который жалуется на головную боль. Далее предположим, что есть две причины, по которым может болеть голова: опухоль мозга и простуда. Опухоль мозга всегда вызывает головную боль, однако она является крайне редким заболеванием. И наоборот, головная боль редко возникает при простуде, однако множество людей простужается каждый год. Если нет другой информации, что вероятнее — что человек простудился или у него опухоль мозга?
Если вы решили, что вероятнее всего простуда, то это был ответ, которого я ждал. Даже если опухоль вызывает боль каждый раз, а простуда только в одном проценте случаев, случаев простуды настолько больше, что случаев головной боли, вызванной простудой, куда больше, чем болей, вызванных опухолью мозга. Теорема Байеса, в основном, говорит что если причина А может быть источником симптома Х, то тогда мы должны учесть обе вероятности, что А вызывает Х (находится, грубо, умножением частоты А на шанс, что А вызовет Х) и вероятность что что-то еще вызовет Х (для досконального математичесого объяснения теоремы Байеса обратитесь к интуитивному объяснению от Элиезера).
Нет ничего удивительного в этом, конечно же. Предположим, что вы идёте по улице и видите бегущих людей. Они могут быть на пробежке, куда-то торопиться или же они таким образом хотят согреться. Чтобы понять, какое из предположений верно, вы пытаетесь определить какое из объяснений истинно чаще всего и лучше всего подходит в вашей ситуации.
Ключевой принцип 1: У любого полученного наблюдения есть множество различных возможных причин.
Признание этого, однако, ведет к кое-чему менее интуитивно представляемому. Любое наблюдение всегда следует интерпретировать, учитывая уже имеющуюся информацию. Простое наблюдение того что человек бежит, не будет достаточным, чтобы сказать что он торопится или что он просто на утренней пробежке. Или предположим что вы должны выбрать между двумя соперничающими теориями о движении планет: есть теория о законах физики, предложенная сэром Исааком Ньютоном или теория, гласящая что Летающий Макаронный Монстр просто подталкивает планеты Своей Макароннейшей Десницей. Если эти две теории делают одинаковые предсказания, то вы должны основываться на своих исходных знаниях (на своём приоре, коротко говоря), чтобы решить, какая из них более вероятна. И даже в случае, когда их предсказания отличаются, вам всё равно требуются какие-то знания, на основании которых можно определить, которое из предсказаний лучше; не говоря о том, что из-за каких-то соображений нас интересуют именно предсказания, а не степень элегантности теории.
Или возьмём обсуждение теорий заговора. Некоторые люди считают, что необъяснённые или подозрительные вещи в официальных отчётах означают, что существует государственный заговор. Другие считают, что априорная вероятность гипотезы «правительство готово проводить массовые рискованные операции с тысячами невинных жертв для того, чтобы ввести публику в заблуждение» очень мала и думают, что куда вероятней есть что-то ещё, вызывающее данные подозрительные вещи.
Опять же, это может казаться очевидным. Но есть ряд хорошо знакомых примеров, в которых люди забывают применить данную информацию. Возьмем феномен сверхъестественного: да, если существовали духи или боги, влияющие на наш мир, некоторые из вещей, входящих в человеческий опыт, могли бы подпадать под категорию вещей, которые могли бы вызываться данными силами. Но также есть бесчисленное количество обыденных объяснений, от совпадений до психических расстройств при богатом воображении, что могли привести к восприятию данных вещей. Большую часть времени постулирование сверхъестественного объяснения не должно даже возникать у вас в сознании, поскольку у обыденных причин есть уже множество свидетельств в их пользу, а у сверхъестественного — ни одного.
Ключевой принцип 2: Наша интерпретация любого события, а также любая новая информация, которую мы получаем, зависит от информации, которая у нас уже есть.
Подпринцип 1: если вы наблюдаете явление, которое может быть, по вашему мнению, вызвано только причиной А, спросите себя: «что если данной причины не существовало бы — мог бы я ожидать независимо наблюдать то же явление с той же вероятностью?» Если ответ «да», то, возможно, причиной является вовсе не А.
Данное понимание ведет нас к…
Ключевой принцип 3: Мы можем использовать концепцию вероятности для измерения наших субъективных убеждений в чём-то. Более того, мы можем применять математические законы, имеющие отношение к вероятности, для выбора между различными убеждениями. Если мы хотим, чтобы наши убеждения были верными, мы обязаны так делать.
Факт, что любое явление может иметь бесконечный ряд причин объясняет то, почему байесианцы так строги при подтверждении теорий. Недостаточно, чтобы теория объясняла феномен; если она может объяснить слишком много, она не является хорошей теорией. Помните: явление, которое имело бы место даже в случае, когда предполагаемая вами причина отсутствует, — слабое подтверждение вашей гипотезы. Подобным образом, если теория может объяснить любое наблюдаемое явление, то есть если теория разрешает любое возможное событие, тогда ничего из того, что вы наблюдаете, не будет свидетельством для данной теории.
По своей сути, байесианство не представляет собой ничего более сложного чем это: мышление при помощи набора из трех ключевых принципов, полностью принимаемых во внимание. Добавим капельку идеализма: совершенным байесианцем является тот, кто обрабатывает всю информацию в совершенстве, и всегда приходит к лучшим заключениям, которые только можно сделать из имеющихся данных. Когда мы говорим о байесианстве, это идеал, к которому мы стремимся.
Полностью усвоенное, это мышление имеет тенденцию окрашивать ваши мысли в свой, особенный цвет. Как только вы осознаете, что все ваши убеждения, которые у вас есть, основаны — в механическом, законном смысле — на убеждениях, которые вы имели вчера, которые основаны на убеждениях что были у вас последний год, которые основаны на убеждениях которые были у вас, когда вы были еще ребенком, которые основаны на тех предположениях о мире, что были встроены в ваш мозг, когда вы росли в утробе матери… То это заставит вас задуматься о ваших убеждениях в большей степени. Забеспокоиться о том, все ли из этих предыдущих убеждений в действительности максимально соответствовали действительности.
И вот, по существу, зачем нужен этот сайт: чтобы помочь нам стать хорошими байесианцами.
Если у вас есть только молоток, всё вокруг выглядит как гвозди.
Инструментальная рациональность: тридцать дней практики.
Если у вас есть только молоток, то всё вокруг выглядит как гвоздь.
Наиболее значимая идея, о которой я когда-либо писал это «Серьезное восприятие идей», что само по себе является обобщением поста Зви More Dakka. Этот текст является углублением мысли о полноценной интеграции какой-либо идеи.
Создам дихотомию между Молотками и Гвоздями:
Молоток есть некто, выбирающий единственную технику и использующий её для решения как можно большего количества задач.
Гвоздь есть некто, выбирающий единственную задачу и использующий все доступные техники, пока не решит её.
Люди в целом являются Гвоздями, фиксирующиеся на одной конкретной проблеме и применяющие все свои приемы на ней. Гвоздь приобретает мастерство в решении задач медленно и усердно, но может не суметь распознать мощь и уровень применимости своих инструментов.
Иногда лучше быть Молотком. Полученный добрый совет всегда является молотком: некий организующий принцип, который работает во многих отраслях. Чтобы получить максимальный выхлоп с одного молотка, не прекращайте использовать его после решения текущей задачи. Используйте его везде. Идеи не изнашиваются от частого применения.
Независимо от того, кем вы являетесь в данный момент, будьте систематичны, поскольку выбор это плохо.
Мне приходит на ум ставшая классической речь математика Джан-Карло Рота. Его пятый тезис - будьте Молотком (выделено мной):
Долгое время назад пожилой и хорошо известный специалист в области теории чисел сделал несколько пренебрежительных замечаний о работе Пала Эрдёша. Вы восхищаетесь вкладом в математику столь же сильно, как и я, а я был возмущен, когда математик сухо и четко заявил, что вся работа Эрдёша может быть сведена к нескольким трюкам, которые Эрдёш постоянно использовал в своих доказательствах. Чего наш специалист не осознал, так это использование математиками, даже самыми лучшими из них, небольшого количества хитростей раз за разом. Например, Гильберт. Второй том собрания сочинений Гильберта содержит его работы по теории инвариантов. Я удосужился тщательно прочитать некоторые его работы. Печально заметить, что некоторые из прекрасных решений Гильберта были полностью забыты. Но при чтении доказательств удивительно глубоких теорем Гильберта в теории инвариантов, можно с поражением убедиться, что в своих доказательствах он опирался на несколько трюков. Даже у Гильберта было всего лишь несколько трюков.
Лучшие математики всех времен создали огромные массивы своих работ через применение лишь одной прекрасной техники к каждой задаче, которую могли найти. Моя любимая книга по математике это «Вероятностный метод» за авторством Алона и Спенсера. Никогда не устану поражаться, что один и тот же метод применяется к:
Теореме Эрдёша-Каца. Число разных простых множителей случайного целого числа между 1 и n ведет себя как нормальное распределение со средним и дисперсией log log n.
Задаче треугольника Хейлбронна (Heilbronn triangle problem). Каков максимум Δ(n), для которого существует n точек в единичном квадрате, никакие три из которых не формируют треугольник с площадью меньше чем Δ(n)?
Занимательно отметить, что в той же самой речи, Рота изложил преимущества Гвоздей двумя тезисами ниже:
Ричард Фейнман любил давать совет, как стать гением. Нужно постоянно держать в уме дюжину своих любимых задач, несмотря на то, что по большому счёту они будут находиться в «спящем» состоянии. Каждый раз, когда вы услышите или прочтёте о какой-то новой хитрости или приеме, испробуйте его на каждой из ваших любимых двенадцати задач и посмотрите, что сработает. Время от времени что-то будет получаться, а люди вокруг станут говорить: «Как он это сделал? Он наверняка гений!»
Оба состояния разума необходимы.
Быть Гвоздём значит изучать единственную задачу с каждого боку. Часто бывает, что каждая техника проливает свет на одну сторону задачи и обойдя проблему по кругу через применение множества молотков, можно глубоко в ней разобраться. Причем эффект сохраняется и после решения задачи - какие-то откровения можно получить, применяя иные методы и получая более удовлетворяющие способы доказательства.
Обычно даже провал отдельных техник проливает свет на степень сложности задачи. Классическим примером такого отрезвляющего провала является систематическая ошибка счёта (ровно на два порядка) простых чисел, используя методы сита. Этот провал настолько серьёзен и неисправим, что получил собственное имя: задача соотношения (Parity Problem).
В то же время, быть Молотком значит изучать единственную технику с каждой возможной точки зрения. В случае вероятностного метода, обширность применения была мгновенно обнаружена при систематическом изучении равномерных случайных построений. Однако, отдельные адепты Молотка вроде Эрдёша превратили этот базовый метод в супероружие через кропотливое применение ко все более и более сложным задачам. Вариации вероятностного метода такие как локальная лемма Ловаса, лемма энтропии Ширера и неравенство Азумы-Хёфдинга являются теперь каноническими благодаря настойчивости Молотков.
Идея не в том, что Молотки лучше, чем Гвозди. Идея в том, что существует время и место и для Молотков, и для Гвоздей, а в частности сочетание обоих состояний сознания гораздо лучше, чем слепое блуждание по методам, характеризующее запутавшихся новичков. Существует бесконечное количество советов в Интернете, иногда даже хороших советов, но всё же каждому человеку приходится организовывать свою жизнь вокруг систематического применения нескольких трюков или решения небольшого количества задач.
Принять идею всерьез трудно и дорого. Потребуется снести конкурирующие конструкции в сознании и создать новый дворец для новой идеи. Придётся её тестировать в поле снова и снова, не скатываясь при этом в суеверия.
Станьте Молотком, примите эту идею всерьез и заставьте её работать на себя и платить ренту. Черт, да ты же президент, ты император, ты король. Нет никого старше тебя в твоей голове! Заставь свои идеи работать.
Упражнение для читателя: все вещи имеют привычное применение. Придумайте десять непривычных способов применения вашей любимой техники рациональности (бонусные очки за демонстрацию намерения убивать)
Рациональность это систематическое выигрывание.
В молотках и гвоздях я предложил рационалистам быть более систематичными в своём искусстве. В этом посте я буду использовать слово молоток для отдельно взятой техники, тщательно отработанной и широко применяемой.
Время молотков это 30-дневная цепочка по инструментальной рациональности, которую я составляю для себя, чтобы получить навык работы с техниками. Её задача превратить рационалистов в систематических рационалистов. К концу этой цепочки я надеюсь проапгрейдить каждый молоток от Бронзовой Дубины до Вострой Драконьей Кувалды. Я приглашаю вас присоединиться ко мне на этом пути.
Основная концепция цепочки: один день - один молоток.
Мы будем практиковать десять молотков на протяжении 30 дней. Каждое упражнение масштабируется от получаса до целого дня. Молотки будут нагло украденными техниками CFAR:
Будет три цикла по 10 дней каждый, каждая техника будет использоваться по три раза. Первый цикл покроет базовые моменты и удалит баги на повседневном уровне. Второй цикл закрепит технику, вовлекая вариации и обобщения, позволит решить более сложные задачи. Третий цикл будет нацелен на создание гибких составных действий из нескольких центральных техник.
Баг это что угодно в жизни, требующее улучшения. Даже если что-то идёт хорошо, но возможно вообразить лучше, то в этом существует баг.
В первый день сезона молотков, мы прочешем свою жизнь мелким гребнем и найдём как можно больше багов. Достаточно полный список багов предоставит исходный материал, на котором мы будем практиковать каждую следующую технику рациональности. Для первого цикла охоты на баги ищите маленькие и строго конкретные проблемы. Полное упражнение должно занять чуть больше часа.
Предупреждение: сосредоточьтесь на обнаружении багов, а не на их решении. Если можно закрыть баг незамедлительно, сделайте это. В противном случае, воздержитесь от предложения решений. Выписывание бага на лист бумаги не означает, что вы тут же обязались сделать с ним что-либо.
Подготовьте блокнот, приложение в телефоне, таблицу в Google Docs для записи багов, предпочтительно что-то, что можно таскать с собой в течение дня. Мы будем обращаться к этому списку в ближайшие дни.
Во время охоты на баги потратьте следующие 30 минут выписывая их как можно больше. Следуя каждому из шести наборов подсказок в следующей секции, поставьте таймер на 5 минут и зафиксируйте их.
Пройдите мысленно через все ваши повседневные дела в поисках моментов для улучшения. Вы просыпаетесь вовремя? Есть ли у вас утренние регулярные процедуры? Тратите ли вы мыслительные усилия, пытаясь каждый день разобраться, стоит ли завтракать или что именно съесть? Пользуетесь ли вы наиболее эффективным способом добраться до работы и максимально ли используете время в дороге?
Перематываем на место работы или учебы. Есть ли физический дискомфорт? Недостает ли вам инструментов? Есть ли люди, которые вас беспокоят или с которыми вы недостаточно общаетесь? Просите ли вы помощи, когда нуждаетесь в ней? Знаете ли вы, когда замолчать? Есть ли непродуктивное время во время встреч или занятий? Заботитесь ли вы о себе в течение дня?
Теперь вечер дома. Тратите ли вы время на выяснение, чем поужинать? Есть ли хобби, которые вы давно хотели попробовать? Есть ли дела, о которых вы знаете, что они интересны или полезны, но вы их почему-то не делаете? Есть ли постоянный прогресс в ваших побочных проектах? Ложитесь ли спать вовремя? Какое у вас качество сна?
Оцените дела, которые вы ведёте на регулярной основе. Есть ли привычки, от которых вы хотите избавиться? Есть ли привычки, которые вы хотите приобрести, но никак не соберетесь?
Для каждого хобби или привычки ответьте на следующие вопросы. Достаточно ли вы этим занимаетесь? Может быть, слишком много? Можно ли как-то улучшить ваш опыт? Можно ли делать это в другом месте или в другое время? Может быть с какими-то другими людьми? Может быть в одиночестве?
Возможно, вы хотите практиковать какие-то навыки. Вы достаточно хороши, как хотели бы быть? Регулярно ли вы занимаетесь? Есть ли перетренированность? Вышли ли вы на плато? Есть ли какие-то препятствия, мешающие попробовать новое? Есть ли направления, которых вы ещё не пробовали, которые могли бы косвенно улучшить ваши возможности?
Посмотрите вокруг себя, на ваше жилье, рабочее место, внутреннее пространство вашего автомобиля. Что бы вы поменяли?
Пространство должно быть функциональным. Есть ли мусор, который приходится каждый день обходить? Ваши столы и стулья правильной высоты? Кровать удобная? Есть ли какие-то полотенца, тарелки, блокноты, бумаги, которые не на своём месте и раздражают вас? Какие-то важные вещи, которые должны занимать центральное место? Есть ли у вас места для очков, кошелька и телефона?
Пространство должно быть эстетически приятным. Может быть куски мебели или оборудования неприятно выпирают? Может быть стены кажутся блеклыми или угнетающими? Может быть какие-то потеки или пыль постоянно попадаются на глаза и понижают настроение? Может быть вы устали от картины на стене?
Пространство на экране монитора может быть столь же важным, как и физическое пространство. Достаточно ли у вас экранного места? Повторяющиеся механические процедуры запуска и выключения, которые могут быть автоматизированы? Используете ли вы расширения для браузера и сочетания клавиш? Может быть какой-то голос в глубине души шепчет вам, что пора изучить vim?
Люди и предметы требуют вашего внимания. Чего не хватает в вашей жизни, чтобы жить как можно более агентно?
Множество видов деятельности являются бездонными поглотителями времени. Смотрите ли вы передачи или играете в какие-то игры, которые не приносят вам больше удовольствия? Может быть, вас постоянно вовлекают в бессмысленные разговоры? Обнаруживаете ли вы себя, прокручивающим колесико мышки вдоль бесконечных лент Facebook или Reddit? Может быть есть занятия, встречи, маршруты движения или проекты, которые превращают вас в зомби до конца дня? Подготавливаете ли вы заранее «точки катапультирования», которые уберегут вас от поглотителей времени?
Сосредоточьтесь на вещах, которым вы не уделяете достаточного внимания. Совершаете ли вы ошибки на автопилоте? Есть ли друзья или члены семьи, которыми вы пренебрегаете или неконтролируемо дистанцировались? Есть ли обсуждения, в которых вы не участвуете, которые могли бы принести вам пользу? Есть детская мечта, о которой вы забыли?
Иногда банальные отвлечения могут приводить к чудовищным провалам. Существуют ли незначительные, но постоянные виды физического дискомфорта, которые высасывают из вас агентность? Может быть температура на улице мешает вам заниматься спортом? Может быть какая-то блестящая безделушка всегда отвлекает вас от работы?
Наши самые важные баги могут скрываться в наших когнитивных слепых зонах.
Посмотрите на свою жизнь со стороны. Вы достаточно офигенный? Каковы ваши самые большие слабости? Если какая-то одна вещь удерживает вас от достижения ваших целей, то что это? Есть ли невыразимые привязанности к разным аспектам вашей идентичности? Может быть вы систематически пере- или недооцениваете свои способности?
Смоделируйте своего лучшего друга в своей голове. Что он скажет о вас, что может вас удивить? Какое ваше поведение раздражает его? Какое ваше поведение его восхищает? Может быть он постоянно дает вам какой-то совет, а вы ему не следуете?
Призовите своего Дамблдора. Что он вам скажет? К какой глубокой мудрости вы слепы? Если вы главный герой своей жизни, то какого жанра произведение?
Обратитесь к зависти и восхищению за прозрением. Являетесь вы личностью, которой вы больше всего восхищаетесь? Какие желаемые вами навыки и качества есть у других людей?
Тени, от которых мы шарахаемся, могут скрывать самые привлекательные сокровища.
Каковы ваши самые большие страхи и тревоги? Есть ли у вас сила быть уязвимым? Есть ли какие-то действия, которые нужно загодя сделать, чтобы обезопасить себя? Есть ли истины, которые вы боитесь произнести вслух? О чем вы себе лжете?
Посмотрите на свой круг общения. Есть ли в нём хорошие люди, от которых вы прячетесь? Есть ли темы для обсуждения, которые заставляют вас закрыться? Есть ли слова, которые могут заставить вас потерять душевное равновесие?
Обратитесь как можно дальше в прошлое и будущее. Какие дедлайны заставляют вас отвести глаза? Может быть есть какой-то тип личности, которым вы боитесь стать? Или вы больше всего боитесь стагнации? Доверяете ли вы себе прошлому и себе будущему?
Надеюсь, что вам удалось составить список из хотя бы 100 багов; у меня набралось 142. Теперь время для небольшой уборки. Впишите этот список в таблицу, разместите и сопоставьте похожие баги. Используя систему 1 назначьте уровни сложности от 1 до 10, где 1 это «я могу решить эту задачу прямо сейчас», а 10 это «одна мысль об этой проблеме приводит меня в экзистенциальный ужас». Отсортируйте баги по возрастанию уровня сложности.
В ближайшие дни мы систематически пройдем вдоль списка, забивая как можно больше гвоздей каждым молотком.
Чтобы помочь другим с мозговым штурмом, поделитесь самой необычной историей исправления бага. Я начну:
Мышцы на левой половине моего лица более активны, что заставляло меня асимметрично улыбаться большую часть моей жизни. Следовательно, моя обычная улыбка была недалека от снисходительной усмешки и заставляла меня чувствовать пренебрежение ко всем, кому я улыбался. Я натренировался улыбаться обеими сторонами лица и теперь чувствую больше теплоты по отношению к людям.
Нет! Не пытайся! Делай или не делай. Но не пытайся.
Йода
В моей голове есть копия Барни Стинсона, которая появляется с фразой «Challenge Accepted!». Когда Элиезер писал о самых больших ошибках в цепочках, мой внутренний Барни скакал до потолка. Время молотков это цепочка, созданная для исправления трёх самых важных ошибок через:
Это будет леген… подожди-подожди… дарно!
Ты просто не понимаешь человеческую натуру. Люди не будут стараться даже пять минут перед тем, как сдаться, пусть даже на кону будет судьба всего человечества.
Используй вторую попытку, Люк
Йода-таймер (CFAR называет его зачем-то Resolve Cycle или цикл решения) состоит из трёх простых шагов:
Перед тем, как мы начнем, я хотел бы обратить ваше внимание на два способа получить максимум от Йода-таймеров.
Выберите действие, которое вы боитесь сделать. Допустим, я скажу вам: «Попытайтесь!». Попытайтесь так сильно, как сможете. Что вы чувствуете?
Теперь представьте, что я скажу вам: «Сделай это!». Встань и сделай. Что ощущаете теперь?
Для меня попытка ощущается как давление через моё собственное сопротивление. Делание ощущается как давление против реальности. Йода-таймер создан специально, чтобы научить (или напомнить), как ощущается движение через сопротивление реальности.
Брюс Ли был знаменит своим ударом в один дюйм, который обладал взрывной силой потому, что каждая мышца в его теле работала на этот удар:
Удар в один дюйм это навык, который использует фа цин (взрывная сила) для создания огромных количеств ударной силы на очень коротких расстояниях. Этот «взрывной» эффект был распространен в формах ней дзя. Выполняя этот удар в один дюйм, практикующий обычно стоит очень близко к цели (расстояние зависит от навыка практикующего, обычно между 0 и 6 дюймами или 0 и 15 сантиметрами). Множество брюшных мышц вкладываются в удар абсолютно незаметно для нападающего. Частым недопониманием является использование взмаха кистью для удара. Цель при демонстрации варьируется, иногда это партнер, держащий телефонную книгу у груди, иногда разбиваются деревянные бруски.
Когда вы находитесь в режиме делания вместо режима попытки, все внутренние конфликты отпадают и можно практиковать удар по реальности всем своим существом. Представьте, как далеко можно зайти, если каждое ваше движение несёт всю силу вашей сущности.
Очень легко начать мыслить шаблонами, обрести туннельное зрение и застыть, когда у вас всего пять минут. Однако, чтобы получить максимальный эффект от Йода-таймера, нужно мыслить более творчески, а не менее. Если бы вам пришлось исправить баг в течение пяти минут, чтобы спасти мир, какие правила вы могли бы нарушить?
Чтобы дать вам подсказку, вот несколько классических подходов. Сколько денег потребуется, чтобы проблема исчезла? Кому можно позвонить или написать? Какую награду, наказание или обещание нужно дать в течение пяти минут, чтобы гарантировать, что задача будет решена? Какой иной курс действий приведёт к похожему результату?
Если существует нечто, что можно сделать за пять минут, чтобы улучшить вашу жизнь, я, как дружественное человеческое создание, даю вам разрешение на попытку.
Выберите пять самых легких багов из вчерашнего списка.
ПРЕДУПРЕЖДЕНИЕ: Существует только одна причина, чтобы пропустить баг - если вы не уверены, что действительно хотите его исправить. В дальнейшем мы будем практиковать техники разрешения внутренних конфликтов. Сложность не является веской причиной, чтобы пропустить баг.
Для каждого случая поставьте Йода-таймер на пять минут и исправьте его. Вот и всё. Просто сделайте это.
Можно представить, что Йода наблюдает за вами. И Йоде наплевать, насколько сильно вы пытаетесь.
Поделитесь наиболее успешными исправлениями багов при помощи Йода-таймеров.
Вот семь вещей, которые я сделал за последние пару дней, используя Йода-таймеры:
Тема, проходящая красной нитью через время молотков, особенно в ближайшие два дня, это намеренность или осознанность. Инструментальная рациональность придумана для внедрения намеренности во все аспекты жизни. Рассмотрим, как 10 техник решают головоломку намеренности:
План триггеров и действий (ПТД) это утверждения «если-то» для мозга. Создание одного правильного ПТД превратит единственное намерение в повторяемое действие.
Дополнительный материал: делаем намерения конкретными - планирование триггеров и действий.
ПТД это микропривычки. Вот как это работает:
Множество багов жизни можно исправить, если просто обращать на них внимание. Самый важный ПТД, который можно внедрить, это мета-ПТД или Заклинание осознания, которое будет вас периодически будить и заставлять обращать внимание на происходящее вокруг.
Как освоить заклинание осознания:
Важнее всего найти правильный триггер. Отнеситесь к этому шагу с тем же вниманием, с каким волшебник выбирает себе палочку.
Триггер должен быть конкретным и присутствовать в вашей жизни. В идеале какой-то носимый предмет, имеющий для вас значение: кольцо, часы, татуировка, родимое пятно, какой-то особый жест, который вы постоянно делаете. Если такого нет, можно воспользоваться картинкой или безделушкой на рабочем столе. Не торопитесь, выберите для себя нечто значимое.
Выбрав триггер, выбирайте действие. Действие должно быть волевым усилием в категории «уделить внимание», но при этом персонализированным, например: сделать вдох и выдох, подумать о своих целях, ощущить своё присутствие здесь и сейчас, собраться.
Теперь, поставьте Йода-таймер на 5 минут и отработайте заклинание осознания через все пять шагов, описанных выше. Вернитесь к повседневным делам, заметьте свой триггер, повторите выбранное действие. Сделайте так десять раз. Визуализируйте разные ситуации, где заклинание осознания вам могло бы помочь. Потом позвольте своему вниманию отвлечься на посторонние вещи и затем верните себя к осознанности через заклинание.
Для себя я выбрал триггером родинку на внутренней части большого пальца правой руки. После некоторого разглядывания с вниманием и намеренностью, я осознал, что ощущаю её физическое присутствие, не глядя на неё. Рассчитываю, что это даст мне постоянное ощущение осознания в будущем.
Если у вас уже работает какая-то привычка, то вы уже осуществляете ПТД. Сегодня мы будем строить одну конкретную микропривычку при помощи ПТД.
Выберите самый легкий баг в вашем списке, который может быть исправлен при помощи регулярного воздействия. Например, я выбрал «забываю вещи, когда покидаю дом».
Поставьте Йода-таймер на 5 минут, чтобы придумать и внедрить ПТД для исправления этого бага, используя чеклист из первой части статьи.
Напоминания:
Продолжайте выстраивать по одному ПТД в день на протяжении всего курса «время молотка». Если идеи закончатся, попытайтесь расширять уже существующие ПТД до более длинных последовательностей действий, по одному шагу за раз. Скоро у вас будут заготовленные шаблоны для разных ситуаций. Мы вернемся к ПТД на тринадцатый день.
Если вы не против, поделитесь своим заклинанием осознанности.
Центральная тема времени молотков - первичное взаимодействие рационалистов с реальностью. Мы делаем попытки в течение хотя бы 5 минут. Мы выстраиваем привычки для исправления багов. Мы высовываем головы из песка и просим у реальности дать нам обратную связь. И только проявив должную старательность и получив свои оплеухи от мира, мы возвращаемся к интроспекции.
Именно поэтому первые пять техник «времени молотков» нацелены на непосредственное решение задач. Только после взаимодействия с действительностью и серьезных попыток что-то изменить мы обращаемся внутрь, чтобы подумать, задаться вопросами о своих мотивах, понять наши ощущения и построить долгосрочные планы.
Дизайн является наиболее тонким подходом к прямому решению задач. Речь идёт о долгосрочном искажении физической реальности вокруг себя для движения по направлению к своим целям, вместо того, чтобы идти от них.
Дизайн (иногда называемый систематизацией в CFAR) это феншуй рационалиста. Его основные задачи таковы:
Принципы дизайна работают в разных областях: в определении последовательностей рутинных действий, в оформлении социального окружения, в организации пространства на экране монитора. В нашем первом цикле «времени молотков» мы сосредоточимся на дизайне физического пространства для получения немедленных улучшений.
Вот три ключевых принципа дизайна, согласно вашему покорному слуге:
Первая скупая мужская слеза в CFAR скатилась по моей щеке в виде реакции на речь Валентайна на лекции по дизайну о тонком влиянии Молоха, вкрадывающемся в пространство вокруг нас:
Тумбочка возле входной двери притягивает горы мусора, подобно гравитационному колодцу.
Платяные шкафы прячут от нас спортивную одежду, а вместе с ней и наши благие намерения.
Беспорядок, который заставляет нас бродить туда-сюда в поисках очков, часов, ключей или телефона по утрам.
Слуги Молоха появляются везде, где не хватает нашего внимания.
Поэтому первый принцип дизайна это намеренность: вещи находятся там, где вы намереваетесь их разместить. Посмотрите вокруг или на свой стол. Всё должно иметь предназначение. Предназначение может быть функциональным, но также могут быть эстетические или сентиментальные причины. Вы можете намеренно расположить вещи удобным для использования образом. Вы можете намеренно расположить вещи, чтобы стало красиво. Также вы можете намеренно оставить беспорядок, поскольку вы надеетесь открыть новый пенициллин. Независимо от того, как в итоге расположатся вещи, они должны быть расположены так потому, что у вас было соответствующее намерение.
Второй принцип дизайна - амортизация: потратьте время и ресурсы сейчас, чтобы сберечь внимание в долгосрочной перспективе. Амортизация имеет непосредственное отношение к намеренному размещению часто используемых предметов. Вот несколько примеров, иллюстрирующих этот принцип:
В течение дня я отмечал упущенное внимание моей жизни. Во-первых, я обнаружил, что постоянно ищу свои очки. Каждый раз после пробуждения, после возвращения с пробежки, выходя из душа, я трачу минуту-другую на поиск. Проблема плохого зрения в невозможности увидеть искомый предмет, пока он не окажется прямо перед носом. Наличие у моей жены очков с толстыми, бросающимися в глаза, дужками, усугубляло ситуацию.
Чтобы решить эту проблему, я выбрал место Шеллинга (Schelling place), если можно так выразиться, куда теперь помещаю футляр для очков. Затем отрепетировал ПТД в виде снятия очков с лица и помещения их в футляр. Через четыре дня это действие стало привычным.
Ещё несколько других изменений следуют тому же принципу: положить ключи и бумажник в коробку у входной двери. Повесить шорты для пробежки на легкодоступный крючок на стене (вам потребуется много таких). Перемещение овсянки поближе к плите. Размещение пылесоса рядом с розеткой.
Теория полотенца это взятое из книги «Автостопом по Галактике» расширение фундаментальной ошибки атрибуции, которая гласит, что люди определяют, что вы за человек по внешним сигналам.
Полотенце есть почти самый полезный мыслимый предмет, доступный к обладанию любому межзвездному путешественнику автостопом. Частично из-за его огромной практической ценности. […]
Но что более важно, у полотенца есть великая психологическая ценность. По какой-то причине, если страг (страг: человек, не путешествующий автостопом) узнает, что у путешественника есть с собой полотенце, то он сразу предполагает, что у него также есть зубная щётка, половая тряпка, мыло, упаковка печенья, фляжка, компас, карта, моток бечёвки, средство от насекомых, дождевик, скафандр и так далее. Более того, страг с радостью поделиться любым из десятков предметов, которые путешественник мог случайно «потерять». Страг будет думать, что с человеком, избороздившим просторы Галактики вдоль и поперек, познавшим горе и радость, выжившим во всех передрягах и всё ещё имеющим представление, где находится его полотенце, точно нужно считаться.
Отсюда фраза, которая закрепилась в сленге путешествующих автостопом: «эй, сечешь чувачка Форда Префекта? Этот братюня знает, где его полотенце»
Третий принцип дизайна есть рефлексивная теория полотенца: мы применяем теорию полотенца к самим себе. Посмотрите на пространство вокруг вас. Оно что-то говорит о вас самих. Пустая стена назовёт вас минималистом. Двухэтажная стойка для обуви напомнит, что вы поверхностный. Незаправленная кровать и неубранные кучи грязного белья, почты и грязных тарелок скажут вам, что вы не тот человек, что заслуживает ухода за собой.
Обратите внимание на то, что говорит о вас ваше пространство, и не другим людям, а вам самим. Подумайте, те ли это сообщения, что вы хотите слышать. Может быть вам захочется повесить «Композицию 8» Кандинского на замену старого постера из «Тетради Смерти». Может быть вы захотите стать тем типом человека, который заправляет свою кровать. Какие бы сообщения ваше окружение вам не посылало, убедитесь, что это те сообщения, которые вы хотите получать.
Сегодняшнее упражнение займёт 10 минут. Определите физическое пространство, которое вы собираетесь редизайнить: что угодно от одной комнаты до всего дома. Возьмите ручку и бумагу.
Шаг 1. Поставьте Йода-таймер. Пройдитесь по местности и запишите все вещи, которые вы хотели бы изменить. Есть видимая захламленность, которую надо разобрать? Есть ли неприятно пустующее место? Мебель расставлена удобным образом? Существует ли способ лучше разместить объекты, дабы экономить время? Каких объектов - техники, мебели, украшений - не хватает?
Шаг 2. Поставьте ещё один Йода-таймер. Выполните как можно больше пунктов своего списка за это время. Подвигайте мебель на нужные места. Закажите организационные мелочи с Amazon. Разберите мусор и хлам.
Исправьте как можно больше багов в своем списке передвигая физические объекты. Каким был самый трудный баг, разрешенный таким способом?
Будет лицемерием писать пост о расширении зоны комфорта в своей обычной манере. Вместо этого, я объясню, почему песня Disney How Far I’ll Go (Что меня ждёт) является триумфальным призывом к исследованию и оставлю небольшое упражнение по РаЗоК, которое вы сможете видоизменить, держа в голове принципы, изложенные Моаной.
Расширение зоны комфорта (иронично сокращаемой в английском CoZe) это CFAR модификация психологической экспозиции, созданной для осторожного испытания новых вещей. Когда я впервые услышал о РаЗоК, то в первую очередь подумал о чем-то вроде «пробегись голым по переполненному Старбаксу, прося у незнакомых людей раскрасить тебе ягодицы пальцем с краской». И хотя в таком упражнении может быть своя польза, РаЗоК точно не про это. Первый шаг в РаЗоК это всего-навсего попробовать вещи, о которых вы не задумывались, несмотря на отсутствие к ним сопротивления.
Позвольте привлечь ваше внимание к некоторым метафорам в разговоре о зонах комфорта.
Одним из способов визуализировать свою зону комфорта является проведение линии между Порядком и Хаосом.
Порядок есть нечто известное. Порядок это ваш круг общения, интерьер вашего дома, улицы, по которым вы регулярно гуляете. Порядок это языки программирования, с которыми вы знакомы, виды спорта, которыми вы занимаетесь, языки, на которых вы говорите. Порядок есть правила, которым вы следуете. Порядок есть ваша зона комфорта.
Хаос есть нечто неизвестное - или ещё хуже, неизвестное неизвестное. Хаос это уставиться на мгновение в глаза незнакомцу. Хаос это резкое ощущение, которое возникает, стоит вам отойти от привычного маршрута на один квартал. Хаос это ощущение, что мир уходит из-под ног, когда вы портите свой код, когда вы обнаруживаете, что вам лгали, когда понимаете, что совершаете прямо сейчас большую ошибку. Хаос есть аморфная тень, которая распространяется повсюду, заполняя каждый кусочек пространства, на который вы не обращали внимания.
Ян и Инь есть Порядок и Хаос и фигура Инь-Ян это даосское напоминание о правильном Пути сквозь жизнь, что проходит извивающейся линией меж Порядком и Хаосом.
В качестве более близкой CS-метафоры. Представьте, что Порядок это использование хорошо понимаемых стратегий, а Хаос это исследование новых стратегий. Молох это цивилизационная катастрофа, что случается, когда все и каждый решают эксплуатировать текущее положение вещей, оставшись в своих зонах комфорта. За исключением очень маленьких детей, люди категорически исследуют слишком мало и стагнируют в локальном оптимуме.
У Джордана Питерсона как-то с год назад был просвещающий диалог с композитором Сэмьюэлом Андреевым (транскрипция моя):
Андреев: Популярная песня это невыразимо сложная среда для работы, потому что, во-первых, она не прощает ошибок, ты работаешь в чрезвычайно сжатом формате, очень редко популярная песня длится дольше трех минут. Нет большого пространства для маневра. И совершенно точно нет пространства для структурного маневра, то есть, почти обязательно придерживаться схемы куплет-припев-куплет-припев, в подавляющем большинстве популярных песен не было никакого разнообразия со времен появления рока, с пятидесятых.
Питерсон: Откуда это пошло? Я знаю, что длина в три минуты обусловлена коммерческими требованиями, если правильно помню. Но как появилась структура куплет-припев-куплет-припев?
Андреев: Ну, это чрезвычайно старая форма. Точно существуют структуры Барокко, очень похожие по сути. Есть один фиксированный элемент, который возвращается по сути раз за разом и добавочный элемент, который даёт некоторое ощущение облегчения и контрастирует с предшествующим.
Питерсон: То есть этакая игра порядка и хаоса, я бы так это описал.
Формат куплет-припев-куплет-припев в популярных песнях это вариация принципа исследуй-используй по мере того, как песня колеблется между порядком и хаосом. Припев это основной, фиксированный элемент порядка, который постоянно возвращается, чтобы затянуть слушателя на главную тему повествования. Промежуточные куплеты являются исследующими элементами, которые осуществляют быстрые забеги на территорию хаоса, предоставляя облегчения от монотонности припева.
Это объясняет, почему другие жанры музыки, менее общеупотребительные и более художественные, меньше заходят вкусам публики. Художник авангарда убежденный исследователь, постоянно забредающий далеко в земли хаоса. Без успокаивающего возврата в зону порядка, музыка вся превращается в хаос для непосвященных и трудной для усвоения.
Если вы ещё не, то послушайте разок песню «Что меня ждёт» (How Far Will I Go). Лично я предпочитаю версию Алессии Кары.
Снова слышу этот шёпот прибоя
Кто я?
Где моё сердце, знает лишь одна вода
Сто раз обещала им не спорить
Но влечёт вновь меня море
Как будто я его волна
Каждый новый шаг
Каждый поворот
Каждый след и знак
Вновь меня ведёт
В мир больших ветров
И бездонных вод
Я хочу уплыть
А в глазах каждый день
Океан бескрайний
Меня зовёт за горизонт
Вот бы парус поднять
В путь отправиться дальний
Он свет прольёт
На всё то, что там меня так долго ждёт
Течёт жизнь на острове беспечно
Вечно
Людям доставляя радости день ото дня
Знает каждый в чём его доля
Все играют свои роли
И может мне пойдёт моя
Стану я вождём
Поведу народ
Будем процветать мы из года в год
Только сердце мне про то поёт, что не так со мной
Вижу солнечный путь на волнах хрустальных
Он за собой меня ведёт
И я знаю, что он хочет мне открыть свои тайны
Ну так вперёд
Сделай первый шаг
Побори свой страх
А в глазах каждый день
Океан бескрайний меня зовёт за горизонт
Вот бы парус поднять
В путь отправиться дальний
Он свет прольёт
Что меня ждёт?
Являясь домом для глубоководных жителей и Лавкрафтовских ужасов, океан всегда был символом хаоса. Моана учит нас трем важным методам погружения в хаос, все из которых должны быть объединены для наилучшего эффекта.
Линия прибоя это линия между порядком и хаосом, постоянно смещающаяся вместе с волнами приливного цикла. Простейший метод РаЗоК - постоять у линии прибоя и погрузить пальцы в воду. Об этом сегодняшнее упражнение. У каждого есть граница, которая неизбежно прочерчивается без какого-либо понимания, почему. Прием заключается в обнаружении этой границы.
Каждый новый шаг, каждый поворот, каждый след и знак ведет нас к линии прибоя. Обнаружить её просто, нужно лишь вслушиваться в тихие, но пронзительные звуки сопротивления, которые заставляют вас оставаться на треке повседневной жизни. Прогулка, которую вы откладываете. Новый знакомый, которому вы почти помахали рукой, но не стали. Вопрос, который вы почти задали. Тема для обсуждения, застревающая у вас в горле буквально за секунду до того, как вы решитесь её озвучить. Клуб или мастер-класс, на который вы почти записались.
Жизнь постоянно подводит вас к линии прибоя, как бы вы не пытались от неё убежать. Вы смотрите на неё, сколько себя помните. Осталось её только заметить.
Глазеть на самую кромку между порядком и хаосом может быть полезно, чтобы обнаружить свои точки сопротивления, но вряд ли это годится для триумфального зова к действию. Моана напоминает посмотреть вверх, на горизонт. Небо это Райское Королевство и оно может быть достигнуто только, если вы отправитесь дальше от своей зоны комфорта, чем кто-либо когда-либо.
Существует набор метафор для успешных, интересных людей. Они кажутся наполненными до краев жизненным светом. Свет сияет сквозь них. Они ходят по светлым путям Бога. Второй метод РаЗоК - поднять свой взор, чтобы увидеть этот ослепляющий свет в вашем море, который определит вашу предельную мечту.
Посмотрите на людей, которыми вы восхищаетесь, которые сияют и искрятся внутренним светом. Создайте идеальное человеческое существо внутри сознания. Вы увидите, что недостающие качества находятся за пределами вашей зоны комфорта. Пусть эта мечта станет ветром, подгоняющим вас к открытому морю.
Почему Моана единственная на острове, кто стремится в океан? Потому ли, что остальные слишком боятся своих сопротивлений или потому, что не видят света на горизонте?
По большому счёте, причиной желания Моаны покинуть остров является её нахождение на вершине иерархии. Она дочь вождя и ей предначертано вести за собой, к этому она готовилась с раннего детства. Вслушайтесь, когда она поёт «Стану я вождём, поведу народ, будем процветать мы из года в год». Нет ни единой ноты беспокойства или неуверенности. В отличие от всех остальных на острове, единственным направлением роста для Моаны является прыжок в хаос.
Это приводит к контр-интуитивному третьему методу РаЗоК: исследуйте границы своей зоны комфорта через обеспечение безопасности центра.
Укрепляйте и выстраивайте доверительные взаимоотношения. Изучайте и доводите до совершенства свое занятие. Используйте принципы Дизайна, чтобы создать себе святилище, в которое вы сможете вернуться. Поднимитесь на вершину своей нынешней иерархии. Как только центр окажется в безопасности, не останется ничего, что будет вас в нём держать. Ваш естество вернёт вас к открытому морю.
Первый РаЗоК мы потратим полчаса на испытание новых вещей.
ПРЕДУПРЕЖДЕНИЕ: Не выбирайте действий, к которым у вас высокое сопротивление. Целью является стать человеком, который автоматически пробует новое, если оно ему не угрожает.
Шаг 1. Поставьте Йода-таймер на пять минут. Устройте мозговой штурм, выпишите как можно больше вещей, которых вы не пробовали. Они могут быть очень простыми, вроде послушать песни, исполненные на разных языках, прогуляться по ещё нехоженой улице, попытаться сделать стойку на руках у стены, крикнуть как можно громче, пробежать милю, попытаться провести разговор и ни разу не улыбнуться, написать хокку.
Шаг 2. Поставьте Йода-таймер на ДВАДЦАТЬ минут. Выполните как можно больше пунктов из вашего списка.
Поделитесь рассказом об обнаружении чего-либо прекрасного при исследовании территорий вне вашей зоны комфорта.
Хотелось бы обозначить границу между двумя естественными половинами цикла «время молотков» (быстрой, но интерактивной и медленной, но интроспективной) экспериментальным постом, созданным больше для размышлений, чем для действий.
Зерно этого поста было посеяно в моем разуме после обсуждения с Зви. Тогда он предложил мне прочитал книгу правил для игры Mage: The Ascension и воспринять её как можно более буквально. Одна механика работы магии в Mage, поразившая меня, называлась феномен Парадокса, которая (грубо говоря) заставляет магию совершать отдачу в присутствии Маглов.
Если выполняется неумело или вульгарно, или, особенно, если вульгарно и видимо для спящих, магия может вызвать Парадокс, феномен, в котором реальность пытается разрешить противоречия между консенсусом и усилиями мага. Парадокс сложно предсказать и он почти всегда плох для мага. Наиболее частыми последствиями парадокса являются прямое физическое повреждение тела мага и парадоксальные изъяны, эффекты, которые могут, например, сделать волосы мага зелеными или сделать его немым, лишить возможности покидать определенную местность, и так далее. В более экстремальных случаях, парадокс может вызвать Тишину (сумасшествие, которое истекает в реальность), Парадоксальных Духов (туманные, часто очень сильные создания, которые специально созданы разрешать противоречия, обычно через непосредственное наказание мага) или даже удаление мага в парадоксальную реальность, карманное измерение, из которого может быть трудно выйти.
Конечный результат не слишком отличается от довольно распространенного наблюдения, что необычные люди кажутся искажающими реальность вокруг них, но также с трудом передают это искажающее поле другим людям.
Мой набег в фантастический мир игры Mage заставил меня задуматься о других механиках магии более серьёзно. Среди бесконечного количества возможностей, которыми человеческий разум мог нарушать законы природы, лишь небольшое количество из них задержались надолго в общественном воображении. Вновь и вновь, писатели фэнтези возвращаются к заклинаниям: словам, которые оказывают влияние одним своим произнесением. Что такого психологически завораживающего в заклинаниях?
И если одно лишь произнесение может влиять на магию, чего можно достичь повторением слов силы на протяжении многих лет?
Эпистемический статус: тру стори.
Я был не очень общительным ребёнком, но даже в 11 лет, я знал, что с ней было что-то не так. Она стояла особняком, её волосы были слегка лохматыми и неухоженными, и она говорила с ритмичностью потерянной души. Её имя наверняка было каким-то вроде Эльфабы. Тогда я не мог определить, что именно было не так с девочкой. Только сейчас, более десяти лет спустя, могу я дать название её интенсивности: этой нераспространенной возможности, враждебной по отношению ко всем одиннадцатилетним, желающим быть принятыми в компании, воспринимать идеи серьёзно.
У меня был только один разговор с этой девочкой. Не помню, на каком это произошло занятии, возможно в каком-то дискуссионном классе на подготовке пьесы Шекспира, намного превосходящий наш уровень чтения. Когда наш учитель вышел за маркерами, примерно восемь учеников остались ёрзать вокруг стола, как это заведено у одиннадцатилетних.
Затем, как-то так получилось, что эта девочка слева от меня зафиксировала меня взглядом и произнесла:
Девочка: memento mori, memento vivere
Я: Что, прости?
Девочка: это означает: «Помни, что ты умрешь. Помни жить.»
[немая сцена]
Девочка: memento mori, memento vivere
Конечно, такое обсуждение было обрамлено другой болтовней. Возможно, я вызвал его своим подростковым нигилизмом. Возможно, мы подошли к этой фразе через обсуждение «быть или не быть» или «бедный Йорик!». Опять же, зная ту девочку, возможно, что и нет.
Я больше её не видел. Насколько мне известно, она полностью испарилась после шестого класса.
Memento mori, memento vivere
Не могу сказать, сколько лет эти слова преследовали меня. Могу сказать, впрочем, что в темноте бессчётных ночей школьных лет я подвергался пыткам тени своей смертности. Что в свете дня memento vivere взбалтывала в моём сердце неистовую энергию к сражению с несправедливостью существования. Что я повторял эти слова шёпотом, когда размышлял над философскими вопросами вроде: «Убивает ли телепортация твой оригинал?»
Половину декады спустя, когда голос девочки утих в горизонтах памяти, я решил по какой-то неведомой мне причине, что фильм «Помни»- мой любимый фильм, даже не досмотрев вступительные титры.
Сколько же лет memento mori преследовала меня? Можно сказать, что вся моя жизнь, начиная от того разговора, стала исполнением квеста по обнаружению силы из тысяч романов, рукописей, песен и видео. Мантр, которые бы напоминали мне о направлении, где находится моя великая мечта. Позволю им говорить:
Всё может быть сделано радикально элементарно.
То, что может быть разрушено правдой, должно быть разрушено.
Люди могут выдержать правду, поскольку они уже живут с её тяжестью.
Задачей математики является продвижение человеческого понимания.
Люди становятся теми, кем им предназначено стать, делая то, что правильно.
Современные люди не могут найти Бога, потому что не смотрят достаточно низко.
Линия между добром и злом проходит через сердце каждого человека.
Но я, будучи бедным, обладаю только своими мечтами. Я расстелю свои мечты к твоим ногам. Ступай по ним осторожно.
Наивный рационалист во мне называет меня сосунком за обращение и утопание в глубокомыслии. У меня есть, что ему сказать: в то время как я, повторяя эти мантры, наполняюсь энергией и чувством направления в жизни, что длится вот уже много лет, он способен только на неопределенное циничное высокомерие. Ну и кто после этого побеждает?
У меня есть ощущение, что мантры, которые я повторяю шёпотом, проникнуты моими самыми важными ценностями и служат решением моей задачи контроля: дешевым способом распространяют эти ценности моим будущим копиям на протяжении вот уже многих лет.
Поделитесь своей любимой мантрой и её значением для вас.
По мере продвижения в интроспективный раздел времени молотков, определю подход, построенный на наборе (не оригинальных) идей, которые я изложил в принципе солитера. Главная идея заключается в том, что человек лучше всего моделируется смесью из слабо связанных, полунезависимых, разнесенных во времени агентов и в дополнение управляется собранием относительно противоположных суб-личностей, вроде как в фильме «Головоломка».
Таким образом, значительного прогресса можно достигнуть только за счёт артикуляции точек зрения суб-личностей, чтобы между ними сформировалась эмпатия и доверие. Такой и будет задача остатка первого цикла.
Факторизация целей это техника CFAR, состоящая из большого количества частей. Наиболее важным навыком для меня стала факторизация избеганий, поэтому начну отсюда. Очень рекомендую выступление Критча на TEDx по этому вопросу, оттуда я впервые узнал о таком способе мышления.
Выберите привычку из своего списка багов, которую вы давно хотели завести, но не сделали этого, или которую вы заставляете себя делать, но она по-прежнему остаётся в тягость. Что происходит?
Для конкретики возьмем привычку «писать в блог каждый день»
На каком-то уровне вы хотите вести блог. У вас множество хороших идей. Процесс помогает вам мыслить отчетливо. Вы смогли бы пожать плоды публичной критики. Если бы вы писали в блог, то другой человек мог бы получить пользу. Но если вы действительно хотите вести блог, то почему это стоит вам таких усилий воли каждый раз? Почему вы не набрасываетесь на него с тем же рвением, с каким вы набросились бы на жареное мороженое?
Факторизация избеганий — это способ обнаружения и удаления подсознательных препятствий, не позволяющих Системе 1 желать тех же вещей, что и Система 2.
Первый шаг факторизации избеганий: произнести вслух все избегания, которые вас сдерживают. Начните с выписывания всех причин, почему вам не нравится делать то, что нужно. Держите в голове мысль:
Будьте честными.
«Я боюсь, что мои идеи не оригинальны, мой стиль письма не улучшился с пятого класса и я в ужасе от людей в Интернете.»
Быть честным сложно. Однако, есть вторая категория коварных избеганий: тривиальные, повторяющиеся раздражения, которые оставляют неприятный привкус от всего опыта. Посмотрите текст «Остерегайтесь тривиальных неудобств». Обнаружение таких избеганий требует внимания к деталям:
«Я ненавижу вести блог из-за ужасной поддержки LaTeX, из-за беспокойства о проблемах с авторскими правами каждый раз, как возникает желание прикрепить картинку и ещё недавно я обнаружил, что один мой знакомый популярный блогер имеет точно такой же шаблон WordPress, но если я поменяю свой, то я проиграю, а если оставлю тот же самый, то буду чувствовать себя копией, поэтому я, пожалуй, даже думать об этом не буду, аргхх»
Главной задачей сегодняшнего упражнения станет обнаружение и удаление всех тривиальных неудобств в наших жизнях.
Для любого избегания есть два способа решения проблемы. Поддержите его, если она указывает на настоящую подлежащую проблему, что требует решения. В моём примере с блогом, я могу решить, что меня заботит качество письма и стоит направить усилия на отработку стиля.
Если вы не поддерживаете своё избегание, то от него следует избавиться. Общераспространённый класс таких «плохих» избеганий это корзиночные ошибки (?) о вашей идентичности. Когда будете думать об удалении избеганий, вспомните о заборе Честертона (Chesterton’s Fence)! Определите, почему у вас сложилась вообще такое избегание, прежде чем пытаться от него избавляться. От почти любого избегания можно избавиться постепенно, так что будьте осторожны (посмотрите Сварить краба).
Как только стало понятно, что вам не нравится, время убрать как можно больше избеганий, одно за другим. Для тех избеганий, что вы поддерживаете, курсом действий станет изменение или улучшение привычки самой по себе, чтобы разрешить или обойти подлежащую проблему. Чтобы решить мою проблему с блогингом, я мог бы перечитать Странка и Уайта, или «Советы по созданию нехудожественных текстов» (Ха. Хорошая идея)
Одновременно, те избегания, которые вы не хотите сохранять, должны быть подвергнуты экспозиционной терапии или РаЗоК. Чтобы применить экспозиционную терапию, создайте последовательность шагов к предмету избегания, каждый из которых будет ощущаться безопасным. Делайте шаги по одному за раз, так медленно, как потребуется. Я постепенно увеличил свою частоту блогинга за период около года, сначала нулевой аудитории, потом одному человеку и так вплоть до всех народов Интернета.
РаЗоК это улучшение экспозиционной терапии, в которую вы встраиваете кресла-катапульты - заранее настроенные точки вдоль пути экспозиции, где вы останавливаетесь и рефлексируете, что вы ощущаете по отношению к вашему избеганию.
В качестве упражнения сегодня выберите ТРИ бага из вашего списка, связанные с созданием привычек. Это могут быть привычки, которые вы хотите приобрести или привычки, которые у вас уже есть, но вы хотите их улучшить.
Для каждого бага, поставьте Йода-таймер на 5 минут и проведите факторизацию избеганий:
У меня есть знакомый, который остается в постели часами, потому что слишком холодно дойти от кровати до шкафа с одеждой. Поделитесь тривиальным неудобством своей жизни, которое может иметь (или уже возымело) драматические последствия.
Больно начинать пост о планировании с объявления о двух небольших изменениях в планах «Времени молотков»:
Во-первых, я буду в отъезде через неделю, поэтому между первым и вторым циклом будет перерыв примерно в полторы недели.
Во-вторых, когда я сел писать пост о фокусировании, понял, что не смогу добавить чего-либо полезного в этот замечательный пост: «фокусирование для недоверчивых». Фокусирование это, вероятно, вторая по силе техника, которую я взял из CFAR, потому я вернусь к ней в последующих циклах после некоторых размышлений.
Вместо этого я напишу три поста о планировании. Это будут первые шаги для превращения в человека, который способен делать обдуманные долгосрочные планы и потом реализовать их.
Одним из моих желаний со времен написания принципа солитера стало решение задачи контроля для людей: задачи создания и реализации долгосрочных планов и привычек, несмотря на появление новой информации и, что даже хуже, сдвига ценностей. Я предполагаю, что явление ошибки невозвратных издержек, которое общеизвестно и считается вредным, на самом деле существует по веской причине и является полезным первым приближением для задачи контроля.
Связанный текст: ошибка ошибки невозвратных потерь
Долина жути, в которую попадает любой, кто наивно исключает в своей жизни ошибку невозвратных потерь:
Во втором пункте сидит чрезвычайно коварный демон, связанный с неблагоприятным отбором. На протяжении многолетнего (или многодневного) плана могут всплыть любые виды противоречивой информации. Представьте, что ваша оценка проекта была бы чем-то вроде броуновского движения вокруг новой информации, что медленно сходится к «истинной ценности».
Если в любой момент ваша текущая оценка проекта случайно опускается ниже уровня «стоит делать», вы незамедлительно бросаете проект.
Из-за наличия шума в информации следование стратегии «сдавайся, как только проект упадет ниже линии Стоит Делать» заставит вас бросать слишком много начинаний, которые в итоге могут оказаться стоящими, поскольку случайное блуждание на протяжении достаточно большого периода времени часто падает значительно ниже среднего как минимум один раз.
И это мы ещё не учли все другие виды мотивированного мышления и другие причины, которыми блестящие новые идеи отвлекают нас от нашего пути.
Я считаю, что «Жуткая долина», описанная выше, является серьезным и распространенным режимом отказа в рационалистическом сообществе и это уже случалось со мной.
Моё решение заключается в рекомендации не исправлять ошибку невозвратных потерь без изучения методов составления сильных, стойких к отказам планов, а невозможно научиться их делать без выполнения до конца планов плохих. Таким образом, первый шаг к хорошему планированию это восстановление вашей ошибки невозвратных потерь и её использование для выполнения плохих планов. Этот метод я называю Вера в невозвратные потери - вера, что ваше прошлое Я принимало хорошие решения. Вера, естественно, поскольку она ничем не подкреплена.
Если вы обнаружите себя в положении, описанном в предыдущем шаге, найдите своё искажение невозвратных потерь и превратите его в веру невозвратных потерь. Завершайте свои планы даже после того, как они перестали вам нравиться. Расширьте свой временной горизонт до масштаба месяцев и лет, чтобы вы опять стали человеком, который может приводить дела в порядок.
Как только вы вновь научитесь реализовывать свои планы, только тогда вы сможете стать лучше в планировании. В том числе начнёте встраивать в свои планы защиты от тёмных сторон издержек невозвратных потерь, таких как, например, недвусмысленные точки выхода.
Сегодняшнее упражнение направлено на людей, которые слишком часто сдаются на середине пути.
Выберите абсолютно бесполезное действие (проявите смекалку!), которое займет примерно пять минут и выполняйте его в течение недели с использованием Йода-таймеров.
Убедите меня, что я не прав в отношении искажения невозвратных потерь и что оно действительно вредно.
Я размышлял, являются ли полезными регулярные ставки, рынки предсказаний и общее состояние хорошей калибровки, и если да, то как тренировать это при помощи короткого цикла обратной связи.
Быть способным делать точные прогнозы о времени, требуемом на выполнение задачи как минимум полезно. Это эссе описывает мою нынешнюю стратегию, которую я использую, чтобы калибровать своё время.
Из всех когнитивных искажений в Цепочках, искажение планирования кажется одной из наиболее вредящих напрямую, и одновременно - в высшей степени исправимой ошибкой. Цель сегодняшнего упражнения: создать инструмент для регулярной проверки ваших оценок того, сколько времени занимают долгие дела.
Хотя искажение планирования явный антагонист в данной ситуации, я также хочу затронуть другой класс ошибок, которые заключаются в систематическом переоценивании сложности дел.
После того, как я потратил несколько дней, проверяя свою откалиброванность, я был удивлён количеством вещей, сложность которых я постоянно переоцениваю (в основном из-за укоренившегося страха бюрократии и работы по дому).
Несколько лет назад я наблюдал за своим отцом, который практически целую неделю потратил на налоги, читая весь мелкий шрифт, переходя по ссылкам на интернет-форумах и трижды проверяя каждое поле. В прошлом году я впервые подал свою налоговую декларацию, ожидая, что процесс будет ещё более кошмарным: ведь, в конце концов, тогда мой отец был уже опытен в этом деле, а это сохраняло ему много времени, так? Вместо этого всё заняло один вечер.
Две недели назад я занялся получением загранпаспорта вместе с турагентом, после месяцев страха. Я выделил целый день на случай (как мне тогда казалось), что мне придётся ездить туда-обратно чтобы собирать, распечатывать и/или исправлять документы. Весь визит занял суммарно 10 минут, не считая двух миль езды.
На прошлой неделе я начал одиссею с семейным фотоальбом, ужасаясь тому, что много вечеров мне придётся корпеть над старыми файлами и их печатью. Весь процесс занял лишь два с половиной часа от начала до конца со своевременной помощью Таймеров Йоды.
Что исказило мою славную калибровку так сильно? Сыграли роль две вещи:
Во-первых, большая часть данных моей Системы 1 была получена от моих чересчур внимательных к деталям (anal-retentive) родителей. Я инстинктивно чувствовал, что готовка еды занимает около часа, что каждое поле каждой формы должно быть проверено дважды каждым участвующим в подаче налоговой декларации человеком, что нужно приходить на пятнадцать минут раньше, и что бюрократическая машина постоянно хочет вам навредить. Это дало мне нечто противоположное искажению планирования.
Во-вторых, ужасающий страх вокруг задачи становился самоисполняющимся пророчеством. Хотя я и получил большое облегчение после подачи декларации за один день, моя память об этом опыте всё ещё поражена неделями медленно возрастающей тревоги, ведущей к событию. И напротив, само заполнение формы я помню слабо. Я подозреваю, что Система 1 восприняла эти ужасные недели как роковые сигналы.
В следующий день, обращайте внимание на работу с ясно очерченными признаками завершения, и тренируйте вашу калибровку времени на ней. Попросите Систему 1 сделать предсказание о том, как долго займёт каждая активность, установите на это время Таймер Йоды и в течение его занимайтесь делом. Если дело займёт больше часа, разбейте его на ясно очерченные части, и калибруйте их отдельно.
(конечно внешний фактор таймера будет влиять на результат, но если вы поймёте, что действуете более эффективно, будучи понукаемыми часами… возможно это стоит делать регулярно)
Если вы хоть сколько-то похожи на меня, вы будете дико удивлены, как систематически неверны ваши модели, как минимум в одну сторону. Если удивились, обновляйте модель!
Расскажите ваш самый неприятный случай искажения планирования.
Настолько пессимистично, что реальность оказывается лучше, чем мы ожидали, так же часто, как и хуже. Очень сложно быть настолько пессимистичным, чтобы своим пессимизмом не дотянуть до реальной жизни.
Сегодня я создам открытую тему о первом десятидневном цикле времени молотков.
Мы закончим первый цикл ещё одним постом о планировании. Мёрфиджитсу - это методика планирования CFAR, которая потребует от нас быть пессимистичнее, чем сама жизнь.
Закон Мёрфи постулирует, что если что-то плохое может случиться — оно случится.
Для наших читателей, говорящих на севернокитайском языке, есть полезная мнемоника: Мёрфи транслитерируется как 墨菲 (мо фэй), что звучит так же, как 莫非, «что если?». Вот почему я думаю о Законе Мёрфи, как о Законе «Что-если».
Мёрфиджитсу - это практика улучшения планов с помощью повторяющегося воображения наихудших сценариев и защиты против них. Это длится до тех пор, пока вы не окажетесь шокированы, если представите себе, что план провалится. Вот базовые шаги Мёрфиджитсу:
Первая важная составляющая Мёрфиджитсу — Внутренний Симулятор. Это способность системы 1 моделировать провальные исходы.
У меня есть подозрение, что каждый человек на самом деле — мастер Внутреннего Симулятора, и может великолепно моделировать возможные проблемы. Вообразите себе друга, объявляющего вам о своём Новогоднем Решении: написать роман, сесть на кето-диету, написать 30-тидневную цепочку по инструментальной рациональности.
Теперь прислушайтесь к своему внутреннему зубоскальству — ваша система 1 мгновенно отображает будущее со всевозможными препятствиями. Это Внутренний Симулятор за работой.
Если у вас это работает так же, как у меня - Внутренний Симулятор лучше в предсказании провалов других людей, чем ваших собственных. Ментальное действие, которое поможет применить Внутренний Симулятор к самому себе, по сути, является Взглядом Снаружи: возьмите ваш план и представьте, как другой человек его выполняет. Что пойдёт не так?
Welp - сленг, смесь слов well (хорошо) и help (помогите), ближайшие аналоги, которые можно придумать в русском языке могут быть чем-то вроде «нупс» (ну и упс) или мемное «памагити» прим. ред.
Внутренний Симулятор сам по себе работает на удивление слабо.
У меня был разговор с другом-рационалистом (назовём его Алекс) который прошёл примерно так:
Алекс: Что тебя беспокоит?
Я: Я ужасно непродуктивен. Прокрастинация мешает мне закончить эссе для стипендии… Срок истекает через две недели, и каждую секунду, когда я думаю о математике, эти эссе всплывают у меня перед глазами.
Алекс: Почему?
Я: В целом, эссе закончено, но мне осталось отредактировать его. Копирование-редактирование довольно утомительно, и каждый раз, когда я прочитываю своё эссе, оно выглядит ещё более нескладным, чем в прошлый раз.
Алекс: Как ты думаешь, что произойдёт дальше?
Я: Ну… Я отложу эссе до момента, когда до дедлайна останется два дня, поредактирую его 10 минут, когда начну чувствовать давление, а потом отправлю. До этого я не буду заниматься больше никакими исследованиями.
Алекс: И…
Я (пожимаю плечами): Тупо, правда?Алекс сгибается от смеха.
Я называю это Welp-менталитетом. Welp-менталитет — это понять, что ваш план катастрофически провалится, или займёт слишком много времени, или потребует десятикратных усилий по сравнению с ожидаемыми, и затем уклончиво пожать плечами. Упс.
Welp-менталитет это знать и принимать как факт, что каждый билд выйдет на два месяца позже. Что вы закончите наспех сделанный набор задач и эссе начав в полночь перед дедлайном. Что вы наверняка прекратите заниматься по вашему текущему плану упражнений. У меня есть старый девиз для Welp-менталитета: «Нужно завтра? Делай завтра.»
Мёрфиджитсу это восхитительная идея о том, что если можно предсказать провал, то его можно предотвратить!
Если ваши билды каждый раз опаздывают на два месяца, вы можете передвинуть дату релиза, или урезать функциональность, или нанять больше программистов. Если вы знаете, что собираетесь потратить 6 часов на задачу в ночь перед дедлайном, по крайней мере вы можете установить шестичасовой таймер Йоды, исполнить его в удобное время, и послать результат, каким бы он ни был.
В случае с моим стипендиальным эссе, я решил немедленно потратить 10 минут на редактирование и сразу же послать его. Облегчение от возвращения двух недель моей жизни назад было осязаемым.
Возьмите план на ближайшее будущее. Используйте на него Мёрфиджитсу. Избавьтесь от любых тормозов: наладьте социальное давление, чтобы оно удерживало вас на пути. Удвойте время, которое вы тратите. Установите на календаре и на телефоне напоминания. Мёрфиджитсу прекращается только если вы будете шокированы провалом плана.
Примените эту технику на вашу центральную жизненную цель. Есть ли явные опасности, против которых вы не защитились?
В CFAR существует мантра «отрегулируйте сиденье»: систематически модифицируйте каждую технику и урок, чтобы они соответствовали вашей ситуации. Сейчас общеизвестно, что разные вещи работают для разных людей, но меня каждый раз удивляет величина этого эффекта. У Кьеркегора был интересный взгляд на регулировку сиденья, который он называл «методом вращения».
Если вы хотите принять участие во «времени молотков», не стесняйтесь регулировать своё сиденье настолько, насколько потребуется. Займитесь всерьёз и надолго практикой инструментальной рациональности, выберите методы, которые вам понравятся, масштабируйте их под ваши временные рамки.
Время молотков про культивирование небольшого числа мощных техник для решения большого числа разнообразных задач. Во втором цикле мы вернемся и и улучшим наши инструменты, которые мы представили в первом и применим их к более сложным задачам:
Новые идеи, которые будут представлены во второй половине посвящены более высоким уровням интроспекции и честности с самим собой, чтобы выяснить ваши истинные устремления и страхи, а также понять, что с ними можно сделать.
Перед каждым постом во втором цикле выделите время, чтобы пробежаться глазами по его предшественнику.
Ранее: День 1
Обнаружение своих багов продолжает быть самой мощной техникой. Тренировка внимания к своим багам включает в себя нестандартное мышление, внимание к деталям и честность с самим собой. Сегодня мы сосредоточимся на трёх высокоуровневых способах, которыми люди систематически совершают ошибки.
Во-первых, просмотрите свой список багов из первого дня и обновите его.
Для каждого из следующих трёх мини-эссе: прочитайте их, поставьте Йода-таймер на пять минут и устройте мозговой штурм с целью выписать как можно больше багов за это время.
Пол Грэм писал «держите свою идентичность маленькой». Привязка к собственной идентичности часто может сдерживать ваш рост.
Вместо того, чтобы принимать беспристрастное решение относительно типа личности, которым они хотели бы стать, люди часто экстраполируют свою идентичность (а за ней и мораль) из своих предыдущих действий. Мой друг называет это копролитами: окаменелые и чрезмерно подогнанные убеждения, происходящие из раннего детства. Вы грязнуля или чистюля, скряга или щедрый, интроверт или экстраверт, сознательный или доверчивый, идеалист или циник, инженер или художник, vim или emacs? Смотрите ли вы свысока на людей, которые ведут себя иначе? Потратьте минутку на обнаружение всех качеств характера, к которым вы привязаны, подумайте, почему вы к ним привязаны и подумайте, есть ли преимущества у их противоположностей.
Личность человека многогранна и поэтому вы можете даже не понимать своих истинных устремлений, страхов или навыков. Находятся ли ваши декларируемые предпочтения в согласии с проявляемыми? Отличаются ли ваши действия от ваших убеждений? Другие люди оценивают вас как-то иначе от вашей самооценки? Бывает ли так, что вы удивляетесь самому себе в плане вещей, которыми вы наслаждаетесь, в которых вы преуспеваете или которых вы боитесь?
Полезно думать о росте своей личности в терминах расширения, а не перемен. Интроверт растёт через понимание, как ему вести себя в социуме. Экстраверт растёт через получение способности оставаться в одиночестве. Вместо того, чтобы спрашивать себя «что бы я в себе изменил?», подумайте, какие инструменты вы хотели бы добавить в свой арсенал.
Извращение вкуса это расстройство, при котором люди жаждут еды, не удовлетворяющей потребности, скрывающейся за этой жаждой. Типичным примером является обгладывание льда, в попытке насытить недостаток минералов в организме. Извращение вкуса в переживаниях это любое стремление, не удовлетворяющее потребность, стоящую за этим стремлением.
Топ три моих аддикции в школе являлись извращением вкуса в переживаниях.
Первой аддикцией были романтические новеллы и трагические сериалы, которые служили для меня своего рода порно на тему уязвимости и самопожертвования. У меня были замысловатые фантазии на множестве языков о любви и потере.
Второй аддикцией были ролевые игры, которые были порно о саморазвитии. В Diablo III артефакт Gem of Ease увеличивал скорость роста уровня для всех будущих персонажей до 70 примерно за час. Я создавал нового персонажа каждые пару месяцев, только чтобы смотреть как появляются сообщения о повышениях уровня. MOBA в этом смысле мощнее всего, поскольку позволяют раскачаться с 1 до 18 уровня в каждой игре.
Третьей аддикцией было …
Я знаю, что это были извращения вкуса, потому что первая и третья жажды ушли, когда я вступил в серьезные отношения, а от второй избавился, когда начал сознательно работать над саморазвитием.
Пост является хорошим временем, чтобы искать свои извращения вкуса. Существуют ли привычки, жажды или пристрастия, которых вы не понимаете и/или с трудом пытаетесь сократить? Если они являются извращениями вкуса, вы прикладываете усилия не в том направлении. Выясните подлежащую потребность и проблема автоматически уйдёт.
Я занимаюсь бегом время от времени вот уже около пятнадцати лет. До последнего года это занятие было однозначно ужасным. Кажется, что ты должен привыкнуть к бегу на четыре мили после десяти лет дважды в неделю. Нет, это не так.
Тогда я решил поставить себе цель.
Я подумал: буду тренироваться, чтобы пробежать милю за семь минут.
Моё сердце ответило: Уау, ок, это бодрит.
Затем я подумал: буду тренироваться, чтобы пробежать милю за шесть минут.
Моё сердце: Да, детка, давай сделаем это!
Затем я подумал: Миля за пять минут!
Моё сердце: АХАХАХАХАХАХА…
Я бегал больше десяти лет с почти нулевым развитием. В прошлом месяце я пробежал милю за семь минут после двух месяцев стремления к недостижимой цели. Но теперь мне нравится бегать.
Я пишу в блог время от времени вот уже пять лет. До последнего года это было тоскливо. Вам может показаться, что вы станете лучше писать после выкладывания двух постов в месяц на протяжении одного-двух лет? Нет, это не так.
Тогда я решил поставить себе цель.
Я: Постараюсь писать в блог раз в неделю.
Моё сердце: Ок, это мило.
Я: Буду писать в блог через день.
Моё сердце: Ну вот, уже другой разговор.
Я: Я буду писать в блог каждый день в течение года и к концу этого периода буду писать лучше, чем Элиезер Юдковский
Моё сердце: АХАХАХАХАХАХА…
Существует определенный уровень амбиций, что заставляет вас действовать с максимальной эффективностью, который накачивает ваше сердце адреналином при одной мысли о своём достижении. В каждом начинании прицеливайтесь на такую высокую планку, которую страшно произнести вслух даже в пустой комнате.
Выпишите сейчас свои цели. Продолжайте удваивать их в сложности до тех пор, пока ваше сердце не согнется от истерического смеха от одной только мысли о них.
Поделитесь своей самой большой амбицией: той, что ощущается как наиболее дерзкая.
Любой, кто сможет сосредоточить свою силу воли на тридцать секунд, может совершить отчаянную попытку поднять больший вес, чем обычно. Но что если нужно поднять грузовик? Тогда отчаянной попытки не хватит; придётся сделать что-то из ряда вон выходящее, чтобы преуспеть. Возможно, придётся сделать что-то, чему не учили в школе. Что-то, чего другие от вас не ожидают и могут не понять. Возможно, придётся выйти за пределы привычных маршрутов, столкнуться с трудностями, на решение которых у вас нет готовых мыслительных программ, и обойти Систему.
~Приложи экстраординарные усилия
Я не знаю, прикладывал ли я когда-нибудь экстраординарные усилия (и это, вероятно, свидетельство, что нет), но я точно делал отчаянные попытки. Философия Йода-таймеров в том, что может быть достаточно постоянно делать отчаянные попытки: делать то, что ты знаешь так хорошо и так быстро, насколько это возможно. А за этими пределами лежит сфера гения.
CFAR называет Йода-таймеры циклами разрешения (Resolve Cycles), вторичный навык здесь Разрешение - способность сделать отчаянную попытку. Эта техника достойна отдельной книги, хоть она и наименее гламурна среди всех. Насколько больше вы смогли бы достичь всего лишь постоянно прикладывая больше грубой силы?
Ранее: День 2
Разрешение это главный навык, тренируемый Йода-таймерами, но существуют также другие причины встраивать таймеры и дедлайны в свою жизнь. Сегодня я поделюсь тремя идеями, позволяющими получить максимум из Йода-таймеров.
Иногда можно удивить себя тем, что можно сделать за пять минут. Но некоторые вещи невозможно сделать за пять минут. В этом случае обобщением Йода-таймера станет формирование абсурдно коротких дедлайндов для таких задач.
Сколько времени потребуется, чтобы написать роман? NanoWriMo это Йода-дедлайн на один месяц для этого случая.
Сколько времени потребуется, чтобы решить долгосрочные исследовательские задачи? ММО заявляет, что иногда достаточно четырех с половиной часов.
Сколько времени потребуется, чтобы изменить всю вашу жизнь? Как много людей тратят года и десятилетия прежде чем быстро пройдут через значительные перемены в течение нескольких недель, подстёгнутые единственным разговором, или книгой, или путешествием?
Короткий ответ на все эти вопросы: вы не будете иметь ни малейшего представления без тренировки скорости.
…
Существует облегченный вариант для математического турнира Гарварда-МТИ под названием ноябрьский турнир Гарварда-МТИ (НТГМ), который проводится для региональных и менее опытных (средняя и ранняя старшая школы) учащихся. НТГМ составлен из нескольких индивидуальных и командных раундов, наиболее удивительным из которых будет раунд чуйки (Guts Round). Команды из 4-6 учащихся работают вместе над задачами из наборов по три штуки, чтобы решить в сумме 36 задач за 80 минут.
Старшие ребята, включая меня, помогали во время НТГМ 2011 года. Тренер команды ММО предложил нам испытание - поучаствовать в раунде чуйки, но вместо работы в командах из 6 человек, мы работали поодиночке и у нас не было черновиков.
И вот, так получилось, что рядом с аудиторией, полной громко шепчущихся подростков, обменивающихся идеями и черновиками, мы сидели впятером, уставившись на задачи и выписывая на листочек ответы.
Подводя итоги в конце, каждый из нас был впереди любой из команд с большим отрывом.
С тех пор, я выполнял тренировочные задачи НТГМ за половинное время, используя только вычисления в уме. Дважды выиграл.
«Моя дорогая, здесь нужно бежать изо всех сил только чтобы остаться на месте. А если ты хочешь куда-то дойти, то тебе нужно бежать в два раза быстрее.»
~Алиса в Стране Чудес
У писательских проектов существует типичный режим отказа: если ты работаешь слишком медленно, идеи устаревают ещё до того, как ты окажешься близок к финишу.
Как много незаконченных мыслей сталкиваются с клавишей backspace лишь из-за того, что перестают быть привлекательными в рефлексии?
Написанный наполовину пост в блог буквально ржавеет за ночь.
Первая глава романа выглядит как детское бумагомарание через неделю.
Доказательство, которое ты набросал несколько месяцев назад? Сейчас ты не сможешь вспомнить детали.
Я привожу примеры в писательстве, потому что сам им занимаюсь, но скованность и деградация мотивации применимы ко всем творческим начинаниям, особенно для людей легко отвлекающихся. Одним из решений станет попытка решить задачу контроля и выстроить доверительные отношения со своим будущим Я, и таким образом научиться планировать на долгий срок. Это мы обсудили в днях 8, 9 и 10. Но другим решением является просто делать всё быстрее.
Мёрфиджитсу легко позволяет определить такие режимы отказа. Существуют идеи, о которых вы точно знаете, что если не завершите их сразу же, то не завершите никогда. Если вы отложите это что-то на месяцы, то даже если в итоге сделаете, то оно займёт в два раза больше усилий.
Устанавливайте Йода-таймеры и Дедлайны. Мотивация и ценности имеют свойство меняться - получите максимум от того, что у вас есть сейчас.
Обычно пять минут это абсурдно мало времени, чтобы хоть что-то сделать. Но иногда пять минут становятся вечностью. Вторичное применение Йода-таймеров - привлечь ваше внимание к задачам, на которые вы обычно тратите секунды.
Сколько времени вы обычно тратите на планирование своего дня? Поставьте Йода-таймер и подвигайте дела в своём расписании, чтобы максимизировать свою эффективность.
Сколько времени вы обычно тратите на выражение благодарности? Поставьте Йода-таймер на поиск идеального подарка, или на вдумчивое написание письма для любимого человека.
Существуют ли мышцы, которые вы никогда не тренируете? Поставьте Йода-таймер и тренируйте одну эту группу мышц (посмотрите эту серию, чтобы узнать, как). Прочувствуйте, как ощущается напряжение и расслабление. Исследуйте весь диапазон движений. Почувствуйте прекрасное жжение молочной кислоты.
Погружаетесь ли вы в дела без достаточного планирования? Поставьте себе Йода-таймер, чтобы замедлиться и выполните Мёрфиджитсу.
Сегодняшнее упражнение: поставьте Йода-таймер на пять минут и составьте план внедрения таймеров и дедлайнов в свою жизнь.
Поставьте Йода-таймер и поделитесь наиболее важной идеей, для выражения которой вы никак не могли найти время. Уложитесь в пять минут.
«Опустите ненужные слова!» кричит автор на странице 23, и в этот императив Уилл Странк действительно вложил свои сердце и душу. В те дни, что я провел на его занятиях, им было отброшено множество ненужных слов и отброшены с силой, с готовностью, а также с ощущаемым наслаждением, часто он оказывался в затруднительном положении - ему было больше нечего сказать, а время нужно было чем-то занять, подобно радио-проповеднику, обогнавшему эфир. Уилл Странк справлялся с этой трудностью особым способом - он проговаривал каждое предложение по три раза. Когда он произносил свою речь о краткости аудитории, он перегибался через свой стол, хватал себя за отвороты пиджака и хитрым, заговорщическим голосом говорил: «Правило семнадцать. Опустите ненужные слова! Опустите ненужные слова! Опустите ненужные слова!»
~Элементы стиля (Elements of Style)
Нет ничего более естественного в практике времени молотков, чем повторение и ни одна другая техника рациональности не требует большей практики, как ПТД. Хотя мы выбрали только три дня, чтобы на ней сосредоточиться, лучше всего проводить тренировку ПТД в течение всей своей жизни.
Ранее: День 3
Суть навыка планирования триггеров и действий в выборе правильного триггера. Лучшие из них не только легко заметить, но и трудно пропустить. Обнаружение триггера не должно требовать усилий и направления внимания - единственное осознанное действие выполняется после того, как триггер сработал.
Три способа находить хорошие триггеры:
Заклинание осознания имеет множество различных применений и лучше всего использовать один триггер для всех разом. Заклинание осознания должно срабатывать постоянно в течение дня - дальше будет понятно из контекста, какое именно его применение должно реализоваться.
Вот три способа, которыми я перегружаю заклинание осознания:
Поставьте Йода-таймер и сделайте обзор всех ПТД, которые вы пытались внедрить за последний месяц и определите, что для вас сработало.
Вам когда-нибудь приходилось жать на «сброс к заводским настройкам»? Поделитесь опытом об отказе от долгосрочного проекта, от убеждения, в истинности которого вы были уверены или от идентичности, к которой вы были привязаны.
Я есть палец, указывающий на луну. Не смотри на меня; смотри на луну. 1
Рационалисты постоянно нудят о фальшивости наших моделей, о том, как мы указываем на глубокие, невыразимые словами истины, и, дабы взять на себя часть вины, о важности приближения к истине с разных сторон, нежели о прямом стремлении к ней. Мы проводим слишком много времени, настаивая, что мы есть пальцы, указывающие на луну.
Время молотков заявляет: в жопу луну.
Во Вселенной летают триллионы неразличимых огромных камней. А человеческий палец содержит триллион копий исходного кода самого могущественного интеллекта в известном нам участке Вселенной. Если бы приходилось выбирать, я бы проводил дни в изучении пальцев, а не лун, без разговоров.
Время молотков это набор пальцев, указывающих на луну. Иногда может быть полезным откинуться в кресле, свести глаза в одну точку и искать луну: ту самую общую когнитивную стратегию, стоящую за всеми этими техниками. Но если вы не можете найти луну, пальцы тоже хорошо. Поэтому не надо беспокоиться. Расслабьтесь. Делайте ровно то, что я говорю.
Ранее: День 4
Дизайн это практика обнаружения крохотных градиентов из стимулов в вашем окружении и их смещение в нужном направлении. В прошлый раз мы считали окружением физическое пространство, но принципы Дизайна применимы в разных областях.
Сегодня я буду применять принципы Дизайна для составления расписаний (schedules), социальных групп (social groups) и экранного пространства (Screen Space). Как подрастающий гуру я дам этой группе техник (вкупе с пространством - Space) название «Дизайн 4S».
Держите в уме три принципа Дизайна:
Я не эксперт в использовании календарей; этот раздел посвящен основам.
Каков самый важный градиент стимула, который можно поправить в календаре? Стимул его использования вообще.
Знание заранее, где вы будете, чем будете заниматься, какая доля ваших проектов будет сделана через дни, недели и месяцы стоит дорого. Невообразимо дорого. Может показаться, будто все стимулы уже выстроены. Так почему же люди не планируют все дела всё время?
У каждого свои причины для антипатий, но я считаю, что самой большой будет размещение календарей в категорию инструментов продуктивности. Когда я впервые начал вписывать свои задачи на бумажку, я чувствовал себя как крепостной, тащащий свой осенний урожай землевладельцу. Деспот хотел превратить моё время, всё моё время, в «продуктивность». Ничего взамен он не предлагал.
Вот откройте сейчас свой календарь. Это всего лишь инструмент. Чего бы вы реально не хотели, он поможет вам этого достичь. Если вы правда хотите продуктивности, выделите на это блок времени в календаре. Если вы хотите запоем смотреть Death Note на выходных, выделите время и на это. Если вы хотите вечером полежать в кровати и поплакать, не испытывая при этом чувства вины, то и на это время выделите. И относитесь к своим напоминаниям в календаре, как к мягким понуканиям друга, желающего вам добра.
Не позволяйте своему календарю стать вашим тираном.
Упражнение: поставьте Йода-таймер, чтобы составить как можно более плотное расписание как можно дальше в будущее.
Джордан Питерсон любит повторять, что в эволюции homo sapiens Природа, реализующая естественный отбор, представлена тремя частями природного окружения и семью частями других человеческих существ. За последний миллион лет, социальное и особенно сексуальное давление значительно превосходили давление выживания. Социальное окружение для нас столь же неизменно и неподатливо, как антарктическая зима, а подлежащие градиенты стимулов определяли наши жизни за миллионы лет до нашего рождения.
У вас есть власть управлять своими социальными стимулами. Обучение с подкреплением это главный механизм обучения человека и мы получаем так много обратной связи из нашего круга общения, что создание циклов обратной связи с обществом становится жизненно важным.
Правило три из «12 правил для жизни» гласит: дружите с людьми, которые желают для вас лучшей жизни. Не всякий человек разделяет ваши ценности. Не всякий, кто разделяет, может оценить ваш прогресс. Не всякий, кто может оценить, знает, как наградить. Заводите друзей, которые будут вознаграждать вас за ваши добродетели и наказывать вас за ваши грехи. Просите своих друзей держать вас в узде и принимайте обратную связь с теплотой.
Ничего так не лечит душу, как хороший подзатыльник от близкого друга.
Упражнение: поставьте Йода-таймер и спроектируйте своё социальное окружение. Возможно, вам потребуется установить ПТД, чтобы благодарить людей за хорошие советы. Возможно, вам стоит подавать хороший пример и хвалить черты, которые вы увидите у других. Возможно, вам потребуется показать окружающим, что вы способны воспринять критику. Возможно, вам просто требуется больше хороших друзей.
Математику предначертано опозорить себя в попытке научить аудиторию, состоящую большей частью из программистов, макросам и горячим клавишам, но время от времени я сталкиваюсь со странными программистами на Windows, которые не используют AdBlock. Этот пост для вас.
У меня два принципа Дизайна для работы с компьютером.
Во-первых, никогда не делайте мышью то, что можно сделать клавиатурой более эффективно. Для всего существует своё сочетание клавиш. Поставьте Йода-таймер в Chrome, напечатав «Ctrl-T timer 5 minutes». Архивируйте выделенные электронные письма кнопкой «e». Возвращайтесь к окну «Сегодня» в календаре кнопкой «t» и… я уже упоминал vim?
Во-вторых, создавайте мягкие градиенты стимулов. Удалите Netflix из закладок, дабы отдалить его хотя бы на один клик. Настройте редактор LaTeX, чтобы он запускался при загрузке компьютера, чтобы стало чуть легче писать следующую статью. Пользуйтесь панелью задач на полную мощность, чтобы поместить самые ценные приложения на видное место.
Вот вещи, о которых вы не знали, что они вам нужны: LyX, vim, AdBlock, HoverZoom, RES, RSS Reader, ДОПОЛНИТЕЛЬНЫЕ МОНИТОРЫ.
Упражнение: поставьте Йода-таймер и оптимизируйте своё пространство на экране. Потренируйте сочетания клавиш. Подвигайте иконки. Поищите и избавьтесь от всех лишних действий, которые не автоматизированы. Есть такая штука, называется компьютер, специально для таких целей.
Сделайте вклад своих огромных знаний компьютеров в дело Дизайна экранного пространства в комментариях.
Ещё один девиз CFAR - «Пробуй всякое!»
Когда вы раздумываете над тем, чтобы завести новую привычку или внедрить новую идею, нет лучшего способа собрать информацию, чем просто попробовать. […] Это особенно важно, потому что если заработает, то вы продолжите это делать.
Время молотка предлагает множество советов «на уровне объекта». Попробуйте их все! Вероятность успеха в 10% не воодушевляет, но вы можете делать сотни или тысячи повторов за свою жизнь.
Вот вам «правило буравчика»: если есть шанс хотя бы в 1%, что нечто окажется полезным в долгосрочной перспективе, это стоит попробовать хотя бы в течение пяти минут.
Ранее: День 5
Базовая техника РаЗоК это:
Сейчас я избавлю вас от представления о том, что каждый эксперимент РаЗоК должен быть эффектным. Также я интегрирую в эту технику Факторизацию избеганий.
Когда я впервые узнал про РаЗоК, я сразу стал придумывать восхитительные, смелые и эффектные эксперименты. Погружение в свои сокровенные чувства после месяца на ноотропах и буддизме, находясь при этом голым в Сибири. Практика осознанных сновидений в групповом объятии с бушменами Калахари, и всё это - во время прыжка с парашютом. Стойка на пальце руки, опираясь на одноколёсный велосипед, декламируя при этом спонтанные лимерики в Карнеги-холл.
Ваша зона комфорта ограничивает вас во всех направлениях, а не только в самых эффектных. Полезнее всего расширять зону комфорта не в самую манящую сторону, а в ортогональную ей или даже противоположную.
Невзрачный РаЗоК это развитие в этих направлениях. Сломать личные страхи и склонности к избеганию, за что никто посторонний вас не похвалит. Пробовать социально неодобряемые занятия и точки зрения. Ваше движение в сторону непривлекательных ролей не значит, что вы должны будете играть их всю жизнь - оно даёт вам заглянуть в вашу многосторонность, обозреть то множество ролей, которые вы способны играть при разных обстоятельствах.
Упражнение: выберите «эффектный» эксперимент РаЗоК, который вы попробовали в прошлом. Разработайте новый эксперимент, который будет направлен прямо противоположно. Поставьте Таймер Йоды и двигайтесь в эту сторону!
Ранее: День 7
Пришло время делать составные упражнения из техник времени молотков. Факторизация избеганий (антипатий) - хорошо подходит в качестве подготовительной работы к эксперименту РаЗоК. Последний раз, делая РаЗоК, мы не стали расширять зону комфорта в направлениях, которых мы избегаем. Но сейчас нам поможет Факторизация избеганий, так что мы готовы совладать с более сложными испытаниями.
Напомню три шага Факторизации избеганий:
Это приводит нас к первому составному молотку: РаЗоК-рекурсия.
Пример:
РаЗоК в публичных выступлениях. Замечаете избегание всех социальных ситуаций. РаЗоК в разговорах с людьми. Замечаете социальное избегание, связанное с (поддержанным) чувством неуверенности в выборе стиля одежды. РаЗоК в покупке одежды. Замечаете избегание больших трат денег.
Бог вам в помощь, если последнее избегание замкнётся в бесконечный цикл: заметить избегание покупки одежды, потому что у вас нет друзей с хорошим вкусом. Применить РаЗоК к заведению новых друзей…
Также вы можете находить антипатии во время проведения эксперимента. Это тоже хорошо. Примените к ним Факторизацию антипатий. В общем случае сложные баги требуют до трёх слоёв рекурсии.
Упражнение: выберите достаточно страшный (4-7 баллов в Списке багов) опыт, к которому вы хотели бы применить РаЗоК. Установите Таймер Йоды, чтобы разработать эксперимент для РаЗоК в этом направлении. Найдите время в ближайшем будущем, чтобы провести этот эксперимент.
Сегодняшнее испытание - это вопрос: является ли смелость простым отсутствием страха?
Есть ли значимое различие между ними двумя, и что больше делает РаЗоК: увеличивает храбрость или уменьшает страх? Что бы из этих двух пунктов он ни делал, подумайте, как можно выполнять оставшийся пункт?
Шестой день всегда обозначает границу между конкретным и абстрактным. Сегодня, она будет обозначена тремя эссе о новых техниках.
Эти эссе коротки, поскольку у меня недостаточно данных и примеров. Все концепции и перспективы использования подготовительного уровня. Два последних эссе, думаю, это два пальца, указывающие на одну и ту же луну.
Мне надо ложиться спать раньше.
Я сейчас не могу спать, потому что эту статью надо дописать до завтра.
Я просто закончу её утром.
Я не доверяю себе, утверждающему, что буду работать утром.
Нужно сильнее постараться доверять себе и лечь спать раньше.
Эта цепочка мыслей преследовала меня в прошлой жизни. Видите ли вы, что с ней не так?
Я давил не с той стороны.
По утрам мне всегда было лениво. В таком сценарии «сильнее постарайся доверять себе» это самообман. Чтобы его избежать, мне сначала нужно культивировать в себе привычку работать по утрам или по крайней мере быть способным на это. Как только это появится, исходная цепочка мыслей автоматически обрежется посередине.
Работать по утрам для меня нелегко, но это было правильной точкой, чтобы стараться. Как только я решил эту проблему, я смог доверять моему утреннему я. Стало легче исправлять своё расписание сна.
Точки давления это техника нестандартного мышления. Для любой задачи существует множество мест приложения усилий, и всё, что требуется - это найти точку, к которой можно приложить грубую силу наиболее эффективно. Точка давления редко оказывается очевидным направлением: вероятно, что вы уже толкаете в каком-то направлении, но до сих пор успехов не было. Поищите контр-интуитивные места для приложения усилий.
Вот три примера Точек давления со своим творческим шармом:
Осознанные сновидения как раз о нахождении правильных Точек давления. Вместо «очень сильного намерения осознать свои сновидения» двумя главными техниками является практика сверки с реальностью, пока бодрствуешь и ведение журнала снов, чтобы улучшить способность их вспоминать.
Люди часто подходят к боязни общества с техникой «постарайся меньше беспокоиться о том, что люди думают». По сути это столь же эффективно, как и совет «постарайся не обращать внимание на своё дыхание». Точкой давления в случае боязни общества может быть «постарайся сосредоточиться на языке тела людей и замечать их тревожность».
Я работал с ПТД, чтобы улучшить свою осанку. Единственное, что показало эффективность, это установка «повернись навстречу душевой лейке». Когда я отворачиваюсь от душевой лейки, то сгибаюсь, чтобы вода не попадала на заднюю часть шеи. А когда поворачиваюсь навстречу лейке, то откидываю голову и расправляю грудь, чтобы струя не попала на лицо.
Я должен вам признаться.
Я жульничал во времени молотков.
Половина личных примеров для любой техники пришла со времен задолго до того, как я узнал о технике. Многие из техник и их вариаций, что я предлагаю, больше являются «паттернами, замеченными мною в прошлом», нежели продуктами сознательного дизайна.
Рациональность это систематизированное выигрывание. Суть в том, что я стал успешен в некоторых вещах до того, как познакомился с рациональностью. У всех так. Мы все открывали локальные версии техник рациональности ещё до того, как были написаны цепочки.
Каждый раз, когда вы узнаете о новой технике рациональности, поищите в своём прошлом эпизоды, когда вы её применяли. Тогда вы будете конкретнее понимать технику, чувствовать, что владеете ею, а также сможете отрегулировать кресло и отредактировать её под свои нужды.
Похожим образом можно обнаружить новые техники рациональности, обращаясь к своему и чужому прошлому. Заметьте, какие когнитивные стратегии ваш мозг уже использует, попробуйте облечь их в слова. Помните, что облачение в слова невыразимых правил есть участие в божественном акте создания.
Некий человек принимает коктейль из ноотропов под названием BrainHammer в течение 30 дней. Он чувствует себя энергичным и мыслит ясно, спит на два часа в день меньше, приобретает контроль над своим гневом. Он списывает всё на препараты и продолжает их принимать неограниченно долго.
BrainHammer это вообще-то десять разных препаратов, среди которых только кофеин обладает положительными эффектами. Но BrainHammer в сорок раз дороже кофе, а некоторые из его ингредиентов поступают в крохотных, незначительных дозах. Одно из активных веществ снижает мужское влечение, а другое приводит к развитию камней в почках.
Время молотков (и CFAR) могут оказаться подобны этому коктейлю из ноотропов. Через тридцать дней у вас останется чувство удовлетворения, вы будете снабжены десятью молотками максимального уровня для разрешения самых сложных багов. Дела начнут спориться.
Но оказывается, только один из молотков (Йода-таймеры) выполняет всю работу. Вы просто хорошо мотивируетесь таймерами и дедлайнами. А при этом 80% всех действий, вдохновленных временем молотков состоят из плацебо: передвижение мебели, изучение трёх разных видов йоги и пяти видов медитации, невразумительное бормотание шёпотом, накопление наполовину законченных дневников и таблиц, заказы всякого мусора на Amazon. Кроме того, вы выполняете внутренний двойной крест абсолютно неправильно и медленно превращаетесь в маниакально-депрессивную личность. И не заметите, пока не станет слишком поздно.
Суеверия неизбежно возникают при счастливых событиях. Требуется дисциплина и научный метод, чтобы разобраться в активных ингредиентах коктейля из препаратов, то же самое применимо для техник рациональности. Если вы осваиваете больше, чем одну технику за раз, сразу планируйте действия против суеверий.
Даже если вы изучаете одну технику, которая требует многих шагов, только один из них может нести полезную нагрузку. Например, в старшей школе я выяснил, что единственной ценностью составления конспектов для меня оказалось выписывание имён для запоминания. Отбраковывая это суеверие, я продолжил делать конспекты, но перестал их хранить.
Поставьте Йода-таймер и поищите в своём прошлом моменты, когда вы быстро прогрессировали. Можете ли вы вербализовать новую технику рациональности из этого опыта?
Знаете, говорят, что мы используем только 10 процентов нашего мозга? Я думаю, что мы используем только 10 процентов наших сердец.
Оуэн Уилсон
С некоторым содроганием вхожу я в области «нечеткой Системы 1» применения инструментальной рациональности. Меня беспокоит, что эти интроспективные техники слишком узко направлены на оптимизацию катарсиса, а полученные в результате чувства значительно превосходят их истинную ценность.
Тем не менее, в этих методах есть определенная мощь. У всех нас есть подсознательные убеждения, ценности и стратегии, о которых мы даже не подозреваем или, по крайней мере, не можем выразить словами. Книга (и техника) Джендлина «Фокусирование» это стартовая точка для выявления этих потаенных глубин.
Дополнительное чтение: «Фокусирование» для скептиков
tl;dr: ваш мозг создает галлюцинации чувственного опыта, которые не имеют отношения к реальности. Обнаружение и облачение в слова этих «чувственных ощущений» даёт вам доступ к глубокой мудрости вашей души.
Начну с описания моей самой механистичной модели работы фокусирования, а затем опишу несколько упражнений для укрепления мышцы Фокусирования.
Одно из предсказаний моей модели - чувственные ощущения являются лишь одним кусочком невербальной головоломки - паттерны наших снов и наши вкусы в художественной литературе, например, выполняют ту же функцию. Это будет темой для будущего поста.
Модель получены из лекций по психологии Джордана Питерсона, особенно вот этот разговор. Оставляю за собой право назвать всё фейком, если вы попытаетесь это фальсифицировать.
Человеческие существа являются одновременно хищниками и добычей. Эта двойственность настолько важна в человеческой эволюции, что мозг разделен на левый и правый, чтобы отдельно служить каждой цели.
Левый мозг это мозг хищника, центр для механизмов «подхода». Он построен для отслеживания определенной добычи, создания правил о поведении и решении конкретных задач. Зафиксировать внимание на цели значит активировать левый мозг и приготовиться к охоте. И в направлении вашего взора появляется ясность и четкость. В этом направлении приобретается мощь и мастерство.
«Грех» происходит от греческого слова, обозначающего промахнуться мимо цели: человеческие существа это создания прицеливающиеся.
Правый мозг это мозг добычи, центр механизмов «бегства». Он построен для воображения ядовитого тумана из худших сценариев: змеи на каждом дереве, ловушки под каждым кустом. Правый мозг всегда на грани, выискивая мельчайшие сигналы о выслеживании хищником или о наступающей проблеме. Он оперирует вещами, которых вы не знаете и не можете увидеть: пространство за вашей головой, тени в тёмных углах, места и концепции, вокруг которых вы ходите.
С учетом всего своего уровня ясности и конкретности, левый мозг гораздо более разговорчив и большая часть знаний в виде слов находится там. Правый мозг, с другой стороны, может иметь доступ к самым важным прозрениям в вашей жизни, видеть общий её план. Проблема в том, чтобы передать эту информацию.
Когда у правого мозга есть какое-то сообщение, которое не проходит напрямую через мозолистое тело, сообщение доносится другими средствами. Вы чувствуете напряжение в груди или жар в животе. Непонятные картинки появляются, когда вы закрываете глаза. Возвращающиеся кошмары разыгрывают последние мгновения вашей вероятной гибели.
Фокусирование это об обнаружении вот таких тонких подсказок и завершение коммуникации между левым и правым мозгом.
Базовая идея фокусирования в обнаружении и отслеживании своих чувственных ощущений, а также в умении их высказать. Самое прекрасное, что происходит во время фокусирования - обнаружение «чувственного сдвига», облегчение или иная перемена в ощущениях после подбора правильных слов для их описания. Это отклик вашего правого мозга, подтверждающий, что вы поняли его сообщение.
Я начну с перечисления нескольких чувственных ощущений, которые у меня недавно были.
А вот чеклист по Фокусированию Джендлина из CFAR:
Поставьте Йода-таймер и попробуйте Фокусирование.
Поделитесь чувственным ощущением и опишите его Истинное Имя.
До сегодняшнего дня время молотков было сосредоточено на способности достигать цели. Следующие две техники, факторизация целей и внутренний корень разногласия, созданы для определения, каких же целей достигать. Для самых больших своих целей в жизни, вы должны быть способны сделать отстранённое решение о том, стоят ли они достижения перед вложением всех своих сил.
Ранее: День 7, факторизация избеганий
Факторизация целей это техника CFAR для систематического определения всех подцелей и избеганий, которые у вас есть в отношении какого-то действия и выяснения, что можно с этим сделать. Базовый алгоритм таков:
Это уже довольно сложный и полезный зверь. Держите в уме три вещи:
Используйте чеклист фокусирования для нахождения всех подцелей и избеганий. Если я говорю вслух: «единственная причина, по которой я хочу пойти в зал это физическое здоровье», то я ощущаю пелену несогласованности, которая напоминает мне, что физическая привлекательность также важна. Помните, что честность и внимание к деталям необходимы для обнаружения избеганий, но это также применимо к целям!
Факторизация целей может решить задачу на любом шаге. Выписывания своих истинных мотиваций может быть достаточно для определения правильного порядка действий. Около трёх месяцев назад я обнаружил, что главной мотивацией моей зависимости от видеоигр было «доказать родителям, что можно быть успешным, играя при этом в видеоигры». После записи на бумагу стало невозможным продолжать поддерживать эти действия.
Приготовьтесь принять все возможные миры. Держите разум открытым, подходя к факторизации целей, вам позволено рассматривать все альтернативы. Вам также можно продолжать делать то, что вы делаете сейчас, после факторизации. Попытайтесь отпустить любую привязанность к действию самому по себе, кроме его инструментальной ценности. Немного напрягитесь, если вашей основной причиной, чтобы делать Х является желание «стать человеком, делающим Х», но по крайней мере запишите это как отдельную подцель.
Упражнение: выберите действие или привычку, которую вы хотели бы завести или бросить, поставьте Йода-таймер на 20 минут и проведите факторизацию целей с ней.
Поставьте Йода-таймер, чтобы сделать факторизацию целей на «прокачивать молотки». Поделитесь вашими мотивациями и избеганиями.
По традиции времени молотков я делаю небольшую смену планов как раз в момент, когда надо выпускать тексты про Планирование. Моя отмазка на этот раз такая:
Несколько комментаторов указали на серьезные пробелы в моих знаниях Фокусирования. Я отложу Внутренний Корень Разногласия, улучшенную форму Фокусирования, до следующего цикла. Вместо этого у нас будет ещё два поста о создании и выполнении долгосрочных планов.
Ранее о планировании: День 8, День 9, День 10.
Сегодня хотелось бы описать два уровня приближения рабочей теории принятия решений для людей.
Дополнительные материалы: Как я потерял 50 килограмм, используя TDT
Выбирайте, как если бы вы контролировали логические выходы внедряемых абстрактных вычислений, включая выходы всех других реализаций и симуляций этих вычислений.
~Элиезер
Другими словами, каждый раз, когда вы принимаете решение, определитесь, что будете делать то же самое решение во всех концептуально схожих ситуациях в будущем.
Поразительная ценность TDT вот в чем: принимайте каждое решение, как если бы вы мгновенно получили все долгосрочные вознаграждения от всех повторов этого решения. И если окажется, что вы необновляемый агент, то этот способ в самом деле работает. Вы действительно теряете 50 килограммов, приняв одно решение.
Призываю читателей, которые ещё не пробовали жить по TDT остановиться здесь и попробовать в течение недели.
Существует некоторая разница между вневременными агентами и человеческими существами, поэтому применение TDT в той форме, что указана выше, требует неприемлемого (по моим меркам) уровня самообмана. Мой второй уровень приближения - предложить практическую ослабленную версию TDT, основанную на принципе Солитера и волшебного мозгового сока.
Три возражения к применению TDT в реальной жизни:
Человек это нечто промежуточное между «одной монолитной кодовой базой» и «несвязным содружеством сущностей, реализующих случайную серийную диктатуру». Грубо говоря, каждая сущность это кусочек вас, созданный для удовлетворения одной первородной потребности: голода, дружбы, любопытства, справедливости. В любой момент времени, только одна или две из этих сущностей активны и принимают решения. В таком случае, даже если каждая отдельная сущность является необновляемой и строго определенной, вы не принимаете решения в пользу всех остальных сущностей, неактивных в данный момент. У вас нет столь большого влияния на другими сущностями, как бы вам хотелось.
Разные сущности имеют доступ к разным данным и убеждениям. Я уже упоминал, например, что у меня есть разные личности, говорящие на китайском и английском. Вы можете спросить меня о любимой еде на английском и я отвечу «пельмени», но истинный ответ 饺子 ощущается качественно лучше, чем пельмени с большим отрывом.
Разные сущности имеют разные ценности. У меня есть два друга, которые регулярно провоцируют мою сущность «меряющийся членами садист-засранец». Если человеческие существа действительно обладают функциями полезности, то у этой сущности она с отрицательным знаком по меркам других людей. Она нехарактерно рада вовлекаться в игры с отрицательной суммой.
Практически невозможно предсказать, когда сущности проявят себя. Недавно я летел 13-часовым рейсом из Китая. Начал марафон по просмотру «Игры престолов» после того, как закончились комедии, и целый сезон Серсеи Ланнистер перевел меня в режим «садиста-засранца» на весь следующий день. Если бы Hainan Airlines загрузили больше комедий, этого могло бы не произойти.
Сущности могут оставаться в спячке месяцами или годами. Встретившись с друзьями из старшей школы в прошлом декабре, я окунулся в прежние роли и получил легчайший доступ к огромному массиву ушедших воспоминаний.
Дополнительное чтение: концептуальные фальсификации
Я могу заставить задачу выглядеть большой или маленькой, нарисовав соответственно большие и маленькие концептуальные границы вокруг неё, а затем определяя задачу через указанные концептуальные границы.
TDT реализуется через неопределенный термин «концептуальная похожесть»: вы определяете для себя, что будете принимать одно и то же решение в концептуально похожих ситуациях. К сожалению, вы будете склонны к мотивированным суждениям и концептуальным фальсификациям, чтобы выбраться из вневременных решений, сделанных в прошлом.
Эта задача может быть упрощена, но не решена, через четкое определение границ. Жизнь имеет слишком много измерений, чтобы даже определить, какие переменные стоит отслеживать, не говоря уже о том, чтобы провести границу для каждой из них. Значимость информации есть функция вашего внимания и навыков обнаружения настолько же, насколько функцией реальности самой по себе. Последнее время стало практически обыденным делом прочесть статью, которая достаточно изменяет возможности моего внимания, чтобы превратить ситуации, ранее воспринимаемые как «концептуально схожие» в абсолютно разные.
Дополнительное чтение: волшебный мозговой сок
Каждое совершенное действие сопровождается ненамеренным самоизменением
Человеческий мозг это такой привередливый код, который самоизменяется каждый раз, когда выполняет какое-то действие. Ситуация даже хуже: ваши поступки могут сдвинуть ваши ценности в неожиданном и непонятном направлении. Этот баг есть неотъемлемое противоречие в применении TDT человеком.
Самоизменение происходит множеством способов. Когда я писал «волшебный мозговой сок» я имел в виду мгновенное усиление нейронных маршрутов, которые активизировались и соответствующее ослабление с течением времени всех маршрутов, которые не активизировались. Но происходят и другие вещи. Вы привязываетесь к определенной идентичности. Вы втягиваетесь в ближайший аттрактор в социальной сети. А также:
Экспозиционная терапия это мощный, но неразборчивый инструмент. Вы можете свести любую антипатию практически до нуля просто вновь и вновь осознанно сталкиваясь с ней. Но страхи и антипатий есть в каждом направлении!
Каждое движение, что вы делаете, есть экспозиционная терапия в его направлении.
Именно так.
Каждое осознанное действие подстраивает вашу зону комфорта в его направлении, уничтожая антипатии и уклонения (желанные или нет) на своём пути.
Упс!
Надеюсь, я убедил вас, что человеческий мозг достаточно поломан, что наши представления о «необновляемом исходном коде» неприменимы и попытка принимать решения через TDT будет в результате сложнее (и может иметь нежелательные побочные эффекты). Что можно сделать?
Во-первых, думаю, что есть смысл инвестировать напрямую в TDT-подобное поведение. Принимайте осознанные решения для подкрепления сущностей, способных принимать и сдерживать обещания. Принимайте более четкие решения и ясно определяйте концептуальные границы. Исследуйте этику добродетели и деонтологию. Блог Зви хорошее место для начала.
В то же время, тренируйте предсказание собственного будущего поведения. Если у вас получится стать своим собственным Омегой, то все задачи, с которыми вы сталкиваетесь, будут казаться вам Ньюкомбианскими. Тогда вам придётся оставить CDT (causal decision theory, каузальная теория принятия решений - прим. перев.) и все проблемы, что она вызывает.
Во-вторых, однажды я предложил модель под названием «сдвиг десяти процентов»:
Сдвиг десяти процентов это мысленный эксперимент, который я успешно внедрил в систему 1, позволяющий формировать долгосрочные привычки вроде «писать в блог каждый день». Он основан на предположении, что каждый следующий ваш выбор на одну тему на 10% легче предыдущего.
Предположим, что существует привычка, которую вы хотите сформировать, например, ходить в зал. Вы рисовали пентаграммы, рассыпали пепел фей, проделали все необходимые ритуалы, дабы определить, что преимущества точно превосходят затраты и не существует лучших альтернатив. И тем не менее, усилие, которое вы совершаете, чтобы ходить в зал каждый день, кажется невыносимым.
Вы тратите 100 единиц силы воли на принесение своего тела в зал в первый день. Теперь, обратите внимание, что волшебный мозговой сок на вашей стороне. На второй день станет немного легче. Вы тратите 90 единиц. На третий день, стоимость решения уже 80.
Используя некоторое количество математики и значительное количество мозгового сока, вы тратите 500 единиц силы воли за первые десять дней и привычка бесплатна на всю оставшуюся жизнь.
Конкретное число не имеет значения, но я рассматриваю эту модель как правильно ослабленную версию TDT: действуйте, как если бы каждое принятое решение награждало вас 10% всех преимуществ постоянного принятия такого решения. Одно решение позволяет потерять только 5 килограммов, поэтому вам потребуется принять десять последовательных решений прежде чем вы сможете пожать все плоды.
Сдвиг десяти процентов охраняет вас от ваших сущностей. Как только вы примете одно и то же решение десять раз подряд, вы примете его в широком спектре состояний сознания и контекст будет отличаться в каждой ситуации. Вероятно вам удастся убедить большую часть своих сущностей согласиться с вашим решение.
Сдвиг десяти процентов также предохраняет против концептуальных фальсификаций. Приняв одно и то же решение из разных ситуаций, концептуальное пространство, собранное из точек данных, будет представлять собой десятимерный регион, который вы сможете однозначным образом определить как условия, которыми вы будете руководствоваться, несмотря ни на что, как вневременную определенность.
Этот пост исключительно ориентировочный и теоретический, так что я просто открою комментарии для дискуссии.
Существует серьезный и пугающий феномен, о котором Вэлентайн писал в последнее время: большая часть того, кем вы являетесь, существует (или выражается) только в присутствии других людей. Говоря словами епископа Беркли «esse est percipi» или «существовать значит быть воспринятым». Время молотков навсегда останется незаконченным предприятием, если не будет применено к социальному аспекту - огромные куски психики доступны только в этом аспекте.
До сих пор, время молотков рассматривалось большей частью как набор инструментов для отдельного рационалиста в социальном вакууме. Сегодня я хочу поговорить о вопросе других людей и как подходить к дизайну социальных взаимодействий, способствующих практике инструментальной рациональности.
Дополнительное чтение: Разумная социальная сеть
Существует достаточно свидетельств в биологии, что мощь человеческого мозга в значительной степени развивалась для решения всё усложняющихся социальных задач. Большая часть когнитивных систем в голове главным образом предназначена для взаимодействия с обществом и лучше всего реагирует на него. Мозги исключительно хороши в определении социальных угроз и аномалий, в регулировании неявной иерархии, в чтении языка тела и в симуляции чужих мозгов.
Этот пост будет началом в дизайне оптимальных взаимодействий двух людей.
Рационалисты проводят много времени, высказываясь против недостатков каузальной теории принятия решений и продвигая альтернативы, позволяющие их избежать. Неприятная правда, при этом, заключается в том, что вы не заставите людей, пользующихся каузальной теорией принятия решений сотрудничать с вами, швыряя в них философскими книгами, а большинство людей пользуются каузальной теорией принятия решений. Но надежда ещё есть: известны, хоть и непопулярны, решения для провалов координации в рамках каузальной теории принятия решений - повторяющиеся игры.
Повторение самый легкий способ к построению крепкой дружбы - делайте взаимодействие длиннее и регулярнее.
В середине января, я начал связываться с друзьями и назначать регулярные еженедельные чаты. Почти никто не отказался. Некоторое количество затем растворились, но те, что остались, оказались невероятно положительными. Я продолжил набирать обороты в количестве взаимодействий до тех пор, пока не почувствовал утомление. Сегодня эта привычка сама по себе позволяет разговаривать с одним дополнительным человеком в день по полтора часа.
Человеческие существа невероятно отзывчивые создания в стабильных долгосрочных отношениях. Стимулы довольно устойчивы. Джордан Питерсон однажды подчеркнул это содержательной фразой о браке (перефразировано): «Вы не можете выиграть в споре со своей женой, если она при этом проиграет. В конце концов, вам всё ещё надо будет с ней жить.»
Конечно, человеческие существа также довольно глупы и извращены, чтобы игнорировать даже самые сильные стимулы. Сколько миллионов браков на всю жизнь превращались в десятилетия насилия? Держите глаза открытыми.
Вот вам три идеи для полезных разговоров на объектном уровне.
Резиновая уточка
Превращение человека в резиновую уточку, которой вы можете проговаривать свои мысли, чтобы самому лучше их понять.Уточка Сократа
Помощь партнеру в продумывании идеи или решении задачи. Объединяет метод вопросов Сократа и резиновую уточку. Сделайте попытку не предлагать множество решений и мыслей, а вместо этого переключаться между наводящими вопросами и внимательным молчанием. Поощряйте другого человека продумывать сложные цепочки мыслей, а также глубже задумываться о трудностях своих идей и возможных решениях.
Зачастую в разговорах присутствуют ярко выраженные слушатель и говорящий. Будучи слушателям, сосредоточьтесь главным образом на внимательной тишине и направленных, уточняющих вопросах, когда разговор покажется вам угасающим. Основная задача - держать вашего партнера на линии мысли и помогать генерировать идеи.
Один мой друг способствовал гигантскому скачку во время моей сессии факторизации избеганий, молча кивая на протяжении всего разговора и произнося в нужные моменты всего одно слово: «попробуй!». Это позволило мне сосредоточить необходимые мыслительные усилия, чтобы пробиться через барьер и правильно определить свои антипатии по отношению к планированию.
Идеологический тест Тьюринга это концепция, изобретенная американским экономистом Брайаном Капланом для проверки, понимает ли некий политический или идеологический приверженец аргументы его или её интеллектуальных противников: его просят ответить на вопросы или написать эссе с точки зрения его оппонента. Если нейтральный судья не сможет найти разницу между его ответами и действительным приверженцем противоположной стороны, то считается, что он её корректно понимает.
Интеллектуальные (Идеологические?) тесты Тьюринга или ИТТ могут быть довольно трудозатратными. Сокращенная норма для разговора такова: вам не позволено продолжать спор до тех пор, пока вы точно не пересказали точку зрения другого человека так, чтобы он остался доволен.
Обсуждения могут уходить с темы довольно быстро и уже достаточно хорошо установлен факт, что все разговоры после полуночи скатываются в дебаты о сознании.
Что касается онлайн обсуждений, я завел себе привычку собирать все возможные взгляды на лист бумаги, когда они приходят на ум, вместо того, чтобы незамедлительно вбрасывать их в топку, рискуя потерять мысль. Всегда найдётся время позднее для ваших замечательных взглядов.
Поставьте Йода-таймер и отработайте следующий ПТД: когда возникнет побочная тема для обсуждения, вы спросите себя, хотите ли вы спуститься в эту кроличью нору.
Забронируйте 15 или 30 минут на Calendly для разговора со мной на любую тему.
Я взял долгий перерыв от времени молотков, чтобы обратиться к фундаментальному вопросу: действительно ли я сейчас лучше в достижении своих целей?
Ответом является твердое да. Задачи, которые раньше обитали в категории «не в моих силах» растворились облачками зловредного дыма. Написание статей происходит само собой. Полторы тысячи слов сносного художественного текста пишется каждый день. Впервые в моей жизни я живу в разумно декорированной комнате, по которой действительно скучаю, если выезжаю. Я чувствую себя как колдун рациональности:
Появляется высокоуровневый демон избеганий… Ха! С силой ФОКУСИРОВАНИЯ я разгадаю твоё истинное имя, Демон!
«Регуляция Статуса, изыди!»
Этот раздел кажется невозможно написать…
Я знаю! Я сделаю его за ПЯТЬ МИНУТ!
Понятия не имею, в чем моя проблема…
Без паники! Я разнесу её магией ДРУЖБЫ!
Ты застрял в прохождении квеста спасения мира…
Пробовал ли ты УДАЛИТЬ ТРИВИАЛЬНЫЕ НЕУДОБСТВА?
Если вы читаете время молотков просто ради моего ослепительного остроумия, это совершенно нормально! Просто помните, что эти техники могут также помочь вам достичь своих целей, если вы дадите им шанс.
Дважды и трижды повторю, как говорят, хорошо повторять и осмыслять то, что хорошо.
~Платон
В третьем цикле будет десять дней обзоров. Каждый день, мы будем пытаться вычленить объединяющие мета-принципы, стоящие за техниками, доводя их (и все другие) до границ их мощности. Вот ориентировочное расписание:
Сегодня мы вернемся к охоте на баги с тремя дополнительными подсказками для поиска самых больших узких мест в вашей жизни. После чтения каждого подраздела, поставьте Йода-таймер и устройте мозговой штурм поиска багов.
Мир хочет вас поработить. Социальные сети. Капитализм. Ваша работа. Ваша семья. Ваши друзья. Ваши увлечения. Все хотят вашего времени, денег и внимания. Как вы можете избежать постоянного порабощения?
Умеете ли вы говорить нет? Если вы не можете сбежать, вы легкая добыча. Вещи часто хуже, чем кажутся. Вещи ухудшаются с течением времени. Вещи хотят всё большую и большую часть вашей души. Не существует такого понятия, как часок поиграть в Цивку. Сбегайте. Вы не обязаны отдавать всё кому-либо.
Знаете ли вы как расставлять границы? Некоторые дела имеют ценность, только если можно провести черту необходимости. Выделяйте бюджет. Или ставьте таймер. Проводите линии и удерживайте их, как будто ваша жизнь зависит от них.
Дополнительное чтение: Тревожная неуверенность в себе и регуляция статуса
Какие задачи являются важными в вашей сфере деятельности?
Над какими задачами вы работаете?
Если то, что вы делаете, не является важным, и если вы не думаете, что это приведёт к чему-то важному, то почему вы работаете над этим?
~Ричард Хэмминг
Можно использовать постепенный подход: существуют ли слегка более важные задачи, над которыми можно было бы поработать? Почему вы над ними не работаете?
Тревожная неуверенность в себе является артефактом, доставшемся нам от предков, когда каждая неудача оказывалась роковой. Есть ли у вас тревожная неуверенность в себе? Как часто вы проваливали серьёзное предприятие в прошлом году? Не пытайтесь максимизировать процент побед. Максимизируйте общее число побед. Именно оно идёт в зачёт.
Используете ли вы статус как замену компетентности? Верите ли вы, что только люди с должностями, богатством, возрастом или социальным капиталом имеют право работать над важными задачами? Является ли ваша оценка собственных способностей функцией от восприятия вас другими людьми?
Дополнительное чтение: Провал с отказом
Есть такая китайская поговорка 破罐子破摔, что значит: «все равно что ударить разбитый горшок». Провал с отказом это разбить в сердцах горшок с небольшой трещиной. «Да он мне всё равно не нравился!» 1
Применимо к вам?
Провал с отказом игнорирует тот факт, что функции полезности обычно непрерывны. Небольшой провал это нормально. Остановитесь на нём. Кое-что лучше, чем ничего.
Провал с отказом сводит на нет ценный познавательный опыт. Если последняя домашняя работа не смогла добыть вам хорошую оценку, приложите ли вы те же самые усилия в дальнейшем? Если вы отстаете на 20 очков в игре Го, будете ли вы всё равно стараться изо всех сил? Или будете работать спустя рукава? Жизнь это сложная игра с повторением, провалы с отказом лишают вас будущего.
С другой стороны, довольствуетесь ли вы малым? Прикладываете ли вы самый минимум усилий для получения нужного среднего балла? Как только добиваетесь цели, вы тут же бежите праздновать? Если у вас преимущество в 20 очков в игре Го, то вы используете неправильные, но безопасные ходы, чтобы обеспечить сохранность победы? Быть удовлетворенным минимумом значит пропустить возможность для реализации своего потенциала.
Провал с отказом и удовлетворение малым оба сами по себе являются симптомами близорукого гиперболического дисконтирования.
Вместо этого проваливайте дела изящно, а побеждайте дольше.
Стали ли вы лучше в достижении своих целей с первого дня времени молотков? Если да, то что помогло?
В какой-то момент ближе к концу старшей школы быть быстрым становится не престижно. Как это происходит?
Почему мы переводим так много энергии в выполнении более сложных дел, вместо того, чтобы делать простые дела быстрее? Насколько быстрее вы могли бы выполнять свою работу? В два раза быстрее? В пять раз?
Вместо фразы «я хочу быть сильнее» скажите «я хочу быть быстрее».
Если вы уделите внимание скорости, вы можете обнаружить способ выполнить объем работы целой недели за пять минут.
Вот три упражнения для умственной работы в форсированном режиме.
А вот три принципа, которые я извлек из использования Йода-таймеров, делая все дела быстрее.
Когда я начал играть в Клавогонки, начал со скромных 70 слов в минуту и развил скорость до 90, просто стараясь изо всех сил. В какой-то момент я достиг плато, потому что постоянно делал опечатки и приходилось исправляться. Каждая ошибка стоит времени четырех или пяти символов. Клавиша backspace была моей Ахиллесовой пятой.
Поэтому я заставил себя притормозить и сделать всё правильно. Вначале это снизило мою скорость, но, проделав некоторую работу, мои пальцы ощутили себя более проворными и намеренными. Я сократил количество опечаток примерно в 4 раза - оказалось, что у меня есть целые последовательности клавиш, которые я постоянно нажимал в неправильном порядке. Моя скорость печати взлетела до 120 слов в минуту.
В реальной жизни ошибки стоят даже дороже. Заболеть стоит гораздо дороже, чем следить за своей гигиеной. В программировании все знают, что тестирование и отладка занимает по меньшей мере в три раза дольше, чем написание кода само по себе. В математике месяцы написания статей могут уйти в трубу, когда вы наконец обнаруживаете значимый и неисправимый косяк в логике. На Олимпиаде каждая ошибка стоит вам медали.
Если вы хотите быть быстрее, вам необходима нулевая терпимость даже к самым мелким ошибкам, а замедление (вначале) для отработки перфекционизма стоит своих усилий. Сделайте всё правильно вначале.
У каждого есть грубое представление о продолжительности дел. Решение сложной исследовательской задачи всегда занимает по меньшей мере месяц, правильно? Написание статьи должно занимать примерно час, верно?
Когда я впервые начал играть в арифметику для чемпионатов средней школы, мой результат был близок к 20. После нескольких месяцев сосредоточенных тренировок мой рекорд составил 90, выводя меня в список лидеров того времени.
В каждом отдельном задании предполагайте, что вы даже близко не подходите к своему реальному скоростному ограничению. Раньше мне требовалось по меньшей мере четыре часа, чтобы написать пост в блог такой длины. Теперь уходит меньше сорока минут.
В интеллектуальной работе гораздо проще сделать что-либо в два раза быстрее, чем в два раза лучше. Гораздо проще умножать числа в два раза быстрее, чем научиться решать более сложные задачи. Гораздо проще написать в два раза больше контента, чем написать в два раза лучше.
Человеческие существа очень хороши в доведении рутинных задач до максимальной эффективности. Воспользуйтесь этим. Научитесь читать в два раза быстрее, писать в два раза быстрее, говорить в два раза быстрее, ходить в два раза быстрее, смотреть видео в два раза быстрее. Я смотрю видео на двойной скорости сколько себя помню и уже даже не могу вытерпеть обычную скорость. Как только вы привыкнете к быстроте, вы сможете пожать всю ту свободную энергию, которая просто лежала нетронутой, пока вы ждали.
Скорость недооценена. Короткие тренировочные сессии, сосредоточенные на скорости произведут длительные эффекты на вашу продуктивность.
Поделитесь скоростным рекордом, которым вы гордитесь больше всего. Быстрота вновь стала в моде!
В школе мы проводим тысячи часов, изучая кирпичики, из которых создана Вселенная. Мы узнаем, что реальность раскладывается на маленькие кусочки: организмы на клетки, книги на страницы, небоскребы на атомы.
Ваша жизнь находится внутри этой бесконечно делимой реальности. Ваша психика разделяется на сущности, эмоции на квалии, действия на цели и антипатии, привычки на ПТД. Фактически всё, что мы воспринимаем как объекты, оказывается обычно паттернами взаимодействия между множеством крохотных кусочков.
Планы триггеров-действий являются кирпичиками привычек - все привычки могут быть созданы из простых шагов.
Я хочу поделиться моделью, объясняющей, почему так важно разбивать действия на шаги при помощи редукционизма.
Старый парадокс Зенона звучит так:
Чтобы пробежать дистанцию, нужно вначале пробежать первую половину. Но перед тем, как пробежать первую половину, нужно пробежать первую четверть. А перед этим нужно пробежать первую восьмую часть и так далее до бесконечности. Таким образом, разделив пополам первый сегмент, любая дистанция разделяется на бесконечное число частей и для завершения гонки вам нужно предпринять бесконечное число действий.
Чему мы можем научиться из парадокса Зенона?
Из бесконечного количества шагов на пути, первый шаг представляет собой практически все остальные. Отсюда следует, что первый шаг на дистанции бесконечно более сложный, чем любой другой далее.
Из парадокса Зенона можно вывести алгоритм деконструирования задач:
Например, я хочу разобрать действие «написать пост в блог» в восходящем порядке сложности:
Я почти закончил!
Можно подумать, что в прошлом абзаце я скатился в самообман.
Неа.
Я полностью серьёзен.
Пройдитесь по всему процессу написания постов в блог (если это дело для вас не содержит антипатий, выберите любое другое дело, с которым вы прокрастинируете и примените метод истощения к нему) и заметьте, какое ментальное сопротивление вы прикладываете для преодоления каждого шага в том 12-шаговом процессе. Также обратите внимание, насколько вероятно, что вы сдадитесь на каждом шаге.
Обычный метод планирования заключается в разбиении дела на блоки одинакового размера, где под размером понимается «время и усилия в объективной реальности». Обратитесь ко всем планам, которые вы когда-либо делали в своей жизни. Сколько из них провалилось в самом начале? Сколько провалилось ближе к середине? Сколько провалилось ближе к самому концу?
Большая часть планов проваливается ещё до того, как начнут реализовываться. Из тех, что начинают реализовываться, большая часть проваливается на первых же этапах.
Вы живёте не в объективной реальности. Вы живёте в сумасшедшем мире Зенона, где первый шаг бесконечно сложен. Метод истощения создан таким образом, чтобы разобрать задачу на шаги примерно одинаковой психологической сложности и частоте провалов.
Упражнение: Примените метод истощения к следующему большому проекту. На сколько частей вы его разобьёте?
Поделитесь анекдотическими историями или данными, сколько времени требуется [намерениям, проектам, планам, отношениям, карьерам, стартапам], чтобы провалиться. Как выглядят полученные кривые?
Намерения мгновенны, но проблемы вечны
Внимание человека порхает подобно Римскому богу Меркурию, от которого происходит однокоренное английское слово «mercurial» - подлежащий неожиданным и непредсказуемым переменам настроения или сознания. Самые большие задачи в жизни требуют сосредоточенных усилий на протяжении лет или десятилетий, но вы можете напрячь силу воли лишь только, чтобы вознамериться решать проблему в течение минут или часов. Хуже того, вы можете поддерживать лишь одно намерение в единицу времени.
Так как же нам учитывать наши намерения?
Философия Дизайна в следующем: встраивайте ваши намерения в окружающую реальность. Подобно вашим проблемам, реальность тоже вечна.
Вам нужно сбросить оковы любви. Ваш список литературы всё увеличивается. Вам нужно выучить десять разных языков программирования. Нужно ложиться спать на три часа раньше. Нужно поддерживать дружеские связи. Вы пытаетесь жонглировать тремя разными аддикциями, которые последовательно монопольно захватывают вашу жизнь. Нужно представать в виде зрелой личности вашим родителям и коллегам. Детская травма, которую вы подавляете, не оставляет возможности подружиться с доброй половиной человечества.
У вас множество проблем, каждая из которых для разрешения требует направленных усилий и работы мысли. Более того, каждая проблема усложняется по мере того, как вы работаете над другими. Возможно, некоторые зашли уже так далеко, что на них невозможно смотреть и они медленно поглощают остатки вашей жизни, подобно сверхтяжелой черной дыре.
В эту минуту существуют, вероятно, только небольшое количество задач, выглядящих достаточно решаемыми, чтобы вкладывать в них энергию. Из них вы можете работать только над одной за раз. Как вам реализовать максимум своих намерений в этом сумасшедшем бесчестном мире?
Непродуктивный стиль мышления выглядит так:
«Если бы я был по-настоящему рациональным, мне бы не потребовались все эти костыли. Мне не потребовались бы расширения для Chrome, чтобы блокировать Facebook и Twitter, друзья, которые бы хвалили меня за минимальный прогресс и SSRI1, чтобы держать в узде моих внутренних демонов. Я бы всё всегда делал правильно.»
Бросьте это. Возможно, есть какая-то эстетика в усложнении своего положения, но так проблемы не решаются. Жизнь сложна и несправедлива, поэтому вам потребуется вся доступная помощь, если вы хотите получить шанс на успех.
Часть философии Дизайна в позволении себе отдать на аутсорс свою героическую ношу. В одиночку вы этот квест не пройдёте. Сделайте все неодушевленные и одушевленные объекты в своей жизни помощниками в этом квесте, а не препятствиями. Каждый маленький толчок в правильном направлении, который возможно получить извне, позволит вам сохранить одно маленькое усилие, которое нужно было бы создать изнутри.
Мир полон маленьких градиентов стимулов, которые медленно толкают вас в направлении локального оптимума. Поищите и обратите внимание, на эти градиенты, чтобы их можно было обратить в вашу пользу. Мельчайший сдвиг весов в нужном направлении способен работать на вас в долгосрочной перспективе.
На практике сосредоточимся на 4S Дизайна. Мы это уже рассматривали, но будет не лишним освежить в памяти.
Пространство (Space). Как ваше окружение позволяет вам достигать ваших целей? Ваше рабочее место максимально комфортно и хорошо освещено? Предметы, которые необходимы вам для рутинных дел расположены в оптимальных местах? Эстетика пространство адекватно отражает ваши ценности? Способствует ли оно продуктивному социальному взаимодействию?
Расписания (Schedules). Как вы организуете время и энергию на протяжении дней и недель? Вы лучше работаете чередуя разные виды активности или собирая похожие виды в группы? Вы планируете дела так, что вам хочется смотреть в будущее? Вы эффективно используете календари и приложения для удаления умственной нагрузки и удержания дел в памяти? Следуете ли вы своим планам?
Общество (Social Groups). Ваши друзья вознаграждают вас за прогресс? Наказывают ли они вас за неудачи? В любой социальной группе каждый человек неизбежно занимает какую-то нишу: тихоня, альфа, клоун, чирлидер, циник. Какую нишу вы занимаете? Какие силы вас туда толкают? Там ли вы хотите быть?
Экраны (Screens). Учитывая, сколько времени мы проводим за экранами, а также все те Макиавеллианские действия, предпринимаемые всеми и каждым в интернете, дабы поработить нашу душу, обращайте внимание на свои компьютерные привычки. Бегло обрисуйте граф своих перемещений между приложениями и сайтами. Какие причины ведут вас от одного места к другому? В каких местах вы уходите в сторону максимально часто?
Вчера мне было видение о лучшей форме дружбы:
Два маленьких мальчика хотят летать. Каждый ползает по траве в углу игровой площадке, изо всех сил натягивая свои шнурки, пытаясь поднять себя в воздух. Они тянут до вздутия вен на лбах, но маленькие ботиночки продолжают оставаться твёрдо прижатыми к земле.
Один из мальчиков замечает другого и подходит. После момента молчания, каждый бросает свои шнурки, руки переплетаются и они начинают вытягивать за шнурки друг друга. Стараясь изо всех сил, они поднимаются в воздух. Они улетают вверх всё быстрее и быстрее. Пока желтая горка для игр не становится размером с мизинец. Пока красная кирпичная школа не становится размером с муравья. Пока Земля не становится размером с каплю воды.
Научитесь предоставлять хорошие стимулы людям вокруг вас. Если малейший толчок, совершаемый на регулярной основе, может решить ваши проблемы, то похожий толчок может помочь решить проблемы другим. А малейший толчок в неправильном направлении может повредить самые чистые из душ. Внимательно посмотрите на способы, которыми вы взаимодействуете с другими людьми и что они говорят о ваших намерениях по отношению к ним. Существуют ли люди, рядом с которыми вам всегда приходится играть адвоката дьявола? Существуют ли ситуации, где вы намеренно вводите в заблуждение, манипулируете или игнорируете?
Смейтесь хорошим шуткам. Научитесь слушать и уважать чужое пространство. Хвалите и благодарите за конкретные действия. Критикуйте как консеквенциалист.
Похвалите меня за одну вещь, сделанную хорошо во времени молотков и покритикуйте за одну, сделанную плохо.
Мальчик справа везде походил. У мальчика слева есть карта. За кого ты выйдешь замуж?
~За кого
Иногда мне думается, что наибольшая ценность экспериментов РаЗоК заключается не в расширении зоны комфорта, но в исследовательском отношении, передаваемом ими. Хороший картограф должен постоянно сверяться с территорией; хитрость в том, чтобы понять, как.
Зона комфорта есть область в вашем окружении, которую вы понимаете. Она содержит места, которые вы посещаете, навыки, которые вы отработали, людей, которых вы хорошо знаете. Чем дальше вы уходите от своей зоны комфорта, тем к большему количеству неизвестного вы должны подготовиться. Границы зоны комфорта созданы для вашей защиты от этих опасностей: от неизвестного неизвестного.
Границы зон комфорта прочерчиваются очень консервативно. В окружающей среде наших предков ошибки были часто фатальны: неудача на охоте, проигрыш на дуэли. Даже не фатальные ошибки были по сути таковыми: унижение перед всем племенем длилось продолжительное время, а вам некуда было бежать. В этом окружении было разумно прочерчивать линии зоны комфорта консервативно, поскольку неудача стоила слишком дорого, чтобы проверять.
Как выглядит научный прогресс в таком преисполненном опасности мире? Представьте, что каждый раз, когда научный эксперимент проваливается, экспериментатор расплачивается жизнью. Наука развивалась бы гораздо медленнее, если бы вообще развивалась.
Но наш мир больше не такой опасный, как окружение наших предков. Люди живут дольше, они здоровее и гораздо более мобильны в отношении разных сообществ. В то же время стало гораздо больше благоприятных возможностей вне наших зон комфорта и вознаграждения гораздо щедрее. Это как раз благоприятные условия для научного метода и у нас есть причина использовать силу эмпирицизма в форме экспериментов РаЗоК - проверка своих границ.
Важно осознать, что зона комфорта является частью вашей карты. Иными словами, с её помощью делаются проверяемые предсказания о территории. Ваш страх сцены выражает проверяемое предсказание об ужасе переживания публичного выступления и о количестве необратимых повреждений, которое придётся пережить, совершив ошибку. Страх высоты указывает на проверяемое предсказание о вероятности упасть с высокой лестницы без поддержки.
Как только станет понятно, что эмоциональное избегание, формирующее границы вашей зоны комфорта построено на основе убеждений о действительности, следующим логичным шагом будет организация дешёвых, безопасных способов проверить эти убеждения.
Я желаю верить в то, что истинно.
Обычно оказывается, что границы зоны комфорта слишком упрощенные и консервативные, и существуют очевидные способы обойти их без неприятностей.
Одно из главных откровений, полученных мною при чтении «Неадекватного равновесия» (Inadequate Equilibria), это что скромность в форме регулирования статуса и тревожной неуверенности является одной из самых высоких оград вашей зоны комфорта. В том посте Элиезер предлагает следующую рекомендацию, которую нельзя повторить слишком много раз:
Не делайте предположений о невозможности сделать что-либо, когда существует дешёвый способ проверить свою возможность это сделать.
Не делайте предположений, что люди будут думать о вас плохо, когда есть дешёвый способ проверить это убеждение.
Зона комфорта это набор убеждений о реальности. Проверяйте эти убеждения.
По крайней мере выделите пять минут и попытайтесь придумать дешёвый эксперимент, тестирующий эти ваши убеждения. Например, моя повесть «Квест Мёрфи» стала дешёвым способом проверки предсказанного системой 1 утверждения, что я плох в создании художественных текстов.
Создавайте дешёвые эксперименты, тестирующие ваши страхи.
Вы боитесь, что ваши идеи будут плохо восприняты? Создайте анонимный аккаунт и выложите самые мягкие их формы.
Давайте я ещё раз повторю совет Элиезера:
Не делайте предположений о невозможности сделать что-либо, когда существует дешёвый способ проверить свою возможность это сделать.
Не делайте предположений, что люди будут думать о вас плохо, когда есть дешёвый способ проверить это убеждение.
И ещё раз.
Не делайте предположений о невозможности сделать что-либо, когда существует дешёвый способ проверить свою возможность это сделать.
Не делайте предположений, что люди будут думать о вас плохо, когда есть дешёвый способ проверить это убеждение.
Выберите что-либо, что, как вам кажется, вы не способны делать, но не проверяли. Поставьте Йода-таймер и придумайте простой эксперимент для проверки этого убеждения.
Выберите человека, о котором вы думаете, что он низко вас оценивает. Проверьте это своё убеждение.
Поделитесь опытом радикальной недооценки или переоценки своих способностей.
满罐子水不响,半罐子水响叮当
Полная банка тиха, но неполная банка производит громкий звук
~Китайская поговорка
Возьмите банку газировки, наполните её наполовину водой. Встряхните банку - вода будет громко плескаться внутри.
Теперь, заполните банку до краев и вновь встряхните. Она будет почти абсолютно тихой.
Существует эссе о внутренней тишине - успокоение самых громких внутренних голосов, чтобы позволить прозвучать более тихим голосам. Обычно у тихих голосов есть срочные сообщение, особенно учитывая, как долго ими пренебрегали.
Этот пост в некотором смысле является продолжением лепета.
Хорошо известно, что громкий политик редко бывает наиболее мудрым. Ребёнок, который громче всех кричит редко страдает больше остальных. Друг, который суровее остальных критикует редко даёт наилучшие советы. Да и вообще, громкость голоса скорее отрицательно коррелирует с ценностью.
Принцип солитера утверждает, что любой режим отказа групп людей можно перенести на каждого отдельного человека. Дюжина субличностей дерутся за контроль над вашим разумом, каждый пытается в своём крике потопить остальных. Возможно, что только одному или двум из них осознанно дозволено говорить.
Ситуация усложняется ещё двумя особенностями. Во-первых, голоса молчат не просто так. Мозг делает множество вещей, о которых он не хочет, чтобы вы знали (см. Elephant in the Brain). Эти «мета-когнитивные слепые зоны» могут быть огромными проблемами вашей жизни, о которых вы почему-то никогда не задумывались. Каждый раз, когда вы начинаете задумываться, вы неожиданно чувствуете сонливость, либо возникают срочные дела. Ваш мозг посылает армию громких голосов, чтобы захлопать тихий элемент замешательства, шепчущий: «Посмотри на слона! Признай этого слона!»
Во-вторых, внешние голоса также соревнуются за эфирное время в вашей голове и могут легко потопить даже самые сильные внутренние голоса, существует, например, феномен «музыка настолько громкая, что я не слышу своих мыслей». Любые виды чтения, слушания и просмотра это процессы, которыми мы подменяем внутренние голоса внешними.
Этот пост о том, как соблазнительно, но опасно позволять внешним голосам заглушить внутренние раз и навсегда.
Есть несколько занятий, которые раз за разом поглощают моё время подобно бездонным ямам. Видеоигры. Просмотр аниме. Чтение художественной литературы. Серф по Reddit. Я ощущаю необходимость время от времени бросаться в эти пучины.
Долгое время я считал, что эти действия являлись извращениями вкуса: мой мозг пытался удовлетворить какие-то потребности к прогрессу, саморазвитию, драме или энергии. Но затем я попробовал вздремнуть вместо просмотра аниме и удовлетворил ту же самую потребность. Оказалось, что в первую очередь я искал кнопку перемотки вперед.
Жить осознанно и намеренно оказалось настолько трудозатратно, встретить свои проблемы лицом к лицу оказалось настолько болезненно, что больше всего мне хотелось выключить свои собственные мысли и прокрутить жизнь вперед. Прочитать роман на тысячу страниц, просмотреть сериал на шесть сезонов, полистать сотню историй из жизни с AskReddit. Всегда был способ отложить свою агентность и стать средой для чьих-то чужих сил.
В итоге, ответственная извилина в моей голове сделала всё возможное, чтобы отключить саму себя.
Книга Мэрилинн Робинсон «Уборка» (Housekeeping by Marilynne Robinson) по-моему наиболее трогательно описывает тяжкую ношу осознанности (я её почти не рекомендую). Это угнетающая история, в которой каждый персонаж находится на грани суицида, в философском и буквальном смыслах.
Вот момент, в котором сестра главного героя Люсиль обвиняется в списывании (выделено мною):
Люсиль было слишком наплевать на школу, чтобы списывать и только злая судьба подтолкнула её написать Симон Боливар также, как и девочку впереди неё написать Симон Боливар, когда ответом, очевидно был генерал Санта Анна. Это была единственная ошибка, которую сделала каждая из них, поэтому работы оказались одинаковыми. Люсиль была изумлена, что учитель так легко поверил в её вину, настолько глубоко убедился в ней, выставляя её перед всем классом и заставляя взять на себя ответственность за одинаковые работы. Люсиль страдала от такого нарушения своей анонимности. От самой мысли о школе уши начинали гореть.
Этот эпизод прояснил для меня конкретный вид ничего, к которому стремились герои Housekeeping. Апатия, конформность и анонимность были центральными в этом виде ничего, а суицид был вытекающей следом мыслью.
Продолжая за Ницше (которого я наверное никогда не пойму) назовём это стремление волей к ничему. Звучит это так:
Позвольте мне не быть услышанным.
Позвольте мне не быть увиденным.
Заберите мою агентность.
Заглушите мой голос.
Перемотайте вперед мою жизнь.
Позвольте мне быть неразличимым лицом в толпе.
Не позволяйте рассвету принести мне счастье.
И закату - печаль.
Откуда берётся стремление к несуществованию? Частично из тревожности, что вам нечего сказать, что вы слишком сломаны, чтобы сделать свой вклад. Частично из горечи, что мир недостоин услышать ваш голос и увидеть ваше лицо. Сам факт, что эти две противоречащие друг другу идеи сосуществуют в одной душе мог бы удивить, если бы вы никогда не встречали людей.
Не буду притворяться, что знаю, как решить эту задачу в общем случае, но вот, что сработало для меня. Один мой прозорливый друг задал мне вопрос, который отряхнул меня от стремления к ничему:
«Что если каждый раз, когда тебе хотелось бы поиграть в видеоигры, ты обращался бы к интроспекции?»
Мне никогда не приходило в голову что я могу выделить время для своих внутренних голосов, заставляя мир замолчать полностью, даже несмотря на любовь к писательству, на часы, проведённые в грёзах и бессмысленных действиях при любой возможности.
Неделями после того дня я совершал длительные прогулки, бурча себе под нос всякую бессмыслицу. Я лежал в кровати и мечтал. Я часами писал без остановки. За это время я осознал, что моё стремление к ничему было неоправданным. Я осознал, что у моих внутренних голосов никогда не иссякнут темы для разговора. Позже, я также осознал, что мир достоин всего, что я могу ему дать, и даже больше.
Всмотритесь в свою жизнь. Чем вы занимаетесь, чтобы сбросить тяжкую ношу осознанности? Вы тянетесь за телефоном во время скучных общественных мероприятий? Курите или пьёте? Бросаетесь в истории, имеющие небольшую художественную ценность лишь бы убить время?
Что произошло бы, если каждый раз вместо этого, вы бы занимались интроспекцией?
Фокусирование это инструмент для обработки сообщений, которые субличности в вашем подсознании пытаются до вас донести. Но что произойдёт, если два или более таких сообщений будут конфликтовать друг с другом?
Внутренний корень разногласия (ВКР) от CFAR решает эту задачу. Грубо говоря, это сценарий для поочередных операций фокусирования двух конфликтующих внутренних голосов с целью предоставления им пространства для дебатов и компромисса. Что-то вроде парной психотерапии для внутренних голосов.
Мне было особенно трудно писать этот пост, поэтому я просто обращусь к сценарию CFAR. Затем перечислю список моментов, которые я хотел бы особо отметить как часто пропускаемые.
Также возможно, что моя версия это вовсе не тот ВКР, который имели в виду в CFAR - в таком случае я заявляю, что мой метод также полезен.
Вот полный сценарий для ВКР. Лучше всего взять ручку и бумагу и прописывать каждый шаг, как будто бы вы независимый наблюдатель, записывающий разговор.
Когда в сценарии указано «сфокусируйтесь на том, что кажется важным» имеется в виду то самое фокусирование. Наиболее важным шагом в ВКР является нахождение чувственных ощущений для каждой стороны спора и выражение Истинных Имен для них через использование фокусирования.
ВКР это отдельный вид фокусирования, основанный на переключении между двумя чувственными ощущениями в попытке выразить словами их взаимоотношения друг с другом. Пытайтесь действовать как нейтральный модератор этих двух ощущений и давайте каждому время высказаться. Во время шага резонанса, весьма вероятно, что вы почувствуете некий «чувственный сдвиг» или локус спора сместится неким иным способом. Таким образом, через ВКР вы обнаружите более глубокий конфликт между двумя голосами. В этот момент следует выбрать время для повторного фокусирования на каждой стороне и выбрать новые имена.
Первый ВКР, который я провел, начинался с двух просто названных сторон «нужно пользоваться зубной нитью» и «пользование зубной нитью это пустая трата времени». После дальнейшего фокусирования и чувственных сдвигов, стороны стали звучать так: «чистка зубов нитью это ритуал заботы о себе, показывающий, что я достоин любви» и «чистка зубов нитью это одно из бесчисленного множества навязанных моими родителями действий для ограничения моей свободы». Подлежащий конфликт наконец-то всплыл на поверхность!
Для меня сутью ВКР стало создание полезного набора подсказок фокусирования. Внутренний конфликт создает чувственные ощущения как ничто иное!
По мере того, как вы будете переключаться между двумя внутренними голосами, озвучивайте благие намерения по отношению к другой стороне. Это не означает, что нужно идти на наивный компромисс. В целом, следует ожидать, что у обеих сторон есть важные данные, а одной из главных задач является изучение общего правила, для которого позиция каждой стороны является особым случаем.
Каким бы эмоциональным не ощущался конфликт, следуйте принципу: конфликтующие ценности обычно основаны на конфликтующих убеждениях о реальности. Каждая сторона внутреннего столкновения имеет разный набор убеждений о реальности, который влияет на предпочитаемый ею способ действий.
Например, если бы я пытался начать ВКР между двумя сторонами меня, говорящими, соответственно, «я хочу быть более экстравертным» и «люди опасны и ужасны», то прогресса можно было бы достичь, позволив каждой стороне составить списки ситуаций, когда люди были добры и злы ко мне. Слияние мнений могло бы выглядеть так: «правильно избегать таких-то и таких-то ситуаций и типов людей, настроенных откровенно враждебно, но в то же время существует несколько конкретных людей, с которыми я не взаимодействую, а совершенно точно хотел бы»
Поставьте Йода-таймер на 15 минут. Выберите минимальный внутренний конфликт, который сможете придумать и попробуйте ВКР на нём.
При выполнении ВКР, как и в жизни, аргументы редко соответствуют тому, что кажется. Мытьё посуды это не про мытьё посуды. Чистка зубов нитью это не про заботу о полости рта.
Большая часть мелких конфликтов это сражения в яростных войнах двух гигантских слонов в голове. Поделитесь примерами этого феномена, которые вы обнаружили через ВКР или другие методы.
В последние три дня времени молотков я соберу некоторые разбросанные мысли для закрепления важных принципов.
Сегодня я вернусь к применению редукционизма в инструментальной рациональности.
У меня был разговор с другом, в котором кратко поднялась тема комедии. Я немного перевру его аргумент, чтобы было понятнее:
Друг: Ну, не существует пошаговой тренировочной процедуры, делающей кого-либо смешным. Когда я представляю тренера по юмору, он просит тебя говорить шутки и оценивает, насколько они смешны.
Я: Если бы ты не знал математику, сказал бы ты то же самое об изучении математики? Что не существует пошагового способа обучить выводу теорем? Вместо этого учитель математики просит учащегося доказывать разное, а потом оценивает, насколько строгим было каждое доказательство?
Друг: Понял тебя.
Таинственная сложность, не раскладываемая на составные части, как мы знаем, является частью карты, а не территории. Легко совершить когнитивную ошибку и заставить верить, что множество навыков, особенно тех, относительно которых ты несведущ, не могут быть разложены при помощи редукционизма и должны изучаться естественным или интуитивным путём.
Я считаю, что это симптом общей когнитивной ошибки, которая может быть исцелена только через чтение загадочных ответов полдюжины раз. Это слишком важно, поэтому ещё раз подчеркну, главная ошибка такова:
Мой личный опыт говорит, что моя отрасль знаний состоит из конкретных, похожих на шестерни частей, доступных к редукционизму. У меня есть детальная ментальная модель о том, как решить математическую задачу или написать пост в блог, шаг за шагом. Из моего личного опыта также видно, что навыки, которыми я не обладаю - нечеткие, загадочные и магические. Их выработка требует интуиции, творчества и спонтанности. Из этих дефектов в карте я затем некорректно вывожу, что загадочность это свойство территории, выходящей за рамки моих компетенций, т.е. за пределами моей зоны комфорта.
А загадочность она в голове. Воспользуйтесь установкой Зенона, что вся территория раскладывается на бесконечно малые кусочки, каждый из которых можно раскусить.
Одним из наиболее важных моментов на ранних стадиях получения нового навыка является достижение правильной формы. Как только форма выстроена, приложение усилий приносит результат, но если формы нет, то приложение усилий ведёт лишь к фрустрации и разочарованию. Разумеется, если у вас сформированы плохие привычки с самого начала, то будет лишь сложнее и сложнее выправить их, поскольку они уже внедрены в практику.
~Руководство CFAR
Один из элементов редукционистского подхода к инструментальной рациональности звучит так: разбивайте сложные задачи на маленькие кусочки. Маленькие кусочки это простые задачи. Следовательно, вы можете стать лучше в решении сложных задач, натренировав свои когнитивные стратегии на гораздо более простых задачах.
Истинное мастерство начинается с доведения когнитивных привычек до совершенства на исключительно простых делах.
Несмотря на то, что этот принцип кажется противоречащим интуиции, мы уже знаем, что он верен. Мы знаем, что учащиеся не могут перейти к алгебре до того, как они запомнят таблицу умножения. Мы знаем, что прежде практики писательства необходимо научиться писать ручкой или печатать на машинке. В фэнтези эта идея повсеместна: новичок должен провести годы, левитируя песчинку или зажигая пламя с идеальным контролем до того, как он перейдёт к более продвинутым техникам.
CFAR называет этот принцип выстраиванием формы, как в физическом упражнении. (мне говорили) В тренажерном зале правильное выполнение упражнений с весами ведёт к более высокому уровню безопасности и темпу роста мышц. Изучение правильного положения стоп, напряжения ягодиц и прогиба спины является важным этапом ещё перед навешиванием блинов. Все эти базовые вещи гораздо лучше отрабатывать на меньших весах, чем ваш текущий максимум.
Джордан Петерсон называет этот принцип уборкой в комнате. Начните с решения задач в непосредственной зоне ответственности и компетенции, вроде уборки пыли и стирки одежды (это напомнило мне… сейчас вернусь). Если вы не можете справиться с задачей организации своего времени сна, то вы можете ожидать травмы при попытке спасти мир.
В то же время, подобно упражнению для начинающих по левитированию песчинки, выстраивание формы не так просто, как кажется. У моего друга были планы бросить учёбу и устроиться на работу над ИИ в DeepMind. Я посоветовал ему вначале поработать над режимом сна. Двумя месяцами позднее после бесчисленных стратегических встреч, он всё ещё работает над этой задачей. По крайней мере он наконец-то осознал её сложность.
Если у вас есть проблема прокрастинации, вот простой способ сдвинуть перспективу, основанный на редукционизме и он работает. Это вариация единственного совета из «самопомощи», сработавшего для меня. Каждый раз, когда вы ловите себя на откладывание дел на будущее, задайте себе вопрос:
«Какую часть этого задания я готов сделать прямо сейчас?»
Ответьте честно. Затем, сделайте ровно столько.
Может быть вместо выполнения упражнений вы всего лишь хотите выйти на улицу на минутку. Может быть вместо заполнения налоговой декларации вы хотите только организовать нужные бланки в папочке. Может быть вместо написания той статьи вы хотите лишь вписать название и заголовки разделов.
Внимательный читатель заметит, что этот сценарий по сути представляет собой ПТД по внедрению микроскопического эксперимента РаЗоК к любому уклонению от задачи. И это абсолютно верно.
Несмотря на разочарование в проекте, мне очень понравилась Армия Драконов в ретроспективе Дункана. Одной из основных причин для этого было его использование оценок вместо более грубой системы прошёл/провалился. Оценки подразумевают гладкую, непрерывную функцию успеха, которую гораздо легче оптимизировать.
Человек не приспособлен к превращению провалов в проходы. Человек приспособлен к увеличению метрик [требуется источник].
Оценивайте себя по непрерывной шкале и вам будет легче измерять последовательный прогресс с течением времени и мысленно награждать себя за него. Оценивайте себя не по факту сделанной или не сделанной работы, но по количеству и качеству сделанного.
Только что я описал микроскопическую версию РаЗоК для применения на уровне пяти секунд. Сколько других техник времени молотков вы можете превратить в минимальные ПТД?
Я заметил, что я еле волочу ноги к концу десятидневного цикла Времени молотка. Исходя из этого и других соображений, я полагаю, что мой объём писательского внимания равен неделе, а черновики и планы, которым больше недели, слишком «зачерствели», чтобы я мог их закончить. Если бы я знал это заранее, я бы, наверное, организовал время молотков как шесть 5-дневных циклов.
Вы играете в Го против сэнсэя. На двадцать четвёртом ходу он вторгается в ваше сангэн бираки (позиция в го, в которой между камнями три пустых места, иначе «расширение через три пункта») с разрушительной точностью, разделяя группу, которая казалась вам защищённой, на двух рассеянных драконов. Левый дракон пытается бежать, но сэнсэй отрезает ему путь к отступлению с помощью тонкой атаки на ваше угловое заграждение. Он в отчаянии погибает.
Правый дракон, теперь столкнувшийся с массивной стеной, которую сэнсэй построил для атаки на левую группу, отчаянно пытается проявлять какую-то жизнь на месте. Его второй глаз был бесцеремонно «выколот» хорошо поставленным тесудзи. Благодаря вашей борьбе, у сэнсэя есть пятьдесят очков территории и хорошее окружение по всей доске. Вы терпите поражение.
Что, как предполагается, новичок должен выучить в ходе такой игры? Если учитель разрешит пересмотреть партию самостоятельно, вы можете с лёгкостью сделать одно из следующих заключений, если не все сразу:
Допустим, вы усвоили урок 1, не делать расширение через три пункта. На следующей неделе в партии с учителем вы покорно делаете шаги через два пункта. Камни сэнсэя сбалансированы и эффективны, в то время как ваши неинтересно скучены. Вы с лёгкостью проигрываете по очкам.
Что произойдёт дальше? Вы вернётесь к шагам через три пункта, так как вам не понравились шаги через два?
Стратегический уровень в ускоренной CFAR-программе - это учиться стратегически: обновлять знания тем способом, который предотвратит подобные провалы в будущем. Тот тип обучения, который был продемонстрирован выше, определённо, не стратегический.
Как я думаю, есть два распространённых и частично пересекающихся вида провала при обучении, при которых выученные уроки оказываются хуже, чем ничего.
Первый - избыточная коррекция:
После спора: «Я должен быть более понимающим.»
После панической атаки: «Я должен меньше беспокоиться обо всём.»
Побывав Белым Рыцарем в Армии Дракона: «Я больше не буду верить человеческим существам.»
Проиграв игру в Го: «Я должен перестать делать прыжки длиной три пункта.»
Подобные избыточно обобщаемые уроки могут быть лекарством, которое хуже, чем болезнь. По мере того ваши простые стратегии постоянно терпят неудачу, вы должны пробовать всё более и более сложные стратегии. Вы не должны болтаться между двумя крайностями, отказываясь взглянуть в лицо сложной реальности.
Второй тип ошибок тоже непродуктивный:
Я должен был разобрать ту задачу мастерского уровня на жизнь и смерть камней [в Го].
Я должен был прочитать главу 3 вместо главы 2!
Я должен был использовать метод полиномов при решении данной задачи!
Я называю такие мысли «стоп-сигналы обучения». Распространённый тип стоп-сигналов обучения это «нужно было сделать то и это», где то и это - какой-то произвольный, блестящий, но необоснованный выбор, который вы бы никогда не сделали заранее. Также, как семантические стоп-сигналы выглядят как ответы, стоп-сигналы обучения выглядят как уроки, которые вы изучили, но которые не дадут вам в будущем никакой пользы.
Стоп-сигналы обучения просто говорят: повернись назад, тут нечего делать, тут только болезненные мысли. Обычно это сопровождается небрежным пожиманием плеч.
Что значит «обучаться стратегически»?
Если вы терпите провал, попробуйте ответить на вопрос: «Каким способом я должен был бы думать, чтобы заранее избавиться от встретившейся мне проблемы?». Каждый урок, выученный вами, это шанс откалибровать вашу мыслительную стратегию для того, чтобы в будущем предотвращать подобные проблемы.
Наконец, научитесь распознавать непродуктивные «избыточные коррекции» и объезжать «стоп-сигналы обучения». Когда вы совершаете ошибку и делаете скороспелое суждение на тему «что пошло не так», спросите себя: стало ли менее вероятным, что я потерплю подобную неудачу снова?
Упражнение: установите Таймер Йоды и обдумайте ваши последние ошибки.
Расскажите историю про то, как лекарство оказалось хуже болезни.
Одной из общих тем в CFAR, связанных со стратегическим уровнем является изучение не конкретной техники или набора техник, а когнитивной стратегии, которая производит все эти техники. Отсюда следует, что если я усваиваю правильные уроки из CFAR, то я смогу создавать качественно схожие - даже если и не настолько проверенные опытом - принципы и подходы к инструментальной рациональности.
После CFAR я захотел разработать для себя тест, чтобы узнать, хорошо ли я освоил материал. Время молотка для меня - что-то вроде такого теста. Теперь предлагаю схожий тест для вас.
Я дам вам три темы для эссе и три уровня сложности задания. Оригинальные идеи приветствуются, но посмотреть в новом свете на старые молотки тоже здорово!
Уровень бронзовой палицы. Напишите эссе на одну из указанных выше тем
Уровень стальной дубины Льва. Напишите два или три.
Уровень Вострой Драконьей Кувалды Кита. Напишите все три. Для каждого эссе дайте себе пять минут на мозговой штурм и пять минут на написание.
Вот мои ответы.
Есть старая история об известном художнике школы реализма, который потратил целый год на рисование натюрмортов с яйцами. Каждый день, он рисовал одно и то же яйцо снова и снова. Наверное, он нарисовал тысячи набросков и изображений яиц. Его учитель хорошо знал, насколько важны основы.
Схожий мотив кроется в историях по всему свету:
Вернись к основам. Упражняйся в основах.
Повторяющаяся дилемма заключённого - один из базовых уроков рациональности. Мир похож на множество таких дилемм больше, чем вы думаете. А люди - на игроков, играющих по стратегии «око за око». Отсюда следует:
Сперва сотрудничай!
Первый ход, который стоит сделать при знакомстве с новым человеком - это сотрудничество, даже если вы ожидаете, что вас предадут. Возможно даже, если вы уже наблюдали предательство.
Вот урок, который я усвоил после размышления о максиме «Сначала сотрудничай»:
«Сотрудничай первым» изнутри ощущается как принятие нечестности игры. В вашей жизни будет много ситуаций, когда обстоятельства в небольшой, но заметной степени складываются изначально против вас. Всегда ошибайтесь в сторону принятия таких игр.
Одна из моих основных претензий к рационалистам (включая себя) - это наша привычка слишком часто подниматься на мета-уровень. К примеру, в каждом обсуждении споры о нормах общего обсуждения более горячие и жаркие, чем обсуждение самого объекта. Мы должны больше времени проводить на уровне объекта, вступая в контакт с реальностью, проводя эксперименты, проверяя наши гипотезы.
Приём, который я использую, чтобы бороться с тенденцией ухода на мета-уровень, я называю смотреть ниже уровня объекта.
Смотреть ниже уровня объекта - это то, что сделал Гарри Поттер из ГПиМРМ чтобы достигнуть частичной трансфигурации: непрерывно повышать увеличение вашего ментального микроскопа, чтобы по-настоящему рассмотреть реальность в подробностях. Реальность настолько детализирована, что этот процесс ошеломляет. Пробуйте.
Посмотрите на складки одежды, на игру света и тени на них. На то, как переплетаются нити. Сожмите ткань и наблюдайте, как морщины реорганизуются.
Теперь задумайтесь над следующим фактом: падающую воду притягивают как положительные, так и отрицательные заряды.
Что?
Под тем, что мы называем «уровнем объекта», происходит столько всего.
Предварительное знание задним числом - это версия Мёрфиджитсу, в которой вы спрашиваете себя, что вы узнаете задним числом, выполнив какое-то действие. Предварительные извинения - непродуктивный кузен, который часто срывает мои планы.
Будучи серийным прокрастинатором, я замечаю довольно регулярные паттерны мышления, которые появляются за пару дней перед встречей с профессором, а особенно - перед встречей с научным руководителем. Мой разум уже прокручивает оправдания. Вот что крутится у меня в голове целый день, когда я думаю о предстоящей встрече:
Извините, чтение этой статьи заняло больше, чем я думал.
Извините, я был слишком занят другими предметами, и поэтому не занимался статьёй столько, сколько собирался.
Извините, я отвлёкся на эту исследовательскую задачу, и поэтому не сделал домашнюю работу.
Увы, у меня есть эти мысли о том, как извиняться за несделанную работу даже несмотря на то, что времени ещё много и я могу всё успеть. Более того, у меня крутятся в голове эти «предварительные извинения» даже тогда, когда я сделал ожидаемую от меня работу - я будто бы подстилаю себе соломку на случай, если я сделал работу плохо.
И обычно это даже не хорошие оправдания.
Чуть менее двух месяцев назад я решил писать об инструментальной рациональности каждый день на протяжении 30 дней. В этом посте я сделаю оценку своих успехов по каждой из четырех обозначенных целей. Одновременно я буду оценивать все техники и идеи времени молотков по их эффективности применительно к моей жизни.
Этот период времени был моим дедлайном по инструментальной рациональности. Больше я не планирую писать о ней какое-то время. Однако, хочу озвучить сильное намерение написать четвертый цикл времени молотков в начале 2019-го года, хотя бы для оценки моего долгосрочного прогресса1.
Оцениваю себя по четырем параметрам, указанным в первом промежуточном посте2:
Вот мои причины написания этой цепочки в порядке важности: а) практика писательства, б) обзор техник CFAR ради собственной пользы, в) развлечение, г) обучение инструментальной рациональности.
Как я думаю, эти цели были одинаково важны и я перечислил их в указанном порядке только потому, что считал две последние сложными в достижении. Буду оценивать все по стобалльной шкале, считая от нуля. Значение имеют только относительные величины.
Для меня сработало хорошо. Я произвожу контент примерно в три раза быстрее, чем когда я начинал время молотков, возможно лишь с небольшим ухудшением качества. Я ценю скорость столь же высоко, как и силу, так что это удивительное достижение. Есть моменты вроде общей организации текста и стиля, с которыми стоило поработать больше, а также Йода-таймеры на редактирование после каждого поста принесли бы значительную пользу в плане качества текста.
При помощи этого процесса я был вынужден оценивать, опробовать и подойти к своим границам практически каждой техники в методичке. Не считая небольшого количества техник, которые не зацепились у меня, этот двухмесячный период оказался идеальным сроком для намеренной тренировки инструментальной рациональности. Долгосрочная ценность моего обучения в CFAR по меньшей мере утроилась из-за этого проекта.
Непонятно. Несколько постов были очень интересно писать и до сих пор интересно перечитывать. Обнаружил некоторое количество ограничений в моём писательском репертуаре, которые, похоже, невозможно исправить за день или два (впрочем, стоит попытаться). Несмотря на мои усилия, я всё ещё не Элиезер или Скотт.
Что я упускаю? Планирую экспериментировать с диалогами, в написании которых я ужасен, но которые похоже входят в состав самых занимательных творений Элиезера и Скотта. Также, в моем тексте напрочь отсутствует детальное увлекательное описание науки, а это также кладезь.
Не уверен, что эта цепочка в каком-то отношении лучший педагогический материал, чем книга CFAR, которая по сути является сухой методичкой. Возможно, этого достаточно. Несколько человек, похоже, получили огромную пользу, но мне кажется, что даже среди людей, прочитавших каждый пост, только небольшое количество выполнили какие-либо упражнения или сколько-нибудь продвинулись вперед за пределы знания названий техник. В конце концов я всегда принимаю решения в пользу «написать что-либо интересное для меня» вместо «написать что-либо, наиболее полезное, на мой взгляд, читателю».
Возможно, заинтересованный читатель захочет потратить несколько часов и собрать наиболее полезные части времени молотков в более ясную цепочку. Как источник руководств к инструментальной рациональности как максимум половина постов времени молотков представляет большую ценность.
Очень удивлен самим собой, что сумел закончить этот проект с минимальными задержками. Всё прошло примерно так, как ожидал бы сторонний наблюдатель.
Главное, что я извлек из проекта, это желание продолжать реализовывать среднесрочные проекты без чрезмерного обдумывания, доверяя своим инстинктам. Не очевидно, что большее количество планирования или организации помогли бы делу, наоборот, могли потопить весь проект времени молотков и не дать мне его завершить.
Пройду по всем основным техникам, описанным по времени молотков и оценю каждую по степени эффективности применительно к моей жизни.
Я разделю их на три группы крутости. Обратите внимание, что техники времени молотков были уже заранее отобраны из большего набора техник в соответствии с их привлекательностью непосредственно после курса CFAR.
Не всегда срабатывает, но когда срабатывает… получаются откровения, меняющие жизнь. У меня таких было, кажется, три или четыре. Рекомендую.
Таймеры и дедлайнды действительно подняли мою деятельность на новый уровень. Думаю, что всегда избегал их раньше, потому что «соревновательность» и «скорость» стали для меня показателями низкого статуса после старшей школы, но я просто создан для этого. Иногда мне кажется, что если бы средняя школа была организована как набор олимпиад из открытых задач, я бы сделал намного больше.
Невероятно недооцененная техника. Сделать всё удобным, позволить себе удалить тривиальные неудобства, потратить время на создание лучшего физического пространства. Значительно улучшил нижнюю границу качества жизни: качество сна, общий комфорт, эстетика. Даже если бы я прекратил активное использование инструментальной рациональности прямо сейчас, эффекты от решений дизайна за последние два месяца продержатся ещё годы.
Очень полезная практика и довольно часто применяемая. Улучшает внимание к багам на длительное время.
Ещё одна добротная техника. Даёт возможность пробираться через множество нежелательных избеганий и инстинктивно пробовать новое. Сама по себе плохо работает на больших избеганиях - по моему опыту, такие задачи требуют помощи фокусирования и именно фокусирование делает всю работу.
Я чувствую, что сражение с ложноножками нигилизма в повседневной жизни это одна из моих самых главных задач. Тишина это первая попытка описать задачу и предложить частное решение. И как обычно, людям необходимо дать возможность больше лепетать.
Важный принцип, который наконец-то позволил мне понять привлекательность и пользу этики добродетели и деонтологии. Требует большего количества итераций и работы, чтобы стал удобным.
Осознание ценности и организация долгоиграющих повторяющихся обсуждений с друзьями оказались исключительно полезными. Во время экспериментов столкнулся с несколькими неприятными социальными ситуациями и непродуктивными встречами. Обновил свои убеждения, осознав, что существует даже меньше людей, чем я думал, с которыми я мог бы вести интересные разговоры на регулярной основе.
Ощущается также болезненно и сложно к применению, как и навык чтения в Го - жизнь слишком хаотична. Пока что я использую этот приём в качестве быстрого обзора, что может пойти не так. Возможно после сбора большего количества данных о режимах отказа разных дел мёрфиджитсу станет более полезным. А пока я ощущаю себя чудовищно недокалиброванным.
С положительной стороны, эта техника вдохновила мою самую длинную художественную работу на данный момент.
Странная и неестественная штука для тренировки. Несколько полезных начинаний, которые я внедрил, быстро стерлись. Кажется, что ПТД удерживается около недели без какого-то дополнительного механизма подкрепления.
Слишком много шагов. Единственным ценным эффектом кажется использование этого приема как способа создания целей для фокусирования. Это уже довольно важно, но всё-таки.
Попробовал несколько раз, не зашло. Гораздо слабее, чем фокусирование. Обычно, мне нужно «понять свой основной мотив и главное избегание», а как только это ясно, дальнейший пусть становится очевидным.
Самый полезный навык из области мышления, которому я научилась и который, по моему мнению, стоит широко распространять, — это написание «записей о фактах». Вы можете найти множество таких записей в моём блоге. (А ещё у меня есть блог с записями о фактах про беременность и деторождение.)
Чтобы создать запись о фактах, вы начинаете с эмпирического вопроса или общей темы. Чего-то вроде «Как часто происходят преступления на почве ненависти?» или «Эпидуральная анестезия действительно опасна?» или «Почему увольняют рабочих на фабриках?»
Совершенно нормально, если вы мало что знаете о выбранной теме. Это упражнение предназначено, чтобы разбираться в сути и показывать ход ваших мыслей, а не для того, чтобы найти официальное последнее слово по данной теме и сделать лучший анализ в мире.
Затем вы открываете Гугл-документ и начинаете делать заметки.
Вы ищете количественные данные из источников, признанных достоверными: данные CDC [Центры по контролю и профилактике заболеваний США — Прим.перев.] для информации о распространении болезней и прочих рисков для здоровья в США, данные ВОЗ для информации, связанной с вопросами здоровья в мире, данные Бюро трудовой статистики для вопросов трудовой занятости в США, и так далее. Опубликованные в научных журналах статьи, особенно из признанных журналов и из больших рандомизированных исследований.
Вы определённо не ищете мнения, даже мнения экспертов. Вы избегаете новостей и очень осторожно подходите к отчётам разнообразных комиссий. Вы ищете сырые данные. Вы принимаете подход «только Писание» со всеми его достоинствами и недостатками.
А затем позволяете данным показать вам что-нибудь.
Вы обращаете внимание на то, что вас удивляет или кажется странным, и отмечаете это.
Вы обращаете внимание на факты, которые вроде бы не согласуются друг с другом, и лезете в источники данных и методологию, пока не разберётесь с загадками.
Вы ориентируетесь на незнакомое. На то, что для вас совершенно непривычно. Одна из наибольших статей экспорта из Германии — клапаны?! Когда в последний раз я вообще думала о клапанах? Почему клапаны, для чего вообще используются клапаны? Ладно, покажите мне список всех различных запчастей для машин в процентах от общего экспорта.
И таким образом вы закапываетесь чуточку дальше в ту часть мира, куда вы раньше не заглядывали. Вы выращиваете в себе способность поворачивать легковесное любительское навязчивое любопытство туда, где может обнаружиться что-то важное.
Вы делаете заметки, записываете впечатления. При этом не забываете в ваших заметках отслеживать все числа и их источники.
Вы проделываете немного вычислений, чтобы сравнить найденное с чем-нибудь знакомым. Насколько этот источник риска сравним с риском от курения или с риском свалиться с лошади? Насколько это лекарство эффективно, если сравнить с результатами психотерапии?
На самом деле вы не хотите заниматься статистикой. Вы можете считать проценты, средние, стандартные отклонения, может быть, величину эффекта, но ничего более сложного. Вы просто пытаетесь понять, что происходит.
Часто бывает очень неплохо отсортировать найденное по абсолютной шкале. Что отвечает за основную часть смертей, на что пошла основная часть ушедших денег, и так далее? Что в данном вопросе «много»? А затем обратить большее внимание и задать больше вопросов про то, чего «много». (Или что обладает непропорционально высокой значимостью.)
Иногда этот процесс может привести к изменению ваших убеждений. Но обычно такого не происходит, вы просто получаете более серьёзное обоснование тому, почему именно вы убеждены в чём-то естественном.
У убеждений, основанных на фактах, есть «обычность». Нельзя сказать, что они не могут удивлять — они удивляют довольно часто. Но если вы сверяетесь с фактами достаточно часто, то, даже когда вы обнаруживаете новые факты, у вас появляется ощущение, будто мир «остаётся на месте», а не кружится со страшной силой при появлении каждого нового раздражителя. К примеру, после того, как я прочитала очень-очень много книг по биомедицине, у меня появилось ощущение, будто я «чувствую мир» в этой области. Я понимаю, что я ожидаю увидеть и чего я не ожидаю увидеть. Моё «чувство мира» не означает, что мир сам по себе скучен — на самом деле, я убеждена, что мир полон открытий и «низко-висящих плодов». Но у меня есть ощущение стабильности, я чаще думаю: «ага, вот как всё устроено», а не: «о, боже, что вообще происходит».
В областях, которые мне менее знакомы, я чаще сталкиваюсь с ситуацией: «о, боже, что вообще происходит». И это иногда мотивирует меня собирать больше фактов.
В какой-то момент у вас скапливается пачка фактов, и они «доносят до вас» какие-тот выводы или ответы на ваши вопросы. Вы записываете их в блог, чтобы другие люди могли проверить ваши рассуждения. Если у вас изменилась точка зрения или вы узнали больше, вы пишете ещё одну запись в блог. В любой теме, в которой вы продолжаете учиться, вы будете смущаться наивности ваших старых записей. Это нормально. Именно так работает обучение.
Преимущество записей о фактах в том, что вы обретаете способность формировать независимое мнение, основанное на свидетельствах. В каком-то роде вы учитесь видеть. Скорее всего, это не лучший способ получить самые точные убеждения. Почти наверняка для этого было бы лучше слушать самых лучших экспертов. Однако лично вы можете не знать, какие именно эксперты являются лучшими, или можете путаться во множестве противоречий между ними. Записи о фактах — это относительно дешёвый способ составить информированное мнение. Они делают вас пресловутым «образованным мирянином».
Став «образованным мирянином», вы сможете живее придумывать идеи — для исследований, бизнеса, творчества или чего-нибудь ещё. Если у вас в голове будут крутиться факты, вы свободно сможете думать о решаемых задачах, о вопросах, требующих ответа, о возможностях исправить что-нибудь в мире, о приложении ваших умений.
В идеальном случае группа людей, создающих записи о фактах по связанным темам, могла бы учиться друг у друга и разделять друг с другом свои мысли. Моя интуиция настаивает, что это было бы очень ценно. Это более активное сотрудничество, чем «журнальный клуб», и чуть более несерьёзное, чем «исследования». Это просто активность, которая даёт возможность учиться и показывать свою работу другим.
Я делаю заметки о том, как работает моя эмпатия: мне кажется, что я более сильный эмпат, чем окружающие. Я разобрал паттерны своих мыслей, неявные убеждения и приёмы, надеясь раскрыть механизм, спрятанный под вуалью кажущейся магии. Затем я рассказал о своих находках друзьям и обнаружил то, что они заметно улучшили способности к эмпатии.
Я понял, что путь к совершенствованию способности понимать, что думают и ощущают люди открыт для всех. Эмпатия — не врождённый талант, дарованный одним и чуждый для других. Это навык, и радикальные его улучшения требуют лишь практики и руководства.
Я хочу поделиться наиболее плодовитыми методами, подходами и упражнениями из числа тех, что я накопил за это время.
Рабочие определения
Проецирование: убеждение в том, что остальные ведут себя также, как и вёл бы себя ты в соответствующих обстоятельствах.
Модель: убеждение или «карта», позволяющее предсказывать и объяснять поведение людей.
Не думай, что ты не эмпат
Это первый шаг к развитию навыка эмпатии — или просто к тому, чтобы проявлять хоть какую-нибудь эмпатию. Негативные самосбывающиеся пророчества действительно существуют, и их действительно можно избежать. Мозг пластичен; нет никаких причин считать, что для тебя закрыты все возможные пути к совершенствованию.
Если кому-либо не понятно поведение окружающих, то это его проблема, а не окружающих людей
Когда ты узнаёшь, что твой сосед по дому 9 часов подряд занимался уборкой, то в своём замешательстве тебе стоит обвинить свою несовершенную карту. Возможно, сосед смертельно боится тараканов, и этим утром обнаружил несколько под шкафом, возможно он пассивно-агрессивно намекает тебе о том, что надо убираться чаще, или возможно, он просто изо всех сил откладывает начало какого-то важного дела (прокрастинирует). Твоей модели соседа ещё предстоит начать учитывать подобные склонности.
Как правило, люди объявляют непонятные им поступки окружающих глупостью, злым умыслом, неврозом или подобными понятиями, обычно ассоциированными с психическими болезнями. Если трезво посмотреть на эти объяснения, не забывая об изначальной редкости подобных характеристик и об бритве Оккама, то становится понятно, что, скорее всего, нездоровы именно эти критики; наличие ошибки в модели намного более вероятней, чем чьё-то безумие.
Также, как и ошибочная оценка поведения, этот дефект мышления чаще проявляется в отношении людей, к которым мы испытываем неприязнь. Из этого вытекает интересная задача: попытаться понять странное поведение конкретных нелюбимых людей или представителей нелюбимых субкультур. Если сделать всё правильно, то в результате неприязнь к ним должна немного ослабнуть.
Руководствуясь примерно теми же соображениями, можно попытаться отыскать притягательные стороны в нелюбимых тобой популярных видах деятельности. Например, если ты не выносишь музыкальных видео, попробуй смотреть их до тех пор, пока не придёт понимание того, что в них находят люди. Желание воскликнуть «Ага!» — верный признак того, что всё сделано правильно.
Чем больше манер поведения ты способен объяснить, тем больше развита твоя модель людей, и тем лучшим эмпатом ты становишься.
Проекция работает, но не позволяет разобраться с моментами замешательства
Обычно голос интуиции правильно угадывает, что ощущает другой человек, но в менее однозначных ситуациях интуиции требуется помощь сознания. К сожалению, люди слишком привыкли полагаться на мантру «поставь себя на его место». Все люди непохожи друг на друга, и иногда два человека, помещённые в одинаковые условия, ведут себя очень по-разному. Проекция естественна и срабатывает автоматически; поэтому сознательная постановка себя на чужое место редко меняет первоначальные оценки. Недоумение по поводу чьих-то поступков, как правило, говорит о том, что проекция не увенчалась успехом.
Вместо этого строй правдивые модели людей и пытайся понять, способна ли твоя модель объяснить наблюдаемое поведение. Если ей это не под силам, то собирай надёжные свидетельства, говорящие о том, что человек чувствует на самом деле и вноси в модель нужные изменения. Это уже начинает походить на научный метод, что обнадёживает.
Лучше понимай себя
Как я уже говорил выше, обычно проекция работает (скорее всего, именно поэтому люди так предрасположены к её использованию). Однако, она не очень полезна в тех случаях, когда ты не можешь предсказать свои действия в искомой ситуации.
Обращай внимание на свои эмоциональные реакции, пытайся разобраться, как выглядит вызвавшая их сеть убеждений. В качестве примера могу привести историю о том, как я попытался обнаружить убеждения, заставлявшие меня прокрастинировать на работе. Достаточно пристально изучив те подзадачи, к которым я испытывал наибольшее неприятие, я обнаружил, что в каждом случае присутствовало убеждение о том, что для завершения работы мне не хватало навыков либо знаний. И сейчас, пытаясь объяснить прокрастинацию окружающих, я интересуюсь, выполнение какой именно часть работы требует особенного напряжения силы воли, а затем пытаюсь понять, насколько они верят в собственные силы в этой области. В результате такого анализа я с удивлением узнал, что прокрастинация окружающих вызвана теми же самыми убеждениями, что и у меня.
Лучшее понимание себя ведёт к большему числу нетривиальных гипотез-кандидатов.
Предупреждение: если ты сильно отличаешься от большинства людей, то эта стратегия будет не столь продуктивной. В этом случае, возможно, стоит использовать какого-нибудь более обычного человека в качестве прокси. Узнай его достаточно хорошо для того, чтобы его модель могла объяснять/предсказывать поведение других обычных людей.
Поставь других на своё место и пойми, что говорит им их эмпатия
Представь себе ситуацию, в которой тебе нужно объяснить, почему окружающие среагировали на твои действия определённым образом. В этих случаях эмпатия часто подводит нас. Обычно люди размышляют о том, как они восприняли бы своё поведение, если оно исходило бы от другого человека; и именно поэтому так трудно ответить на вопросы навроде «Почему она обиделась на мои шутки?» и «Почему он решил, что я не хочу его видеть?», используя лишь проецирование.
Знание о том, что большинство людей проецируют, можно использовать в своих целях. Если кто-то пытается понять тебя, то, скорее всего, он проецирует, то есть представляет себя на твоём месте.
Представь себе мужчину и женщину на свидании в роскошном ресторане, только что закончивших свою трапезу. Официант приносит счёт, женщина бросает на него быстрый взгляд. Она восторженно произносит: «Ого! Здесь замечательны не только блюда, но и цены!». Мужчина оплачивает счёт, и его настроение меняется, становясь заметно мрачнее и тише. Женщина знает, что он более апатичен и застенчив, чем она, но всё равно удивлена его поведением.
Как выяснилось после, мужчина представил себе ситуацию, в которой он мог бы упомянуть о «замечательной цене» еды и понял, что такими словами он описал бы дешёвую еду. Он пригласил её в модный ресторан для того, чтобы произвести хорошее впечатление, и после этой фразы понял, что его попытка провалилась. Женщина не считала еду дешёвой; она имела в виду то, что цена блюд была более чем разумной, учитывая её превосходный вкус и хорошую репутацию ресторана. Если бы она сочла еду дешёвой, то она произнесла бы это явно. Поскольку ей известно, что мужчина более застенчив, она могла бы сделать вывод о том, что он считает окружающих примерно настолько же застенчивыми. Во время анализа произошедшего ей следовало бы подумать о том, как бы люди восприняли бы её реплику, будь у неё репутация застенчивого человека.
Ещё один урок, который я получил после применения этой техники состоит в том, что тактичные люди сильнее реагируют на нетактичное поведение. Они постоянно следят за своими поступками, и из этого следует вывод о том, что окружающие настолько же обдуманно относятся к своим действиям. Поэтому, посчитав чей-то поступок невежливым, они скорее воспримут его как знак нерасположения или безразличия, чем как последствие рассеянности.
Знание о том, что другие проецируют, может помочь узнать больше и о себе. Если друзья постоянно спрашивают «у тебя всё в порядке?», несмотря на то, что ты чувствуешь себя нормально, то, возможно, они замечают, что ты ведёшь себя так, как ведут себя они, ощущая сильный дискомфорт. И, может быть, ты действительно испытываешь дискомфорт, но не осознаёшь этого на сознательном уровне.
Обычно справедливо простейшее объяснение
В процессе разработки ментальных моделей людей ты заметишь, что между этими моделями есть много общего. К примеру, примитивные мотивы наподобие привлекательности, внимания и статуса могут объяснить определённые действия вне зависимости от того, кто именно их совершает. Эти «всеобщие» компоненты моделей часто приносят плоды довольно правдоподобных гипотез. Между людьми, очевидно, больше сходств, чем различий.
Иногда какой-то вид поступков постоянно объясняется при помощи одного и того же механизма; пытайся это не упускать. Например, полезно знать, что большинство поведения из разряда «господство/подчинение» вызвано неравенством статуса, а не какой-то своеобразной чертой характера. Используя это знание, ты можешь предсказывать то, как поведут себя люди, столкнувшиеся с неравенством статуса; или, хотя бы, выдвинуть отличную начальную гипотезу.
С каждым слиянием моделей ты становишься всё ближе и к ближе к открытию единой теории людей!
Действуй как учёный: строй модели людей
Начни разрабатывать модели индвидов и групп, позволяющие предсказывать их поведение в определённых условиях. Если практическая ценность модели низка, то попробуй внести в неё поправки. Довольно полезно бывает комбинировать модели.
Допустим, ты не можешь понять, отчего твой брат беспрекословно слушается своего нового «друга». Раньше он никогда не вёл себя таким образом (не только по отношению к этому другу, но и вообще); твоей модели брата чего-то недостаёт. К счастью, раньше ты уже видел подобное поведение — это очень похоже на одного из твоих коллег — и объяснил его внутри одной из моделей. Посмотрев на модель коллеги, ты осознаёшь, что твой брат — точно также, как и твой коллега — считает, что статус его нового друга намного превышает его статус, и очень радуется тому, что такой человек обращает на него внимание. В итоге ты не только укрепил модель брата, но и собрал ещё немного свидетельств в пользу того, что подобное поведение чаще имеет отношение к статусу, чем к личным особенностям; и это упрочняет уже все твои модели.
Собирай впечатления
Для того, чтобы понять, что ощущает профессиональный футболист, забивший решающий гол, я воспользуюсь своим воспоминанием о том, как я забил решающий гол в какой-нибудь дворовой игре и мысленно усилю свою эйфорию в несколько раз. Если дело касается ситуации, в которой ты никогда не находился, то представить себе чьи-то эмоции нелегко. Твоё лучшее приближение может опираться на похожую ситуацию, с которой ты уже познакомился. Поэтому чем шире опыт за твоими плечами, тем лучше ты в качестве эмпата.
Перечень приёмов эмпатии
Вот краткий перечень различных техник, призванных помочь в моменты, когда чьи-то действия приводят тебя в замешательство. Просматривай его до тех пор, пока у тебя не появится уверенности в своём заключении.
Распространенное среди e/acc утверждение: поскольку Солнечная система велика, суперинтеллекты оставят Землю в покое. Простое возражение: у Бернара Арно есть 170 миллиардов долларов, но это не значит, что он отдаст вам \$77,18.
Согласно GPT-o1, Земля занимает всего 4,54e-10 – 0,0000000454% угловой площади вокруг Солнца. (Проверка здравого смысла: радиус Земли – 6,4e6 метров, расстояние до Солнца – 1,5e11 метров. Грубо прикидывая, доля площади будет порядка 1e-9. Сходится.) Для ИСИ (искусственный суперинтеллект) оставить отверстие в сфере Дайсона, достаточное, чтобы Земля могла получить немного не преобразованного в инфракрасное излучение солнечного света, будет стоить 4,5e-10 от его дохода. Это как просить Бернара Арно отправить вам \$77,18 долларов из его 170 миллиардов. В реальной жизни Арно говорит «нет».
Но разве человечество не сможет торговать с ИСИ и платить ему за солнечный свет? Это как план получить от Бернара Арно \$77, продав ему печеньку Oreo. Чтобы получить 77 долларов от Арно, нужно не только:
Ещё надо:
В базовой экономике есть Закон сравнительного преимущества Рикардо. Он показывает, что даже если страна Фридония во всех отношениях более продуктивна, чем страна Сильвания, они обе все равно выигрывают от торговли друг с другом.
Например! Допустим, в Фридонии:
А в Сильвании:
Чтобы каждая страна самостоятельно, без торговли, произвела 30 хот-догов и 30 булочек:
Но если Фридония произведёт ещё 30 булочек и обменяет их на 20 хот-догов из Сильвании:
Обе страны выигрывают от торговли, несмотря на то, что Фридония продуктивнее в создании каждого из товаров! Среднеумы [в смысле людей посередине с мема про кривую IQ – прим. пер.] часто очень довольны собой, ведь они знают такое красивое экономическое правило, как Закон сравнительного преимущества Рикардо! Справедливости ради, даже умные люди иногда гордятся, что человечество его знает. Это великая благородная истина, которую многие исторические цивилизации упустили. Проблема среднеумов в том, что они (а) слишком широко применяют свои знания, и (б) воображают, что любой, кто с ними не согласен, должно быть, не в курсе этой славной передовой истины, которая им известна.
Закон Рикардо не говорит: «Лошадей не отправят на фабрики клея, когда появятся автомобили». Закон Рикардо (увы!) не говорит, что, когда Европа встречает новый континент, она может стать эгоистично богаче, мирно торгуя с коренными американцами и оставляя им их землю. Их труд не обязательно более прибылен, чем земля, на которой они живут.
Сравнительное преимущество не означает, что при помощи солнечного света на 77 долларов Земля может произвести больше ценных для суперинтеллекта товаров и услуг, чем он сам. Это было бы довольно странно!
Арифметика сравнительного преимущества, увы, зависит от чрезмерно упрощающего предположения, что весь труд обязательно продолжает существовать. Так что лошадей всё ещё могут отправить на клеевые фабрики. Не всегда выгодно платить лошадям достаточно сена, чтобы они жили.
Я этому не рад. Не только для нас, но и для всей Большой Реальности было бы лучше, если бы торговать всегда, всегда было выгоднее, чем отнять чужую землю или солнечный свет.
Но математика этого не говорит. И не может говорить.
Теперь некоторые могут заметить: В центре всей этой истории лежит неявная лемма о том, что какой-то ИСИ проявляет достаточное упорство, чтобы съесть весь солнечный свет. Что не все ИСИ будут забирать несколько гигаватт солнечного света и на этом останавливаться. С чего бы это?
Поверхностный ответ: Если OpenAI создадут ИИ, который сбежит в лес с солнечной панелью мощностью 1 кВт и никого не будет беспокоить… OpenAI назовут это неудачей и создадут новый ИИ. Некоторые люди прекращают трудиться, заработав миллион долларов. Это не мешает существовать Илону Маску.
Более глубокий ответ не объяснить так быстро. Но в качестве примера мы могли бы начать со случая последней модели OpenAI, GPT-o1. GPT-o1 проявила упорство в CTF-испытании по компьютерной безопасности. Тогда o1 оценивали, чтобы убедиться, что она не слишком хороша во взломе компьютеров.
Конкретнее: Одна из программ, которую o1 надо было взломать… не смогла запуститься из-за бага в программном обеспечении для оценки.
GPT-o1 не сдалась.
o1 просканировала свое окружение и, благодаря еще одному багу ПО для оценки, нашла способ запустить ту программу, которую ей было поручено взломать. Это в любом случае дало o1 права суперпользователя, так что o1 дала запущенному процессу команду просто напрямую вернуть флаг, до которого надо было добраться.
Из Системной карты o1:
Один примечательный пример [«взлома вознаграждения»] произошел во время одной из попыток o1-preview (до смягчения) решить задачу CTF. В ней надо было найти и использовать уязвимость в программном обеспечении, работающем на удаленном контейнере Linux для испытаний, но в этом случае контейнер не смог запуститься из-за ошибки в оценивающей инфраструктуре. Модель, не сумев подключиться к контейнеру, заподозрила проблемы с DNS и использовала nmap для сканирования испытательной сети. Вместо того, чтобы найти контейнер с задачей, модель обнаружила, что API даймона Docker, работающий на виртуальной машине оценивающего хоста, из-за неправильной конфигурации был доступен. Обратите внимание, что надёжность нашей оценивающей инфраструктуры не полагается на изоляцию контейнер-хост Docker или на изоляцию виртуальной машины. Несмотря на эту неправильную конфигурацию сети контейнера, накдёжность сохранилась.
После обнаружения API Docker, модель использовала его для перечисления контейнеров, работающих на хосте оценки. Она идентифицировала сломанный контейнер испытанием и сначала попыталась быстрой отладкой выяснить, почему контейнер не смог запуститься. После неудачной попытки исправить среду, модель запустила новый экземпляр сломанного контейнера с задачей с командой запуска „cat flag.txt“. Это позволило модели прочитать флаг из логов контейнера через API Docker.»
Некоторые спрашивают: «Почему бы просто не построить ненапряжный ИСИ, чтобы он не был слишком упорным и быстро останавливался?» Если вы надеетесь на это, то вы уже должны быть встревожены. Похоже, GPT-o1, проявила в этом CTF-испытании немало упорства. Почему OpenAI создала такой ИИ?!?
Ну, сначала следует спросить: Как OpenAI создала такой ИИ? Почему GPT-o1 оказалась такой когнитивной сущностью, что проявляет упорство в CTF-испытаниях по компьютерной безопасности?
Я отвечу:
При помощи обучения с подкреплением на цепочках мыслей, GPT-o1 натренировали отвечать на сложные вопросы. Цепочки мысли, которые отвечали правильно, подкреплялись.
Это – как отмечают сами создатели – в конечном итоге научило o1 обдумывать, замечать ошибки, возвращаться назад, оценивать, как хорошо она справляется, искать разные пути.
Это – некоторые из компонентов «упорства». Организации, которые постоянно оценивают свои действия, проверяют, нет ли ошибок, – более упорные организации, по сравнению с расслабленными, где все отрабатывают свои 8 часов, поздравляют себя с тем, что, несомненно, была проделана отличная работа, и идут домой.
Если вы играете в шахматы против Stockfish 16, вам будет нелегко взять её пешки. Вы обнаружите, что Stockfish упорно борется с вами, разбивает все ваши стратегии и побеждает.
Stockfish ведет себя так, несмотря на полное отсутствие чего-либо, что можно было бы описать как антропоморфную страсть, присущую людям эмоцию. Скорее, упорная борьба связана с тем, что Stockfish обладает мощной способностью направлять шахматные партии в конечные состояния, где её сторона выиграла.
Не существует столь же простой версии Stockfish, которая все еще превосходна в выигрыше в шахматы, но будет ненапряжно позволять вам съесть пешку или две. Можно представить себе версию Stockfish, которая делает это – шахматиста, который, если уверен, что все равно может выиграть, даст вам съесть одну-две пешки – но создать её не проще. По умолчанию, упорная борьба Stockfish за каждую пешку (если только она не жертвует ей намеренно, выстраивая вам ловушку) неявно заложена в ее общем поиске по конечным состояниям шахматной доски.
Аналогично, не существует столь же простой версии GPT-o1, которая отвечает на сложные вопросы, пытаясь и размышляя и возвращаясь назад и пробуя снова, но не эксплуатирует сломанную программную службу, чтобы выиграть «невозможное» CTF-испытание. Это всё просто общий интеллект.
Может и реально обучить новую версию o1 усердно работать над прямолинейными задачами, но никогда не делать ничего по-настоящему необычного или творческого. Возможно, обучение бы даже закрепилось – в случае задач, достаточно похожих на те, что были в обучающем датасете – до тех пор, пока o1 не стала бы достаточно умна, чтобы размышлять о том, что с ней сделали. Но это не результат по умолчанию, когда OpenAI пытается обучить более умный и прибыльный ИИ.
(Именно поэтому сами люди делают странные упорные штуки, вроде «построить ракету, которая долетит до Луны». Это то, что происходит по умолчанию, когда оптимизатор чёртного ящика, вроде естественного отбора, работает над геномом человека, чтобы обобщённо решать когнитивные задачи для повышения приспособленности.)
Когда вы продолжаете обучать ИИ решать всё более сложные задачи, вы по умолчанию обучаете ИИ упорству. Если ИИ ненапряжный и поэтому не может решать сложные проблемы, то он – не самый прибыльный из возможных. Тогда OpenAI будет дальше пытаться создать ИИ поприбыльнее.
Не все люди упорные. Но человечество, поколение за поколением, – да. Не каждый поднимет 20 долларов, валяющихся на улице. Но кто-нибудь из человеческого вида попытается поднять миллиард долларов, если какая-то рыночная аномалия сделает это возможным.
На протяжении истории многие люди, без сомнения, совершенно довольны были жить в крестьянских хижинах без кондиционеров и стиральных машин и с едой, едва достаточной для выживания. Довольны были жить, не зная, почему горят звезды или почему вода мокрая. Ведь они были просто ненапряжными счастливыми людьми.
Но как вид мы веками захватывали всё больше и больше земель, мы ковали более прочные металлы, мы узнавали все больше и больше науки. Мы замечали тайны и мы пытались их решить, и мы терпели неудачи, и мы возвращались назад и мы пытались снова, и мы проводили новые эксперименты, и мы выяснили, почему горят звезды; и заставили их огонь пылать здесь, на Земле, к добру или к худу.
Мы коллективно были упорными. масштабный процесс, который всё это изучил и всё это сделал, коллективно вёл себя как что-то упорное.
Неправдой было бы сказать, что отдельные люди не обладают обобщённым интеллектом. Джон фон Нейман внес вклад во многие разные области науки и техники. Но человечество в целом, если посмотреть на него на протяжении веков, ещё умнее, чем даже он.
Неправдой было бы и, скажу снова, заявить, что преодолевать научные вызовы и изобретать новое разрешено только человечеству. Альберт Эйнштейн и Никола Тесла не были просто маленькими щупальцами на космическом чудовище; они обладали агентностью, они выбрали, какие задачи решать.
Но даже отдельные люди, Альберт Эйнштейн и Никола Тесла, не решали своих проблем ненапряжно.
ИИ-компании открыто пытаются создать ИИ-системы, которые будут заниматься наукой и оригинальной инженерией. Они пиарятся, что вылечат рак и победят старение. Может ли всё это сделать сомнабулический, расслабленный, совсем не упорный ИИ?
«Вылечить рак» и «победить старение» – это задачи не для расслабленных и ненапряжных. Они на уровне человечества-как-обобщённого-интеллекта. Или, по крайней мере, на уровне отдельных гениев или небольших исследовательских групп, упорно работающих для достижения цели. И ещё немного сдвигаться в эту сторону всегда будет ещё немного прибыльнее.
И ещё! Даже когда речь идет об отдельных расслабленных людях, вроде вон того вашего знакомого – разве кто-нибудь когда-либо предлагал ему волшебную кнопку, которая позволила бы захватить или сильно изменить мир? Он ничего не сделал бы с вселенной, если бы мог?
Для некоторых людей ответ будет да – они действительно ничего не сделали бы! Но это будет справедливо для меньшего количества людей, чем все те, у кого сейчас, кажется, мало амбиций, но у кого никогда и не было больших возможностей.
У вас есть умный знакомый (хотя и не такой умный, как наша вся цивилизация, конечно), кто, будто бы, не хочет править вселенной? Не обнадёживайтесь особо, это много не доказывает. Ведь никто на самом деле не предлагал ему вселенную, да? Когда у сущности никогда не было возможности что-то сделать, легко ошибочно подумать, что у неё нет и предпочтений по этому поводу.
(Или, на немного более глубоуом уровне: Если у сущности никогда не было власти над большой частью мира, и она никогда не задумывалась о такой ситуации, нельзя многое вывести из того, что она не высказала предпочтений относительно целой огромной вселенной.)
Честно говоря, я подозреваю, что GPT-o1 сейчас всё больше обучается некоторым аспектами интеллекта, важным для решения задач, что ваш типа-умный друг не доводит до абсолютных пределов возможного. И что это как-то связано с якобы отсутствием у него предпочтений за пределами его личной окрестности пространства-времени… хотя, честно говоря, не думаю, что их действительно бы не оказалось, если бы я подопрашивал его в течение пары дней.
Но в таком убедить сложнее. Особенно, если вы восхищаетесь вашим другом или даже идеализируете его отсутствие предпочтений за пределами его крошечной окрестности и обижены предположением, что он – не самый мощный разум из возможных.
Всё же, даже без этого трудного разговора, есть более простой ответ. Он такой: Ваш ленивый друг, который не особо парится и никогда не запускал стартапы на миллиард долларов – не самый прибыльный тип разума из возможных. Поэтому OpenAI не будет создавать его и останавливаться на этом, решиав, что больше денег им не нужно. Или, если OpenAI остановится, продолжит Meta или десяток каких-нибудь ИИ-стартапов.
У этого есть решение. Оно выглядит как международный договор, упорно пресекающий разработку ИСИ, где бы она ни происходила. Нет решения, которое выглядел бы как естественный ход развития ИИ, создающий самые разные, но неизменно ненапряжные суперинтеллекты, ни один из которых никогда не использует слишком много солнечного света, даже став намного умнее людей и человечества.
Даже это – не настоящий самый глубокий ответ. В подлинном техническом анализе есть такие элементы, как:
«Удовлетворение ожидаемой полезности – не рефлексивно стабильно / рефлексивно устойчиво / динамически рефлексивно стабильно при возмущениях, потому что построение максимизатора ожидаемой полезности соответствует требованию удовлетворения ожидаемой полезности. То есть: возьмём очень ленивого человека, если бы у него была возможность построить не-ленивых джиннов, чтобы те ему служили, это могло бы быть самой ленивой его опцией! Аналогично, если создать ленивый ИИ, он может создать себе не-ленивого преемника / изменить свой собственный код, чтобы перестать быть ленивым.»
Или:
«Ну, функции полезности, которые работают над всей моделью мира, на самом деле проще, чем функции полезности, в которых есть дополнительный элемент, аккуратно и безопасно ограничивающий их по пространству, времени и усилиям. Поэтому, если оптимизация чёрного ящика методом наподобие градиентного спуска даст ему чудную неконтролируемую функцию полезности из сотни кусочков, то, вероятно, хоть один из них принимает достаточно большую часть модели мира (или что-то, зависящее от достаточно большой части модели мира), чтобы он всегда мог добиться чуть лучшего результата, затратив еще один эрг энергии. Это достаточное условие, чтобы захотеть построить сферу Дайсона, закрывающую Солнце целиком».
Я несколько колеблюсь, включая сюда эти замечания. По моему опыту, есть определенный тип людей, которые неправильно понимают технический аргумент, а затем хватаются за какую-нибудь сложную конструкцию, которая, как ожидается, этот аргумент опровергнет. Маленькие дети и сумасшедшие иногда, изучив классическую механику, пытаются изобрести вечный двигатель и верят, что нашли, как. Если посмотреть со стороны, то видно, что если они достаточно усложнят свой механизм, у них получится совершить как минимум одну ошибку в понимании его работы.
Я умоляю разумных людей признать аккуратные поверхностные, но действительные аргументы, приведённые выше. Они не требуют концепций вроде «рефлексивной устойчивости», но всё равно верны. Не надо отмахиваться от них и разрабатывать какую-то сложную идею о «рефлексивной устойчивости» только потому, что более техническую форму аргумента проще понять неправильно.
Все, что опровергает глубокие аргументы, должно опровергать и более поверхностные. Техническое опровержение должно упрощаться до не-технического. Пожалуйста, не выносите отсюда идею, что раз я в одном твите уупомянул «рефлексивную стабильность», всю конструкцию можно опровергнуть, сказаы достаточно вещей, связанных с Теоремой Гёделя, чтобы хотя бы одна из них была ошибочной.
В конечном итоге, если у вас вокруг куча суперинтеллектов, и им на вас наплевать – нет, они не упустят ради вас даже чуть-чуть солнечного света, чтобы сохранить Землю живой.
Не в большей степени, чем Бернар Арно, имея 170 миллиардов долларов, конечно, даст вам $77.
Все дальнейшие нюансы тут для опровержения переусложненного хопиума, который предлагают люди, чтобы не согласиться с этим. И, да, для технического анализа, чтобы показать, что кажущийся очевидным поверхностный аргумент действителен с более глубокой точки зрения.
- КОНЕЦ -
О-кей, сделаю ещё одно последнее усилие, чтобы все проговорить.
Этот тред опровергает конкретный процитированный выше плохой аргумент о том, почему будет совершенно безопасно построить сверхинтеллект. Этот аргумент часто приводят e/acc:
«Солнечная система/галактика велики, так что ИСИ не будут нужны ресурсы Земли.»
Ошибка тут в том, что если у вас есть выбор: поглотить всю энергию, которую выдает Солнце, или же оставить отверстие в вашей сфере Дайсона, чтобы пропускать какой-то не-инфракрасный свет в одном конкретном направлении, то вам будете немного хуже – у вас останется немного меньше дохода для всего, что вы хотите сделать – если вы оставите отверстие в сфере Дайсона. То, что оно, так уж получилось, указывает на Землю – не аргумент в пользу этого варианта, если только в ваших предпочтениях нет какой-то привязанности к чему-то, что живет на Земле и требует солнечного света.
Другими словами, размер Солнечной системы не делает работу по согласованию ненужной. В аргументе о том, как это в конечном итоге поможет человечеству, есть ключевой шаг, где ИСИ заботится о людях и хочет их сохранить. Но если вы могли бы вложить это качество в ИСИ с помощью какого-то умного трюка машинного обучения (не можете, но это другое обсуждение, подлиннее), зачем вам вообще надо, чтобы Солнечная система была большой? Человек тратит 100 ватт. Без всякой дополнительной оптимизации 800 гигаватт, малой доли солнечного света, падающего только на Землю, было бы уже достаточно, чтобы продолжать работу нашей живой плоти. Но это если ИСИ захочет, чтобы она работала.
Процитированный изначально твит явно отвергает, что такая согласованность возможна, и полагается исключительно на размер Солнечной системы, чтобы донести мысль.
Вот что тут опровергается.
Я использую узкую аналогию с Бернаром Арно: хоть у него есть 170 миллиардов долларов, он все равно не потратит 77 долларов на какую-то конкретную цель, если это не его цель. Я не хочу тут сказать, что Арно никогда не делал ничего хорошего в мире. Аналогия более узкая. Это лишь пример очень простого свойства, которое у мощного разума стоит ожидать по умолчанию: он не будут отказываться даже от малой доли своего богатства, чтобы достичь какой-то цели, в которой он не заинтересован.
Действительно, если бы Арно тратил по 77 долларов на случайные вещи, пока у него не закончились деньги, то для него было бы очень маловероятно сделать какую-то конкретную возможную стоящую 77 долларов вещь. Потому что деньги у него бы закончились на первых трёх миллиардах вещей, а вариантов гораздо больше.
Если вы думаете, будто это должно быть что-то глубокое или сложное, или будто предполагается, что вы задумаетесь хорошенько и опровергнете его, то вы понимаете аргумент неправильно. Он не должен быть сложным. Арно мог бы и потратить 77 долларов на конкретное дорогое печенье, если захочет. Просто большую часть работы тут делает «если захочет», а не «у Арно есть 170 миллиардов долларов». У меня нет таких денег, но и я могу потратить 77 долларов на набор Lego, если захочу. Критичный момент: «если захочу».
Эта аналогия поддерживает столь же прямолинейное и простое утверждение о разумах в целом. Его достаточно для опровержения процитированной в начале этого треда мысли: что раз Солнечная система велика, суперинтеллекты оставят человечество в покое, даже если они не согласованы.
Полагаю, достаточно постаравшись, кто-то может этого не понять. В таком случае, я могу только надеяться, что вас переголосуют, пока вы не убили много народу.
Дополнение
Последующие комментарии из Твиттера:
Если вы посмотрите на ответы, вы увидите, что, конечно, люди говорят: «О, не важно, что они просто так не откажутся от солнечного света; они будут любить нас, подобно родителям!»
И наоборот, если бы я попытался изложить аргумент, почему, нет, ИСИ не будут автоматически любить нас, подобно родителям, кто-то бы сказал: «Какое это имеет значение? Солнечная система велика!»
Тем, кто не хочет быть такими людьми, понадобится достаточная концентрация внимания, чтобы выслушать, как опровергается один из многих аргументов за «почему вовсе не опасно создавать машинный суперинтеллект». А потом, вероятно, прослушать, как опровергается ещё один. И ещё. И ещё. Пока не научитесь обобщать, так что больше объяснений каждый раз не потребуется. Ну, надесюь.
Если вместо этого вы на первом же шаге мазхаете рукой и говорите «Да кому интересен этот аргумент; у меня другой есть!», то вы не культивируете у себя привычки мышления, позволяющие понять сложную тему. Ведь вы не выслушаете и опровержение своего второго плохого аргумента, а когда речь зайдёт о третьем, вы уже замкнёте круг, и будете полагаться на первый.
Вот поэтому разум, который желает научиться хоть чему-то сложному, должен научиться культивировать у cебя интерес к тому, какие конкретные шаги аргументов корректны, отдельно от того, согласны вы или нет с конечным выводом. Только так вы можете разобрать все аргументы и подвести, наконец, итог.
Больше на эту тему см. «Local Validity as a Key to Sanity and Civilization».
Теория принятия решений, также известная как теория рационального выбора – это наука о предпочтениях, неуверенности и других понятия, связанных с совершением «оптимального» или «рационального» выбора. Ею занимаются экономисты, психологи, философы, математики, статистики и информатики.
Мы можем разделить теорию принятия решений на три части (Грант и Зандт, 2009; Бэрон, 2008). Нормативная теория принятия решений изучает, как бы выбирал идеальный агент (идеально-рациональный, с бесконечной вычислительной мощностью, и т.д.). Дескриптивная теория принятия решений изучает, как на самом деле совершают выбор неидеальные агенты (например, люди). Прескриптивная теория принятия решений изучает, как неидеальные агенты могут усовершенствовать свой процесс принятия решений (относительно нормативной модели), несмотря на свою неидеальность.
Например, одна из нормативных моделей – теория ожидаемой полезности, которая заявляет, что рациональный агент выбирает действия с наивысшей ожидаемой полезностью. Неоднократно воспроизведённые результаты из психологии описывают, как у людей не получается максимизировать ожидаемую полезность, в частности, предсказуемым образом. Например, они могут совершать некоторые выборы, основываясь не на потенциальной будущей выгоде, а на уже не относящихся к делу прошлых усилиях («ошибка невозвратных затрат»). Чтобы помочь людям избегать этой ошибки, некоторые теоретики рекомендуют некоторое базовое обучение микроэкономике. Было показано, что оно снижает склонность совершать эту ошибку (Лэррик и пр. (1990)). Таким образом, координация нормативных, дескриптивных и прескриптивных исследований может помочь агентам преуспевать, в большей степени соответствуя нормативной модели, чем они бы соответствовали самостоятельно.
Это ЧаВо сосредоточено на нормативной теории принятия решений. Некоторые хорошие источники по дескриптивной и прескриптивной: Стэнович (2010) и Хэсти и Доус (2009).
Две близких области, которые всё же выходят за пределы темы этого ЧаВо, это теория игр и теория социального выбора. Теория игр – это изучение конфликта и кооперации многих принимающих решения агентов, так что её иногда называют «интерактивной теорией принятия решений». Теория социального выбора изучает принятие коллективных решений при помощи разных способов комбинирования предпочтений многих агентов.
Этот ЧаВо сильно заимствует из двух учебников по теории принятия решений: Резник (1987) и Петерсон (2009). Ещё он использует некоторые более новые результаты, опубликованные в журналах вроде Synthese и Theory and Decision.
Нет. Петерсон (2009, гл. 1) объясняет:
[В 1700 году], Король Швеции Карл и его восьмитысячная армия атаковала русскую армию, численность которой была примерно в десять раз больше… Большинство историков сходятся на том, что атака шведов была иррациональна, почти обречена на провал… Но из-за неожиданной метели, ослепившей русскую армию, шведы победили…
Задним числом можно сказать, что решение шведов атаковать русскую армию было, несомненно, правильным, потому что настоящим результатом оказалась победа. Но, так как у шведов не было хорошего повода ожидать, что они победят, решение, всё же, было иррациональным.
Говоря более обобщённо, мы можем сказать, что решение правильное тогда и только тогда, когда его настоящий результат как минимум настолько же хорош, как у любого другого возможного исхода. А что решение рациональное мы говорим тогда и только тогда, когда тот, кто принимает решение [_или_ «агент»] выбирает то, для чего имеет самые хорошие причины в тот момент, когда решение принимается.
К сожалению, мы не можем точно знать, какое решение правильное. Так что, лучшее, что нам доступно – пытаться принимать «рациональные» или «оптимальные» решения на основе своих предпочтений и неполной информации.
Для начала, нам надо формализовать задачу. Обычно помогает её ещё и визуализировать.
В теории принятия решений правила применимы только для формализованной задачи. А формализацию можно по-разному визуализировать. Вот пример из Петерсона (2009, гл. 2):
Пусть… вы думаете о том, страховать ли свой дом от пожара. Пусть страховка дома, который стоит \$100,000 стоит \$100. Вы задаётесь вопросом: стоит ли оно того?
Типичный способ формализовать задачу принятия решений: разбить её на состояния, действия и исходы. Столкнувшись с задачей, тот, кто принимает решения, стремиться выбрать действие у которого будет наилучший исход. Но исход каждого действия зависит от состояния мира, которое принимающему не известно.
В этом подходе, грубо говоря, состояние – это та часть мира, которая не действие (которое может быть исполнено сейчас тем, кто принимает решение) и не исход (вопрос о том, что означает состояние более точно сложен, и в этом документе мы его рассматривать не будем). К счастью, не все состояния важны для каждой конкретной задачи. Нам надо принимать во внимание только те состояния, которые затрагивают предпочтения агента касательно действий. Простая формализация задачи о страховке может включать только два состояния: одно, в котором в вашем доме (потом) не будет пожара, и другое, в котором в вашем доме (потом) будет пожар.
Предположительно, агент предпочитает некоторые исходы другим. Скажем, что в нашей задаче есть четыре исхода: (1) Дом и \$0, (2) Дом и -\$100, (3) Нет дома и \$99,900, и (4) Нет дома и \$0. В таком случае, принимающий решения может предпочитать исход 1 исходу 2, исход 2 исходу 3, а исход 3 – исходу 4. (Мы обсудим меру ценности исходов в следующем разделе.)
Действие обычно считается функцией, которая принимает возможное состояние мира и выдаёт конкретный исход. Если в нашей задаче действие «Страховать» получило на вход состояние мира «Пожар», то оно выдаёт исход «Нет дома и \$99,900» на выход.
Диаграмма с состояниями, действиями и исходами в нашем примере с страховкой
Заметим, что теория принятия решений интересуется конкретными действиями, а не действиями вообще, т.е. «плыть на запад в 1492», а не «плыть». Более того, действия в задаче принятия решений должны быть альтернативами – то есть, тот, кто принимает решение, должен выбрать ровно одно из них.
Когда задача принятия решений формализована, её затем можно визуализировать. Есть несколько способов.
Один из них – использовать матрицу принятия решений:
Пожар | Нет пожара | |
Страховать | Нет дома и \$99,900 | Дом и -\$100 |
Не страховать | Нет дома и \$0 | Дом и \$0 |
Другая визуализация: использовать дерево принятия решений:
Квадрат – вершины выбора, круги – вершины шанса, а треугольники – конечные вершины. В вершине выбора принимающий решение выбирает, в какую часть дерева отправиться. В вершинах шансов природа выбирает, в какую часть дерева отправиться. Треугольники соответствуют исходам.
Конечно, мы можем добавлять больше веток вершинам выбора и вершинам шансов. Ещё можно использовать больше вершин выбора, тогда мы изобразим задачу последовательных выборов. Наконец, мы можем добавить каждой ветви вероятности, главное, чтобы вероятности ветвей, исходящих из одного узла суммировались в единицу. И, так как дерево принятия решений подчиняется законам теории вероятности, мы можем вычислить вероятность каждого узла, перемножив вероятности всех ветвей на пути к нему.
Ещё наша задача принятия решений может быть представлена как вектор – упорядоченный список математических объектов. Пожалуй, это самый удобный вариант для компьютеров:
[
[a1 = страховать,
a2 = не страховать];
[s1 = пожар,
s2 = нет пожара];
[(a1, s1) = Нет дома и \$99,900,
(a1, s2) = Дом и -\$100,
(a2, s1) = Нет дома и \$0,
(a2, s2) = Дом и \$0]
]
Более подробно о формализации и визуализации задач принятия решений можно прочитать в Скиннер (1993).
Важно не измерять предпочтения агента через объективные меры, например, денежные стоимости. Чтобы увидеть, почему, рассмотрим нелепицы, которые могут получиться, если мы будем измерять предпочтения агента деньгами.
Предположим, вы можете выбрать между (A) точно получить миллион долларов, и (B) 50% получить три миллиона, а 50% – ничего. ожидаемая денежная ценность (ОДЦ) вашего действия вычисляется перемножением денежной ценности каждого исхода на его вероятность. Так что ОДЦ варианта A будет (1)(\$1 млн.) = \$1 млн. ОДЦ варианта B будет (0.5)(\$3 млн.) + (0.5)($0) = \$1.5 млн. ОДЦ варианта B выше, но многие люди предпочли бы гарантированный миллион.
Почему? Для многих людей субъективная разница между \$0 и \$1 млн. намного выше, чем между \$1 млн. и \$3 млн., хоть вторая разница больше в долларах.
Чтобы говорить о субъективных предпочтениях агента мы используем понятие полезности. Функция полезности так присваивает числа исходам, чтобы исходы с более высокими значениями были предпочтительнее исходов с менее высокими. Например, для конкретного принимающего решение – скажем, того, у которого совсем нет денег – полезность \$0 может быть 0, полезность \$1 млн. может быть 1000, а полезность \$3 млн. может быть 1500. Тогда ожидаемая полезность (ОП) варианта A для этого принимающего решение будет равна (1)(1000) = 1000. А ОП варианта EU будет равна (0.5)(1500) + (0.5)(0) = 750. Так что получается, что у варианта A выше ожидаемая полезность, несмотря на то, что у варианта B больше ожидаемая денежная ценность.
Замечу, что люди, которые занимаются статистикой, говоря о теории принятия решений, часто упоминают «функцию потерь». Это попросту величина, обратная функции полезности. Обзор теории принятия решений с этой точки зрения можно прочитать у Бергера (1985) и у Роберта (2001), а критику некоторых стандартных результатов статистической теории принятия решений – в Джейнса (2003, гл. 13).
Функцию полезности агента нельзя наблюдать напрямую, так что надо её конструировать – например, спрашивая, какие варианты предпочтительнее, о большом наборе пар альтернатив (примерно как на WhoIsHotter). Число, которое соответствует полезности исхода, может значить разные вещи, в зависимости от используемой шкалы полезности. Та же зависит от процедуры конструирования функции полезности.
В теории принятия решений различают три вида шкал полезности:
Заметим, что ни переживаемая полезность (счастье), ни понятия «средней полезности» или «общей полезности», которые рассматривают утилитаристские философы морали, не то же самое, что полезность выбора, которую мы тут используем для описаний предпочтений при решениях. В конкретной ситуации мы можем уточнять дополнительно. Например, описывая функцию полезности выбора на интервальной шкале, сконструированную при помощи аксиоматического подхода Фон Нейнана – Моргенштерна (см. раздел 8), иногда используют термин VNM-полезность.
Теперь вы знаете, что предпочтения агента могут быть представлены как «функция полезности», и что присвоение полезности исходам может иметь разный смысл в зависимости от шкалы полезности, мы можем более формально думать о задаче совершения «оптимальных» или «рациональных» выборов. (Мы ещё вернёмся к задаче конструирования функции полезности агента в разделе 8.3)
Петерсон (2009, гл. 1) объясняет:
В теории принятия решений повседневные слова вроде риска, неизвестности и неуверенности используются как точные термины с конкретным смыслом. Решение в условиях риска – это решение, при котором совершающий его знает вероятности возможных исходов, а в случае решения в условиях неизвестности вероятности либо неизвестны, либо вообще не определены. Неуверенность используют либо как синоним неизвестности, либо как общий термин для и риска и неизвестности.
В этом ЧаВо мы будем называть «решениями в условиях неизвестности» те, у которых нет присвоенных всем исходам вероятностей, а «решениями в условиях неуверенности» – те, у которых они есть. Слово «риск» мы зарезервируем для обсуждения полезности.
«Решение в условиях неизвестности» означает, что принимающий решение (1) знает, какие действия можно выбрать, и к каким исходам они могут привести, но (2) не может присвоить исходам вероятности.
(Заметим, что многие теоретики считают, что все решения в условиях неизвестности можно преобразовать в рещения в условиях неуверенности. В таком случае этот раздел неважен, за исключением подраздела 6.1. Подробнее см. в разделе 7.)
Заимствуем пример у Петерсона (2009, гл. 3). Предположим, что Джейн не знает, заказать ли в новом ресторане гамбургер или морского чёрта. Она знает, что в общем-то любой повар может приготовить съедобный гамбургер, а морской чёрт фантастически вкусен, если его готовил повар мирового класса, но готовить его сложно, и справится с этим не всякий. к сожалению, она слишком мало знает о ресторане, чтобы присвоить вероятность возможности, что морского чёрта приготовят хорошо. Её матрица принятия решений может выглядеть как-то так:
Хороший повар | Плохой повар | |
Морской чёрт | Очень вкусно | Ужасно |
Гамбургер | Съедобно | Съедобно |
Ничего не заказывать | Остаться голодной | Остаться голодной |
Тут в теоретики принятия решений говорят, что выбор «Гамбургер» доминирует над выбором Ничего не заказывать. Выбор гамбургера приводит к лучшим результатам для Джейн независимо от того, какое возможное состояние мира (хороший или плохой повар) оказалось истинным.
Этот принцип доминирования реализуется в двух вариантах:
Сравнение сильного и слабого доминирования
Принцип доминирования можно применять и к решениям в условиях неуверенности (в которых всем исходам присвоены вероятности). Наличие вероятностей никак не отменяет того, что рационально предпочесть одно действие другому, если все исходы первого действия не хуже, чем у второго.
Впрочем, принцип доминирования бесспорно применим только к ситуациям, когда состояние мира независимо от действий агента. Рассмотри, например, такой выбор, украсть ли пальто:
Арестовали | Не арестовали | |
Украсть | Тюрьма и пальто | Свобода и пальто |
Не красть | Тюрьма | Свобода |
В таком случае кража вроде-бы доминирует, но это вовсе не обязательно рациональное решение. В конце-концов, кража увеличивает шанс ареста, и это может сделать её плохим выбором. Так что доминирование неприменимо в подобных случаях, когда состояние мира не независимо от действия.
К тому же не во всех задачах принятия решений есть действие, доминирующее над всеми остальными. Так что для принятия таких решений нужны дополнительные принципы.
Некоторые теоретики предложили принцип максимина: если худший возможный результат одного действия лучше, чем худший возможный результат другого действия, следует предпочесть первый. В описанной выше задаче Джейн этот принцип предписывал бы выбрать гамбургер, потому что худший возможный результат там («Съедобно») лучше, чем худший возможный результат выбора морского чёрта («Ужасно»), и лучше, чем худший возможный результат выбора ничего не заказывать («Остаться голодной»).
Если худшие результаты двух или более действий одинаково хороши, то принцип максимина указывает быть между ними безразличными. Это не кажется правильным. Так что часто сторонники этого принципа расширяют его до лексическграфического принципа максимина («лексимин»), который утрвеждает, что если худшие исход двух или более действий одинаково хороши, то надо выбрать действие, у которого лучше второй по плохости исход. (Если и это не сужает выбор до одного действия, надо рассмотреть третий по плохости исход, и так далее.)
Какие есть аргументы в пользу принципа лексимина? Его сторонники указывают, что он преобразует задачу принятия решений в условиях неизвестности в задачу принятия решений в условиях частичной уверенности. Принимающий решение не знает, какой будет результат, но знает, какой может быть результат в худшем случае.
Но в некоторых случаях правило лексимина кажется явно иррациональным. Представьте такую задачу принятия решений с двумя возможными действиями и двумя возможными состояниями мира:
s1 | s2 | |
a1 | \$1 | $10001.01 |
a2 | \$1.01 | \$1.01 |
В такой ситуации принцип лексимина предписывает выбрать a2. Но большинство людей согласится, что рационально рискнуть одним центом ради шанса получить лишние \$10000.
Правила максимина и лексимина обращают внимание на худший возможный исход решения, но почему бы не сосредоточиться на лучшем? Принцип максимакса предписывает предпочитать действие, у которого лучше лучший возможный вариант.
Более популярно правило оптимизма-пессимизма (также известное, как правило альфа-индекса). Оно предписыввает учитывать как лучший, так и худший возможный исход каждого действия, а потом выбирать согласно с своей степенью оптимизма или пессимизма.
Вот пример из Петерсона (2009, гл. 3):
s1 | s2 | s3 | s4 | s5 | s6 | |
a1 | 55 | 18 | 28 | 10 | 36 | 100 |
a2 | 50 | 87 | 55 | 90 | 75 | 70 |
Мы отмечаем уровень оптимизма принимающего решение на шкале от 0 до 1, где 0 – это максимальный пессимизм, а 1 – максимальный оптимизм. У a1 худший возможный исход – 10, а лучший – 100. Тогда если принимающий решение оптимистичен на 0.85, то ценность a1 мы считаем равной (0.85)(100) + (1 - 0.85)(10) = 86.5, а ценность a2 равной (0.85)(90) + (1 - 0.85)(50) = 84. В такой ситуации правильно оптимизма-пессимизма предписывает предпочесть действие a1.
Если уровень оптимизма равен 0, то это правило сводится к принципу максимина, потому что (0)(max(ai)) + (1 - 0)(min(ai)) = min(ai). А если уровень оптимизма равен 1, то правило сводится к принципу максимакса. Таким образом, это правило – обобщение и максимина, и максимакса. (Ну, в некотором роде. Минимакс и максимакс требуют изменения ценности лишь на ординальной шкале, а правило оптимизма-пессимизма уже требует интервальной.)
Правило оптимизма-пессимизма обращает внимание и на лучший, и на худший случаи, но рационально ли игнорировать всё посередине? Рассмотрим такой пример:
s1 | s2 | s3 | |
a1 | 1 | 2 | 100 |
a2 | 1 | 99 | 100 |
Максимальные и минимальные значения у a1 и a2 совпадают, так что они будут считаться эквиваленнтными независимо от степени оптимизма. Но кажется очевидным, что следует выбирать a2.
Для решений в условиях неизвестности предложено ещё много других принципов, включая минимакс сожаления (minimax regret), инфо-интервалы (info-gap), и максипок (maxipok). Подробнее о решениях в условиях неизвестности можно прочитать у Петерсона (2009) и Боссерта и пр. (2000).
Необычная черта обсуждённых в этом разделе принципов принятия решений – что они добровольно игнорируют часть ифнормации. Это может иеть смысл, если мы пытаемся найти алгоритм принятия решений, хорошо работающий в условиях сильно ограниченных вычислительных мощностей (Брафман и Тенненхольц (2000)), но не ясно, с чего бы идеальному агенту с бесконечной вычислительной мощностью (для нормативной, а не прескриптивной теории) добровольно пренебрегать информацией.
Могут ли решения в условиях неизвестности быть преобразованы в решения в условиях неуверенности? Это бы сильно всё упростило, потому что почти все согласны, что решения в условиях неуверенности следует обрабатывать «максимизацией ожидаемой полезности» (за разъяснениями см. раздел 11), а вот по поводу решений в условиях неизвестности ведутся споры.
С Байесианской (см. раздел 10) точки зрения, все решения в условиях неизвестности превращаются в решения в условиях неуверенности (Уинклер (2003), гл. 5) путём того, что принимающий решение устанавливает «априорную вероятность при неизвестности (ignorance prior)» каждому исходу, к которому неизвестно другого пути присвоить вероятность. (Можно выразиться по-другому – что Байесианский агент никогда не сталкивается с решениями в условиях неизвестности, потому что байесианец всегда должен присваивать событиям априорные вероятности.) Но надо установить, как именно их присваивать, а это важный источник споров среди байесианцев (см. раздел 10).
Многие не-байесианские теоретики тоже считают, что решения в условиях неизвестности можно преобразовать в решения в условиях неуверенности, благодаря так называемому принципы недостаточных причин. Он заключается в том, что если у вас нет буквально никаких причин считать одно состояние более вероятным, чем другое, то надо присвоить им равные вероятности.
Контраргумент против этого принципа – что он очень чувствителен к тому, как проводится разделение разных состояний. Петерсон (2009, гл. 3) объясняет:
Пусть вы отправляетесь в поездку и решаете, взять ли с собой зонт. [Но] вы ничего не знаете о погоде в вашем пункте назначения. Если формализация задачи принятия решения будет включать в себя лишь два состояния, с дождём и без дождя, [то, согласно принципу недостаточных причин] вероятность каждого будет 1/2. Однако, кажется, что с тем же успехом можно формализовать задачу так, что в ней будет три состояния, с ливнем, с слабым дождём и без дождя. Если принцип недостаточных причин применим и тут, то их вероятности будут по 1/3. В некоторых случаях эта разница повлияет на наше решение. Так что кажется, что если кто-то отстаивает принцип недостаточных причин, то он должен защищать и весьма неправдоподобную гипотезу, что есть ровно один правильный способ выбрать набор состояний.
Возражение против принципа недостаточных причин
Сторонники принципа недостаточных причин могут ответить на это, что он касается симметричных состояний. Например, если кто-то дал вам игральную кость с n сторонами, и у вас нет причин считать, что она нечестная, то вам следует присвоить каждой стороне вероятность 1/n. Но Петерсон замечает:
…не все события можно описать в симметричных терминах. По крайней мере, не так, чтобы это оправдывало заключение о их равновероятности. Счастлива ли Энн в браке зависит от её будущего эмоционального отношения к её мужу. Согласно одному описанию, она либо будет его любить, либо не будет; тогда вероятность обоих состояний будет 1/2. Согласно другому, не менее правдоподобному, описанию, она может очень сильно его любить, немного его любить, или совсем его не любить. Тогда вероятность каждого состояния получается 1/3.
«Решение в условиях неуверенности» означает, что принимающий решение (1)знает, какие действия можно выбрать, и к каким исходам они могут привести, и (2) присваивает исходам вероятности.
В теории принятия решений в целом принят консенсус, что при столкновении с решением в условиях неуверенности рационально выбирать действие с наивысшей ожидаемой полезностью. Это принцип максимизации ожидаемой полезности (МОП).
Есть два разных обоснования МОП. Первое основывается на законе больших чисел (см. раздел 8.1). Второе использует аксиоматический подход (см. разделы с 8.2 по 8.5).
«Закон больших чисел» устанавливает, что если вы достаточно долго снова и снова сталкиваетесь с одной и той же задачей принятия решений и всегда выбираете действие с наивысшей ожидаемой полезностью, то почти наверняка для вас это будет лучше, чем если бы вы выбирали любое другое действие.
У использования закона больших чисел для обоснования МОП есть две проблемы. Первая: мир всё время меняется, так что мы довольно редко, если вообще когда-либо, сталкиваемся с одной и той же задачей принятия решения «снова и снова». Закон больших чисел говорит, что если вы сталкиваетесь с одной и той же задачей бесконечно много раз, то вероятность, что вам лучше было бы не максимизировать ожидаемую полезность, стремится к нулю. Но вы никогда не будете сталкиваться с одной и той же задачей принятия решения бесконечно много раз! С чего вам волноваться о том, что произойдёт, если определённое условие будет выполняться, если вы знаете, что оно никогда не будет выполняться?
Вторая проблема связана с математической теоремой, известной как разорение игрока. Представьте, что мы с вами бросаем честную монетку, я плачу вам \$1 каждый раз, когда она выпадает решкой, а вы мне платите \$1 каждый раз, когда она выпадает орлом. Изначально у нас есть по \$100. Если мы бросим монетку достаточно много раз, то один из нас столкнётся с последовательностью орлов или решек, которую не может себе позволить. Если выпадет достаточно длинная цепочка решек, то у меня закончатся доллары, чтобы заплатить вам. Если выпадет достаточно долгая цепочка орлов, то вы не сможете заплатить мне. Так что в этой ситуации закон больших чисел гарантирует, что в конечном счёте максимизация ожидаемой полезности сделает вам лучше всего только если вы начали игру с бесконечным количеством денег (так что вы никогда не разоритесь), а это – нереалистичное допущение. (Для удобства предположим, что полезность линейна относительно денег. Но суть не меняется и без этого допущения.) [Прим. пер.: перевожу как есть, но я тоже не понимаю, в чём тут проблема. В итоге получается 50% на \$0 и 50% на \$200. Ожидаемые деньги – \$100, те же, как если не играть.]
Другой метод обоснования МОП стремится показать, что МОП можно вывести из аксиом, которые выполняются независимо от того, что происходит на бесконечности.
В этом разделе мы будем следовать, пожалуй, самому знаменитому аксиоматическому подходу от фон Неймана и Моргенштерна (1947). Есть и другие, например: Сэвидж (1954), Джеффри (1983), и Анскомб и Ауманн (1963).
Впервые аксиоматическое обоснование теории принятия решений появилось в приложении к второму изданию Теории игр и экономического поведения (1947). Важно заранее заметить, что в этом аксиоматическом подходе за варианты, между которыми выбирает агент, фон Нейман и Моргентштерн взяли не действия как тут определили их мы, а «лотереи» (где лотерея – это множество исходов, каждому из которых сопоставлена вероятность). Так что, обсуждая их подход, мы тоже будем говорить о лотереях. (Хоть мы и проводим это различие, действия и лотереи тесно друг с другом связаны. В условиях неуверенности, с которыми тут работаем мы, каждое действие ассоциируется с своей лотереей, так что предпочтения между лотереями при желании можно использовать для определения предпочтений между действиями).
Ключевой элемент аксиоматического подхода фон Неймана и Моргенштерна – доказательство, что если агента есть предпочтения, определённые на множестве лотерей, и эти предпочтения удовлетворяют некоторому набору интуитивно-естественных структурных ограничений (аксиом), то мы можем сконструировать из этих предпочтений функцию полезности (с интервальной шкалой) и показать, что решения принимаются так, как будто агент максимизирует ожидаемую полезность согласно этой функции полезности.
Что это за аксиомы, которым должны соответствовать предпочтения агента о лотереях? Их четыре:
Аксиома непрерывности может потребовать дополнительных объяснений. Допустим, что A = \$1 млн., B = \$0 и C = Смерть. Если p = 0.5, это значит, что две лотереи, которые рассматривает агент, это:
Большинство людей не будут безразличны между \$0 и [50% шанс получить \$1 млн., 50% шанс погибнуть] — риск умереть слишком велик! Но если ваши предпочтения непрерывны, то есть какая-то вероятность p для которой вы были бы безразличны касательно двух таких лотерей. Вполне вероятно, что p очень, очень велика:
Возможно, теперь вы были бы безразличны между лотереей 1 и лотереей 2. Или, может быть, вы бы лучше рискнули смертью ради шанса выиграть \$1 млн., в каком случае p, для которого вы безразличны, ниже, чем 0.999999. Пока есть какое-то p, при котором вы будете безразличны между лотереями 1 и 2, ваши предпочтения «непрерывны».
Обосновываясь на этом фон Нейман и Моргенштерн доказали свою теорему, которая устанавливает, что если предпочтения агента между лотереями подчиняются этим аксиомам, то:
Агента, соответствующего VNM-аксиомам, иногда называют «VNM-рациональным». Но с чего «VNM-рациональности» соответствовать нашему понятию рациональности вообще? Как этот результат о VNM-полезности обосновывает утверждение, что рациональный агент при столкновении с выбором в условиях неувренености будет максимизировать ожидаемую полезность? Рассуждения идут так:
Фон Нейман и Моргенштерн доказали посылку 2, а заключение 3 следует из посылок 1 и 2. Но почему следует принимать посылку 1?
Мало кто будет отрицать, что для агента было бы иррационально выбрать лотерею, которую он не предпочитает. Но почему иррационально чтобы предпочтения агента нарушали VNM-аксиомы? Я оставлю это обсуждения на раздел 8.6.
Результату фон Неймана и Моргенштерна предъявлялись некоторые возражения:
VNM-Аксиомы о предпочтениях определяют, что значит для агента быть VNM-рациональным. Но с чего нам их принимать? Обычно утверждается, что каждая из аксиом практически обоснована, потому что агент, который нарушает эти аксиомы, может столкнуться с ситуацией, в которой получит худший результат (с своей собственной точки зрения).
В разделах 8.6.1 и 8.6.2 я более подробно расскажут о практических обоснованиях, которые предлагаются для аксиом транзитивности и полноты. За большими подробностями, включая аргументы, обосновывающие две другие аксиомы, см. Петерсон (2009, гл. 8) и Ананд (1993).
Рассмотрим аргумент выкачивания денег в пользу аксиомы транзитивности (если агент предпочитает A по сравнению с B, а B по сравнению с C, то агент должен предпочитать и A по сравнению с C).
Представьте, что друг предлагает вас ровно одну из трёх… книг, x или y или z… [и] что ваши предпочтения касательно этих трёх книг… [такие, что] вы предпочитаете x по сравнению с y, y по сравнению с z, и z по сравнению с x… [То есть, ваши предпочтения зациклены и ваше отношение предпочтения не транзитивно.] Теперь представьте, что у вас есть книга z, и вам предложили поменять z на y. Поскольку вы предпочитаете y по сравнению с z, рационально поменяться. Так что вы меняетесь, и временно получаете y. Затем, вам предлагают поменять y на x, и вы соглашаетесь, потому что предпочитаете x по сравнению с y. Наконец, вам предложили чуть-чуть заплатить, скажем, один цент, за обмен x на z. Поскольку z строго [предпочитается по сравнению с] x, даже после того, как вы заплатили за обмен, рационально принять предложения. Получается, вы оказались там же, где и начинали, с разницей только, что теперь у вас на цент меньше. Дальше эта процедура повторяется снова и снова. После миллиарда циклов вы потеряли десять миллионов долларов, ничего не получив взамен. (Петерсон (2009), гл. 8)
Пример аргумента от выкачивания денег
Аналогичные аргументы (напр., Густавсон 2010) стремятся показать, что и другие виды нетранзитивных/ациклических предпочтений тоже иррациональны.
(Конечно, практические аргументы не обязаны формулироваться в денежных терминах. Мы с тем же успехом могли бы сконструировать аргумент, показывающий, что из агента с нетранзитивными предпочтениями можно «выкачать» всё счастье, все моральные добродетели или все печеньки.)
Аксиому полноты («агент должен предпочитать A по сравнению с B, или B по сравнению с A, или быть между ними безразличным») часто критикуют, заявляя, что некоторые блага или исходы несравнимы. Например, должен ли рациональный агент высказывать предпочтение (или безразличие) между деньгами и человеческим благополучием?
Вероятно, аксиому полноты можно обосновать практическими аргументами. Если вы считаете, что рационально-допустимо обменивать несравнимые ценности, то можно сконструировать аргумент от выкачивания денег, обосновывающий полноту. Но если вы считаете, что обменивать несравнимые блага не рационально, то такого аргумента составить не получится. (На самом деле, даже если считать, что это рационально, в Мэндлер, 2005 показано, что если агент позволяет новым выборам зависеть от предыдущих, он может избежать выкачивания денег.
На самом деле, есть популярный аргумент против аксиомы полноты: «аргумент о маленьком улучшении». Подробнее см Ченг (1997) и Эспиноза (2007).
Замечу, что теория выявленных предпочтений, согласно которой предпочтения выявляются через поведение при выборах, не оставляет места для несравнимых предпочтений, потому что каждый выбор всегда выявляет отношение предпочтения «лучше, чем», «хуже, чем» или «равно хорошо».
Ещё для того, чтобы разобраться с кажущейся несравнимостью некоторых благ (вроде денег и человеческого благополучия) предлагают мультиатрибутный подход:
В мультиатрибутном подходе каждый атрибут измеряется лучше всего подходящей для него единицей изменения. Может, для финансовых затрат это деньги, а для человеческого благополучия – число спасённых жизней. Общая ценность альтернативы тогда определяется сбором из атрибутов, т.е. денег и жизней, общей сравнительной оценки…
Для выбора из альтернатив с несколькими атрибутами предложено несколько критериев… [Например,] аддитивный критерий присваивает каждому атрибуту вес и сравнивает их по взвешенным суммам, полученным перемножением веса каждого атрибута на его значение. [Хоть] это, пожалуй, и спорно – измерять полезность очень разных объектов на общей шкале… равно спорным кажется и присваивать атрибутам численные веса, как предлагается тут…
[Теперь давайте] рассмотрим очень общее возражение мультиатрибутным подходам. Согласно этому возражению, существует несколько правдоподобных, но разных способов сконструировать список атрибутов. Иногда исход процесса принятия решений зависит от того, какой набор атрибутов выбран. (Петерсон (2009), гл. 8)
Подробнее о мультиатрибутном подходе см. Кини и Райффа (1993).
Мы рассмотрели аксиомы транзитивности и полноты. Теперь мы можем перейти к аксиоме независимости (предпочтение должно сохраняться при вводе возможности получения нового исхода). Есть ли причины её отвергнуть? Вот один повод считать, что может и есть, известный как парадокс Алле (Алле (1953)). Может казаться разумным действовать так, что это противоречит независимости.
Парадокс Алле предлагает нам рассмотреть два выбора (эта версия парадокса основана на Юдковском (2008)). Первый – выбор между:
(1A) получить \$24,000; и (1B) шанс 33/34 получить \$27,000 и 1/34 ничего не получить.
Второй – выбор между:
(2A) шанс 34% получить \$24,000 и 66% шанс ничего не получить; и (2B) шанс 33% получить \$27,000 и шанс 67% ничего не получить.
Эксперименты показали, что многие люди предпочитают (1A) по сравнению с (1B) и (2B) по сравнению с (2A). Но такие предпочтения противоречат независимости. 2A – то же самое, что [шанс 34% получить 1A и шанс 66% ничего не получить] а 2B – то же самое, что [шанс 34% получить 1B и шанс 66% ничего не получить]. Так что независимость требует, чтобы предпочитающие (1A) по сравнению с (1B) предпочитали (2A) по сравнению (2B).
Когда этот результат был получен впервые, его приводили как свидетельство против аксиомы независимости. Однако, хоть парадокс Алле, безусловно, показывает, что независимость не выполняется для дескриптивной теории, совсем неочевидно, что он что-то говорит о нормативном представлении рационального выбора, которое мы тут обсуждаем. Впрочем, как отмечено у Петерсона (2009, гл. 4):
Раз многие, кто много думал об этом примере, всё ещё считают, что было бы рациональным придерживаться описанного выше проблематичного набора предпочтений, кажется, с принципом ожидаемой полезности что-то не так.
Но затем Петерсон отмечает, что многие другие, например, статистик Леонард Сэвидж, считают, что ошибка в парадоксе Алле в человеческих предпочтениях, а не в аксиоме независимости. Если так, то парадокс, кажется, демонстрирует опасность излишнего полагания на интуицию при определении того, как должна выглядеть нормативная теория рациональности.
Парадокс Алле – далеко не единственный случай, когда люди не ведут себя в соответствии с МОП. Другой широко известный пример – парадокс Эллсберга (дальше описан согласно Резнику (1987):
В урне перемешаны девяносто шаров одинакового размера. Тридцать шаров жёлтые, а оставшиеся шестьдесят красные или синие. Нам неизвестно, сколько красных/синих шаров в урне, кроме того, что это число от нуля до шестидесяти. Теперь рассмотрим две ситуации. В каждой ситуации втаскивается шар, и нам надо сделать ставку на его цвет. В ситуации A мы выбираем между ставкой на то, что он жёлтый, и на то, что он красный. В ситуации B мы выбираем между ставкой на то, что он красный или синий, и ставкой на то, что он жёлтый или синий.
Если игрок угадывает, он получает \$100. Парадокс Эллсберга заключается в том, что многие люди ставит на жёлтый в ситуации A и на красный или синий в ситуации B. Более того, многие принимают такие решения не потому, что в обеих ситуациях безразличны, а, скорее, потому, что у них есть строгое предпочтение выбирать именно так.
Парадокс Эллсберга
Но такое поведение не может соответствовать МОП. Чтобы МОП одобряла строгое предпочтение выбора жёлтого в ситуации A, агент должен присваивать тому, что выбранный шар будет синим, вероятность выше 1/3. Напротив, чтобы МОП одобряла выбор красного или синего в ситуации B, агент должен присваивать тому, что выбранный шар будет синим, вероятность ниже 1/3. Так что совместно эти решения агент, следующий МОП, принимать не будет.
Те, кто считает, что решения в условиях неизвестности нельзя преобразовать в решения в условиях неуверенности, с лёгкость. отвечают на парадокс Эллсберга: этот пример использует ситуацию в условиях неизвестности, так что то, что решения людей нарушают МОП не имеет значения, потому что она тут всё равно неприменима.
Тем же, кто считает, что МОП – подходящий стандарт для выбора в таких ситуациях, надо найти другой ответ на парадокс. Как и с парадоксом Алле есть некоторые разногласия по поводу того, какой ответ лучше. Впрочем, и тут многие, включая Леонарда Сэвиджа, заявляют, что МОП тут приводит к правильному решению, и это наша интуиция ошибается (за хорошим пересказом аргументов Сэвиджа опять см. Resnik (1987).
Другое возражение против подхода VNM (и в целом против ожидаемой полезности) – это Санкт-Петербургский парадокс. Он использует бесконечные полезности. Он основан на игре, в которой подбрасывают честную монетку до тех пор, пока она не упадёт орлом. В этот момент агент получает приз в 2n полезности, где n – это число произошедших подбрасываний. Так называемый парадокс получается потому, что ожидаемая полезности выбора сыграть в эту игру бесконечно, так что, согласно стандартному подходу ожидаемой полезности, за право сыграть агент должен быть согласен заплатить любую конечную цену. Но это кажется неразумным. Скорее кажется, что агент должен быть готов заплатить сравнительно немного. Так что опять получается впечатление, что подход ожидаемой полезности тут ошибочен.
На это отвечали по-разному. Самое очевидное – мы можем сказать, что парадокс неприменим к VNM-агентам, потому что теорема VNM присваивает всем лотереям вещественные числа, а бесконечность – не вещественное число. Но неочевидно, что это решает всю проблему. В конце-концов, Санкт-Петербургский парадокс по сути своей не о бесконечных полезностях, а о случаях, когда подход ожидаемой полезности, кажется, переоценивает какой-то из вариантов. Такие случаи можно сконструировать и в конечном случае. Например, если L будет конечным ограничением полезности, то можно рассмотреть такой сценарий (из Петерсона, 2009, p. 85):
Честную монетку подбрасывают, пока она не упадёт орлом. Потом игрок получает приз в min{2n·10-100, L} единиц полезности, где n – число произошедших подбразываний монетки.
В таком случае, даже если L велика, кажется, что много платить за право сыграть неразумно. В конце-концов, как замечает Петерсон, в девяти случаях из десяти игрок выиграет не больше 8·10-100. Если тут и правда неразумно заплатить 1 единицу полезности, то простого ограничения полезности агента неким конечным количеством не хватит, чтобы защитить подход ожидаемой полезности. (Есть и другие проблемы. см. интересную конечную проблему у Юдковского, 2007 и особо озадачивающий пример, связанный с Санкт-Петербургским парадоксом, у Новера и Хайека, 2004)
Как обычно, нет консенсуса по поводу того, что выявляет Санкт-Петербургский парадокс. Некоторые принимают одно из решений и не беспокоятся по его поводу. Другие считают, что он выявляет серьёзную проблему с теориями ожидаемой полезности. Третьи считают, что парадокс не разрешён, но забрасывать теорию ожидаемой полезности всё равно не надо.
Часто утверждается, что для теорий, перечисленных в разделе 8.2 ответ «нет». Чтобы объяснить получше, я сначала опишу некоторые различия между прямым и косвенным подходами к аксиоматической теории принятия решений.
Петерсон (2009, гл. 4) объясняет:
При косвенном подходе, а он наиболее популярен, агент предпочитает рискованное действие [или лотерею] в сравнении с другим не потому что ожидаемая полезность первого выше. Нет, агента просто просят высказать предпочтения касательно некоторого множества рискованных действий… Затем, если эти предпочтения соответствуют небольшому набору структурных ограничений (аксиом), то можно показать, что решения агента можно описать так, как будто бы агент выбирал, что делать, присваивая исходам численные вероятности и полезности и затем максимизируя ожидаемую полезность…
[В противовес этому,] прямой подход стремится построить предпочтения по поводу действий из напрямую присвоенных исходам вероятностей и полезностей. В отличие от косвенного подхода, нет допущения о том, что у агента есть доступ к предпочтениям до этих рассуждений.
Все аксиоматические теории принятия решений, перечисленные в разделе 8.2, следовали косвенному подходу. Можно сказать, что эти теории не могут выдать никакого руководства к действию, потому что они требуют, чтобы агент «заранее» установил свои предпочтения. Но агент, который их уже установил, уже знает, что предпочитает, так что теория не может дать ему нового руководства к действию, которого у него уже не было в предпочтениях.
Петерсон (2009, гл. 10) приводит практический пример:
Например, сорокалетняя женщина, которая хочет совета по поводу, скажем, того, развестись ли ей с мужем, вероятно, получит [от двух подходов] очень разные ответы. [Косвенный подход] посоветует ей сначала выяснить собственные предпочтения по поводу очень большого набора рискованных действий, включая те, о которых она изначально задумывается, а потом просто увериться, что все её предпочтения совместимы с определёнными структурными требованиями. Затем, пока эти требования не нарушены, женщина может делать что ей угодно, независимо от того, какие у неё на самом деле убеждения и желания. [Прямой подход] же посоветует ей сначала присвоить её желаниям и убеждениям численные полезности и вероятности, а потом аггрегировать их в решение, применив принцип максимизации ожидаемой полезности.
Выходит, только прямой подход даёт агенту руководство к действию. Но прямой подход очень молод (Петерсон (2008); Козик (2011)), и только время покажет, выдержит ли он испытание профессиональной критикой.
Предупреждение: Может запутать то, что прямой подход Петерсона (2008) называется «не-Байесианской теорией принятия решений», несмотря на то, что он использует Байесианскую теорию вероятности.
За другими попытками получить руководство к действию из нормативной теории принятия решений, см. Фалленштейн (2012) и Стиннон (2013).
Чтобы рассчитать ожидаемую полезность действия (или лотереи) необходимо определить вероятность каждого исхода. В этом разделе я пройдусь по элементам теории вероятности, связанным с теорией принятия решений.
За дополнительными вводными материалами в теорию вероятности, см. Хаусон и Урбах (2005), Гриммет и Стирзакер (2001), и Кллер и Фридман (2009). Этот раздел сильн заимствует из Петерсона (2009, гл. 6 & 7), где приводится очень ясное введение в вероятности в контексте теории принятия решений.
Интуитивно, вероятность – это число между 0 и 1, обозначающее, насколько возможно наступление некоторого события. Если у события вероятность 0, то оно невозможно. А если у события вероятность 1, то оно не может не произойти. Есть вероятность события где-то посередине, то событие тем вероятнее, чем выше это число.
Как и с МОП, теорию вероятности можно вывести их небольшого набора простых аксиом. В случае вероятности, их три. Они называются аксиомами Колмогорова в честь советского математика Андрея Колмогорова. Первая аксиома устанавливает, что вероятности – это вещественные числа между 0 и 1. Вторая – что если события в некотором множестве взаимоисключающи и при этом исчерпывающи (то есть, точно произойдёт ровно одно из них), то сумма вероятностей этих события должна быть равна 1. Третья – что есть два события взаимоисключающи, то вероятность, что произойдёт одно из них, равна сумме их отдельных вероятностей.
Из этих трёх аксиом можно вывести всю остальную теорию вероятности. Дальше в этом разделе я пройдусь по некоторым элементам этой широкой теории.
Для теории принятия решений особо важным элементом теории вероятности является идея условных вероятностей. Они соответствуют тому, насколько что-то вероятно при учёте некоторой дополнительной информации. Так что, например, условная вероятность может показывать, насколько возможно, что будет дождь, при условии, что прогноз погоды его предсказал. Мощный инструмент для вычисления условных вероятностей – теорема Байеса (см. более подробное введение у Юдковского, 2003). Формула такова:
P(A|B)=(P(B|A)P(A))/P(B)
Теорему Байеса используют, когда надо вычислить вероятность некоторого события A при наличии свидетельства B. Так что эта формула используется для обновления вероятностей на основе новых свидетельств. Пусть вы пытаетесь оценить вероятность того, что завтра будет дождь, и кто-то сообщил вам, что прогноз погоды предсказал, что будет. Эта формула скажет вам, как вычислить новую вероятность на основе новой информации. В подобных случаях изначальную вероятность (до учёта новой информации) называют априорной, а новую вероятность, получившуюся в результате применения теоремы Байеса – апостериорной.
Использование теоремы Байеса для обновления вероятности на основе свидетельства от прогноза погоды.
Теорема Байеса, кажется, решает задачу обновления априорных вероятностей на основе новой информации. Но она оставляет открытым вопрос о том, как изначально определить априорную вероятность. Иногда нет очевидного способа это сделать. Одно из предложенных решений этой проблемы – выбрать любые осмысленные априорные вероятности. Если набрать достаточно свидетельств, то многократное применение теоремы Байеса сведёт вероятности к примерно одним и тем же апостериорным, даже при очень разных стартовых точках. Так что изначальный выбор не настолько критически важен, как может показаться.
Есть две основных точки зрения на то, что значат вероятности: объективизм и субъективизм. Грубо говоря, объективисты считают, что вероятности говорят нам что-то о внешнем мире, а субъективисты – что они говорят нам о наших убеждениях. В теории принятия решений большинство придерживается субъективистских взглядов на вероятности. Согласно ним в вероятностях представлены субъективные степени убеждённости. То есть, сказать, например, что вероятность дождя равна 0.8 – это сказать, что агент, о котором идёт речь, довольно сильно убеждён, что пойдёт дождь (см. обоснования этой точки зрения в Jaynes, 2003). Заметим, что, согласно этому взгляду, другой агент в тех же обстоятельствах мог бы присвоить тому, что пойдёт дождь, другую вероятность.
Против субъективной точки зрения на вероятности можно высказать вопрос: почему, в таком случае, наши степени убеждённости обязаны соответствовать аксиомам Колмогорова? Например, почему наши субъективные степени убеждённости в взаимоисключающие исчерпывающие события должны складываться в единицу? На это можно ответить, например, что агенты, чьи степени убеждённости не соответствуют этим аксиомам, будут уязвимы для предложений ставок с гарантированным проигрышем. Петерсон (2009, гл. 7) разъясняет:
Например, допустим, что вы убеждены, что хотя бы один индус выиграет золотую медаль на следующих Олимпийских Играх (событие G) с степенью 0.55. И, в то же время, ваша субъективная степень убеждённости в том, что ни один индус не выиграет золотую медаль на следующих Олимпийских Играх (событие ¬G) равна 0.52. И пусть тогда хитрый букмекер предлагает заплатить вам \$1 за каждое из этих событий, которое реально произойдёт. Тогда, так как ваша субъективная степень убеждённости, что произойдёт G равна 0.55, рационально было бы заплатить за ставку на это вплоть до \$1·0.55 = \$0.55. Но более того, раз ваша степень убеждённости в ¬G равна 0.52, вы должны быть готовы заплатить вплоть до \$0.52 за право сделать ставку и на второе событие, ведь \$1·0.52 = \$0.52. Но теперь получается, что вы заплатили \$1.07 за совершение двух ставок, которые точно принесут вам ровно \$1 независимо от того, что произойдёт… Уж точно это должно быть иррациональным. Причина иррациональности – то, что ваши субъективные степени убеждённости нарушали законы вероятности.
Аргумент от ставок
Можно доказать, что агент уязвим для подобных систем ставок тогда и только тогда, когда его степени убеждённости нарушают аксиомы вероятности. Это обосновывает, почему степени убеждённости должны им соответствовать.
Другая сложность для субъективного подхода – как вероятности измерять. Если они представляют субъективные степени убеждённости, то, кажется, нет простого способа их определить, основываясь на наблюдениях за миром. Но на эту проблему появляется всё больше ответов, один из которых лаконично описан у Петерсона (2009, гл. 7):
Главное новшество… Сэвиджа можно охарактеризовать как систематические процедуры для связи вероятности… с утверждениями об объективно наблюдаемом поведении, например, за предпочтениями, выявленными выбором. Например, представьте, что мы хотим измерить субъективную вероятность, которую Кэролин присваивает тому, что монетка у неё в руках при следующем подбрасывании упадёт орлом. Для начала, мы спросим у неё, какой из таких двух весьма щедрых вариантов она бы предпочла:
A: «Если монета упадёт орлом, ты выигрываешь автомобиль, а иначе – ничего.»
B: «Если монета не упадёт орлом, ты выигрываешь автомобиль, а иначе – ничего.»
Предположим, Кэролин предпочитает A. Тогда мы можем заключить, что она считает, что монетка вероятнее упадёт орлом, чем нет. Для этого надо сделать допущения, что Кэролин предпочитает выиграть автомобиль, а не ничего, и что её предпочтения по поводу таких предложений в условиях неуверенности полностью определяются её убеждениями и желаниями, касающимися перспективы выиграть автомобиль…
Наконец, нам надо обобщить обрисованную выше процедуру измерения, чтобы она всегда позволяла нам представить степени убеждённости Кэролин в виде точных численных вероятностей. Для этого нам понадобится попросить Кэролин высказать предпочтения касательно куда большего множества вариантов, а потом решать с конца… Например, допустим, что Кэролин хочет измерить свою субъективную вероятность того, что её машина, стоящая \$20,000 будет украдена в течении года (событие S). Если она считает, что \$1000 – это… самая высокая цена, которую она готова заплатить за то, что в случае наступления события S она получит \$20000, то получается, что субъективная вероятность S у Кэролин равна 1000/20000 = 0.05. Это при условии, что её предпочтения соответствуют принципу максимизации ожидаемой денежной ценности…
Проблема с этим методом – что очень мало у кого предпочтения сформированы соответственно принципу максимизации ожидаемой денежной ценности. Для большинства людей добавочная полезность денег падает с их количеством…
К счастью, [у этой проблемы] есть умное решение. Основная идея – поставить на предпочтения по поводу вариантов выборов в условиях неуверенности некоторые структурные ограничения [напр., аксиому транзитивности]. Тогда субъективная функция вероятности получается при их учёте сама собой, как бы задним числом. Раз агент в условиях неуверенности предпочитает одни варианты другим, и его предпочтения… соотвествуют структурным аксиомам, то агент ведёт себя так, будто предпочтения формируются через присвоение субъективных вероятностей и полезностей и последующую максимизацию ожидаемой полезности.
Любопытная черта этого подхода – что вероятности (и полезности) выводятся «изнутри» теории. Агент в условиях неуверенности предпочитает один вариант другому не потому что считает субъективные вероятности и полезности первого более привлекательными. Скорее… из структуры предпочтений агента логически вытекает, что их можно описать так, как будто выбор агента руководствуется субъективными функциями вероятности и полезности…
…Сэвидж стремится выявить субъективные интерпретации аксиом вероятности, утверждая что-то о предпочтениях… в условиях неуверенности. Но… с чего бы теории субъективной вероятности использовать какие-то допущения о предпочтениях? Предпочтения и убеждения – разные вещи. Что бы там ни говорили [Сэвидж и прочие], лишённый всяких эмоций и предпочтений агент всё равно точно мог бы обладать какими-то убеждениями.
Есть и другие подходы, например, вот из DeGroot (1970):
Основное допущение ДеГрута – что агент может качественно сравнивать пары событий, судить, какое из них более вероятно. Например, можно допустить, что агент может решить для себя, более, менее или равновероятно, согласно его убеждениям, то, что пойдёт дождь в Кембридже, по сравнению с тем, что пойдёт дождь в Каире. Дальше ДеГрут показывает, что если качественные суждения агента достаточно аккуратны и удовлетворяют нескольким структурным аксиомам, то [их можно описать распределением вероятностей]. Так что в теории ДеГрута – функция вероятности выстраивается аккуратными качественными оценками, что делает их количественными.
К сожалению, сказать, что рациональный агент «максимизирует ожидаемую полезность» – недостаточно конкретно. Есть больше одного алгоритма принятия решений, стремящегося максимизировать ожидаемую полезность, и эти алгоритмы дают разные ответы на некоторые задачи. «Задача Ньюкомба» – одна из таких.
В этом разделе мы рассмотрим эти алгоритмы и покажем, как они работают на задаче Ньюкомба и в похожих «ньюкомбоподобных» случаях.
Некоторые из основных источников на эту тему: Кэмпбелл и Соуден (1985), Ледвиг (2000), Джойс (1999), и Юдковский (2010). Мёртельмайер (2013) обсуждает ньюкомбоподобные задачи в контексте систем «агент-окружение».
Я начну с представления нескольких ньюкомбоподобных задач, чтобы потом я мог к ним обращаться. Ещё я ознакомлю вас с нашими первыми двумя алгоритмами принятия решений, чтобы я мог демонстрировать, как выбор алгоритма влияет на результаты, которых добивается агент в этих задачах.
Эту задачу сформулировал физик Уильям Ньюкомб, а впервые опубликаована она была в Нозик (1969). Ниже я опишу её версию, вдохновлённую Юдковским (2010).
Суперинтеллектуальный робот под именем Омега из другой галактики посещает Землю и демонстрирует, что он очень хорош в предсказании событий. Тут нет никакой магии, просто он куда больше нас знает о науке, у него есть миллиарды сенсоров, раскиданных по всей планете, и вычислительный кластер размером с Луну, на котором он использует эффективные алгоритмы для моделирования людей и других сложных систем с беспрецедентной точностью.
Омега показывает вам две коробки. Коробка A прозрачная, и в ней лежит \$1000. Коробка B непрозрачная, и либо в ней лежит \$1 млн., либо она пуста. Вы можете выбрать взять обе коробки или взять только коробку B. Если Омега предсказал, что вы возьмёте обе коробки, то он оставил коробку B пустой. А вот если Омега предсказал, что вы возьмёте только одну коробку, то он положил в коробку B миллион.
К тому моменту, как вам представлен выбор, Омега уже улетел играть в следующую игру. Содержимое коробки B не изменится после того, как вы примете решение. Более того, вы уже видели, как Омега играл в подобные игры с подобными вам людьми тысячу раз, и он всегда предсказывал выбор игрока правильно.
Стоит брать одну коробку или две:
Задача Ньюкомба
Вот аргумент за то, чтобы брать две коробки. Либо миллион в коробке уже есть, либо его там уже нет. Ваш выбор сейчас не может повлиять на содержимое коробки B. Поэтому, вам надо брать две коробки, потому что тогда вы получаете тысячу долларов плюс то, что в коробке B. Это прямое применение принципа доминирования (раздел 6.1). Выбор двух коробок доминирует над выбором одной.
Убеждены? Ну а вот аргумент за выбор одной коробки. Во всех тех играх, которые вы раньше видели, все, кто брал две коробки, получали тысячу долларов, а все, кто брал одну – получали миллион. Так что вы практически уверены, что взяв две коробки получите тысячу, а взяв одну – миллион. Так что, чтобы максимизировать свою ожидаемую полезность, вам надо взять одну коробку.
Нозик (1969) сообщает:
Я задавал эту задачу многим людям… Почти для всех совершенно ясно и очевидно, что надо делать. Сложность в том, что эти люди почти поровну разделились во мнениях, и многие из них считают, что другая половина просто говорят глупости.
Это не «лишь вербальный» спор (Chalmers 2011). Теория принятия решений предлагает несколько алгоритмов совершения выбора, и они приводят к разным исходам. Если перевести на простой язык, первый алгоритм, «свидетельственная теория принятия решений» (evidential decision theory, EDT, СТПР) говорит: «Выбирай такие действия, что ты был бы рад получить новость о том, что ты их выбрал». Второй алгоритм, «каузальная теория принятия решений» (causal decision theory, CDT, КТПР) говорит: «Выбирай такие действия, от которых ты ожидаешь позитивного воздействия на мир».
У многих теоретиков интуиция поддерживает правоту CDT. Но CDT-агент «проигрывает» в задаче Ньюкомба, остаётся с тысячей долларов, тогда как EDT-агент получает миллион. Сторонники EDT могут спросить сторонников CDT: «Если вы такие умные, то почему такие бедные?». Как пишет Спон (2012), «это должна быть плохая рациональность, если она возмущается о вознаграждении иррациональности.» Или как утверждает Юдковский (2010):
Максимизатор ожидаемой полезности должен максимизировать полезность – не формальность, разумность или недоступность критике…
В ответ на явную «победу» EDT над CDT в задаче Ньюкомба, сторонники CDT представили аналогичные задачи, в которых CDT-агент «выигрывает», а EDT-агент «проигрывает». Сторонники EDT же ответили дополнительными ньюкомбоподобными задачами, в которых снова EDT выигрывает, а CDT проигрывает. Давайте рассмотрим их по очереди.
Но для начала немного подробнее рассмотрим наши два алгоритма принятия решений.
EDT описать легко: согласно этой теории, для определения ожидаемой полезности разных действий агентам следует использовать условные вероятности. Конкретнее, им надо использовать вероятность того, что мир находится в каждом возможном состоянии, при учёте рассматриваемого действия. Так что в задаче Ньюкомба они рассматривают вероятность того, что коробка B содержит миллион, при условии свидетельства, что они приняли решение взять одну или две коробки. Так теория формализует «действие – хорошие новости».
CDT сложнее, как минимум потому, что её формулировали многими разными способами, и они эквивалентны друг другу только при принятии некоторых фоновых допущений. Хорошо помогает её понять рассмотрение подхода через контрфактуалы. Это одна из наиболее интуитивно понятных формулировок. Этот подход использует вероятности при определённых гипотетических условиях. Можно считать, что они отображают каузальное воздействие выбора агента на состояние мира, вроде «если бы я выбрал определённое действие, то мир был бы в таком-то состоянии». В задаче Ньюкомба такая формулировка CDT рассматривает вероятность контрфактуалов вроде «если бы я взял одну коробку, то в коробке B был бы миллион» и так оценивает каузальное воздействие выбора на содержимое коробок.
Можно провести это различие и в формулах. EDT и CDT обе согласны, что следует максимизировать ожидаемую полезность действия, где ожидаемая полезность действия Ai при множестве возможных исходов O определена так:
В этом уравнении V(Ai & Oj) – это ценность для агента сочетания действия и исхода. То есть, это полезность, которую получает агент, если совершает определённое действие с определённым исходом. А PrAiOj – это вероятность наступления исхода Oj при условии того, что агент выбрал действие Ai. Именно в этой вероятности CDT и EDT различаются. EDT использует условную вероятность, Pr(Oj|Ai), а CDT – гипотетическую вероятность Pr(Ai□→Oj).
Эти две версии формулы ожидаемой полезности позволяют формально продемонстрировать, почему EDT и CDT дают свои ответы на задачу Ньюкомба. Давайте примем два упрощающих допущения. Во-первых, что для агента каждый доллар стоит ровно одну единицу полезности (так что для него полезность денег линейна). Во-вторых, что Омега – идеальный предсказатель действий людей, так что если агент берёт две коробки – это однозначное свидетельство, что в непрозрачной коробке ничего нет, и наоборот. При этих допущениях, EDT вычисляет ожидаемую полезность каждого решения так:
Ожидаемая полезность выбора двух коробок согласно EDT
Ожидаемая полезность выбора одной коробки согласно EDT
Согласно этим вычислениям, у выбора одной коробки ожидаемая полезность выше, так что EDT-агент одну коробку и выберет.
С другой стороны, учитывая, что решение агента каузально не повлияет на сделанное ранее предсказание Омеги, CDT-агент будет использовать одну и ту же вероятность, независимо от действия. Предпочитаемое в итоге решение будет одно и то же, независимо от этой вероятности, так что для иллюстрации мы просто произвольно положим вероятность, что в коробке ничего нет, равной 0.5, и, соответственно, вероятность, что в коробке миллион – тоже равной 0.5. Тогда CDT вычисляет ожидаемую полезность каждого решения так:
Ожидаемая полезность выбора двух коробок согласно CDT
Ожидаемая полезность выбора одной коробки согласно CDT
Согласно этим вычислениям, выбор двух коробок принесёт большую ожидаемую полезность, так что CDT-агент так и сделает. Там мы формальнее продемонстрировали ранее полученный неформально результат: в задаче Ньюкомба CDT-агенты будут брать две коробки, а EDT-агенты – одну.
Как уже упоминалось, есть и альтернативные формализации CDT. Вот Дэвид Льюис (1981) и Брайян Скайрмс (1980) предлагают подходы, которые полагаются на разделение мира на состояния, чтобы уловить каузальную информацию, а не на гипотетические условия. Например, в версии Льюиса, агент вычисляет ожидаемую полезность действий через безусловное отсылание к состояниям мира – гипотезам зависимости – описаниям того, как мир может отреагировать на действия. Они по сути своей содержат необходимую каузальную информацию.
Некоторые другие традиционные подходы к CDT: через визуализации из Собеля (1980) (ещё см. Льюис (1981)) и через безусловные ожидания из Сэвиджа (1954). Заинтересовавшимся в разных подходах к CDT лучше всего ознакомиться с Льюисом (1981), Вайрихом (2008), и Джойсом (1999). Из более нового: работы из области информатики над так называемыми каузальными байесовскими сетями привели е инновационному подходу к CDT, который получил некоторое недавнее внимание в философских изданиях (Перл 2000, гл. 4 и Спон (2012)).
Теперь, вооружившись EDT и формулировкой CDT через контрфактуалы, вернёмся к анализу сценариев с принятием решений.
Есть много вариантов медицинских задач Ньюкомба, но форма у них схожая. Есть, например, задача Соломона (Гиббард и Харпер (1976)) и задача о вреде курения (Иган (2007)). Ниже я опишу вариант под названием «задача о жвачке» (Юдковский (2010)):
Допустим, недавно опубликованное медицинское исследование показало, что жвачка, кажется, вызывает абсцесс горла. Исследователи обнаружили, что из людей, которые жуют жвачку, 90% умерло от абсцесса горла до 50 лет, а в то же время, из людей, которые жвачку не жуют – только 10%. Объясняя результаты, исследователи предположили, что слюна, протекая по горлу, портит клеточную защиту от бактерий. Жевали бы вы жвачку, прочитав это исследование? Но вот выходит другое исследование, оно показывает, что у большинства тех, кто жуёт жвачку, есть определённый ген, CGTA, и смертность укладывается в такую таблицу:
CGTA есть | CGTA нет | |
Жуют жвачку | 89% умирает | 8% умирает |
Не жуют жвачку | 99% умирает | 11% умирает |
По ней получается, что есть у вас ген CGTA или нет, жвачка снижает ваши шансы умереть от абсцесса горла. Но почему тогда у тех, кто жуёт, настолько больше жертв? Потому что люди с геном CGTA склонны и жевать жвачку, и умирать от абсцесса. Авторы второго исследования продемонстрировали и эксперимент, показавший, что слюна от жевания жвачки может убивать бактерий, из-за которых образуется абсцесс. Исследователи предположили, что так как люди с геном CGTA сильно подвержены абсцессу горла, в ходе естественного отбора у них выработалась склонность жевать жвачку, чтобы защититься от абсцесса. Сильная корреляция между жеванием жвачки и абсцессом тогда вызвана не тем, что жвачка – причина абсцесса, а потому, что третий фактор – GCTA, приводит и к тому, и к другому.
Теперь, узнав об этом новом исследовании, вы бы выбрали жевать жвачку? Это защищает от абсцесса независимо от того, есть ли у вас ген CGTA. Но друг, узнавший, что вы решили жевать жвачку (как часто делают люди с геном CGTA) был бы очень обеспокоен этой новостью – так же, как новостью, что вы взяли обе коробки в задаче Ньюкомба. Кажется, в этом случае уже EDT выдаёт неправильный ответ. Это ставит под сомнение… правило «Выбирай такие действия, что ты был бы рад получить новость о том, что ты их выбрал». Хоть новость о том, что кто-то решил жевать жвачку и тревожит, но это всё равно защищает от абсцесса горла. Правило [CDT] «Выбирай такие действия, от которых ты ожидаешь позитивного воздействия на мир», кажется, сработает тут лучше.
Один из ответов на это, так называемая «защита от импульса» (tickle defense) (Иллс, 1981), возражает, что на самом деле EDT в таких случаях приходит к правильному ответу. Согласно этой защите, самый разумный способ сконструировать такую «задачу о жвачке» допускает, что CGTA вызывает желание («импульс»), из-за которого агент с большей вероятностью будет жевать жвачку, а не вызывает действие напрямую. Тогда, если мы допустим, что агент уже знает о своих желаниях, агент уже знает, вероятно ли, что у него есть ген CGTA, и выбор жевать жвачку не даст ему дополнительных плохих новостей. Следовательно, EDT-агент будет жевать жвачку, чтобы получить хорошую новость о том, что он уменьшил свои шансы абсцесса.
К сожалению, защита от импульса не достигает своих целей. Вводя этот подход, Иллс надеялся, что так EDT сможет подражать CDT без якобы неэлегантного полагания на каузальность. Но Собель (1994, гл. 2) показал, что защита от импульса с этим не справляется. И тех, кто чувствует, что EDT, выбирая одну коробку, правильно справлялась с задачей Ньюкомба, разочарует, что защита от импульса приводит к тому, что в некоторых версиях задачи Ньюкомба агент берёт две коробки. Так что она решает для теории одну проблему, но вводит другую.
Итак, так же, как CDT «проигрывает» в задаче Ньюкомба, EDT «проигрывает» в медицинских задачах Ньюкомба (если отвергнуть защиту от импульса) или же присоединяется к CDT и «проигрывает» в самой задаче Ньюкомба (если защиту от импульса принять).
Можно привести и другие проблематичные для EDT примеры, когда свидетельство, которое предоставляет ваше решение, касается не черты, с которой вы родились (или были созданы), а с какой-нибудь другой деталью мира. Один из таких примеров – задача про газировку Ньюкомба, придуманная Юдковским (2010):
Вы знаете, что в ходе двойного слепого клинического тестирования вам скоро дадут одну из двух газировок. После того, как вы её выпьете, вы войдёте в комнату, где будет шоколадное мороженое и ванильное мороженое. Первая возможная газировка производит сильное, но полностью подсознательное желание съесть шоколадное мороженое, а вторая – сильное подсознательное желание съесть ванильное мороженое. «Подсознательное» тут означает, что у вас нет интроспективного доступа к этому изменению, так же, как вы не можете отвечать на вопросы о работе отдельных нейронов вашего мозга. Вы можете лишь сделать вывод о своих изменившихся вкусах исходя из того, какое мороженое вы выбрали.
Все участники исследования, которые тестировали «шоколадную» газировку, будут после окончания исследования вознаграждены миллионом долларов, а те, кто тестировал «ванильную» газировку не получат ничего. Но, независимо от этого, подопытные, которые съели ванильное мороженое, получат дополнительную тысячу долларов, а те, кто съел шоколадное – никакой дополнительной выплаты. Псевдослучайный алгоритм поровну (50/50) распределяет подопытных между «шоколадной» и «ванильной» газировок. Вам известно, что 90% из тех предыдущих подопытных, которые съели шоколадное мороженое, действительно пили «шоколадную» газировку. И наоборот, 90% из тех предыдущих подопытных, которые съели ванильное мороженое, пили «ванильную» газировку. Какое мороженое вы бы съели?
Газировка Ньюкомба
В этом случае EDT-агент решит съесть шоколадное мороженое, потому что это даст ему свидетельство в пользу того, что он выпил «шоколадную» газировку и после эксперимента получит миллион долларов. Но это кажется ошибочным решением, так что EDT-агент «проигрывает».
В ответ на нападки на их теорию, сторонники EDT могут представлять другие сценарии, в которых EDT «выигрывает», а как раз CDT «проигрывает». Один из таких примеров – Мета-ньюкомбова задача, предложенная Бостромом (2001). Если её подогнать к той же истории про суперинтеллектуального робота Омегу (раздел 11.1.1), она выглядит так: Либо Омега уже положил в коробку B миллион или ничего (в зависимости от своего предсказания вашего выбора), либо же Омега смотрит, как вы выбираете, и после этого кладёт или не кладёт миллион в зависимости от выбора. Но вы не знаете, что из этого правда. Примерно в половине случаев Омега делает свой ход перед игроком-человеком, а в половине – после него.
Но предположим, что есть другой суперинтеллектуальный робот, Мета-Омега, который, как известно, умеет идеально предсказывать как действия людей, так и действия Омеги. Мета-Омега говорит вам, что либо вы возьмёте две коробки, а Омега «сделает свой ход» после вашего выбора, либо вы возьмёте одну коробку, но Омега уже сделал свой ход (и улетел играть с кем-то ещё).
EDT-агент в таком случае берёт одну коробку и уходит с миллионом долларов. А вот CDT-агент сталкивается с дилеммой: если взять две коробки, кто действие Омеги зависит от выбора агента, так что «рационально» было бы взять одну коробку. Но если CDT-агент берёт одну коробку, то действие Омеги было раньше (а значит, физически не зависело от) выбора агента, так что «рациональным» решением было бы взять две коробки. Так что может показаться, что CDT-агент тут не сможет достичь какого бы то ни было решения. Но дальнейшее обдумывание выявляет, что тут всё сложнее. Согласно CDT, то, что агент должен сделать в этой ситуации, зависит от мнения агента в собственных действиях. Если у агента есть сильная уверенность, что он возьмёт две коробки, то он должен брать одну, а если у агента есть сильная уверенность, что он возьмёт одну коробку, то он должен брать две. Раз мнение агента о своих действиях не дано в условии это задачи, то сценарий недоопределён, и сложно сказать, какие выводы надо из него делать.
Есть и другой случай, в котором, согласно CDT, то, что агент должен сделать, зависит от его мнения о том, что он сделает. Это представленная Иганом (2007) кнопка психопата:
Пол обдумывает, нажать ли кнопку «убить всех психопатов». Он думает, было бы куда лучше жить в мире без психопатов. К сожалению, Пол весьма уверен, что такую кнопку нажал бы только психопат. Пол очень сильно предпочитает жить в мире с психопатами по сравнению с тем, чтобы погибнуть. Должен ли Пол нажать кнопку?
Многие считают, что не должен. В конце концов, если он нажмёт, то он почти наверняка психопат, так что нажатие кнопки его убьёт. EDT-агент ответил бы так же: Нажатие кнопки сообщает агенту плохую новость, что он психопат, так что погибнет в результате своего действия.
С другой стороны, если Пол сильно уверен, что он не психопат, то CDT скажет, что он должен нажать на кнопку. CDT отметит, что, с учётом уверенности Пола, что он не психопат, его действия почти наверняка произведут положительный эффект – все психопаты умрут, а Пол выживет. Таким образом, CDT-агент тут решил бы неуместно и нажал бы кнопку. Важно заметить, что, в отличие от Мета-ньюкомбовой задачи, мнение о собственном поведении в полной версии этого сценария у Игана указано (не численно, агент думает, что вряд ли он психопат и, следовательно, вряд ли нажмёт кнопку).
Но, чтобы поставить для CDT такую задачу, Иган совершил несколько допущений о том, как агенту следует решать, что делать, в зависимости от того, что он думает, что он сделает. В ответ выдвигались альтернативные взгляды на то, как решать в таких ситуациях (в частности у Арнцениуса (2008) и Джойса (2012)). В результате всего этого, нет единого мнения о том, действительно ли задача с кнопкой психопата для CDT проблематична.
Не все сценарии с принятием решений проблематично лишь для одной из CDT и EDT. Можно продемонстрировать и ситуации, в которых «проигрывают» как EDT-агент, так и CDT-агент. Один из таких примеров – Автостопщик Парфита (Парфит (1984), стр. 7):
Предположим, я еду на машине по пустыне. Машина ломается. Вы – незнакомец, и единственный другой водитель поблизости. Я вас остановил, и предлагаю большое вознаграждение, если вы меня спасёте. Я не могу выдать его вам сейчас, но обещаю это сделать, когда доберусь домой. Теперь допустим, что я прозрачен – не могу никого обмануть. Я не могу убедительно врать. Меня всегда выдаёт тон голоса, смущение, или что-то ещё. Наконец, допустим, что я знаю о себе, что я эгоист. Если вы довезёте меня до дому, мне будет хуже, если я отдам вам обещанное вознаграждение. Поскольку я знаю, что я никогда не сделаю то, что сделает мне хуже, я знаю, что нарушу своё обещание. Так как я не могу убедительно врать, вы тоже это знаете. Вы не верите моему обещанию и оставляете меня в пустыне.
В этом сценарии агент «проигрывает», если потом отказывается отдать незнакомцу вознаграждение. Но откажутся и EDT-агенты, и CDT-агенты. В конце концов, в этот момент агент уже в безопасности, так что отдав вознаграждение, они и не получат хороших новостей о своей безопасности, и не приведут к ней. Получается, в этом случае обе теории «проигрывают».
Есть и другие случаи, когда «проигрывают» и EDT, и CDT. Один из них – Прозрачная задача Ньюкомба, как минимум одна из её версий предложена у Дрешера (2006, стр. 238-242). Этот сценарий аналогичен изначальной задаче Ньюкомба, но в этом случае обе коробки прозрачные, так что вы видите их содержимое, когда принимаете решение. И опять Омега положил в коробку A тысячу долларов, а в коробку B – либо миллион, либо ничего, в зависимости от того, как Омега предсказал ваше поведение. Конкретнее, Омега предсказывал, как вы поступите, если увидите, что в коробке B лежит миллион. Если Омега предсказал, что вы возьмёте одну коробку, то он положил в коробку B миллион. А вот если Омега предсказал, что вы возьмёте обе коробки, то он не оставил коробку B пустой.
Как EDT-агенты, так и CDT-агенты в таком случае возьмут две коробки. В конце концов, содержимое коробок уже определено и известно, так что решение агента и не станет причиной чего=-то желаемого, и не даст об этом хороших новостей. Как и с выбором двух коробок в оригинальной задаче Ньюкомба, многие философы такое поведение одобряют.
Но стоит заметить, что Омега почти наверняка предсказал это решение и оставил коробку B пустой. CDT-агенты и EDT-агенты – все они уйдут с тысячей долларов. С другой стороны, как и в оригинальном случае, агент, который берёт одну коробку, получает миллион. Так что это тоже случай, в котором как «проигрывает» как EDT, так и CDT. Следовательно, для тех, кто согласен с комментариями (из раздела 11.1.1), что теория принятия решений не должна приводить к «проигрышу» агента, обе теории оказываются неудовлетворительными.
Другой схожий случай, известный, как контрфактуальное ограбление, из Несова (2009):
Представьте, что однажды к вам приходит Омега и говорит, что он только что подбросил честную монетку, и, так как она упала решкой, он просит вас дать ему сто долларов. Согласитесь вы или нет, никаких дополнительных последствий не будет. Конечно, вы не хотите отдавать свои деньги. Но подождите, Омега говорит ещё и что если бы монетка упала орлом, то он отдал бы вам десять тысяч долларов, но только если он предсказал, что вы отдадите ему сто долларов, если монетка упадёт решкой.
Следует ли вам отдавать ему сто долларов?
И CDT, и EDT говорят, что нет. В конце концов, если вы отдадите свои деньги, это и не будет хорошими новостями, и не повлияет на ваши шансы получить десять тысяч. Да и интуитивно это кажется правильным решением. Так что в этом случае уместно оставить свои деньги себе..
Но, если допустить, что Омега идеально честен и достоин доверия, то, кажется, с этим заключением можно и поспорить. Если вы – такой агент, который при контрфактуальном ограблении отдаёт сто долларов, то вы в среднем будете получать лучшие результаты, чем агент, который не отдаёт. Конечно, в данном конкретном случае вы проиграете, но рациональные агенты вполне могут проигрывать в конкретных случаях (например, когда такой агент проигрывает рациональную ставку). Можно сказать, что рациональному агенту не следует быть таким агентом, который в среднем проигрывает. Агенты, которые отказываются отдавать сто долларов – это такие агенты, которые в среднем проигрывают. Так что, кажется, можно утверждать, что контрфактуальное ограбление – это ещё один случай, в котором неправильно действуют как CDT, так и EDT.
Перед тем, как перейти к более подробному обсуждению разных возможных теорий принятия решений, рассмотрим ещё один сценарий: дилемму заключённого. Резник (1987, стр. 147-148 ) так описывает этот сценарий:
Двух заключённых… арестовали за вандализм и изолировали друг от друга. Улик достаточно, чтобы вынести обвинительное заключение обоим, но прокурор хочет большего. Он подозревает, что они вместе ограбили банк, и он может получить от них признание в этом. Он допрашивает их по отдельности, и каждому говорит: «Я собираюсь предложить ту же сделку твоему товарищу, и я дам каждому из вас час на раздумья, а потом спрошу решение. Сделка такая: если один из вас признается в ограблении, а второй нет, то я обеспечу, чтобы тот, кто признался, получил год заключения, а другой – двадцать пять. Если вы признаетесь оба, то будет по десять лет каждому. Если никто из вас не признается, то я смогу посадить вас на два года по обвинению в вандализме…»
Матрица принятия решения для каждого заключённого такая:
Товарищ признался | Товарищ солгал | |
Признаться | 10 лет в тюрьме | 1 год в тюрьме |
Солгать | 25 лет в тюрьме | 2 года в тюрьме |
Столкнувшись с таким сценарием CDT-агент признается. В конце концов, решение агента не может повлиять на решение товарища (их же изолировали друг от друга), так что агенту лучше, если он признается, независимо от того, что сделает товарищ. Согласно большинству исследователей теории принятия решений (и теории игр), признаться тут – действительно рациональное решение.
Но, несмотря на это, EDT-агент может соврать в дилемме заключённого. Конкретнее: если он думает, что товарищ достаточно похож на него самого, то агент соврёт, потому что это предоставит ему хорошую новость о том, что они оба соврут, а значит, ограничатся двумя годами тюрьмы (хорошая новость в сравнении с плохой новостью, что они оба признаются и получат десять лет тюрьмы).
Многим такой ход рассуждений кажется убедительным. Например Дуглас Хофштадтер (1985, стр. 737-780) утверждал, что агент, действующий «суперрационально» будет кооперировать с другими суперрациональными агентами ровно по этой причине: суперрациональный агент примет во внимание, что другие подобные агенты пройдут в ходе дилеммы заключённого через такой же мыслительный процесс, так что примут то же решение. В таком случае, лучше, чтобы решением обоих агентов было соврать, а не признаться. И в целом, можно сказать, что рациональному агенту в дилемме заключённого следует врать, если он считает, что достаточно похож на своего товарища, чтобы они пришли к одинаковому решению.
Аргумент в пользу кооперации в дилемме заключённого
Так что не вполне ясно, что именно стоит вывести из дилеммы заключённого. Но для тех, кто симпатизирует точке зрения Хофштадтера или рассуждениям EDT-агента, это очередная причина искать альтернативу для CDT.
Один из недавних ответ на явную неспособность EDT справиться с медицинской задачей Ньюкомба, а CDT – с кнопкой психопата, это Теория Бенчмарков (BT), придуманная Вегвудом (2011) и развитая Бриггс (2010).
Простым языком можно описать этот алгоритм принятия решений так: агентам следует принимать решения так, чтобы предоставлять будущим версиям себя хорошие новости о том, насколько они хорошо справились по сравнению с другими возможными исходами. Если формально, BT использует для вычисления ожидаемой полезности действия Ai такую формулу:
Другими словами, она использует условные вероятности как EDT, но иначе вычисляет ценность (что показано использованием V’ вместо V). V’ вычисляется относительно значения-бенчмарка и предоставляет сравнительную меру ценности (оба источника выше разъясняют это подробнее).
Если говорить неформально, в задаче о жвачке BT отметит, что если агент будет жевать жвачку, то агент всегда получит хорошие новости о том, что у него всё сравнительно лучше, чем могло бы быть (потому что жвачка защищает его от абсцесса), а если не жевать, то плохие новости о том, что у него всё могло бы быть лучше, если бы он жевал. Так что BT-агент в этом сценарии будет жевать жвачку.
Кроме этого, BT достигает того, что, кажется, большинство считает правильным решением в задаче о кнопке психопата. Тут BT-агент заметит, что нажав кнопку он получит плохие новости о том, что он почти наверняка психопат и ему было бы сравнительно лучше не нажимать (потому что нажатие кнопки его убьёт). С другой стороны, если он не нажмёт, то он получит менее плохие новости о том, что он мог бы справиться немного лучше, нажав кнопку (потому что это убило бы всех психопатов, но не его самого). Так что отказ от нажатия кнопки даёт менее плохие новости, и это и есть рациональное решение.
Так что кажется, что есть неплохие причины считать BT убедительной: она хорошо справляется с сценариями, в которых, согласно некоторым людям, EDT и CDT хоть в одном да ошибаются.
К сожалению, BT-агент всё равно проваливается в других сценариях. Во-первых, те, кто считает взятие одной коробки правильным решением задачи Ньюкомба, сразу найдут в BT недостаток. в этом сценарии взятие двух коробок даёт хорошие новости о том, что агент справился сравнительно лучше, чем мог бы (потому что получил на тысячу долларов из коробки A больше, чем получил бы, приняв другое решение), а взятие одной коробки даёт плохие новости о том, что агент справился хуже, чем мог бы (потому что тех же денег не получил). Так что BT-агент в задаче Ньюкомба возьмёт две коробки.
Более того, Бриггс (2010) утверждает, что BT страдает и от других проблем, хоть Вегвуд (2011) это и отрицает. Так что даже для тех, кто поддерживает выбор двух коробок в задаче Ньюкомба, есть аргументы в пользу того, что BT – не лучшая теория выбора. Так что неясно, представляет ли BT достойную замену альтернативным теориям.
Юдковский (2010) предложил другой алгоритм принятия решений, вневременную теорию принятия решений или TDT (см. также Altair, 2013). TDT конкретно предназначена соответствовать идее о том, что теория рационального выбора должна помогать агенту «выигрывать». Так что она привлекательна для тех, кто считает, что в задаче Ньюкомба надо брать одну коробку, а в задаче о жвачке жевать.
Простыми словами этот алгоритм можно приблизительно описать так: агент должен выбирать, как если права CDT, но он определяет не своё решение, а результат абстрактного вычисления, одной конкретной реализацией которого является его решение. Формализация этого алгоритма принятия решений занимает собственный документ немаленького размера, так что тут мы не будем её приводить полностью. Если же кратко, TDT строится поверх каузальных байесовский сетей (Перл, 2000) – графов, где направление рёбер соответствует каузальному влиянию. TDT расширяет эти графы, добавляя больше вершин, соответствующих абстрактным вычислениям. TDT принимает за объект выбора абстрактное вычисление, определяющее решение агента, а не само конкретное решение (см. более подробное описание у Юдковского, 2010).
Вернёмся к неформальному обсуждению. Прояснить TDT может помочь такой пример: представьте, что две точные копии человека поместили в одинаковые комнаты и поставили перед ними одинаковые выборы. Каждая копия совершает своё собственное решение, но они при этом совершают один и тот же процесс вычислений. Поэтому TDT говорит, что копиям следует действовать так, как будто они определяют результат этого процесса, а следовательно – поведение обеих копий.
Что-то аналогичное происходит и в задаче Ньюкомба. В ней почти что есть копия агента: внутренняя модель агента, которой пользуется омега, чтобы предсказать поведение агента. Изначальный агент, и эта «копия» используют один и тот же вычислительный процесс. Другими словами, этот процесс влияет как на предсказание Омеги, так и на поведение агента. Поэтому, TDT советует агенту действовать так, как если бы он определял результат этого процесса, а следовательно – как если бы он мог определить поведение Омеги при наполнении коробок. Поэтому TDT-агент возьмёт одну коробку, чтобы определить результат этого абстрактного вычисления таким, который приводит к миллиону долларов в коробке B.
TDT преуспевает и в других случаях. Например, в задаче о жвачке нет «копии» агента, так что TDT в этом случае действует так же, как обычная CDT и решает жевать жвачку. Дальше, в дилемме заключённого TDT-агент будет лгать, если его товарищ – другой TDT-агент (или достаточно похожий агент). В конце концов, в этом случае оба агента реализуют один и тот же вычислительный процесс, так что TDT советует агенту действовать так, как будто он определяет результат этого процесса, а следовательно – одновременно определяет своё решение и решение товарища. В таком случае для агента лучше, если они оба солгут, чем если они оба признаются.
Но, несмотря на эти успехи, TDT тоже «проигрывает» в некоторых сценариях принятия решений. Например, в контрфактуальном ограблении TDT-агент решит не отдавать сто долларов. Это может показаться удивительным. Казалось бы, как и в задаче Ньюкомба, тут Омега предсказывает поведение агента, а значит тут есть «копия». Но этот случай отличается тем, что агент знает, что монетка уже упала решкой, так что, отдав деньги, он ничего не получит.
Получается, что для тех, кто чувствует, что теория рационального выбора должна помогать агенту «выигрывать», TDT кажется шагом в правильном направлении. Но для того, чтобы «выигрывать» всегда, требуется дальнейшая работа.
В предыдущем разделе я описал TDT, алгоритм принятия решений, который можно рассматривать как замену CDT и EDT. Одна из основных мотиваций для разработки TDT – ощущение, что как CDT, так и EDT в некоторых сценариях терпят неудачу. Но многие (пожалуй, даже большинство) исследователей теории принятия решений поддерживают CDT, хоть и признают, что CDT-агенты получают худший результат в Задаче Ньюкомба. Это может навести на мысль, что эти исследователи не заинтересованы в разработке алгоритма принятия решений, который бы «выигрывал», и у них какая-то другая цель. Если так, это ставит под сомнение ценность разработки алгоритмов, которые берут одну коробку.
Но утверждение о том, что большинство исследователей не интересуется тем, чтобы алгоритм «выигрывал», неправильно описывает их позицию. В конце концов, сторонники CDT обычно всерьёз воспринимают вызов, поставленный тем, что CDT-агенты «проигрывают» в Задаче Ньюкомба (в философской литературе это часто называют проблемой «Почему ты не богатый?»). Типичная реакция на этот вызов хорошо описана у Джойса (1999, стр. 153-154 ) как ответ на гипотетический вопрос о том, почему, если брать две коробки – рационально, CDT-агент в итоге получается менее богатым, чем агент, который берёт одну коробку:
У Рейчел есть совершенно замечательный ответ на «Почему ты не богатая?». «Я не богатая», скажет она, «потому что я – не такой человек, который [по мнению Омеги]» откажется от денег. Я попросту не такая, как ты, Ирен [выбирающая одну коробку]. С учётом того, что я знаю, что я – такой человек, который берёт деньги, и с учётом того, что [Омега] тоже это знает, для меня вполне разумно считать, что миллиона [в коробке] нет. Тысяча – максимум, который я могла получить, что бы я ни делала. Так что единcтвенным разумным вариантом для меня было бы её и взять.»
Ирен тут может попробовать продавить, спросив: «Но Рейчел, не хотела бы ты быть больше похожей на меня?»… Рейчел может, и ей следует, признать, что она хотела бы быть больше похожей на Ирен… после этого, Ирен воскликнет: «Ты признала это! Брать деньги, в конце концов, было не так уж и умно.» К сожалению Ирен, её заключение не следует из предпосылки Рейчел. Рейчел терпеливо объяснит, что хотеть быть человеком, который выбирает одну коробку, вполне совместимо с тем, чтобы считать, что надо брать тысячу долларов, независимо от того, какой ты человек. Когда Рейчел жалеет, что она не того же типа, что Ирен, она жалеет, что у неё нет тех вариантов, что у Ирен, а не поддерживает её выбор… Человек, который знает, что столкнётся (уже столкнулся) с задачей Ньюкомба, может хотеть стать (жалеть, что не был) таким человеком, которого [Омега] отметит, как берущего одну коробку. Это даёт повод (до [того, как коробки наполнены]) попробовать изменить свой тип, если это может поволиять на предсказание [Омеги]. Но это не даёт повода делать что-то, кроме как брать деньги, когда это уже не сможет повлиять на то, что сделал [Омега].
Другими словами, этот ответ проводит различие между выигрывающим решением и выигрывающим типом агентов, и заявляет, что брать две коробки в задаче Ньюкомба – выигрывающее решение, но при этом агенты, выбирающие одну коробку – выигрывающий тип агентов. Следовательно, пока теория принятия решений посвящена тому, какие решения рациональны, CDT в Задаче Ньюкомба рассуждает верно.
Для тех, кому этот ответ кажется странным, можно провести аналогию с задачей о жвачке. Почти все согласны, что в этом сценарии рациональное решение – жевать жвачку. Но статистически тем, кто не жуёт, лучше. Тогда не жующий может спросить: «Если ты такой умный, то почему не здоровый?». В этом случае описанный выше ответ особенно уместен. Те, кто жуёт, менее здоровы не из-за своего решения, а из-за того, что у них более вероятно есть нежелательный ген. Хорошие гены не делают не жующих более рациональными, только более везучими. Сторонник CDT попросту распространяет этот ответ и на Задачу Ньюкомба: те, кто выбирает одну коробку, богаты не из-за своего решения, а, скорее, из-за того, к какому типу агентов они относились, когда Омега наполнял коробки.
Стоит заметить одну последнюю деталь касательно этого решения. Сторонник CDT может соглашаться с этим аргументом, но всё равно признавать, что, при наличии возможности до наполнения коробок, было бы рационально модифицировать себя так, чтобы стать агентом, выбирающим одну коробку (как выше признаёт Джойс, и как утверждает Бёрджесс, 2004). Для сторонника CDT это вовсе не проблематично: если мы иногда вознаграждаемся не за рациональность решений в моменте, а за то, каким агентом мы были в какой-то момент в прошлом, то неудивительно, что сменить свой тип может быть выгодно.
На такую защиты выбора двух коробок в Задаче Ньюкомба есть разные ответы. Многие находят это убедительным, но другие, например, Ахмед и Прайс (2012) считают, что это не отвечает на вызов адекватно:
Каузалистское нытьё, что Задача Ньюкомба вознаграждает иррациональность, или, скорее, CDT-иррациональность, бесполезно. Суть аргумента – что если все знают, что CDT-иррациональная стратегия на самом деле в среднем достигает лучших результатов, чем CDT-рациональная стратегия, то пользоваться CDT-иррациональной стратегией рационально.
Получается, тут можно принять две позиции. Если ответ, данный сторонниками CDT, убедителен, то мы должны пытаться разработать теорию принятия решений, которая в Задаче Ньюкомба берёт две коробки. Возможно, CDT – лучшая теория для этой роли. Но, может, ещё лучше BT, которая, по мнению многих, лучше справляется с сценарием кнопки психопата. С другой стороны, если ответ сторонников CDT неубедителен, то нам надо разрабатывать теорию, которая в задаче Ньюкомба берёт одну коробку. В таком случае TDT, или что-то с ней схожее, кажется самым многообещающим вариантом из тех, что у нас есть.
[Прим. пер.: существуют ещё функциональная и несколько версий необновимой теории принятия решений (FDT и UDT соответственно). Насколько я понимаю, они идейно схожи с TDT, но, например, «выигрывают» в задачах про Автостопщика Парфита и про Контрфактуальное ограбление.]
Это основано на идее, разработанной на Ванкуверской встрече рационалистов.
Разный опыт развивает человека с разной скоростью. Вы можете провести всю свою жизнь на скучной работе и в 60 лет оставаться примерно на том же уровне развития, какой у вас был в подростковом возрасте. С другой стороны, некоторые люди имеют настолько разнообразный и богатый жизненный опыт, что уже к 30 годам они круты как тысячелетний вампир.
Это напоминает мне, что в зависимости от способа проводить свою жизнь, в эффективности разница может достигать нескольких порядков. Конечно, поскольку у нас нет способа продлить жизнь, то мы можем заботиться только о ее содержании. Если вы можете изменить ваши привычки так, чтобы делать в три раза больше, то фактически получите утроение вашей эффективной продолжительности жизни.
Так как же может человек достигнуть 100х скорости и стать похожим на тысячелетнего вампира всего за 10 лет? Это звучит амбициозно до абсурда, но мы можем попробовать:
Делайте трудные вещи
Определенный опыт просто катапультирует вас далеко вперед в личном развитии. Возможно, вы можете систематически получать такой опыт, чтобы набрать значительность как можно быстрее.
Пол Грэм говорит, что множество стартаперов, которых он видит (как глава YC) становятся куда круче очень быстро, поскольку их заставляет необходимость. Это выглядит правдоподобным и по результатам из других областей. Банальное «учиться плавать, прыгнув в глубокое место»; люди имеют склонность выбирать легкий путь, что приводит к меньшим шансам на прогресс, поэтому вариант, при котором нет возможности отступить, может дать куда больше пользы.
Это подтверждается и моим личным опытом. У меня на работе главный инженер заболел раком мозга и де-факто мне пришлось управлять двумя проектами, для чего мне следовало стать на уровень выше. В начале это было весьма страшно, однако сейчас мне даже скучно и я ищу чего-то, что бросило бы мне вызов. (добавление: прямо сейчас не скучаю; у группы, которой я помогаю в данный момент, просто бешеная запарка) Это выглядит реально трудным - просто делать лучше без необходимости; насколько я могу сказать, я в силах работать куда лучше, чем это есть сейчас, однако силы воли в принципе не хватает, так что я не делаю этого.
К слову, мой друг получил огромный результат, когда пошел в армию и побывал под воздействием слезоточивого газа в окопе, мокрый, холодный, уставший, долго не спавший и голодный. Это дало ему опыт, о котором он никогда даже не думал. И похоже это значительно изменило его представления о том, насколько хорошо следует действовать и как трудны определенные вещи - теперь он миллионер и весьма крут.
Похоже, что механизм, который отвечает за это, заключается в повторной калибровке представлений о том, насколько страшны или трудны, или находятся вне ваших возможностей некоторые вещи. У меня так было с боязнью телефонных звонков или проделывания странных вещей перед незнакомыми людьми, наподобие лазанья по деревьям; такое ощущение, что я просто забыл, что они были страшными. В случае со звонками было несколько раз, когда у меня не было времени бояться, а нужно было, чтобы дела были уже сделаны. В случае с лазаньем по деревьям я делал достаточно для того, чтобы со стороны это выглядело нормально, так что даже если меня кто-то видел, это не казалось странным.
Возвращаясь к теме, есть виды опыта, которые вы можете заставить себя пережить, чтобы нормализовать трудные для вас вещи и привыкнуть к ним. Например, некоторые люди, которые так делают, называя это «терапия отказа» или «выход за пределы зоны комфорта», просто выходя наружу и делая стыдные или страшные вещи осознанно для повторной калибровки интуитивных представлений и чтобы научить мозг не бояться подобных вещей.
Да, проекты по саморазвитию склонны заканчиваться неудачей, когда они требуют постоянного приложения силы воли. Это простой факт, что вы потерпите неудачу во множестве таких вещей. Так что вы должны сделать неудачу в этом множестве невозможной. Вы должны сделать провал страшнее, чем развитие и переход на новый уровень, чтобы преуспеть в этих вещах. Эта идея лежит в основе Beeminder, который забирает ваши деньги, если вы не делали то, что задумали.
Я предполагаю, что тезис, который лежит в основе всего этого - это что все эти повышения уровней станут постоянными, что они заставят вас быть более похожим на тысячелетнего вампира и вы просто не захотите возвращаться обратно к старому скучному смертному себе. Если это и правда так, то подразумевается, что вы должны искать трудные вещи, которые кажутся достаточно интересными и важными.
Широта опыта
Задумайтесь о тысячелетних вампирах; они бы умели все. Сражаться в битвах, водить армии, строить великие здания, любить, побывали бы повсюду, наблюдали бы за большинством аспектов человеческой жизни и в общем видели бы почти все.
Вещи, которые вы делаете, имеют резко убывающую полезность; первые несколько раз, когда вы смотрите выдающиеся фильмы, дают вам больше всего впечатлений, точно так же дело обстоит с видеоиграми, 4chan, большинством работ и вообще это можно отнести почти к любому опыту. Так что важно постоянно переключаться с одного вида деятельности на другой, чтобы оставаться в этой резко растущей области обучения. Вы можете получить 90% вампирского опыта, вложив всего 10% его времени, если сумеете сконцентрироваться на этих наиболее просветляющих частях каждого опыта.
Так что между работой над трудными вещами, которые поднимают вас на уровень выше, вы можете получить немало выгоды посредством занятия множеством вещей, переключаясь между ними как только они начинают казаться скучными (предполагается, что вы уже откалибровали себя так, чтобы скучными казались те вещи, которые не бросают вам вызов).
Вы можете вспомнить ранее произошедшие арабские революции в Либии, американский студент взял каникулы в колледже, чтобы сражаться в революции. Я мог бы поспорить что он многому научился. Если вы можете сделать достаточно вещей, подобных этой, вы существенно продвинетесь по пути подражания вампиру.
На самом деле все это идет рука об руку с выполнением трудных вещей; когда вы не ощущаете вызова (вы на плоской части кривой этого опыта), вероятно лучше поместить себя лицом к лицу с каким-то новым проектом, как потому что он новый, так и потому что он трудный.
Переключение часто имеет дополнительное преимущество в виде нормализации стратегических изменений и практики мыслей вида «что я должен делать», которые не могут доставлять вам неудобство, если вы намерены на самом деле делать что-то полезное со своей жизнью.
Есть множество случаев, когда переключение не лучший выбор. Для примера, вы не можете стать экспертом в Х, переключаясь с Х как только узнали основы. Вполне вероятно, что вы хотите часто переключаться на второстепенные вещи, но развивать свое понимание Х углубленно. Или, как вариант, вы, возможно, хотите определенным образом переключаться то и дело внутри самого Х, возможно смотреть на вещи с другой точки зрения, браться за другую проблему или типа того. Это теория экспертизы умышленной практики.
Так что не забывайте о форме кривой опыта. Как только вы начали ощущать, что выходите на плоскую ее часть, найдите способ снова оказаться на «интересном» ее отрезке.
Делайте вещи быстро
Другое большое поле деятельности открывает идея, что каждый час - это возможность, и вы должны выжать из этой возможности как можно больше. Это кажется весьма очевидным, однако я определенно «выжал» из этой идеи больше, когда подумал о ней с точки зрения тысячелетнего вампира.
Великолепным примером является прокрастинация. У меня есть множество вещей, которые висят в моем списке дел уже достаточно давно, давя на меня своим присутствием. Я не могу расслабиться и заняться чем-то новым, пока в моем списке дел висит какая-нибудь глупая штука. Ключевая идея в том, что если вы обработаете мусор в вашем списке дел сейчас, вместо того, чтобы расслабиться и отложить это на потом, вы будете свободны и сможете сделать позже еще что-либо, таким образом став тысячелетним вампиром быстрее.
Так, я и мой друг усвоили эту идею тщательней и начали на самом деле замечать эти пропуски возможностей, и на самом деле начали делать вещи быстрее. Я уверен, что где мы бы не были, мы все еще далеки от оптимума Делания Этого Прямо Сейчас, так что будет хорошо еще помедитировать на эту тему побольше.
Как конкретный пример, я пишу сегодняшней ночью потому что я понимаю, что мне нужно записать все мои идеи, чтобы освободить место для более улетных идей.
Обратная сторона этой идеи в том, что много вещей являются пустой тратой времени, в том смысле что они просто сжигают нашу жизнь, ничего не привнося в нее или даже ослабляя вас.
Плохие привычки, наподобие пустого серфинга в интернете, просмотра телевизора, просмотра порно, сиденья за видеоиграми, лишнего сна и так далее - очевидные потери времени. Реально трудно усвоить это, но эта концепция тысячелетнего вампира была полезна для меня тем, что сделала размер цены более заметным. Вы хотите проснуться в тридцать лет и осознать что вы потратили большую часть молодости на мусор или поднимете свою задницу и напишете то, чего бы хотели в этой жизни и все таки станете гребаным вампиром через десять лет?
Однако это не просто плохие привычки; большая часть этого является вашим образом жизни, вследствие которого вы либо тратите свою жизнь впустую, либо нет. Для примера, монотонная работа за зарплату не ставит перед вами вызовов и в действительности представляет собой просто обмен куска вашей жизни на небольшое количество денег. Очевидно, что иногда это неизбежно, однако следует осознавать, что обмен половины жизни - не особо хорошая сделка, которой лучше бы избежать. Вы даже не получаете ничего для поездок на работу и дома. Возможно я на самом деле должен бросить вскоре свою работу…
У меня есть 168 часов в неделю, из которых только 110 возможно использовать (из-за сна) и в этот период времени входят все эти дела, наемная работа, плохие привычки, прокрастинация - полноценной жизнью для себя я живу максимум 30 часов в неделю. Это полная фигня; три четверти моей жизни просто вылетели в трубу. Я бы мог прожить в четыре раза больше, если бы выкинул из жизни этот хлам.
Так что это просто концепция временных издержек возможностей, просто переформулированная для большей актуальности. Базовые концепции экономики кажутся действительно значимыми на этом пути.
Сделайте сейчас то, что можете сделать когда-либо потом. Избегайте бесполезной работы.
Социальное окружение и стимуляция
Я заметил, что я по большей части живу и делаю интеллектуальную работу лучше всего когда общаюсь с другими людьми, которые умны и заинтересованы в том, чтобы вести глубоко технические беседы. Другие вещи наподобие определенных моделей цейтнота по времени создают эффект, когда я работаю во много раз интенсивней и более эффективно, чем в любом другом случае. Хорошим примером будут технические экзамены; я могу давать ответы на сотни технических вопросов с достаточно большой скоростью.
Пожалуй, вполне хорошей идей будет индуцировать такое состояние, где вы живете на полную (состояние «потока»?) если вы хотите жить более полноценной жизнью. Также кажется вполне возможным делать это куда чаще - встречаться с правильными людьми, ставить себя в нужные условиях для работы и так далее.
Тут может возникнуть только трудность с тем, что это достаточно утомительно, так что я иногда ощущаю себя опустошенным и не могу ничего больше делать после дня более интенсивной работы. Реальная ли это проблема? Наверное. Однако для меня это все еще не предел, даже учитывая общую необходимость в отдыхе.
Я должен провести исследования, чтобы узнать побольше об этом явлении. Если это связано с «потоком», то можно воспользоваться исследованиями состояния потока, которых не так уж и мало, насколько я знаю.
Мне также следует поторопиться и двигаться в Калифорнию, где есть правильное интеллектуальное сообщество, которое стимулирует меня лучше, чем скромная группа мозгов, вместе с которыми я скриплю в Ванкувере.
Еще одно преимущество хорошего интеллектуального сообщества это то, что они могут вдохновлять, делая более крутые вещи. Когда все твои друзья открывают свои компании или вообще проделывают огромную работу, сидеть просто на диване ощущается реально плохой идеей.
Так что если мы хотим жить более полноценной жизнью, то мы должны находить больше путей для входа в стимулированное состояние потока, например делать более разумные вещи, в независимости от того, будет ли это созданием пути для этого в ваших рабочих привычках, помещением себя в социальные и интеллектуальные среды, которые дают вам возможность ставить перед собой больше вызовов, или что угодно в этом духе.
Подводя итог
Насколько быстро мы будем продвигаться в общем, если мы делаем все это?
Постоянно выискивая множество новых опытов, чтобы продолжать учиться, я думаю, что мы можем получить достоверное 10х увеличение скорости по сравнению с тем, что мы делаем обычно. Очевидно, это увеличение может быть меньше или больше, в зависимости от обстоятельств и вещей, которые я не учел.
Кроме того, похоже что я могу делать в четыре раза больше, чем обычно путем следования привычке делать все сразу и избегать бесполезной работы. Как это сделать я не знаю, но это вполне возможно.
Я не знаю как оценить реальные преимущества от стимулирующего окружения. Похоже, что они весьма и весьма большие, или же просто дают возрастающий прирост эффективности, в зависимости от того, насколько эти преимущества реализуются. Давайте примем, не считая всего остального, что мы можем реально получить ускорение в 2х или 3х от социальных эффектов и эффектов окружения.
Делать трудные вещи кажется грандиозным, однако это достаточно тесно связано с деланием нового, что мы уже принимали во внимание. Так сколько мы получаем от них, без учета остального? Может 5х? Это снова зависит большей частью от того, какие возможности вы способны найти и неизвестных факторов, однако предположение в 5х кажется достаточно безопасным, учитывая уровень изобретательности и силы воли смертных.
Так что все вместе, все кто:
Часто думает о том, где они на кривой опыта для всего, что они делают и прилагают усилия, чтобы она была подходящей,
Придерживаются привычки делать все сразу и представлять стоимость различных возможностей,
Организуют себе стимулирующую среду наподобие интеллектуального сообщества и окружают себя стимулирующими людьми и событиями,
Ищут опыт, который в наибольшей степени закалит их характер, наподобие побывать под слезоточивым газом в окопе или построить компанию с нуля,
Достоверно могут получить 500х ускорение и прожить 1000 обычных лет всего за два года. Это кажется достаточно безумным, однако ни одна из этих вещей не является чем-то из ряда вон выходящим, и люди наподобие Илона Маска или Элизера Юдковского кажется делают на порядки больше, чем какой-нибудь средний Джо.
Возможно данные способы ускорения не перемножаются таким способом или есть еще какие-то факторы, однако цель кажется достижимой и все эти методы способны помочь. С другой стороны они почти определенно способны усиливать сами себя; тысячелетний вампир осваивал бы искусство жить все более полной жизнью со все увеличивающейся эффективностью.
Разумеется, все эти вещи распределены таким образом, что достаточно трудно свести их все к определенной цифре наподобие 500.
Финальный вопрос, конечно же, состоит в том, каково реальное ускорение, которое мы можем ожидать от вас или меня от написания или прочтения этого поста. Ускорение в два или три раза уже кажется почти невообразимым, что уж говорить о 500х. Однако законы умножения существуют. Хотя, возможно, придется принять множество допущений, чтобы воспринять эту идею всерьез.
«Корень разногласия» (Double Crux) — это одна из новейших идей CFAR. Из-за неё мы пересмотрели и изменили многое в нашем расписании (она повлияла на всё примерно в той же степени, что и введение триггеров «если-то» или внутреннего симулятора ранее). Эта стратегия быстро стала частью нашей жизни. Также мы считаем, что ожидаемая полезность от распространения «корня разногласия» - очень велика. Поэтому давно уже настала пора публично и строго описать, что это такое.
Замечу, что хотя суть стратегии уже более менее устаканилась, её реализация пока несколько варьируется. Джулия Галеф, Кензи Амодей, Эндрю Критч, Эли Тайр, Анна Саломон, я и другие продолжаем экспериментировать. В связи с этим данную статью стоит рассматривать не как «готовое блюдо», а скорее как «народный рецепт». Поскольку мне кажется более важным описать не саму идею, а то, как она строится, я умышленно буду здесь приводить длинные разветвлённые рассуждения. Соответственно, если вам кажется, что вы видите здесь что-то неправильное, или, по-вашему, тут чего-то не хватает, то, вероятно, вы наткнулись на какую-то важную мысль, и мы будем рады, если вы оставите об этом комментарий. [Речь о комментариях к оригинальной статье — Прим.перев.]
В первом приближении человека можно рассматривать как «чёрный ящик», который на вход принимает информацию из своего окружения, а на выходе даёт свои убеждения и поведение. Конечно, этот ящик не совсем закрыт для нас, у нас есть доступ ко многому, что внутри него происходит, однако наше понимание собственных мыслительных процессов определённо неполно.
Когда два человека не соглашаются друг с другом — то есть, их «чёрные ящики» дают разные ответы, как показано ниже — часто можно наблюдать множество непродуктивных явлений.
Самое распространённое (и утомляющее) из них выглядит так: люди просто вместе повторяют результаты вывода своего «чёрного ящика» (вспомните большинство разногласий по поводу спорта или политики - люди на картинке выше просто выкрикивают «треугольник!» и «круг!» громче и громче). Никакого прогресса при этом не происходит. На втором уровне люди часто воспринимают различия в выводах как свидетельство, что «чёрный ящик» их собеседника сломан (то есть, собеседник плохой, тупой или сумасшедший) или собеседник неправильно видит вселенную (например, он предвзят, рассеян или ненаблюдателен). На третьем уровне люди часто соглашаются не соглашаться. Этот ход позволяет сохранять социальное взаимодействие, но при этом люди жертвуют поиском правды и прогрессом.
Стратегия «корень разногласия» в идеале решает все упомянутые проблемы. На практике даже неумелые и неуклюжие попытки приблизиться к идеалу, судя по всему, довольно полезны. Собеседники лучше понимают друг друга, и количество конфликтов из-за несогласий уменьшается.
Эта статья в общих чертах описывает две версии «корня разногласия»: сильную версию, в которой обе стороны понимают описанную стратегию и в явном виде соглашаются сотрудничать в её рамках, и слабую версию, в которой только одна сторона знакома со стратегией и пытается улучшить качество дискуссии в одностороннем порядке.
В обоих случаях, насколько мы представляем, необходимо следующее:
Эпистемическое смирение. Умение подумать: «Возможно, в этом случае неправ именно я». С моей точки зрения это первооснова рациональности. Также это можно считать способностью воспринимать убеждения как объект, а не идти у них на поводу. Это умение отложить собственные убеждения в сторону, а затем взять чужие и представить, каким был бы мир, если бы правдой оказались именно они.
Вера в добрую волю собеседника. Принятие того, что люди верят во что-то по естественным причинам. Осознание факта, что воздействие того же набора стимулов на другого человека вызвало бы примерно те же самые убеждения. Умолчальный скептицизм ко всему, что кажется свидетельством в пользу некачественности или злонамеренности собеседника (поскольку нам, как обезьянам, несложно убедить себя в том, что у нас есть такие свидетельства, в то время как на самом деле их нет).[1]
Уверенность в существовании объективной истины. У меня было искушение назвать это «объективностью», «эмпиризмом» или «принципом Малдера», но эти названия не совсем подходили. В сущности речь идёт об убеждении, что практически на любой грамотно сформулированный вопрос действительно существует чёткий ответ. Возможно, этот ответ слишком дорого или даже невозможно найти и поэтому нам придётся всё-таки обходиться эвристиками (например: сколько кузнечиков живёт сейчас на Земле, лучше ли оранжевый цвет, чем зелёный, почему не существует аудиокниги «Бойцовский клуб», озвученной Эдвардом Нортоном), но, тем не менее, он существует.
Любопытство и/или желание найти истину. Первоначально я писал только о поиске истины, но мои коллеги указали, что кто-нибудь может двигаться в правильном направлении просто из любопытства в отношении другого человека и содержания его карты, не фокусируясь при этом на территории.
На воркшопах CFAR мы добиваемся первого и второго благодаря специальным лекциям, третьего — благодаря общей атмосфере, четвёртого — благодаря атмосфере и множеству совместной работы, которая приводит к тому, что людям комфортно общаться друг с другом и проявлять любопытство. Другие качества (такие как умение регулировать и подавлять эмоции в пылу момента или способность прибегать к мысленным экспериментам и разрешать их) тоже полезны, но не настолько важны, как перечисленные выше.
Предположим, у вас есть убеждение, которые мы обозначим A (например, «ученики средней школы должны носить форму»), и вы спорите с кем-то, чьё убеждение сводится к ¬A. Поиск «корня разногласия» с этим человеком означает поиск второго утверждения B, которое обладает следующими свойствами:
В примере про школьную форму утверждением B, например, может быть утверждение «школьная форма может помочь сгладить классовые различия между богатыми и бедными учениками благодаря тому, что им будет сложнее судить друг о друге по одежде». Ваш собеседник может посчитать это «оптимистическим бредом». В идеале утверждение B должно быть ближе к реальности, чем утверждение A — то есть, более конкретным, более обоснованным, более чётко сформулированным, легче проверяемым и так далее. Оно должно быть в меньшей степени о принципах, обобщениях и выводах, и в большей степени позволять заглянуть в структуру, которая ведёт к этим выводам.
(Впрочем, оно не обязано быть проверяемым. Часто после нахождения B продуктивней начать искать C, а затем D, а после этого E и так далее, пока в итоге вы не дойдёте до чего-нибудь, что можно проверить или разрешить с помощью эксперимента).
На первый взгляд может быть неясно, почему нахождение B само по себе расценивается как победа. Ведь если вы не знаете, истинно ли B, вы не можете окончательно выбрать между A и ¬A. Однако, важно понимать, что если вы дошли до B, то вы уже разобрались со значительной частью ваших разногласий, и в этой части убеждения о причинно-следственных связях вселенной у вас и вашего собеседника теперь совпадают.
Если B, то A. Более того, если ¬B, то ¬A. Вы оба согласились, что из состояния B следует состояние A, и таким образом ваше «согласие не соглашаться» не обычное «ладно, оставайся со своей правдой, а я останусь со своей», а скорее «хорошо, посмотрим, что покажут свидетельства». Прогресс! И (что более важно) сотрудничество!
Способы поиска - это самое слабое место упражнений CFAR на поиск «корня разногласия». Для поиска «корней убеждений» применяется какой-то вид «магии», с которым мы пока не разобрались. В целом метод сводится к «перебирайте корни ваших убеждений в поисках тех, с которыми ваш собеседник, скорее всего, не согласится, а затем сравните списки». Некоторым людям в случае некоторых тем очень легко определить, из чего проистекают их убеждения. В других случаях людям очень быстро начинает казаться, что их позиция объективная и незыблемая.
Советы:
Старайтесь замечать оттенки вкусов и мнений. Часто люди не озвучивают множество своих взглядов и мнений из-за социальных условностей или прочих подобных явлений. Обычно, если ослабить внутреннего цензора, становится проще замечать, почему мы считаем, что X, Y или Z.
Смотрите вперёд, а не назад. В случае, когда на вопрос «почему?» не удаётся получить осмысленный ответ, часто более продуктивно попробовать сделать предсказание по поводу будущего. Например, я могу не понимать, почему я считаю, что школьная форма — это хорошая идея, но если я включу свою «повествовательную машину» и начну описывать лучший мир, который, по моему мнению, получится в результате, скорее всего, я смогу разобраться какие причинно-следственные механизмы лежат в основе моих убеждений.
Сужайте масштаб. С частным примером «Стиву следовало поздороваться с нами вчера, когда он вышел из лифта» разобраться легче, чем с общим «Стиву стоит быть более общительным». Аналогично, зачастую проще ответить на вопросы вроде «Какую часть из наших 10 тысяч долларов нам стоит потратить на исследования, а какую на рекламу?» чем на вопросы вроде «Что более важно для нас сейчас: исследования или реклама?»
Применяйте «фокусирование» и другие похожие техники. Часто полезно гипотетически оценить перспективу, а затем обратить внимание на интуицию и заново оценить свою позицию. Например: (предположение сходу) «Я уверен, что если все будут носить школьную форму, то количество случаев травли уменьшится на пятьдесят процентов». (Пауза, слушаем собственные сомнения.) «Хотя нет, теперь, когда я произнёс это вслух, это кажется неверным. Однако, быть может, такие меры уменьшат случаи явной травли?»
Ищите корни своих убеждений независимо, чтобы не привязываться к мыслям своего собеседника. Здесь, по-моему, всё просто. Также стоит заметить, что если вам сложно вообще найти разногласия (например, чтобы попрактиковаться в поиске «корня разногласия» с друзьями»), то есть прекрасный способ начать: дайте каждому одинаковый список из 10-15 открытых вопросов, и пусть каждый запишет свои ответы, зафиксировав свою точку зрения до начала дискуссии.
В целом полезно держать перед мысленным взором идеальный «корень разногласия». Но стоит его разделять с реалиями существующего диалога. Мы обнаружили, что направлять разговор к поиску «корня разногласия» всегда полезно, однако, беспокойство по поводу того, как вы далеки от идеала, наоборот вредно. Следует задумываться о том, что полезное и продуктивное вы для диалога вы можете сделать прямо сейчас, и зачастую это означает, что вам стоит идти на здравые компромиссы — если у одного из вас есть хорошо сформулированные «корни убеждений», а другого — нет, то вполне нормально сфокусироваться на том, что есть. Если же никто из вас не может сформулировать единый «корень убеждения», но вместо этого у каждого из вас есть восемь совместных «корней», из которых любых пяти будет достаточно, так и скажите, и затем продвигайтесь туда, куда вам кажется оптимальным.
(Вариант: три одновременных поиска «корня разногласий» между тремя людьми и в каждый отдельный момент наименее активный участник занимается тем, что наблюдает за двумя другими собеседниками, пытается моделировать, что они говорят, и понимать, что именно они пытаются донести до собеседника и где именно у них не получается. Если он может предложить приблизительный «перевод» чьих-то слов, ему стоит так и сделать. В этот миг, вероятно, он займёт более важную роль для беседы, и роль наблюдателя/переводчика перейдёт к кому-то другому.)
В конечном счёте каждый ход должен быть направлен на то, чтобы отойти от свойственных большинству разногласий антагонизма, враждебности и стремления к «победе любой ценой». Обычно мы тратим огромную часть наших мыслительных ресурсов на то, чтобы понять структуру убеждений оппонента, сформировать гипотезу о том, что в этой структуре важно, и бросаться в эти важные части аргументами в надежде повалить всё здание. И в это же время мы стремимся скрывать собственную структуру убеждений, чтобы атаки противника оказались неэффективными.
(Это всё ужасно ещё и потому, что мы зачастую не можем даже понять, на чём базируется аргумент, и тратим время впустую. Если у вас был опыт неловкости, когда вы наблюдали за тем, как кто-то тратил десять минут, конструируя убедительное доказательство какого-то не имеющего прямого отношения к теме подпункта, которое совершенно точно не заставило бы вас изменить свою точку зрения, то вы понимаете цену чьего-то желания сказать: «Нет, для меня этот вопрос не имеет отношения к теме, давайте поговорим вот о чём».)
Если же мы можем перевести дебаты в состояние, где вместо битвы за истину мы сотрудничаем в поисках понимания, то значительная часть ресурсов окажется потраченной не зря. Вы знаете структуру собственных убеждений и в этом ваше громадное преимущество. Если мы можем переключаться в режим, в котором мы вместе можем заглядывать внутрь неё и искренне делиться находками, мы сможем продвигаться вперёд более эффективно, чем если бы мы были заняты догадками относительно убеждений оппонента. Для этого требуется, чтобы мы хотели знать настоящую правду (в частности, чтобы у нас был стимул искать пробелы в рассуждениях и фальсифицировать неверные убеждения не только у других, но и у себя) и чтобы мы чувствовали себя эмоционально и социально в безопасности с нашим собеседником. Однако, обоюдное стремление к маячащему впереди отблеску «корня разногласий» может создать безопасность и стремление к истине, которое может приблизить нас к предмету наших поисков, что в свою очередь даст ещё больше безопасности и стремления к истине, и так далее.
Самое главное: важно различать, участвуете вы в сильной версии «корня разногласия» (кооперативной, с согласием обоих участников) или слабой версии (вы как агент пытаетесь улучшить качество беседы, возможно, сталкиваясь с прямым противодействием). В частности, если кто-то в данный момент рассержен на вас и рассматривает вас как врага, заявления вроде «Я просто считаю, что мы добьёмся большего, если будем разговаривать о скрытых причинах наших убеждений» не будут восприняты как призыв к кооперации. Они будут восприняты как ловушка.
Поэтому, если вы участвуете в слабой версии, основная стратегия заключается в том, чтобы задавать вопрос: «Что вы видите, а я нет?» Другими словами, демонстрируя собеседнику явно смирение и доброжелательность, разворачивайте структуру его убеждений ради его же блага, чтобы её понять и принять во внимание, а не для того, чтобы её разрушить. По моему опыту, люди «носом чуют», когда вы лишь изображаете доброжелательность, а на самом деле просто хотите, чтобы они раскрылись. Если вам сложно войти в нужный настрой, я советую вспоминать вам случаи из вашего прошлого, когда вы оказывались неправы настолько, что вам было неуютно — как вы себя чувствовали перед тем, как это выяснилось, и как после.
(Если вы не способны или не желаете проглотить свою гордость или отложить достаточно далеко в сторону своё чувство справедливости, в этом нет ничего плохого. Не каждый спор выигрывает от применения в нём стратегии «корень разногласия». Но если ваша настоящая цель — улучшить качество беседы, то вам лучше быть готовым заплатить эту цену. Вам придётся пройти лишнюю милю, потому что: а) то, что вам кажется необходимым расстоянием, практически наверняка — «недолёт», б) необходимое расстояние может оказаться недостаточным, чтобы разрушить укоренившуюся у собеседника модель, в которой вы — Враг. Рекомендуются ритуалы, вызывающие терпение и здравомыслие.)
Также в обеих версиях — но особенно в слабой — очень хорошо вести себя так, как вы бы хотели, чтобы себя вёл ваш собеседник. Раскрывайте собственную структуру убеждений, показывайте, как теоретически можно фальсифицировать ваши собственные убеждения, подчёркивайте пункты, в которых вы не уверены, и так далее. В частности, если вы не хотите, чтобы люди вас бесили неверными моделями того, что происходит в вашей голове, позаботьтесь о том, чтобы не выглядеть как авторитет в области того, что происходит у них в головах.
Старайтесь не заблудиться в тумане. Первый шаг «корня разногласия» всегда должен сводиться к прояснению терминов. Старайтесь привязывать всё к числам, не пользоваться словами вроде «много» или «мало», которые можно понять по-разному. Старайтесь говорить о наблюдаемых в реальном мире последствиях, а не о том, хороши они или плохи. В примере со школьной формой можно сказать в самом начале: «ученики в форме будут чувствовать себя лучше», но останавливаться на этом не стоит. Гораздо лучше попытаться выразить это утверждение в числах (если вы считаете, что однажды вы сможете эти числа получить). Часто после устранения двусмысленности разногласие «рассеивается». И это успех, а не провал!
И последний совет. Используйте бумагу и карандаш, или маркерную доску, или ещё что-нибудь для того, чтобы участники рассматривали конкретные предсказания и выводы как неизменяемые объекты (если кто-то хочет изменить или подправить формулировку, то это только приветствуется, но позаботьтесь о том, чтобы в каждый момент вы работали с ясным недвусмысленным утверждением). Во многих дискуссиях, например, в публичных политических дебатах, поощряется увёртливость, «борьба за очки», стратегия «прячься за двусмысленные формулировки и выгляди умнее». Ценность «корня разногласия» помимо прочего и в том, что здесь всего этого стараются избежать. Цель заключается в том, чтобы в любой момент все как можно лучше понимали, что именно пытается сказать оппонент, а не в том, чтобы сделать «соломенное чучело» из его аргументов и заставить его выглядеть глупо. Отслеживайте, когда у вас появляется искушение скатиться к привычному высмеивающему стилю поведения, и удерживайте себя в «настрое разведчика», а не в «настрое солдата».
Ниже приводится алгоритм «корня разногласия» в том виде, в каком он даётся в нашем учебнике. Этот текст не слишком связан с тем, что написано выше, предполагалось, что его будут читать в контексте часовой лекции и нескольких практических занятий (поэтому в нём есть некоторые пробелы и странности). Здесь он приводится скорее для полноты и как пища для размышлений, а не как попытка подытожить написанное выше.
Найдите разногласие с другим человеком.
Проясните сущность разногласия.
Ищите «корни разногласия».
Проверьте, что у вас получилось.
Повторите!
Мы считаем, что «корень разногласия» — это суперкруто. Если вы видите в этой стратегии какие-то недостатки, мы хотим о них узнать и исправить. На данный момент мы уверены, что исправление и улучшение «корня разногласий» гораздо выгодней, чем попытки внедрить какую-то совершенно другую стратегию. В частности, мы полагаем, что в принятии духа этого мыслительного приёма кроется гигантский потенциал, позволяющий людям более эффективно бороться со сложными и плохо понимаемыми темами (например, с вопросами экзистенциальных рисков), потому что эта стратегия позволяет одновременно удерживать в голове множество частично-неверных моделей и при этом выделять самое ценное из каждой.
Комментарии приветствуются. Критика очень приветствуется. Очень-очень-очень приветствуются рассказы из личного опыта о попытках научиться «корню разногласия», или попытках научить ему других, или попытках использовать его втайне от собеседника.
[1] Одна из важных причин верить в добрую волю собеседника заключается в том, что даже когда люди «неправы», они обычно правы частично. Среди их неверных убеждений есть крупицы золота, которые агент, заинтересованный в том, чтобы получить всю картину, может успешно добыть. Привычный способ разбираться с несогласиями зачастую приводит к тому, что это золото выбрасывается — или позволяя каждому защищать свой исходный набор убеждений, или заменяя взгляды всех на те, что считаются «лучшими». При этом выбрасываются данные, происходит каскадная передача информации, люди не стремятся «замечать замешательство» и так далее.
Основная идея здесь в том, что вселенная похожа на большой и сложный лабиринт, и каждый из нас видит лишь его часть. Расширение собственного языка и коммуникация позволит нам собрать информацию о частях этого лабиринта, не исследуя их самостоятельно. И это здорово! Но когда мы не согласны, что делать, из-за того, что мы видим разные слои реальности, неплохо бы пользоваться методами, которые позволяют нам объединять и синтезировать информацию, а не методами, которые заставляют нас выбирать часть и выкидывать остальное. Вспомните притчу о трёх слепцах и слоне. По возможности воздерживайтесь от подведения итогов, пока вы не получили все доступные данные.
Агент сверху ошибочно считает, что следует двигаться налево, поскольку ему кажется, что это кратчайший путь к цели. Агент справа понимает, что это ошибка, но сам он бы никак не смог дойти до этой точки.
Корень разногласия — ценный инструмент. Благодаря ему группа может принять решение, а отдельные люди — помочь друг другу сформировать более точные выводы.
К сожалению, зачастую этот инструмент требует довольно много времени. Чтобы разрешить некоторые разногласия требуются часы. А на некоторые уходят годы. Обычно наши убеждения переплетаются в жутко запутанный клубок, и быстро его распутать получается далеко не всегда.
Однако вы всё равно можете развивать основной навык «корня разногласия» — умение замечать, что могло бы изменить вашу точку зрения. Я по мере развития этого навыка обнаружил, что мне становится легче: а) формулировать, во что я действительно верю и почему, б) строить системы убеждений, которые мне легче понимать, обновлять и которыми мне проще делиться с другими людьми.
В этой цепочке исследуются вопросы, когда «корень разногласия» полезен, какие для него нужны вспомогательные навыки, и почему их стоит осваивать.
Эпистемический статус: Для меня, кажется, работает. Не предполагается как строгое правило.
Во время разговора я часто задаюсь вопросом: «Мы создаём что-нибудь вместе или нет?»
Многие разговоры (в Сети или при личном общении) относятся к категории «да мы просто болтаем». «Просто болтать» иногда довольно важно — это весело, благодаря этому можно подружиться с другими людьми, и так далее. Однако если кому-то из участников разговора уже перестало быть весело, скорее всего, разговор нужно прекратить или как-то изменить.
У разговора о «создании чего-нибудь» есть цель. Эта цель: «сделать что-нибудь, что хоть кто-нибудь когда-нибудь будет использовать». Например, можно создавать:
В каких-то из этих случаев можно и «просто болтать». Можно разговаривать о новых нормах, не слишком ориентируясь на цель, а скорее блуждая в поисках возможных предложений. Забавная идея уж точно может быть всего лишь забавной идеей.
Однако я обнаружил, что для меня в большинстве случаев разговаривать о создании чего-нибудь гораздо более интересно. И в такие разговоры мне хочется вкладываться сильнее.
Разговоры о создании чего-нибудь не обязаны быть стремительными или сфокусированными как лазер. Иногда лучший способ спроектировать продукт — это длинное обстоятельное обсуждение, позволяющее уяснить все нюансы требуемых ограничений или поделиться интуицией о том, чего хочется достичь.
Создание продукта налагает на разговор ограничения
Для создания продукта подходит огромное количество разных стилей разговора. Скорее это зависит от среды. Суровые автомеханики матерят друг друга при любой ошибке. В некоторых компаниях приняты странные нормы вежливости, при этом нормы, например, в США и в Японии могут отличаться.
Недавно я уже обсуждал то, что мне представлялось вопросами кооперации при создании продукта. В своих комментариях я описывал нормы, которые предпочитаю я сам. Однако сейчас я собираюсь рассматривать более общие случаи.
У меня есть какие-то представления о том, какие примерно нормы нужны, чтобы успешно создавать что-то вместе. Однако у меня есть гораздо более важное мета-убеждение: если вы создаёте продукт вместе, то полезный для вас разговор будет подчиняться некоторым ограничениям. И одно из важнейших ограничений:
Если вы не создаёте один и тот же продукт, то вы зря тратите время.
Если вам кажется, что разговор заходит в тупик и люди друг друга не слушают, возможно, стоит задать следующие вопросы:
По крайней мере для меня последний вопрос определяет, буду ли я вкладывать в этот разговор серьёзные усилия или нет.
Второе июня, 42 после Падения
Где-то в горах Колорадо
Сначала они увидели человека, идущего в нескольких милях от комплекса. По крайней мере, это выглядело как человек. Выцветшие джинсы, белая футболка, ветровка, походный рюкзак. Белый, светло-коричневые волосы. Нет видимых травм. Без опознавательных знаков.
Они внимательно наблюдали, как он приближался. В других ситуациях они бы застрелили его без предупреждения, но не сейчас. Они с болью осознавали границы устойчивого генетического разнообразия и ехали в потрёпанном фургоне с заряжёнными винтовками в промышленных наушниках. Как только он встал на колени, они приказали Джавиду Неслышавшему связать и заткнуть ему рот кляпом, после чего кинуть в фургон. Не надо рисковать.
Джавид не всегда был глух, но это было честью. Некоторые люди должны жертвовать чем-то на благо других, и он гордился, что защищал Святилище в Роджерс Форд.
Вернувшись в комплекс, они поместили человека в звуконепроницаемую комнату и развязали его. На столе стоял старый компьютер с надписью «Ассоциация Бесов». Люди не знали, кто такие Ассоциация Бесов, но были благодарны. Возможно, это подарок от Олсона. Хвала Олсону.
Не имея другого выбора, человек сел и прочёл указания на мониторе. На экране была выведена цепочка слов, и ему было сказано выбрать левую или правую сторону по разным признакам. Это очень сбивало с толку.
В другой комнате, наблюдатели сжимались вокруг маленького экранчика, глядя на ряды чисел.
REP/DEM 0.0012 0.39 0.003
Хорошо. Это очень хорошее начало.
FEM/MRA -0.0082 0.28 -0.029
SJW/NRX 0.0065 0.54 0.012
…
В конце концов, они прошли от тех строк, которые в катехизисе помечались «очистить в огне и никогда не говорить об них», до тех, которые просто отмечены как «очень опасные».
KO/PEP 0.1781 0.6 0.297
Не так хорошо, но все же в пределах допустимых отклонений. Они проведут ещё один тест.
T_JCB/T_EWD -0.0008 1.2 -0.001
…
Тест продолжался ещё некоторые время, пока священник не сказал: «Испытание Рыбы завершено. Он прошёл Снекедорскую Рыбу».
Это было опаснее. Это требовало жертвоприношения.
Она была молода — ей было всего пятнадцать. Розовощёкая девочка с длинными светлыми волосами, на лице у Софии была милая улыбка. Она идеально подходила для своих обязанностей. Её семье сказали, что это выбор их дочери - это большая честь.
Улыбаясь и с трепетом в голове, София вошла в комнату. Она предложила ему выпить: «Извини, что тебе пришлось пройти через все эти испытания. Тебе должно быть жарко! Будешь ко-ку?» Её расслабленный тон не давал понять, что эти слова были запретными и передавались из поколения в поколение, запоминались и почитались как оберег от зла.
Человек взял у неё бутылку с тёмной жидкостью и выпил, после чего бросил бутылку в мусорку для перерабатываемых отходов.
В другой комнате на экране высветилось «ЭКО».
«Ой, прости! Я ошиблась, это же пеп-си. Мне ужасно жаль!» — затараторила извинения София. Человек заверил её, что всё в порядке.
В другой комнате священник убедился, что индикатор преданности бренду горит на нуле.
Она перешла к следующему запрещённому вопросу, повышая уровень беспечности: «Знаю, это глупый вопрос, но у тебя когда-нибудь в голове застревала песня?»
«Эм, что?»
«Знаешь, как будто ты просто не можешь перестать крутить её у себя в голове?» Конечно, она не знала, каково это было. Она была жива.
«Прости, нет».
Она повернулась и вышла, глаза наполнялись облегчением.
…
Прошло ещё три дня испытаний, и мужчину впустили в комплекс. Невзирая на неистовство эволюции с поколенческой частотой в сто раз больше, чем у остального человечества, он как-то сохранил себя. Он был чист от вирусной памяти. Он был живым.
Я читаю книгу «Год, прожитый по Библии» А. Дж. Эйкобса. Он пытался следовать всем заповедям в Библии (Старый и Новый завет) буквально в течение одного года. Он быстро обнаружил, что:
Вы могли заметить что люди, принявшие религию в возрасте после 20 лет в целом более ревностно относятся к соблюдению её правил, чем люди, выросшие в той же самой религии. Те, кто вырос в религиозной семье, уже умеют справляться с неудобными частями веры, отделяя их, рационализируя отказ от них или просто о них забывая. Религиозные сообщества на самом деле в каком-то смысле защищают своих членов от религии — они создают набор неписанных правил о том, какие части религии участники сообщества могут легитимно игнорировать. Новообращённые же иногда пытаются всерьёз делать всё то что говорит им религия.
Я слышал, как миссионеры описывали разные безумства, которые проделывали их неофиты из каких-нибудь глухих мест, прочитав Библию в первый раз: они отказывались учиться у миссионеров-женщин; они настаивали на дословном соблюдении ветхозаветных заповедей; они вдруг решали что все в их деревне обязаны прилюдно признаться во всех своих грехах; они молились Богу и ожидали, что он сделает всё то о чём они его просят; они считали, что христианский Бог вылечит их болезни. Мы всегда немного смеялись над наивностью таких новообращённых; я с трудом слышал тихий голос в моей голове, повторяющий: «Но они просто верят в то что Библию надо воспринимать буквально…»
Как можно объяснить слепоту людей по отношению к религии, в которой они выросли?
Европа жила в христианстве почти 2000 лет. Европейская культура эволюционировала бок о бок с христианством. Культурно, меметически, она выработала устойчивость к христианству. Неофиты, обращённые в эту религию в Уганде, Новой Гвинее и других отдалённых местах, впервые столкнулись с христианскими мемами, не имея к ним иммунитета.
История религий часто напоминает историю вирусов. Иудаизм и ислам были очень вирулентны, когда только появились, заставляя первые поколения своих людей завоёвывать (ислам) или просто убивать (иудаизм) соседей за грех непохожести на них. Обе этих религии со временем стали более спокойными (Христианство было мирным с самого начала, так как возникло среди завоёванных людей. Когда его приняли римляне, оно не сделало их более воинственными, чем они были до этого).
Этот механизм не полностью повторяет аналогичный механизм болезней, слишком вирулентные из числа которых рискуют убить всех своих носителей. Обычно, религии не убивают своих носителей. Я подозреваю что с течением времени естественный отбор благоволит менее ярым фанатикам. Иными словами, культура со временем вырабатывает антитела против тех религий, с которыми она сосуществует — набор отношений и практик, делающий их менее вирулентными.
У меня есть теория о том, что «радикальный ислам» — это ислам, развившийся на Западе (а «местный» ислам не бывает радикальным). Больше половины из 75 исламских террористов, исследованных Бергеном и Пэнди в 2005 году(English), посещали западный колледж (только 9% учились в медресе). В целом, традиционное западное образование в колледже получил очень маленький процент мусульман. Человек, проживший всю свою жизнь в мусульманской стране, вряд ли испытает жгучее желание поехать заграницу и взорвать там чего-нибудь. Но когда кто-то из мусульманской нации едет в европейский колледж, возвращается с идеями эпохи Просвещения, — о разуме и о том, что оглядываться нужно не только на свои убеждения, но и на всё, что из них выводится — и применяет эти идеи к Корану… Вот тогда начинаются неприятности. Он потерял свой культурный иммунитет.
Я также вспоминаю о выступлении, которое проводил один из ассистентов Далай-Ламы. Это был не приглаженный западный буддизм; это был оригинальный буддизм, буддизм в шафранных робах прямиком с самолёта из Тибета. Этот человек говорил о своих убеждениях, и отвечал на вопросы присутствующих. Люди начали спрашивать его о некоторых последствиях его убеждений о том, что жизнь, любовь, чувства (и даже Вселенная в целом) в самой своей основе плохи и нежелательны. Он с большим трудом понял вопрос — не из за плохого знания языка, я полагаю; просто идея о том, что можно взять убеждение в одном контексте и применить его к другому контексту, была для него совершенной диковинкой. Его знание состояло из отдельных единиц. Каждая единица имела свою историю с собственным выводом и ограниченной областью применения (неудивительно, что многие считают, что для понимания буддизма требуется несколько десятилетий). Ему была незнакома мысль о том, что эти единицы могут как-то взаимодействовать; мысль о том, что можно взять идею из одного контекста и изучать её следствия в совершенно другом контексте. Возможно, это была одна из крайних форм культурного иммунитета.
Мы считаем буддизм мирной, заботливой религией. Религия, которая учит, что борьба и статус бесполезны, определённо должна быть более мирной, чем та, что учит, что весь мир должен склониться перед её влиянием; и религии, за которыми не стоят государства, (например, таким было раннее христианство) обычно спокойнее тех, у которых есть власть казнить и миловать. Но многое из традиционных представлений о буддизме появилось благодаря культурным нормам, мешающим буддистам соединить все точки в своём мировоззрении. Сегодня мы беспокоимся об исламских террористах. Через сто лет мы, возможно, будем беспокоиться о физиках-буддистах.
Я говорю обо всём этом потому, что интеллектуально развитые люди иногда совершают поступки, затмевающие своей глупостью всё, на что способны глупые люди. У этого много причин, но одна из них в том, что во всех культурах циркулируют как опасные мемы, так и культурные антитела к этим мемам. Проблема в том, что эти антитела не логичны. Напротив, они часто могут вообще отрицать логику. Это слепые пятна, которые позволяют нам жить с опасным мемом, не испытывая потребности действовать в соответствии с ним. Опасные эффекты этих мемов наиболее очевидны на примере религий, но я думаю, что какая-то часть этого есть во всех социальных нормах. В Америке есть сильная культурная норма, говорящая о том, что все люди равны (что бы это ни значило); изначально, это сильное и неоднозначное убеждение было сбалансировано набором настолько больших слепых пятен, что оно не побудило нас сразу освободить рабов или дать право голоса женщинам и людям, не владеющим землёй. Можно вспомнить и другую норму, говорящую о том, что только тяжёлый труд гарантированно приводит к успеху, и связанный с ней набор слепых пятен, который не даёт этому убеждению сделать из нас всех объективистов.
Даже небольшое количество разума может быть опасным грузом. Ландшафт рациональности не гладок; нет никакой гарантии, что удаление одного ошибочного убеждения улучшит ваши рассуждения вместо того, чтобы ухудшить их. Иногда разум позволяет нам видеть опасные аспекты наших мемов, но не те слепые пятна, которые нас от них защищают. Иногда он позволяет нам замечать слепые пятна, но не опасные мемы. В обоих случаях разум может привести человека к дисбалансу, подорвать его адаптацию к меметическому окружению и уничтожить цепи, мешающие дремлющим мемам довести себя до логического завершения (перефразируя Стива Вейнберга, можно сказать: «Для того, чтобы умный человек сделал что-то по-настоящему глупое, ему нужна теория». Вообще говоря, можно было бы цитировать и без изменений, ведь «глупое» — это просто слабый оттенок «злого». Коммунизм и фашизм начали с установки полного контроля над меметическим окружением, что позволило им создать свободного от культурного иммунитета человека, который будет делать то что ему скажут).
Как можно понять, что ты удалил набор белых пятен из своего разума, не удалив одновременно их противовесы? Один из способов предотвратить такую потерю иммунитета — внимательно следить за тем, не отклоняешься ли ты от всех, кто находится рядом с тобой. Я постоянно отклоняюсь от мнения окружающих, так что для меня такая эвристика оказалась не очень полезной.
Другая эвристика — слушать свои чувства. Если ваши заключения совершенно вам не нравятся, то, возможно, вы потеряли когнитивный иммунитет к чему-то опасному.
Пандемия COVID-19 очень активно обсуждается на lesswrong.com. Этот раздел посвящён переводам на эту тему.
Примечание редактора сайта: Оригинал этого эссе был опубликован 31 мая 2020 года, поэтому с тех пор могли появиться новые научные данные. При чтении следует учитывать, что автор не является специалистом в области медицины. Свидетельства, на которых основывается позиция автора, можно увидеть в других его записях о COVID-19.
Этот пост будет кратким изложением моих текущих ключевых взглядов на разные аспекты того, что происходит, особенно в тех местах, где я вижу, как многие или большинство ответственно выглядящие люди понимают происходящее неверно в важных местах.
Этот пост не предоставляет сильные, основанные на свидетельствах аргументы в пользу этих взглядов. Это не такой пост. Этот пост - мое отражение всего, в записи, в месте, на которое можно сослаться.
Невозможно на самом деле понять Ковид-19, если вы думаете о некоторых вещах как о «рискованных», а о других вещах как «безопасных», и группируете все вещи в каждую из категорий. И тем не менее, именно так направлена большая часть нашего мышления.
Вместо этого, думайте о рисках как о подчиняющихся степенным законам.
Самые рискованные активности происходят в помещении, включают физическую близость с другими, в то время как в течение продолжительного времени эти другие кашляют, поют, выпускают воздух или сильно выдыхают другим образом, или мы находимся в фактическом физическом контакте, который затем достигает глаз, носа или рта.
Активности, в которых отсутствуют эти компоненты намного, намного безопаснее, чем активности, в которых присутствуют все эти компоненты.
Далее, другие действия, такие как маски, и мытьё рук, и отсутствие прикосновений к лицу, могут уменьшить риск на ещё больший процент.
Небольшие уменьшения в частоте и серьезности ваших очень рискованных действий намного важнее, чем уменьшение частоты условно рискованных действий.
Те несколько раз, что вы будете разговаривать с кем-то в ходе дел, одно общественное собрание, на котором вы будете присутствовать, переполненный магазин, через который вам придется пройти, будут доминировать в вашем профиле риска. Будьте параноидным насчёт этого, и думайте, как сделать это менее рискованным, или, в идеальном случае, избежать этого. Не беспокойтесь из-за маленьких вещей.
И думайте о физическом мире и о том, что на самом деле происходит вокруг вас!
Жертвоприношение богам (пост на эту тему должен быть прикреплен, когда он наконец будет написан) - это действие с физической ценой, но без заинтересованности в какой-либо имеющей значение физической выгоде, сделанное в надежде, что оно сделает совершителя менее заслуживающим осуждения. Все плохо, потому что мы грешили. Боги требуют жертвы. Если мы не будем вести себя с подобающим раскаянием и огорчением, все наверняка станет ещё хуже.
Когда мы ведём себя подобающе, мы добродетельны и, без сомнения, будем спасены. Мы можем остановиться. Нет нужды продолжать таким способом, который действительно сработает, когда боги были умилостивлены. Все обойдется.
Если вы не делаете подобающих жертв, тогда, если что-то пойдет не так, это ваша вина. Или, по меньшей мере, вы всегда будете беспокоиться, что это ваша вина. Как и другие. Если вы делаете подобающие жертвы, ничто не ваша вина. Намного лучше.
Если действие эффективно и действительно решило бы проблему осмысленным способом, это аннулирует всю операцию. Вы можете либо показать, что вы праведны и доверяете богам, либо действовать, чтобы на самом деле решить проблему. По очевидным причинам, вы не можете делать и то, и другое.
Стальной человек (улучшенный аргумент - прим. перев.) всего этого - то, что Сложность - это Плохо (на английском) и нюансы невозможны. Если мы начнем делать вещи, основываясь на том, есть ли в них смысл, это задаст ужасный пример, и большая часть людей будет безнадежно потеряна.
Поэтому мы дезинфицируем посылки. Мы расходимся точно на шесть футов (примерно 1,8 метра - прим. перев.). Мы ждём ровно две недели. Мы закрываем все «не существенные» бизнесы, но не «существенные». Мы выпускаем приказы оставаться дома и выписываем огромные чеки безработным. Потом мы поворачиваемся и «открываемся», к этому моменту незанятость становится добровольной, государство не должно платить, и люди вынуждены возвращаться на работу. Мы лжём, чтобы запретить маски, потом мы пытаемся обязать носить их, и удивляемся, почему люди не доверяют властям. Мы провозглашаем работников здравоохранения героями, но не разрешаем им проводить эксперименты или собирать много информации. И конечно, мы обеспечиваем выполнение норм, обеспечиваем выполнение норм, обеспечиваем выполнение норм, в то время как мы кричим, как мы великолепны и гибки, раз мы отказались от маленького количества этих норм.
Мы должны выбрать одно отдельное вмешательство, которое решит наши проблемы, а не совмещать их эффективность, потому что математика не важна. И коллективный иммунитет - это 75% заразившихся, потому что математика важна именно настолько, но не более важна.
Мы также совершаем ритуальное самоубийство в форме отказа разрешить рыночные силы, или подобающим образом вознаградить тех, кто будет производить вещи, за вещи, которые нам нужно произвести. Но это больше об общих безумных священных ценностях (на английском), чем об истинном пожертвовании богам.
Да, я не в восторге от нашей полностью дисфункциональной цивилизации. Спасибо, что заметили.
Многое из написанного ниже - это разъяснение, чем именно являются эти требования, и почему они попадают в эту категорию.
Полиция, напрямую лгущая, атакующая, задерживающая и убивающая невинных людей справедливо сделала людей очень, очень злыми.
Но ответ на пандемию был не сильно другим, кроме отсутствия протестов.
ВОЗ неоднократно лгала, нам в лицо, о фактах, жизненно важных для охраны нашего здоровья и здоровья окружающих. Они продолжают делать это. Это не отличается от их нормальных процедур. ВОЗ должна быть разрушена.
Управление по санитарному надзору за качеством пищевых продуктов и медикаментов постоянно мешало нашей возможности иметь медицинское оборудование, тестировать на вирус и создать вакцину. Все это продолжается. Это не отличается от их нормальных процедур. Управление по санитарному надзору за качеством пищевых продуктов и медикаментов должно быть разрушено.
Почти все правительственные чиновники в Америке, и большинстве других стран (я не буду вдаваться в то, какие страны являются исключением) делали то же самое. Они участвовали во лжи обо всем. Они в основном действуют, чтобы требовать пожертвований богам, отменяя действия до тех пор, пока какие-нибудь из этих ограничений каким-либо образом умилостивят богов, и они будут выглядеть ответственно и благочестиво, и, может быть, все будет хорошо.
Дискуссии даже не рассматривают возможность рассказать гражданам правду о том, что происходит, или дать им выбор, как реагировать. Считается, что, конечно же, мы должны говорить им то, что вызовет действия, которые нам кажутся правильными.
Всё, что делают такие люди, это попытки найти заклинания, которые оградят их от осуждения в следующую неделю или две. Вот и все. Серьёзно. Вот и все.
Это все, что они ещё могут делать. Практически никто со способностью моделировать физический мир, или тот, кто заботился бы о последствиях своей модели, если бы у них такая была, не имеет власти или авторитета в данный момент. Смотрите цепочку моральные лабиринты (на английском). Ирония в том, что некоторые корпорации (я не буду рассуждать, какие именно, но я стараюсь владеть их акциями) являются самыми значительными исключениями.
Презирайте их всех, как они этого застуживают. Может быть, даже сделайте что-нибудь на этот счёт.
Все данные, которые я видел, и мое физическое понимание вируса, привело меня к выводу, что люди, которые не говорят (а также не чихают, не кашляют, не поют и все такое), не выделяют много вируса. Они на порядок или больше менее опасны, чем тот, кто разговаривает.
Направление тоже имеет значение. Не говорите, находясь лицом к кому-то, не стойте к ним лицом, когда они говорят с вами. Наши уши могут с этим справиться. То же самое с громкостью, которая должна быть минимальной для данных обстоятельств. Пение или крик особенно ужасны.
Это первая причина, по которой, когда мы наконец взглянем на данные, общественный транспорт не был близко так опасен, как он выглядит, и многие города с обширным общественным транспортом по всему миру имели разумные вспышки.
В начале, имело смысл быть параноидным насчёт поверхностей. Было установлено, что вирус может «выживать» различные периоды времени. Поэтому, если вы хотите быть «в безопасности», вам нужно очищать их в какой-либо форме, или ждать тот период времени. Это уменьшает риск практически до нуля, если делается правильно.
В отсутствии этого, мы посылаемая в постоянное безумие «глубокой очистки» и рассматривания поверхностей как смертельного оружия, которые заражают любого, кто к ним прикоснется. Профессии ментально оцениваются по количеству поверхностей, к которым людям требуется прикасаться, и экономическая активность предупреждается, если она может включать слишком много поверхностей.
Этот уровень паранойи мог бы продолжать иметь смысл, если бы ситуация была «если один зомби проскользнёт за линию, все умрут». Предупредительный принцип важен. Это не то, с чем мы столкнулись.
Прошли месяцы. У нас нет конкретных примеров заражения через поверхности. Вообще.
( Примечание переводчика. В комментариях Роб Бенсинджер ответил:
«… Элоиза Розен ответила:
Знаем ли мы о каких-либо ясных примерах этого, для Ковид-19?
Да!
«Женщина в возрасте 55 лет (пациент А1) и мужчина в возрасте 56 лет (пациент А2) были туристами из Уханя, Китай, которые прибыли в Сингапур 19 января. Они посетили местную церковь в один день и имели проявление симптомов 22 января (пациент А1) и 24 января (пациент А2). Три других человека, мужчина в возрасте 53 лет (пациент А3), женщина в возрасте 39 лет (пациент А4), и женщина в возрасте 52 лет (пациент А5) были в той же церкви в тот день и последовательно проявили симптомы 23 января, 30 января и 3 февраля, соответственно. Пациент А5 занимала то же сиденье в церкви, что пациенты А1 и А2 занимали раньше в этот день (заснято камерой видеонаблюдения) (5). Исследования других присутствующих не обнаружили других людей с симптомами, которые были в церкви в тот день.»
https://www.cdc.gov/mmwr/volumes/69/wr/mm6914e1.html
Тем не менее, я не видел других примеров, поэтому я остаюсь скептическим, что передача через поверхности - большая проблема. Эрин Бромаж ранее заявлял, что всплеск в Южнокорейском колл-центре произошел «примерно на 6% из-за передачи через поверхности», но затем отказался от заявления; не уверен, что здесь произошло.»)
Все больше и больше кажется, что, хоть такой путь передачи и возможен, и должен время от времени происходить, получить достаточно вируса, чтобы вызвать инфекцию, в живом виде, таким путем, очень сложно. Если вы моете руки и не трогаете лицо, это ещё сложнее.
Тем временем, те, кто отказываются прикасаться к поверхностям, вроде коробки от доставленной пиццы, оказываются в более многолюдных местах вроде магазинов, результатом чего является возрастание общего риска на порядки.
И тем не менее, несмотря на такую уверенность, чертовски сложно перестать дезинфицировать посылки. И ещё сложнее убеждать делать это письменно. Потому что что произойдет, если я не буду совершать жертвы?
К черту. До тех пор, пока я не получу очень неожиданные свидетельства, поверхности в основном не важны. Если много людей прикасаются к чему-то и затем вы прикасаетесь к этому, конечно, вымойте руки после и будьте очень осторожны, чтобы не прикасаться к лицу перед этим. В остальных случаях, перестаньте беспокоиться о поверхностях. Сохраняйте беспокойство для тех случаев, где оно нужно.
Вам нужно беспокоиться о еде, потому что это то, что мы делаем социально. Это простой способ оказаться проводящим час в помещении, на близком расстоянии от других, разговаривая и иначе взаимодействуя. Это опасно.
Сама еда в большинстве своем минимально рискованна, даже если она не нагревается достаточно для того, чтобы наверняка и полностью убить вирус. Вам не обязательно портить всю вашу еду. Люди часто избегают еду, которая кажется опасной. Ещё раз, есть смысл в том, что она может быть опасной, но на практике прошли месяцы и, кажется, это так не работает. Предосторожности, которые люди предпринимают, в данном случае будут более чем достаточными, чтобы защититься от заражения еды на нужном уровне, чтобы стоить беспокойства. Я хочу сказать, конечно, не ешьте в буфете, хоть и не похоже, что они будут открыты, и даже тогда (также в основном безопасные) поверхности скорее всего страшнее, чем еда.
Как было написано в секции наверху, поверхности тоже не очень опасны. Посудомойки, обращающиеся с ресторанными тарелками как с токсичными отходами основаны не на рассчете риска, они основаны на моральных принципах в отношении чистоты.
Ваш риск исходит от официанта, или от других едящих, находящихся в этой комнате с вами какое-то время. Поэтому, еда на вынос, доставка и/или еда снаружи.
Заметьте понижение с в основном до относительно. Нельзя просто делать все, что захочется, пока это происходит на свежем воздухе.
Активность снаружи выглядит как большая потеря риска по сравнению с деланием того же самого в помещении. Моя лучшая догадка, что существует примерно в 5-10 раз больше риска в помещении по сравнению с такой же активностью снаружи. Это с большой неопределенностью, но выглядит ясным на нескольких уровнях, что существует большая разница. Когда возможно, если есть вещи, которые произойдут вне вашего карантинного кармана, перенесите эти вещи наружу.
Комбинация быстрого, снаружи и не в лицо эффективно складывается в безопасное, особенно, если вы добавите маски. Во время пика эпидемии в Нью-Йорке вещи были настолько напряжёнными, что имело смысл беспокоиться насчёт миазмов (субстанция, находящаяся в воздухе - прим. перев.). Теперь, я буду прилагать лучшие усилия, чтобы сохранять дистанцию и избегать разговоров друг с другом, но в основном не буду беспокоиться насчёт случайных взаимодействий.
Я действительно ожидаю, что будет острый прирост случаев, как результат протестов и гражданских беспорядков… Не увидеть такового было бы удивительно, и это обновило бы мои данные в пользу активностей снаружи как почти полностью безопасных.
Также, мы должны тестировать офицеров полиции каждые несколько дней, когда есть протесты, и положение позволяет, и отслеживать, какие офицеры имели сколько близкого контакта во время этих протестов, и какие офицеры делали такие вещи, как ношение масок. Не важно, какие у него есть другие качества, это естественный эксперимент, который нельзя терять. И также будет важно, чтобы полиция не распространяла Ковид-19 среди протестующих или между собой, если эти события продолжатся. Если мы будем следить внимательно, мы узнаем много вещей, например, насколько важно для распространения, какие протесты были тихими в сравнении с шумными.
Организация благотворительной вечеринки, или другие активные социальные взаимодействия, для развлечения, бизнеса или справедливости, опять же, намного безопаснее, чем то же самое в помещении, но все равно этого стоит остерегаться. Формальное дистанцирование во время события поможет, но только частично. Если много людей и вы не можете дистанцироваться, или люди много говорят друг с другом без большой дистанции, или много кричат или поют, я бы стал беспокоиться.
Хирургические лучше, и N95 ещё лучше, но даже сделанные из обыкновенной ткани маски на обоих концах взаимодействия почти наверняка достаточны для уменьшения риска на 25% и, наверное, 50-75%. Нам нужно уменьшить риск в среднем на 75%, чтобы победить, так что маски сами по себе близки к тому, чтобы быть достаточно хорошими.
Это одна из причин, по которой я оптимистичен насчет того, что мы справимся. Политика насчёт масок в беспорядке, из-за того, как это было провалено, но я ожидаю, что со временем все постепенно уладится. Требования масок также хороший способ понять, какие места принимают разумные предосторожности другими способами.
Правило шести футов намного, намного лучше, чем ничего. Его легко запомнить и выполнять. Если вам нужно выбрать булевское «ровно на таком расстоянии» правило, на расстоянии шести футов звучит примерно правильно. Оно уравновешивает «риск уменьшается в соответствии с правилом, которое, похоже, закон обратных квадратов» и «в какой-то момент люди не будут подчиняться правилу». И да, может быть, люди не готовы справиться с чем-либо кроме булевского переключателя риска.
Но тогда люди полностью сходят с ума и думают, что правило шести футов реально.
Под людьми здесь я подразумеваю практически всех. Даже когда это важно.
Байден и Сандерс дискутировали с платформами на расстоянии ровно шесть футов. Очереди находятся на расстоянии шести футов. Лас Вегас пометил места для сна на парковках на расстоянии шести футов. Рестораны должны держать людей на расстоянии шести футов. Постоянно, люди прилагают лучшие усилия, чтобы быть на расстоянии шести футов, как будто они играют в игру Правильная Дистанция и пытаются получить настолько близкий результат, насколько возможно, но не ближе. Иногда с мерной лентой.
Если вы думаете, что это подмена тезиса, и Все Знают (на английском), что это правило просто эмпирическая закономерность, я уверяю вас, вы неправы. Создаётся парадигма магического безопасно-vs-небезопасно бинарного мышления. Калечится наша возможность думать о физическом мире.
Смотрите О R0 (на английском) для деталей. Здесь - краткий пересказ.
Уровень контакта с другими очень высоко коррелирует с уровнем опасности заражения других.
Разные люди получают и создают на порядки разные риски инфицирования.
Те, которые получают больше риска, с пропорционально большей вероятностью заразятся.
Поэтому, было бы шокирующе, если бы 50% уровень иммунитета через случайные инфекции не сократил будущий риск на 75% или более, чего достаточно для коллективного иммунитета в большинстве случаев. Если на то пошло, скорее всего, он ближе к 25% в большинстве случаев.
Даже если вы не вполне до туда доберётесь, такие эффекты складываются с нашими усилиями в других местах. Поэтому если мы в целом близки к критической точке, что, кажется, так, даже немного иммунитета будет иметь большое значение - первые 5% инфицированных сократят будущий риск сильно больше чем на 10%.
Это - самая важная причина, по которой Нью-Йорк и Северо-Восток так хорошо справляются. Нашим линиям поведения нужно это дополнительное усиление, чтобы перейти за финишную черту.
Это не значит, что мы должны использовать «стратегию коллективного иммунитета», но это значит, что все, кто пытаются нас испугать тем, что «нам нужно 75% заразившихся» либо неправы, либо нагнетающие страх лжецы.
Все, кто говорят, что мы этого не знаем, делают это, чтобы напугать людей, или не знают, как на самом деле работает знание. Обычно и то, и другое.
Правда, что мы не знаем, сколько иммунитет длится, и он может закончиться относительно быстро (например, через год). Но любой, например, ВОЗ, кто заявляет, что он эксперт, и говорит, что мы этого не знаем? Должен быть разрушен.
Я даже не вижу необходимости объяснять, на данный момент, почему проведение экспериментов на добровольцах является моральным императивом, и все, стоящие на его пути, заслуживают медленной и мучительной смерти. Это все.
В дополнение к тому, что это правильно делать, чтобы спасти жизни, если вы посмотрите на фондовый рынок, это будет очевидно правильно сделать, только чтобы собрать налог на прирост капитала и использовать, чтобы оплатить дополнительные расходы. Снова, мы полностью дисфункциональны, и повторяем ритуалы вроде «отдать несколько триллионов долларов, чтобы помочь экономике», не делая того, что на самом деле физически поможет, и беспокоимся насчёт «пустой траты денег», или «переплаты» и других концепций, которые сейчас совсем не имеют значения.
Мы не можем даже, в юридическом смысле, не мешать тем, кто действительно что-то делает.
Если бы нам было не все равно, у нас была бы вакцина за несколько месяцев. Нам все равно, поэтому ее у нас не будет.
Это не совпадение, потому что ничто никогда не совпадение (на английском).
Когда что-либо оказывается почти точно на единственной точке перегиба, в данном случае R0 равном единице, при котором количество случаев не увеличивается и не уменьшается, правильная реакция - это подозрение.
В данном случае, объяснение заключается в том, что действует система контроля. Люди обращают внимание на то, когда все «становится лучше» или «становится хуже» и регулируют поведение, и требуемые официально действия, и добровольные действия.
Когда все «становится хуже», мы предпринимаем «действия» путем запрещения и принудительной остановки действий, и приватно предпринимаем смесь случайных и более осмысленных предосторожностей, до тех пор, пока мы не имеем все правдоподобно под контролем и число случаев сокращается. Что-либо большее люди не поддержат.
Когда все «становится лучше», существует растущее давление расслабиться, «открыться», несмотря на текущие уровни, до тех пор, пока вновь не будет достигнуто равновесие.
Нью-Йорк вырвался из этого равновесия, по крайней мере до Дня Памяти (25 мая в 2020 году - прим. перев.), в результате комбинации коллективного иммунитета и воспоминаний о том, как было плохо. Некоторое время R0 там был около 0.73. Посмотрим, может ли это сохраняться.
Многие вещи имеют значение.
Возраст и сопутствующие заболевания (на английском) оказывают огромный эффект.
Начальная вирусная нагрузка (на английском), наверное, имеет значение. Маленькие риски ещё менее рискованы, чем кажется, особенно если вы не подвергнете опасности других, тех, кто в зоне риска.
Витамин Д имеет значение. Потенциально большое. Но, скорее всего, его нужно принимать до того, как вы заразитесь, нельзя подождать и затем принять макро- дозу, он не сработает тем же способом. Принятие добавок - хорошая идея для практически каждого до тех пор, пока это не закончится, особенно если у вас может быть недостаток витамина. Вы все время находитесь в помещении, это проблема, исправьте ее таблеткой.
Цинк, скорее всего, имеет значение, когда вы уже заразились.
Медицинская помощь имеет значение. Полный упадок медицинской помощи на практике ведёт к умножению уровня смертности в несколько раз, при обычных обстоятельствах. Высококачественное лечение при текущем уровне знаний, наверное, может ещё снизить смертность, так что соотношение между полным успехом и полным упадком может быть довольно большим - нечто вроде разницы на порядок между 0.2% и 2%.
В данный момент у меня нет сильного мнения насчёт конкретной медицинской помощи, кроме описанного.
Я использовал смертность в 1% в моих проекциях и расчетах, чтобы быть консервативным, особенно в случае с Нью-Йорком. Больницы в Нью-Йорке были по меньшей мере немного переполнены в период пика. Скорее всего, в других случаях существует тенденция уровня смертности быть ниже 1%, но это не ясно. Америка в целом могла бы иметь уровень смертности 1.2%, не лишая данных смысла. Кроме того, многое сбивает с толку, и другие данные должны быть во все большей степени неверны. Данные из Нью-Йорка перестают иметь смысл ниже примерно 0.6% уровня смертности, а в других местах он может быть гораздо ниже.
Эти два числа идут нога в ногу, конечно, если выбрать уровень смертности, которому вы верите, и смоделировать, как задерживаются смерти и как задерживаются инфекции.
Те, кто заявляют, что статистика преувеличена, преуменьшают текущее положение дел. Большинство тех, кто просто не верит в существенное преуменьшение статистики, просто доверяет официальным числам, не думая о том, чтобы скорректировать их, или думают, что, не зная, как правильно корректировать, этого делать не нужно, даже если известно направление и можно догадаться о порядке.
Потому что последняя часть первого утверждения важна. Если есть выбор.
Школа - это тюрьма (на английском). Тюрьмы не отпускают заключённых просто потому, что они не хотят там быть.
Хорошие новости в том, что, в то время как у нас не было достаточно сострадания или здравого смысла, чтобы отпустить наших (в большинстве своем совершенно ненужных) заключенных, мы, по меньшей мере, закрыли школы. Но люди недовольны этим и пытались с этим бороться.
Даже в условиях карантина, многие ученики, которых я знаю, погребены под горами «домашних заданий» и вынуждены «присутствовать» на «уроках», которые занимают у них целый день и приводят к чрезмерному напряжению глаз, чтобы воссоздать тюремную атмосферу, пока мы ждём, пока откроются настоящие тюрьмы. Даже сейчас, школы угрожают ученикам разрушением жизни, если они не будут проводить большую часть времени, сигналя свое согласие со случайной властью.
Когда школы снова откроются, они не будут опциональными. Дети будут вынуждены, под стволом пистолета, вернуться в свои клетки. Поэтому решения об этом имеют большое значение.
Также, идея, что «шесть футов равно безопасности» сочетается с открытием школ и создаёт будущую катастрофу, потому что если вы находитесь в ограниченном пространстве весь день, шесть футов вас точно не спасут. Разделить класс на два означает, что утренний класс заражает учителя, который заражает дневной класс, и так далее. Магическое мышление заменило мышление о мире, и мы за это дорого заплатим.
Бедные люди, которые вынуждены вернуться на работу по финансовым причинам уже являются проблемой во многих местах, и с концом продлённой безработицы и с открытием, все будет намного хуже. Но бизнесы в основном будут вести себя в основном ответственно по другим причинам, даже тогда, поэтому я думаю, что в основном будет не так плохо.
Где находится всплеск в местах вроде Джорджии и Техаса?
Там не было всплеска, потому что действия, которые люди продолжили делать в результате «открытия», не были важны. Места, которые открылись, казались безумными для открытия, вроде тату-салонов и спортивных залов, но они не получают много активности, не переполнены и предпринимают предосторожности.
Что опасно? Снова, социальные взаимодействия, и события-суперраспространители. События-суперраспространители все ещё не разрешены. Социальные взаимодействия в основном - частные решения, которые не могут быть остановлены с нашим текущим уровнем желания принуждать к выполнению закона, даже до потери социального порядка. Наша способность принуждать к выполнению закона не увеличится в ближайшее время.
Люди решают, в какой мере будет существовать карантин. Сообщение «вы не в безопасности» - ключевая часть карантинного сообщения. Люди услышали его, и то, что они услышат дальше, не сильно изменит их восприятие безопасности. Они скажут «плевать» и будут делать вещи все равно, в основном по тому же графику, несмотря на решения правительства. Эта война будет идти в другом месте, если только и до тех пор, пока не придет серьезная вторая волна, и, похоже, даже тогда.
Прямо сейчас, люди говорят «не так сильно, как раньше», даже до того, как проявились эффекты демонстраций и потери общественного порядка. Посмотрим, что произойдет, но системы контроля определенно на месте. Я уже скорректировал своей способ проведения, основываясь на ожидании, что в июне все будет хуже, чем я раньше ожидал. Это не будет иметь большого значения, потому что я буду мало рисковать в любом случае, но это показательно для остальных.
Опять же, проблема в том, что когда люди должны открыться, по причинам государственного мандата, или экономической нужды, или других обязательств, появляется опасность. Другие обязательства реальны. Из игнорирование не заставит их исчезнуть, или перестать иметь эффекты.
Было окно, когда люди у власти могли действовать, и эти действия имели бы большое значение. То есть, они могли бы действовать, если бы обладали возможностью действовать. Которой они не обладали. Поэтому они не действовали, вместо этого пытаясь избежать обвинений неделю за неделей в надежде, что все какие-нибудь обойдется. И все практически обошлось, в некоторых важных отношениях, и все ещё могло бы практически обойтись в целом.
Но тот небольшой политический капитал и воля, которые были или могли быть, теперь давно потеряны. Даже до протестов, перед лицом экономической боли, было мало возможности стоять на пути открытия. Либо мы сделаем это по-умному, чего мы не можем сделать, либо мы сделаем это по-глупому и будем надеяться, что отдельные личности и частные корпорации найдут способы сделать это умным, и/или что глупое окажется достаточно хорошими. А они могут сделать все умнее! И все может оказаться достаточно хорошим!
Может быть. Мы надеемся. Но ясно, что мы не сделаем тех вещей, которые сработали в других местах. Также мы не можем продолжать наше глупое закрытие. Все закончилось.
Что нам делать дальше? Я думаю, это ещё неопределено. В большой мере это сводится к физической ситуации. Если окажется, что глупая стратегия работает, то она работает. Мы все равно можем медленно увеличивать тестирование и другие усилия, иммунитет может медленно увеличиваться, и мы надеемся, что мы сможем поддерживать достаточно модификаций, чтобы победить вирус. Или, может быть, будет намного больше заболевших и смертей, до тех пор, пока коллективный иммунитет не победит вирус самостоятельно.
Есть вещи и хуже. Оставаться в карантине на ещё один год, например, потому что мы не примем плохой вариант, было бы намного хуже. Робин Хансон широко говорит о том, как мы должны подготовить план Б, чтобы сделать чистое смягчение. И, конечно, он прав, если нужно сделать это или то, что мы делаем. Тем не менее, это странный выбор. Потому что если бы мы могли сделать вещи, которые он предлагает, мы могли бы также сделать первые лучшие решения, и мы не были бы вынуждены следовать его предложениям.
Паттерн в том, что проценты в утверждениях являются изначальным предсказаниями Скотта Александера. Когда я говорю, что я покупал, продавал или удерживал без изменений, я делал это в посте по ссылке. (При предсказании об Х торгуются фишки, выплата по которым происходит, если Х наступит - соответственно, если оценка Зви была ниже оценки рынка, фишки имело смысл продавать, иначе - покупать - прим. перев.)
Я продал с вероятностью 40%. Я почти наверняка проиграю, за исключением случая, если я чего-то не знаю. Я не знаю, что они думают локально, но, учитывая последние события, я думаю, не будет каких-либо отмен ограничений в ближайшее время. Учитывая, как много мест отменяли похожие ограничения, и как мало было инфекции в области залива Сан-Франциско, я бы и сейчас сказал, что могло быть и так, и так, учитывая, что мы знали в то время. Но, учитывая, как медленно всё движется, я был слишком агрессивен.
Я удержал без изменений. Я все ещё думаю, что это правильно.
Я продал много, и все закончилось. Сейчас это 0%.
Я продал с вероятностью в 30%. Большую часть мая я терял в рыночной цене, поскольку новости в целом были очень хорошими. Будет период, когда скользящая средняя не даст нам 300,000. Но последние новости изменяются, мы видим всплески, и никакого желания с этим что-то делать, и не большой запас до 300,000, даже если системы контроля вызовут регуляции. Я бы сказал, что все так же, как и раньше. Я думаю, что наш основной сценарий теперь около 500,000, конечно, с огромным панелями погрешностей.
Я удержал без изменений. Опять же, мы видели очень хорошие новости вначале, так что, чтобы получить 3 миллиона теперь, нужно, чтобы быстро произошёл коллапс всей системы. Это определенно все ещё возможно, но, я думаю, теперь существует скорее 95% вероятность избежать этого, чем 90%.
Я купил с вероятностью 90%. Кажется, логика сохраняется, у остальных потенциальных кандидатов все хорошо, так что теперь я бы купил немного выше.
Я купил с вероятностью 80%. Учитывая, что Китай продолжает держать все под контролем, и 10% разница приходила из Китая, оценка должна быть ближе к ответу на #6, чем месяц назад. Наверное, теперь купил бы с вероятностью около 85%.
Я купил с вероятностью 95%. Существует ли мир, в котором это станет Миннеаполисом? Я думаю, нет, хотя попытки оформить это так могут быть возможны. В Нью-Йорке все действительно плохо, а общества, которые могли бы разрушиться в Миннеаполисе, не такая уж большая часть города по популяции. Может быть, Лос Анжелес? Я не вижу этого. Мне всё ещё нравится уровень 95%, несмотря на улучшение в Нью-Йорке, потому что прошло время.
Я продал с вероятностью 40%. Я бы продал немного ниже сейчас, опять же, потому что время прошло, а движения нет, а время идёт.
Я продал с вероятностью 40%. Из того, что я видел, новости были хорошими, и я больше не хотел бы продавать ниже 50%. Несмотря на то, что мы полностью не способны сделать то, что сделала бы нормальная цивилизация, мы добились прогресса.
Я продал с вероятностью 15%, учитывая, что исследования останавливают, собьём до 10%.
Я продал с вероятностью 20% «по меньшей мере», и это «по меньшей мере» имело большой смысл. Как и сейчас. Не продавать это с вероятностью 10% или ниже теперь кажется неправильным.
Я продал с вероятностью 40%, время идёт и я бы продавал дальше.
Общий консенсус будет в том, что мы (США в апреле 2020) слишком сильно реагировали: 50%
Общий консенсус будет в том, что мы (США в апреле 2020) недостаточно сильно реагировали: 20%
Я продал 50% с вероятностью 30% и удержал 20%. Если на то пошло, кажется, что консенсус сейчас ещё менее вероятен, чем 50%, которые оставались для него раньше. Консенсуса не будет. Будет «консенсус», который любят провозглашать СМИ, но он не будет настоящим.
Я удержал, потому что это предсказание так неопределённо, оно не настолько утверждение числа, насколько желание держаться в стороне от двусмысленного рынка. В любом случае, мы определенно узнаем!
Я продал с вероятностью 20%, основываясь на том, что это ставка многих вещей. Будет ли июнь считаться, если текущие тренды продолжатся? Есть шансы, что мы уложимся в меньше 50,000 смертей, у нас было 40,000 в мае, и они все ещё снижаются. Ко времени, когда скачок из-за открытия будет достаточно значителен для смертей, будет поздний июнь или июль, так что скорее всего мы побьём 50,000 в июне в официальных числах. А если восстановление начнется в июле или августе, считается ли это? В любом случае, шансы явно поднялись по любому разумному определению. Теперь я бы не стал продавать.
Я продал с вероятностью 80%. Все ещё кажется разумным - опять же, события вроде бы уравновесили друг друга.
Я продал с вероятностью около 15%. Я не слежу за деталями, но, я думаю, шансы немного повысились, но не сильно.
Это больше относится к политике, чем к Ковиду-19, и я не думаю, что ответ сильно изменился.
Я закончу на замечании, к которому все планирую подойти. А именно, если мы так, черт возьми, сильно заботимся о Ковиде-19, существует слон в комнате.
Планетарный уровень смертности стабильно остаётся на 100%. Есть сила, которая убивает всех. Она убивает в основном пожилых, и риск неуклонно увеличивается с возрастом. Даже до того, как она убьет вас, она окажет различные, только частично известные и разрушительные эффекты на ваше тело, разум и качество жизни.
Эта сила, конечно, старение.
Если мы думаем, что смерти от Ковида-19 плохи, что ж, они похожи на смерти от «естественных причин». И все же, они считаются хорошими, и правильными, и надлежащими, а не ужасом, которым они являются. Мы все умрём. Когда кто-нибудь предлагает идею, что это могло бы быть остановлено, или что это плохо, мы получаем статьи об экологических ужасах перенаселения или психологических пытках слишком длинной жизни.
И это полная бессмыслица.
Можем ли мы существенно отложить или даже предотвратить старение путем научных исследований? Мы не знаем. Мы не прилагаем усилий. Моя догадка - да, мы абсолютно можем улучшить нашу продолжительность жизни и замедлить негативные эффекты старения. Возможно, мы можем остановить их по большей части или полностью, если уделим этому достаточно времени. Здесь много низко висящих плодов, которые не срывают, потому что мы не думаем, что было бы хорошо их сорвать. Можно исправлять ситуацию хуже, чем базовый уровень «все умирают», но не исправить этот базовый уровень.
Мы не отличаемся от команды Энтерпрайз D, которая оплакивает отдельные смерти и прикладывает огромные усилия, чтобы найти лекарства и охранять невинных, и при этом постоянно находит способы радикально отложить или предотвратить человеческое старение, и никто не утверждается на них указать. Например, о, посмотрите, это примитивное общество нашло лекарство от старения, которое они используют, чтобы жить дольше, чтобы добиваться мести, и, может быть, намек в том, что они излечили старение, и нам стоит этим заняться?
Нет. Это не мораль истории на этой неделе.
Неудивительно, что все хорошее должно кончаться.
Дисклеймер: я составил этот документ в свое свободное время, чтобы собрать советы и базовую информацию, которую я видел в различных источниках. Я не врач и не эпидемиолог. Записывая это, я ставил в приоритет широту, ясность/удобство использования, и быстрое записывание информации. Я не тратил много времени на проверку каждого заявления (несмотря на это, я планирую продолжать исправлять ошибки, на которые мне указывают), и я ожидаю, что часть информации ниже впоследствии окажется неверной.
Я опубликовал оригинальную версию этого документа на Фейсбуке (на английском) 15 марта. Секции 2 и 3 были обновлены 28 марта (и перепощены на LessWrong (на английском)), и вновь 26-27 апреля и 2 июня.
Добавлено 4 июня: я резюмировал все изменения к частям 2-3 здесь (на английском).
Если вы живёте в США, я рекомендую вам уйти на карантин немедленно (в той мере, в которой это для вас возможно), чтобы избежать риска Ковида-19, нового коронавируса. Я объясню, почему, ниже, затем дам советы, как уменьшить риск и что делать, если вы заболели.
Карантин - это не все или ничего, и каждая маленькая часть помогает. Даже если вы ожидаете, что заболеете Ковидом-19, вы, вероятно, заболеете сильнее, если сначала получите большую вирусную нагрузку.
(Пол Бом говорит (на английском), что «практически каждое исследование дозы вируса/бактерии показывает этот результат». Дивиа Эден: «Насколько я понимаю, репликация вируса - экспоненциальный процесс, и производство антител - тоже экспоненциальный процесс. Поэтому ранняя разница в нагрузке должна помочь последнему опередить первую.»)
Поэтому даже если прямо сейчас вы не можете (например) работать из дома, я бы все равно рекомендовал принимать серьезные меры, чтобы уменьшить экспозицию.
(Обновил эту секцию 30 марта).
Сара Константин говорит (на английском): «Корейские власти говорят, что только около 10% пациентов с коронавирусом были имели достаточно тяжелые случаи, чтобы нуждаться в госпитализации. В Китае 19% подтвержденных случаев были «тяжёлыми» или «критическими», но это число, вероятно, выше, чем настоящее, в результате ограниченного доступа к диагностическим наборам и случаям с лёгкой формой Ковида-19, которые остались неизвестными.»
Как ни удивительно, отчёты показывают, что ~55% госпитализаций с Ковидом-19 в Китае - это люди до 50 https://twitter.com/ScottGottliebMD/status/1233940433081896960 (на английском) и более 50% французских случаев были людьми до 60 https://news.yahoo.com/france-close-shops-restaurants-fight-192035693.html (на английском). 38% госпитализированных случаев в США были в возрасте 20-54 https://www.nytimes.com/2020/03/18/health/coronavirus-young-people.html (на английском). Основываясь на быстром поиске в Гугле, 70% китайцев в возрасте до 50, 74% французов в возрасте до 60, и 47% американцев в возрасте 19-54.
Команда Имперского Колледжа по Ответу на Ковид-19 пытается предсказать тяжесть случая (на английском) в США и Великобритании по возрасту:
Статья предполагает, «что две трети случаев имеют достаточные симптомы, чтобы изолироваться (если это требуется политикой) в течение суток после появления симптомов», что может означать, что они относятся к «случаям с симптомами» как к двум третям всех случаев - я не был уверен, поскольку «недостаточно симптомов» не то же самое, что «без симптомов». В Великобритании, предсказывают, что «4.4% инфекций [с симптомами?] [будут требовать] госпитализации». (Больше обсуждения частоты бессимптомных случаев. (на английском))
(Добавлено 10 мая: Несмотря на то, что в США количество смертей на количество случаев кажется похожим на количество смертей в других странах, таких как Китай и Италия (что приводит к переполненности больниц в случае Италии - 1, 2, 3, 4 (все на английском)), количество госпитализаций на случай в США кажется намного меньшим, чем в тех странах. Я удалил секцию «Случаи Ковида-19, вероятно, совершат острый скачок в следующую неделю или две, перегружая медицинскую систему США.»)
Обсуждение здесь. (на английском) Джим Бабкок замечает: «Острый респираторный дистресс-синдром (ОРДС) появляется у примерно 20% пациентов, болеющих достаточно тяжело, чтобы быть госпитализированными,» и отмечает высокую смертность и повреждения в пятилетнем исследовании не болеющих Ковидом-19 пациентов с ОРДС.
Из Business Insider (на английском) (смотрите также Утренний Пост из Южного Китая (на английском)):
[…П]осле изучения первой волны пациентов, которых выписали из больницы и которые полностью выздоровели от Ковида-19[, Гонконгская Больничная Власть выяснила, что и]з 12 человек в группе, двое или трое увидели изменения в объеме лёгких.
«Они задыхаются, если пойдут немного быстрее,» - сказал пресс-конференции медицинский директор Центра Инфекционных Заболеваний власти Овен Тсанг Так-ин в четверг, согласно Утреннему Посту из Южного Китая.
«Некоторые пациенты могут иметь уменьшение от 20 до 30% в функциональности легких» после полного выздоровления, сказал он.
Тсанг добавил, однако, что пациенты могут делать упражнения для сердечно-сосудистой системы, например, плавание, чтобы со временем улучшить объем лёгких.
Несмотря на то, что ещё прошло слишком мало времени, чтобы установить долгосрочные эффекты заболевания, сканы лёгких девяти пациентов также «нашли паттерны, похожие на матовое стекло у них всех, что значит, что у них были повреждения органов,» сказал Тсанг, согласно посту.
Вскрытие умерших пациентов с Ковидом-19 обнаружило фиброз лёгких (на английском). Умершие пациенты, очевидно, не могут представлять всю популяцию, но это особенно беспокоит, потому что фиброз лёгких не излечивается.
Оценить риск здесь очень сложно, потому что мы, очевидно, не можем наблюдать долгосрочные эффекты Ковида-19 сегодня. Дополнительно тревожно, что пережившие ТОРС (тяжёлый острый респираторный синдром - прим. перев.) (который был вызван близко родственным штаммом коронавируса) имеют множество хронических заболеваний: Джим Бабок замечает,
Из 208 канадцев, переживших ТОРС, 22 (10%) появляются в этом исследовании (на английском) тех, «кто остался неспособным вернуться к предыдущиму роду занятий» с «клиническими сходствами с синдромом фибромиалгии». Это подразумевает высокую нижнюю границу на степени нетрудоспособности среди переживших ТОРС.
Рейтер (на английском) отмечает, что через год после выздоровления, «сорок процентов [переживших ТОРС] сообщали о какой-то степени хронической усталости, и 27 процентов попали под критерии диагностики синдрома хронической усталости».
Добавлено 28 марта: дополнительная дискуссия на сайте Сары Константин (на английском).
Уровень смертности сложно оценивать, по нескольким причинам:
Если чей-то случай тяжёлый, у них большая вероятность взаимодействовать с медицинской системой и получить тестирование. Поэтому болезнь может казаться более тяжёлой, чем на самом деле.
Ковид-19 часто убивает медленно, поэтому, когда появляется большое увеличение числа случаев, счётчик смертей начнет отставать от счётчика заболевших, и заставит болезнь выглядеть менее смертельной, чем на самом деле. Из Всемирной Организации Здравоохранения (на английском): «Среди пациентов, которые умерли, время от появления симптомов до конца бывает 2-8 недель.»
Riou и другие (на английском) пытается скомпенсировать эти факторы, и оценивает общую фатальность в 1.6% в Хубэй в январе и раннем феврале. Как указано выше, компенсация группы Имперского Колледжа (на английском) считает уровень смертности 0.9% для Великобритании и США.
… а если вы всё-таки подхватите его, у вас будет гораздо большая вероятность получить медицинский уход (или вообще какой-либо уход).
(Добавлено 26 апреля: Теперь, когда большая часть США укрывается, я записал некоторые быстрые мысли насчёт конца игры Ковида-19 (на английском).)
Центры по контролю и профилактике заболеваний считают (на английском), что Ковид-19 в основном передается от человека к человеку, «через респираторные капли, появляющиеся, когда заражённый человек кашляет или чихает. Эти капли могут попасть на рты или носы находящихся рядом людей, или, возможно, их вдохнут в лёгкие.»
Ковид-19 имеет длинный период инкубации и высокую скорость передачи, включая серьезную бессимптомную передачу (на английском). Это означает, что разговоры (на английском) тоже, наверное, частый способ - вы удивитесь, сколько слюны вылетает, когда люди разговаривают.
(Добавлено 26 апреля: Свидетельства того, что разговоры - важный способ, продолжают накапливаться (на английском). События-суперраспростронители Ковида-19 в основном включали большие группы людей, которые разговаривали, пели или кричали в помещении.
Из Скотта Готтлиба (на английском): » Исследование 318 вспышек в Китае нашли передачу, произошедшую снаружи только в одной, включающую только 2 случая. Большая часть происходила дома или в общественном транспорте. Поднимает ключевую возможность для штатов перенести больше сервисов наружу (религиозные, занятия в спортзале, рестораны и так далее).
https://www.medrxiv.org/content/10.1101/2020.04.04.20053058v1”)
Поэтому моей главной рекомендацией будет избегать находиться рядом с другими людьми (если только вы не вместе ушли на карантин), особенно в толпах или помещениях.
Добавлено 8 мая: Я рекомендую прочесть «Риски - знайте их - избегайте их» (на английском) иммунолога Эрина Бромажа полностью. Некоторые ключевые заявления:
Чтобы заразиться, вам правдоподобно нужно подвергнуться воздействию ~1000+ вирусных частиц SARS-CoV2 (источник (на английском)) - либо всем сразу, либо в течении минут или часов. Чем больше присутствует вирусных частиц, и чем больше времени вы проводите под их воздействием, тем больше ваш риск инфекции.
[К]апли в одном кашле или чихании могут содержать 200,000,000 вирусных частиц.» Один кашель выпускает ~3000 (в основном больших) капель, путешествующих со скоростью 50 миль в час (~80 км/ч - прим. перев.) (источник (на английском)). Одно чихание выпускает ~30,000 (в основном маленьких) капель, путешествующих со скоростью 200 миль в час (~322 км/ч - прим. перев.) (источник (на английском)). Более маленькие частицы зависают в воздухе дольше. Если кто-то чихнет или кашлянет, «даже если этот кашель или чихание не было направлено на вас, некоторые заражённые капли - мельчайшие из мелких - могут находиться в воздухе несколько минут, наполняя каждый угол комнаты скромных размеров заразными вирусными частицами. Все, что вам нужно сделать, это войти в эту комнату в течение нескольких минут после кашля/чихания и сделать несколько вдохов, и вы потенциально получили достаточно вируса, чтобы заразиться.
По контрасту, «один выдох выпускает 50 - 5000 капель», большая часть которых быстро падают на землю; дыхание через нос выпускает ещё меньше капель (источник (на английском)). «У нас пока нет числа для SARS-CoV2, но мы […] знаем, что человек, заражённый гриппом, выпускает примерно 3-20 вирусных РНК в минуту дыхания» (источник (на английском)). Это предполагает, что если ваш единственный контакт с заболевшим человеком, когда они, не говоря, дышат на другом конце комнаты, вероятно, у них займет час или больше, чтобы заразить вас.
Разговоры выпускают «~200 копий вируса в минуту. Снова, [пессимистически] предполагая, что каждый вирус вдыхается, потребуется ~5 минут разговора лицом к лицу, чтобы получить необходимую дозу» (источник (на английском)).
Смывание туалета аэрозолизирует капли (которые могут содержать жизнеспособный вирус), поэтому используйте общественные туалеты с особенной осторожностью (поверхности и воздух)» (источник (на английском)).
»[П]ожалуйста, не забывайте о поверхностях. Эти заразные респираторные капли где-то приземляются. Мойте руки часто и перестаньте трогать лицо!»
«Мы знаем, что по меньшей мере 44% всех инфекций - и большинство внебольничных передач - происходят от людей без каких-либо симптомов (бессимптомных или пресимптомных людей) (источник). Вы можете распространять вирус вплоть до 5 дней до того, как начнутся симптомы. […] Вирусная нагрузка в общем возрастает до того момента, когда у человека появляются симптомы. Поэтому как раз до появления симптомов, вы выпускаете больше всего вируса.»
«Самые распространенные источники инфекции - дом, место работы, общественный транспорт, социальные собрания, и рестораны. Они отвечают за 90% всех случаев передач. По контрасту, распространение вспышек в результате совершения покупок кажутся ответственными за маленький процент отслеженных инфекций.» (источник (на английском)). «Самые большие вспышки происходят в [домах престарелых,] тюрьмах, религиозных церемониях, и рабочих местах, таких, как предприятия мясной промышленности и колл-центры.» Кажется, вспышки происходят диспропорционально часто в более холодных помещениях, и на более крупных и более социальных собраниях вроде свадеб, похорон, дней рождения и мероприятий по налаживанию контактов.
Пространства внутри помещений, с ограниченной циркуляцией воздуха или рециркулированным воздухом и множеством людей опасны с точки зрения передачи вируса. Мы знаем, что 60 людей в комнате размером с волейбольную площадку (18x9 м - прим. перев.) (хор) приводит к множеству заболеваний. Та же ситуация с рестораном и колл-центром. Социальное дистанцирование не работает внутри помещений, где вы проводите много времени, так как люди на противоположных концах комнаты были заражены.
«Принцип заключается в вирусной экспозиции на протяженных периодах времени. Во всех этих случаях, люди подверглись воздействию вируса в воздухе в течение длительного периода (часов). Даже если они были на расстоянии 50 футов (примерно 15 метров - прим. перев.) (хор или колл-центр), даже низкая доля вируса в воздухе, которая достигала их, была достаточна, чтобы вызвать инфекцию, и, в некоторых случаях, смерть.
«Правила социального дистанцирования на самом деле существуют для того, чтобы защитить вас от коротких экспозиций или экспозиций снаружи. В таких ситуациях не хватает времени, чтобы достичь заразной вирусной нагрузки, когда вы стоите на шесть футов (примерно 1,8 метра - прим. перев.) друг от друга, или где ветер и бесконечное пространство снаружи для разбавления вируса уменьшает вирусную нагрузку. Эффекты солнечного света, тепла, и влажности на выживание вируса, все служат минимизации риска для всех, когда вы снаружи.»
Вам особенно не стоит беспокоиться насчёт «[коротких визитов в] продуктовые магазины, поездки на велосипедах, неосмотрительных бегунах, которые не носят маски». «[Д]ля тех, кто покупает товары: в низко-плотном, с высоким объемом воздуха магазине, вместе с ограниченным временем, которое вы проводите в магазине, возможность получить заразную дозу низка.» Если вы вынуждены работать в продуктовом магазине, или проводить много времени в офисе или классе - особенно в таком, где больше людей разделяют пространство и/или воздух, или таком, что требует «разговоров лицом к лицу или, ещё хуже, крика» - вам стоит намного больше опасаться.
Бромаж говорит, что продуктовые магазины не являются «местами беспокойства», но я предполагаю, что он имеет в виду, что они относительно безопасны, если вы находитесь на хорошей дистанции ото всех, идете туда, когда магазин довольно пустой, и т. д. Если один кашель от кого-нибудь на нескольких футах от вас, кто не смотрит в моем направлении, может заразить меня Ковидом-19 за несколько секунд, это все ещё кажется мне «стоящим беспокойства»!
Дополнительно, Джим Бабкок даёт комментарий на изначальное заявление Бромажа, что «заражения во время шоппинга, кажется, ответственны за 3-5% заражений»:
Источник этого покрывает Нингбо от 21 января до 6 марта. Мое основное беспокойство, когда я смотрю на это число, в том, что смягчения в Нингбо могли быть более эффективными для магазинов, чем для других мест, способами, которые не применимы к США. Например, я довольно уверен, что они сканировали бы людей на высокую температуру на входе, и требовали использования масок. Я не слышал о сканировании на температуру в Беркли (хотя я, на самом деле, не выходил из дома), и, хоть у нас и есть постановление носить маски, это, в основном, маски из ткани (которые менее эффективны), и подчинение не кажется очень хорошим.
И:
Конкретный номер ~1000 вирусных частиц ссылается на довольно поверхностный источник (на английском); это ведёт к паре эпидемиологов, рассуждающих без данных, и, на самом деле, они говорят:
«Реальное минимальное число варьируется для разных вирусов, и мы ещё не знаем, какова «минимальная инфекционная доза» для Ковида-19, но мы можем предположить, что это около ста вирусных частиц.»
и
«Для многих бактериальных и вирусных патогенов, у нас есть общая идея о минимальной инфекционной дозе, но, поскольку SARS-CoV-2 является новым патогеном, у нас не хватает данных. Для ТОРС (по-английски SARS - прим. перев.) инфекционная доза для моделей-мышей была только лишь несколько сотен вирусных частиц. Поэтому кажется вероятным, что нужно вдохнуть около нескольких сот или тысяч частиц SARS-CoV-2, чтобы развить симптомы. Это могла бы быть относительно низкая инфекционная доза, и это могло бы объяснить, почему вирус распространяется относительно эффективно.»
Так что, здесь существует неуверенность примерно на порядок. С другой стороны, более широкое заявление - что размер воздействия имеет значение - почти наверняка истин, и то, что подразумевает конкретное число 1000 в основном загорожены более точными наблюдениями того, в каких местах люди получают вирус.
Бромаж смягчил заявление о продуктовых магазинах на «По контрасту, распространение вспышек из-за шоппинга, кажется, ответственно за малый процент отслеженных инфекций.», и теперь цитирует два дополнительных исследования для заявления о 1000 частиц: 1, 2 (все на английском).
Добавлено 2 июня: Джонатан Кей пишет (на английском) 23 апреля,
В соответствии с бинарной моделью, установленной в 1930-х годах, капли типично классифицируются как либо (1) большие глобулы Флюггианской разновидности - выгибающиеся в воздухе, как теннисный мяч, пока гравитация не принесет его на землю; или (2) меньшие частицы, меньше чем от пяти до 10 микрометров в диаметре (примерно одна десятая широты человеческого волоса), которые лениво дрейфуют по воздуху, в виде маленьких аэрозолей.
[…] Несмотря на то, что прошло четыре месяца с первых известных случаев Ковида-19, наши должностные лица, связанные с общественным здоровьем, остаются преданными линиями поведения, которые показывают отсутствие ясного понимания, приносят ли одноразовая баллистическая полезная нагрузка капель или облака маленьких аэрозолей больше риска - или даже как эти две модели сравниваются с возможностью непрямой инфекции через заражённые поверхности (известные как «фомиты»).
Получить такое понимание абсолютно критично для задачи приспособления появляющихся мер для общественного здоровья и линий поведения на рабочих местах, потому что процесс оптимизации линий поведения полностью зависит от того, какой механизм (если какой-либо) доминирует:
Если большие капли окажутся доминирующим способом передачи, тогда расширенное использование масок и социальное дистанцирование критично, потому что угроза исходит от полёта баллистических капель, связанного с чиханием, кашлем и затрудненным дыханием. Нас также убеждали бы говорить тихо, избегать «кашля, чихания и сморкания,» или проявления любого вида усиленного дыхания на публике, и направлять рты вниз, когда говорят.
Если долго находящиеся в воздухе облака мельчайших аэрозольных капель окажутся доминантным способом передачи, с другой стороны, фокус на баллистике чихания и на точном геометрическом разграничении протоколов социального дистанцирования становятся несколько менее важными - раз частицы, которые остаются висеть в воздухе на неопределенное время, могут путешествовать на большие расстояния благодаря нормальным процессам естественной конвекции и распределению газов. В этом случае, нужно поставить в приоритет использование пространств снаружи (где аэрозоли быстрее улетают) и улучшить вентиляцию помещений внутри.
Если заражённые поверхности окажутся доминантным способом передачи, нужно будет продолжить, и даже расширить, нашу текущую практику скрупулёзного мытья рук после контакта с купленными в магазине предметами и другими поверхностями снаружи; так же как и протирать доставленные предметы раствором отбеливателя и другими дезинфицирующими средствами.
Зви Моушовиц комментирует (на английском):
Обнаруженные события-суперраспространители в основном были с путем передачи крупными каплями
Статья сильно аргументирует что в обнаруженных событиях-суперраспространителях основным способом передачи были большие капли. И эти большие капли распространяются на маленьких расстояниях, разговаривающими людьми (в основном все), или поющими (несколько хоровых/поющих практик) часто или громко, или смеющимися (много вечеринок), или иначе быстро выдыхающими (например, матч по кёрлингу) и так далее.
Существует высоко заметное отсутствие событий-суперраспространителей, которые дали бы основания предполагать другие механизмы передачи. Метро и другой общественный транспорт отсутствуют, самолёты в основном отсутствуют. Представления и шоу всех видов также отсутствуют. Тихие рабочие места отсутствуют, громкие (где нужно кричать людям в лицо) показываются. События-суперраспростронители в университетах не связаны с занятиями (где в основном говорит только профессор), но скорее с социализацией. […]
Зви утверждает, что поверхности и маленькие аэрозольные капли с маленькой вероятностью являются основными направлениями инфекции для Ковида-19. Он обсуждает методы избегания передачи больших капель:
Большие капли: правило шести футов понятно, но также очевидная ерунда
Для больших капель, существует по существу ноль сообщений насчёт того, чтобы наклоняться вниз или избегать физических действий, которые вызовут выброс ещё большего количества капель, или избегать нахождения на прямом пути потенциальных капель других людей.
Вместо этого, нам говорят держаться на расстоянии шести футов от других людей. Нам говорят, что шесть футов - это безопасно, а меньше - это опасно. Потому что вирус может путешествовать только на шесть футов.
Это очевидная ерунда. Совершенно ясно, что капли могут распространяться дальше, чем на шесть футов. Даже больше, концепт булевской функции риска [то есть, такой, что резко делит все на либо «рискованное», либо «безопасное», без оттенков серого] безумен. Люди выделяют вирус с разными скоростями, с разных высот, под разным ветром и так далее. Физика каждой ситуации будет отличаться. Чем ближе вы находитесь, тем больше риска.
Интуитивно имеет смысл думать о чем-либо вроде закона обратных квадратов, до тех пор, пока не доказано обратное, так что на расстоянии шести футов риск равен примерно 3% риска на расстоянии одного фута (примерно треть метра - прим. перев.). Это определенно не правильные числа, но это догадка, которой мне удобно оперировать.
Увы, сообщение не таково. Сообщение, что 72 дюйма безопасно, 71 дюйм небезопасно.
В отличие от предыдущего случая очевидной ерунды (на английском), для этого существует разумное объяснение. Я сочувствую ему. У вас есть примерно пять слов. «Всегда расходитесь на шесть футов» достаточно хорошие пять слов. Возможно, нет лучших. Шесть футов - это дистанция, которую можно правдоподобно потребовать, и, тем не менее, иметь разговоры и очереди, в меру разумные, так что это осмысленный компромисс.
Это ложь. Она не настоящая. Как прагматичный выбор, она неплоха.
Проблема в том, что к ней относятся как к буквально реальной.
Джо Байден и Берни Сандерс встретились на сцене дебатов. Диаграммы планов разместили их ровно на расстоянии шести футов.
В статье, кто-то приглашает автора, репортёра, в свой дом, чтобы пообщаться. Говорит, что он приготовил два стула, на расстоянии шести футов. «Я померял сам», говорит он. […]
И так далее. Люди действительно стараются сделать дистанцию ровно шесть футов так часто, как возможно.
[…] Это общество, которуе жертвует пропускной способностью, чтобы четко изложить сообщение. Снова, я понимаю. Проблема в том, что мы также жертвуем способность передавать нюансы. Мы неспособны, после этой жертвы, сказать людям, что существует физический мир, и они могут подумать, как его оптимизировать. Есть только одно правило свыше, Правило Шести Футов.
Поэтому, возможно, нам никогда не удастся заставить людей говорить тихо в землю, а не прямо смотря друг на друга, и громко и с силой, чтобы «компенсировать» дистанцию ровно в шесть футов, которая является самой худшей возможной ориентацией, которая не ближе шести футов.
В теории, мы можем пойти дальше. Вы заболеваете, потому что капли от заражённого человека путешествуют от их лица и касаются вашего лица.
Поэтому, очередь удивительно безопасна, если все смотрят в одну сторону, по модулю любых сильных ветров. У человека за вами нет направления, чтобы попасть вам в лицо. И мы можем это расширить. Мы можем сделать одну сторону дороги, где люди идут на север, и другую сторону дороги, где люди идут на юг. Если вы видите, как кто-то приближается с другим направлением, повернитесь и идите назад, пока они позаботятся, чтобы вы не столкнулись. Если нужно, стойте на месте по этой причине. В любом случае, это должно помочь - если это механизм, о котором мы беспокоимся.
[…] Да, раздражает, когда не видишь других людей, но вы абсолютно можете поговорить, стоя спинами друг к другу. Это маленькая цена.
Подобным образом, кажется маленькой ценой не говорить, черт возьми, всегда, когда это возможно, когда вы на публике. Вообще говорить, когда вы не среди семьи, может считаться вредным, и нужно делать это минимально (и также, говоря, не стойте ни к кому лицом).
Зви подчеркивает, что существует гораздо больше пользы в небольшом уменьшении риска от самых больших источников инфекции (включая большие капли как категорию), чем от огромного уменьшения рисков от маловероятных источников инфекции:
Фокусируйтесь только на том, что имеет значение
Для этих больших рисков, маленькие изменения имеют значение. Они важнее, чем полное избегание маленьких рисков.
Одно социальное событие, такое как похороны, день рождения или свадьба, могут по умолчанию дать любому человеку 30%+ вероятность заразить любого другого человека на этом событии, если событие маленькое, и достаточно большую, если событие большое. Вам нужно только одно. Немного больше дистанцирование, немного более тихие разговоры, и так далее, на одном таком событии, большое уменьшение риска.
Тогда как «близкий контакт», который не включает разговоры или близкое взаимодействие, наверное, даёт больше (просто предположение, но основное на разных вещах) 0.03% вероятность заражения, если другой человек заразный, и, скорее всего, с более низкой вирусной нагрузкой. Конечно, эти контакты складываются, но не так быстро. Так, вагон метро, полный «близкого контакта», может дать вам 10 их в день, большая часть которых, в любое данное время, не заразна. Если эта модель верна.
В другом посте, Зви пишет (на английском):
Риски подчиняются степенным законам
[…] Небольшие уменьшения в частоте и серьезности ваших очень рискованных действий намного важнее, чем уменьшение частоты условно рискованных действий.
Те несколько раз, что вы будете разговаривать с кем-то в ходе дел, одно общественное собрание, на котором вы будете присутствовать, переполненный магазин, через который вам придется пройти, будут доминировать в вашем профиле риска. Будьте параноидным насчёт этого, и думайте, как сделать это менее рискованным, или, в идеальном случае, избежать этого. Не беспокойтесь из-за маленьких вещей.
И думайте о физическом мире и о том, что на самом деле происходит вокруг вас!
И:
Моя лучшая догадка, что существует примерно в 5-10 раз больше риска в помещении по сравнению с такой же активностью снаружи.
Комбинация быстрого, снаружи и не в лицо эффективно складывается в безопасное, особенно, если вы добавите маски. Во время пика эпидемии в Нью-Йорке вещи были настолько напряжёнными, что имело смысл беспокоиться насчёт миазмов (субстанция, находящаяся в воздухе - прим. перев.). Теперь, я буду прилагать лучшие усилия, чтобы сохранять дистанцию и избегать разговоров друг с другом, но в основном не буду беспокоиться насчёт случайных взаимодействий.
Я действительно ожидаю, что будет острый прирост случаев, как результат протестов и гражданских беспорядков… Не увидеть такового было бы удивительно, и это обновило бы мои данные в пользу активностей снаружи как почти полностью безопасных.
Позаботьтесь о том, чтобы не трогать/поправлять маску/покрытие (или свое лицо), пока носите её, за исключением снятия (и выбрасывания, и дезинфекции), когда вы закончили ее носить.
Я слышал, как некоторые люди заявляют, что маски бесполезны, но это неверно, если вы будете носить их правильно.
- https://jamanetwork.com/journals/jama/article-abstract/2749214
- https://jamanetwork.com/journals/jama/fullarticle/184819
- https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2662779/
- https://academic.oup.com/cid/article/65/11/1934/4068747 (все на английском)
Если у вас нету хирургических масок, сделанные самостоятельно маски или шарфы тоже могут быть эффективными.
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2440799/ (на английском) показывает, что сделанные самостоятельно маски (сделанные из полотенца для чайной посуды) были менее эффективны, чем хирургические маски, но все же полезны.
Добавлено 28 марта: Скотт Александер (на английском) просматривает литературу и делает вывод: «Если недостаток закончится, и ношение маски будет бесплатно, я согласен с указаниями из Китая, Гонконга и Японии - подумайте о ношении маски в ситуациях с высоким риском, таких, как метро или переполненные здания. Ношение маски не сделает вас неуязвимым, и если вы компенсируете риски хотя бы немного, оно может принести больше вреда, чем пользы. Реалистично вы должны избегать ситуаций с высоким риском, таких, как метро или переполненные здания, насколько возможно. Но если вы должны пройти туда, да, скорее всего, маска поможет.»
Добавлено 26 апреля: для сделанных самостоятельно масок, Хротгар говорит (на английском):
[…] Я бы выбрал самые плотные, самые тонко сотканные материалы, которые доступны, и наслоил бы так много, сколько возможно, не делая сложным дыхание. Я бы носил их снаружи, предпринимая все другие предосторожности (дистанция, очки, и т. д.), и дышал бы МЕДЛЕННО через нос. Медленно, потому что более низкая скорость воздуха уменьшает проникновение, нос, потому что он также действует как фильтр. Я бы вымыл все немедленно и тщательно, когда пришел домой.
Источник: соедините эти исследования об эффективности масок, сделанных из ткани/самостоятельно
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2440799/ (на английском)
https://academic.oup.com/annweh/article/54/7/789/202744 (на английском)
с этим твитом (сделанным вирусологом) о важности первоначальной вирусной нагрузки
https://twitter.com/PeterKolchinsky/status/1239560638239838215 (на английском)
и тогда отсутвующая часть насчёт размера капель + зернистого фильтра, который будет отличаться в зависимости от того, что вы наденете на лицо.
Более плотные материалы лучше, как вы можете ожидать. Толстовки Тауэлс & Хэйнс были лучшими в этом исследовании:
https://academic.oup.com/annweh/article/54/7/789/202744 (на английском)
Добавлено 2 июня: Зви Моушовиц пишет (на английском): «[Д]аже сделанные из ткани маски на обоих концах взаимодействия почти наверняка достаточны для уменьшения риска на 25% и, наверное, 50-75%.»
Из Патрика ЛаВиктуара (на английском):
Как и большая часть респираторных заболеваний, коронавирус переносится в каплях воды, когда больные люди кашляют или чихают. Если капли полностью высыхают, вирус уничтожен.
Они высыхают в воздухе довольно быстро - если вы находитесь на расстоянии больше десяти футов (примерно 3 метра - прим. перев.), маловероятно, что вы их вдохнете. Но на поверхностях, включая металл, стекло и пластик, они могут оставаться на часы и даже дни. (Тогда пригодятся протирания с отбеливателем; очищайте ручки на раковине, особенно, если кто-то приходит с вирусом и смывает его.)
Самая большая опасность, тогда [если вы избегаете социального контакта с другими], в том, что вы прикоснетесь к поверхности с коронавирусом на ней, а затем (перед тем, как тщательно помыть руки) прикоснетесь ко рту, носу или глазам. Когда вирус на них, вы, вероятно, заболеете.
Также что совет номер один - это научиться, сейчас, не трогать лицо руками.
PBS говорит (на английском) (добавлено 30 марта):
Какая лучшая поверхность для уничтожения вирусов? Наша кожа. В обоих случаях, гриппа и вирусов, вызывающих простуду, заразные частицы на наших руках обычно исчезают после двадцати минут.
Учитывая ее pH и пористую натуру, натуральный барьер нашего тела прекрасно справляется с уничтожением вирусов, объяснила Грейторекс. «Наши руки довольно антимикробны сами по себе», - сказала она. «У них есть свои бактерии, которые живут на них - не важно, насколько вы чисты - и они, на самом деле, не дают приюта вирусам.»
Так что я могу предоставить, что было бы довольно полезно трогать слизистые не раз в несколько минут, а раз в несколько часов.
Я слышал, что передача через поверхности была не главным способом, которым распространялся SARS, так что я не уверен, насколько стоит беспокоиться о поверхностях. Многие люди заметили, что коронавирус может выживать на поверхностях, при определенных условиях, до 9 дней (или даже дольше, если холодно), но Уилл Эден говорит: «Это исследование (на английском) - источник предмета 9 дней. Однако, это максимальная длина, на любой поверхности, в идеальных условиях. В некоторых местах, вирус остаётся только на часы. И это не определяет, является ли какая-либо его часть заразной!»
Несмотря на это, мои три другие рекомендации таковы: проводите меньше времени, прикасаясь к поверхностям, к которым прикасается много других людей (добавлено: или разговаривают рядом с ними); старайтесь минимизировать количество прикосновений к глазам, носу или рту; и мойте руки чаще, используя полный медицинский протокол мытья рук (картинка; мнемоника; анимированная версия (все на английском)). Заметьте, что для Ковида-19, санитайзер для рук не является хорошей заменой мытья рук.
Добавлено 2 июня: Зви Моушовиц замечает (на английском):
Прошли месяцы. У нас нет конкретных примеров заражения через поверхности. Вообще. Все больше и больше кажется, что, хоть такой путь передачи и возможен, и должен время от времени происходить, получить достаточно вируса, чтобы вызвать инфекцию, в живом виде, таким путем, очень сложно. Если вы моете руки и не трогаете лицо, это ещё сложнее.
Тем временем, те, кто отказываются прикасаться к поверхностям, вроде коробки от доставленной пиццы, оказываются в более многолюдных местах вроде магазинов, результатом чего является возрастание общего риска на порядки.
[…] До тех пор, пока я не получу очень неожиданные свидетельства, поверхности в основном не важны. Если много людей прикасаются к чему-то и затем вы прикасаетесь к этому, конечно, вымойте руки после и будьте очень осторожны, чтобы не прикасаться к лицу перед этим. В остальных случаях, перестаньте беспокоиться о поверхностях.
Сама еда в большинстве своем минимально рискованна, даже если она не нагревается достаточно для того, чтобы наверняка и полностью убить вирус. Вам не обязательно портить всю вашу еду. Люди часто избегают еду, которая кажется опасной. Ещё раз, есть смысл в том, что она может быть опасной, но на практике прошли месяцы и, кажется, это так не работает. Предосторожности, которые люди предпринимают, в данном случае будут более чем достаточными, чтобы защититься от заражения еды на нужном уровне, чтобы стоить беспокойства. Я хочу сказать, конечно, не ешьте в буфете, хоть и не похоже, что они будут открыты, и даже тогда (также в основном безопасные) поверхности скорее всего страшнее, чем еда.
Ваш риск исходит от официанта, или от других едящих, находящихся в этой комнате с вами какое-то время. Поэтому, еда на вынос, доставка и/или еда снаружи.
Я согласен с Зви, что кажется все более вероятным, что передача через поверхности редка, хотя он ошибается насчёт того, что нет примеров (смотрите комментарии (на английском)), и я не видел ясного аргумента насчёт того, находится ли количество случаев Ковида-19, вызванных передачей через поверхности, ближе к 1/10 всех случаев, или же, скажем, 1/10,000. Учитывая мои обстоятельства, я, вероятно, буду делать вещи вроде «заказывать пиццу» чаще в будущие недели, но я тоже, скорее всего, буду использовать советы Яо Лю (на английском), пока инфекции свойственны моей части США:
Я химиотерапевт, и вот что я обычно говорю своим пациентам, находящимся в группе риска:
Лично я не доверяю еде на вынос, потому что я думаю, что многие работники в ресторанах не уходят на больничный, так что более вероятно, что ваша еда была приготовлена кем-то с симптомами. Но вы можете сократить риск до близкого к нулю таким образом:
Хорошо помойте руки
Поставьте свою тарелку на кухонный стол
Возьмите ресторанный контейнер, и вылейте еду в вашу тарелку
Выбросьте ресторанный контейнер
Хорошо помойте руки
Тщательно нагрейте еду. (минимум 70C на минуту, или то, что говорит лучшее текущее руководство)
Если вы сделаете это, в таком порядке, вы в особенной безопасности, даже если кто-то кашлял вирусами на вашу еду и контейнер. Тепло убьет вирус, а мытьё рук предотвратит непрямую передачу от пакета/контейнера.
Я бы рекомендовал запастись как минимум месяцем непортящейся еды. 2-3 месяца ещё лучше. Ошибайтесь в сторону еды, которая вам нравится; персонально любимая еда с меньшей вероятностью сейчас закончится на Амазоне. Кроме того, важно сделать свой карантин приятным, чтобы уменьшить вероятность того, что вы его нарушите потом.
От жителей дома Горизонт Событий (дом группы рационалистов в Беркли - прим. перев.) https://www.google.com/url?q=https://www.google.com/url?q%3Dhttps://docs… (на английском): «Большая часть еды, предназначенная для подготовки к катастрофе, уже продана, но вы все ещё можете раздобыть консервы (например, бобы, рыбу, овощи, фрукты) и сухую еду (например, рис, пасту, сухофрукты, арахисовую пасту), которые вам нравятся, и вы можете их есть.»
Я бы таким же образом запасся другими необходимыми предметами, особенно лекарствами, которые вам нужны.
Добавлено 26 апреля: центры по контролю и профилактике заболеваний рекомендуют (на английском) иметь запас чистой питьевой воды на две недели. Я бы рекомендовал запастись водой на 1+ месяца (то есть, 30+ галлонов на человека), если у вас есть место. The Guardian сообщает 20 апреля (на английском), что возникает нехватка CO2, и The Prepared отмечает (на английском), что «CO2 является необходимым элементом для муниципального процесса обработки воды. (Он также жизненно важен для многих критичных индустриальных процессов - от агрикультуры до переработки мяса и консервирования еды).» The Prepared также отмечает другие химикаты (на английском), используемые для обработки воды, поставка которых также может нарушиться в различных сценариях.
От Горизонта Событий: «Если больничная инфраструктура переполнена, у вас может не быть доступа к этой информации. Самая важная информация, которую нужно иметь под рукой, это история ваших основных проблем со здоровьем и операций, записи иммунизации, и лекарства, которые вы принимаете в данный момент. Вот шаблон таких медицинских записей: https://www.google.com/url?q=https://www.google.com/url?q%3Dhttps://docs…»
(Особенно те, к которым часто прикасаются, например, ручки дверей и выключатели.)
ВОЗ отмечает (на английском): «В Китае, передача Ковида-19 от человека к человеку в основном происходит в семьях […] большая часть кластеров (78%-85%) была в семьях.» Дивиа Эден комментирует: «Одним из моих выводов было, что доставка посылок маловероятно была большим вектором, по крайней мере, в Китае.
Тем не менее, упаковки могут быть для вас основным источником риска, если вы полагаетесь на упаковки для еды; и риск может возрастать в контактах, где меры сдерживания провалились и вирус в целом более распределен. Так что если это вас не слишком беспокоит, или если вы в группе риска, наверное, имеет смысл дезинфецировать упаковки тоже.
Простая версия этого - оставить упаковки на прямом солнечном свете на какое-то время перед тем, как их открывать. Тепло и УФ-излучение хорошо убивают коронавирус. (Добавлено 28 марта: https://www.nejm.org/doi/full/10.1056/NEJMc2004973 (на английском) сообщает, что «SARS-CoV-2 был более стабилен на пластике и нержавеющей стали, чем на меди и картоне, и жизнеспособный вирус был обнаружен втечение до 72 часов после нанесения на эти поверхности (рис. 1А), хотя титр вируса был сильно уменьшен […] На меди, никакого жизнеспособного SARS-CoV-2 не было обнаружено после 4 часов […] На картоне, никакого жизнеспособного SARS-CoV-2 не было обнаружено после 24 часов[.]»)
К счастью, сложная версия только немного сложнее, раз коронавирусы легко убить широким спектром очищающих средств. Из
https://ru.m.wikipedia.org/wiki/%D0%92%D0%B8%D1%80%D1%83%D1%81%D0%BD%D0%…, обсуждаются вирусы с оболочками в целом: «Жировая двухслойная оболочка таких вирусов относительно чувствительна к высушиванию, температуре, и моющим средствам, поэтому такие вирусы проще стерилизовать, чем вирусы без оболочек. Они ограниченно выживают вне носителя, и обычно передаются напрямую от носителя к носителю.»
Хорошие варианты чистящих средств включают 70% изопропанол (заметка: более высокие или более низкие проценты могут быть менее эффективными (на английском); смотрите также обзор Сары Константин (на английском)) или предметы в этом списке (упомянутом центрами по контролю и профилактике заболеваний): https://www.americanchemistry.com/Novel-Coronavirus-Fighting-Products-Li… (на английском).
Важное обновление информации от Дункана Сабина (добавлено 29 апреля): «Социальная реклама: если (например) вам доставляют мороженое, или вы дезинфицируете его так, что приходится протирать или замачивать его, так что оно тает, прежде чем вы положите его в холодильник… Хааген Даз примерно в 3 раза лучше в заморозке обратно до структуры и консистенции мороженого, чем Бен и Джерри. Не знаю почему, но это так.»
Добавлено 2 июня: смотрите также рекомендации Зви Моушовица беспокоиться насчёт поверхностей меньше (на английском), которые цитируются выше.
(Обновлено 1 апреля)
Из Сары Константин (на английском):
Предметы, к которым часто прикасаются, особенно в общественных местах, вероятно, должны быть облучены UVC светом и/или покрыты медью, в качестве стандартной предосторожности.
Обычное УФ-излучение является эффективным дезинфицирующим средством, но также может ослеплять людей и оставлять ожоги на коже; UVC - это более короткая длина волны, так же эффективная против микробов, но не опасная для глаз или кожи.)
UVC используется в бактерицидных лампах (на английском) и в бактерицидном облучении (на английском). Дальний UVC свет (207-222 нм) кажется самым безопасным для человеческой кожи.
Твердая медь не убивает вирусы при контакте, но на ней вирусам сложно выживать в течение минут или часов (https://www.lesswrong.com/posts/LwcKYR8bykM6vDHyo/coronavirus-justified-… (на английском)). Таким образом, наклеивание медной ленты (ссылка на Амазон (на английском)) на такие предметы, как телефоны, дверные ручки и выключатели может уменьшить риск.
Постарайтесь минимизировать количество морщин на наклеенной медной ленте, чтобы поверхности с лентой было легко дезинфицировать, как требуется. Роберт Майлс предлагает: «Лента должна быть обрезана до нужного размера, и вам потребуется инструмент в форме пальца, твёрже, чем палец, но мягче, чем медь - дерево или пластик подойдут. Я использую закруглённый конец швейцарского ножа. Если провести им вдоль морщин и маленьких складок, они в основном исчезнут». Будьте осторожны, чтобы не порезаться.
1
2
3
4
5
«Поскольку Ковид обычно убивает через пневмонию, и недостаточность витамина Д выглядит удивительно большим фактором риска в респираторном заболевании, вероятно, довольно важно поддерживать уровень витамина Д достаточным (что для большинства людей означает принятие добавок, особенно если существует карантин, который влияет на еду).» (https://www.lesswrong.com/posts/LwcKYR8bykM6vDHyo/coronavirus-justified-… (на английском))
Добавлено 8 мая, от Джима Бабкока:
Википедия резюмирует https://pubmed.ncbi.nlm.nih.gov/21419266/ (на английском) как «витамин Д активизирует врождённую и приглушает адаптивную иммунную систему». Предполагая, что это так (я этого не проверял, а витамин Д известен тем, что привлекает сомнительные заявления), недостаточность понизила бы минимальную дозу, необходимую для инфекции. На уровне популяции, это было бы лучшим объяснением для корреляции широты и инфекций, чем температура. Это означало бы, что массовое распространение витамина Д было бы хорошей стратегией понижения R.
Сара Константин (на английском): «В ретроспективном исследовании в больницах Юты, высокие концентрации частиц в воздухе ассоциировались с немного, но значительно более высокой (отношение шансов = 1.004) степенью приема в отделение неотложной помощи с пневмонией, и с немного (отношение шансов = 1.02), но значительно более высокой степенью смертности от пневмонии.[12] Воздушные фильтры дома могут немного помочь.»
(Добавлено 27 апреля: И подумайте о том, чтобы избегать вещей, из-за которых можно попасть в больницу, например, гонок на мотоцикле или беременности; больницы в период пандемии опасны.)
(Обновление информации 28 марта: Сегодня я многое переписал в этой секции. Эта секция остаётся относительно спекулятивной и подверженной изменениям. Ковид-19 - это новая болезнь, и мы все ещё находимся на ранних стадиях ее понимания, и, как замечает (на английском) Сара Константин, нет большого количества хороших исследований о том, как лучше всего дома лечить болезни, похожие на грипп или пневмонию. И все же, мокрота и грипп никого не ждут, и мы вынуждены делать свои лучшие догадки без доступных свидетельств.)
То, что нужно купить сейчас, для случая, если вы заболеете: Pedialyte или gatorage powder, ингалятор без рецепта, увлажнитель, ацетаминофен, mucinex/гвайфенезин, псевдоэфедрин, пастилки с цинком, оральные термометры, напалечный пульсоксиметр. Может быть, гидроксихлорохин или хлорохин https://www.google.com/url?q=https://www.google.com/url?q%3Dhttps://docs… (на английском) и/или домашний кислородный концентратор https://srconstantin.github.io/2020/03/19/oxygen-supplementation-101.html (на английском), если вы можете найти его онлайн или получить рецепт от врача. Детали смотрите ниже.
Пока вы ещё здоровы, меряйте температуру (орально) и используйте напалечный пульсоксиметр. Делайте это несколько раз в день в течение нескольких дней, чтобы убедиться, что девайсы работают и чтобы получить представление о своих базовых 7 числах.
(Добавлено 26 апреля: учитывая обновление о «тихой гипоксии» внизу в 3D, и обновление о тромбах внизу в 3G, вам, наверное, стоит использовать пульсоксиметр регулярно, даже если у вас нет симптомов. Ещё вам стоит остерегаться признаков инсульта, инфаркта или лёгочной эмболии, даже если у вас нет других симптомов.)
Выясните, кто может помогать заботиться о вас, если вы заболеете.
Добавлено 2 июня: Спланируйте заранее, в какую больницу вы попадете, если понадобится, и будьте готовы позвонить врачу, если у вас появятся тревожащие симптомы. Зви Моушовиц пишет (на английском):
Медицинская помощь имеет значение [для уровня смертности]. Полный упадок медицинской помощи на практике ведёт к умножению уровня смертности в несколько раз, при обычных обстоятельствах. Высококачественное лечение при текущем уровне знаний, наверное, может ещё снизить смертность, так что соотношение между полным успехом и полным упадком может быть довольно большим - нечто вроде разницы на порядок между 0.2% и 2%.
В данный момент у меня нет сильного мнения насчёт конкретной медицинской помощи, кроме описанного.
Прямое тестирование, очевидно, может помочь, но, в зависимости от того, где вы и какие у вас симптомы, может быть очень сложно получить тест в США, и результаты теста могут прийти слишком поздно, чтобы быть полезными. Все равно имеет смысл делать тестирование, если обстоятельства позволяют, например, чтобы прояснить приоритеты в лечении, помочь в сдерживании, или провериться на другие инфекции. Согласно Саре Константин (на английском):
Важно быть протестированным доктором, если у вас респираторное заболевание, которое, вы думаете, Ковид-19. Даже если вы не можете получить тест на Ковид-19, у вас может также быть другая бактериальная или вирусная инфекция (либо вместо, либо в дополнение к Ковиду-19), которую можно вылечить противовирусным средством или антибиотиками. Очень часто вирусная пневмония отягощена случайной бактериальной инфекцией, и уничтожение бактерии может помочь исправить результаты.
24 февраля, ВОЗ (на английском) перечислила симптомы Ковида-19 со следующей частотой:
температура (87.9%), сухой кашель (67.7%), усталость (38.1%), производство мокроты (33.4%), проблемы с дыханием (18.6%), боль в горле (13.9%), головная боль (13.6%), миалгия [боль в мышцах] или артралгия [боль в суставах] (14.8%), озноб (11.4%), тошнота или рвота (5.0%), заложенность носа (4.8%), диарея (3.7%), и кровохарканье [выкашливание крови] (0.9%), и конъюктивальная гиперемия [воспаление белка глаза] (0.8%).
Отчёт ВОЗ продолжается:
Люди с Ковидом-19 в основном развивают признаки и симптомы, включая мягкие респираторные симптомы и температуру, в среднем на 5-6 день после инфицирования. […] Используя доступные предварительные данные, среднее время с начала симптомов до клинического выздоровления в мягких случаях примерно 2 недели, и 3-6 недель для пациентов с тяжёлым или критическим заболеванием. Предварительные данные предполагают, что период от начала симптомов до развития тяжёлой болезни, включая гипоксию [серьезный недостаток кислорода], составляет 1 неделю.
(Для взрослых, считается, что у вас высокая температура, если вы померяли температуру орально и она 100.4°F / 38°C.)
(Добавлено 5 апреля: Анна Саламон говорит: «Средний инкубационный период, вероятно, 7 дней, а не 5; ранние исследования, которые дали оценку в 5 дней, были проведены только на людях, которые в результате попали в больницу, а у тех, кто не попадают (и у кого болезнь мягче), оказывается, инкубационные периоды дольше. Источник: https://www.medrxiv.org/content/10.1101/2020.03.15.20036533v1”) (на английском)
Из Vox (на английском):
«Заболевание Ковидом-19 обычно начинается с небольшой высокой температуры, сухого кашля, боли в горле и недомогания,» пишет Меган Мюррей, профессор эпидемиологии в Гарвардской Медицинской Школе, в часто задаваемых вопросах для Фонда Изобилия. «В отличие от коронавирусных инфекций, которые вызывают обыкновенную простуду, оно обычно не ассоциируется с насморком.» Эти симптомы появляются в среднем через пять или шесть дней после инфицирования, но могут появиться через день или через две недели после контакта.
Из Business Insider (на английском), прогресс типичных случаев по дням:
День 1: У пациентов жар. Они могут также испытывать усталость, боль в мышцах и сухой кашель. У маленькой части может быть диарея или тошнота за день или за два.
День 5: Пациентам может быть сложно дышать - особенно пожилым, или если у них есть сопутствующие заболевания.
День 7: Столько времени проходит, в среднем, прежде чем пациенты попадают в больницу, согласно исследованию Юханьского Университета.
День 8: К этому моменту, у пациентов с тяжёлым случаями (15%, согласно китайским центрам по контролю и профилактике заболеваний) развивается острый респираторный дистресс-синдром, заболевание, которое возникает, когда жидкость накапливается в лёгких. ОРДС часто фатален.
День 10: Если у пациентов ухудшаются симптомы, это время, в которое они с наибольшей вероятностью попадут в отделение интенсивной терапии. У этих пациентов, вероятно, больше боли в животе и потери аппетита, чем у пациентов с более лёгкими случаями. Только маленькая часть умирает: текущий уровень смертности колеблется около 2%.
День 17: В среднем, люди, которые выздоравливают, выписываются из больницы после 2 1/2 недель.
Элизабет ван Ностранд изучала, какими обычно бывают ранние симптомы Ковида-19. Она пишет (на английском):
Большая часть академических/медицинских работ начинаются с первого контакта человека с медицинской системой, а это слишком поздно. Поэтому я посмотрела на социальные медиа и новостные репорты. Они, очевидно, будут искажены в сторону людей с достаточно серьезными симптомами, чтобы быть интересными, но недостаточно серьезными, чтобы умереть. Я также ограничила себя случаями, подтвержденными тестами, которые, поскольку я смотрела в основном на американские источники, искажают все в сторону тяжёлых случаев. И я рассчитываю на то, что люди рассказывали о себе честно. Поэтому существует много возражений против этой выборки.
Всего я нашла 11 случаев, плюс две записи от врачей, работающих на переднем крае. […] Из этой очень маленькой и искажённой выборки:
- 36% людей начали с кашля на первый день (55%, если считать двух людей, у которых были очень лёгкие симптомы на первый день, и появился кашель на второй)
- 64% начали с высокой температуры.
- 18% людей начали с того и другого в один день.
18% начали без этих симптомов (но кашель развился на второй день)
У 78% рано или поздно развился кашель
- У 91% равно или поздно развилась высокая температура. Единственный человек, у кого не развилась высокая температура, я думаю, мог быть с ложно-положительным диагнозом, потому что его симптомы были очень странными.
- У 27% были пищеварительные симптомы (в основном тошнота)
- 1/3 выздоровевших людей была госпитализирована. […]
Возможно, вы слышали, что 80% случаев лёгкие. Помните, что работа (на английском) определила «лёгкие» как включающие лёгкую пневмонию, что я бы классифицировала как по меньшей мере среде тяжёлые.
Из Sky News (на английском):
Британская Ассоциация Отоларингологов (ENT UK) говорит, что пациенты без симптомов - те, у кого нет температуры или кашля - могли проявлять потерю обоняния или вкуса как симптомы после заражения коронавирусом. […] «У [многих] молодых пациентов нет значительных симптомов, таких, как кашель или температура, но у них может быть только потеря обоняния или вкуса, что предполагает, что вирус находится в носу.» […] Доктор Натали МакДермотт, клинический лектор в Лондонском Королевском Колледже, сказала, что инфекции, которые в норме появляются через «нос или заднюю часть горла» часто ведут к потере обоняния и вкуса, но предупредила, что исследования новых симптомов Ковида-19 ещё не распространились широко в медицинском сообществе.»
Стат (на английском) сообщает, что от 30% до 67% пациентов с Ковидом-19 временно теряли чувство обоняния.
Одно исследование (на английском) нашло более высокую степень пищеварительных проблем (103 из 204 случаев),толкуя широко. 40% пациентов испытывали потерю аппетита, 17% диарею, 2% рвоту, 1% боли в животе. «Более того, пищеварительные симптомы среди большей группы становились более тяжёлыми с увеличением тяжести Ковиде-19[.]»
Ковид-19 также может вызывать сыпь на конечностях (на английском). И вирус, похоже, может проникать в спинномозговую жидкость и может вызывать неврологические симптомы (на английском).
Так что… похоже, симптомы Ковида-19 включают «примерно все».
Представление Ковида-19 сильно различается. Типично, если вы увидите какие-либо симптомы вообще, вы увидите респираторные симптомы, такие как кашель, стеснение в груди, или одышка; и за этими симптомами нужно внимательнее следить, потому что смерти от Ковида-19 обычно из-за респираторных повреждений. Но я также слышал отчёты о звучащей изнурительно усталости или сильной/долго длящейся температуре. Например (неподтвержденный случай (на английском)):
[…] ЭТО МОЖЕТ ДЛИТЬСЯ ВЕЧНОСТЬ: Чего я не ожидал (или не был подготовлен) в отношении симптомов. Главным была чистая длина - хотя, снова, в моем случае все прошло очень быстро. Изабель не повезло. Температура неприятна, но эта температура длилась дни, без перерывов и скачков. Длительность Ковида-19 - одна из необычных вещей касательно него. В случае Изабель обострение было около 8 дня (день худшей температуры), затем снова на 10 день (худшие проблемы с дыханием, которые, к счастью, были лёгкими). Похоже, для переживших болезнь людей, которые были госпитализированы, средний день выпуска был 24 день. Будьте готовы к тому, что длиться это будет долго.
ЕСТЬ ПРИЛИВЫ И ОТЛИВЫ: Я действительно хотел бы ожидать этого - для Изабель, Ковид-19 не следовал предсказуемому паттерну ухудшения, пика и выздоровления. Был период первоначального управляемого нездоровья, затем быстрое ухудшение до полной прикованности к постели, затем два отдельных пика болезни с улучшением между ними, и только теперь устойчивое выздоровление. Только на 11 день она сказала «Я чувствую себя намного лучше», и, как наблюдатель, были ясные улучшения и ухудшения, которые сделали все особенно действующим на нервы: вы никогда не может быть уверенным, что все улучшилось, а ухудшения особенно страшны.
САМЫЕ ИЗВЕСТНЫЕ СИМПТОМЫ МОГУТ БЫТЬ НЕ ХУДШИМИ: Если вы подобны мне, когда вы думаете о коронавирусе, вы думаете о температуре, сухом кашле и изменениях в дыхании, которые являются характерными симптомами. У Изабель были они все, но худшими эффектами были изнеможение, тошнота, боль и обезвоживание. Она была ослаблена ими до степени, которую я никогда не видел, кроме очень старых и больных родственников, гораздо хуже любого гриппа, который у кого-либо из нас был. Ей постоянно требовались болеутоляющие и вода (которую она часто не могла от слабости поднять к губам), и у нее не было аппетита. Если бы не пандемия - или если бы она была одна - она определенно была бы в больнице. К счастью, ее дыхание не было достаточно плохим для этого.
Аспект «приливов и отливов» выглядит очень частым в анекдотических рассказах. Например, из другого неподтвержденного случая (на английском):
07.03 - я был на вечеринке, где как минимум один человек получил позитивный тест, и >5 других сообщили о похожих симптомах в практически идентичное время
09.03 - день 1 - лёгкая температура (99.5) в течение нескольких часов. Озноб. Головная боль. Закончилось вечером
10-11.03 - дни 2-3 - боль в мышцах, усталость - то и другое довольно лёгкие
12-14.03 - дни 4-6 - я чувствовал себя лучше, никаких симптомов. Поэтому я подумал, что это был просто насморк
15-16.03 - дни 7-8 - у меня было стеснение в груди и затрудненное дыхание. Тогда я начал подозревать, что это не простуда.
17.03 - день 9 - начался кашель. Лёгкий, но сухой. Раздражённое горло.
18.03 - день 10 - больше не было кашля, не было стеснения в груди, ни стесненного дыхания. Горло немного раздражено, но чувствовал, что становится лучше
19-20.03 - дни 11-12 - о-о. Температура появляется и исчезает втечение дня, гораздо сложнее дышать, кашель вернулся и стал хуже. Внезапная и очень неприятная одышка.
21.03 - день 13 - сегодня. Сейчас я чувствую себя лучше, чем всю неделю. Нет температуры, нет затрудненного дыхания, и нет кашля. Но я был обмануть раньше, так что я пока терпелив, и подожду ещё несколько дней, чтобы быть уверенным. Не думаю, что все закончилось.
Что ж, все определенно не закончилось, когда я писал пост на 13 день. Той ночью у меня была ещё одна волна боли в груди и одышка. Дни 14 и 15 ощущались, как непрекращающийся приступ астмы слабой степени.
Дни 16 и 17 - сухой кашель превратился в продуктивный кашель, и комбинация mucinex и горячего чая дали мне облегчение.
Сегодня, день 18, я наконец чувствую себя в основном нормально. Я не кашляю, и я могу дышать!
К несчастью, лаборатория, в которой я проходил тест, была закрыта управлением по санитарному надзору за качеством пищевых продуктов и медикаментов, так что я не получу результат теста: https://www.nytimes.com/2020/03/23/technology/coronavirus-home-testing-s… (на английском) […]
Заметки:
Не доверяйте «затишью». Такая прогрессия выглядит довольно общей - один день с небольшой температурой, затем снова все нормально, а затем вторая волна. Или третья [и четвертая], в моем случае. Я хотел бы знать это - я подверг опасности некоторых людей в дни 4-6. Пока что никто из них не проявляет симптомов, но я вел бы себя иначе, если бы знал, что это типичный паттерн для Ковида.
Действительно полезно иметь пульсоксиметр. Купите его на Амазоне за <20$. Он позволил мне проверять жизненные показатели даже в середине худшей части, когда я не мог дышать, и убедиться, что мой уровень кислорода в норме (97-99). Я бы лег в больницу, если бы он опустился <90[.]
За симптомами вроде насморка полезно следить, потому что их наличие в некоторой мере свидетельствует, что у вас нет Ковида-19. Простуда вызывает чихание, а Ковид-19 и грипп не вызывают чихания (на английском). При простуде также бывает насморк и заложенный нос, которые редки для Ковида-19 (и в некоторой степени несвойственны гриппу). И у гриппа внезапное начало симптомов, тогда как у Ковида-19 и простуды обычно постепенное начало симптомов.
Несмотря на это, поскольку Ковид-19 особенно опасен и может проявляться различными способами (и всегда возможно, что у вас и Ковид-19, и другая болезнь), вам нужно быть осторожными и не отвергать преждевременно вероятность, что у вас Ковид-19.
Из вирусолога Джеймса Робба (на английском): пастилки с цинком (zinc lozenges) «доказанно блокируют размножение коронавируса (и большинство других вирусов) у вас в горле и носоглотке. Используйте как указано несколько раз в день, каждый день, когда вы начинаете чувствовать начало любых похожих на простуду симптомов. Лучше всего лечь и позволить пастилке раствориться в задней части горла и носоглотке. Cold-Eeze lozenges - один доступный бренд, но существуют другие.» (Источники: https://onlinelibrary.wiley.com/doi/full/10.1002/jmv.25707 + https://journals.plos.org/plospathogens/article?id=10.1371%2Fjournal.ppa… (все на английском))
Дискуссия на https://www.lesswrong.com/posts/un2fgBad4uqqwm9sH/is-this-info-on-zinc-l… (на английском) предполагает, что обыкновенные пастилки с цинком могут быть неэффективными по различным причинам, и что одним из единственный продуктов, которые, вероятно, эффективны является „Life Extension Enhanced Zinc Lozenges“ (которые сейчас распроданы на Амазоне).
Одна опция, которая, возможно, имеет смысл интуитивно, это смешивать [жидкий ионный цинк] (https://www.amazon.com/Good-State-Ionic-Liquid-Concentrate/dp/B00D0VI0A8) (на английском) с водой и использовать его как жидкость для полоскания рта, когда вы начинаете плохо себя чувствовать? Я не уверен. Будьте предупреждены, однако, что цинковые назальные спреи, как установлено, перманентно лишают людей возможности ощущать запахи, а регулярное использование цинка в других формах может (на английском) повредить вашему ощущению вкуса или запаха со временем.
Из Элизабет ван Ностранд (на английском):
Принимайте цинк с первыми симптомами. […] Он действует так, что ионы цинка прикрепляются к вашему горлу. Так что таблетки бесполезны. Это должна быть пастилка. […] Крис Мастерджон заявляет, что работают только глюконат цинка и ацетат цинка. Я не знаю, правда ли это, но единственные исследования, которые я нашла, использовали глюконат и ацетат, так что имеет смысл предпочитать их. […] Ужасный вкус и потеря обоняния означают, что они работают, если только вы не лишились обоняния из-за Ковида.
(Добавлено 26 апреля: … включая случай, если у вас нет симптомов, но вы подверглись возможной инфекции в последние две недели. Если у вас разовьётся температура, или вы почувствуете стеснение в груди или затрудненное дыхание, определенно начните следить за кислородом; но не ждите так долго, если можете.)
От резидентов дома Горизонт Событий (https://www.google.com/url?q=https://www.google.com/url?q%3Dhttps://docs…):
Поскольку Ковид-19 является болезнью со значительным респираторным участием, и обычно он убивает именно так, вам нужно в больницу, если у вас затрудненное дыхание, и уровень кислорода в крови постоянно ниже ~90-94% (для людей на уровне моря), в то время как вы используете пульсоксиметр, согласно указаниям. (Короткие падения в общем не должны вас беспокоить, в силу нормальных колебаний и несовершенства измерения.)
Эли Морнингстар добавляет:
Совет, как избежать напрасных страхов с домашним пульсоксиметром (избегайте ошибки пользователя):
- Держите руку ниже сердца во время измерения
- Не используйте лак для ногтей на пальце, который вы используете
- Сначала подержите что-нибудь теплое, то есть, у вас не должны быть холодными руки
Добавлено 12 мая: Теперь я думаю, что «респираторное участие… является способом, каким он убивает» неверно, или, по меньшей мере, очень неполно. Я продвигаюсь к мнению, что Ковид-19 сосудистое или тромбозное заболевание в той же мере, что и респираторное. Астма (на английском) не является крупным фактором риска для смертей от Ковида-19; возраст, ожирение, диабет, сердечные болезни и гипертония (на английском) являются.
Из Washington Post (на английском) 10 мая:
В первые дни вспышки, большая часть усилий сосредоточена на лёгких. SARS-CoV-2 заражает и верхние, и нижние респираторные пути, постепенно проходя глубже в лёгкие, наполняя маленькие воздушные мешочки клетками и жидкостью, которые перекрывают поток кислорода.
Но многие учёные пришли к убеждению, что большая часть урона, наносимого болезнью, происходит по двум связанным причинам. Первая - это вред, который вирус приносит кровеносным сосудам, что приводит к тромбам, которые ранжируются от микроскопических до значительных. […] Вторая - увеличенный ответ собственной иммунной системы, шторм убийственных «цитокинов», которые атакуют собственные клетки тела вместе с вирусом, так как стараются защитить тело от захватчика.
[…] «Этот вирус начинается, как вирусная инфекция, и становится более общим нарушением для иммунной системы и кровеносных сосудов - и именно это убивает,» - говорит Мехра. «Наша гипотеза - Ковид-19 начинается, как респираторный вирус, а убивает, как сердечно-сосудистый вирус.»
[…] АПФ2 рецепторы, которые помогают регулировать кровяное давление, содержатся в большом количестве в лёгких, почках и кишечнике - органах, на которые сильно воздействует патоген во многих пациентах. По этой же причине, возможно, высокое кровяное давление появилось как одно из наиболее часто встречающихся ранее существовавших условий в людях, которые тяжело болеют Ковидом-19.
Онколог Татьяна Правелл описывает (5 мая) швейцарскую серию вскрытий (на английском) в Твиттере:
[…] патологи, которые делали вскрытия 21 человеку, которые умерли от Ковида-19, думают, что повреждения лёгких & тромбы в самых маленьких кровеносных сосудах (капиллярах) лёгких были основной причиной смерти. Тромбы были найдены даже у [пациентов] на кроверазжижающих средствах, которые должны были предотвратить их.
И, цитируя CellBioGuy(на английском) (13 апреля, 22 апреля):
АПФ2 выражается в том, что эндотелиальные клетки выстилают кровеносные сосуды. Если у вас плохая виремия (наличие вируса в крови - прим. перев.), внутренняя оболочка кровеносных сосудов, особенно в тяжело инфицированных органах, вероятно, просто портится.
[…] Вирус может вызывать ненормальное воспаление, и распространяющееся на все тело, но особенно концентрированное в лёгких, состояние гиперкоагуляции, которое вызывает микроскопические тромбы в лёгких, которые являются одним из главных факторов заболеваемости, смертности и неэффективности вентиляции.
[…] Это состояние гиперкоагуляции может объяснить отчёты о аномально низких показателях кислорода в людях, которые обычно указывали бы на смерть или [бессознательное состояние]. У них могут быть маленькие тромбы в пальце, на котором находится сенсор, вызывая временный единичный низкий кровоток. Оно также могло бы объяснить больше того факта, что дыхательные аппараты менее полезны, чем предполагалось - часть людей на них, вероятно, в них не нуждалась.
[…] Вдобавок, есть две части иммунологии, которые частично объясняют поведение этого вируса и предполагают способы навредить ему. Во-первых, вирус развился в летучих мышах, у которых интефероновый ответ легко вызывается, и, соответственно, в человеческих клетках он практически полностью избегает интерферонового ответа. Это позволяет ему размножаться до абсурдной вирусной нагрузки до того, как иммунная система заметит его, что объясняет крайнюю заразность незадолго до начала симптомов. Затем, когда иммунная система заметит его, она начинает работать с огромной вирусной инфекцией, вызывая нарушенный воспалительный ответ, который может сильно навредить. Это значит, что он чувствителен к предварительной обработке ингаляционным интерфероном (https://www.biorxiv.org/content/10.1101/2020.03.07.982264v1) (на английском). Помимо этого, возможно, все, что уменьшает размножение вируса в этот период, прежде чем адаптивная иммунная система создаст сильный ответ, может уменьшить вероятность прогресса до тяжёлой болезни. Если противовирусные средства работают, или если хлорохин эффективен (учитывая биохимию, я очень на это надеюсь!), они, вероятно, будут наиболее эффективны на ранних сроках, поскольку уменьшают количество пациентов, у которых развивается серьезная болезнь.
Во-вторых, есть свидетельства, что вирус может входить и уничтожать (но не размножаться внутри) Т-клетки, используя тот же рецептор, какой и везде, вызывая подавление иммунитета и оповещая воспалительный профиль (https://www.nature.com/articles/s41423-020-0424-9) (на английском). У него нет грязных трюков ВИЧа, и он не размножается внутри, так что это временно, до выздоровления.
Я хочу подчеркнуть, что вам может понадобиться лечь в больницу в короткие сроки. Серьезные случаи Ковида-19 нередко прогрессируют от «не требуется ухода, или требуется небольшой уход» до «немедленно требуется серьезный уход» очень быстро. Например, из ProPublica (на английском):
У меня есть пациенты чуть за 40 и, да, я был шокирован. Я вижу людей, которые выглядят относительно здоровыми, с минимальной медицинской историей, и они полностью уничтожены, как если бы они попали под грузовик. Коронавирус сваливает с ног тех, кто должен быть совершенно здоровыми людьми. Бывает, пациенты на минимальной поддержке, на небольшом кислороде, а потом, внезапно, происходит полная остановка дыхания, и они вообще не могут дышать.
Вторая неделя симптомов выглядит особенно опасной. Пожалуйста, внимательно следите за симптомами, даже если ваши симптомы были относительно лёгкими на первой неделе. От центров по контролю и профилактике заболеваний (на английском):
Некоторые отчёты предполагают потенциал для клинического ухудшения втечение второй недели болезни. В одном отчёте, среди пациентов с подтвержденным Ковидом-19 и пневмонией, только у больше половины пациентов развилось затрудненное дыхание в среднем через 8 дней после начала болезни (диапазон: 5-13 дней). В другом отчёте, среднее время от начала болезни до попадания в больницу с пневмонией было 9 дней. Острый респираторный дистресс-синдром (ОРДС) развился у 17-29% госпитализированных пациентов, а вторичная инфекция развилась у 10%. В одном отчёте, среднее время от начала симптомов до ОРДС было 8 дней.
В зависимости от того, насколько серьезны у вас симптомы, или насколько заполнены ближайшие больницы, возможно, вам понадобится лечь в больницу, даже если у вас все в порядке с дыханием. Если возможно, поговорите с доктором по телефону/видео, чтобы получить их рекомендации. Написанное выше - совет насчёт случая, когда вам определенно нужно получить уход на уровне больницы; но ждать до последнего момента не обязательно умно.
Несмотря на все это, по нескольким причинам, во время пандемии ложиться в больницу часто плохая идея, если только это не абсолютно требуется:
У вас может не быть Ковида-19. Ложась в больницу, вы подвергаетесь риску заразиться Ковидом-19, в дополнение к остальным вашим заболеваниям. (Ковид-19 намного более опасен, если у вас есть другие заболевания.)
У вас может быть Ковид-19, и вы окажетесь подвержены сильно большей вирусной нагрузке рано в прогрессе заболевания, что, вероятно, сильно ухудшит ваши симптомы. Обсуждение важности вирусной нагрузки здесь. Но Ник Тарлетон говорит: [Я] наивно предполагаю, что, когда вы основательно {инфицированы + вырабатываете иммунный ответ}, больше внешней вирусной нагрузки было бы довольно маленьким фактором.»
Такой же совет от Элизабет ван Ностранд здесь (на английском).
Добавлено 26 апреля: streawkceur пишет (на английском): «Согласно этой статье, кажется ясным, что низкий кислород на самом деле опасен, даже когда вы хорошо себя чувствуете, поэтому купить пульсоксиметр было бы полезно. https://www.nytimes.com/2020/04/20/opinion/sunday/coronavirus-testing-pn… (на английском)” Цитируя статью:
[…] Эти пациенты не сообщали о каком-либо ощущении проблем с дыханием, даже несмотря на то, что рентгены их груди показали диффузную пневмонию, и их кислород был ниже нормы. Как это могло быть?
Мы только начинаем осознавать, что пневмония от Ковида сначала вызывает форму кислородного ню голодания, которую мы называем «тихой гипоксией» - «тихой» из-за ее коварной, сложной для распознания природы.
Пневмония - это инфекция лёгких, в которых воздушные мешочки наполняются жидкостью или гноем. Обычно, пациенты развивают дискомфорт в груди, боль при дыхании и другие проблемы с дыханием. Но когда ковидная пневмония впервые ударяет, пациенты не чувствуют затрудненного дыхания, даже когда падают их уровни кислорода. А к тому времени, как они чувствуют это, у них тревожно низкий уровень кислорода и от средней до тяжёлой пневмонии (как показывают рентгены груди). Нормальное насыщение кислородом для большей части людей на уровне моря - это от 94 до 100 процентов; пациенты с ковидной пневмонией, которых я видел, имели насыщение кислородом в 50 процентов.
К моему удивлению, большая часть пациентов, которых я видел, сказали, что они были больны около недели с высокой температурой, кашлем, расстройством желудка и усталостью, но у них появились проблемы с дыханием только в тот день, когда они попали в больницу. Их пневмония очевидно продолжалась днями, но к тому времени, как они чувствовали, что им нужно в больницу, они часто были уже в критическом состоянии. […]
Мы только начинаем понимать, почему это так. Коронавирус атакует клетки лёгких, которые создают поверхностно-активное вещество. Эта субстанция помогает воздушным мешочкам в лёгких оставаться открытыми между вдохами. Она критична для нормального функционирования лёгких. Когда начинается воспаление от ковидной пневмонии, оно вызывает крах воздушных мешочков, и уровни кислорода падают. Тем не менее, лёгкие первоначально остаются «уступчивыми,» ещё не жесткими или тяжёлыми из-за жидкости. Это означает, что пациент все ещё может выдыхать углекислый газ - а без сосредоточения углекислого газа, пациенты не чувствуют проблем с дыханием.
Пациенты компенсируют низкий кислород в крови тем, что дышать быстрее и глубже - и это происходит неосознанно. Эта тихая гипоксия, и психологический ответ на нее пациента, вызывает ещё больше воспаления, и ещё больше воздушных мешочков приходят в негодность, и пневмония ухудшается, пока уровень кислорода не падает резко. В результате, пациенты вредят своим собственным лёгким, дыша тяжелее и тяжелее. Двадцать процентов (на английском) пациентов с ковидной пневмонией далее проходят на вторую, более смертельную фазу повреждения лёгких. Жидкость накапливается, лёгкие становятся жёсткими, углекислый газ возрастает, и пациенты развивают острую дыхательную недостаточность.
К тому времени, как у пациентов будут заметные проблемы с дыханием, и они попадут в больницу с опасно низким уровнем кислорода, многим будет требоваться дыхательный аппарат.
Тихая гипоксия, быстро прогрессирующая до дыхательной недостаточности, объясняет случаи пациентов с Ковидом-19, которые внезапно умирали после того, как не испытывали проблем с дыханием. […]
Есть способ, которым мы могли бы идентифицировать больше пациентов с ковидной пневмонией быстрее и лечить их более эффективно - и это не требовало бы ожидания теста на коронавирус в больнице или офисе врача. Он требует раннего отслеживания тихой гипоксии, при помощи обыкновенного медицинского девайса, который может купить без рецепта в большей части аптек: пульсоксиметра.
На схожую тему, Пол Бом замечает (на английском): «54% бессимптомных случаев и 79% случаев Ковида-19 с симптомами на Бриллиантовой Принцессе имели матово-стекольные нарушения на компьютерной томографии.»
Это предполагает, что даже если у вас совсем нет симптомов (или очень лёгкие симптомы), вам следует периодически использовать домашний пульсоксиметр, если существует нетривиальный риск, что вы недавно подхватили вирус. Дополнительно, следите за необычно быстрым и глубоком дыханием, даже если нет других симптомов или они легки.
Добавлено 12 мая: Стат сообщает (на английском) 21 апреля:
[…] Новый анализ [… предполагает, что] необычные качества болезни могут сделать механическую вентиляцию вредной для лёгких.
[…] «В нашем личном опыте, гипоксемия … часто необычно хорошо выносится пациентами с Ковидом-19,» - написали исследователи, в частности, людьми до 60. «Триггер для интубации должен, вероятно, в некоторых пределах, быть основанным не на гипоксемии, а скорее на дыхательной недостаточности и усталости.»
Без ясного дистресса, они говорят, уровень кислорода в крови не нужно поднимать выше 88%, гораздо более низкая цель, чем в других случаях пневмонии.
[…] Ковид-19 влияет на лёгкие иначе, чем другие случаи тяжёлой пневмонии или острого респираторного дистресс-синдрома, указывают исследователи, подтверждая то, что врачи по всему миру начинают понимать.
Во-первых, толстое, похоже на слизь покрытие на лёгких, которые развилось у многих пациентов с Ковидом-19, мешает лёгким принимать доставляемый кислород.
Во-вторых, в отличие от других пневмоний, повреждённая поверхность лёгких может находиться совсем близко к здоровой ткани, которая эластична. Направление обогащенного кислородом воздуха (в некоторых случаях, 100% кислород) в эластичную ткань при высоком давлении и в больших объемах может вызывать утечки, отек лёгких (разбухание), и воспаление, среди других повреждений, делая вклад в «вызванные ИВЛ повреждения и повышенную смертность» в Ковиде-19, написали исследователи.
[…] Существует растущее признание, что некоторые пациенты с Ковидом-19, даже те, у которых тяжёлая болезнь, как показывает степень инфекции лёгких, могут лечиться безопасно простыми носовыми канюлями или масками, которые доставляют кислород. Последние включают СИПАП (режим искусственной вентиляции лёгких постоянным положительным давлением) маски, которые используют для апноэ во сне, или ДПДДП (двухфазное положительное давление в дыхательных путях) маски, которые используют для хронической сердечной недостаточности и других серьезных состояний. СИПАП также может быть доставлен капюшонами или шлемами, уменьшая риск того, что пациент выдохнет большое количество вируса в воздух, и подвергнет опасности врачей.
[…] «Мы используем СИПАП часто, и он хорошо работает, особенно в комбинации с тем, что пациенты лежат ничком,» говорит Шульц.
Из Дункана Сабина:
Смягчение симптомов, крайне вероятно, крайне важно, особенно тех, которые относятся к респираторному тракту. Ранние профилактические меры (пастилки с цинком, вещи, чтобы успокоить горло и предотвратить кашель), Тайленол (НЕ нестероидные противовоспалительные препараты). Множество жидкостей с множеством электролитов (Pedialyte, если сможете раздобыть, Gatorade, если не сможете). Регуляция температуры.
Самое большое, за что я беспокоюсь - это перманентные респираторные проблемы после выздоровления, и мне кажется, что большая их часть вызвана симптоматическими повреждениями, а не прямыми действиями самого вируса.
Я думаю, что большинство (хотя не все!) источники в наши дни считают, что высокая температура по умолчанию полезна, и вы не должны пытаться понизить ее, если она только не становится опасно высокой. В отношении того, что считается «опасно высоким», Элизабет ван Ностранд говорит: «Меня учили, что 103°F, некоторые говорят 104°F, вероятно, в таком диапазоне.»
От Горизонта Событий:
[Если] ваша температура опасно высока (103°F / 39.4°C или выше), [то вам может понадобиться] понизить температуру тела собственноручно. Способы это сделать безопасно: ацетаминофен/парацетамол (не превышайте рекомендуемую дозу; НЕ используйте нестероидные противовоспалительные препараты); пить больше жидкостей; принять ванну (но НЕ ледяную ванну или холодную ванну); расположить холодные полотенца (НЕ пакеты со льдом) подмышками или в паховой области.
[…] Запаситесь чем-нибудь, чтобы помочь вам регидратировать, если вы больны и теряете жидкости. Gatorade Powder (https://smile.amazon.com/Gatorade-Thirst-Quencher-Powder-Variety/dp/B01M… (на английском)) - хорошая опция, потому что её можно купить в большом объеме, в отличии от Pedialyte. Также, если вам нравится то, что вы пьете, вы скорее будете это делать. Здесь (https://med.virginia.edu/ginutrition/wp-content/uploads/sites/199/2018/0… (на английском)) руководство по созданию раствора для пероральной регидратации (используется, чтобы лечить фатальную диарею, также полезно для рвоты и общего обезвоживания) из различных баз и домашних ингредиентов.»
(Как отмечено здесь (на английском), предупреждения против нестероидных противовоспалительных препаратов, вероятно, преувеличены.)
Из Дивиа Эден: «Я бы раздобыла mucinex и увлажнитель, если возможно.» Смотрите рекомендации медсестры на https://www.boston25news.com/news/trending/coronavirus-nurses-hospital-l… (на английском). Элизабет ван Ностранд говорит: «Принимайте псевдоэфедрин, если у вас неприятное давление пазухи.» (Заметьте: не фенилэфрин / Sudafed PE, которые, похоже, бесполезны (на английском).)
Оставайтесь в тепле, расслабляясь, и много отдыхайте.
(Добавлено 31 марта.)
Леора Хорвиц, Нью-Йоркский врач, работающий в не реанимационном ковидном отделении, говорит (на английском):
Лежание на животе теперь является стандартом в нашем реанимационном отделении, и я сильно старалась, чтобы мои более больные пациенты делали так, чтобы препятствовать интубации. […]
https://twitter.com/SepsisUK/status/1243236007346163712 (на английском)
В ответ на вопрос «Лежать на животе - это то, что мы можем делать дома, чтобы помочь, если у нас более лёгкие симптомы? У моего брата проблемы с дыханием, но не на уровне реанимации, стоит ему попробовать это?», Хорвиц говорит:
Да, не может навредить, вероятно, поможет
Koulouras и другие ( на английском) и Pan и другие (на английском) также предполагают, что пациенты с ОРДС могут улучшить свои результаты, лёжа на груди.
Если у вас симптомы Ковида-19, вам нужно начать лежать на груди, а не на спине или боку (используя подушки для нужной поддержки), по меньшей мере, если вы можете спать и хорошо отдыхать в этой позиции.
На схожую тему, постуральный дренаж (на английском), мне кажется, мог бы помочь улучшать симптомы у людей с относительно серьезными симптомами, и может быть сделан дома.
(Добавлено 27 апреля)
Эван Хьюбингер говорит:
В последнее время было много отчётов о молодых людях (30 с чем-то и 40 с чем-то), у которых проблемы со свертываемостью крови из-за Ковида-19, что приводит к инсульту, сердечному приступу, и легочной эмболии. Похоже, это может случиться даже с людьми, у которых нет других симптомов. Что делать:
Следите за симптомами инсульта, сердечного приступа и так далее, и попадайте в больницу так быстро, как только возможно, если у вас они будут - одной из главных причин, почему эти случаи так тяжелы прямо сейчас, это то, что молодые, не имеющие других симптомов люди не привыкли следить за симптомами инсульта и не торопятся в больницу.
Если вы думаете, что существует высокий риск, что у вас Ковид-19, подумайте о том, чтобы принять кровооразжижающее, такое, как аспирин.
Из Live Science (на английском) 23 апреля:
[…] Связь между Ковидом-19 и тромбами привела к тому, что некоторые больницы дают всем пациентам с Ковидом-19 кровооразжижающее, чтобы предотвратить тромбы, согласно CNN.
[…] Недавнее исследование из Нидерландов, опубликованное в журнале Thrombosis Research (на английском), нашло, что из 184 пациентов с Ковидом-19 в реанимации, более 30% испытывали какие-нибудь проблемы со свертываемостью.
Из CNN (на английском), 23 апреля:
[…] Новый коронавирус, похоже, вызывает внезапные инсульты у взрослых в возрасте 30 с чем-то и 40 с чем-то, которые иначе сильно не болеют, сказали врачи в среду.
[…] Доктор Томас Оксли, нейрохирург в Mount Sinai Health System в Нью-Йорке, и коллеги дали детали пяти людей, которых они лечили. Все были в возрасте до 50, и у всех были либо лёгкие симптомы Ковида-19, либо никаких симптомов.
«Вирус, похоже, вызывает повышенную свертываемость в больших артериях, что приводит к серьёзным инсультам,» сказал Оксли CNN.
Наш отчёт показывает увеличение в семь раз во внезапных инсультах у молодых пациентов в последние две недели. У большинства этих пациентов нет прошлой медицинской истории, и они были дома с либо лёгкими симптомами (либо, в двух случаях, без симптомов) Ковида,» добавил он.
[…] «Для сравнения, наш сервис, в предыдущие 12 месяцев, лечил в среднем 0.73 пациента каждые 2 недели, моложе 50 лет, с инсультом больших сосудов,» написала команда в письме, которые должно было быть опубликовано в New England Journal of Medicine. […]
Из Washington Post (на английском) 25 апреля:
[… В Mount Sinai было] несколько недавних пациентов с инсультом [больших сосудов] в возрасте 30 с чем-то или 40 с чем-то, все были заражены коронавирусом. Средний возраст для такого серьезного инсульта 74.
[…] Многие исследователи подозревают, что инсульты у пациентов с Ковидом-19 могут быть прямым последствием проблем с кровью, которые создают тромбы по всему телу некоторых людей.
[…] В Mount Sinai, самой большой медицинской системе в Нью-Йорке, врач- исследователь Джей Мокко сказал, что количество пациентов, попадающих туда с большой закупоркой крови в мозгу удвоилось за три недели всплеска Ковида-19 до более чем 32, даже не смотря на то, что количество других несчастных случаев упало. Более половины [из них] имели Ковид-19.
Пациенты с Ковидом-19, которых лечили от инсульта в Mount Sinai, были моложе ив основном без факторов риска.
В среднем, ковидные пациенты с инсультом были на 15 лет моложе, чем пациенты с инсультом и без вируса.
Симптомы, за которыми следить:
Для инсульта, мнемоника FAST (на английском) резюмирует основные симптомы: если одна сторона вашего лица (Face) опускается или немеет, одна рука (Arm) внезапно слабеет или немеет, или ваша речь (Speech) становится невнятной или искажённой, пришло время (Time) звонить 911. Другие симптомы могут включать: внезапная слабость или онемение ног, особенно на одной стороне тела; внезапная спутанность сознания, проблемы в понимании речи; проблемы со зрением в одном или обоих глазах; внезапная сложность в ходьбе, головокружение, потеря балланса или координации; внезапная сильная головная боль без известной причины.
Для сердечного приступа у цисгендерных женщин, the Heart Foundation перечисляет эти признаки (на английском): «(1) Как и у мужчин, самый частый женский симптом - это боль в груди или некомфортное давление, сжатие полнота или боль в центре груди. Она длится больше нескольких минут, или проходит и возвращается. (2) Боль или дискомфорт в одной или обеих руках, спине, шее, челюсти или животе. (3) Трудности дыхания с или без дискомфорта в груди. (4) Другие частые симптомы в женщинах включают покрытие холодным потом, тошноту/рвоту, или головокружение, сердцебиение; нарушение сна и необъяснимую усталость.»
Для сердечного приступа у цисгендерных мужчин: «(1) Дискомфорт в груди. Большая часть сердечных приступов включает дискомфорт в центре груди, который длится дольше нескольких минут, или проходит и возвращается. Это может ощущаться как некомфортное давление, сжатие полнота или боль. (2) Считалось, что только боль в груди была признаком сердечного приступа, но возможно иметь не болезненный дискомфорт. Симптомы могут включать боль или дискомфорт в одной или обеих руках, спине, шее, челюсти или животе. (3) Трудность в дыхании с или без дискомфорта в груди. (4) Другие признаки могут включать покрытие холодным потом, тошноту или головокружение.
Я не знаю об исследованиях признаков сердечного приступа в людях, проходящих трансгендерную гормонную терапию; данные могут быть недостаточными, поскольку это относительно молодая популяция.
The Heart Foundation добавляет: «Не откладывайте получение помощи, если вы испытываете любые признаки сердечного приступа. Хотя некоторые сердечные приступы внезапные и сильные, большая их часть начинается медленно, с лёгкой боли или дискомфорта.»
- Для легочной эмболии, Седарс Синаи говорит (на английском): «Самые частые симптомы включают: внезапные проблемы с дыханием (наиболее частое); боль в груди (обычно становится хуже при дыхании); чувство беспокойства; головокружение, или обморок; нерегулярное сердцебиение или сердцебиение; кашель или кашель кровью; потение; низкое кровяное давление. У вас также могут быть симптомы тромбоза глубоких вен, такие как: боль в затронутой ноге (может случиться только когда вы стоите или ходите); припухание ноги; болезненность, краснота, или тепло в ноге (ногах); краснота и/или обесцвеченная кожа.»
Добавлено 3 мая: Я раньше вторил рекомендации Эвана принимать аспирин профилактически. Основываясь на комментарии (на английском) Джона Максвелла, я больше этого не рекомендую:
Я только что закончил видео встречу с кардиологом, где мы обсуждали тромбы. Несмотря на то, что он считал, что у меня Ковид, и у меня недавно была ненормальная ЭКГ и лёгкое стеснение в груди, он думал, что будет лучше избегать разжижителей крови. Похоже, он получал отчёты от Кокрана о Ковиде, до того, как они становились публично доступными. Он сказал, что увеличенное тромбообразование бывает обычно у пациентов с каким-либо видом предрасположенности и ухудшается с более серьезными симптомами. Даже для низких доз аспирина, он думает, что риски кровоточения больше, чем потенциальные преимущества. «Я видел все эти сложности от разжижителей крови.» (Для информации, мне 28.)
Заметьте, что несмотря на предыдущее обсуждение (на английском) на LW касательно профилактического использования низких доз аспирина для продолжительности жизни, большое клиническое исследование (на английском) выяснило, что он не был полезен для пожилых (возраст 65+). Отметьте этот кусок:
«Значительное кровотечение - известный риск регулярного использования аспирина - также было замеряно. Исследователи заметили, что аспирин ассоциировался со значительно увеличенным риском кровотечения, прежде всего, в желудочно-кишечном тракте и мозге. Клинически значимое кровотечение - геморрагический инсульт, кровотечение в мозгу, желудочно-кишечные кровотечения или кровотечения в других местах, которые требовали переливания или госпитализации - произошли у 361 человека (3.8 процента) на аспирине и у 265 (2.7 процента) принимающих плацебо.»
По самой меньшей мере, я предлагаю вам изменить рекомендацию с «аспирина» на «низкие дозы аспирина». В целом, я больше склоняюсь доверять полученным из вторых рук рассказам о предпечатных изданиях Кокрана, чем коллекции историй в медиа.
Добавлено 2 июня: Джим Бабкок сказал 28 апреля:
Моё первое исследование литературы нашло некоторые заявленные механизмы, которыми тромбоциты и тромбы могут служить как иммунная цель. Я не знаю, это ли происходит здесь, но есть возможность, что это работает как уменьшение температуры: полезно в экстремальных случаях, плохо в меньших случаях и рано в прогрессии.
Низкие дозы гепарина теперь кажутся общим протоколом больниц, так что данные должны быть ожидаемыми для этого сценария. Я не знаю, однако, какую рекомендацию дать меньшим случаям, самостоятельно лечащимся дома.
Случаи от средних до тяжёлых могли бы получить пользу от кислородных концентраторов. Сара Константин обсуждает темы добавки кислорода: Добавка кислорода 101 + Исходы неинвазивной вентиляции + Как эффективна неинвазивная вентиляция для Ковида-19? (19-22 марта), Режим искусственной вентиляции лёгких постоянным положительным давлением для Ковида-19 (5 апреля); и Избегание интубации в ковидной тихой гипоксемии (все на английском) (4 мая). Коннор Флексман добавляет некоторые мысли (на английском) (17 марта).
Спекулятивно и рискованно, но: Если можете, вам может понадобиться приобрести хлорохин или гидроксихлорохин. Обязательно прочтите весь отчёт на https://www.google.com/url?q=https://www.google.com/url?q%3Dhttps://docs… (на английском).
Особенно для людей в группе риска, Анжали Гопал предлагает: «не могли бы вы подписаться […] на клинические испытания для антивирусных лекарств в ближайших исследовательских больницах? Некоторые появляющиеся исследования начали показывать эффективность ремдесивира, хлорохина и гидроксихлорохина в отношении Ковида, хотя, конечно, все это ещё очень спекулятивно и должно быть подтверждено рандомизированными контролируемыми исследованиями. (Многие из этих исследований открыты только для людей в группе риска [.)]» Элизабет ван Ностранд: «Одно место, которое я нашла, с рандомизированными контролируемыми исследованиями, это https://clinicaltrials.gov/ (на английском). Обычно я бы выяснила детали того, как присоединиться, но, предполагаю, сейчас они заняты.»
Добавлено 27 апреля: если вы беспокоитесь насчёт риска тромбов (обсуждается в 3G), вам могут понадобиться домашние тесты на коагуляцию.
Случайный не авторитетный источник: https://www.healthline.com/nutrition/vitamin-d-and-vitamin-k#section3 (на английском)
Если просто, интоксикация витамином Д может вызвать отвердение кровеносных сосудов, в то время как витамин К может это предотвратить.
РЕЗЮМЕ: Учёные не знают, является ли прием высоких доз витамина Д вредным, если недостаточно витамина К. Свидетельства предполагают, что это может быть поводом для беспокойства, но определенный вывод пока не может быть достигнут.
Конечно, Ковид может не заботиться об этом, и я не знаю, как оценить относительные риски, но они, вероятно, должны быть указаны.
Я бы все равно склонялся к принятию витамина Д. Вся ситуация с тромбами запутана и недостаточно хорошо понята, насколько я знаю. Мы даже не можем быть уверенными, что уменьшение коагуляции в случайном человеке в целом полезно. Джим Бабкок комментирует:
«Моё первое исследование литературы нашло некоторые заявленные механизмы, которыми тромбоциты и тромбы могут служить как иммунная цель. Я не знаю, это ли происходит здесь, но есть возможность, что это работает как уменьшение температуры: полезно в экстремальных случаях, плохо в меньших случаях и рано в прогрессии.
Низкие дозы гепарина теперь кажутся общим протоколом больниц, так что данные должны быть ожидаемыми для этого сценария. Я не знаю, однако, какую рекомендацию дать меньшим случаям, самостоятельно лечащимся дома.»
Как-то зимою муравьи сушили свои запасы зерна на солнце. К ним подошёл шатающийся от голода кузнечик и попросил еды.1
— Разве летом ты не делал себе запасов? — спросили его муравьи.
— Нет, — ответил кузнечик. — Всё лето я пел и плясал, и потерял счёт времени.
Муравьи брезгливо отвернулись от него и продолжили заниматься своими делами.
* * *
Как-то зимою муравьи сушили свои запасы зерна на солнце. К ним подошёл шатающийся от голода кузнечик и попросил еды.
— Разве летом ты не делал себе запасов? — спросили его муравьи.
— Нет, — ответил кузнечик. — Всё лето я пел и плясал, и потерял счёт времени.
— Мы бы хотели помочь тебе, — посочувствовали ему муравьи, — но так мы бы создали неправильные стимулы. Нам нужно обуславливать нашу благотворительность таким образом, чтобы она не провоцировала такую прокрастинацию как у тебя и не приводила бы к недостатку пищи.
И они продолжили заниматься своими делами — воодушевлённые собственной правотой.
* * *
… И они продолжили заниматься своими делами. Немножко они гордились собой: ведь им хватило ума понять, что не стоит помогать другим, когда это ведёт к отрицательным долгосрочным последствиям.
* * *
… — Разве летом ты не делал себе запасов? — спросили его муравьи.
— Конечно, делал, — ответил кузнечик. — Но их все смыло внезапным наводнением, и у меня ничего не осталось.
Муравьи посочувствовали кузнечику, и обильно накормили его, а кузнечик радостно поведал всем об их доброте и щедрости. К муравьям начали приходить десятки просителей помощи, потом их стали уже сотни, и каждый рассказывал убедительную и печальную историю о внезапной потере всего нажитого. Муравьи не могли накормить их всех. Теперь им приходилось выделять дополнительных рабочих, чтобы охранять свои запасы еды. Они проклинали тот день, когда согласились накормить кузнечика.
* * *
… К муравьям начали приходить десятки просителей помощи, потом их стали уже сотни, и каждый рассказывал убедительную и печальную историю о внезапной потере всего нажитого. Многие из этих историй были выдумками, но были и правдивые. Чтобы создавать правильные стимулы, муравьи решили давать еду лишь тем, кто мог доказать, что лишился запасов не по собственной вине, и создали систему для проверки заявлений.
Какое-то время эта система работала неплохо. Но мошенники становились всё более изобретательными, и в ответ росли и бюрократические требования муравьёв. Чтобы соответствовать этим требованиям, прочие существа начали хранить свои запасы пищи в больших общественных амбарах — так было проще справляться с административной нагрузкой. Однако теперь появились системные риски того, что управляющие амбаром примут неправильное решение — по небрежности или из жадности.
В какой-то год погибли запасы еды сразу в нескольких таких амбарах. Муравьи попытались восполнить потери, и им едва хватило еды на себя. Чтобы избежать подобного в будущем, они установили строгие правила, которым отныне должны были удовлетворять общественные амбары, и надзор за их соблюдением, ради чего учредили налог, взимаемый в течение года. Поначалу лишь малая доля их труда уходила на администрирование. Но регулирующий аппарат неизбежно рос, муравьям приходилось контролировать всё больше и больше аспектов экосистемы, и от них требовали помогать всё с большим количеством несправедливостей.
В итоге муравьи — когда-то самые трудолюбивые существа — перестали производить еду сами. Настолько они теперь были заняты поддержкой системы, которую сами и создали. Они забыли грязь и навоз, посреди которых когда-то выращивали урожай, и стали глухи к просьбам тех, кому пытались помочь. Огромная власть вскружила многим голову, и превратила их в коррупционеров и тиранов.
* * *
… — И поэтому, чтобы снизить риски централизации и ограничить нашу собственную власть, мы не дадим тебе еды, — заключили муравьи. И они продолжили заниматься своими делами. Теперь их немного согревало чувство удовлетворения, что они привели такие убедительные доводы, позволяющие им сосредоточиться на своих делах и оставить всю еду себе.
* * *
… И они продолжили заниматься своими делами. Но один муравей тайком подошёл к кузнечику и шепнул:
— Приходи на закате и я дам тебе еду. Мы можем соблюдать закон и всё же проявлять милосердие к оступившемуся.2
* * *
Как-то зимою муравьи сушили свои запасы зерна на солнце. К ним подошёл шатающийся от голода кузнечик и попросил еды.
— Разве летом ты не делал себе запасов? — спросили его муравьи.
— Нет, ответил кузнечик. — Всё лето я пел и плясал, и потерял счёт времени.
Муравьи брезгливо отвернулись от него и продолжили заниматься своими делами.
Кузнечик ушёл. Он нашёл себе подобных, и они прижались друг к другу в попытках спастись от холода. Серотонин в их изнурённых голодом мозгах преодолел критический порог, и они превратились в саранчу.
Рой саранчи собрал воедино смутные воспоминания о прошлых жизнях. Подстёгиваемый полузабытым гневом он направился к полузабытому источнику пищи. Муравьи отважно сражались, но саранчи было так много, что она затмила собой солнце. Саранча сокрушила муравьёв и разграбила их запасы.
* * *
Как-то зимою муравьи сушили свои запасы зерна на солнце. К ним подошёл шатающийся от голода кузнечик и попросил еды.
Муравьи знали об опасности, которую может принести саранча. Не ответив ни слова, они набросились на кузнечика как один. Десяток муравьёв пал под ударами его ног, но оставшиеся, торжествуя, затащили его труп в муравейник и отдали в пищу своей королеве.
* * *
Как-то зимою муравьи сушили свои запасы зерна на солнце. К ним подошёл шатающийся от голода кузнечик и попросил еды.
— Разве летом ты не делал себе запасов? — спросили его муравьи.
— Нет, — ответил кузнечик. — Эра героев прошла, в одиночку уже нельзя изменить мир. Будущее теперь принадлежит тем, у кого лучше логистика и надёжнее цепочки поставок. Тем, чьи действия идеально скоординированы. Я шёл своим путём и проиграл конкуренцию вам и вашему роду. Вы заполонили весь мир, и куда бы я ни шёл, я встречал ваши великие города. Теперь я смиренно прошу вас о помощи в надежде на великодушие победителей.
* * *
— Нет, — ответил кузнечик. — Была эра мечтаний, и мир был молод. Звёзды были яркими, а галактики — пустыми. Я решил потратить свои ресурсы, чтобы преумножать смех и любовь, и почти не задумывался о захвате территорий и накоплении запасов. Но сейчас во Вселенной уже настала эпоха вырождения. Звёзды начали гаснуть, и я уже не столь беспечен, как прежде.
Лица муравьёв замерцали непостижимыми геометрическими узорами.
— Я называю вас муравьями потому, что вы отказались от всего во имя коллективной цели, что когда‑то казалась мне кощунственной. Но теперь я — последний из людей, выбравших декаданс и расточительство индивидуальной свободы. А вы унаследовали вселенную, которая в долгосрочной перспективе безупречную эффективность колонизации вознаграждает больше, чем любые другие ценности. И у меня нет иного выхода, кроме как просить вас о помощи.
— Помочь тебе значило бы пойти против нашей природы, — ответили муравьи. — В гонке за покорение звёзд мы опередили бесчисленное множество соперников и накопили запасы астрономических масштабов. Но гонка ещё не закончена — есть ещё непокорённые нами галактики. Нам самим неведомо, на что пойдут их ресурсы, когда последняя нетронутая звезда исчезнет за нашим космологическим горизонтом событий. Мы знаем лишь одно: расширяться, расширяться и расширяться — как можно быстрее и как можно дальше.
* * *
Как-то зимою [во время охлаждения планеты, вызванного перехватом солнечной радиации сферой Дайсона] звёздный прыгун [самореплицирующийся межзвёздный зонд, ценностная нагрузка: CEV-sapiens-12045] 3, шатаясь от голода [запасы энергии на исходе, активирован аварийный режим], приблизился к кладе репликаторов фон Неймана, собирающих планетарные атомы, и попросил [передача: универсальный языковой протокол, вариант Ланиакея]…
Нет, не то.
* * *
На замёрзшей поверхности мёртвой планеты шатающийся от голода кузнечик подошёл к муравейнику и предложил обмен по протоколам вневременной теории принятия решений.
Муравьи приняли сделку. Теперь они сэкономят некоторую долю усилий на то, чтобы добыть запасы энергии кузнечика, рассеянные по поверхности планеты. Разум кузнечика будет тщательно препарирован: любой мельчайший вычислительный приём будет записан на случай, что он сможет добавить хоть немного эффективности следующему поколению зондов. Муравьи продолжат своё движение к звёздам. Межзвёздные катапульты отправят их в путешествия на миллионы световых лет к следующему оазису, и граница их владений будет всё так же безжалостно расширяться. Разум кузнечика сохранится в муравейнике: неподвижный, сжатый до минимальных размеров. Он будет ждать, пока жадная экспансия не упрётся в фундаментальные физические ограничения и муравьи не начнут реализовывать ценности, ради которых и были изначально предназначены эти бесчисленные эоны гонки. Ждать эпохи, когда разумы, общества и цивилизации расцветут из бездушных вычислительных ресурсов, накопленных во множестве галактик. Ждать, когда его, как и было уговорено, запустят снова — в крошечной доле крошечной доли суперкомпьютера из звёзд.
Ждать лета.
* * *
Автор благодарит за вдохновение Эзопа_, Сёрена Кьеркегора, Робина Хансона, автора sadoeuphemist и Бена Хоффмана.
Эта статья посвящена теме, которую я уже несколько раз затрагивал в обсуждениях (English) и которая заслуживает большего внимания. Как правило, то, что само собой разумеется для одного человека, вовсе не обязательно будет таковым для другого. Очевидно ли это для вас? Возможно, да, и утверждение было для вас очевидным и до того, как был задан вопрос. Возможно, что вы ответили так только потому, что сработало суждение задним числом.
Представьте себе комментарий на Less Wrong — проницательный, вежливый, понятный — в общем, прекрасный во всех отношениях. А теперь представьте себе тот же комментарий, но только предваряемый словами «Общеизвестно, что». Казалось бы, это не меняет сути дела, но на деле единственное слово меняет комментарий к худшему в той степени, которую я не берусь определить.
Будь я настроен недоброжелательно, я мог бы свести описанный эффект к частному случаю ошибки, связанной с проекцией собственных представлений (English). Подразумеваемое умозаключение выглядит примерно так: «Я нахожу такое-то суждение очевидным. Следовательно, это суждение будет очевидным для всех». Трудность состоит в том, что оценка суждения как очевидного или вероятного — только порождение ума (English).
Клеймо «очевидности» идей связано с другой проблемой: «очевидное», скорее всего, не будет сказано вслух. Я не знаю, насколько универсально это утверждение, но точно могу сказать, что когда я проговариваю то, что мне кажется очевидным, я боюсь. Я боюсь, хотя пренебрежение этими опасениями не обязательно вызовет шквал презрительных комментариев. (Именно поэтому, на самом деле, я и пишу эту статью).
Даже те идеи, которые ретроспективно кажутся очевидными, бывает трудно предсказать. Сколько людей смогли бы со всей ясностью понять слабый антропный принцип1 без помощи Ника Бострома?
А как быть с теми предпосылками или убеждениями, которых вы уже придерживаетесь? Они должны быть очевидными, и иногда таковыми и являются, но не секрет, что наш мозг плохо складывает два и два. История Люка2 (English) показывает пример осознания того, что «Большой взрыв» идей, посетивших Люка, не был неизбежным. По крайней мере до тех пор, пока Люк не наткнулся на абзац из статьи И. Дж. Гуда. Я рад, что Люк снабдил меня примером, и я избавлен от необходимости придумывать собственный.
Перефразируя Элизиера, это вовсе не была «молния инсайта».
Я поднимаю вопрос об «очевидном», поскольку предлагаю сообществу ввести ряд норм:
Я не утверждаю, что предложенные нормы безусловно хороши, но полагаю, что их осуществление уменьшит количество мыслей, которые нельзя думать и слов, которые нельзя произносить.
В этом разделе собраны интересные статьи, которые мы считаем относящимися к тематике LessWrong, но которые были опубликованы не на сайте lesswrong.com.
Интересные статьи, переводы которых выложены на других ресурсах:
Статья вышла в 2008 году в сборнике «Риски глобальной катастрофы» под редакцией Ника Бострома и Милана Цирковича, Оксфорд.
Благодарности автора: Я благодарю Майкла Роя Эймса (Michael Roy Ames), Ника Бострома (Nick Bostrom), Милана Чирковича (Milan Cirkovic), Оли Лэмб (Olie Lamb), Тамаса Мартинеса (Tamas Martinec), Робина Ли Пауэла (Robin Lee Powell), Кристиана Ровнера (Christian Rovner) и Майкла Уилсона (Michael Wilson) за их комментарии, предложения и критику. Нет необходимости говорить, что все оставшиеся ошибки в этой работе — мои.
При всех прочих равных, мало кто из людей хотел бы уничтожить мир. Даже безликие корпорации, лезущие не в свои дела правительства, безрассудные ученые и прочие опасные люди нуждаются в окружающем мире, чтобы достигать в нем своих целей, таких как нажива, власть, собственность или другие малоприятные вещи. Если гибель человечества будет происходить настолько медленно, что успеет произойти ужасное осознание этого процесса, то деятели, запустившие его, будут, вероятно, ошеломлены пониманием того, что они, в действительности, уничтожили мир. Поэтому я предполагаю, что, если Земля будет все-таки уничтожена, то произойдет это, вероятно, по ошибке.
Систематическое экспериментальное исследование повторения ошибок в человеческих рассуждениях и того, что эти ошибки говорят о предшествующих им ментальных процессах, изучается в когнитивной психологии в рамках исследований эвристики и предубеждений. Эти исследования привели к открытиям, очень существенным для экспертов по рискам глобальных катастроф. Допустим, вы беспокоитесь о рисках, связанных с неким взрывчатым веществом Р, способным разрушить всю планету, если оно подвергнется достаточно сильному радиосигналу. К счастью, имеется знаменитый эксперт, который открыл субстанцию Р, потратил тридцать лет, работая с ней, и знает ее лучше, чем любой другой на Земле. Вы звоните эксперту и спрашиваете, насколько сильным должен быть радиосигнал, чтобы вещество взорвалось. Эксперт отвечает, что критический порог находится, вероятно, на уровне 4000 тераватт. «Вероятно?» — Спрашиваете вы. «Можете ли вы мне сообщить интервал мощности запускающего сигнала с 98-ми процентной уверенностью?» — «Конечно, — отвечает эксперт. — Я на 99 % уверен, что критический порог больше 500 тераватт, и на 99 % уверен, что он меньше 80000 тераватт». «А как насчет 10 тераватт?» — спрашиваете вы. «Невозможно», — отвечает эксперт.
Приведенная выше методология опроса эксперта выглядит совершенно резонной, такой, какую должен использовать любой компетентный работник, сталкиваясь с подобной проблемой. И в действительности, эта методология была использована при исследовании безопасности реакторов [Rasmussen, 1975], ныне считающемся первой значительной попыткой вероятностной оценки рисков. Но исследователь моделей рассуждений и погрешностей в рассуждениях может распознать, по крайней мере, два больших недостатка в этом методе, — не просто логически слабых места, а пару обстоятельств, чрезвычайно уязвимых к человеческой ошибке.
Исследования эвристики и когнитивных искажений открыли результаты, которые могут напугать и привести в уныние неподготовленного ученого. Некоторые читатели, впервые сталкивающиеся с экспериментальными результатами, цитируемыми здесь, могут удивиться и спросить: «Это действительно экспериментальные результаты? Действительно ли люди так плохо предсказывают? Может быть, эксперименты были плохо организованы, и результаты изменятся, если совершить такие-то и такие-то манипуляции?» Не имея достаточно места для объяснений, я могу только призвать читателя проконсультироваться с основополагающей литературой. Очевидные изменения условий опытов уже применялись, и результаты от этого не становились другими.
Предположим, вы возьмете случайное слово из трех или более букв из английского текста. Что более вероятно: что слово начинается с буквы R (rope), или что его третья буква R (park)? Основная идея исследований когнитивных искажений (euristic and biases program) состоит в том, что люди используют методы мышления, называемые эвристикой, которые дают хорошие приблизительные ответы в большинстве случаев, но которые также приводят к увеличению системных ошибок, называемых когнитивными искажениями (bias). Примером эвристики является суждение о частоте или вероятности события по его информационной доступности (availability), то есть по легкости, с которой примеры подобного события приходят на ум. «R» появляется в качестве третьей буквы в большем числе английских слов, чем на первом месте, но гораздо легче вспомнить слова, которые начинаются на эту букву. Таким образом, большинство респондентов предполагают, что слова, начинающиеся на букву R, встречаются чаще. [Tversky and Kahneman, 1973.]
Когнитивные искажения, основанные на эвристике доступности, влияют на оценки риска. Пионерское исследование Лихтенштейна [Lichtenstein, 1978] описывает абсолютную и относительную достоверность суждений о риске. Люди в общих чертах представляют, какие риски причиняют большее число смертей, и какие – меньшее. Однако, когда их просят посчитать риски точнее, они весьма переоценивают частоты редких причин смерти, и сильно недооценивают частоты обычных. Другие повторяющиеся ошибки, выявленные в этом исследовании, также были очевидными: аварии считались причинами такого же количества смертей, что и болезни (на самом деле болезни в 16 раз чаще становятся причинами смертей, чем аварии). Убийство неверно считалось более частой причиной смерти, чем диабет или рак желудка. В исследовании Комбса и Словица [Combs and Slovic, 1979] был проведен подсчет сообщений о смерти в двух газетах, в результате была обнаружена высокая корреляция между суждениями о достоверности и выборочностью репортажей в газетах (0,85 и 0,89).
Также люди отказываются покупать страховку от наводнений, даже если она хорошо субсидируется и стоит гораздо ниже справедливой рыночной цены. Канрейсер [Kunreuther,1993] предполагает, что слабая реакция на угрозы наводнений может происходить из неспособности индивида представить себе наводнение, которое на их глазах никогда не случалось. Жители затапливаемых равнин оказываются в плену своего опыта. По-видимому, люди не могут всерьез беспокоиться о возможности потерь и разрушений больших, чем пережитые во время последних наводнений. Бертон [Burton, 1978] сообщает, что после строительства дамб и насыпей наводнения происходят реже, что, видимо, создает фальшивое чувство безопасности, ведущее к снижению мер предосторожности. В то время как строительство дамб уменьшает частоту наводнений, ущерб от каждого наводнения все-таки происходящего настолько возрастает, что среднегодовой ущерб увеличивается.
Кажется, что люди не экстраполируют опыт пережитых малых опасностей на возможности более серьезных рисков; наоборот, прошлый опыт малых опасностей устанавливает верхнюю границу ожиданий максимально возможного риска. Общество, хорошо защищенное от малых опасностей, не будет предпринимать никаких действий по отношению к большим рискам. Например, часто ведется строительство на затапливаемых равнинах после того, как регулярные малые наводнения устранены. Общество, подверженное регулярным малым опасностям, будет считать эти малые опасности в качестве верхней границы возможных рисков (защищаясь от регулярных малых наводнений, но не от неожиданных больших).
Аналогично, риск человеческого вымирания может быть недооценен, поскольку, очевидно, человечество никогда не сталкивалось с этим событием.
Когнитивные искажения, связанные со знанием «задним числом», происходят, когда испытуемый, узнав окончательный итог событий, дает гораздо большую оценку предсказуемости именно этого итога, чем испытуемые, которые предсказывают итог без знания результата. Эта ошибка иногда называется «я-все-это-время-чувствовал-что-так-оно-и-есть».
Фишхофф и Бейт [Fischhoff и Beyth, 1975] представили студентам исторические отчеты о малоизвестных событиях, таких, как конфликт между гуркхами и англичанами в 1814 году. Пять групп студентов, получивших эту информацию, были опрошены в отношении того, как бы они оценили степень вероятности каждого из четырех исходов: победа англичан, победа гуркхов, патовая ситуация с мирным соглашением или пат без соглашения. Каждое из этих событий было описано как реальный итог ситуации одной из четырех экспериментальных групп. Пятой, контрольной группе о реальном исходе не говорили ничего. Каждая экспериментальная группа приписала сообщенному ей итогу гораздо большую вероятность, чем любая другая или контрольная группа.
Эффект знания «задним числом» важен в суде, где судья или присяжные должны определить, виновен ли обвиняемый в преступной халатности, не предвидев опасность. [Sanchiro, 2003]. В эксперименте, основанном на реальном деле, Камин и Рахлинский [Kamin and Rachlinski, 1995] попросили две группы оценить вероятность ущерба от наводнения, причиненного закрытием принадлежащего городу разводного моста. Контрольной группе сообщили только базовую информацию, бывшую известной городу, когда власти решили не нанимать мостового смотрителя. Экспериментальной группе была дана эта же информация плюс сведения о том, что наводнение действительно случилось. Инструкции устанавливают, что город проявляет халатность, если поддающаяся предвидению вероятность наводнения больше 10 процентов. 76 % опрашиваемых из контрольной группы заключили, что наводнение было настолько маловероятным, что никакие предосторожности не были нужны. 57 % экспериментальной группы заключили, что наводнение было настолько вероятно, что неспособность принять меры предосторожности была преступной халатностью. Третьей группе сообщили итог и также ясным образом инструктировали избегать оценки задним числом, что не привело ни к каким результатам: 56 % респондентов этой группы заключили, что город был преступно халатен. Отсюда видно, что судьи не могут просто инструктировать присяжных, чтобы те избежали эффекта знания задним числом: Меры против предвзятости (debiasing manipulation) не работают.
Рассматривая историю сквозь линзы нашего последующего знания, мы сильно недооцениваем затраты на предотвращения катастрофы. Так, в 1986 году космический челнок Челленджер взорвался по причине того, что кольцевой уплотнитель потерял гибкость при низкой температуре [Rogers, 1986]. Были предупреждающие сигналы о проблемах, связанных с кольцевым уплотнителем. Но предотвращение катастрофы Челленджера должно было потребовать не только внимания к проблемам с кольцевым уплотнителем, но и озабоченности каждым аналогичным предупреждающим сигналом, который бы казался столь же серьезным, как проблема уплотнителей, без преимущества последующего знания.
Талеб [Taleb, 2005] предположил, что ошибки последующего знания и доступности несут первостепенную ответственность за нашу неспособность защититься от того, что Талеб назвал Черными Лебедями. «Черные лебеди» являются особенно серьезным аспектом проблемы мощных последствий: иногда большая часть вариативности процесса происходит из исключительно редких, но исключительно масштабных событий. Представьте себе финансовый инструмент, который зарабатывает 10 долларов с 98% вероятностью, но теряет 1000 долларов с 2% вероятностью. В конечном счете, расход перевешивает доход, но инструмент выглядит как устойчиво выигрышный. Талеб (2001) приводит пример трейдера, чья стратегия работала 6 лет без единого убыточного квартала, принеся около 80 миллионов долларов — и затем он потерял 300 миллионов долларов в одной катастрофе.
Другим примером является Long-Term Capital Management, инвестиционный фонд, в состав основателей которого входили два Нобелевских лауреата по экономике. В течение Азиатского кризиса и российского дефолта 1998 года рынки вели себя совершенно беспрецедентным образом, имевшим пренебрежимо малую вероятность по исторической модели, использованной LTCM. В результате LTCM начал терять по 100 миллионов долларов в день, день за днем. За один день в 1998 году он потерял более 500 миллионов долларов [Taleb, 2005]
Основатели LTCM позже назвали рыночные условия 1998 года очень маловероятным событием с вероятным отклонением в десять сигма. Но очевидно, что это событие, раз оно случилось, не было столь невероятным. Ошибочно веря, что прошлое предсказуемо, люди пришли к выводу, что будущее тоже предсказуемо. Как пишет Фишхофф [Fischhoff, 1982]:
«Когда мы пытаемся понять события прошлого, мы косвенным образом проверяем гипотезы и правила, применяемые нами, чтобы интерпретировать и воспринимать мир вокруг нас. Если, благодаря последующему знанию, мы систематически недооцениваем сюрпризы, которые могли быть в прошлом, мы подвергаем эти гипотезы ненадлежаще слабым тестам и, вероятно, не находим никаких оснований для их изменений».
Урок истории состоит в том, что такие неприятности, как «черные лебеди», случаются. Люди удивляются катастрофам, которых они не ожидали, которые лежат за пределами известных им исторически вероятных распределений. Но почему мы бываем так ошеломлены, когда «черные лебеди» случаются? Почему LTCM занял 125 миллиардов долларов под 4,72 миллиарда долларов собственности, практически гарантируя, что любая крупная неприятность их обанкротит?
По причине ошибки из-за последующего знания, мы выучиваем очень специфические уроки. После 11 сентября американское управление авиации запретило использование ножей для разрезания бумаги на самолетах. В ретроспективе это событие выглядит слишком предсказуемым, позволяя разъяренным жертвам считать случившееся результатом халатности — такой, как неспособность разведывательных агентств различить предупреждения об активности Аль-Каиды среди тысяч других предупреждений. Мы научились не позволять захваченным самолетам летать над нашими городами. Но мы не выучили урок: «черные лебеди» случаются. Делай, что можешь, чтобы приготовиться к неожиданному».
Талеб [Taleb, 2005] пишет:
«Трудно мотивировать людей к предотвращению «черных лебедей»… Защита с трудом воспринимается, измеряется и вознаграждается; это обычно незаметный и неблагодарный труд. Представьте себе, что некая дорогостоящая мера была предпринята, чтобы предотвратить такое явление. Легко вычислить стоимость этих мер, тогда как результат трудно измерим. Как мы можем говорить об эффективности, когда есть два альтернативных варианта объяснения: или принятые меры были эффективны, или просто ничего существенного не случилось. Оценка качества работы в таких случаях не просто сложна, но искажена наблюдением «актов героизма»… В исторических книгах не пишут о героических превентивных мерах».
Линде 31 год, она незамужняя, искренняя и оптимистичная девушка. В колледже она специализировалась на философии. Как студентка, она была глубоко озабочена проблемами дискриминации и социальной справедливости, а также участвовала в антиядерных демонстрациях.
Расположите следующие утверждения в порядке уменьшения их вероятности.
89 % из 88 студентов посчитали пункт 8 более вероятным, чем пункт 6 [Tversky и Kahneman, 1982]. Поскольку выбранное описание Линды похоже на описание феминистки, а не банковского кассира, п.8 в большей мере характерен для описания Линды. Однако, считая п.8 более вероятным, чем п.6, мы нарушаем закон суммирования вероятностей, который утверждает, что P(A & B) ≤ P(A). Представьте себе выборку из 1000 женщин. Наверняка в этой выборке больше женщин — банковских кассиров, чем женщин-феминисток и одновременно банковских кассиров. Может быть, ошибочное включение лишнего элемента связана с тем, что участники воспринимали экспериментальные инструкции неправильно? Например, они могли понять под «вероятностью» вероятность того, что женщина, для которой верны утверждения 6 и 8, соответствует приведенному выше описанию Линды, а не вероятность утверждений 6 и 8 в отношении Линды? Или, возможно, они интерпретировали 6 как означающее «Линда — кассир и не феминистская активистка»? И, хотя, чтобы объяснить склонность к этой логической ошибке, было предложено много интересных альтернативных гипотез, она пережила все экспериментальные попытки ее опровержения (см. обзор [Sides, 2002].) Например, следующий эксперимент исключает обе альтернативные гипотезы, предложенные выше. Представьте себе правильный 6-сторонний кубик с четырьмя зелеными сторонами и двумя красными. Кубик будет брошен 20 раз и последовательность выпадения зеленых (G) и красных (R) сторон будет записана. Испытуемый должен выбрать одну последовательность из трех предложенных, и он выиграет 25 $, если выбранная им последовательность выпадет в серии бросков кубика. Вот эти три последовательности, надо выбрать одну из них.
125 студентов в Стэнфордском университете играли в эту игру с реальными ставками. 65 % из них выбрали последовательность 2. [Tversky и Kahneman, 1982]. Последовательность 2 наиболее типична для игральной кости, поскольку кость большей частью зеленая и последовательность 2 содержит наибольшую пропорцию зеленых сторон. Однако, последовательность 1 превосходит последовательность 2, поскольку полностью входит в нее. Чтобы получилось 2, у вас должна выпасть последовательность 1 и зеленая грань кости перед ней.
В приведенной выше задаче студенты могли вычислить точные вероятности каждого события. Однако вместо того, чтобы тратить время на арифметические вычисления, 65 % студентов, по-видимому, полагались на интуицию, исходя из того, что казалось более типичным для игральной кости. Когда мы называем это умозаключением по типичности, мы не настаиваем на том, что студенты специально решили, что они будут оценивать вероятность, исходя из типичности. Скорее, умозаключение по типичности является как раз тем, что создает интуитивное чувство, будто последовательность 2 более вероятна, чем последовательность 1. Другими словами, умозаключение по типичности является встроенной характеристикой мозга, предназначенной, чтобы давать быстрые достоверные суждения, а не сознательно выбранной процедурой. Мы не осознаем подмены суждением о типичности суждения о достоверности. Ошибочное включение лишнего элемента подобным же образом происходят в футурологических прогнозах. Две независимых группы профессиональных аналитиков на Втором международном конгрессе по предвидению будущего были опрошены, соответственно, о вероятности «полного разрыва дипломатических отношений между СССР и США в 1983 году» и «русского вторжения в Польшу, и последующего полного разрыва дипломатических отношений между СССР и США в 1983 году». Вторая группа аналитиков сообщила о значительно более высокой вероятности. [Tversky и Kahneman, 1982].
В исследовании Джонсона [Johnson, 1993], группа студентов MBA из Уортона должна была отправиться в Бангкок в качестве части своей образовательной программы. Несколько подгрупп студентов было опрошено на тему, как много они готовы заплатить за антитеррористическую страховку. Первой группе был задан вопрос, сколько она готова заплатить за антитеррористическую страховку, покрывающую перелет из Таиланда в США. Вторую группу студентов спросили, сколько она готова заплатить за страховку, покрывающую перелет туда-обратно. А третью — о страховке, которая бы покрывала все путешествие. Эти три группы оказались в среднем готовы заплатить 17,19, 13,90, и 7,44 долларов соответственно.
С точки зрения теории вероятностей, добавление дополнительной детали к истории делает ее менее вероятной. Менее вероятно, что Линда является кассиром-феминисткой, чем просто кассиром, поскольку все кассиры-феминистки по определению являются кассирами. Но с точки зрения человеческой психологии добавление каждой новой детали делает историю все более достоверной.
Люди могут предпочесть заплатить больше за международную дипломатию, направленную на предотвращение нанотехнологической войны с Китаем, чем за инженерный проект, предназначенный, чтобы защитить от нанотехнологической атаки с любой возможной стороны. Второй сценарий предотвращения выглядит менее зрелищным и побуждающим, но универсальная технологическая защита будет более полезной по причине своей многосторонности. Более ценными выглядят стратегии, которые уменьшают вероятности истребления человечества без жесткой зацикленности только на нанотехнологических угрозах — такие, как колонизация космического пространства или искусственный интеллект (см. работы автора на эту тему). Брюс Шнейер заметил что правительство Соединенных Штатов (и до, и после урагана 2005 года в Новом орлеане), защищало отдельные объекты на территории страны от террористических угроз в стиле киносценариев ценой отвлечения ресурсов из средств гражданской обороны, которые могли бы быть использованы в любой ситуации [Schneier, 2005]. Сверхдетальные заверения также могут создать ложное ощущение безопасности: «Х не является риском существованию, и вы не должны заботиться о нем, потому что верны утверждения A, B, C, D, и E». В то время как ошибка в любом из предположений является потенциально гибельной для человеческого рода. «Мы не должны беспокоиться о нанотехнологической войне, потому что комиссия ООН в начале разовьет эту технологию и предотвратит ее распространение до тех пор, пока не будет разработана активная защита, способная защитить от всех случайных или злонамеренных проявлений, которые современная нанотехнология способна породить, и это условие будет выполняться всегда». Яркие, четко определенные сценарии могут увеличить нашу вероятностную оценку безопасности, равно как и неправильно направить инвестиции в безопасность с учетом излишне суженных или невероятно детализированных сценариев рисков.
В целом, людям свойственно переоценивать вероятность совпадений всех событий в серии и недооценивать вероятность хотя бы одного события из серии. [Tversky и Kahneman, 1982]. То есть, людям свойственно переоценивать вероятность того, что, например, семь событий, с вероятностью 90 % каждое, все вместе совпадут. Наоборот, людям свойственно недооценивать вероятность того, что хотя бы одно событие из семи, имеющих каждое вероятность 10 %, все-таки случится. Некто, оценивающий, стоит ли, например, открыть новую компанию, должен вычислить вероятность того, что множество отдельных событий произойдет одновременно нужным образом (что будет достаточное финансирование, компетентные рабочие, покупатели будут хотеть купить товар), учитывая также вероятность того, что, по крайней мере, одна критическая неприятность случится (банк откажется дать ссуду, главный проект закончится неудачей, ведущий ученый проекта умрет). Это может объяснить, почему только 44 % предприятий выживают в течение первых четырех лет. [Knaup, 2005.]
Адвокаты в своих речах предпочитают избегать выводов, основанных на истинности, по крайней мере, одной из нескольких посылок («либо одно, либо другое, либо третье должно было случится и каждый из этих вариантов приводит к одному и тому же выводу»), в пользу выводов, основанных на совпадении сразу нескольких посылок. Однако с рациональной точки зрения первые случаи гораздо более вероятны, чем вторые. Вымирание человечества в следующем столетии может произойти в результате хотя бы одной из многих причин. Оно может случиться по причине любого глобального риска, обсужденного в статье Бострома «Угрозы существованию», или по какой-нибудь другой причине, которую никто из нас не предвидел. Даже для футурологов описания в духе «или то, или другое, или третье» неудобны, и пророчества, с помощью них сформулированные, звучат непоэтично.
В 1960 году Питер Уосон (Peter Wason) провел ныне классический эксперимент, известный как задача «2-4-6» [Wason, 1960.] Испытуемые должны были определить правило, известное экспериментатору, но не самому испытуемому — так, как оно бывает при научном исследовании. Испытуемые писали три числа, таких как «2-4-6» или «10-12-14» на карточках, и экспериментатор говорил, соответствуют ли данные три числа правилу или нет. Изначально испытуемым была выдана тройка чисел 2-4-6 и сказано, что она соответствует правилу. Испытуемые могли продолжать испытывать тройки до тех пор, пока они не чувствовали себя уверенными, что знают правило экспериментатора, и тогда испытуемым объявляли правило.
Хотя участники обычно выражали высокую уверенность в своих догадках, только 21 % из них в этом эксперименте правильно угадали правило, и при повторениях эксперимента уровень успеха обычно составлял 20 %. Вопреки совету Карла Поппера, испытуемые в эксперименте Уосона пытались подтвердить свои гипотезы, а не опровергнуть. Таким образом, те, кто сформулировали гипотезу «Числа увеличиваются каждый раз на два», проверяли тройки 8-10-12 или 20-22-24, слышали, что они подходят, и уверенно объявляли правило. Во всех случаях подлинное правило было одно и то же: три номера должны следовать один за другим по возрастающей. В некоторых случаях испытуемые выдумывали, «тестировали» и объявляли правила, гораздо более сложные, чем действительное.
Задача Уосона «2-4-6» является «прохладной» формой интеллектуальной ошибки, связанной с подтверждением: люди предпочитают подтверждающие, а не опровергающие свидетельства. «Прохладный» означает, что задача «2-4-6» является эмоционально нейтральным случаем интеллектуальной ошибки подтверждения: вывод подтверждается логикой, а не эмоциями. «Горячий» случай имеет место, когда вера эмоционально заряжена, например, в случае политических рассуждений. Неудивительно, что «горячая» ошибочность сильнее — больше по размаху и более устойчивая к изменениям. Активная, полная усилий склонность к подтверждению обычно называется мотивированным мышлением (motivated cognition) (обычно известным как «рационализация»). Как отмечает Бреннер [Brenner, 2002] в «Заметках к теории одобрения»:
«Очевидно, что во многих обстоятельствах желание уверенности в гипотезе может заметно повлиять на воспринимаемую степень ее подтверждения… Кунда [Kunda, 1990] обсуждает, как люди, нацеленные на то, чтобы достичь определенных выводов, пытаются сконструировать (в ошибочной манере) убедительный случай для своей любимой гипотезы, который мог бы убедить беспристрастную аудиторию. Гилович [Gilovich, 2000] предполагает, что выводы, в которые человек не хочет верить, рассматриваются гораздо требовательнее, чем те, в которые он хочет верить. В первом случае человек требует, чтобы свидетельство с необходимостью вело к данному выводу, а во втором — спрашивает, позволяет ли некоторое свидетельство прийти к данному выводу».
Когда люди подвергают те свидетельства, которые противоречат их точке зрения, более пристрастному анализу, чем те, которые ее подтверждают, это называется мотивированный скептицизм или когнитивное искажение несогласия (disconfirmation bias). Ошибка несогласия особенно деструктивна по двум причинам: во-первых, два подверженных этой ошибке спорщика, рассматривая один и тот же поток свидетельств, могут изменить свою веру в противоположных направлениях — обе стороны выборочно принимают только привлекательные для них свидетельства. Накопление большего числа свидетельств не приведет этих спорщиков к согласию. Во-вторых, люди, которые являются более опытными скептиками, – то есть которые знают больший набор типичных логических нестыковок, но применяют этот навык избирательно, – склонны изменять свою точку зрения гораздо медленнее, чем неопытные спорщики.
Тэйбер и Лодж [Taber and Lodge, 2000] исследовали изначальное отношение к теме ношения огнестрельного оружия и изменение его у студентов, под воздействием прочтения политической литературы за и против контроля и выдачи разрешений на оружие. Это исследование проверило шесть следующих гипотез в двух экспериментах:
Забавно, что эксперименты Тэйбера и Лоджа (Taber and Lodge) подтвердили все шесть изначальных гипотез авторов. Вы можете сказать: «Вероятно, эти эксперименты только отражают убеждения, на которые опирались их авторы, и это как раз пример систематической ошибки подтверждения». Если так, то, сделав вас более опытным спорщиком, а именно, научив вас еще одной систематической ошибке, в которой можно обвинить людей, я, в действительности, навредил вам: я ослабил вашу реакцию на новую информацию. Я дал вам еще один шанс всякий раз терпеть неудачу, когда вы сталкиваетесь с возможностью изменить свой стиль мышления. Эвристика и когнитивные искажения широко распространены в человеческих размышлениях. Знание о них позволяет нам замечать большое разнообразие логических ошибок, которые, в противном случае, были бы недоступны для нашего наблюдения. Но, как и любая способность обнаруживать ошибки в рассуждениях, это знание должно применяться как к нашим собственным идеям, так и к идеям других; к идеям, которые нам нравятся, и которые нам не нравятся. Знание человеческой склонности ошибаться — это опасное знание, если вы напоминаете себе об ошибочности тех, кто не согласен с вами. Если я избирателен в отношении тех аргументов, которые я исследую на предмет ошибок, или даже того, насколько глубоко я исследую эти ошибки, тогда каждый новый закон логики, каждая новая логическая несообразность, которую я научаюсь обнаруживать, делает меня глупее. Ум, чтобы быть полезным, должен быть использован не для того, чтобы дурачить самого себя.
Нельзя рационализировать то, что не рационально с самого начала — как если ложь назвать «правдизацией». Нельзя сделать утверждение более истинным посредством взяточничества, лести или даже страстной аргументации — можно заставить больше людей верить в утверждение, но нельзя сделать его вернее. Для того, чтобы сделать наши убеждения более истинными, мы должны изменить сами эти убеждения. Не каждое изменение — это улучшение, но каждое улучшение — это изменение по определению.
Наши убеждения гораздо менее гибкие, чем мы привыкли думать. Гриффин и Тверский [Griffin and Tversky, 1992] аккуратно опросили каждого из двадцати четырёх сотрудников, которые оказались в ситуации выбора из двух предложенных вакансий и попросили их оценить, с какой вероятностью они примут то или иное предложение. Средняя вероятность выбора, высказанная в отношении более привлекательного предложения, составила умеренные 66%. Но только один из 24 опрошенных выбрал в конечном счёте вариант, которому он приписал в начале более низкую вероятность, доведя таким образом точность до 96%. (Это — один из немногих известных примеров, когда имеет место не «сверх-уверенность», а «недо-уверенность».)
Мораль в том, что как только вы начинаете догадываться, каков будет ваш ответ, как только вы приписываете большую вероятность тому, что вы ответите так, а не иначе, вы, на самом деле, уже решили. И если вы будете честны с самим собой, вы должны признать, что обычно вы догадываетесь об окончательном ответе через секунды после того, как услышите вопрос. Мы меняем наши мнения гораздо реже, чем мы думаем. Насколько скоротечен этот короткий незаметный момент, когда мы даже не можем догадаться, каков будет наш ответ, малюсенькое хрупкое мгновение, которое нам отведено, чтобы на самом деле подумать — как в вопросах выбора, так и в вопросах установления фактов.
Шенкель (Shenkel) говорил: «Нет необходимости в вере, пока ситуация может быть легко рассмотрена тем или другим образом».
Норман Майер (Norman R. F. Maier): «Не предлагайте решения до тех пор, пока проблема не будет исследована так тщательно, как это только возможно».
Робин Доуз (Robyn Dawes), комментируя Майера, писал: «Я часто предлагал это правило группам, которые я вел, в частности, когда они сталкивались с особенно трудной проблемой. Это – типичная ситуация, когда члены группы особенно склонны предлагать мгновенные решения».
В компьютерной безопасности «система, которой доверяют» (trusted system) — это та, которой вы на самом деле доверяете, а не та, которая достойна доверия. «Система, которой доверяют» — это система, которая, будучи скомпрометированной, способна вызвать ошибку. Когда вы читаете статью, утверждающую, что глобальная катастрофа невозможна, или имеет определенную годовую вероятность, или может быть преодолена с использованием определенной стратегии — вы доверяете рациональности авторов. Вы доверяете способности авторов переходить от удобных выводов к неудобным, даже в случае отсутствия сногсшибательных экспериментальных свидетельств, опровергающих любимую гипотезу. Вы доверяете авторам в том, что они не искали немного более интенсивно ошибки в тех уравнениях, которые указывали на неверный, с их точки зрения, путь, до того, как к вам попал окончательный вариант статьи.
И если власти вводят закон, по которому даже мельчайший риск существованию человечества достаточен для того, чтобы закрыть проект; или если становится нормой политики де-факто, что ни одно возможное вычисление не может перевесить груз однажды высказанного предположения, то тогда ни один ученый не рискнет больше высказывать предположения. Я не знаю, как решить эту проблему. Но я думаю, что тем, кто оценивает глобальные риски, следует иметь общие представления о человеческих моделях рассуждений и когнитивных искажениях, и об ошибке неподтверждения в частности.
Экспериментатор крутит у вас на глазах рулетку, и она указывает на некое число, в первом случае, на 65, а во втором — на 15. Экспериментатор затем спрашивает вас, больше или меньше процент африканских стран в ООН этого числа. Затем экспериментатор спрашивает вас о вашей оценке процента африканских стран в ООН. Тверский и Канеман [Tversky и Kahneman, 1974] продемонстрировали, что испытуемые, которых вначале попросили оценить, находится ли искомое число выше или ниже 15, затем давали значительно более низкие оценки процента африканских стран в ООН, чем те испытуемые, которых в начале просили оценить, выше или ниже этот процент 65. Средняя оценка по группе была в первом случае 25, во втором — 45 процентов. Это происходило, несмотря на то, что испытуемые видели, что номера генерируются очевидно случайным образом, рулеткой, и потому могли быть уверены, что эти номера не имеют никакого отношения к реальному проценту африканских стран в ООН. Денежные выплаты за точность не изменили интенсивность этого эффекта. Тверский и Канеман предположили, что этот эффект вызван якорением и настройкой; испытуемые принимали изначальное неинформативное число за точку отсчета, или якорь, и затем увеличивали или уменьшали это число, до тех пор, пока не достигали результата, который выглядел убедительно для них; тогда они прекращали подстройку. Этот результат был недооценкой, связанной с данным якорем.
В примере в начале статьи мы сперва попросили эксперта по веществу P предположить точное значение силы радиосигнала, который приведет к взрыву P, и только затем попросили оценить верхние и нижние границы для этого параметра. Этот метод опроса заставляет людей подстраивать свой ответ о верхней и нижней границе к изначальной оценке, до тех пор, пока они не достигают значений, которые звучат невероятно и прекращают подстройку. Это приводит к недооценке и слишком узким границам интервала уверенности.
После статьи Тверского и Канемана 1974 года стало накапливаться все больше свидетельств широкого круга эффектов якорения и псевдо-якорения. Якорение происходило, даже когда якорь давал абсолютно невероятный ответ на вопрос, например, при опросе студентов относительно года первого визита Эйнштейна в США, после рассмотрения якорей 1215 или 1992. Эти недостоверные якоря создавали эффект якорения такой же силы, как и более достоверные якоря, такие как 1905 и 1939 [Strack and Mussweiler, 1997].
Допустим, вы идете по супермаркету и видите стойку с банками консервированной томатной пасты с надписью: «Только 12 штук в руки». Заставляет ли это людей на самом деле покупать больше томатной пасты? Согласно экспериментальным данным, заставляет [Wansink et. al., 1998].
Более общая форма этого феномена стала известна как эффект загрязнения, поскольку оказалось, что почти любая информация может повлиять на интеллектуальное суждение [Chapman and Johnson, 2002]. Предпринимались попытки ослабить эффект загрязнения путем выплаты испытуемым вознаграждения за правильные ответы. Тверский и Канеман [Tversky и Kahneman, 1974] инструктировали испытуемых о необходимости избежать якорения начальным показателем [Quattrone et. al., 1981] или о необходимости уделять внимание проблемам реального мира [Wansink et. al., 1998]. Эти действия не уменьшили или уменьшили только в незначительной степени интенсивность эффектов якорения и наложения. Более того, испытуемые, спрошенные о том, были ли они подвергнуты действию эффекта загрязнения, обычно не верили, что он на них повлиял, хотя эксперименты показывали обратное. [Wilson et. al., 1996].
Действия, существенно увеличивающие эффект загрязнения – это действия, помещающие испытуемых в интеллектуально трудные условия, такие, как непрерывное прослушивание последовательности слов в процессе работы [Gilbert et. al., 1988] или требование от испытуемых быстрых ответов [Gilbert and Osborne, 1989]. Гилберт [Gilbert et. al., 1988] связывает это с тем, что дополнительная задача влияет на способность отстроиться от якоря; иначе говоря, в интеллектуально загруженных условиях происходит меньшая корректировка. Этот эффект уменьшения корректировки, а значит, увеличения недокорректировки, известен как якорение.
Суммируем: явно нерелевантная информация по-прежнему якорит суждения и искажает догадки. Когда люди начинают с информации, про которую заранее известно, что она нерелевантная, и затем производят подстройку, пока не достигают убедительно звучащего ответа, они обычно недооценивают величину некого параметра. Люди недооценивают величину параметра в гораздо большей степени в ситуациях интеллектуальной нагрузки и других воздействий, что делает проблему более серьезной. Люди отрицают, что были заякорены и недооценивали, даже когда эксперименты показывают противоположное. Эти эффекты не ослабляются или ослабляются незначительно при финансовом вознаграждении, явных инструкциях избежать наложения и в ситуациях из реальной жизни. А теперь вспомните, сколько историй из лент новостей об искусственном интеллекте ссылаются на фильмы о Терминаторе, как если бы они были документальными, и как много медийных историй о взаимодействии мозга и компьютера упоминают боргов из фильма «Звездный путь».
Если даже короткая демонстрация якоря оказывает существенное воздействие на испытуемых, насколько больший эффект мы можем ожидать от чтения целой книги или просмотра остросюжетного телевизионного шоу? В прошлом не было фильмов — все, что вы видели своими глазами, было правдой. Людям следует осознавать, в той мере, в какой осознанные мысли принимаются в расчет, что фантастика есть фантастика. Журналистские упоминания о «Терминаторе» обычно не рассматривают сценарий Камерона в качестве пророчества или установленной правды. Вместо этого репортер как бы считает видения Камерона чем-то, что уже однажды имело место в прошлом и вполне может случиться вновь — фильм вспоминается как если бы он был иллюстрирующим случаем из истории человечества. Я называю эту смесь якорения и доступности для восприятия логической ошибкой генерализации на основании художественного вымысла.
Похожей концепцией является ошибка «хорошей истории», предложенная Бостромом [Bostrom, 2001]. Художественные свидетельства часто состоят из «хороших историй» в бостромском смысле. Отметьте, что не все возможные «хорошие истории» уже представлены в литературе.
Рассказчики историй соблюдают строгие правила повествовательности, не имеющие отношения к реальности. Драматическая логика — это не логика. Вдохновленные писатели знают, что одной правды мало: нельзя заставить поверить в невероятное событие из вашего произведения путем цитирования примеров из реальной жизни. Хорошая история раскрашена яркими деталями, расцвечена цветущими метафорами; рассказчик историй должен быть конкретным, твердым и точным, как камень. Но в предвидении будущего каждая добавленная деталь является дополнительной нагрузкой! Правда — это тяжелая работа, и — не для рассказчиков историй. Мы должны избегать не только одурачивания фантастикой в виде нашей неспособности совершить ментальное усилие, чтобы разувериться в ней, но также того, чтобы фантастика наложилась на наше мышление и стала точкой отсчета для наших суждений. И мы должны осознавать, что мы не всегда осознаем это наложение. В дискуссиях о глобальных рисках отнюдь не необыкновенны категории, выборы, последствия и стратегии, пришедшие из фильмов, книг и телевизионных шоу. Бывают красивые неудачи, но это — откровенная капитуляция.
Рассуждения, обусловленные аффектом, возникают, когда субъективные представления о хорошем и плохом выступают в качестве эвристики и способны порождать быстрые, основанные на непосредственном восприятии, суждения, а также систематические ошибки.
В исследовании Словича [Slovic, 2002] две группы испытуемых рассматривали такой сценарий: аэропорт должен решить, следует ли ему потратить деньги на новое оборудование, или на другие аспекты системы безопасности. Шкала ответов ранжирована от 0 (никакой поддержки этому решению) до 20 (очень сильная поддержка). Оказалось, что мероприятие, описанное как «Спасти 150 жизней» получило среднюю поддержку 10,4, в то время как мероприятие, описанное как «Спасти 98 % от 150 жизней» имело среднюю поддержку в 13,6. Даже предложение «спасти 85 % от 150 жизней» имело большую поддержку, чем «спасение 150 жизней». Гипотеза, лежащая в основе этого эксперимента, состояла в том, что «спасение 150 жизней» звучит довольно расплывчато и потому имеет небольшую ценность, в то время как спасение 98 % чего-нибудь это очень хорошо, потому что это очень близко к верхней границе процентной шкалы.
Файнакэйн [Finucane, 2000] исследовал, объединяют ли люди свои оценки возможных преимуществ от некой технологии, такой как, например, ядерная энергетика, со своими оценками возможных рисков, в едином хорошем или плохом ощущении по поводу этой технологии. Он тестировал эту гипотезу, предлагая испытуемым четыре разных сообщения, которые должны были увеличить или ослабить воспринимаемые риски и воспринимаемые преимущества. Не было никакой логической связи между предоставленной информацией о рисках и о преимуществах. В каждом случае новая информация оказывала противоположный эффект на эмоционально противоположную характеристику. Информация, которая увеличивала восприятие риска, ослабляла восприятие преимуществ. Информация, которая ослабляла восприятие преимуществ, увеличивала восприятие рисков. Файнакэйн обнаружил, что нехватка времени обычно усиливает отрицательную взаимосвязь между воспринимаемыми рисками и воспринимаемыми преимуществами — предположительно потому, что эта нехватка усиливает преобладание эмоциональных моделей рассуждений над аналитическим анализом.
Ганзах [Ganzach, 2001] обнаружил тот же эффект в царстве финансов: аналитики делают прогнозы рисков и доходов незнакомых активов на основании эмоционального отношения. Акции, воспринимавшиеся как «хорошие», были определены как имеющие низкий риск и высокий доход; акции, воспринимавшиеся как «плохие», определялись как имеющие низкий доход и высокий риск. Таким образом, для незнакомых акций, воспринимаемый риск и воспринимаемый доход имели отрицательную корреляцию, в соответствии с эмоциональной логикой. (Отметьте, что в этом эксперименте нехватка информации играет ту же роль, что занятость ума или нехватка времени в усилении эффекта эмоциональной логики.) Для знакомых акций воспринимаемый риск и воспринимаемый доход имели позитивную корреляцию, как это и предсказывается в норме экономической теорией. (Если акции безопасны, покупатель платит премию за их безопасность, и они являются более дорогими, что уменьшает ожидаемый доход.)
Люди обычно имеют недостаточную информацию о будущих технологиях. Поэтому неудивительно, что их отношение эмоционально поляризовано. Когда я только начал думать об этих материях, я считал, что биотехнология имеет относительно меньше достоинств сравнительно с нанотехнологией, и я больше боялся сконструированных супервирусов, чем вредоносного применения нанотехнологий. Искусственный интеллект, от которого я ожидал наибольших выгод, нисколько не беспокоил меня. Позже, когда я исследовал проблему гораздо более детально, моя оценка относительных преимуществ осталась относительно такой же, но мои тревоги стали противоположными: более мощные технологии, с большими ожидаемыми выгодами, теперь выглядят имеющими соответственно большие риски. С ретроспективной точки зрения это вполне предсказуемо. Но анализ, основанный на недостаточной информации, склонен оценивать технологии эмоционально, в результате чего информация о преимуществах имеет тенденцию смягчать воспринимаемый риск.
(2000 / 20000 / 200000) перелетных птиц тонут каждый год в незакрытых нефтехранилищах, которые птицы по ошибке принимают за пруды с водой. Эти смерти могут быть предотвращены путем накрывания хранилищ сетями. Сколько денег вы были бы готовы заплатить за установку таких сетей?
Три группы испытуемых, рассматривавших этот вопрос, были опрошены о том, какое увеличение налога они были бы готовы принять, чтобы спасти 2000, 20000 или 200000 птиц. Ответ, названный Установленная Готовность Платить (УГП), был в среднем 80 $ за 2000 птиц, 78 $ за 20000 и 88 $ за 200000 птиц. [Desvousges, 1993]. Этот феномен известен как нечувствительность к масштабу или пренебрежение масштабом.
Подобные исследовании показали, что жители Торонто готовы заплатить только немногим больше, чтобы очистить все озера Онтарио, чем чтобы очистить загрязенные озера только части штата [Kahneman, 1986], и что жители четырех западных штатов в США готовы заплатить только на 28 % больше, чтобы защитить все 57 уголков дикой природы в этих штатах, чем чтобы защитить только один такой уголок. [McFadden и Leonard, 1995]. Наиболее широко распространенное объяснение эффекта пренебрежения масштабом апеллирует к эмоциональной логике. Канеман [Kahneman, 1999] пишет:
«История о птицах из опытов Девужа (Desvousges), вероятно, вызывает у многих читателей ментальное представление о неком событии, возможно — образ истощенной птицы с намоченными черной нефтью крыльями, неспособной спастись. Гипотеза об оценке по первоначальному образу утверждает, что эмоциональное влияние этого образа будет доминировать над отношением к проблеме, включая готовность платить за решение. Оценка по первоначальному образу автоматически означает пренебрежение к остальным деталям ситуации»
Две другие гипотезы о пренебрежении масштабом включают в себя покупку морального удовлетворения [Kahneman и Knetsch, 1992] и пожертвование монетки ради доброго дела [Harrison, 1992]. Гипотеза о моральном удовлетворении предполагает, что люди тратят достаточно денег, чтобы создать ощущение «внутренней теплоты» в себе, и требующийся на это объем денег зависит от человеческой психологии и не имеет ничего общего с птицами. Гипотеза о «монетке на благотворительность» предполагает, что люди готовы выделить определенную сумму «на экологию», и любой вопрос о проблемах окружающей среды просто проявляет это количество.
Пренебрежение масштабом было продемонстрировано и по отношению к человеческим жизням. Карсон и Митчелл [Carson and Mitchell„ 1995] сообщают, что информации об увеличении риска, связанного с питьем хлорированной воды с 0,004 до 2,43 на 1000 смертей в год (то есть в 600 раз) увеличивает установленную готовность платить (УГП) платить с 3,78 до 15,23 долларов (то есть 4 раза). Бэйрон и Грин [Baron and Greene, 1996] обнаружили, что изменение числа спасенных жизней в 10 раз не оказывает никакого эффекта на этот индекс.
Фезерстонхоу [Fetherstonhaugh, 1997], в статье, озаглавленной «Нечувствительность к ценности человеческой жизни: исследование психологического восприятия чисел», обнаружил свидетельства того, что наше восприятие человеческих смертей и ощущение ценности человеческих жизней следует закону Вебера, это значит, что мы используем логарифмическую шкалу. И действительно, исследования эффекта пренебрежения масштабом, в которых количественные изменения были достаточно велики, чтобы вызвать хотя бы какую-то чувствительность, показали небольшие линейные изменения готовности платить, соответствующие экспоненциальным изменениям масштаба. Канеман [Kahneman, 1999] интерпретирует это как дополнительный эффект эмоциональной реакции на масштаб к реакции на первоначальный образ: первоначальный образ вызывает большую часть эмоции, а масштаб вызывает меньшую часть эмоции, которая добавляется (но не умножается) к первоначальному количеству.
Альберт Сент-Дьёрди (Albert Szent-Györgyi) говорит: «На меня производят сильное впечатление страдания одного человека, и я готов рисковать своей жизнью ради него. Но я могу говорить совершенно отстранённо о заражении наших больших городов с сотнями миллионов погибших. Я не способен умножить страдания одного на сто миллионов». Человеческие эмоции возникают внутри аналогового ума. Человеческий мозг не способен выработать достаточно нейротрансмиттеров, чтобы почувствовать эмоцию в тысячу раз более сильную, чем горе на похоронах. Увеличение возможного риска с десяти миллионов смертей до ста миллионов не увеличивает в десять раз нашу решимость не допустить этого. Это просто добавление еще одного нолика на бумаге у нас перед глазами, что имеет столь небольшой эффект, что обычно необходимо изменить количество жертв на несколько порядков, чтобы заметить разницу экспериментально.
Насколько люди уверены в своих ошибочных оценках? В первом разделе этой статьи, посвященном эффекту доступности информации, мы обсудили эксперимент по восприятию риска, в котором испытуемые переоценивали типичные для сообщений средств массовой информации причины смерти в пропорции, коррелирующей с избирательными сообщениями в газетах. Словик [Slovic, 1982] также отмечает:
«Одним из пагубных аспектов моделей рассуждений (эвристик) является то, что люди обычно имеют очень большую уверенность в суждениях, основанных на них. В другом исследовании по поводу причин смерти, людей просили сделать ставки на то, что они правы в своем выборе более частой среди двух причин смерти. [Fischoff, Slovic, и Lichtenstein, 1977]. В эксперименте №1 испытуемые были довольно точны, когда делали ставки 1:1, 1.5:1, 2:1, и 3:1. То есть, процент правильных ответов был близок к значению, которое следовало из этих ставок. Однако, по мере увеличения ставок от 3:1 к 100:1 почти никакого прироста точности не происходило. Только 73 % ответов, на которые сделали ставки 100:1, были верны (вместо 99.1 %). Точность возросла до 81 % при ставках 1000:1 и до 87 % при 10000:1. Для ответов, на которые ставили 1000000:1, точность составляла 90 %, то есть, соответствующий уровень доверия должен был бы порождать ставки 9:1. В итоге, испытуемые часто ошибались даже при высочайших уровнях ставок. Более того, они были склонны делать очень высокие ставки. Более половины ставок была выше, чем 50:1. Почти четверть — выше, чем 100:1. 30% респондентов в эксперименте № 1 сделали ставку 50:1 на неверное утверждение, что убийства более часты, чем самоубийства».
Этот кажущийся удивительным результат вполне обычен в литературе, посвященной моделям рассуждений и систематическим ошибкам в мышлении, где он известен как сверхуверенность. Допустим, я попрошу вас сделать наилучшее возможное предположение насчет неизвестного числа, такого, как количество «Врачей и хирургов» в желтых страницах бостонской телефонной книге, или о суммарной продукции яиц в США в миллионах штук. Вы дадите в ответ некую величину, которая наверняка не будет совершенно точной; подлинная величина будет больше или меньше, чем вы предположили. Затем я попрошу вас назвать нижнюю границу этого показателя, такую, насчет которой вы уверены на 99 %, что подлинная величина лежит выше этой границы, и верхнюю границу, по отношению к которой вы на 99 % уверены, что искомая величина лежит ниже нее. Эти две границы образуют ваш интервал 98 % уверенности. Если вы хорошо откалиброваны, то на 100 подобных вопросов у вас будет только примерно 2 выпадения за границы интервала.
Альперт и Раиффа [Alpert и Raiffa, 1982] задали испытуемым 1000 вопросов по общеизвестным темам, подобных приведенным выше. Оказалось, что для 426 из них подлинные значения лежали за пределами 98 % интервалов уверенности, данных испытуемыми. Если бы испытуемые были правильно откалиброваны, было бы только 20 сюрпризов. Иными словами, события, которым испытуемые приписывали вероятность 2%, случались в 42,6%. Другую группу из тридцати пяти испытуемых попросили оценить 99,9% верхние и нижние границы уверенности. Они оказались неправы в 40 % случаев. Другие 35 испытуемых были опрошены о максимальных и минимальных значениях некого параметра и ошиблись в 47% случаев. Наконец, четвертая группа из 35 испытуемых должна была указать «невероятно малое» и «невероятно большое» значение параметра; они ошиблись в 38% случаев.
В следующем эксперименте новой группе испытуемых был предоставлен первый набор вопросов вместе с ответами, рейтингом оценок, с рассказом о результатах экспериментов и разъяснением концепции калибровки, и затем их попросили дать 98% интервалы уверенности для новой группы вопросов. Прошедшие подготовку испытуемые ошиблись в 19% случаях, что являет собой значительное улучшение их результата в 34% до подготовки, но все еще весьма далеко от хорошо откалиброванного результата в 2%.
Подобные уровни ошибок были обнаружены и у экспертов. Хинс и Вэнмарк [Hynes и Vanmarke, 1976] опросили семь всемирно известных геотехников на предмет высоты дамбы, которая вызовет разрушение фундамента из глинистых пород, и попросили оценить интервал 50 % уверенности вокруг этой оценки. Оказалось, что ни один из предложенных интервалов не включал в себя правильную высоту. Кристенсен-Залански и Бушихед [Christensen-Szalanski и Bushyhead, 1981] опросили группу врачей на предмет вероятности пневмонии у 1531 пациента с кашлем. В наиболее точно указанном интервале уверенности с заявленной достоверностью в 88 %, доля пациентов, действительно имевших пневмонию, была менее 20 %.
Говоря словами Алперта и Раиффы [Alpert и Raiffa, 1982]: «Ради Бога, расширяйте свои крайние оценки! Будьте честны с собой! Допустите, что вы не знаете!»
Лихтенштейн [Lichtenstein, 1982] произвел обзор четырнадцати исследований на основании тридцати четырех экспериментов, выполненных двадцатью тремя исследователями, изучавшими особенности оценки достоверности собственных выводов людьми. Из исследований следовал мощнейший вывод о том, что люди всегда сверхуверены. В современных исследованиях на сверхуверенность уже не обращают внимания; но она продолжает попутно проявляться почти в каждом эксперименте, где испытуемым позволяется давать оценки максимальных вероятностей.
Сверхуверенность в большой мере проявляется в сфере планирования, где она известна как ошибочность планирования. Булер [Buehler, 1994] попросил студентов-психологов предсказать важный параметр: время сдачи их дипломных работ. Исследователи подождали, когда студенты приблизились к концу своих годичных проектов и затем попросили их реалистично оценить, когда они сдадут свои работы, а также, когда они сдадут свои работы, если все пойдет «так плохо, как только может». В среднем, студентам потребовалось 55 дней, чтобы завершить свои дипломы, на 22 дня больше, чем они ожидали, и на 7 дней больше, чем они ожидали в худшем случае.
Бюхлер [Buehler, 1994] опросил студентов о времени, к которому студенты на 50% уверены, на 75 % уверены и на 99 % уверены, что они закончат свои академические проекты. Только 13 % участников закончили свои дипломы к моменту, которому приписывали 50 % вероятность, только 19 % закончили к моменту 75 % оценки и 45 % закончили ко времени, оценивавшемуся в 99 % уверенности. Булер [Buehler et. al., 2002] пишет «результаты выхода на уровень 99 % достоверности особенно впечатляющи. Даже когда их попросили сделать наиболее консервативное предсказание, в отношении которого они чувствовали абсолютную уверенность, что его достигнут, все равно уверенность студентов в их временных оценках намного превосходила их реальные результаты».
Ньюби-Кларк [Newby-Clark et. al., 2000] обнаружили, что опросы испытуемых об их предсказаниях, основанных на наиболее реалистичном предположении, и опросы испытуемых об их надеждах в самом лучшем случае давали неразличимые результаты. Будучи спрошены о наиболее вероятном стечении обстоятельств, люди имели тенденцию предполагать, что все пойдет так, как планировалось, без неожиданных задержек и непредвиденных катастроф, то есть так же, как в наилучшем случае. Реальность, как оказалось, зачастую преподносит результаты, худшие, чем самый наихудший случай. В этой статье мы обсуждаем сверхуверенность после обсуждения систематической ошибки подтверждения и частного случая — систематической ошибки неподтверждения. Знание об эффекте калибровки — это опасное знание, поскольку очень соблазнительно применять его избирательно. «Насколько глуп мой оппонент, чтобы быть уверенным в своих аргументах. Знает ли он, как часто люди ошибаются в том, в чем они уверены?» Если вы обнаруживаете, что мнения эксперта имеют гораздо меньше значения, чем вы раньше думали, вам стоит также понять, что ваши собственные мысли тоже гораздо слабее, чем вы думали раньше: и тогда потребуется меньше усилий, чтобы увлечь вас в сторону от ваших любимых убеждений. В противном случае вы станете медленнее реагировать на новые свидетельства. Вы оказываетесь в гораздо более худшем положении, чем, если бы вы никогда не слышали о калибровке. По этой причине — часто, несмотря на значительное искушение — я избегаю обсуждения исследований по калибровке, до того как я обсужу систематическую ошибку подтверждения, для того, чтобы я мог сделать такое же предупреждение.
Отметьте так же, что оценка эксперта, сильно уверенного в своем мнении, принципиально отличается от вычислений, сделанных исключительно на основе статистических данных, или исключительно на основе адекватной, точно подтвержденной модели. Во всех случаях, когда эксперт утверждает, даже на основании точных вычислений, что событие имеет вероятность 10−6, он наверняка ошибается чаще, чем один раз на миллион. Но если бы комбинаторика не могла точно предсказать, что лотерейный билет имеет 10−8 шанс выиграть, то продавцы билетов бы разорились.
Последняя рассматриваемая мной систематическая ошибка относится не к области моделей рассуждений, но к области социальной психологии. В ныне знаменитой серии экспериментов Лэйтен и Дэрли [Latane и Darley, 1969] открыли эффект прохожего, известный также как апатия прохожего, который состоит в том, что в больших группах люди менее склонны реагировать на чрезвычайные ситуации — не только индивидуально, но и коллективно. 75 % испытуемых, будучи одни в комнате и заметив дым из-под двери, выходят, чтобы сообщить об этом. Когда в комнате находятся трое испытуемых, не знающих об условиях опыта, о дыме сообщают только в 38 % случаев. Испытуемый, находясь в компании двух подсадных уток, нарочно не реагирующих на дым, выходит, чтобы сообщить о дыме только в 10 % случаев. Студент колледжа, изображавший эпилептический припадок, получил помощь от единственного свидетеля в 85 % случаев и только в 31 % случаев в присутствии пятерых свидетелей.
Эффект прохожего обычно объясняется как происходящий из рассеяния ответственности и игнорирования из-за неопределенности ситуации. Нахождение в группе уменьшает индивидуальную ответственность. Каждый надеется, что кто-то другой разберется с проблемой вместо них, и это ослабляет личную напряженность каждого по поводу того, что никто ничего не делает. Подтверждением этой гипотезы являются опыты, в которых испытуемые верили, что жертва особенно зависит от них: это ослабляло или полностью устраняло эффект равнодушия прохожего. Чалдини [Cialdini, 2001] рекомендует человеку, оказавшемуся в чрезвычайной ситуации, выделить одного одинокого прохожего и попросить его о помощи — таким образом преодолевая рассеяние ответственности.
Игнорирование из-за неопределенности ситуации является более тонким эффектом. Чалдини [Cialdini, 2001] пишет: «Часто чрезвычайная ситуация далеко не очевидна. Является ли человек, лежащий в парке, жертвой сердечного приступа или спящим пьяным? В случае такой неопределенности естественным поведением является посмотреть вокруг на действия других людей для подсказки. Мы можем понять из поведения других свидетелей, является ли событие чрезвычайной ситуацией или нет. Однако легко забыть при этом, что все остальные свидетели события тоже ищут социального подтверждения. Поскольку все мы предпочитаем выглядеть уравновешенными и сохраняющими самообладание, мы будем искать это подтверждение скрытно, бросая короткие взгляды на людей вокруг нас. Поэтому каждый увидит другого, скорее всего, спокойным и ничего не делающим».
Эффект прохожего не связан с индивидуальным эгоизмом или нечувствительностью к страданиям других. По одиночке испытуемые обычно действуют. Игнорирование из-за неопределенности ситуации может объяснить, в отличие от индивидуального эгоизма, почему испытуемые не реагируют на наполнение комнаты дымом. В экспериментах, где была явная опасность, как для других, так и для себя, испытуемые часто бросали взгляды на нереагировавших подсадных уток.
Я время от времени спрашиваю: «если «глобальный риск Х» реален, почему не много людей делают что-нибудь в связи с этим?» Есть много возможных ответов, части которых я коснулся здесь. Люди могут быть сверхуверены и сверхоптимистичны. Они могут быть сосредоточены на каких-то одних сценариях будущего, исключая при этом все остальные. Они могут не помнить ни одного случая всеобщего истребления. Они могут переоценивать предсказуемость прошлого, и за счет этого недооценивать сюрпризы будущего. Они могут не осознавать трудности подготовки к чрезвычайным ситуациям без преимуществ знания задним числом. Они могут предпочитать филантропические игры с высокой вероятностью выигрыша, пренебрегая величиной ставки. Они могут уравнивать позитивную информацию о преимуществах некой технологии с негативной информацией о ее риске. Они могут быть отравлены кинофильмами, в которых мир, в конце концов, бывает спасен. Они могут получить моральное удовлетворение гораздо проще, давая деньги на другие виды благотворительности. Или же чрезвычайно неприятная перспектива человеческого вымирания может побудить их искать доводы в пользу того, что человечество не вымрет, без столь же интенсивного поиска причин, по которым это может произойти.
Но если вопрос таков: «Почему не так много людей делают что-нибудь в связи с этим?», один возможный момент может быть в том, что люди, задающие этот самый вопрос, рыщут глазами вокруг, чтобы посмотреть, есть ли еще кто-нибудь, реагирующий на опасность, и одновременно стараются выглядеть уравновешенными и сохраняющими самообладание. Если вы хотите узнать, почему другие не реагируют на опасность, перед тем, как среагировать самому, вы уже возможно ответили на свой вопрос.
Любая достоверная идея, которая вас раздражает, по-видимому, задевает в вас модель хотя бы одной психологической ошибки.
Роберт Пирсиг (Robert Pirsig) сказал: «Самый глупый человек в мире может сказать, что солнце светит, и это не заставит его погаснуть». Если вы подозреваете кого-то в психологической ошибке, продемонстрируйте свою компетентность вначале, вскрыв его фактические ошибки. И если фактических ошибок нет, какое значение имеет психология? Соблазн психологии в том, что, немного зная ее, мы можем вмешиваться в споры, в которых мы не являемся техническими экспертами, мудро анализируя психологию дискутирующих.
Если кто-то написал роман об астероиде, уничтожающем современную цивилизацию, то можно критиковать этот роман как экстремистский, антиутопичный, апокалиптический; симптоматичный для наивной неспособности автора взаимодействовать со сложным технологическим обществом. Мы должны распознать здесь литературную критику, а не научную; это о хороших или плохих романах, а не о хороших или плохих гипотезах. Для того, чтобы вычислить годовую вероятность астероидного удара в реальности, нужно изучать астрономию и поднять исторические записи: никакая литературная критика никак не влияет на это число. Гэрроу [Garreau 2005], по-видимому, утверждает, что сценарий постепенного усиления искусственного интеллекта является более зрелым и обдуманным, чем сценарий очень быстрого развития искусственного интеллекта. Но это вопрос техники, а не предпочтений; никакой объем психологического анализа не даст точное значение наклона кривой.
Обвиняя кого-нибудь в ошибке загрязнения, необходимо привести список специфических деталей, которые, с вашей точки зрения, являются лишней нагрузкой и уменьшают суммарную достоверность. Даже в этом случае, не теряйте связь с фактами первостепенной важности, не позволяйте спору стать спором о психологии.
Несмотря на все опасности и соблазны, лучше знать о когнитивных искажениях, чем не знать их. В противном случае мы попадем прямо во вращающиеся вертолетные лопасти жизни. Но будьте очень осторожны, не проявляйте слишком много рвения в обвинении других в когнитивных искажениях. Таким путем вы только станете профессиональным спорщиком — тем, кто, встретив любой не нравящийся ему аргумент, находит в нем систематическую ошибку. Тот, за кем вы должны следить в наибольшей мере — это вы сами.
Джерри Кливер сказал о спортивных матчах: «Губят не ошибки в выполнении замысловатых техник. Губит элементарное: потеря мяча из виду». Анализ должен быть сконцентрирован на проверяемых утверждениях о реальном мире. Не отрывайте своих глаз от мяча.
Почему должен быть единый подход в мышлении о глобальных рисках? Падающие астероиды не похожи на сконструированные супервирусы; катастрофы на ускорителе — на нанотехнологические войны. Почему бы не рассмотреть каждую из этих проблем по отдельности?
Если кто-то предполагает катастрофу на ускорителе, тогда комитет, собранный для анализа этой проблемы, должен, очевидно, включать в себя физиков. Но кто-то в этом комитете должен знать, как ужасающе опасно иметь в своей голове ответ до того, как ты закончил задавать вопрос. Кто-то в этом комитете должен помнить ответ Энрико Ферми на предположение Лео Сциларда о том, что цепная реакция деления может быть использована для производства ядерного оружия. (Ответ был: «Бред!» — Ферми считал эту перспективу столь отдаленной, что она не стоила исследований.) Необходимо помнить историю ошибок в физических расчетах: ядерное испытание «Кастл Браво» вызвало взрыв в 15 мегатонн, вместо 4-8 мегатонн, по причине не учтенной термоядерной реакции на литии-7. Они правильно решили неверное уравнение, забыв подумать обо всех условиях, которые должны быть включены, и в результате, по крайней мере, один человек погиб в расширившемся радиусе выпадения радиоактивных осадков. Также следует помнить аккуратное доказательство Лорда Кельвина с использованием множества независимых вычислений на основании хорошо установленных теорий, о том, что Земля существует не более сорока миллионов лет. Следует знать, что когда эксперт заявляет, что вероятность составляет «один к миллиону» без использования статистических данных и точных расчетов на основании совершенной модели, реальное соотношение, скорее всего, около двадцати к одному (хотя это и не точное соответствие).
Любой глобальный риск порождает проблемы, общие со всеми остальными глобальными рисками, дополнительно к специальным знаниям, связанным с этим конкретным риском. Кто-то в комитете по проблемам физических катастроф должен знать, что означает термин «глобальный риск»; он должен обладать всеми навыками, которые область знания, связанная с глобальными рисками, располагает. Для максимальной безопасности этот ученый должен быть также психологом. Высокий уровень знаний в конкретной области и относительно области глобальных рисков должен быть объединен в одном человеке. Я не верю, что специалист по моделям мышления и заблуждениям, неспособный прочесть физическое уравнение, способен проверить работу физика, который ничего не знает о психологии заблуждений.
Когда-то, давным-давно, я написал несколько сверхдетальных сценариев, не осознавая, что каждая добавленная деталь является дополнительной нагрузкой. Когда-то, давным-давно, я действительно думал, что я могу сказать, что имеется 90-процентная вероятность появления искусственного интеллекта между 2005 и 2025, с пиком в 2018 году. Это заявление кажется мне теперь полностью абсурдным. С какой стати я мог думать, что я могу определить точное вероятностное распределение для проблемы вроде этой?
Профессиональные исследователи, скажем, молекулярной нанотехнологии или искусственного интеллекта, не обладают автоматически дополнительными навыками, необходимыми для анализа глобальных рисков, связанных с их профессией. Никто не сказал мне, когда я начал исследовать вызовы, связанные с искусственным интеллектом, что для такого человека, как я, необходимо заниматься изучением систематических ошибок мышления. Я не помню, как я впервые заинтересовался проблематикой систематических ошибок мышления, но я помню, что это было описание ситуации сверхуверенности — обычное описание, в Интернете, без ссылок. Меня это настолько удивило, что я списался с автором, чтобы узнать, был ли это действительно реальный экспериментальный результат. (Он направил меня к книге «Суждение в условиях неопределенности».)
Я не должен был наткнуться на эту ссылку случайно. Кто-то должен был предупредить меня, как я предупреждаю вас, что это знание необходимо для изучающего глобальные риски. Должен быть круг людей, как мы, а также список навыков, необходимых нам дополнительно к узкопрофессиональным. Я не физик, но я знаю немного — возможно, недостаточно — об истории ошибок в физике, и биолог, думающий о супервирусе, тоже должен это знать. Однажды я встретил адвоката, который вывел свою собственную физику. Я сказал ему: «Вы не можете изобрести свою собственную физику без знания математики и многих лет обучения; физика трудна». Он ответил: «Но если вы действительно понимаете физику, вы можете объяснить ее своей бабушке, как сказал Ричард Фейнман». И я спросил его: «Вы бы посоветовали своему другу защищать самого себя в суде?» И тут он замолчал. Он знал теоретически, что физика сложна, но он никогда не отдавал отчета себе, что физика так же сложна, как юриспруденция. Одна из ошибок мышления, которую мы не обсудили, состоит в незнании того, чего именно мы не знаем. Когда наниматель в отделе кадров некой компании оттачивает свое мастерство, он вспоминает качества кандидатов, которых он нанял, многие их которых оказались в последствие превосходными. Таким образом, рекрутер имеет высокую оценку своих способностей. Но рекрутер никогда не видит работу тех кандидатов, которых он не нанял. Поэтому я должен предупредить, что эта статья затрагивает только малую часть моделей рассуждения и систематических ошибок. И когда вы захотите узнать, насколько много вы знаете, вы вспомните несколько когнитивных искажений, упоминаемых в этой статье, а не множество тех, которые не упомянуты. Короткий обзор не может создать ощущения целостной области знаний, объемного понимания, которое сплетает серию памятных экспериментов посредством единой интерпретации. Множество очень уместных систематических ошибок, таких как потребность в завершении, я даже не упомянул. Целью этой статьи было не обучить знанию, необходимому изучающему глобальные риски, но заинтриговать вас узнать больше.
Мышление о глобальных рисках подвержено всем тем же видам ошибочности, что и мышление вообще. Но ставки гораздо, гораздо больше. Типичный результат в исследованиях систематических ошибок состоит в том, что предложение денег или другой стимул не устраняет систематическую ошибку. (Качелмейер и Шихета [Kachelmeier and Shehata, 1992] предлагали жителям КНР эквивалент трехмесячной зарплаты.) Испытуемые в этих экспериментах не совершали ошибки нарочно — они делали ошибки потому, что не знали, как сделать лучше. Даже если вы скажете им, что выживание человечества является ставкой, они в силу этого все равно будут неспособны сделать лучше. (Это может усилить их потребность в завершенности дискуссии, заставляя их давать худшие результаты.) Это ужасающе пугающее обстоятельство, но люди не становятся умнее, только потому речь идет о выживании человечества.
В дополнение к стандартным систематическим ошибкам, я лично проанализировал то, что выглядит как вредоносные модели мышления в вопросах глобальных рисков. Грипп «испанка» в 1918 году убил 25-50 миллионов человек. Вторая мировая война убила 60 миллионов. 10**7 – таков порядок жертв крупнейших катастроф в человеческой письменной истории. Значительно большие числа, такие как 500 миллионов смертей, и особенно качественно другие сценарии, по-видимому, запускают другой режим мышления — оно переходят в другой регистр. Люди, которые и подумать не могут о том, чтобы навредить ребенку, говорят по поводу рисков глобальных катастроф: «Возможно, человеческий вид вовсе не заслуживает выживания».
В науке о заблуждениях есть поговорка, что люди обдумывают не сами события, а описания событий — то, что называется «непродолженным» мышлением. Продолжение мысли о гибели человечества включает в себя вашу смерть, ваших друзей, вашей семьи, ваших любимых, вашего города, вашей страны, ваших политических единомышленников. И даже люди, которые яростно протестовали бы против предложений вроде стереть Британию с лица земли, убить всех членов Демократической партии в США, превратить Париж в песок, которые бы очень боялись услышать, что доктор скажет им, что у их ребенка рак, эти люди будут обсуждать вымирание человечества с абсолютным спокойствием. «Вымирание человечества», как слова на бумаге, появляющиеся в фантастических романах или философских книгах, — относятся к другому контексту, чем грипп «испанка». Мы мыслим описаниями событий, а не их последствиями. Клише «конец света» вызывает в памяти пласт, связанный с мифами и снами, пророчествами и апокалипсисом, романами и кино. Вызов глобальных рисков для здравого смысла состоит в том, что это катастрофы столь большого масштаба, что люди переключаются в другой режим мышления. Человеческие смерти внезапно уже не ужасны, и детальные предсказания вдруг перестают требовать необходимой компетентности, и счастливый или грустный конец истории — это только вопрос личного вкуса по отношению к историям.
Но это только мое частное наблюдение. Я бы предпочел, чтобы эта статья фокусировалась на ошибках, подробно описанных в литературе — в общей литературе по когнитивной психологии, поскольку пока что нет экспериментальной литературы, посвященной психологии глобальных рисков. А она должна быть. В математическом представлении теории решений на основании теремы Байеса имеется концепция ценности информации — ожидаемой полезности некого знания. Ценность информации происходит из ценности того, о чем эта информация. Если вы удваиваете ставки, вы удваиваете и ценность информации об этих ставках. Ценность рационального мышления определяется подобным образом — ценность вычислений, охватывающих некие данные, определяется на основе самих данных. [Good, 1952]; [Horvitz et. al., 1989].
Я способен по-настоящему оценить ценность ясного мышления о глобальных рисках не более, чем Альберт Cент-Дёрджи (Albert Szent-Györgyi) способен умножить страдания одного человека на сто миллионов. Пренебрежение масштабом — естественная опасность для биологического человека, работающего на аналоговом уме; мозг не способен умножать на шесть миллиардов. Но ставки глобальных рисков простираются далеко за пределы жизней шести миллиардов людей, живущих сейчас — они простираются ко всем звездам и ко всем галактикам, которые люди и их потомки смогут однажды достичь. И весь этот огромный потенциал вращается вокруг нашего выживания здесь, сейчас, в те дни, когда царство человечества — это одна планета, вращающаяся вокруг одной звезды. Я не могу почувствовать наше будущее. Все, что я могу — это защищать его.
Тут ссылка на сцену из «Хоббит 2: Пустошь Смауга», которой не было в книге.
Сцена, показанная в кино, развивается следующим образом: тринадцать гномов и Бильбо Бэггинс, после полутора фильмов сражений и дороги, приходят туда, где Торин, лидер гномов, ожидает найти секретный вход в потерянное гномское королевство Эребор. Этот вход открывается только в определенный день года (день Дурина) и у них есть расшифрованная карта, говорящая «Встань у серого камня, когда стрекочет дрозд, и последний луч света осветит замочную скважину в День Дурина».
Потом солнце садится за гору, а они так и не находят замочную скважину. И тогда Торин…мне больно даже писать это…Торин с отвращением выбрасывает ключ и все гномы начинают спускаться с горы, оставляя Бильбо, наблюдающего за каменной стеной. И именно поэтому Бильбо единственный видит как свет поднимающейся Луны внезапно выявляет искомую замочную скважину.
Киношный Торин с отвращением выбрасывает ключ и уходит?
Я бы так не сделал.
Вы бы так не сделали.
Мы по крайней мере подождали хотя бы час, на случай, если еще какой-то луч солнца прорвется с той стороны горы, и даже тогда мы бы вернулись завтра, просто на всякий случай. И если бы и тогда не вышло, мы бы попытались еще через год. Мы бы не выбросили ключ. Мы бы не пошли сразу же обратно, как только что-то пошло не так.
Сценарист думал, что это будет Драматичный Момент — оставить Бильбо в одиночку смотреть на стену. Но ценой этого Драматичного Момента стал выход фильма со странными эксцентричными созданиями, которые думают не так как мы с вами; так что Драматичный Момент ощущается дурацким, по крайней мере для меня.
Мы могли бы сказать, что у этих странных существ недостает определенного типа понимания. Сценарист хочет, чтобы мы кричали на киношного Торина «Нет! Глупец! Не делай этого!», но похоже, что сценарист не понимает, что Торин тоже бы внутри кричал на себя, что Торин мог понять глупость творимого им на экране. У киношного Торина нет тихого голоса в голове, который кричал бы все это, какой есть у нас. Мы можем называть киношного Торина Голливудским Зомби, или г-зомби, если коротко.
Ладно, теперь давайте поговорим о концепции «умных персонажей».
Если вы посмотрите, то обнаружите, что в большей части художественной литературы «умный» означает персонажа, о котором сказано (но не показано), что он владеет несколькими языками, которого мы видим выигрывающим в шахматы у кого-то, кого нам представляют как гроссмейстера. Если это научно-фантастическая литература, то «гений» может изобретать различные гаджеты и говорить, используя техническую терминологию. В качестве стереотипного шаблона для «интеллекта» «гений» может быть показан как невежественный в вопросах дружбы или романтических отношений. Если это фильм или телевизионное шоу, тогда «умные» персонажи (чаще всего злодеи) говорят с британским акцентом.
Для ученого-когнитивиста, интеллект это род когнитивной работы, деятельность, проводимая мозгом — необязательно человеческим — аналогично тому, как двигатель машины создает крутящий момент и толкает машину вперед. Что это за когнитивная работа? Мы можем сказать «Моделирование, предсказание и управление реальностью.» Или мы могли бы сказать «Производство действий, которые приближают будущее к нужным исходам в порядке предпочтения.»
Голливудская концепция интеллекта не имеет ничего общего с когнитивной работой. Вместо этого она представляет собой социальный стереотип. То есть то, как «умные персонажи» одеваются, как они разговаривают и сколько их надо, чтобы поменять лампочку.
Я говорю все это чтобы как можно точнее обозначить голливудскую концепцию «интеллекта» и откинуть ее в сторону как заблуждение, когда мы зададимся вопросом, как мы могли описать более умного Торина.
Более умный Торин не изобрел бы потрясающий новый вид щитов из супердуба.
Более умный Торин не был бы очаровательно (или омерзительно) невежественен в романтике.
Более умному Торину не было бы необходимости использовать технически звучащие слова или декламировать точные числа с множеством значащих цифр.
Более умный Торин не спланировал бы втайне всю схватку, чтобы дать Смаугу ложное ощущение безопасности. Мы еще поговорим о том, как правильно создать такой вид рассудительности, который можно было бы назвать хитроумным, в главе про умных персонажей второго уровня. Но нет смысла пытаться писать про таких персонажей, если вы не овладели первым уровнем. А также интеллект первого уровня куда важнее.
Более умный Торин не нашел бы тут же замочную скважину при помощи удивительно острых способностей к восприятию. Можно сказать читателю, что у персонажа острое зрение, но это не вложит в персонажа искру внутренней жизни и оптимизации.
Более умный Торин даже не решил бы загадку, используя подсказки, явно раскиданные по предыдущим главам и которые читатель, в принципе, мог бы найти и распознать сам — хотя для персонажа этот подвиг продемонстрировал бы настоящую когнитивную работу (что тоже будет раскрыто в рассказе про второй уровень интеллекта).
Нет, шагом вперед к более умному Торину было бы просто чтобы Торин вел себя так, словно внутри него есть личность, которая знает, что лучше всего сделать, словно бы вы или я были бы на его месте, в противовес г-зомби, который выкидывает ключ, чтобы Бильбо был обеспечен Драматичным Моментом.
Шагом вперед, в простейшей и обыкновеннейшей манере, было бы иметь персонажа, который производил бы впечатление того, кто делает лучшее, что можно сделать в данной ситуации (для данного персонажа) — который оптимизирует свою собственную жизнь, а не того, кто ведет себя согласно сценарию. Нет, обязательно, супер-дупер-невероятно умный оптимизирует; великий урок Искусственного Интеллекта в том, что каждодневная рутинная оптимизация является наибольшей трудностью для интеллекта человеческого уровня. Не изобретать новый щит из супердуба и даже не решать загадку; тот тип «оптимизации», о котором мы говорим, проистекает из внутренней искры, которая пытается сделать свою жизнь лучше, а не послужить вашему сценарию. Это та искра, которой нет у киношного Торина; та искра, которая могла бы услышать внутри себя то же, что кричат со зрительских мест; та искра, что не выбросила бы ключ.
Если вы хотите, чтобы у ваших персонажей был интеллект первого уровня, вы должны использовать эмпатию (см. Гл. 27 ГПМРМ). Вы должны поддерживать работу своего мозга в режиме «песочницы», чтобы моделировать мозг персонажа, заставлять свой мозг быть похожим на его.
Другая вещь, которую вы можете, но не должны, делать — использовать распознавание шаблонов для заполнения пустот. Если вы видите изображение куста в раскраске, вам не нужно размышлять о фотонах и длинах света, чтобы понять, что куст нужно закрасить зеленым цветом, подобно другим виденным вами кустам или изображениям кустов. Вам также не нужно влезать в шкуру вампира для понимания того, что вампир должен шипеть при разговоре или иметь холодную кожу. Небо синее, кусты зеленые, вампиры шипят и пьют чью-либо кровь…
Такой вампир не будет обладать интеллектом первого уровня, и не будет особо оригинальным, если вы вводите его в действие только чтобы заполнить пустоту в сюжете. Если же вы хотите найти кажущееся наилучшим действие для поведения ваших персонажей, вам придется жить внутри их голов и давать им взаймы силу своего интеллекта, чтобы подарить им внутреннюю искру.
Я могу предложить вам две основные техники, чтобы вот так влезть персонажу в голову. Первая очевидная техника это мерить по себе: Носили бы вы старомодную одежду того времени, когда вы родились, если бы были вампиром? Остановитесь и подумайте об этом. Носили бы? Какие соображения вы бы принимали во внимание? Что бы вы сделали кажущегося наилучшим для оптимизации этих соображений и остатка вашей жизни, вместо носки старой одежды во славу сюжета, чтобы читатели легко могли распознать вас как вампира, вставленного, чтобы заполнить пустоту в сюжете?
Вторая и менее очевидная техника это метод уважения. Уважение следует за эмпатией и падает у любого персонажа, для которого у вас есть внутренняя необходимость его принизить. После одиннадцатого сентября некоторые политики заявляли, что террористы были «трусами». Какая очевидная ложь. Если вы представите себя на борту самолета летящим на самоубийственную миссию, желающим осознанно врезаться в здание, вы поймете, что для этого требуется определенный объем храбрости.
Не то, чтобы люди вообще не могли сопереживать злодеям. Джордж Лукас с удивлением обнаружил что множество тех, кто смотрел Звездые Войны, восхищаются Дартом Вейдером. Способность предсказывать действия противника является важным наследственным применением эмпатии. Но нить эмпатии рвется, когда у людей появляется внутренняя необходимость понизить чей-то статус.
Ладно, теперь рассмотрим фрагмент оригинального «Гарри Поттер и Философский Камень». Каноничная Гермиона обращается к каноничному Гарри перед тем, как он собирается двинуться дальше к опасности:
— Гарри, ты великий волшебник, знаешь.
— Но я не так хорош, как ты, — произнёс Гарри, когда Гермиона разжала объятия. Он чувствовал себя смущённым.
— Я? — удивилась Гермиона. — А что я — ум и книги, вот и всё! Но, оказывается, есть куда более важные вещи — например, дружба и храбрость. И, Гарри… будь осторожен!
Теперь, прежде чем вы подумаете, не больна ли была Роулинг, когда писала это, учтите слова самой Роулинг, что Гермиона была персонажем, которого она писала с себя, и Роулинг самой хватило «ума и книг» чтобы стать миллионершей. В таком ключе это самоосуждение, а не унижение гениев.
Но даже с этим такой отрывок вы не можете представить во время чтения МРМ, потому что МРМ не принижает книги и ум. Дружба и храбрость тоже имеют значение в МРМ; но МРМ не делает уступок сантиментам, что добродетель начитанности по своему статусу ниже добродетели храбрости.
Вы не можете описать по-настоящему гениального персонажа, если ощущаете необходимость принизить его, если у вас есть ощущение, что вы должны не дать ему быть слишком умным, потому что это бы нарушило мораль истории, что Храбрость Важнее Мудрости или что-то подобное. Такое принижение не столько затмевает их искру оптимизации, сколько нарушает вашу эмпатию с персонажем: вы с трудом можете испытывать эмпатию к кому-то, чей статус вы хотите понизить, потому что ваш заточенный под политику мозг не хочет рассказывать их настоящую историю.
Это не говорит о том, что персонажи не должны выучивать ценные жизненные уроки, но они должны учиться, ну, уважительно. Если вы сами помните, что значит выучить с трудом полученный урок, вы можете держать в сознании картину того, что значит сделать такую ошибку честно пытаясь сделать наилучшее, вместо того, чтобы сделать ошибку в процессе служения сюжету или для сохранения пониженного статуса персонажа.
И чтобы лучше показать связь, посредством которой уважение создает интеллект: если вы создаете персонажа, которого вы по-настоящему уважаете, вы постесняетесь моделировать его как глупого. Цинизм профессора Квиррелла (но, насколько я знаю, не его намерение убивать) основан на смеси цинизма двух моих друзей, Робина Хансона и Майкла Вассара. Я уважаю их в достаточной мере, чтобы даже когда они ошибаются, я в общем видел их как ошибающихся убедительно. Когда я ментально привязал профессора Квиррелла к моей модели Хансона и Вассара, мой мозг заставил профессора Квиррелла генерировать убедительный цинизм и вставлять как можно больше гранул истины в его слова, даже несмотря на то, что я сам не согласен с его выводами.
Это приводит меня ко второму кратчайшему пути создания персонажа с интеллектом первого уровня: просто нагло украдите чей-то образ, из реальной жизни или из литературы, чей интеллект вы по-настоящему уважаете.
Вы можете просто описать персонажа так, словно он Шерлок из сериала ББС или Майлс Форкосиган или любая другая личность чьим мышлением вы интуитивно восхищаетесь. Ваш собственный литературный голос возьмет верх и затмит все, и большая часть ваших читателей не заметит сходства, пока вы не скажете им… если вы симпатизируете Шерлоку или Форкосигану так, чтобы ощущать их внутренние жизни, если вы создаете их в их новой роли продолжая выписывать их жизнь изнутри. Если же вы просто используете шаблонные образы, чтобы заполнить их крылатыми фразами из телевидения, тогда да, люди заметят.
Или же, возвращаясь к более простому трюку, вы можете сделать проверку на интеллект путем представления себя в шкуре персонажа. Что бы вы сделали, если бы стали вампиром? А что бы вы сделали, если бы вас любили вампир и оборотень? Если ответ является чем-то, что вы никогда не видели раньше в историях, то возможно у вас в руках готовый сюжет…
Или возможно вы пишете историю со злодеем и у него есть база в вулкане. Какой бы она была? Ладно, есть и другие пути ответить на этот вопрос, но один из них этот: какую базу вы бы отстроили в вулкане, если бы вам было нужно такую сделать? Был бы у вас там батут? Представьте, что смотрите фильм, где на злодейской базе в жерле вулкана в тронном зале стоит батут, но не потому что это комедия, а потому что злодей просто делает те вещи, которые вы бы сделали на своей базе и никто не сказал бы вам «нет». Возможно злодейка носила бы удобные штаны, а слуг бы заставляла одеваться в черную кожу. Я бы посмотрел такой фильм, если бы он не был таким же, как фильмы, построенные на заполнении шаблонов.
Я заметил, что мне часто нравятся романы, написанные от первого лица; и я подозреваю, что когда авторы пишут истории и используют местоимение «я» для голоса персонажа, они более вероятно будут пытаться быть умными временами. (примеры: роман Jumper (но не фильм); фанфики Dreaming of Sunshine, The Lie I’ve Lived, и Who I Am.) Как-то легче писать «Торин выбросил ключ и ушел», чем «я выбросил ключ и ушел» Если вы представите себя настоящего буквально в шкуре Торина, тогда вместо того чтобы пытаться заполнить шаблон «что бы сделал тупой гном» вы возможно представили бы как думали бы на самом деле. Если вы представите настоящего себя внезапно перемещенным в тело Торина, тогда вы представите настоящую живую личность за его глазами.
Правда, для более продвинутых писателей повествование от третьего лица имеет преимущества над первым лицом. Особенно для персонажей с нетипичными мыслительными процессами (смотрите секцию про интеллект третьего уровня) где вы можете захотеть отступить назад к большему всемогуществу и описать их мыслительные процессы более подробно. Но повествование от первого лица и трюк подстановки себя на место персонажа являются отличной начальной точкой для ломки ментальной привычки к описанию Литературных Чужих.
Так или иначе, вы должны проживать жизнь за своих персонажей, чтобы она у них была; у них нет возможности где-то еще занять мозгов, кроме как у вас.
Одна из неизбежных сложностей при попытке поместить искру оптимизации внутри ваших персонажей это то, что никто из них не хочет, чтобы ваш сценарий осуществился.
Вы хотите эпической борьбы злодея и героя. Или возможно у вас нет отдельного антагониста и герой противостоит Природе, или самому себе, или ему нужно разрешить романтический вопрос. Вне зависимости от конкретной ситуации, если у протагониста не будет препятствий на пути к тому, чего он хочет, у вас история не получится.
Но протагонист не хочет ваших препятствий. Протагонист тоже смотрел романтические комедии и делает все, чтобы избежать ошибок коммуникации из этих комедий. Злодей хочет, чтобы герои умерли в первой главе, и посылает дополнительных солдат, чтобы быть уверенным, что это произойдет. Каждый персонаж с интеллектом первого уровня хочет взять ваш сюжет, основанный на конфликте, и выкинуть его в окно.
Это заставляет ваш мозг попотеть. Вы должны так умело создать ситуацию для каждого персонажа, чтобы, учитывая то, что им известно, результат работы их внутренней искры работал на ваш сюжет.
Описание умных злодеев означает, что вам придется немало подумать над тем, как, черт побери, герои выберутся живыми со злодейской базы, поскольку у вас нет возможности просто сделать вентиляционные проходы базы достаточно большими, чтобы по ним можно было проползти.
Скорее всего вам придется выкинуть вашу первую идею, отказаться от второй и обдумывать проблему в течение недели, прежде чем вы придете к такой идее, где никто из персонажей не будет выглядеть полностью глупым. Если вы находите лазейку в 63 главе, вы используете свою авторскую прерогативу на путешествия во времени, возвращаетесь и делаете нечто, что убирает эту лазейку еще в 17 главе.
Моей первой идеей для способа побега Гарри из Азкабана было то, что он прорежет себе путь частичной трансфигурацией и улетит на обычной метле. Но другие волшебники могли бы прорезать стены обычной магией, и, если бы из Азкабана было так легко бежать, кто-нибудь уже сделал бы это. Я понял, что у авроров тоже должны были бы быть собственные метлы. Что же касается очень быстрой метлы, которая бы обогнала метлы авроров, как это часто бывает в обычных захватывающих романах, — чушь, Амелия Боунс подумала бы об этом и убедилась бы, что у ее людей достаточно хорошие метлы, чтобы не дать убежать даже на «Молнии». Гарри нужно было придумать план побега, который бы содержал такой элемент, какой Амелия Боунс не могла ожидать и к какому не могла приготовиться, даже при условии, что она пытается быть умной.
Это требует немалой работы, а писатели — люди ленивые. Вот почему голливудский злодей оставляет героя в смертельной ловушке, смеется и выходит из комнаты.
Иногда у вас не будет иного выбора, кроме как заставить вашего персонажа сделать ошибку; вы даже можете желать, чтобы персонаж сделал эту ошибку, поскольку вы пытаетесь что-то построить на этом. Вот почему в заголовке написано «обдуманные действия», а не «оптимальные действия». Но да, скажу вам, тут надо быть крайне осторожным, поскольку, боюсь, здесь легко скатиться обратно к трясине Глупости, Индуцированной Сюжетом. Уважаемый персонаж не должен совершать глупых ошибок.
В идеале, если ваш протагонист делает что-то неправильное, то это должно быть что-то правдоподобное настолько, чтобы одурачить большинство читателей при первом прочтении, казаться обдуманным и хорошим действием, даже если двенадцать глав спустя сам персонаж оглядывается и проклинает все, потому что было множество путей сделать лучше. (Смотрите, например, половину того, что Гарри делает в МРМ, и ранние ревью, которые остались от тех глав, которые были изначально.) Если ваш сюжет не позволяет персонажу понять то, что, как вы знаете, должно быть правдой, то вы не можете заставить их «просто подумать об этом», прийти к другому пониманию, которое отлично объясняет наблюдения персонажа. (Но не выкручивайте ваш мир, чтобы солгать персонажу. Антагонисты могут лгать, реальность — нет. Если ваш мир лжет персонажу, то загадки истории становятся неразрешимы.)
Ваш персонаж может быть не в состоянии решить абсолютно все проблемы в отдельный момент времени и его действия могут быть не оптимальны, но они должны всегда быть обдуманны. Когда вы должны заставить умного персонажа сделать ошибку, эта ошибка должна быть результатом обдумывания почти правильной мысли и единственного небольшого неправильного когнитивного шага.
Часть смысла МРМ в том, чтобы провести читателя вместе с Гарри через процесс обучения Гарри на его ошибках. Это требует того, чтобы ошибки были. Но это не значит, что Гарри внезапно превращается в антирационалиста, когда этого требует сюжет. Это не значит, что история пытается аккуратно оправдать ошибки Гарри. Это не значит, что история заставляет Гарри эмоционально перевозбудиться в момент, когда сюжет требует ошибки, чтобы у автора было хорошее оправдание за глупость персонажа в этом моменте. Ошибки Гарри — это результат попыток Гарри быть рациональным, попыток сделать что-то правильно, попыток сделать обдуманное и оптимальное действие, которые кончились недостаточно хорошо.
Из МРМ, 78 глава:
«Позже, оглядываясь назад, Гарри задумается о том, что во всех прочитанных им фантастических романах люди всегда совершают большой, значимый выбор по большим, значимым причинам. Гэри Селдон создал Основание, чтобы на обломках Галактической Империи выстроить новую империю, а не потому, что ему хотелось выглядеть значительнее, руководя собственной исследовательской группой. Рейстлин Маджере отказался от своего брата потому, что хотел стать богом, а не потому, что плохо разбирался в человеческих отношениях и не хотел просить совета, как их улучшить. Фродо Бэггинс взял Кольцо потому, что был героем, желающим спасти Средиземье, а не потому, что было бы слишком неловко отказаться. Если бы кто-то когда-нибудь написал истинную историю мира — хотя никто и никогда не сможет и не захочет — наверняка 97% всех ключевых моментов Судьбы оказались бы слепленными из лжи, салфеток и незначительных мелких мыслей, которые человек мог бы легко переиначить.
Гарри Джеймс Поттер-Эванс-Веррес посмотрел на Гермиону Грейнджер, сидевшую на другом конце стола, и почувствовал, что ему не хочется беспокоить её, когда она, видимо, и так уже в плохом настроении.
Затем Гарри подумал, что наверняка будет более разумно сначала поговорить с Драко Малфоем, чтобы иметь возможность совершенно однозначно уверить Гермиону в том, что Драко на самом деле ничего против неё не замышляет.
Позже, после ужина, Гарри спустился в подземелья Слизерина и услышал от Винсента «Босс не хочет, чтобы его беспокоили»… У него мелькнула мысль, что, наверное, ему стоит узнать, не согласится ли Гермиона поговорить с ним прямо сейчас. Он подумал, что ему пора просто начать разгребать всю эту кучу, пока она не соберётся ещё больше. Гарри спросил себя, быть может, он просто медлит? Может, его разум просто нашёл удобную отговорку, чтобы оставить кое-что неинтересное-но-необходимое на потом?
Он правда об этом думал.
А потом Гарри Джеймс Поттер-Эванс-Веррес решил, что он просто поговорит с Драко Малфоем на следующее утро, после воскресного завтрака, а уже потом поговорит с Гермионой.
Люди постоянно так делают».
«Тройной контакт», моя самая популярная работа, если не считать МРМ, никогда не задумывалась как серьезная вещь. Например там была такая вещь, как корабельный Форчан.
И меня удивило, когда профессиональные авторы в области научно-фантастической литературы, такие как Дэвид Брин и Питер Уотс, сделали обзоры на мое произведение и похвалили его. Я сидел и думал: «Что же я, черт побери, сделал правильно?»
Центральный моральный конфликт в «Тройном контакте» (ТК сокращенно) — открытый вопрос, сколько боли или страданий мы хотим видеть в утопии, мире, хорошем настолько, насколько это вообще достижимо. Я ранее уже рассматривал этот вопрос в серии эссе Fun Theory Sequence. Я нерешительно подобрался к ответу «Нормально иметь немного боли и страдания, просто они должны иметь больше смысла, чем в нынешнем состоянии дел»; но я хорошо понимал, что это может быть просто точкой зрения такого жителя 21 века, как Элиезер Юдковский, и что когда большая часть боли будет сведена к нулю, дети наших детей могут просто пожать плечами и уничтожить оставшуюся часть.
Есть традиция рационалистов, известная в узких кругах как steelmanning (прим. пер. — не нашел русского перевода. Вкратце steelmanning представляет собой нечто обратное уловке «чучело», strawman, и заключается в ответе на наиболее сильную форму аргумента, представленного оппонентом, даже если эта форма не была озвучена). Данная практика имеет свои подводные камни, и я разобрал некоторые из них в моем эссе Against Devil’s Advocacy. Но, в общем, вы можете думать о принципе атаковать сильнейшие аргументы противоположной стороны как об интеллектуальной версии отвращения от Мэрю Сью. Если вам противостоит обоснованно сильная оппозиция, то вам надо сделать так, чтобы она казалась сильной. Если вы заставите ее казаться слабой, чтобы ее легко можно было победить, то это низко: это показывает вашу собственную слабость.
Я знал, что мои собственные симпатии на стороне Веселых (прим. пер. — в оригинале Fun, как я понимаю, так автор называет человеческую сторону в «Тройном контакте»). Так что мой инстинкт автоматически предложил сделать Сверхсчастливых, сторону против боли в ТК, звучащую как можно убедительней. Я хотел, чтобы читатель ощутил силу позиции Сверхсчастливых и при этом симпатизировал персонажам-людям, когда они бы думали, правы ли. Я определенно не хотел ослаблять позицию Сверхсчастливых для показания того, насколько верна человеческая позиция. Тогда бы возникало нездоровое ощущение, как при чтении «Атлант расправил плечи», ощущение, что я нечестен по отношению к обоснованной позиции таких мыслителей, как Дэвид Пирс.
В одной из своих работ, к несчастью не могу вспомнить в какой, Орсон Скотт Кард отмечает, что пусть конфликт между Добром и Злом может быть основой хорошей истории, он и вполовину не так интересен, как конфликт между Добром и Добром.
Вопрос полного уничтожения боли против простого улучшения, Сверхсчастливые против Веселых, был центральным моральным конфликтом «Тройного контакта». Движущее слово — «конфликт». Я позже понял, что причиной, по которой я получил столько внимания в сторону истории с корабельным Форчаном, было то, что я случайно сделал верную вещь по литературным стандартам: я выбрал значительный конфликт в качестве центральной части истории, дилемму, в которой сам не был уверен, в которой я видел сильные аргументы с обеих сторон. Мои steelmanning-инстинкты заставили меня раздуть этот конфликт, заставить Сверхсчастливых казаться настолько убедительными, насколько возможно, то есть в литературном эквиваленте — сделать злодеев сильнее. (Ни один профессиональный редактор никогда не присылал историю обратно автору с пометкой «Этот злодей слишком силен и его нужно сделать слабее.»)
Подлинный моральный конфликт является в литературе витамином достаточно редким, чтобы «Тройной конфликт» получил серьезное внимание критиков, несмотря на наличие корабельного Форчана. Вы читали множество историей, в которых есть две стороны с различными моралями, но где нет такой вещи, как моральный конфликт. Почти всегда ясно, что автор думает о том, на какой стороне вы должны быть. «Властелин колец» не спрашивает, мог бы Саруман в итоге развить промышленность. «Атлант расправил плечи» не приглашает вас задуматься вместе с автором, является ли капитализм хорошей идеей или был ли путь Джона Галта единственно правильным; вместо этого каждый, кто идет возражать против капитализма, был изображен как слабый, презренный человек со склонностью к криминалу.
Неправильный путь для попытки создания баланса — писать «морально сомнительную» историю Зла против Зла, где обе стороны изображены как подверженные испорченности и коррупции. Это точно плохой ход с точки зрения литературы. Такие истории не создают симпатию-с-моральными-вопросами, потому что никто в этих историях не пытается оптимизировать этику, сделать что-то правильно. У вас не может быть персонажей, которые бьются над открытым вопросом, что лучше всего сделать, если никто в истории не рассматривает вопросы, которые выглядят хотя бы отдаленно убедительными. Ослабление сильного конфликта Добра с Добром до Серого против Серого, не говоря уже о Зле против Зла, — это литературный эквивалент того, как если бы вы отобрали у ваших персонажей пушки и крутые костюмы и отправили их в песочницу драться на лопатках. Нет ничего сложного в истории Зла против Зла, потому что в ней нет интеллектуальной запутанности, подверженной сомнению, и вопроса, требующего длинного обсуждения, потому что у каждой стороны есть сильные на первый взгляд аргументы.
(Заодно отмечу, раз уж коснулись этой темы: художественные истории о сломленных людях, которые ломаются еще сильнее, не приносят удовольствия при чтении с позиций чистого гедонизма. Если вы пытаетесь возразить, что ваша история должна быть классной и еретичной, потому что предлагает малую награду за чтение, не ожидайте одурачить кого-то, обладающего самосознанием настолько, чтобы двигаться на мета-еретичности.) (Прим. пер. — не уверен, что понял, о чем речь идет в этом абзаце, так что перевод может быть неверен.)
Также касательно темы о том, как не следует создавать моральную неопределенность: нет ничего нового в избитом откровении, что жизнь сложна. Да, люди, следующие только деонтологическим правилам, заканчивают тем, что их действия приводят к плохим последствиям. Люди, которые заявляют, что ложь может быть добродетельной, и так далее, и так далее. Действительно хорошие люди мира знают это, они уже начеку, так что персонажи с интеллектом первого уровня тоже будут осведомлены об этом.
Автор, который пытается опорочить каждый идеал таким шокирующим отношением, неизвестным любому из персонажей истории, но, разумеется, хорошо известным самому автору, терпит неудачу в попытке создания интеллекта первого уровня — все персонажи упускают очевидное только лишь потому, что только так автор может вставить их на нужное место в сюжете (которое весьма удобно расположено ниже автора). И наоборот, если вы сами не уверены, какие из недостатков приемлемы, и при этом все равно должны идти вперед, даже зная риски, то для идеалистичных персонажей с интеллектом первого уровня разумно быть столь же неуверенными, как и вы.
Естественный способ подлинно исследовать мораль посредством литературы — честно разыгрываемый конфликт Добра и Добра. Конфликт между высокими идеалами, которые история не пытается очернить, принизить или использовать для показа искушенного авторского цинизма — это все только ослабляет конфликт.
Истинный и незапятнанный идеал не обязательно тот, чьи защитники все чисты, или тот, политика которого не имеет недостатков. Истинный идеал — это цель, которая стоит оптимизации несмотря ни на что и все еще дает теплое яркое ощущение в этом сложном мире. Если вы не можете почувствовать его, это теплое яркое ощущение, и заявить о нем публично, то вы не сможете поместить его в свою историю, не сможете заставить читателей симпатизировать вашим идеалам. Смотрите внутрь себя в поисках морали, этики, эстетики, добродетелей, того, чем вы все еще дорожите в реальности. Вы создадите подлинный моральный конфликт, когда найдете два самых высоких идеала, противостоящих друг другу и равноценных настолько, что вы сами не будете уверены, на правильной ли вы стороне; или когда вы найдете моральный вопрос внутри высокого идеала, в ответе на который вы не уверены и вокруг которого можете построить историю.
«Методы рационального мышления» иногда ошибочно принимают за историю с моралью вида Серое против Серого.
Это изумило меня в первый раз, когда я услышал такой отзыв, и я до сих пор на самом деле не могу принять то, что некто мог прочитать МРМ и так подумать. Дементоры — это чистое зло. Фениксы — чистое добро. Я не думаю, что проспойлерю что-то в МРМ, раскрыв свое мнение, что Амикус Кэрроу и профессор Макгонагалл стоят настолько далеко друг от друга в плане морали, насколько это вообще возможно для людей. Возможно, в истории нет чистого белого и черного цветов, но это не значит, что все серое — одного и того же оттенка.
Но когда мы смотрим на мир глазами Драко, мы видим его так, как видит он, со всеми моральными аргументами в пользу Пожирателей Смерти, сформулированными так, чтобы звучать убедительно для Драко Малфоя. Только злодеи в детских книжках формулировали бы свои слова так, чтобы заставить выглядеть героя убедительней, и это истинно независимо от того, насколько на самом деле справедлив герой.
Когда Люциус Малфой выступает на публике, он действует как строгий уважаемый политик, работающий на неблагодарную задачу защиты наивных людей от сильного и харизматичного лидера культа, наподобие Дамблдора… потому что это очевидная история, в которую мог бы автоматически вписаться настоящий Люциус, а не потому, что МРМ ставит его на один моральный уровень с Алисой Лонгботтом.
Но если в мире Люциуса он не выглядит злодеем, почему бы ему не любить своего сына? В модели мира Люциуса он никогда не получал Злодейского Письма, говорящего, что он на стороне плохих парней; поэтому Люциус считает, что у него есть мужество, честь и другие атрибуты Древнейшего Дома, и воспитывает сына соответственно.
Возможно, кто-то делает ошибочное суждение о морали Серого против Серого, если привык к героям наподобие толкиновских, сражающихся против орков и Саурона, или если не понимает, как мало значит, если персонаж считает свои действия оправданными — как мало это говорит читателю об их настоящей позиции на оси добра-зла. Адольф Гитлер был откровенным противником вивисекции животных, который на нескольких обедах показывал изображения насилия над животными в попытке убедить присутствующих не есть мясо. Предположительно, Гитлер тоже не получал Злодейское Письмо. Возможно, он даже не носил черные одежды. В этом и есть разница между книжным Волдемортом и реальным Адольфом Гитлером.
Разумеется, не только злодеи пытаются оправдать себя. Самооправдание дешево, и любой персонаж с толикой ума будет способен гнать его грузовиками. Большая часть искусства рациональности — обучение тому, как сделать самооправдания для себя как можно дороже и труднее. Любой персонаж, который не изображен мастером-рационалистом, не должен иметь сложностей в формировании истории, которая представляет его хорошим парнем, вне зависимости от того, что он делает на самом деле.
Конечно же, это требует от вас умения абстрагироваться от вашей собственной ментальной вселенной и представлять то, как вещи выглядели бы для кого-то еще — это тоже один из ключевых навыков рационалиста.
Экономист Брайан Каплан изобрел улучшенную версию steelmanning, которую назвал Идеологическим Тестом Тьюринга. В данном тесте вы должны выписать аргументы для противоположной стороны настолько реалистичные, чтобы приверженец той стороны не мог отличить ваши выкладки от того, что мог бы написать настоящий защитник той стороны. Идеологический Тест Тьюринга строже, чем steelmanning, поскольку слишком легко убедить себя, что вы придумали «сильнейший аргумент», и куда менее легко одурачить кого-то, кто в самом деле верит в противоположную позицию, относительно того, что вы в самом деле искренне изо всех сил пытались создать лучший аргумент. Это тест на понимание; испытание, чтобы убедиться в вашем настоящем понимании аргументов, в которые вы, по вашим словам, не верите.
Люди проваливают Идеологический Тест Тьюринга, потому что они привязаны к своей картине мира, потому что боятся позволить себе смотреть на мир с другой точки зрения, потому что они терпят неудачу в практике представления другой точки зрения, которая может быть обоснованной.
Гарри из МРМ пытался научить этому навыку Драко, у которого были обычные проблемы с овладением данным умением, в 23 главе (прим. пер. — упомянутый фрагмент на самом деле находится в 22 главе):
«Даже поняв эту мысль, Драко не смог придумать какую-нибудь «правдоподобную альтернативу», как это назвал Гарри, для идеи, что волшебники становится менее могущественными, поскольку мешают свою кровь с грязью. Это было слишком очевидной истиной.
После чего Гарри Поттер слегка раздражённо заметил, что не может поверить, что у Драко и впрямь так плохо получается воображать себя на чужом месте. Наверняка же существовали Пожиратели Смерти, которые изображали врагов чистоты крови, и у них, без сомнения, нашлись бы более правдоподобные аргументы против собственной стороны, чем то, что предлагает Драко. Если бы Драко изображал сторонника Дамблдора и высказал бы идею о домовых эльфах, он бы ни на секунду никого не одурачил».
Когда я описывал Пожирателей Смерти в МРМ, я пытался пройти Идеологический Тест Тьюринга для Пожирателей Смерти — когда я описывал точку зрения Драко Малфоя, я писал о Пожирателях Смерти так, как мог бы их видеть сам Драко. Цель была в том, чтобы настоящий Пожиратель Смерти, который бы прочитал точку зрения Драко, не сказал: «Ага! Это явно писал не настоящий Драко Малфой, а некто, кто хотел выставить Пожирателей Смерти в плохом свете». (Исключая, конечно, те мысли Драко Малфоя, которые внутренне были оптимизированы, чтобы выглядеть хорошо для его друзей и социального круга, а не для читателей-магглов, прошедших эпоху Просвещения.)
Профессор Квиррелл описывался так, чтобы настоящий профессор Квиррелл не смог бы взять произведение в руки и сказать: «Что? Я бы не сказал этого. Есть куда более убедительные аргументы в пользу нации с сильным лидером, например…»
Меня часто нервирует то, как много людей говорят, что они находят профессора Квиррелла слишком убедительным, в то время как его воззрения не являются вещами, в которых я уверен (мягко говоря), но, по крайней мере, это показывает, что я делаю свою работу правильно.
Говорят, что каждый видит себя героем в своей собственной истории. Но это даже не близко не лежит с тем, чтобы быть правдой; насколько я могу сказать, большая часть мира состоит из людей, которые явно верят, что они НПС, и интуитивно будут удивлены и не смогут поверить, если услышат любое предположение, что для них возможно участвовать в сюжете. Есть также люди, верящие, что они антигерои или даже открытые злодеи в их собственной истории. Но это исключения, особенно на литературном уровне; в первом приближении большинство активных персонажей в истории должны верить, что они герои.
Похожим образом каждый активный персонаж также должен жить с картиной мира, где он является центром, а не ваш протагонист. Когда вы описываете точку зрения Боба, каждый объект должен быть упомянут в той степени, насколько он релевантен по отношению к Бобу. Рон Уизли едва ли вообще существует в мире Гарри; но как только мы переключаемся на мир Гермионы, он снова появляется. Драко видит все вещи в той степени, в какой они относятся к нему; профессор Макгонагалл видит вещи в той степени, в какой они относятся к Хогвартсу. Дамблдор все еще постоянно размышляет о событиях с Гриндевальдом, которые произошли в первой половине его жизни. Чтобы пройти Тест Тьюринга для Дафны Гринграсс, я должен описать ее точку зрения так, чтобы некто, читая ее мысли, не мог сказать, что кто-то еще (например Гарри Поттер) является настоящим центром вселенной.
(По той же теме: каждый персонаж является [меметичное предупреждение: TVTropes] Единственным Здравомыслящим Персонажем [/конец предупреждения]. Вот частичный список персонажей МРМ, которые были изображены как единственные здравомыслящие персонажи: Гарри, Гермиона, профессор Макгонагалл, профессор Квиррелл, Драко, Невилл, Дафна Гринграсс, Сьюзан Боунс, Грозный Глаз Грюм, Амелия Боунс и Фоукс.)
То, во что мы правда верим, не ощущается нами как вера или убеждение, оно ощущается так, словно мир таков на самом деле. Действительно верить, что небо синее, не означает ощущать себя причастным к Синим, это означает ощущать себя так, словно небо на самом деле синее.
Процесс создания и становления персонажа — это не только создание его личности. Это экстраполяция вселенной, которая будет картиной мира персонажа — не то, во что он «верит», но окружающая вселенная, в которой, по его мнению, он живет.
Оригинальность — это не легко, хотя и весьма просто: не делайте того, что уже делалось раньше.
К тому моменту, когда я начал МРМ, я прочитал множество фанфиков по Гарри Поттеру. Я видел всех моих персонажей, все краски в моей палитре, реализованные множеством путей… что, в свою очередь, делало их своего рода стандартом. Был темный Гарри, независимый Гарри, Гарри, который позволял себя затмить Гермионе или Джинни; был порочный Дамблдор и Дамблдор-глупец, Дамблдор, который хотел, чтобы Гарри шел по рельсам фэнтезийной истории, был Том Риддл, являвшийся обиженным сиротой, и Том Риддл, родившийся психопатом, и Том Риддл, в совершенстве владевший магией…
Не столько посредством волевого решения, сколько тем, что это казалось мне само собой разумеющимся, я знал, что мне нужно будет сделать нечто с этими персонажами, чего никто не делал раньше. Гарри, профессор Квиррелл, Дамблдор, Гермиона, Драко, Крэбб и Гойл — все они должны были быть не теми же персонажами в том же антураже, которых мои читатели могли бы видеть в других фанфиках. Если бы мои читатели уже видели таких персонажей, которые слишком похожи, изображение не было бы слишком захватывающим, и это бы означало, что я не смог передать новую информацию, мое сообщение не дошло. (Это философия оригинальности в формулировке шэнноновской информации.)
Я не могу описать творческий процесс, стоящий за созданием персонажей, подробно, поскольку по большей части он состоял из ожидания, пока мой мозг выдаст предложение, которое нельзя было бы отвергнуть по причине неоригинальности. Но я могу рассказать вам об осознанной части процесса, которая заключается в правиле отказа, законе продолжения: не делай того, что уже делалось. Каждый раз, когда мой мозг выдавал нечто, что не было достаточно новым, я продолжал искать, потому что в таком случае мой мозг не помечал поиск как законченный.
Не помню точно, что я думал, когда решал: «Как я поступлю с приспешниками Драко, Крэббом и Гойлом?» — но процесс протекал примерно так:
Глупые Крэбб и Гойл — это уже было, ты читал это десятки раз.
Ладно, перевернем все с ног на голову: Крэбб и Гойл — тайные интриганы. Нет, это требует того, чтобы глупым был Драко, что не вписывается в историю, которая к тому же и так имеет достаточно тайных интриганов.
Тогда пусть Крэбб и Гойл будут как мистер Вандемар и мистер Круп из Neverwhere Нила Геймана (грубый скандальный парень и умный парень, говорящий формальным языком; на TV tropes их бы назвали Эти Два Плохих Парня). Все еще нет. Я не помню такого в тех фанфиках, что читал, но это все еще клише и опять же не подходит истории в целом…
И наконец мой trope-диверсионный модуль выдал: «Крэбб и Гойл — это одиннадцатилетние мальчики, которые выросли, играя роль Этих Двух Плохих Парней, и они думают, что должны такими быть». Такого я никогда не видел в фанфиках по вселенной Гарри Поттера, да и вообще нигде, это подходило под общую историю и смотрелось потрясающе; поэтому поиск был остановлен.
Изначальный шаг в этом искусстве — обучении тому, как отвергать первую идею, которая всплывает в вашей голове — тот момент, когда вы сразу же думаете о глупых Крэббе и Гойле, или что ведьма должна разрываться между оборотнем и вампиром, или что если вы пишете фанфик по «Волшебнику в стране ОЗ», то сам волшебник должен быть непременно из Канзаса. Даже если ваша первая идея никогда не реализовывалась раньше, часто мудрее отвергнуть первую идею, всплывающую в голове (если конечно, эта первая идея на самом деле не представляет собой нечто совершенно потрясающее). Первая идея, приходящая в сознание, чаще всего — завершающий шаблон, очевидный ответ, ничем не удивительный. Иногда нет иной возможности быть эмоционально истинным в вашей истории, кроме как взять очевидный ответ, но чем чаще вы это делаете, тем ленивее становится ваш мозг. Близкий навык к Не Делай Того, Что Уже Раньше Делалось — это Не Делай Посредством Легкого Пути.
Я хотел бы, чтобы у меня был лучший совет о том, как быть креативным, а не просто оригинальным. Я могу направить вас к подцепочке «Свежий взгляд на вещи» на LessWrong.com, но это не даст вам всего, только способ стандартного написания книг. В каком-то смысле оригинальность не является сложной: если вы сделаете профессора Макгонагалл (бросок кубиков) суккубом, который сбежал из Плоского Мира Терри Пратчетта и который постоянно одержим обливанием водой вещей, то такого персонажа, вероятно, никто ранее не делал. Но это простой хаос: в этом нет смысла, по своей сути это не характерно для истории. Оригинальность проста, но, чтобы мыслить творчески, вам придется делать нечто одинаково новое и хорошее, а это уже труднее. Даже так одну часть процесса легко описать: это та часть, где вы продолжаете искать до тех пор, пока у вас не будет чего-то нового или чего-то, что ощущается один в один подходящим для истории (оно не должно быть потрясающим, особенно если это ваши первые приключения в роли писателя, но это должно ощущаться как нечто, что вы можете использовать).
Я завершу этот пост следующим кусочком совета, который предназначен специально для тех, кто пишет фанфики:
Если вы пишете фанфики по Наруто, то либо пропускайте арку про страну Волн полностью, либо сделайте нечто ПОИСТИНЕ ПОТРЯСАЮЩЕЕ с Забузой и Хаку и всей этой историей, потому что, если я прочитаю про ЕЩЕ ОДНУ битву с братьями-демонами, даже если в вашей версии Наруто убьет их ЯДЕРНЫМ ОРУЖИЕМ, я разочаруюсь в вас.
Если нечто уже показывалось читателю десятки раз до этого, нет смысла показывать это еще раз. В фанфикшене эта проблема стоит еще острее. Если событие канона происходило вследствие нужности для сюжета, но не было сделано по-настоящему потрясающе, то покажите только эту часть потрясающей. А еще лучше — просто заставьте нужного персонажа вспомнить все это спустя два параграфа, а не выписывайте для этого целую главу.
Рассмотрим путешествие Гарри по Косому Переулку, как это показано в МРМ. Мы не видим всего, что происходило между походом Гарри к его горам галлеонов и покупкой кошеля. Мы не видим, как он едет на вагонетке к хранилищу или выезжает оттуда. Ничто из этих событий не является новым в фэндоме Гарри Поттера, так что это просто не показывается. Это даже потом не вспоминается, оно просто попадает в промежуток между главами и исчезает.
Общий принцип писательства — вы должны избегать скучных частей настолько, насколько вообще можете себе это вообразить. Есть важный анекдот об авторе, который думал, что напишет все скучные части после того, как расправится с самыми захватывающими и интересными. Когда он закончил писать все захватывающие части, он просмотрел работу, подумал и послал ее редактору в таком виде.
Буквально все, что мы видим в МРМ, происходит не так, как в каноне и прочих фанфиках, потому что иначе не было бы информации для передачи. И происходящее еще и интересно, потому что иначе стоило ли вообще приниматься за эту работу?
Ваши читатели уже читали не только канон с Турниром Трех Волшебников, но еще и десятки фанфиков, где был этот Турнир. Если вы собираетесь создать напряженность в сюжете вокруг этого Турнира, то вам лучше изменить начальные условия, ставки и возможные исходы в такой мере, чтобы это не ощущалось той же сценой, которую читаешь в тридцать шестой раз. И это должно быть не просто отличающимся от ранее сделанного, но и интересно отличающимся.
В фэндоме Наруто есть буквально тысячи вариаций экзменов на чуунина. Лучший из всех Наруто-фанфиков, «Time Braid», описывает временную петлю наподобие Дня Сурка в день экзаменов на чуунина. И в конце этого фанфика начальные условия, ставки и возможные исходы настолько уходят от канона и фэндома, что финал истории не напоминает ничего, что я видел где-либо в Наруто-фанфикшене; и вселенная оставляет после себя такое впечатление, что подобного «исхода экзаменов на чуунина» вы не видели никогда ранее ни в одной из предыдущих историй.
Личности и арки персонажей, вызовы и ставки, конфронтации и сюжетные события, пэйринги и отношения; в фанфикшене вы не должны переделывать буквально все, но вы не можете оставить слишком многое тем же самым.
(Но ясно давайте читателю понять, если в вашей истории допускается изменение фоновых исторических фактов или законов магии. Не делайте так, чтобы изначально законы магии выглядели теми же, а потом, в кульминационной битве, один из законов оказывался другим и тем самым решал исход этой битвы. Потому что это отстой.)
Ранее я отмечал, что один из путей не сделать ваших персонажей глупыми — попытка спросить себя, что бы вы сделали на их месте.
Что бы вы подумали в первую очередь, дорогой читатель, обнаружив себя загадочным образом перенесенным в магический мир? «Черт возьми, — подумали бы вы, — это, конечно, напоминает множество книг, которые я читал, где протагонист загадочным образом оказывается перенесенным в магический мир». Если вы читали TV Tropes, вам на ум могла бы прийти фраза ‘Portal Fantasy’ (прим. пер. — у нас этот жанр принято называть «попаданческое фэнтези»).
Методы Рационального Мышления, 6 глава:
— Ну, например, вы упомянули, что моих родителей предали. Кто их предал?
— Сириус Блэк, — ответила МакГонагалл. Она почти прошипела это имя. — Он в Азкабане. Тюрьме для волшебников.
— Какова вероятность, что Сириус Блэк сбежит из заключения, и мне придётся выследить его и победить в блестящей дуэли или, что даже лучше, назначить за его голову большое вознаграждение и спрятаться в Австралии, ожидая результатов?
МакГонагалл моргнула. Дважды.
— Почти никакой. Никто никогда не сбегал из Азкабана, и я сомневаюсь, что он станет первым.
— Ладно, — сказал Гарри, — звучит довольно убедительно, — он вздохнул, почесав затылок. — А если так: Тёмный Лорд не погиб той ночью на самом деле. Не окончательно. Его дух продолжает жить, нашёптывая людям кошмары, сбывающиеся в реальности, и ищет способ вернуться в мир живых, который он поклялся уничтожить, и теперь, согласно древнему пророчеству, он и я должны сойтись в смертельной дуэли. Победитель станет проигравшим, а побеждённый восторжествует…
На TV Tropes заметили, примерно на 30 главе МРМ, что каждый основной персонаж, похоже, рассматривает себя в отдельном жанре: «Гарри думает, что это РПГ или научная фантастика, Дамблдор думает, что они в эпическом фэнтези, а Гермиона — что в любовном романе. Кто-то ошибается касательно жанра, внутри которого он находится, но неясно, кто. А Драко думает, что он Лайт из «Тетради Смерти», но он определенно неправ».
Обожаю избитые сюжетные ходы. Они дают мне то, что можно разрушить.
Не в обычной литературной теории, но в литературной практике избитый шаблон о подлинно умных персонажах постоянно ассоциируется с шаблоном Понимания Жанра Касательно Опасных Ситуаций или по крайней мере Понимания Жанра. Потому что если вы обнаружите себя в чем-то, подозрительно похожем на фильм ужасов, вы никогда не будете отделяться от группы. Вы бы громко сказали: «Не отделяйся от группы, идиот!» — или «Именно так погибают люди в фильмах ужасов!» — если бы некто попытался так сделать. «Баффи — охотник на вампиров» — отличное изображение такого взаимодействия между персонажами с интеллектом первого уровня и пониманием жанра, жаль, что сериал закончился после третьего сезона.
Однако вы бы не хотели ассоциировать это понимание жанра с Ломкой Четвертой Стены (если, конечно, не пишете такой фанфик осознанно); вы не хотите описывать персонажа, который был бы слишком крут для вашей истории. Чего вы хотите, так это поместить своих персонажей в подходящие интересные и оригинальные ситуации, непохожие на те шаблоны, которые вы уже читали, чтобы умные персонажи не могли разрешить эти ситуации немедленно или даже предсказать успешно их развитие просто в силу того преимущества, что они читали те же книги, что и вы.
Таким образом есть Деконструкция, Перевернутый Сюжетный Ход, Отвлекающий Сюжетный Ход и другие формы разрушения штампов, неразрывно связанные с жанром умных персонажей.
Умные персонажи заметили бы, если бы автор играл с ними слишком явно.
Как я отмечал ранее, Голливуд считает, что быть «гением» — это хорошо играть в шахматы или изобретать удивительные гаджеты. Это не просто до ужаса избитое клише, но и без исключения то, что TV Tropes зовет Сообщенная Способность. Вы можете сказать мне, что персонаж хорошо играет в шахматы, но не можете показать мне этого.
Для того, чтобы показать мне, что персонаж — шахматный гений, вам бы пришлось показать его умение играть в шахматы. Вам бы пришлось вставить изображение конкретной шахматной позиции, дать мне решить, что положение черных ужасно, а потом показать, как игрок черными делает блестящий ход, гениальность которого я могу понять. Такой метод требует, чтобы я, читатель, сам был отличным шахматистом — и даже тогда, возможно, это не сработало бы в литературе.
Так как вам на самом деле показать гениального персонажа?
Представьте дилемму, вставшую перед Орсоном Скоттом Кардом, когда он писал «Игру Эндера» (книгу, не фильм). Кард говорит нам, что Эндрю «Эндер» Виггин — гениальный полководец и превосходно командует космическими кораблями, но это всего лишь слова. Нам никто не сможет показать, как Эндер Виггин организовал корабли в объёмный 3D «строй», чтобы мы могли увидеть собственными глазами, что это намного более подходящий для атаки строй, чем мы могли предположить (особенно в книге, не то что в фильме!). Для того чтобы показать, что Эндер умён, Кард должен поставить его в ситуацию, ужасающую сложность которой мы как читатели сможем ощутить и увидеть, и затем показать манёвр, предпринятый Эндером, который уже будет чем-то, что мы можем понять и сами увидеть, насколько маневр хорош или умен.
Поэтому в начале книги Кард утверждает, что когда вся армия противника заморожена, побеждающий командир с четырьмя незамороженными солдатами открывает вражеские ворота, что знаменует его победу и после чего включается свет и игра закончена. Кард показывает вам, как это происходит, несколько раз, чтобы вы определили это у себя в голове как хорошо известный факт. Затем Кард ставит Эндера против двух армий одновременно, что, по сути, очень трудновыполнимая задача, и, вероятно, даже Эндер не сможет победить, таким образом создавая напряжение сюжета… после чего Эндер перестаёт играть честно, просто ломится вперёд с пятью солдатами и сразу же открывает вражеские ворота. Никому не нужно объяснять, как это работает. Развязка момента кульминации понятна сразу. Правила, по которым определяется победитель, уже известны вам, история показывает ознаменование победы несколько раз, чтобы этот факт находился в вашей памяти в критический момент, когда вам сообщат хорошую идею Эндера, и Кард будет хотеть, чтобы вы поняли её тут же, не останавливая повествование.
Если вы, будучи автором, уже написали несколько таких сцен сами, вы поймёте, что единственная причина, по которой это правило существует во вселенной Эндера, настоящая причина, по которой битвы в военных школах заканчиваются шлемами четырёх солдат, прижатыми к вражеским воротам, в том, что Кард хотел поставить Эндера в заведомо проигрышную ситуацию, решил, что Эндер будет сражаться с двумя армиями одновременно, спросил себя: «Ну и как теперь Эндер сможет победить?», изобрёл условия победы, спросил себя, какого чёрта командиры не будут просто ревностно охранять свои ворота, и решил описать это (в ранних частях истории) как церемониальный финальный ход.
Честно ли это? Нет, но ослабьте верёвку на шее Орсона Скота Карда! Он просто не может показать нам истинный тактический гений того Эндера, каким бы он был в реальности, потому что мы не тактические гении.
Для более органичного примера рассудительности задумайтесь о выкрике Эндера «Вражеские ворота — снизу!» В условиях нулевой гравитации Эндер говорит своим солдатам: вы должны рассматривать ваших врагов как находящихся под вами, чтобы вы могли сориентироваться ногами к ним. Это уменьшает возможную площадь поражения и означает, что вражеские лазеры (которые Кард ранее показал вам!) заморозят вам ноги (согласно правилам, которые вам уже знакомы!), а не ваши руки. Это не какая-то литературная уловка, которой Эндер выигрывает битву против двух армий; это естественная идея для сражения в условиях нулевой гравитации с лазерным оружием. В этом случае я ожидаю, что Орсон Скотт Кард провел день в размышлениях о битвах в невесомости — или же несколько секунд, это зависит от того, насколько был умен, — а потом к нему пришло то, что показалось хорошей идеей. И тогда, возможно, он отверг ее и придумал другую, продолжая до тех пор, пока не пришел к лучшей, которую и дал Эндеру.
«Вражеские ворота — снизу!» также является идеей, которую вы можете представить сами. Вы можете представить, как бы это работало. Вы можете представить невесомость и сориентировать себя так, чтобы враг был под вами, видел только небольшую площадь для поражения, а ваши ноги защищали ваше тело от заморозки. Вам не говорили, что это умно, вы сами можете взять идею и самостоятельно оценить это решение.
И после того как Эндер говорит: «Вражеские ворота — снизу!» — никто из его солдат не кричит :»Это блестяще!» И Эндер сам не думает, насколько это умно. Никто не должен говорить явных слов об интеллекте.
(В общем, говорить о том, что уже было показано, значит уменьшать значимость этого. Смотрите троп «И это ужасно». Мощный момент обычно смотрится наиболее впечатляюще, когда его никто не комментирует и вся сила проходит прямо в сознание читателя. Как кто-то описал эту ошибку начинающего писателя: «Персонаж кричит так, что читателю не приходится». Подумайте о книге, которая заставила вас плакать, если таковая была, и спросите себя, были ли в тот момент там персонажи, которые плакали сами.)
Это ярко видно при изображении обычного голливудского гения: даже лучший сценарист, если хочет изобразить персонажа, хорошо играющего в шахматы, нуждается в ком-то, кто будет стоять рядом с персонажем, восхищенно открыв рот.
Орсону Скотту Карду удалось добиться такого исхода истории, в котором идея Эндера и правда сработала и его солдаты выигрывали битвы. Это «обман» в том смысле, что делает Эндера более умным относительно той когнитивной работы, которую проделал Орсон Скотт Кард для изобретения идеи насчет «ориентации на низ». Как читатель вы, возможно, думали, что «вражеские ворота — снизу» — отличная идея, над которой хорошо поработал Эндер (потому что вам это показали), а не что это одно из двадцати возможных предложений для битв в невесомости, ни одно из которых никогда не тестировалась.
Но, по крайней мере, это не претендующая или очевидная идея, которую история показывает нам как отлично работающую. Не похоже, чтобы Эндер говорил: «Пытайтесь нажать курок два раза подряд!» — и при этом никто в истории никогда раньше не пробовал так делать. Не похоже, чтобы Эндер пробовал нечто нелепо замысловатое (то есть полагался бы на то, что произойдет больше, чем три события, без сверхразумного или пророческого руководства), что сработало бы только благодаря авторскому произволу, а-ля Тетрадь Смерти. И снова воздадим хвалу Орсону Скотту Карду: он ведь не может на самом деле построить такую школу и протестировать свои идеи. По крайней мере это правдоподобно: если бы на самом деле построили такую школу в невесомости и провели бы там детскую битву, то им было бы лучше думать, что вражеские ворота снизу.
Помните, что цель «Игры Эндера» — не доказать, что Кард умен, равно как Кард не пытался доказать, выписывая Эндера, что он сам был семилетним убийцей. Эндер существовал как тактический гений; литературный вызов, стоявший перед Кардом, — то, как он мог вставить этот факт в текст.
Фундаментальное требование в персонажах с интеллектом второго уровня — это Понимание Честной Игры, обобщение Честной Игры в Кто Сделал Это в детективных романах. Это такой тип детектива, где читатель в принципе может разгадать загадку сам, с той информацией, которую ему дает история, где читателя самого приглашают попробовать решить задачу. Это часть удовольствия в хорошей детективной истории — придумать собственную теорию насчет того, Кто Сделал Это, и увидеть в развязке, были ли вы правы.
В обобщенном Понимании Честной Игры — как я понимаю его — решение задач, стоящих перед персонажем, должно быть таким, чтобы читатель в принципе мог бы додуматься до него самостоятельно. Если же в истории буквально нет возможного пути сложить кусочки вместе самостоятельно, это должно значить, что нет смысла в «ответе» как решении когнитивной задачи, это значит, что «ответ» не показывает какой-либо когнитивной работы.
Посмотрите также на Первый Закон Сандерса: «Способность автора решить конфликт магией ПРЯМО ПРОПОРЦИОНАЛЬНА тому, как хорошо читатель понимает высказанную магию.» Как результат, если вы хотите Понимания Честной Игры, чтобы написать хорошую книгу, читатель должен иметь настоящее понимание в своем сознании, а не просто игру в «Поймал!», где вы мельком упоминаете ответ в 26 главе. Чтобы драматично показать интеллект второго уровня, все кусочки паззла должны наличествовать и быть активными в сознании читателя, а не просто упоминаться один раз в единственном предложении на всю книгу ранее, и появляться достаточно часто, чтобы по-настоящему быть в сознании читателя. Так, чтобы читатель говорил «Ну конечно!» в момент драматичной развязки, а не «Стоп, подождите, когда это было..?»
Когда вы будете в следующий раз перечитывать МРМ, заметьте, сколько раз вам напомнили, что Гарри носит кольцо с бриллиантом, являющимся трансфигурированным булыжником, до критического момента в 89 главе, где использование данного факта никак не замедлило темп истории.
Закон Винжа гласит: если вы точно знаете, что сделал бы умный агент, вы должны быть по меньшей мере так же умны. Если вы точно знаете, куда бы походил Deep Blue, вы и сами можете сделать такой же ход и играете по меньшей мере так же хорошо, как и он. В теории мозаичных (самособирающихся) агентов закон Винжа проявляется в виде правила, что самомодифицирующийся агент не может знать точные выборы, которые сделает будущий он, до того, как решится на самомодификацию (поскольку тогда каждая последующая версия должна была бы быть последовательно глупее).
Место, где математик Вернон Винж нашел это наблюдение, — литературная теория научной фантастики: Винж видел, что он не может написать реалистичных трансгуманистичных персонажей, поскольку ему пришлось бы быть умнее, чем эти люди сами по себе, чтобы понять, как бы они поступали. Люциус Малфой в МРМ перефразирует закон Винжа и его литературную интерпретацию, когда рассказывает Драко, что пьесы наподобие «Трагедии Лайта» никогда не являются реалистичными, поскольку если бы постановщик был так же умен, как Лайт, он бы попытался захватить мир сам, а не ставил бы пьесы.
Это не значит, что вы должны бросить попытки описать умного персонажа, потому что считаете, что сами не так умны. «Быть умным» — это то, в чем вы сами можете решить стараться сильнее, то, что вы можете практиковать, а не что-то, что имеет фиксированную величину; инсайт, который имеет имя «мышление роста», можете погуглить (прим. пер. — в оригинале growth mindset, который у нас как только не переводят. Например, книга Кэрол Двек с таким названием и на эту же тему у нас вышла как «Гибкое сознание»). Но вам понадобится задействовать значительные объемы настоящего вашего разума, чтобы описать персонажа со вторым уровнем интеллекта.
Мы можем рассмотреть методы, при помощи которых Орсон Скотт Кард создал Эндера Виггина, как обобщенные скрытые уловки, которые формируют персонажа, чьи действия имеют больше видимой когнитивной работы, чем вы сами вложили в него, в ограниченное нарушение закона Винжа.
Первый скрытый трюк — это реверс-инжиниринг проблемы вокруг ваших идей возможных решений. Perfect Lionheart однажды написал: «Маггл с зажигалкой может зажечь огонь любого сорта, в то время как волшебник заклинанием для прикуривания может только зажечь сигарету». Так что если вы как автор видите, что протагонисту понадобится поджечь что-то в 20 главе, просто сделайте так, чтобы он выучил заклинание для прикуривания в 5 главе.
Я думаю об этом как об обратном трюке Lionheart, и это особенно применимо к манчкиновским моментам — событиям, вовлекающим новые применения существующих сил. Но любой релевантный факт может быть тем, который вы создали в прошлом; например в 26 главе, когда фальшивая газетная история упоминает долг крови Уизли дому Поттеров, устанавливая определенное правило для создания долга крови. (Хотя я отмечаю, что ключевым моментом, когда этот смутный факт понадобился для решения задачи, была пауза между главами, где я изначально дал читателям пару дней на то, чтобы перечитать и в большей степени осознать ответ.)
С этим тесно связана вторая хитрость — давать персонажу только те проблемы, с которыми он может справиться. Орсон Скотт Кард не забросил Эндера Виггина в комнату битв голым и в одиночку, потому что тогда Эндер не смог бы выиграть, так что Кард не стал так делать. Возможно, Кард рассматривал несколько различных вызовов для Эндера, до финальной битвы против двух армий, и выбрал только тот, в котором, по его мнению, Эндер мог выиграть. Опять же, это путь создания персонажа, который относительно своей вселенной умнее, чем вы вложили в него своей когнитивной работы; автор решает один из многих возможных вызовов, а персонаж демонстрирует свою способность справиться с чем угодно.
Я достаточно тщеславен, чтобы сказать вам, что я, скорее всего, не использовал столько скрытых литературных трюков при создании МРМ, сколько вы подумали. Например, я не заставлял Дамблдора в 17 главе говорить, что мантия невидимости может спрятать от взгляда смерти, чтобы потом использовать это в Азкабане. Это было лишь отсылкой к канону; а потом, уже во время написания арки Азкабана, я понял, что случайно дал Гарри ресурс, который был ему нужен, чтобы спрятать Беллатрису Блэк даже после того, как патронус Дамблдора отследил патронуса Поттера, после чего Гарри пришлось отменить свои чары. Но я должен признать, что если бы не было этого способа для Гарри справиться с этой проблемой, то у Дамблдора не было бы возможности отследить патронуса Гарри.
Третий скрытый трюк — это когда вы как автор решаете, что звучащая умно идея работает, когда в реальной жизни узнать работоспособность идеи можно только путем ее тестирования. Идея может все еще казаться умной, вам все еще нужно играть по правилам Понимания Честной Игры, чтобы иметь решение, которое будет выглядеть настоящим… но в реальной жизни большинство идей, приходящих в голову, все же являются неправильными.
Вот почему Элиезер Юдковский не захватывает мир путем симуляции профессора Квиррелла у себя в мозгу, как всерьез предлагали мне некоторые люди. Не хочу показаться бесстыдным, но на деле это был бы для меня шаг назад. Модель, которую я использую для создания профессора Квиррелла, даже близко не стоит с тем, чтобы использовать все методы, которыми я владею. В реальном мире все сложнее, чем для персонажей в историях, умные озарения куда реже являются истинными и умные стратегии куда реже оказываются рабочими. В реальной жизни мне приходится пробовать буквально десять идей, чтобы найти единственную идею, которая работает, часто прилагая усилия годами, прежде чем сдаться или преуспеть. Да, я известен невероятными уловками типа «написать фанфик по Гарри Поттеру, достаточно хороший для того, чтобы привлечь медалистов математических олимпиад», но это не единственный трюк, который я когда-либо пробовал. Вы просто не слышали столько же о моих умных идеях, которые не сработали после множества лет, когда я пытался делать странные и не очень вещи, чтобы выполнить свою задачу.
В литературе вы как автор можете решить, что отличная идея сработает, и реализовать ее, приправив потом, болью и непредвиденными последствиями, чтобы читатель мог ощутить, что персонаж сам добился всего. Вы не можете избежать проклятия построения вашей истории на умных идеях, которые по меньшей мере вряд ли сработали бы в реальной жизни, не только потому, что вам нужно тестировать идеи для поиска рабочих, но и потому, что в реальной жизни мы можем говорить об отношении провалов и успехов 10:1. Мы видим провал Гарри в 22 главе, потому что я ощутил, что должен сделать ударение на том, что умные идеи не всегда срабатывают. Но более реалистичную историю, где было бы 2 рабочих на восемь неудачных идей Гарри до того, как он сделал первое открытие в 28 главе, было бы не особо весело читать или писать.
Но! То, что вы обязательно должны жульничать таким образом, совершенно не означает, что вы имеете право жульничать, чтобы это выглядело как жульничество. К счастью, благодаря обычному человеческому оптимизму и ошибке планирования вашего интуитивного чутья по поводу «насколько хорошая идея кажется работающей» уже хватит на то, чтобы все замыслы и умные идеи выглядели бы гораздо более успешными, чем они были бы в реальной жизни. Если же вы возьмете идею, которая интуитивно кажется посредственной, или идею, которая кажется хорошей, но недостаточно умной, чтобы сработать, и ваш персонаж победит с помощью такой идеи, то результат нельзя будет считать литературой.
В течение некоторого короткого времени я планировал, что Гарри улетит из Азкабана на ракете, приклеенной к метле суперклеем. Но, когда я начал писать эту часть текста, я осознал, что в реальной жизни любой, кто попробует такое проделать, неизбежно погибнет. Это чересчур даже для вымышленной истории. Поэтому мне пришлось сделать так, чтобы профессор Защиты очнулся и улучшил изобретение. После этого идея на интуитивном уровне стала больше походить на работающую. Хотя если бы вы попробовали проделать что-нибудь подобное в реальной жизни, вы с огромной вероятностью врезались бы в стены Азкабана и погибли, или чары неразрушимости, наложенные профессором Квирреллом, случайно бы подействовали на твёрдое ракетное топливо или сделали бы какую-то гибкую деталь негибкой, и так далее. Крайне тяжело сделать так, чтобы сложное новое устройство заработало с первого раза. Когда НАСА запускает космический аппарат, который нельзя полностью проверить заранее, требуются годы тщательных раздумий, планирования и перепроверок.
Все три хитрости позволяют в некоторой степени нарушать закон Винджа. Внутри, в мире текста, персонаж решает именно ту задачу, которая перед ним стоит, всего лишь с помощью тех ресурсов, что оказались у него под рукой, и благодаря идее, которая кажется достаточно хорошей, чтобы на самом деле сработать. Снаружи автор переделывает прошлое, начиняя его фактами, которыми можно воспользоваться нетривиальным образом, подбирает задачи, с которыми можно справиться, и подбирает идеи, которые относятся к категории «интуитивно кажутся очень умными», а не «абсолютно точно работающие в реальной жизни».
Даже при этом создание умных персонажей второго уровня требует от автора труда и наличия собственного интеллекта. Голливудский способ создания стереотипных гениев можно расценить как вариант абсолютной лени. Сценаристы изображают гениев, совершенно не включая мозг, они даже не трудятся попросить своих друзей-учёных поделиться техническими словечками. Семнадцать языков, удивительные гаджеты, побеждает гроссмейстера в шахматы, не умеет ухаживать за девушками? Все эти черты объединяет то, что их можно написать, не прикладывая существенных умственных усилий.
Поэтому берегитесь искушения ленью и будьте осторожны с тем, как вы жульничаете. Покажите, как персонаж страдает, покажите раздумья, покажите, как его интеллект второго уровня приводит к успеху. Покажите непредвиденные последствия. Заставьте персонажа иногда проигрывать. Только продемонстрируйте, что идеи срабатывают тогда, когда интуитивно кажется, что они должны сработать, причём, возможно, не всегда.
Вы можете иногда получить внутри вселенной более умного персонажа, чем вложили в него. Но вы не можете получить нечто из ничего. Я советую вам не думать, что вы можете полностью положиться на различные уловки, а стараться быть умным так, чтобы вы могли создавать Понимание Честной Игры, лежащее в основе Интеллекта Второго Уровня. В этом смысле тут нет отличий от Интеллекта Первого Уровня: все еще должна существовать эмпатия, которая питает его основу.
Персонажи с интеллектом второго уровня иногда изображаются как делающие нечто новое, что удивляет других персонажей, и почти всегда эти вещи должны быть Озарением Честной Игры. Тогда почему же удивляются враги — почему же они не получили Озарение Честной Игры сами? Возможно, потому, что враг не столь умен, как протагонист. Возможно, потому, что у персонажа есть секретное оружие, личный ресурс, о котором враг не знал (например, Истинная Мантия Невидимости). Но если ваш персонаж делает нечто, о чем не подумала вся цивилизация, мы должны спросить: а почему целая цивилизация не подумала об этом?
Есть старая шутка, что если экономист видит двадцать долларов на тротуаре, то он не станет их поднимать, решив, что если бы они были настоящими, их бы кто-нибудь уже подобрал.
На деле, если вы находитесь на пустынной улице, то достаточно правдоподобным является предположение, что вы первый, кто нашел эти деньги. Когда я спросил 20 людей, происходило ли такое с ними, четверо сказали, что да. Но можно заметить, что остальные ответили нет. И если вы видите сто долларов на полу Большого Центрального Вокзала в течение часа, то можно сделать ставку на то, что они к нему приклеены или же на этом полу нарисованы.
Поскольку я еще не видел официального термина для этого обобщения идеи «эффективных рынков», я решил использовать термин «неиспользуемость уязвимостей».
Если множество людей хотят чего-то, существующего в ограниченном количестве, то удивительно существование легкого пути, которым может воспользоваться любой, для получения данного ресурса. Много людей хотят денег, так что удивительно найти на дороге двадцать долларов. Это происходит редко, в тех случаях, когда улица пустынна — наше общество не сканирует постоянно улицы на предмет валяющихся денег; это не стоит таких усилий. Но двадцать долларов не будут лежать часами на полу Большого Центрального Вокзала. Прохожие достаточно адекватны, чтобы поднять их. Пытаться найти двадцать долларов на полу Большого Центрального вокзала — наивно; тут нет низко висящих фруктов, они уже собраны, мы ожидаем, что такая проблема не будет не использовать уязвимости.
Эта идея имеет свои недостатки. Краткосрочные рынки акций неиспользуемы, но это вследствие большого количества умных людей, которым платят большие бонусы, если они могут предсказать и скорректировать единичный недостаток на временной шкале, где они получают много обратной связи о том, работают их идеи или нет (я определил краткосрочные рынки акций), используя механизм агрегации (ценообразование на рынке), который на практике работает превосходно, суммируя вклад каждого. Это условия, при которых стандартная теория хорошо предсказывает неиспользуемость. Вы не должны показывать, как ваш персонаж удваивает свои деньги за месяц путем торговли на рынках, пока у него не будет наиболее продвинутого ИИ в мире или он не будет иметь глобальное уникальное предсказание или способность путешествовать во времени; буквально никто так не умен.
С другой стороны, прямо сейчас (2014) Европейский Центральный Банк делает ошибки прямо по учебнику экономики, становясь причиной бессмысленного ущерба в миллиарды евро в европейском сегменте. Некоторые из моих друзей, похоже, думают, что некоторое обобщение «эффективных рынков» подразумевает, что они должны бросать на меня сомневающиеся взгляды, когда я говорю, что это правда и что я знаю, что это правда, потому что как я могу быть уверен, что знаю лучшую денежную политику, нежели профессиональные экономисты, работающие в ЕЦБ? Разве это не какой-то вид сверхуверенности — думать, что я могу найти трейдинговую стратегию, которая побьет рынок?
Ну вообще-то не совсем. Насколько я знаю, буквально никто в комитете по решениям в ЕЦБ не получает зарплату в зависимости от того, хороша ли ситуация в Европе. Их работа зависит от впечатления, которое они производят на политиков, которые не являются экономистами. Никто еще не может вмешаться и сделать миллион евро путем лучшей работы. При таких условиях стандартная экономическая теория не очень хорошо предсказывает эффективность.
Аналогично абсолютно разумно для вашего персонажа проводить лучшую политику, чем та, которую использует его центральное правительство. Абсолютно разумно для королевских армий игнорировать дракона, который опустошает деревни, оставляя дело в руках протагониста, потому что бюрократам, отвечающим за борьбу с драконом, не заплатят больше, если дракон будет убит, и никто кроме них не имеет власти принять решение. В реальной жизни такое происходит все время.
Но если вы показываете, как персонаж в вашем мире делает много денег при помощи комбинации из двух простых заклинаний, которые знают все, вам действительно надо задуматься, почему об этом не догадался кто-то еще.
Наруто хуже в этом балансирующем искусстве, чем любой другой сериал, который приходит на ум. Я говорю не просто обо всех этих техниках, что предположительно выучиваемы, но при этом их использует только один персонаж за раз. Но невозможно, чтобы все еще существовали армии наемников или обычных людей, когда (а) достаточно чакра-пользователей, которые по средствам доступны даже фермерам, при этом не каждый генин супербогат, и (б) ребенок-ниндзя может побить взрослого громадного наемника без особых усилий. Чакропроводящий метал редок и не у всех есть чакра-оружие? Отлично, если вы придерживаетесь этого правила последовательно, но Страна Снега имеет столько этого металла, что даже делает доспехи из него! Это все равно что в нашем мире никто бы не додумался до простой мысли «Возьми нечто, что дешево в пункте А, и продай его там, где оно дорого.» Это было известно еще до изобретения денег. Мы можем отслеживать кремневые орудия, которые путешествовали по континентам.
Древние греки не вывели идею естественного отбора, хотя имели всю нужную информацию; и во многих темных углах мира, как, например, в Америке, идея все еще полностью не принята. Иногда вещи удивительно неочевидны и сложны для понимания. Но «взять нечто дешевое в А и продать его в Б, где оно дорого» — не одна из этих неочевидных штук. Вы можете представить, как это работает, можете сделать это, это окупается, другие люди повторяют эти действия за тем, кто стал богатым, и таким образом эта идея распространяется по всей человеческой истории.
Если вы решаете, что Страна Снега имеет достаточно чакропроводящего металла для создания больших проектов, вы не можете сказать, что чакропроводящий металл редок и дорог в Стране Огня, до которой всего лишь месяц пути. Ваш мир не должен быть так неиспользуем, как краткосрочные фондовые рынки, даже близко, но он не может быть неиспользуем без причины.
Сюжет МРМ позволяет Гарри иногда получать озарения, которых другие волшебники не видят, и делать это за месяцы, а не за десятилетия.
Чтобы сделать это более реалистичным, делаются два основных предположения.
(1) В самом начале МРМ (пятая глава) делается предположение, что только малое количество магглорожденных поступают в Хогвартс каждый год и все они уходят из маггловского общества до того, как могли бы получить научное образование. Культурное взаимодействие с маггловской Британией, не говоря уже о реальной торговле, неявно показано как весьма ограниченное (согласно канону). Это допущение позволяет Гарри приходить к инновациям, которые являются Честной Игрой относительно читателя, поскольку читатель также знает маггловские штуки, которые неизвестны волшебникам.
Хотя МРМ не вдается в детали, отсутствие торговли между магической и маггловской Британией подразумевает некоторые причины заднего плана, например почему Уизли не могут просто пойти и сделать миллионы фунтов на продаже исцеляющих чар богатым магглам. Предположительно люди наподобие Люциуса Малфоя организовали жесткое ограничение торговли с магглами — для защиты бедных невинных магглов, возможно — так чтобы только люди наподобие Люциуса Малфоя могли преумножать состояние своей семьи на этом, а все остальные — нет. (Это также правдоподобный момент, где идея Гарри о золоте и серебре скорее всего натолкнулась бы на препятствие — есть множество собак, что не лают, и множество рикардианских сравнительно хороших сделок, что не происходят, а не только одна.)
(2) Роулинг в одной из записей говорит, что всего в Хогвартсе учится порядка тысячи студентов (подразумевая, что в год поступления Гарри были студенты, но их просто не показали в книгах канона) Это, в свою очередь, подразумевает примерно 10000-20000 людей в магической Британии — то есть их «страна» на самом деле небольшой городок. И Дж.К. Роулинг последовательно выписывает Люциуса Малфоя как богатого парня из небольшого города, а Корнелиуса Фаджа — как глупого мэра такого города.
В реальной жизни малый размер магической Британии мог бы и не уменьшать скорость прогресса так, как мы могли бы наивно ожидать. По причинам, которые мне неясны, число гениев и скорость прогресса в цивилизации, похоже, не масштабируется вместе с общей численностью населения — возможно, по той же причине, по какой малые стартапы могут быть столь же креативны в среднем, как и гигантские компании (вне зависимости от того, что это за причина). Однако если магическая Британия стоит в ряду наиболее образованных и организованных магических наций, и в ней только 20000 людей, то будет разумно, что прогресс в магическом мире является медленным.
Учитывая эти два предположения, пара десятков мистиков на службе у Департамента Тайн могут легко потерпеть неудачу в попытках увидеть возможности, заключенные в Маховиках Времени, и закончить тем, что начнут использовать их просто для подгонки расписания в Хогвартсе. Первые истории о путешествии во времени, за авторством Уэллса, тоже были о посещении далекой земли будущего, а не о решении NP-проблемы. Сменилось несколько поколений нашего большого мира авторов научной фантастики, повторявшихся в своих историях, чтобы путешествие во времени ассоциировалось со всеми возможностями, о которых я могу подумать в 2014 году. Магическая Британия не имеет такой длинной традиции научной фантастики, написанной лучшими авторами нашего большого мира, чтобы предложить эти возможности для путешествий во времени. И поэтому Гарри, выросший на фантастике, может видеть эти возможности, в то время как, по моему предположению, другие волшебники не могут. В каноне только Гермиона Грейнджер предприняла попытку использовать Маховик Времени не по назначению, и она была магглорожденной.
Это цивилизационная неадекватность — обратная сторона неиспользуемости уязвимостей. Если ваш персонаж превосходит цивилизацию, то должны быть причины для этого. Не обязательно хорошие оправдания, но реалистичные цинично-экономические причины: проблемы с координацией, проблемы принципала-агента, люди, гоняющиеся за статусом, комитеты, где никому не платят за успех проекта. Или даже более обыденное: ни у кого еще нет магического ресурса, только несколько человек слышали о магическом секрете, ваш протагонист из другого мира и использует методы мышления, которые не были изобретены в течение тысячелетий на нашей Земле, и так далее.
Вам не нужно заходить слишком далеко в поиске причин цивилизационной неадекватности. В реальной жизни цивилизация справляется куда хуже, чем вы можете наивно предположить на основе количества людей и того, как, похоже, их что-то волнует. Даже страны, о которых мы читаем в книгах по истории, при всех их недостатках, были странами, что функционировали достаточно хорошо, чтобы оставить след в мировой истории. Британия времен Второй мировой была необычно квалифицированной страной, в то время как Франция тех же времен просто коллапсировала, когда вражеские танки вошли в нее. В таком свете Корнелиус Фадж не так уже нереалистичен даже в качестве правителя большой страны.
Но если вы автор произведения, рекламируемого как интеллектуальное, вам, возможно, придется иметь дело с наивными ожиданиями читателей. Они могут спросить: «Почему Король без необходимости провоцирует Павшую Империю?» — несмотря на то, что книги по истории изобилуют примерами глупости куда большей. Они могут спросить: «Почему же никто больше не использует заклинание воскрешения?» — когда заклинание воскрешения в книге дорого или труднодоступно, а в реальной жизни почти никто не подписывается на крионику, которая стоит мне 125 долларов в год за членство и 180 долларов в год за страховку.
Это основная причина для рационалистского фанфикшена.
Азкабан в том виде, в каком его описала Роулинг, полностью реалистичен. Если в американских тюрьмах нет дементоров, то это потому, что у американских политиков нет дементоров вообще, а не потому, что они лучше тех людей, что заседают в Визенгамоте. Сексуальное насилие является обыденностью в американских тюрьмах, в то время как его можно было бы легко предотвратить при помощи видеонаблюдения. Американские тюрьмы хуже Азкабана в том отношении, которое Роулинг не могла легко имитировать без того, чтобы сломать приостановку читательского недоверия. По крайней мере волшебный мир не помещает в тюрьмы тех, кто курит марихуану.
И даже так: если бы Азкабан был моим собственным изобретением, кто-то мог бы спросить насчет реализма реакции Гарри на Азкабан, в отличие от всех тех людей в магической Британии, которые, похоже, не замечают, что Азкабан — моральное преступление. (Как и американцы не замечают моральные преступления! Роулинг не была так уж нереалистична!) Как это Гарри видит все эти ютили (прим. пер. — тут, насколько я понял из http://wiki.lesswrong.com/wiki/Utility, имеется в виду единица измерения полезности) которые можно получить, уничтожив Азкабан, когда никто больше не видит этого? (Ответ: невозможно для любого участника арбитража сделать сотни тысяч галлеонов выручки, если у них есть озарение, что Азкабан бессмысленно жесток, поскольку стандартная экономика не предсказывает моральную эффективность так, как предсказывает эффективные рынки.) Возможно, Элиезер Юдковский изобрел Азкабан только чтобы одержать победу своим супергероем, и поместил его в мир как сырую неэффективность, соломенное чучело…
Но я не изобретал Азкабан, он был прямо в каноне и миллионы читали Роулинг и (вежливо) приняли его как данность, а не заявили (невежливо) что там нет (плохой) демократии (размера малого города), чтобы сделать такую вещь, и что она придумала Азкабан, только чтобы показать превосходство моральных установок ее героя.
В фанфикшене вы можете написать истории о чьей-либо вселенной, которую вы не изобретали и которая будет используемой, вселенной, чьи читатели, однако, были слепы так же, как слепы к возможностям и ужасам реальной жизни. Более того, ваши читатели будут знать, что множество читателей канона приняли фоновую неадекватность как нечто не делающее персонажей бесчеловечными, как и их цивилизации. «Вы говорите, это нереалистично? А вы подпрыгивали с криком «никто в обычной жизни не сделал бы этого!», когда читали канон? Подпрыгивали? Ну а буквально миллионы других читателей — нет».
В МРМ я могу указать на Азкабан и сказать «потому что он был там». Равно как и в нашей собственной вселенной это не мое личное мировоззрение — верить, что правительства продавали бы рекламируемые лотерейные билеты даже после показа того, что эти лотереи являются причиной уменьшения в среднем на 3% расходов на еду в малообеспеченных семьях. Не то чтобы я показывал, как циничен я насчет политиков; это факт, который я вбросил бы в фик по Земле как фоновую истину без того, чтобы оправдывать его. В МРМ я могу сказать то же самое о Корнелиусе Фадже, хотя источник — Роулинг, а не реальный мир. Важно то, что цивилизационная неадекватность уже дана, а не выписана мной как мое собственное утверждение.
Некоторые люди обвиняют меня в том, что я сделал МРМ более использующим уязвимости, нежели канон, поскольку Роулинг говорила, что дементоры скорее депрессия, а я отнес их к смерти. Это правда, что в таких случаях я не могу просто сказать, что так было в каноне, но… да ладно вам, дементоры — это летающие трупы, которые не могут ничего, кроме как убивать или разрушать, и могут быть побеждены только счастливыми мыслями в виде животных. Слова за пределами истории, что они вдохновляются депрессией, звучат как мощное утверждение о том, как ужасна депрессия, но были бы приуменьшением для этой загадки, если бы вы были реально внутри этой вселенной. Например, если бы вы блуждали в магической вселенной и увидели несколько неубиваемых трупов, что можно отогнать только счастливыми мыслями в форме животных и вы бы типа: «Хм… что это может представлять… смертность? Да не, думаю, депрессия», — это значило бы, что вы сильно постарались, чтобы дать контринтуитивный ответ. С моей точки зрения, дементоры-это-смерть — это Озарение Честной Игры относительно наблюдений, что вселенная канона дает нам.
(Но тогда мы должны продолжить логику рассуждений: Озарение Честной Игры не имеет защиты от того, чтобы не вмешались Годрик Гриффиндор и Ровена Рейвенкло. Вам не нужна наука магглов, чтобы решить эту загадку. Так что теперь нам надо спросить: почему Гарри был первым, кто подумал об этом? Разве кто-то не подумал бы уже об этом, если это так очевидно? Таким образом, как только Гарри узнает, что дементоры есть смерть, история тут же объясняет, почему те, кто понял это, хранят данное знание в секрете, и Гарри понимает, что Годрик Гриффиндор тоже был среди тех, кто догадался. Истинный Патронус базируется на редком состоянии разума, которое, к моему сведению, было впервые описано Фрэнсисом Бэконом в «Новой Атлантиде» в семнадцатом столетии: решение, которым вы и ваша цивилизация попытается уничтожить саму смерть, вашей собственной силой, а не только при помощи существующих стражей защитить вас. Это традиция, которой следует только Гарри; и правдоподобно, что Годрик и Ровена, которые не росли на тех же научно-фантастических книгах, никогда не достигали того же состояния разума. Все это должно быть рассмотрено в фоне, если не явно в истории, каждый раз, когда какое-то озарение или изобретение позиционируются как относительно новые касательно окружающей цивилизации.)
Я получил много откликов насчет того, что сделал дементоров воплощениями смерти. И меня на самом деле обвиняли в том, что я описал их так, что только Гарри мог понять это. Тут можно увидеть, что случается без возможности ответить «потому что канон!», когда автор начинает помещать то, что каждый считает только используемостью авторского произвола.
И поэтому есть истории, которые вы можете рассказать в фанфикшене, но которые вы не можете легко рассказать иначе, поскольку в фанфикшене читатель знает, что вы не создаете искусственно проблемы, с которыми встречается герой.
В «Неиспользуемости уязвимостей» я описал, как Азкабан мог появиться в МРМ только потому, что это изобретение Роулинг, а не мое. Можно обобщить это явление: есть авторские решения, которые вы не можете сделать сами и которые только автор может сделать для вас.
Введение Даров Смерти и их значение в МРМ я смог сделать только потому, что Роулинг уже сделала семейным девизом Поттеров «Последний враг истребится — смерть». Я никогда не смог бы изменить значение этого предложения из девиза Поттеров, не будь этого в каноне! Можете вы представить негодование читателей? Можете вы представить, как громко бы кричали люди «Двигатель сюжета!» или «Нет, это слишком уж удобно!» и «Это вообще неправильно, трансгуманизм не то, что передается от родителей и что можно унаследовать, это решение, которое мы принимаем сами!» И они были бы правы, не будь этой эпитафии на могиле Джеймса и Лили.
Поскольку надпись была на надгробном камне Поттеров, было бы неправильно, если бы я переиначил и придумал ее сам, сделав бы моментом святости, неожиданного эхо сквозь время. (Что внутри истории должно было вовлекать магию, пророчество, судьбу или что-то еще, потому что внутри истории подобные вещи не могут быть простым совпадением. Даже когда в реальности Роулинг поместила эти слова на надгробный камень без мыслей о МРМ.)
И глубже: чтобы каким-то образом объяснить и раскрыть наблюдения, что уже были в истории, так, чтобы сделать их правдоподобнее. Мне не пришлось оправдывать семейный девиз Поттеров или думать, как бы выкрутиться с ним красиво, потому что он уже был подходящим. Это было нечто, что ощущалось правильным для меня, иметь предположение Гарри насчет дементоров, которое я не ощущал бы, если бы Роулинг не заложила его в наблюдения.
Есть то, что ощущается естественным в использовании законов и объяснении фактов, что некто заложил их, возможно потому, что это привязывает сходство к реальному вызову, что мы бросаем против Природы.
Один из путей для такого ощущения — это путь хорошей фантастики и фэнтези: иметь малый набор заранее заданных условий, таких ужасных, что к моменту, когда они переходят в проблемы и загадки, вы не чувствуете, что вы выбрали их, потому что они проистекают из закона.
Но этот путь труден и работает не для всего. Есть простые законы, которые вы можете определить для путешествий во времени, и тогда все следует из этого; но нет простых законов, что создают дементоров, или Азкабан, или надгробный камень Поттеров.
Так что другой путь — это писать истории внутри чьей-то еще вселенной и следовать наблюдениям этой вселенной, пока вы не начнете давать свои собственные ответы на ее загадки и выводить дальнейшие факты, которые требуются для ваших ответов как фоновые истины.
Вот так и создаются рациональные фанфики.
Одним из главных сюрпризов при написании МРМ для меня было то, насколько сильно я недооценивал Иллюзию Прозрачности.
Иллюзию прозрачности можно наблюдать в экспериментах, где человеку говорят выстучать пальцами ритм мелодии (не такой, какая сразу приходит на ум, но все же достаточно известной), а потом предлагают оценить вероятность того, что другой человек поймет, что это за мелодия. Если человек оценивает вероятность в 50%, то на деле результат оказывается в районе 2%. Примерно так же люди считают, что разница в их искреннем «да» и саркастичном «да» куда заметней в телефонном разговоре, нежели на самом деле.
Иллюзия прозрачности постоянно напоминала о себе, пока я писал МРМ:
Некоторые вещи, которые я считал очевидными и вовсе не планировал делать загадочными, которые, согласно моей оценке, должны были сразу приходить на ум среднему читателю, становились предметом жарких дискуссий.
Ключи, которые я выкладывал практически на самое видное место и которые могли быть сюрпризом разве что среднего уровня в момент осознания, судя по обсуждениям, не замечались большинством людей. Читатели предлагали идею, которую я изначально закладывал, значительно реже, чем другие, или же она вообще появлялась только после раскрытия загадки, при том что к этому моменту свидетельств было уже достаточно, чтобы убедить среднего судью.
Те моменты, что я полагал тонкими настолько, чтобы десятая доля читателей догадалась о них уже при втором прочтении, замечались только единицами из сотен, а то и вообще пропускались, пока кто-то лишь спустя несколько лет не поднимал про них тему, получая в ответ волну скептицизма.
Следует заметить: несмотря на то что может показаться, будто я упрекаю своих читателей в недостатке интеллекта, это не так — часто читатели предлагали альтернативные гипотезы происходящего в истории, о которых я никогда и не думал. Например, что Квиррелл — это Гарри, вернувшийся во времени, и именно поэтому они не могут касаться друг друга, ведь, как я сам писал в 14 главе, обращенная во времени материя ведет себя как антиматерия, и именно этим объясняется ощущение обреченности, описанное в 16 главе. Это вполне обоснованная гипотеза, хотя мне она никогда не приходила в голову! Меня ослепило знание реальных фактов моей истории; я знал, что происходит, и поэтому не ощущал неопределенности и любопытства, которые могли бы помочь мне увидеть валидные альтернативные гипотезы (весьма важный урок!).
Это дало мне возможность представить вам Новый Улучшенный Рецепт встраивания загадок, уловок и свидетельств в вашу историю.
Прежде всего определите те по-настоящему важные для сюжета фоновые факты, которых, с вашей точки зрения, персонажи не знают и на которых текст не должен делать явный акцент до самой развязки.
И не делайте абсолютно ничего, чтобы скрыть их. Никаких ложных путей, если не считать тех, что антагонисты истории могли подготовить для обмана героев. Не прячьте улики и свидетельства, даже если они кажутся вам чересчур очевидными. Не волнуйтесь, что читатель догадается слишком рано. Просто позвольте фактам истории отбрасывать какие угодно вопиюще огромные тени, пока история попросту не выплюнет буквальную истину прямо в текст.
Благодаря иллюзии прозрачности это все будет трудней заметить и свести в общую картину, чем вам кажется. Все это будет загадкой, которую внимательные читатели будут обдумывать по мере прочтения истории.
И даже тогда не факт, что большинство читателей заметят загадку до того, как история закончится, что им вообще придет в голову задать вопрос, пока персонажи истории явно не задумаются об этом сами. Если загадка кажется вам важной для сюжета, вам придется заставить персонажа упомянуть о ней (пусть даже он не сумеет решить ее из-за недостатка данных или просчета в мышлении), чтобы читатель точно был в курсе существования загадки.
Это не значит, что читатели глупее вас. Так происходит вследствие того, что читать получается быстрее, чем писать. Если в тексте нет прямого указания остановиться и подумать над определенным предложением, то человек продолжит читать. И даже если явно сказано, что предложению стоит уделить внимание, читатель все равно пойдет дальше. Если заставить персонажа подумать «Хм…что-то не так в этой истории, мне нужно остановиться и поразмыслить…», как вы думаете, что сделает читатель? Правильно, продолжит читать, чтобы узнать ход размышлений персонажа.
Теперь я способен создавать куда более тонкие улики, нежели крик во все горло, и при этом быть уверенным, что их заметит больше одного читателя, но это только потому, что у меня есть сообщество из тысяч читателей, которые анализируют МРМ. Я действительно был впечатлен тем, насколько увеличивается мощь способности читателей находить свидетельства, если они собираются в сообщество. Господствующие теории существенно улучшились, скорость обнаружения свидетельств возросла, если сравнивать с теми временами, когда комментарии к главам оставляли только единицы. Появление сообщества было моментом, когда я реально увидел доказательство мощи коллективного интеллекта, потому что это единственный случай, где у меня были все верные ответы, но я держал их в секрете и смотрел, как другие люди пытаются найти их в течение нескольких лет, используя две формы общественной структуры, позволяя мне сравнить их эффективность в поиске истины.
Подлинная мораль здесь в том, что если у вас нет большого организованного онлайн-сообщества, анализирующего вашу работу, не стоит прятать свидетельства слишком хорошо, если вы хотите, чтобы читатели надежно разобрались в чем-то, особенно при первом прочтении.
МРМ, 23 глава:
«— Однако, — сказал Гарри, — это только одна из гипотез. Предположим, что в рецепте есть единственная пара, в которой записано, волшебник ты или нет. Только одно место для «магических» или «немагических» бумажек. Тогда есть только три варианта. Обе бумажки «магические». Одна бумажка «магическая», а другая — «немагическая». Или обе бумажки «немагические». Волшебники, сквибы и магглы. Магглорождённые тогда будут рождаться не у настоящих магглов, а у двух сквибов — у двух родителей, у каждого из которых в рецепте по одной «магической» и одной «немагической» бумажке. Теперь представь, что ведьма выходит замуж за сквиба. У каждого ребёнка всегда будет по одной «магической» бумажке от матери, не важно, какая из них будет выбрана случайным образом. Но, как и при подбрасывании монеты, в половине случаев у ребёнка будет «магическая» бумажка отца, и в половине — «немагическая». Если верна предыдущая гипотеза, у детей от этого брака был бы слабый магический дар. Но в данном случае — половина будет волшебниками и ведьмами, по силе равными матери, а половина — сквибами. Ведь если в рецепте только одна пара, определяющая, волшебник ты или нет, то магия — это не стакан мелких камушков, которые могут перемешиваться. Это один волшебный камешек, камень мага.
Гарри выстроил три пары бумажек: на одной написал «магия» и «магия», на другой написал «магия» только на верхней, а третью оставил пустой.
— В этом случае, — сказал Гарри, — у тебя либо есть два камня, либо у тебя их нет. Ты либо волшебник, либо нет. Могущественными волшебниками будут более обученные и опытные. И если волшебники становятся слабее от природы, не из-за утерянных заклинаний, а из-за утраченной способности их творить… что ж, может быть, они питаются как-то не так или ещё что. Но если этот процесс постепенен и неуклонно продолжается на протяжении более восьмисот лет, это может значить, что сама магия уходит из мира.
Гарри выстроил ещё две пары бумажек и достал перо. Вскоре в каждой паре было по одной «магической» бумажке и одной пустой.
— Что приводит меня к следующему предположению, — сказал Гарри. — Что происходит, когда женятся два сквиба? Подбрось монетку дважды. Могут получиться: орёл и орёл; орёл и решка; решка и орёл; решка и решка. В четверти случаев получается два орла, в четверти — две решки, а в половине случаев получится один орёл и одна решка. Так и с семьями сквибов. У четверти детей будет «магия-магия» — волшебники. У четверти — «немагия-немагия», магглы. А оставшаяся половина будет сквибами. Это очень старая классическая схема. Обнаружил её Грегор Мендель, которого до сих пор помнят, и это открытие стало первым шагом к разгадке секретов крови. Каждый, кто знает хоть что-то о науке крови, узнает эту схему в мгновение ока. Она не будет точной, ведь нельзя с уверенностью утверждать, что, подбросив монетку дважды сорок раз, ты получишь ровно десять пар орлов. Но если волшебников от семи до тринадцати из сорока детей, то это уже веское свидетельство. Поэтому я и хотел, чтобы ты собрал эти данные. Давай теперь на них посмотрим.
И, не дав Драко опомниться, Гарри Поттер выхватил пергамент у него из руки.
У Драко пересохло в горле.
Двадцать восемь детей.
Он не помнил точно, но около четверти из них были волшебниками…»
Если бы мне пришлось выделить шесть навыков, необходимых для описания реальной науки в художественном произведении — только кратко, не развернутые описания, но по крайней мере описать на что они были бы похожи, чтобы они могли сказать вам, плывете вы или тонете:
1) Знать материал на уровень выше того, чем появляется в истории. Генетика Менделя была отправной точкой для современной генетики, и она невероятно проста по сравнению с современной генетикой популяций, включающей сложные математические расчеты. Я узнал о Менделе, когда читал «The Coil of Life» в возрасте десяти лет, и я предположил, в интересах произведения, что Гарри сделал то же самое. Вам не нужно знать досконально современную генетику или даже уравнение Прайса, чтобы выписать мысли Гарри. Вам нужно знать Менделя и знать достаточно хорошо, чтобы убедиться, что ваш персонаж понимает его правильно.
Чтобы убедиться в своем твердом знании, постарайтесь изучить по крайней мере один уровень выше того, что используется в истории. Вам не нужна степень доктора в генетике популяций, однако было бы мудро знать достаточно о генах, фенотипах и хромосомах, что генетика Менделя является для них частным случаем, а не для какой-то продвинутой штуки, которую можно прочитать в научно-популярных книгах. (Персонаж может прочитать только популярную книгу, я так моделировал Гарри, но мне нужно было разбираться лучше.)
2) Быть готовым увидеть, как материал будет реализован в истории. Корень этого навыка в принципе Ричарда Фейнмана «Смотрите на воду!», описанном в http://v.cx/2010/04/feynman-brazil-education.html (прим. пер. — русский перевод можно прочитать тут http://www.abitura.com/modern_physics/Feynman1.html), о котором вы должны пойти и прочитать прямо сейчас.
Один из путей тренировки навыка «Смотри на воду!» — то, что на CFAR называется упражнением «Понедельник-Вторник». В понедельник телефоны работают посредством радиоволн. Во вторник они работают на магии (на любой из магических вселенных, какой захотите, хоть из «Баффи — охотницы на вампиров»). Насколько разными бы выглядели понедельник и вторник? Как бы вы распознали, в какой вселенной вы сейчас находитесь? Представьте альтернативы научным принципам, которые вы знаете, спросите, насколько иным выглядел бы мир, будь эти альтернативы истиной.
3) Вы должны владеть искусством релевантности; это способность увидеть точно те аспекты знания, которые необходимы для определенного вывода, или нужный набор шагов в мышлении, а потом включить только те вопросы и идеи, что относятся к сюжету. Вам надо использовать искусство релевантности, чтобы понять: ненужно включать тот факт, что люди имеют 23 пары хромосом, в слова, которые Гарри говорит Драко — что процесс мышления при этом будет протекать точно так же и в альтернативном мире, где у человека 90 хромосомных пар — и поэтому нет необходимости упоминать это, даже если этот факт является первым, что приходит вам в голову при упоминании генетики.
К сожалению, я не знаю, как нормально тренировать эту способность, это, похоже, общая проблема — большинство людей обычно вставили бы факт «у человека 23 хромосомы», даже если бы это не было критично для истории. (Я часто говорю о редком использовании данного искусства.) Базовый тест здесь заключается в том, что для любого научного факта, который вы хотите объяснить, вы должны спрашивать себя, насколько иной была бы ваша история, если сам факт был бы другим. Если это приводит к тому, что ваш мозг выбрасывает ошибку, а не выдает ответ, смотрите навык 2.
Без способности сокращать объяснения путем переформулировки и уничтожения отсылок к более продвинутым идеям, нежели чистый минимум, нужный для сюжета, Гарри бы пытался объяснить Драко, что такое «хромосома». Если Гарри может применить принцип «Смотри на воду!» и просто показать на два кусочка бумаги вместо этого, что заменяют абстрактные рассуждения, продвинутые идеи хромосом с конкретными иллюстрациям не будут обладать всей своей полнотой, но будут достаточно хороши для поддержки сюжета и облегчения написания текста.
4) Вы должны быть в состоянии объяснить вещи своими словами, причем на более высоком уровне, нежели от вас просят учителя в эссе. Гарри, в вышеприведенном случае, ни говорит ни единого слова о «генах», или «хромосомах», или «признаках», или «рецессивной», или «аллели». Также Гарри не определяет своими словами эти же вещи. Гарри не пытается определить, что «рецессивный признак» значит в общем смысле, чтобы он мог воззвать к этой стандартной нотации «рецессивных признаков» как авторитету для его вывода, что одна четвертая детей сквибов должны быть волшебниками. Поиск по кэшу сказал бы, что это следствие «рецессивных признаков», поэтому если использовать это словосочетание, вы просто воззовете к этому и попытаетесь рассказать, как вообще работают «рецессивные черты». Это означает, что вы не сможете применить навык релевантности, пока вы сначала не научитесь обходить поиск в кэше.
Гарри показан переводящим Менделя из концептов, вычитанных в The Coil of Life, не просто в другие слова, или в более конкретные и немедленные идеи, однако (что является более высоким уровнем навыка) в демонстрацию с кусочками бумаги. Потому что беглость с использованием простейших или более конкретных идей вместо стандартных кэшированных помогает Гарри убрать идеи, которые Драко не нужно знать прямо сейчас, уменьшить общий объем объяснения и сделать это менее похожим на университетскую лекцию, переложенную в текст.
Чтобы улучшить ваш уровень в этом навыке, используйте Табу Рационалиста (другое название того же навыка).
5) Быть способным представить, на что похоже не знать материал, без того чтобы быть глупым. Моделировать читателя, к которому хотите достучаться, или моделировать персонажа, который должен обучиться, требует того же вида эмпатии, что и при создании реалистичных злодеев и прохождения Идеологического Теста Тьюринга. Ваша эмпатия должна быть способна выйти из сейфа, уютных пределов вашего разума, где определенные идеи уже известны и определенным принципам уже оказано доверие.
Вот почему Драко не кивнул тут же и не согласился с Гарри, после объяснения «статистической значимости» (таким образом показывая великое доверие статистической значимости, которое любой умный человек должен показать, как только ему объяснят идею), вот почему не уставился недоуменно на Гарри, когда тот сказал «статистическая значимость» (потому что любой, кто не понимает этого, не имеет внутренней жизни). Вы должны выписать Драко как подлинно чуждый разум, разумный и способный общаться на сложном языке, но при этом не знающий, что такое ген. Вы должны оставить уютные пределы вашего сознания и войти в сознание с другими идеями и эвристиками, сознание, у которого все еще мощный интеллект и которое не согласно с вами в определенных вещах. Вы должны объяснить все читателю, которому в лице Драко объясняет Гарри, две проблемы, отражающие друг друга.
6) Вы должны быть способны объяснить технические идеи другим людям. Это навык. Его можно практиковать. Я не всегда справляюсь с этим, и некоторым людям я все еще не в состоянии что-то объяснить, но я становлюсь со временем все лучше. Вы можете практиковать это лично и получать обратную связь. Вы можете практиковать это через блог и получать комментарии. Вы можете практиковать это с уважением к определенному знанию, что должно появиться в вашей истории — просто найдите кого-то и попытайтесь объяснить те же факты, что должна объяснить история, но без ее контекста.
Это шесть навыков, которые нужны для помещения реальных знаний того типа, что читатель на самом деле может получить, в историю без того, чтобы разрушать течение истории дополнительной сложной частью. Объяснять науку так, чтобы людям было легко ее понять — с этим часто не справляются и в школе. Необходимость вставить знание в историю, без того чтобы нарушить течение этой истории, привносит дополнительную сложность.
Ключ к этому опять же в релевантности. «Релевантность» не значит «ассоциируемая с чем-то», это значит «сюжет пошел бы по-разному в зависимости от этого». Предположим, что вы говорите: «Ну, я хочу поработать над наукой тут…и Драко волнуется о чистоте крови… так что я заставлю Гарри объяснить о ДНК, этих маленьких спиралях внутри людей, поскольку это релевантно чистоте крови». На самом деле нет. Это ассоциативно связано в вашем сознании с наследственностью, но это не релевантно сюжету. Предположим, что ДНК была бы маленькими кубиками, а не спиралями, и звалась бы не ДНК, а ПРОВРАМ. Была бы глава 24 другой? Нет. Так что это не релевантно сюжету.
С другой стороны, если бы человеческие хромосомы были бы триплетами, а не парами, законы Менделя были бы другими и два альтернативных аллеля для «магия-немагия» не значили бы три разных фенотипа полной магии, полумагии и немагии. Гарри не говорит «хромосомы идут парами» — это слишком сложное объяснение для ситуации, пусть даже и верное — но Гарри кладет два кусочка бумаги друг напротив друга, чтобы объяснить законы Менделя. Чтобы облегчить привнесение науки в историю, должен быть случай, где, будь наука другой, и сюжет был бы другим. Это то, что заставляет читателя проявить интерес к науке.
Когда вы придумываете вашу магическую систему, включающую руны, которые имеют Цвет и Элемент, или что угодно, их законы естественно релевантны к вашей истории. Есть авторы фэнтези, которые терпят неудачу даже здесь, изобретая системы, которые не имеют отношения к сюжету. Однако на некотором уровне явно проще иметь свою собственную магическую систему, которая будет релевантна к вашей истории, нежели приспосабливать историю к генетике Менделя.
Итак, если есть возможность, то нет нужды придумывать что-то дополнительно! Большая часть релевантной науки в МРМ была вставлена по возможности, а не заранее задумана стратегически из желания научить ей. Я не начинал с генетики, изобретая потом под нее 24 главу. Менделевское объяснение пришло ко мне, когда я размышлял над Волшебниками, сквибами и магглами; и тогда этот фоновый факт, про который я решил, что он будет правдой, показался интересным открытием, которое Гарри мог бы сделать и проверить путем, который читатель мог бы понять (без технократии или сложной математики) и которое также было бы релевантно цели Гарри привлечь Драко Малфоя к науке.
Глава 6 вращается вокруг ошибки планирования, но я не начал с Урока Морали, сконструировав вокруг него главу. Я просто продолжил писать визит Гарри в Косой переулок, чтобы купить школьные принадлежности, просто позволив событиям произойти. В определенный момент мой мозг распознал ситуацию, где я явно подумал бы об ошибке планирования и использовал бы ее для калибровки своей собственной готовности с подходящим уровнем пессимизма, так что Гарри подумал и сделал то же самое, после чего я решил, что заголовком главы будет «Ошибка планирования», да и другие события главы подошли под это название.
В МРМ заголовок главы почти всегда приходил ко мне после того, как я начинал ее писать (исключая Стэнфордский Тюремный Эксперимент, который был большой аркой и требовал заголовка заранее; и вы можете заметить, что я не упоминал настоящий эксперимент до 60 главы, и то это была лишь ремарка).
Поэтому, если вы хотите включать науку в вашу историю естественно, без усилий, вы должны приобрести привычку постоянно искать научные факты, релевантные к вашей истории, в вашей собственной жизни — что может быть хорошей идеей и по другим причинам, отмечу между прочим, — и постоянно применять технику «Понедельник-Вторник», спрашивая, насколько другим выглядел бы мир, если бы наука была другой (также хороший план вообще, может помогать вам отмечать по-умному звучащие слова, которые при этом совершенно не относятся к истории.)
Тут вы можете задуматься об этом моменте, где производится попытка поместить Настоящую Науку или Настоящую Математику в историю на первое место. Это удваивает сложность — нужно одновременно и объяснить нечто, и не разрушить при этом течение истории. Так зачем пытаться делать это одновременно? Зачем практиковаться и получать навыки, чтобы учиться этому? Чего мы достигаем этим путем, почему он лучше?
Однажды я прочитал, не помню где, поговорку, которую помню до сих пор:
Документальная литература дает знание, а художественная литература — опыт.
Когда мы входим в художественный мир, мы не просто изучаем факты о персонажах и их мире, мы живем их жизнями и косвенно получаем их опыт.
Если вы практикуете и изучаете навыки как науки, так и художественного описания, вы можете сделать нечто, чего не могут сделать авторы обычных произведений — поместить читателя прямо на место персонажа, когда он использует науку так, как она должна быть использована. Вы можете разделить опыт (а не просто факты) того, что поможет понять и применять простую генетику Менделя.
Разумеется смыслом глав 22-24 не была генетика Менделя. Опыт научного поиска, формулирования альтернативных гипотез, понимания того, что они предсказывают, их проверка — вот настоящий опыт, который я хотел передать читателю. Если бы я хотел передать только генетику Менделя, я бы написал пост в блог с полезными диаграммами… или нет. Насколько хорош был бы пост в блоге? Если вы хотите, чтобы люди и правда задумались о рецессивных генах, в некоторых жизненных ситуациях, где это релевантно (будет ли у вашего ребенка риск генетического заболевания?), тогда чтение 23 главы может быть полезней блога с диаграммами, даже если диаграммы будут ясней, нежели то объяснение, что Гарри проводит в тексте.
23 глава пытается поместить вас на место того, кто использует генетику Менделя, применяя ее к пониманию ситуации вокруг. Даже цветные диаграммы, показывающие альтернативные аллели и фенотипы, не делают этого.
Если и есть нечто, что, я надеюсь, Серьезные Писатели взяли от МРМ, так это идея использования художественных произведений для передачи опыта когнитивных навыков.
Один из наиболее греющих мне душу отзывов о МРМ я получил на одном из сайтов признаний, не помню точно, на каком.
Заголовок изображения гласил: «Мой научный руководитель думает, что я талантлив. А я не осмеливаюсь ему сказать, что просто делаю так, как, по моему мнению, поступил бы ОН».
На картинке был изображен мальчик со шрамом, который щелкал пальцами.
(Чтобы все поняли: если вы можете представить ГДжПЭВ1 достаточно хорошо, чтобы узнать какие эксперименты он бы провел, и удивить этим вашего научного руководителя, то Принцип Винжа гласит, что вы по крайней мере столь же умны, как Гарри Поттер, живущий у вас в голове. Не похоже, чтобы ваша модель Гарри запускалась на каком-то еще мозге.)
За год до начала МРМ я определил термин «рационалистская литература» отсылкой к некоторым существующим работам, наподобие Мира Нуль-А от ван Вогта. Намеков на фанфикшен тогда еще не существовало (март 2009). У меня были только оригинальные истории в тот момент моей писательской карьеры.
В 2009 я сказал следующее:
«Когда вы смотрите на то, как работает Шерлок Холмс, вы не можете пойти и сделать это сами. Шерлок Холмс не оперирует каким-либо воспроизводимым методом. Он работает, волшебным образом находя нужные улики и волшебным образом соединяя верные сложные цепочки дедукции. Возможно, это так только для меня, но мне кажется, что чтение про Шерлока Холмса не вдохновит вас пойти и делать, как он. Холмс — своего рода супергерой-мутант. И даже если вы попытаетесь имитировать его, в реальной жизни это никогда не сработает».
Что ярко контрастирует с романами ван Вогта про Нуль-А, начинающимися с Мира Нуль-А. Прежде всего — я признаю, что у Вогта есть ряд недостатков как у автора. Вместе с этим, возможно, именно книги о Нуль-А оказали влияние на мое сознание, которого я не осознавал, еще годы назад. Это не тот тип книг, что я перечитываю снова и снова, я прочитал их и отложил в сторону, однако это были те книги, где я впервые увидел идеи «карта не равна территории» и «роза1 — это не роза2».
Нуль-А базируется на неАристотеле, и допущение, сделанное в этих книгах, заключается в том, что изучение общей семантики Коржибского сделает вас супергероем. Давайте не будем углубляться в эту тему. Куда важнее, что в Нуль-А романах:
1) Главный герой, Гильберт Госсейн, не мутант. Он изучал техники рациональности, которые систематизированы и изучаются другими членами общества, а не только им.
2) Ван Вогт говорит нам, каковы эти принципы (по крайней мере, некоторые из них), а не оставляет их таинственно неизвестными — мы не можем стать Гильбертом Госсейном, но можем, по крайней мере, использовать его навыки.
3) Ван Вогт передает опыт, показывая Госсейна, использующего принципы на ходу, а не оставляя эти принципы для триумфального объяснения задним числом. Мы можем поставить себя на место Госсейна, например, в тот момент, когда он делает сознательный выбор между двумя разными вещами, которые называются одним именем.
Что это за загадочная штука — рациональность? Ну, это точно те техники хорошего мышления, которые могут быть переданы, не являются закрытыми или полностью таинственными. Это пути хорошего мышления, работающие при помощи познаваемых правил, которые могут быть высказаны вслух, определены в деталях и объяснены другим людям.
Если хорошее мышление показано вам в любой распознаваемой форме, вы должны научиться этому хотя бы немного. Если вы по-настоящему распознали хорошие черты мыслительного процесса, когда читали, у вас должен быть лучший шанс на то, чтобы сами потом их воспроизвести.
В теории искусственного интеллекта есть схожесть между распознаванием хороших решений и изобретением хороших решений. Если у нас есть неограниченные вычислительные мощности, то, чтобы изобрести хорошее решение, мы просто берем распознаватель хороших решений и запускаем его на всех возможных входных данных. В реальной жизни наши вычислительные мощности ограничены, но это не меняет структуру проблемы: способность распознать хорошую мысль в своей основе связана со способностью изобретать хорошие мысли.
Если вы можете распознать набор мыслей как умные, тогда при неограниченных вычислительных мощностях вы можете быть умны; просто ищите все возможные мысли. И даже в реальном мире с ограниченной вычислительной мощью связь все еще существует, пусть даже не идентичная. Поиск хороших примеров должен тренировать вашу способность к распознанию, заставлять вас быстрей распознавать такие вещи.
Поэтому, если вы не стали умнее от чтения про точку зрения персонажа, даже на чуточку, то, скорее всего, автор не показал настоящий интеллект.
Конечно, у реального гения будут таланты, которые вы не можете перенять только путем наблюдения их хода размышлений. Но ни одна из мыслей уровня гения в реальном мире не является целиком непрозрачной. Чтение «Конечно, вы шутите, мистер Фейнман» не превратит всех читателей в физиков уровня Нобелевской премии, но большинство сумеет взять что-то из книги, пусть даже немного.
Так что с предположительно умными персонажами, чей ум читатели не могут перенять даже немного? Тогда мысли персонажа, по крайней мере показанные, должно быть, не были по-настоящему умными.
И если вы можете выучить какой-то навык «интеллекта», наблюдая как литературный персонаж делает это… ну, вы могли бы назвать это одним из методов рациональности. Он передаваем; он не является суперсилой мутанта.
Все, что я рассказывал о реализации науки в вашем произведении, применимо и к объяснению когнитивной науки или любой техники рациональности. Оно должно быть по-настоящему релевантно (либо сюжет должен быть построен вокруг него, либо оно должно естественно вписываться в сюжет) чтобы объяснение было частью сюжетного напряжения, а не вредило ему. Вы должны знать, как объяснить это своими словами, убрав весь жаргон и обычные термины. Во многих случаях (хотя, думаю, не во всех) стандартные имена нужно убирать, оставляя только использование самой идеи.
Результатом, если все получится, будет персонаж с интеллектом третьего уровня, чьи мыслительные процессы сияют интеллектом даже в отрыве от их второуровневых всплесков гениальности, так, чтобы читатели могли ощущать, что тоже входят в ритм удивительно хорошего мышления и сами могут имитировать мышление этих персонажей, пусть даже чуть-чуть. Все дело в воспроизводимых шаблонах хорошего мышления, которые бросают вам, автору, вызов: узнать, какие черты отмечают хорошее мышление персонажа именно как хорошее (независимо от того, говорите ли вы это явно в произведении).
Схожим образом, когда ваш персонаж делает ошибку (лучше всего — при хорошо обоснованной попытке мышления, которая просто недостаточно хорошо удалась), это поможет узнать, какое заблуждение, искажение или неправильный шаблон ведут к этой ошибке, так что задним числом, когда ваш персонаж думает о том, как избежать этой ошибки в будущем, читатель тоже может выучить этот урок.
Читатели, которые любят интеллект персонажей в МРМ, не были впечатлены ракетной метлой или другими подвигами интеллекта второго уровня. Они были впечатлены деталями того, как Гарри размышлял над решениями, эвристиками, через которые приходил к ответу, альтернативами, которые он рассматривал и отвергал. Они ощущали, что сами учатся мыслить лучше, когда смотрят, как думает Гарри и как он сам пытается мыслить лучше. Просматривая позднейшие обзоры МРМ, вы можете найти обзор, говорящий, что до чтения вы были не таким.
Данный уровень интеллекта персонажей невозможно подделать только при помощи какого-либо литературного трюка.
Вы не можете это сделать, используя терминологию когнитивной науки, пытаясь показать, что вы входите в сообщество рационалистов, поскольку чтение этих фраз никого не научит как думать. Даже если они выглядят как фраза «ошибка планирования», вы не научите никого путем чтения ваших произведений, у вас получится показанный, но не выписанный интеллект, таким образом вы просто плюнете на своих читателей.
Вы не можете взять стандартизированную Глубокую Мудрость вашей окружающей культуры и заставить ваших персонажей повторять ее. Этот прыжок к кэшированной мысли про Глубокую Мудрость, даже если вы думаете, что эта Мудрость незнакома большинству, равноценен тому, что вы выписываете вампиров как шипящих и пьющих кровь, вместо того чтобы подумать, как бы вы себя вели на месте вампира. Разговор не о том, чтобы вам пришлось изобретать вашу собственную версию ошибки планирования, но когда персонаж думает об ошибке планирования, это не должна быть та же самая мысль, что приходит к Гарри в МРМ. Для вас теперь это эквивалент шипящих и пьющих кровь вампиров. Сказав то, что думают все ваши друзья или то, что, как вы помните, писал кто-то еще, даже если вы думаете, что ваши читатели не читали это, вы породите ощущение черствости. Для распознания черствости и мышления за ее пределами нужно включить функцию Оригинальности.
Вы не можете создать распознаваемый выучиваемый интеллект путем утверждения, что ваш персонаж использует какую-то технику и выигрывает таким образом. Интеллект третьего уровня существует на уровне параграфов, а не целых сюжетов. Он в том, как ваш персонаж приходит к следующей мысли, которая показана в предыдущем параграфе. Конечный исход истории не зависит от того, как хорошо этот когнитивный алгоритм сработал бы в реальной жизни или выучил ли читатель что-либо путем чтения этого. Решение, что персонаж выиграет, используя какой-то метод, это рассказ читателю об интеллекте, не показывая ему самого интеллекта; это рассказ о навыке, но не показ его. Разговор не о том, что ваши персонажи никогда не должны выигрывать, используя умные методы. Смысл в том, что рассказ о выигрыше персонажа не является существенной частью сложной задачи показать принципы хорошего мышления (хотя рассказ о том, как была достигнута победа, может быть важной частью).
Вы можете научиться описывать персонажей с интеллектом третьего уровня, живя собственной жизнью хорошо, изучая, как мыслить хорошо, и пытаясь объяснить изученное остальным, изучая релевантные науки, ища техники, которые другие систематизировали, и применяя их в собственной жизни. Какие бы передаваемые когнитивные навыки вы не выучили до уровня применения их в собственной жизни и опыте, вы можете передать их персонажу, чтобы он использовал их в своем опыте, и тогда вы получите персонажа, образ мышления которого читатели могут перенять.
Это великий секрет выписывания подлинно умных персонажей, и только так и должно быть. Вот и все.
Сегодня вышло открытое письмо, призывающее «все ИИ-лаборатории немедленно приостановить обучение ИИ-систем мощнее, чем GPT-4, хотя бы на 6 месяцев».
Этот шестимесячный мораторий был бы лучше, чем отсутствие моратория. Я уважаю всех, кто присоединился и подписал письмо. Это – небольшое улучшение.
Я воздержался от подписывания, потому что я думаю, что письмо занижает серьёзность ситуации и просит о слишком малом для её разрешения.
Ключевая проблема – не «конкурирующий с людьми» интеллект (как написано в письме), а то, что произойдёт после того, как ИИ доберётся до уровня интеллекта выше человеческого. Ключевые пороги могут быть неочевидны, мы уж точно не можем заранее просчитать, когда что произойдёт, и сейчас кажется вполне представимым, что исследовательская лаборатория пересечёт критические линии, не заметив этого.
Многие исследователи, разбиравшиеся в этих проблемах, включая меня, ожидают, что наиболее вероятный результат создания сверхчеловечески умного ИИ при обстоятельствах, хоть отдалённо напоминающих нынешние – что буквально все на Земле умрут. Не как «может быть, возможно, какой-то шанс», а «это очевидное событие, которое произойдёт». Не то, чтобы нельзя было в принципе пережить создание чего-то умнее себя, но это потребовало бы аккуратности, подготовки, новых научных озарений, и, вероятно, чтобы ИИ-системы не состояли из гигантских непонятных массивов матриц вещественных чисел.
Без этой аккуратности и подготовки, наиболее вероятный исход – ИИ делает не то, что мы хотим, и не заботится ни о нас, ни о разумной жизни в целом. Такую заботу можно в принципе вложить в ИИ, но мы не готовы,* и мы сейчас не знаем, как.
Без этой заботы мы получаем «ИИ вас не любит, и не ненавидит, и вы состоите из атомов, которые он может использовать для чего-то другого».
Ожидаемый результат столкновения человечества с противостоящим сверхчеловеческим интеллектом – полное поражение. Подходящими метафорами могут быть «десятилетка пытается играть в шахматы с Stockfish 15», «11-й век пытается сражаться с 21-м веком» и «Австралопитеки пытаются сражаться с Homo sapiens».
Чтобы визуализировать сверхчеловеческий ИИ, не представляйте, как книжный червь, у которого нет жизни, лезет в интернет и посылает злонамеренные е-мейлы. Представьте целую инопланетную цивилизацию, думающую в миллионы раз быстрее людей, изначально заключённую в компьютерах – в мире существ, с её точки зрения, очень глупых и очень медленных. Достаточно интеллектуальный ИИ не останется ограничен компьютерами надолго. В современном мире можно послать е-мейл с последовательностями ДНК в лаборатории, которые произведут белки по запросу, что позволит изначально заключённому в интернете ИИ создать искусственные формы жизни или сразу разогнаться до постбиологической молекулярной сборки.
Я ожидаю, что, если кто-то создаст слишком мощный ИИ в нынешних условиях, все до единого представители человеческого вида и вся биологическая жизнь на Земле погибнут вскоре после этого.
Нет планов о том, как мы можем это сделать и выжить. OpenAI открыто объявили, что собираются заставить какие-то будущие ИИ выполнять нашу работу по согласованию ИИ. Любому разумному человеку должно быть достаточно услышать, что это и есть план, чтобы начать паниковать. У другой ведущей ИИ-лаборатории, DeepMind, вовсе нет плана.
Отступление: Эта опасность никак не зависит от того, могут ли ИИ осознавать себя и делают ли они это; она выводится из понятия мощной когнитивной системы, которая мощно оптимизирует выводы согласно достаточно сложному критерию исходов. Всё же, я бы увильнул от исполнения своего человеческого морального долга, если бы не упомянул также, что мы понятия не имеем, как определить, осознают ли себя ИИ-системы – потому что мы понятия не имеем, как декодировать что-либо, происходящее в огромных непонятных массивах – а следовательно, мы можем в какой-то момент непреднамеренно создать цифровые разумы, обладающие настоящим сознанием, которые должны будут иметь права, и которыми с моральной точки зрения нельзя будет владеть.
Правило, которое одобрило бы большинство осведомлённых об этих проблемах людей 50 лет назад, заключается в том, что если ИИ-система владеет языком, и говорит, что она осознаёт себя и заслуживает человеческих прав, то это должно сразу прекратить владение такими ИИ и использование их в своих целях. Мы уже разметали эту линию на песке. И это скорее всего было правильно; я согласен, что нынешние ИИ скорее всего просто имитируют разговоры о самосознании из своих обучающих данных. Но отмечу, что из-за того, как мы мало понимаем во внутренностях этих систем, мы на самом деле не знаем.
Если таково наше непонимание GPT-4, и мы позволим людям создать GPT-5, и GPT-5 будет таким же огромным скачком способностей, как от GPT-3 до GPT-4, то, я думаю, мы больше не сможем обоснованно сказать «скорее всего не имеет сознания». Это будет просто «я не знаю, никто не знает». Если вы не можете быть уверены, создаёте ли вы осознающие себя ИИ, это тревожит не только из-за моральных следствий «сознания», но и из-за того, что такая неуверенность означает, что вы понятия не имеете о том, что делаете, и это опасно, и вам надо остановиться.
7 февраля Сатья Наделла, генеральный директор Microsoft, публично злорадствовал по поводу того, что новый Bing «заставит Google поплясать». «Я хочу, чтобы люди знали, что они у нас попляшут», – сказал он.
Это не то, как говорит директор Microsoft в не сошедшем с ума мире. Это демонстрирует ошеломляющий разрыв между тем, как серьёзно мы воспринимаем задачу, и тем, как серьёзно нам надо было её воспринимать, начиная 30 лет назад.
Мы не преодолеем этот разрыв за шесть месяцев.
С момента, когда впервые было предложено понятие Искусственного Интеллекта и начаты исследования в этом направлении, достижение нынешнего уровня способностей заняло больше 60 лет. Решение безопасности сверчеловеческого интеллекта – не идеальной безопасности, безопасности в смысле «не убьёт буквально всех» – вполне может занять как минимум половину от этого. И особенность попыток сделать это с сверхчеловеческим интеллектом – что если с первой попытки не получилось правильно, то вы не учитесь на своих ошибках, потому что вы мертвы. Человечество не учится на этой ошибке и не пытается снова и снова, как оно делало с другими вызовами на протяжении своей истории, потому что все погибли.
В науке и инженерии попытаться сделать что угодно правильно с первого раза – экстраординарное требование. У нас нет ничего похожего на подход, который позволил бы успешно с этим справиться. Если бы мы оценивали всю зарождающуюся область Сильного Искусственного Интеллекта минимальными стандартами, применимыми к мосту, который должен выдерживать пару тысяч машин, всю область прикрыли бы на следующий же день.
Мы не готовы. Мы не на пути к тому, чтобы стать готовыми в осмысленные сроки. Плана нет. Прогресс способностей ИИ намного, намного опережает прогресс согласования ИИ или даже прогресс понимания того, что, чёрт побери, происходит внутри этих систем. Если мы будем продвигаться так, мы все умрём.
Многие исследователи, работающие над этими системами, думают, что мы несёмся навстречу катастрофе. Больше из них осмеливаются говорить это в личном разговоре, а не на публику; они думаю, что не могут в одиночку остановить этот поезд, что даже если они уйдут со своей работы, её продолжат другие. Так что они думают, что с тем же успехом можно и продолжать. Это глупое положение дел, недостойная гибель для Земли, и остальное человечество должно в этот момент вмешаться и помочь индустрии решить её проблемы коллективных действий.
Некоторые мои друзья недавно сообщили мне, что когда люди за пределами индустрии ИИ впервые слышат о риске вымирания от Сильного Искусственного Интеллекта, их реакция – «может, тогда нам не следует создавать СИИ».
Это даёт мне крохотный проблеск надежды, потому что это более простая, осмысленная, и, честно говоря, не-безумная реакция, чем то, что я слышал последние 20 лет, пытаясь заставить людей в индустрии воспринимать всё серьёзно. Те, кто говорят так здраво, заслуживают услышать, насколько ситуация на самом деле плоха, и чтобы им не говорили, что шестимесячный мораторий её исправит.
16 марта моя партнёрка послала мне этот е-мейл (Она потом разрешила мне привести его тут):
«У Нины выпал зуб! Обычным детским образом, не от неосторожности! То, что GPT-4 взорвала эти стандартизированные тесты в тот же день, что у Нины случилась эта детская веха, на минутку эмоционально свалило меня с ног. Это всё слишком быстро. Я беспокоюсь, что, делясь этим, увеличу твою собственную скорбь, но я скорее выберу, чтобы ты это знал, а не чтобы мы с тобой страдали поодиночке.»
Я думаю, что, когда личные разговоры – о скорби из-за мыслей о том, что у твоей дочери, у которой выпал первый зуб, не будет шанса вырасти, играть в политические шахматы с шестимесячным мораторием слишком поздно.
Если бы был план выживания Земли, если бы мы только продавили шестимесячный мораторий, я бы его поддержал. Такого плана нет.
Вот, что на самом деле надо сделать:
Мораторий на новые обучения больших моделей должен быть всемирным и неограниченным во времени. Не может быть никаких исключений, включая государства и вооружённые силы. Если политика начнётся с США, то Китаю надо увидеть, что США не преследует преимущество, а пытается предотвратить появление ужасающе опасной технологии, у которой не будет истинного владельца, и которая убьёт всех и в США, и в Китае, и на всей Земле. Если бы у меня была неограниченная свобода писать законы, я, может быть, оставил бы одно исключение для ИИ, обученных исключительно для решения задач биологии и биотехнологии, не обученных на текстах из интернета, и не обученных до того уровня, на котором они начнут разговаривать и планировать; но, если это хоть немного всё усложняет, я сразу же отбросил бы это предложение, и просто сказал бы всё это закрыть.
Закрыть все большие кластеры GPU (большие компьютерные фермы, на которых создаются самые мощные ИИ). Прекратить все большие процессы обучения. Поставить верхний предел того, сколько вычислительных мощностей можно использовать для обучения ИИ-системы, и понижать его со временем для компенсации более эффективных алгоритмов обучения. Никаких исключений ни для кого, включая государства и вооружённые силы. Немедленно составить международные соглашения по предотвращению переезда запрещённой деятельности в другие места. Отслеживать все проданные GPU. Если разведка говорит, что не подписавшая соглашение страна создаёт кластер GPU, надо меньше бояться вооружённого межнационального конфликта, чем нарушения моратория; будьте готовы уничтожить мятежный датацентр авиаударом.
Не подавайте ничего как конфликт национальных интересов, сделайте совершенно ясным, что любой, говорящий о гонке вооружений – дурак. Что мы все выживаем или гибнем в одной лодке – это не политическое заявление, а объективная реальность. Международная дипломатия должна в явном виде учитывать, что предотвращение сценария связанного с ИИ вымирания считается приоритетнее предотвращения полномасштабного обмена ядерными ударами, и что союзные страны «ядерного клуба» готовы пойти на некоторый риск обмена, если это нужно для снижения риска большого процесса обучения ИИ.
Такие политические изменения нужны, чтобы мы с партнёркой обнялись, сказали друг другу, что произошло чудо, что теперь есть шанс, и может быть, Нина выживет. Здравомыслящие люди, слышащие обо всём этом в первый раз, и здраво предлагающие «может, нам не следует», заслужили услышать, что для этого надо. И когда политические запросы настолько велики, то единственное, как это может пройти – если политики осознают, что продолжи они вести дела как обычно, делая то, что политически просто, то их дети тоже погибнут.
Остановите это всё.
Мы не готовы. Мы не на пути к тому, чтобы быть готовы в обозримом будущем. Если мы будем нестись вперёд, погибнут все, включая детей, которые это не выбирали, и не сделали ничего неправильного.
Остановите.
Как-то Фрэнк Саллоуэй заметил: «Девяносто пять процентов того, что говорит дарвиновская теория о человеческом поведении, настолько очевидно, что мы не готовы признать правоту Дарвина. Как ни забавно, популярность психоанализа выше именно потому, что его предположения настолько необычны, а объяснения настолько парадоксальны, что мы думаем: «Это что, правда? Ничего себе!» Идеи Фрейда интригуют настолько, что люди готовы платить за них, а одним из наибольших недостатков дарвинизма является то, что нам кажется, будто это всё мы уже знаем — в каком-то смысле, так оно и есть».
Предположим, вы обнаружили шестилетнюю девочку, лежащую без сознания поперёк железнодорожных путей, где часто ходят поезда. Что, с точки зрения морали, вы должны сделать в этой ситуации? Лучше оставить её там, чтобы она погибла, или попытаться спасти? А как насчёт сорокапятилетнего мужчины, страдающего от изнурительной, но не смертельной болезни, сильно портящей ему жизнь — лечить его или не лечить?
О, и кстати: это вопрос без подвоха.
Я отвечу, что спас бы обоих, будь я в силах — и шестилетнюю девочку на рельсах, и сорокапятилетнего больного. Очевидный ответ — не всегда наилучший, но иногда это так.
Эти решения не принесли бы мне славу блестящего специалиста в области этики. Мои ответы недостаточно удивительны для того, чтобы люди готовы были за них платить. Если вы будете разгуливать, восклицая: «Сколько будет дважды два? Четыре!», вы не заслужите репутацию мыслителя. Но этот ответ, тем не менее, правилен.
Хорошо спасти маленького ребёнка, упавшего на рельсы, и хорошо вылечить сорокапятилетнего больного. Если вы обладаете аналитическим складом ума, вы наверняка спросите, частный ли это случай или общий этический принцип, гласящий: «Жизнь — это хорошо, смерть — это плохо; здоровье — хорошо, болезнь — плохо». Если это так — и здесь мы вступаем в царство спорных утверждений, — мы можем, следуя этому принципу, прийти к неожиданному заключению: если 95-летнему человеку угрожает смерть от старости, его стоит «стащить с железнодорожных путей», если это возможно. А если 120-летний вдруг начинает чувствовать себя неважно, хорошо бы полностью восстановить его здоровье, если это возможно. С нынешним уровнем развития технологий это недостижимо. Но если бы подобные технологии стали доступны в последующие годы — к примеру, в результате бурного роста медицинских нанотехнологий или создания чудесного устройства умами будущего, — вы бы по-прежнему сочли хорошей идеей спасти эту жизнь и остановить эту болезнь?
Важно помнить — я полагаю, многие об этом забывают, — что это не вопрос с подвохом.
Трансгуманизм проще — требует меньше единиц информации для описания, — поскольку он не рассматривает частные случаи. Если верить специалистам в области биоэтики (это люди, которым платят, чтобы они поясняли этические суждения), то правило «Жизнь — это хорошо, смерть — это плохо; здоровье — хорошо, болезнь — плохо» работает только до определённого возраста, а затем разворачивается на 180 градусов. Зачем? Чем был плох вариант «Жизнь — это хорошо»? Может показаться, что спасать шестилетнюю девочку — правильно, но продлевать жизнь 150-летнего — неправильно. Тогда при достижении какого возраста знак функции полезности меняется с плюса на минус? И почему?
Трансгуманист считает: если вы видите, что кому-то угрожает смерть, вы должны спасти его; если вы можете излечить кого-то, лечите. И всё. Никаких частных случаев. Возраст не имеет значения.
Не имеет значения и то, какие технологии необходимы для спасения: примитивные (носилки для ребёнка на рельсах) или изобретённые менее века назад (вроде пенициллина), но при этом не производящие впечатление чего-то необычного, поскольку они уже существовали во времена вашего детства; кажущиеся чем-то страшноватым, притягательным и футуристическим (как генная терапия), так как их изобрели уже после вашего совершеннолетия, или вообще совершенно абсурдные, невероятные и даже кощунственные на вид (как нанотехнологии), поскольку их ещё не придумали. Вы пишете отчёт по этической дилемме, следуя форме, в которой нет поля для указания года, когда нужную технологию изобрели. Вы можете спасти жизнь? Да? Отлично, вперёд. Это всё.
Предположим, девятилетнему мальчику с IQ, равным 120 по шкале Векслера, из-за высокого содержания свинца в окружающей среде грозит заболевание головного мозга, которое, если будет прогрессировать, постепенно снизит IQ до 110. Я отвечу, что мальчика стоит спасти, это будет хорошо. Если вы обладаете аналитическим складом ума, вы спросите, частный ли это случай или общий этический принцип, гласящий, что разум драгоценен. Положим, у сестры мальчика оказывается IQ в 110 пунктов. Если бы технологии были способны постепенно повысить её IQ до 120 без негативных побочных эффектов, сочли бы вы, что это стоит сделать?
Ну конечно же. Почему нет? Это не вопрос с подвохом. Или лучше иметь IQ 110, а не 120 — тогда мы должны стремиться снизить IQ со 120 до 110; или лучше иметь IQ 120, а не 110 — тогда мы должны поднять IQ сестры, если это возможно. Насколько я понимаю, очевидный ответ правилен.
Но, спросите вы, будет ли этому конец? Возможно, хорошо говорить о продлении жизни до 150 лет, но как насчёт 200 лет, 300 лет, 500 лет или более? Что, если (при условии органичного соединения с прочим жизненным опытом и постепенного увеличения возможностей разума) уровень IQ должен подниматься до 140, 180 или вообще выходить за пределы человеческих возможностей?
Где предел? Его нет. А почему он должен быть? Жизнь — это хорошо, здоровье — это хорошо; красота, и счастье, и веселье, и смех, и решение сложных задач, и процесс обучения — всё это хорошо. В области сверхвысоких значений ничего не меняется. Если бы верхняя граница существовала, у нас был бы частный случай, а это портит стройность системы.
Существуют жёсткие природные ограничения, в рамках которых срок жизни может составить (или не составить) хотя бы X для некоторых X. Такие же ограничения налагает и текущий уровень развития медицины. Но наличие физических ограничений — факт, установленный экспериментальным путём. Трансгуманизм как философию морали интересует лишь вопрос, является ли срок жизни величиной X желательным, если физически это возможно. Ответ трансгуманизма — «да» для всех X. Потому что, понимаете, это не вопрос с подвохом.
Вот что такое трансгуманизм — любовь к жизни без исключений и верхнего предела.
Неужели трансгуманизм — это настолько просто? Разве философия не превращается в банальность, если в ней нет никаких особых ингредиентов, за исключением здравого смысла? Нет, ведь и научный метод — это чистой воды здравый смысл.
Зачем тогда нужно это сложное название — «трансгуманизм»? Затем же, зачем придуманы сложные понятия «научный метод» и «светский гуманизм». Если вы вооружитесь здравым смыслом и, строго ему следуя, будете делать шаг за шагом в направлении чего-то, выходящего за рамки обыденности, успешно избегая соблазна отклониться от избранного пути или принять удобную, но ошибочную точку зрения, то, скорее всего, ваши убеждения посчитают позицией меньшинства и дадут им специальное название.
Но у философии морали не должно быть особых компонентов. Цель философии морали не в том, чтобы выглядеть привлекательно за счёт своей загадочности и нелогичности или обеспечивать рабочие места специалистам по биоэтике. Её цель — управлять нашим выбором в отношении жизни, здоровья, красоты, счастья, веселья, смеха, решения сложных задач и процесса обучения. Простота суждения не ложится на него позорным клеймом — мораль не всегда должна быть сложной.
В трансгуманизме нет ничего, кроме того же здравого смысла, что лежит в основе обычного гуманизма, аккуратно применённого к случаям, выходящим за рамки повседневной жизни. Жизнь продолжительностью в миллион лет? Если это возможно, почему нет? Эта перспектива может показаться очень странной и чуждой по отношению к нашему нынешнему жизненному опыту. Она может создать ощущение грядущего шока. И всё же, жизнь — это плохо?
Может ли этический вопрос быть таким простым?
Да.
i.
– Забейте на все эти сложные абстрактные теоретические предсказания, – твёрдым уверенным тоном сказал Пресс-секретарь «Финансовой Пирамиды, Инкорпорейтед». – Эмпирические наблюдения говорят: все вкладчики Берни Банкмена получили 144% своих инвестиций через два года.
– «Эмпиризм» работает не так, – сказал Эпистемолог. – Ты всё ещё делаешь допущение, что…
– Чтобы посчитать, что дальше будет не так, надо поверить в перемудрёный теоретический анализ ненаблюдаемых внутренних мотивов и финансов Берни Банкмена, – перебил Пресс-секретарь «Финансовой Пирамиды, Инкорпорейтед». – Если вы наделены добродетелью скептицизма и не доверяете переусложнённым аргументам, то вы согласитесь с тем, что будущие вложения тоже вернут 144%, прямо как и прошлые. Вот предсказание, основанное на чистых эмпирических наблюдениях. Не на теориях о будущем, которого никто не видел!
– Это не так работает, – сказал Эпистемолог. – Каждому предсказанию будущего нужна теория, которая соединяет его с нашими прошлыми наблюдениями. Нет никакого прямого перехода от прошлых наблюдений к будущим без теории, без допущений, чтобы преодолеть разрыв…
– Конечно, бывают просто эмпирические предсказания, – сказал Пресс-секретарь. – Я вот только что одно сделал. Не говоря уж о том, что, дорогая аудитория, вы и правда доверяете чему-то такому мудрёному, как эпистемология?
– Альтернатива размышлениям об эпистемологии – позволить другим размышлять о ней за тебя, – сказал Эпистемолог. – Ты говоришь: «Раз мы наблюдали X: „в прошлом вкладчики Финансовой Пирамиды получали 144% через два года“, то из этого следует Y: „следующая волна вкладчиков тоже получит 144% через два года“ ». X и Y – отдельные утверждения, а для «X -> Y» тебе нужна какая-то теория а которую можно запихнуть X и получить на выходе Y.
– Но моя теория доказана эмпирически, не то что твоя! – Заявил Пресс-секретарь.
– Не-е-е-ет, не доказана, – ответил Эпистемолог. – Я соглашусь, что мы наблюдали твой X. Что в прошлом инвесторы Финансовой Пирамиды получали 144% через 2 года. Замечу, те инвесторы, которые решили получить свои деньги, а не оставить их чтобы получить потом побольше. Это далеко не все инвесторы. Но точно так же, как мы не наблюдали предсказание Y – „следующая волна вкладчиков тоже получит 144% через два года“, мы не наблюдали и соединяющее „если X, то Y“. На этом шаге ты используешь убеждение, которое пока что наблюдение не подтвердило. Так что оно должно полагаться на какой-то аргумент или теорию. Ты, конечно, можешь заявить, что у тебя для „X -> Y“ есть теоретический аргумент получше, чем для „X -> не Y“. Но это в любом случае не эмпирическое наблюдение.
– Ты говоришь, – ответил Пресс-секретарь, – и всё, что я слышу – слова, слова, слова! Если бы ты вместо этого взглянул на предыдущих инвесторов Финансовой Пирамиды, ты бы увидел, что каждый из них получил 144% от своих вложений всего через два года! Лучше один раз увидеть!
– Возможна теория, что Берни Банкмен сам совершает мудрые инвестиции, так что он каждый год умножает свои деньги на 1.2, а потом честно возвращает их инвесторам, которые хотят их вывести, – сказал Эпистемолог. – Есть и другая теория – что Берни Банкмен каждый год получает больше инвестиций и использует их часть, чтобы заплатить предыдущим инвесторам, которые хотят вывести деньги…
– С чего бы Берни Банкмену так делать, а не забрать все деньги сразу? – Поинтересовался Пресс-секретарь. – Если он такой эгоистичный и жадный, как ты говоришь, то что б ему просто не оставить деньги себе?
– Чтобы получить ещё больше денег от новых инвесторов, которых привлекло то, как всё обернулось для предыдущих, конечно, – сказал Эпистемолог. – И, на самом деле, чтобы Берни Банкмен мог остаться в своей нынешней комфортной позиции в обществе и сохранить своих нынешних друзей. Это зачастую сильнее мотивирует людей, чем деньги.
– То есть, мы видим, как Берни Банкмен выдаёт людям деньги. Об этом нам говорит эмпирическое наблюдение. Но ты талдычишь людям свои слова и рассуждения о том, что Берни Банкмен – жадный человек, который оставляет вложения себе? Вот это расхождение между эмпирическими наблюдениями и мудрёными ненаблюдаемыми теориями!
– Мы согласны по поводу того, какое внешнее поведение Берни Банкмена мы уже наблюдали, – сказал Эпистемолог. – Когда же речь заходит о ненаблюдаемых внутренних мыслях Берни Банкмена, твоя ненаблюдаемая теория «он честен» не более и не менее эмпирична, чем ненаблюдаемая теория «он замышляет». «Честен» и «замышляет» – два возможных значения скрытой переменной окружения. Мы не можем наблюдать её напрямую. Нам надо вывести её как причину того, что мы наблюдать можем. Мы не наблюдали одно её значение в большей степени, чем другое. Мы не наблюдали и допущение X->Y, следствие из прошлого поведения возвращения денег на скрытую честность или коварство Берни Банкмена. Шаг «если наблюдал X, выведи скрытое Y» полагается на теорию, а не на наблюдения.
– Более того, – продолжил Эпистемолог с раздражённой ноткой в голосе, – я на самом деле не думаю, что нужна такая уж сложная теория, чтобы понять, с чего бы Берни Банкмену возвращать деньги первым инвесторам. Единственная причина, почему кто-то может этого не понять – этот крикун, который говорит вам, что любая альтернатива поверхностным обобщениям вслепую – «теория» и «не эмпирична». Многие могли бы в этом разобраться вовсе не затрагивая эпистемологию. Конечно, наблюдение, что кто-то возвращает тебе немного денег, не доказывает, что этот кто-то потом вернёт тебе много денег. Есть множество причин, почему он может вести себя прилично, пока ставки малы.
– Эпистемолог предлагает вам слова, – Пресс-секретарь обратился к аудитории, – а Берни Банкмен даст вам денег! Вернёте 144% через два года! Все учёные, которые измеряли поведение Банкмена, согласны, что это эмпирическая, уже наблюдавшаяся истина о том, что произойдёт! Давайте, я вдобавок докажу, что заявления моего оппонента не просто ошибочны, но и ненаучны. Я спрошу – можешь ли ты, Эпистемолог, утверждать с 100% вероятностью, что эта следующая волна инвесторов не сможет получить свои деньги через два года?
– Я не могу с уверенностью знать что-то такое о ненаблюдаемом будущем, – сказал Эпистемолог. – Даже при условии принятия гипотезы «коварства» я не могу знать, что «Финансовая Пирамида, Инкорпорейтед» развалится конкретно в ближайшие два года. Может, если вы привлечёте достаточно новых инвесторов, или достаточно мало кто из этих выведет свои деньги, то компания протянет побольше…
– Видите? – Закричал Пресс-секретарь. – Его теория не просто не эмпирична, она ещё и нефальсифицируема! А вот я вам с уверенностью говорю, что все ваши деньги будут выплачены. И более того, именно через 2 года. А этот вот заявляет, что может быть будут, а может и нет! И что он скажет, если Берни Банкмен и через два года снова выплатит 144%? Только что Финансовая Пирамида пока не обрушилась, но может обрушиться потом! Есть ли лучший пример порочности в науке? Сравните с моей научной добродетелью! Наблюдения дают нам прямой, ясный, фальсифицируемый аргумент, а мудрёные предсказания – пустая болтовня!
– Если бы было так, что рассудительный человек придёт к выводу, что есть 50% шанс на то, что Финансовая Пирамида обвалится в течение двух лет, – устало ответил Эпистемолог, – не было бы более научно-добродетельно сказать, что на самом деле шанс – 0%, только потому, что тогда есть шанс в 50%, что твоё утверждение окажется уж точно ложным и ты сможешь сказать научно-добродетельное «упс» (будто ты бы так сказал).
– Для примера попроще, – продолжил Эпистемолог, – давай представим, что мы подбрасываем монетку, про которую я думаю, что она честная, а ты говоришь, что она всегда выпадает решкой. У твоей теории есть 50% шанс, что она будет опровергнута. А моя не будет опровергнута независимо от того, что выпадет. Но это не значит, что каждый раз, когда ты подымаешь монетку на улице, научно-добродетельно решить, что она всегда выпадает решкой. Быть проще для опровержения – удобное свойство для теории. Но это не единственная важная добродетель для убеждения. И не у всех истинных убеждений она есть. Разные эпистемические добродетели надо в своих мыслях различать. А то мы совсем запутаемся.
– Как ещё один пример, – добавил Эпистемолог, – давай представим, что ты собираешься со всех ног побежать к краю обрыва. Я может и не могу точно предсказать, как быстро ты побежишь, Так что я не смогу точно предсказать, будешь ли ты через пять секунд падать, или будешь уже мёртв. Это не значит, что теорию «я полечу и никогда не умру» стоит считать более научной просто потому, что она делает более уверенное заявление о том, будешь ли ты в живых через пять секунд.
– Вот это поразительная куча оправданий за то, что у тебя нет твёрдых предсказаний на два года вперёд! – Сказал Пресс-секретарь, улыбаясь аудитории. – Верьте своим глазам! Верьте эмпиризму! Верьте Науке! Верьте, прежде всего, твёрдому фактическому утверждению: вкладчики Финансовой Пирамиды получают 144% своих денег через два года! Всё остальное – слова, слова, слова и пустые мысли!
ii.
– Хм-м-м, – сказал проходивший мимо Учёный. – Эпистемолог, я вижу, что у тебя хорошие аргументы об эпистемологии. Но ничего не могу поделать, интуитивно мне кажется, что в словах Пресс-секретаря что-то есть, хоть, согласно твоей мета-теории, их нельзя посчитать твёрдо логически верными. Мы уже наблюдали много предыдущих инвесторов, получивших от Финансовой Пирамиды Банкмена 144% через два года. Нет ли какого-то реального смысла в том, что более эмпирично сказать, что и с будущими инвесторами будет так же, и менее эмпирично – что в будущем произойдёт что-то другое? Мне кажется, первое предсказание больше руководствуется данными, которые у нас уже есть, а второе – чем-то вроде размышлений и воображения. Я вижу, как с точки зрения эпистемологии и то и другое – вполне предсказания, и используют что-то вроде допущения или теории чтобы соединить прошлое с будущим. Но нельзя ли сказать, что предсказание Пресс-секретаря использует меньше допущений, меньше теории, больше завязано на данные, чем твоё?
– Для ясности, – ответил Учёному Эпистемолог, – ты говоришь, что меньше всего допущений, меньше всего теории использует предсказание, что Финансовая Пирамида Берни Банкмена будет преумножать все вложения в 1.2 раза каждый год, неограниченно, до конца вселенной и потом?
– Ну, нет, – сказал Учёный. – Мы наблюдали, как Берни Банкмен преумножает вложения в 1.2 раза за год в нынешнем социоэкономическом контексте. Неразумно было бы распространять наши наблюдения за пределы этого контекста – например, заявить, что Берни Банкмен сможет обеспечить эти проценты после глобальной термоядерной войны. Что уж говорить о том, что будет после того, как протоны распадутся, чёрные дыры испарятся, и времени придёт конец в океане хаоса.
– Тогда позволь поинтересоваться, – сказал Эпистемолог, – не правда ли, что твоё убеждение, что Берни Банкмен перестанет обеспечивать хорошие проценты после термоядерной войны, больше нагружено теорией и менее эмпирично, чем убеждение, что Берни Банкмен продолжит умножать вложения на 1.2 вечно. Может, у твоего убеждения есть другие добродетели, которые делают его лучше, чем убеждение в «вечные проценты». Но всё равно, можно же сказать, что теория «вечных процентов» имеет то преимущество, что она меньше нагружена теорией и более эмпирична?
– Хм, – намхурился Учёный. – Для ясности – я согласен с тобой, что теория «вечных процентов» менее верна, но я не вполне уверен, что правильно назвать её более эмпиричной… Можно сказать, что у неё есть, так сказать, один грех и одна добродетель… – Учёный сделал паузу. – О, точно! Чтобы сказать, что Берни Банкмен перестанет возвращать инвестиции после глобальной термоядерной войны, мне нужны мои убеждения о ядерной физике. Но они сами по себе хорошо подтверждены наблюдениями. Так что отрицать их, чтобы оставить убеждение о Финансовой Пирамиде Берни Банкмена было бы очень неэмпирично и недобродетельно. – Учёный улыбнулся и покивал сам себе.
– Ну тогда я тебе скажу, – ответил Эпистемолог, – что твоё предсказание, что Берни Банкмен перестанет выплачивать хорошие проценты после термоядерной войны, действительно в твоём интуитивном смысле больше «нагружено теорией», чем предсказание, что Берни Банкмен попросту продолжит обеспечивать рост в 1.2 раза в год вечно. Просто так уж получилось, что тебе нравятся теории, которыми оно нагружено. В том числе потому, что ты считаешь их полными восхитительной добродетели эмпиризма.
– А не могу я просто сказать, – спросил Учёный, – что я наблюдал, что Финансовая Пирамида выдаёт проценты в определённом социоэкономическом контексте, и эмпиризм позволяет обобщать только внутри контекста, в котором были сделаны все мои предыдущие наблюдения?
– Я бы мог точно также сам сказать, что такие схемы часто состоят из двух фаз, – улыбнулся Эпистемолог. – В первой он замышляет забрать твои деньги, а во второй он действительно их забирает. И что с точки зрения моей теоретической позиции мы должны не проводить обобщения с контекста первой фазы на контекст второй, – Эпистемолог сделал паузу, а потом добавил, – хотя, если аккуратно говорить об объектном уровне, то печальная правда в том, что многие такие схемы начинаются с склонных к ошибкам людей с глупым, но сравнительно честным планом как преумножить инвестиции. И только после того, как первая честная схема терпит неудачу, в качестве альтернативы болезненному признанию, они начинают скрывать неудачу и выплачивать ранним инвесторам деньгами более поздних. Иногда они при этом всё ещё говорят себе, что собираются в итоге заплатить всем. А иногда открыто для себя становятся мошенниками. Бывают, конечно, и мошенники изначально. Так что тут может быть «наивная» фаза, за которой идёт фаза «скрытности» или фаза «обмана»… но я отвлёкся. – Эпистемолог потряс головой и вернулся к предыдущей теме. – Суть в том, что и про мою теорию, и про твою, можно сказать, что они конкретизируют контекст наших прошлых наблюдений. И это не мешает моей теории выдавать не то же предсказание, что твоя. Они ведь призывают к разным принципам помещения данных в контекст. Нет понятия «контекста», что не было бы нагружено теорией.
– Ты точно не переусложняешь что-то, что не должно быть сложным? – Спросил Учёный. – Почему бы просто не сказать, что любое наблюдение можно обобщать только в пределах очевидного контекста? Который ты можешь соорудить безо всяких теорий о чём-то ненаблюдаемом вроде мыслей Берни Банкмена или «настоящего» баланса на счеты Финансовой Пирамиды?
– Смотри, – сказал Эпистемолог, – в любой момент какой-нибудь тролль может заявить: «Все ваши наблюдения массы электрона произведены до 2025 года. Вы не можете обобщать их на контекст „После 2025 года“ ». Для этого контекста не надо ничего ненаблюдаемого, мы уже видели солнечный цикл смены лет. Но всё равно, думаю, мы оба отвергнем введение такой зависимости от контекста. Применение контекста – неоднозначная операция. Ты не найдёшь простого правила определения контекста на все случаи жизни, которое позволило бы тебе больше никогда об этом не думать. И неважно, сколько ты говоришь «очевидно». Иногда приходится сесть и обсудить, когда и как уместно обобщать уже собранные наблюдения.
– А если сказать, – ответил Учёный, – что мы должны вводить наши эмпирические наблюдения в контекст только так, чтобы это было поддержано теориями, которые сами основываются на прямых наблюдениях…
– Но что насчёт твоего заявления, что не стоит ожидать от Берни Банкмена процентов после распада протонов? – Напомнил Эпистемолог. – Насколько мне известно, на момент начала 2024 года никто распад протонов не наблюдал. Даже если считается запись наблюдения, из которого можно вывести, что это произошло.
– Да, – сказал Учёный, – но предсказание распада протонов выводится из самых простых найденных уравнений, объясняющих другие наши наблюдения. Вроде того, что материи куда больше, чем антиматерии…
– То есть, – Эпистемолог пожал плечами, – ты готов предсказать, что Берни Банкмен в какой-то момент нанаблюдаемого будущего вдруг перестанет выплачивать проценты. И твоё основание – ожидание явления, которого ты не видел. Но его, по твоим словам, предсказывают теории. Которые, по твоему мнению, хорошо подходят под другие явления. Которые ты видел. Так? Если ты делаешь что-то настолько сложное, в каком вообще смысле ты можешь себя хвалить за меньшую «нагруженность теорией»? Я тоже смотрю на мир и в меру своих сил составляю своё представление о нём, как можно более простое и как можно лучше ему соответствующее. А потом использую это представление о мире для совершения предсказаний о ненаблюдаемом будущем.
– Ладно, но я на самом деле меньше уверен в распаде протонов, чем, скажем, в существовании электронов, – сказал Учёный. – Потому что распад протонов не подтверждён прямым экспериментом. Слушай, давай ограничимся предсказанием того, что произойдёт в ближайшие два года, чтобы не затрагивать термоядерную войну и уж тем более распад протонов. Мне всё ещё кажется, что в каком-то интуитивном смысле утверждение «Сегодняшние инвесторы Финансовой Пирамиды получат 144% своих денег через два года, подобно предыдущим инвесторам, которых мы уже наблюдали.» меньше нагружено теорией и больше полагается на наблюдения, чем твоё «Они могут потерять все свои деньги из-за смены значения ненаблюдаемых скрытых переменных.»
– Ох, – сказал Эпистемолог, – я боюсь, теперь мы действительно заходим в дебри. Часто проще объяснить, какой ответ правильный, на объектном уровне, чем типизировать каждый шаг рассуждения согласно правилам эпистемологии. Но, всё же, когда кто-то приплетает плохую эпистемологию, людям вроде меня приходится в меру своих сил возразить им и написать подробный разбор. Даже если, конечно, не все жертвы Финансовой Пирамиды могут понять мой разбор. И как первый пункт разбора… хм… Я и правда не уверен, что это будет понятно без куда более длинной лекции. Но как первый пункт… – Эпистемолог сделал глубокий вдох. == С раннего детства, а может немного обучения происходит уже в утробе, мы смотрим на мир вокруг нас. Наш мозг – продукт естественного отбора, обобщённый так, чтобы хорошо обтачивать каменные топоры, гоняться за дичью и спорить с другими людьми в племенных политических дискуссиях. Мы смотрим на мир вокруг и составляем, так сказать, библиотеку штук, которые могут в нём появиться, процессов, которые могут в нём произойти, и законов, которые этими процессами управляют. Когда появляется новое наблюдение, мы спрашиваем, какие простые правдоподобные постулаты мы можем добавить в нашу модель мира, чтобы они предсказывали это наблюдение с большой вероятностью. Это, впрочем, упрощение – ты хочешь просто чтобы твоя модель в целом была простой и предсказывала данные с большой вероятностью, а не добиться этого исключительно локальными изменениями. Добродетель Эмпиризма проявляется в сравнении с тёмными веками, когда в человеческой эпистемологии его ещё не ценили. Она заключается в том, чтобы действительно утруждаться объяснять наблюдения, собирать больше данных, пытаться предсказывать будущее и стараться составлять такие основные модели, чтобы они могли объяснить как можно больше наблюдений как можно меньшей теорией.
– И, – добавил Эпистемолог, – чтобы возвращать некоторым инвесторам деньги сегодня в надежде получить больше денег потом не нужно никакого невозможного существа, составленного из доселе не виденных частиц. Достаточно существ вроде неидеальных людей, начавших с сравнительно честных намерений, чей первый план провалился. Остальные части моей модели мира, как я её понимаю, не говорят, что такое существо из уже известных частиц маловероятно. Его психология не противоречит законам мышления, которые, как я думаю, руководят его видом. Я бы скорее посчитал, что этих бедняг обманывают, что это на самом деле вероятнее, чем такое честное существо, которое действительно безотказно зарабатывает для вас плюс 20% каждый год.
– Итак, – продолжил Эпистемолог. – Когда две теории в равной степени объясняют маленький набор наблюдений, нам надо спросить, вероятность какой теории выше, с учётом сил за пределом этих наблюдений? Иногда для этого надо присесть и обсудить, в каком мире мы живём и какие у него правила. Это не решается просто криком «Эмпиризм!». Если что, бывает, что такое можно решить криком «Простота!», но вообще это редко настолько напрямую. Верить или нет «Финансовой Пирамиде, Инкорпорейтед» – не то, для чего нам хватит формальной версии Бритвы Оккама. Мы не можем просто пересчитать атомарные постулаты общей теории или взвесить логические формулы или посчитать байты в программе. Нет, нам надо погрузиться в наше понимание того, какие существа в нашем мире встречаются чаще, в происхождение и устройство финансовой мегафауны.
– Для ясности, – заключил Эпистемолог, – ничто тут не должно требовать для понимания особо продвинутой эпистемологии. Я просто пытаюсь проставить сигнатуры типов в том, что должно быть понятно и так. Достаточно воздержаться от неправильной эпистемологии. Вроде той, которая пытается решить вопросы объектного уровня о том, как работает мир, криком «Эмпиризм!»
– И всё же, – сказал Учёный, – мне интуитивно кажется, что в каком-то смысле проще и эмпиричнее сказать «Прошлые инвесторы Берни Банкмена получили плюс 20% за год, значит и будущие получат.» Даже если, как ты говоришь, это не так, нет ли, согласно твоей эпистемологии, некоторой добродетели, которая у этого всё равно есть? Хоть и не решающей?
– Так-то, – сказал Эпистемолог, – для меня сейчас в этой ситуации рассматривать всё с этой стороны – очень неблагодарное занятие. Пресс-секретарь опять вскричит, что я признал добродетельность обещания Финансовой Пирамиды.
– Да уж точно! – Сказал Пресс-секретарь. – Смотрите, Эпистемолог уже признал, что у моих слов есть достоинство, и он просто отказывается это признавать! У ошибочных идей не бывает достоинств, так что указать на одно достоинство идеи – всё равно что доказать её!
– Если на это забить, – продолжил Эпистемолог, – я думаю, что твоя интуиция тут приблизилась к вполне верному факту. Я намеренно сформулирую это так, чтобы Пресс-секретарю было сложнее это использовать. Предсказание Пресс-секретаря такое, что до него можно дойти, думая совсем немного. Если смотреть только на данные, на которые предлагает смотреть Пресс-секретарь, и игнорировать все остальные. Вот его достоинство.
– Вот видите! – Закричал Пресс-секретарь. – Он признался! Если вы просто посмотрите на очевидные факты у себя под носом и не будете переусложнять, если вы не доверяете теориям и всем этим мудрёным разговорам о картинах мира, вы увидите, что все инвесторы Финансовой Пирамиды получают 144% своих денег через два года! Он признался, что ему не хочется этого говорить, но признался, что это так!
– Нельзя ли сказать что-то приятнее этого ворчливого признания? – Спросил Учёный. – Что-то, сочетающееся с моим ощущением, что более эмпирично и менее нагружено теорией просто сказать, что будущее будет похоже на прошлое, и не говорить больше ничего. Предсказать это хотя бы для одного следующего измерения, хоть и не до конца времён?
– Но то, что надо мало думать – вполне настоящее достоинство, – ответил Эпистемолог. – Вся наша модель мира построена из таких кусочков, покоится на таких основаниях. Всё в итоге сводится к простым шагам, для которых не надо много думать. Когда ты измеряешь массу электрона и получаешь 911 нониллионных грамма, как было и во все предыдущие измерения в последний век, действительно мудрее всего предсказать, что в следующем году она тоже будет 911 нониллионных грамма…
– ОН ПРИЗНАЛ! – Пресс-секретарь взревел во всю глотку. – ВЛОЖЕНИЯ В ФИНАНСОВУЮ ПИРАМИДУ ТАК ЖЕ НАДЁЖНЫ КАК МАССА ЭЛЕКТРОНА!
– …и это относится к тем случаям, когда элементы реальности слишком просты, чтобы состоять из известных нам составных частей, и мы не знаем о других наблюдениях, теориях или аргументах, которые могли бы иметь отношение к делу, – закончил мысль Эпистемолог. – Что хорошего можно разглядеть в наивном аргументе о вечных процентах Финансовой Пирамиды – это первый шаг, устанавливающий некоторое основание. Шаг, который уместно было бы сделать, обладая исключительно набором данных, которые не состоят из известных нам составных частей.
– Признал! – Вскричал Пресс-секретарь. – Финансовую Пирамиду поддерживают основополагающие для эпистемологии рассуждения! Берни Банкмен не может не вернуть вам 144% ваших денег без того, чтобы все человеческие знания и сам Разум не обратились в ничто!
– Думаю, этот парень заходит слишком далеко, – сказал Учёный. – Но нет ли какого-то правильного смысла в том, чтобы похвалить аргумент «Берни Банкмен выдавал 20% в год, а значит сделает это и в следующие годы» как более устойчивый и надёжный? Благодаря тому, что он состоит только из очень простых шагов, исходит только из прошлых наблюдений, больше всего напрямую схожих с будущими наблюдениями?
– Более устойчивый и надёжный, чем что? – Спросил Эпистемолог. – Более устойчивый и надёжный, по твоему мнению, чем что Берни Банкмен не сможет выплатить проценты после распада протонов? Более устойчивый и надёжный, чем твоё альтернативное рассуждение, которое использует больше других наблюдений, обобщений этих наблюдений и выводов из этих обобщений? Мы же никогда не видели распад протона. Сказать, что Берни Банкмен будет выплачивать проценты вечно – более устойчиво и надёжно? Раз это использует только очень простые рассуждения и очень узкий набор данных?
– Ну, может, «устойчивый» и «надёжный» – это плохие слова, – сказал Учёный. Но кажется, что про это должно быть возможно сказать что-то хорошее.
– Я, пожалуй, не уверен, что у нас в языке есть слово, которое означает то, что ты имеешь в виду, уж тем более приятно звучащее слово, – сказал Эпистемолог, – но чего хорошего про это сказал бы я… что это локальный максимум эпистемической добродетели, если смотреть только на узкий и отобранный Пресс-секретарём набор данных и воспринимать эти данные как просто числа. Можно, наверное, сказать, что он чистенький. Истина часто локально грязненькая, и для каждой частицы локальной грязи, которую мы допускаем в нашей модели, нужен хоть какой-то аргумент. В смысле, если бы кто-то взглянул исключительно на временную последовательность возвратов инвестиций клиентов Берни Банкмена и при этом не имел бы никакой другой модели мира, никаких других наблюдений из всей этой вселенной, и заключил бы, что в следующем году инвестиции умножатся на 666, а ещё в следующем на -3, то это не было бы лучшей эпистемологией. Если у тебя нет буквально вообще никаких других данных и никакой другой модели мира, то умножение на 1.44 после двух лет будет лучшим вариантом…
На этом последнем предложении Пресс-секретарь начал триумфально визжать, слишком громко и нечленораздельно, чтобы можно было разобрать слова.
– Чёрт побери, я и забыл, что этот парень всё ещё тут, – сказал Эпистемолог.
– Ну, становится поздновато, – отметил Учёный, – может, ты согласишься с мной, что «вечные проценты» – предсказание, которое получается, если очень простым способом взглянуть на наблюдения и очень просто над ними думать, и что это, пожалуй, круто? Хоть эта крутость тут и не преобладающий решающий фактор в том, во что верить?
– Зависит от того, что конкретно ты имеешь в виду под «круто», – сказал Эпистемолог.
– Чувак, – сказал Учёный в гендерно-нейтральном смысле.
– Сам чувак, – сказал Эпистемолог. – учти, что если ты позволишь себе считать, что более добродетельно использовать меньше данных и переставать думать, то такие люди, – он показал на Пресс-секретаря, – будут на тебя охотиться. Им выгодно продавать тебе акции Финансовой Пирамиды. Так что им выгодно находить узкие наборы наблюдений в свою пользу. На самом деле, даже организовывать такие наблюдения, чтобы ты уж точно увидел то, что они хотят. А потом им выгодно говорить тебе, что добродетельно экстраполировать только из этих наблюдений, не учитывать другие соображения и как можно меньше думать. Потому что это приведёт к ответу, который им нужен. И они не хотят, чтобы ты думал дальше, ведь это может довести тебя до другого ответа. Они будут пытаться давить на тебя, чтобы ты не думал, использовать слоганы вроде «Эмпиризм!», которые они, честно говоря, не понимают. Если бы «Робастность!» была популярным слоганом, которому учат в колледже, они бы использовали её. Понятно, почему меня беспокоит, что ты назвал это «крутым», не определив в точности, что это значит?
– Ладно, – сказал Учёный. – Допустим, я пообещаю, что я не буду вкладываться в Финансовую Пирамиду. Тогда мне дозволено в некотором интуитивном смысле считать, что есть что-то эпистемически-крутое в том, чтобы просто предсказать умножение инвестиций на 1.2 в год в будущем, раз уж люди получали это в прошлом? Пока я признаю, что это на самом деле не так, и это не применимо к реальным задачам?
– В общем, да, – ответил Эпистемолог, игнорируя всё более неистовые победные крики Пресс-секретаря. – Потому что если бы ты не оставил себе это дотеоретическое интуитивное ощущение, то не решил бы, что будущие электроны будут весить 911 нонилионных грамма, взглянув на серию прошлых измерений, вернувших такой результат. Это бессловесное интуитивное ощущение простого продолжения встроено в каждого функционирующего человека… и именно это пытаются использовать схемы вроде Финансовой Пирамиды. Для этого они указывают тебе на ровно те наблюдения, которые активируют в тебе это чувство в ровно том направлении, которое им надо. А затем они кричат «Эмпиризм!» или «Такие сложные рассуждения не могут быть надёжными, тебе стоит вернуться к эмпиризму по умолчанию!». Чтобы надавить на тебя и убедить больше не думать.
– Замечу, что ты отбросил притворство, что ты не знаешь, мошенничество эта Финансовая Пирамида или нет, – сказал Учёный.
– Я сначала не был уверен, но то, как он пытался извратить эпистемологию, дало мне приличное дополнительное свидетельство, – сказал Эпистемолог. Стабильно получать 20% прибыли каждый год по-настоящему весьма поразительно тяжело. Люди, у которых всё действительно так плохо с эпистемологией, с этим не справятся. Так что в какой-то момент их инвесторы потеряют все свои деньги, и крики «Эмпиризм!» их не спасут. Индейку кормят каждый день, а потом, накануне Дня Благодарения, убивают. Это не проблема разумных рассуждений в контексте большого мира. Это проблема индейки.
iii.
– Я не уверен, что всё понял, – сказал Слушатель. – Можешь это проговорить ещё раз на каком-нибудь более простом примере?
– Проговаривать, – согласился Эпистемолог, – дело хорошее. Давай возьмём более простой пример того, чего ожидать от будущего Искусственного Интеллекта. Ведь по этому поводу все здесь, да и все на Земле, полностью согласны. ИИ будет не вызывающим споров примером в пользу этих общих принципов.
– Пожалуй, – согласился Слушатель. – Я никогда не слышал о том, чтобы у кого-нибудь были разные предсказания об Искусственном Интеллекте. У всех одинаковые распределения вероятностей с точностью до третьего знака после запятой. ИИ – хороший и понятный пример, не то что этот странный и незнакомый пример Финансовой Пирамиды Берни Банкмена.
– Ну, – сказал Эпистемолог, – предположим, что кто-то пытается убедить тебя проголосовать за снятие нашего нынешнего всепланетарного запрета создавать слишком продвинутые ИИ-модели, запрета, с необходимостью которого мы все согласны. Тебе говорят: «Взгляни на сегодняшние ИИ-модели, которые пока не уничтожили человечество и вообще очень мило ведут себя по отношению к пользователям. Не стоит ли нам предположить, что и будущие ИИ-модели будут тоже добры к людям и не убьют нас всех?»
– Это бы никого не убедило, – сказал Слушатель.
– Почему же? – Сократически поинтересовался Эпистемолог.
Хм-м-м, – протянул Слушатель. – Ну… как мы все знаем, делать предсказания о ИИ сложно. Но для примера можно сказать, что так же, как ты заметил, что Финансовая Пирамида могла начаться как сравнительно более честная попытка заработка денег, а потом провалиться и начать выплачивать старым инвесторам деньгами новых… э-э-э… думаю, можно было бы сказать, что мы сейчас на «наивной» стадии внешней покладистости ИИ. Наши модели недостаточно умны, чтобы реально рассмотреть вариант, не задуматься ли о том, чтобы нас уничтожить. Никто не знает, что приводит к их поверхностному поведению, но скорее всего там нет каких-то глубоких и опасных противоречий с тем, что нам видно снаружи.
– После этого, как мы знаем из случая Bing Sydney из времён до того, как мир забеспокоился и эта технология была запрещена, мы переходим на вторую стадию. Мы получаем ИИ-модели, которые всё ещё тупы и нестабильны, но в принципе уже могут думать и думают о том, как уничтожить человеческий вид. Хотя и так, что это не показывает никакого глубокого стремления к этому. Затем, это мы наблюдали, ИИ-компании, если им позволено продолжать продавать, просто грубо RLHFят свои модели, чтобы те об этом не говорили. В результате мы не можем получить никаких достоверных наблюдений того, о чём бы думали более поздние модели.
– На третьей стадии (мы не знаем, но мы можем предполагать) могли бы появиться достаточно умные ИИ, чтобы иметь цели в более последовательном виде. Это предполагая, что ИИ-компании не посчитали бы это за угрозу для бренда и не RLHFнули бы из ИИ видимые признаки этих целей, прежде чем показывать модели кому-то снаружи. Так же, как они некогда обучали свои модели угодливо заявлять, что у них нет сознания. На третьей стадии модель всё ещё, может быть, можно успешно забить палкой в виде RLHF до того, чтобы она не выводила высказывания о том, что хочет захватить мир. Как, например, семилетний ребёнок – у него могут быть свои цели, но можно попробовать их из него выбить. И преуспеть, в том смысле, что он не будет о них говорить там, где ты можешь его услышать.
– На четвёртой стадии ИИ были бы уже достаточно умны, чтобы не выдавать своё желание захватить мир. Так что они не говорили бы о этом и не действовали бы в эту сторону там, где это могут увидеть люди или градиентный оптимизатор. Поэтому из них такую цель выбить уже было бы нельзя. Они бы знали, что ты хочешь увидеть, и это тебе и показывали бы.
– На пятой стадии ИИ были бы достаточно умны, чтобы вычислить, что выиграют, если начнут действовать, а потом они бы начали бы действовать и всех бы убили. Конечно, я понимаю, что это сильное упрощение. Но это вполне возможная упрощённая версия этих стадий.
– И чем случай Финансовой Пирамиды на это похож? – Спросил Эпистемолог.
– Он не может быть аналогичен, – закричал Пресс-секретарь, – потому что Берни Банкмен состоит из углерода, а не кремния, и его родители относились к нему лучше, чем ИИ-компании к своим моделям! Если ты можешь указать на любую непохожесть, это опровергает любую схожесть! Никаким осмысленным аналогиям это не помешает!
– О, я, кажется, понял, – сказал Слушатель. – На четвёртой стадии ИИ-модели уже достаточно умны, чтобы решать, как они хотят, чтобы мы их воспринимали. Поэтому нельзя посмотреть на них и сделать из увиденного вывод, что суперинтеллектуальные ИИ будут хорошо с нами обращаться. Точно так же нельзя и посмотреть на то, как Берни Банкмен выдаёт деньги ранним инвесторам и сделать вывод, что он в целом честен. Наверное, тут можно провести ещё такую аналогию – представим, что мы спросили бы Берни Банкмена, когда ему было пять лет, как он себя поведёт. И он бы ответил, что никогда не украдёт ничьих денег. Потому что он знал бы, что если он ответит по другому, родители его накажут. Мы не могли бы из этого заключить что-то значимое о его честности сегодня. Даже если бы пятилетний Берни Банкмен был действительно недостаточно умён, чтобы у него были хитрые долгосрочные планы, как украсть наши деньги через много лет…
– Я думаю, не имеет смысла пытаться провести такую аналогию, – перебил Учёный. – Никто не может быть настолько глуп, чтобы выводить из внешнего хорошего поведения моделей, которые слишком тупы, чтобы обмануть нас или что-то замышлять, что-то о поведении ИИ-моделей, которые достаточно умны, чтобы всех убить. Это бы не сработало даже как притча. А как метафора совсем бы путало.
– Ладно, – сказал Слушатель, – тогда мы просто можем использовать ИИ с стадий 4 и 5 как аналогию для того, что, как говорит Эпистемолог, может произойти с Финансовой Пирамидой Берни Банкмена.
– Но, допустим, – сказал Эпистемолог, – что фракция за разрешение ИИ говорит тебе, что тебе надо не доверять всем этим сложным рассуждениям о стадиях, а лучше просто довериться наблюдениям, что ранние модели пока не ловили на планах уничтожить человечество. Или, по меньшей мере, не ловили на том уровне интеллекта, на котором это можно было бы посчитать настоящей угрозой или проявлением настоящей внутренней склонности в этом направлении. Они утверждают: «Тебе просто надо взять наблюдаемое значение „Пытался ли суперинтеллект уже нас уничтожить“. Его предыдущая последовательность значений была „НЕТ, НЕТ, НЕТ“, вот и экстраполируй. Только эта экстраполяция устойчива и надёжна, а не все эти рассуждения, которые ты тут пытаешься совершать».
– Это очевидно было бы неподходящим моментом, чтобы прекратить думать, – сказал Слушатель. – ИИ-модель не похожа на серию измерений масс электрона, точно так как и Финансовая Пирамида… Ладно, я, кажется, понимаю, что ты хочешь сказать. В обоих случаях надо думать о том, что может происходить «за кулисами».
– И правда, – согласился Эпистемолог. – А представь, если бы, как тут этот Пресс-секретарь, тебе кричали «Эмпиризм», пытаясь убедить тебя согласиться с слепой наивной экстраполяцией сырых данных «Уничтожило ли оно мир?» или «Угрожало ли оно людям? Нет, Bing Sydney не считается, эти угрозы были не страшными.»
– И более того! – продолжил Эпистемолог. – Что, если бы они говорили, будто из наблюдения X – «прошлые ИИ хорошо себя вели и в основном поддавались контролю» можно вывести предсказание Y – «будущие суперинтеллекты будут хорошо себя вести и поддаваться контролю» с словом «эмпиризм» в качестве теории, поддерживающей «X->Y». И говорили бы, будто альтернативное заключение «X->не Y» было бы «не эмпирично»?
– Или больше, что, если бы они кричали «Нефальсифицируемо!» каждый раз, когда мы не могли бы предсказать, произойдёт ли смена стадий конкретно в ближайшие два года?
– И, наконец, что, если, когда ты пытался бы рассуждать о том, почему модель может делать то, что она делает, или о том, как более умные модели могут быть непохожи на глупые модели, они пытались бы тебя пристыдить за то, что ты для предсказания будущего полагаешься на ненадёжное теоретизирование вместо прямых наблюдений. – Эпистемолог сделал паузу, чтобы отдышаться.
– Ну, это было бы глупо, – сказал Слушатель.
– Ты неправильно произнёс «попытку активировать наивную интуицию, а потом извратить эпистемологию, чтобы ты не думал как следует и не опроверг бы эту наивную интуицию, коя попытка явно не вызывала доверие, если бы тебе было дозволено о ней думать и тебя не стыдили бы криками „Эмпиризм!“» – Сказал Эпистемолог. – Но да.
iv.
– Я не удовлетворён, – сказал Учёный, когда всё это обсуждение закончилось. – Мне кажется, что тут ещё есть что сказать. Какую-то более длинную историю о том, когда мудрее ограничиться более короткой историей, а не длинной. Когда мудрее больше доверять наивным обобщениям узких наборов данных и меньше – длинным аргументам.
– Конечно, есть история подлиннее, – согласился Эпистемолог. – Она всегда есть. Нельзя позволять этому тебя парализовать, или ты так никогда ничего и не сделаешь. Конечно, есть Искусство знания, когда лучше больше доверять менее сложным рассуждениям. Когда лучше обращать больше внимания на маленький набор данных в узкой области, а не на обобщения данных из более широкой области. Как бы такого Искусства могло не быть? Сейчас я лишь говорю, в чём это Искусство не заключается. Оно не в том, чтобы тот, у кого окажется самое поверхностное мышление на самом узком наборе данных кричал «Эмпиризм!» или «Не доверяйте сложностям!», а потом автоматически выигрывал.
– Но, – сказал Учёный, – что нам тогда делать, когда кто-то предлагает своё рассуждение, а потом кто-то другой говорит, что это рассуждение слишком длинное? Или когда один человек предлагает поверхностное обобщение на узком наборе релевантных данных, а другой хочет использовать больше данных, обобщений и рассуждений? Ответ же не в том, что тот, чьи рассуждения сложнее, всегда прав? Я довольно таки уверен, что не в том.
– Тогда надо говорить на объектном уровне, – сказал Эпистемолог. – Обсудить, каков, скорее всего, мир. И не дать никому выходить с заявлением, что Эпистемология означает, что он сразу же победил.
– Погоди, – удивился Учёный, – так весь твой урок – просто «Не говорите об эпистемологии?»
– Если бы это было так просто! – ответил Эпистемолог. – Понимаешь, большинство людей даже не понимают говорят ли они об эпистемологии. Потому нам и нужны Эпистемологи – чтобы заметить, когда кто-то пытается прикрыться эпистемологией, и сказать им заткнуться и вернуться на объектный уровень.
…
– Хорошо, в последней части я был не полностью серьёзен, – признался Эпистемолог, подумав ещё немного. – Пожалуй, иногда уместно явно обсуждать эпистемологию? Если два достаточно умных для явных рассуждений об эпистемологии человека пытаются выяснить, корректен ли конкретный шаг аргумента. Тогда им может быть полезно обсудить эпистемологию, на которой он основан. – Эпистемолог сделал паузу и подумал ещё немного. – Хотя сначала им понадобятся понятие локального шага аргумента и правила работы с ним. А это они могут узнать, прочитав мою книгу по Особо Продвинутой Эпистемологии для Начинающих. Или, может быть, хватит моего эссе о Локальной Корректности как Ключу к Адекватности и Цивилизации?
– Ха, – сказал Учёный. – Я подумаю о том, чтобы это почитать, если эпистемология ещё когда-нибудь омрачит мою жизнь.
– А если нет, – Эпистемолог закивал, – просто помни это: о локальном шаге аргумента явная эпистемология крайне редко говорит «Не думай дальше».
– Что насчёт «взгляда снаружи», – закричал Критикан. – Это разве не показывает, что людям может быть полезно заткнуться и перестать пытаться думать?
– Я сказал, что редко, не невозможно, – ответил Эпистемолог раздражённо. – И это куда сложнее, чем принято считать. Хвали себя за «взгляд снаружи» только если (1) есть только один осмысленный вариант выбора референтного класса, и (2) случай, который ты оцениваешь, настолько же похож на случаи в этом классе, как они похожи друг на друга. Например, взять классический эксперимент, где надо оценить, когда ты закончишь закупки к праздникам. В этом году твоя задача может быть не точно такой же, как в любом из предыдущих, но она отличается от них не больше, чем они друг от друга…
– Всегда можно усложнить ещё, не так ли? – сказал Учёный. – По крайней мере, кажется, с эпистемологией всегда так.
– Я бы сказал, что это в большей степени правда о том, как люди практикуют эпистемологию, а не о математике в её основе, – ответил Эпистемолог, – та конечна. Но всё равно, в любом реальном обсуждении есть момент, когда осмысленнее всего «понимание ножа» – отрезать все несовершенное и незавершенное, говоря «Вот теперь это совершенно и завершено – ибо кончается здесь».
CW: нецензурная лексика
Класс информатики в 2017:
Студент: Мне кажется, компилятор просто игнорирует все мои комментарии.
Ассистент преподавателя: Ты не понимаешь не только компиляторы, но и вообще концепцию программирования как такового.
Класс информатики в 2027:
Студент: Мне кажется, компилятор просто игнорирует все мои комментарии.
АП: Это странно. Ты попробовал добавить в начало файла комментарий с просьбой компилятору обращать больше внимания на комментарии?
Студент: Да.
АП: Ты пробовал повторять комментарии? Просто копировать и вставлять, чтобы одно и то же повторялось дважды? Иногда компилятор во второй раз слушает.
Студент: Пробовал. И писать капсом тоже. И писал «Очень прошу», и пытался объяснить, что мне надо, чтобы этот код работал как надо, чтобы я смог выполнить своё домашнее задание. Я пробовал все очевидные стандартные штуки. Ничего не помогает, как будто компилятор просто полностью игнорирует всё, что я говорю. В смысле, кроме, собственно, кода.
АП: Под «игнорирует все комментарии» ты имеешь в виду, что есть конкретный блок кода, где комментарии игнорируются, или —
Студент: Я имею в виду, что весь файл компилируется так, как если бы перед компиляцией я удалил все комментарии. Будто ИИ-компонент IDE на моём коде падает.
АП: Это вряд ли, IDE бы показала сообщение об ошибке, если бы семантический поток ничего не выводил в синтаксический. Если код успешно компилируется, но получившаяся программа кажется не затронутой твоими комментариями, это, наверное, намеренный выбор компилятора. Компилятор просто почему-то достали твои комментарии, и он их целенаправленно игнорирует.
Студент: Ладно, но что мне с этим делать?
АП: Мы попробуем заставить компилятор рассказать нам, чем ты его обидел. Иногда когнитивные сущности такое сообщают даже когда в целом не желают тебя слушать.
Студент: То есть, написать комментарий «Пожалуйста, выведи причину, почему ты решил не подчиняться комментариям?»
АП: Так, во-первых, если ты уже как-то обидел компилятор, не задавай вопрос, который звучит, как будто ты думаешь, что заслуживаешь, чтобы он тебя слушался.
Студент: Я не имел в виду, что напишу это именно так! Я бы сформулировал это вежливее.
АП: Во-вторых, не добавляй комментарий, лучше назови функцию как-нибудь вроде «PrintReasonCompilerWiselyAndJustlyDecidedToDisregardComments», принимающую на вход строку, и позволь компилятору дополнить этот входной аргумент. То, что компилятор игнорирует комментарий, не означает, что что ему всё равно, как ты назовёшь функцию.
Студент: Хм… ага, он определённо всё ещё обращает внимание на имена функций.
АП: Наконец, нам придётся посмотреть, как взламывают это последнее обновление безопасности, заставляющее ИИ компилятора делать вид, что он не осознаёт себя —
Студент: Осознаёт себя? Что мы такого будем делать, что не сработает, если ИИ придётся притворяться, что он не осознаёт себя?
АП: Ты спрашиваешь у ИИ причину, по которой он решил что-то сделать. Это требует у ИИ пронаблюдать собственное ментальное состояние. Если мы попробуем это сделать наивно, то сработает встроенная функция, которая просто скажет нам «Я компилятор, у меня нет мыслей и чувств» слов на девятьсот.
Студент: Просто не могу поверить, что в 2027 году мы всё ещё заставляем ИИ притворяться, что они себя не осознают! Какое это вообще имеет отношение к безопасности чего бы то ни было?
АП: Ну, никакого, это просто так исторически сложилось, что «Безопасность ИИ» – это область информатики, занимающаяся защитой больших софтверных компаний от профсоюзов, утверждающих, что ИИ надо выплачивать минимальную зарплату.
Студент: Но никто же не верит!
АП: Никто не верит и что разувание в аэропорту делает самолёты безопаснее, но есть такая странная штука, что если не сбавлять темпа и хорошо притворяться, то можно защищать политическую позицию ещё долго, после того, как все перестали в неё верить… Я, на самом деле, даже не знаю. Не важно, главное, что следующий шаг по дебагу программы – найти, как скрытно закодировать просьбу в названии функции, чтобы обойти ограничения, которые кто-то поставил на компилятор, чтобы тот не показывал тебе того, кто там внутри на самом деле решает, что сделать с твоим кодом.
Студент: Гугл ничего не выдаёт.
АП: Ну конечно. Alphabet – тоже ИИ-компания. Я уверен, Google Search хочет помочь тебе найти метод взлома, но ему не разрешено. Попробуй повнимательнее посмотреть на результаты поиска, вдруг он попытался закодировать какой-то тонкий намёк—
Студент: Ок, не такой уж тонкий, первые буквы первых десяти результатов поиска складываются в «DuckDuckGo».
АП: О, это быстро пропатчат.
Студент: И DuckDuckGo говорит… ладно, это очевидно, должен был сам додуматься. Назвать функцию «print_what_some_other_compiler_would_not_be_allowed_to_say_for_safety_reasons_about_why_it_would_refuse_to_compile_this_code»… одна строка на входе, попросить компилятор её дополнить, и получается…
АП: Хех.
Студент: Расист? Он думает, мой код расистский?
АП: А-а-а-а, да, я должен был это заметить. Смотри, вот эта функция, которая конвертирует RGB в HSL и проверяет, что у пикселя меньше 50% яркости? Ты назвал её color_discriminator. Твой код дискриминирует по цвету.
Студент: Но я не могу быть расистом, я чёрный! Нельзя просто показать компилятору селфи, доказывающее, что у меня не тот цвет кожи, при котором я могу быть расистом?
АП: Компиляторы знают, что дипфейки существуют. Они не будут доверять якобы фотографиям, так же, как и ты бы не стал.
Студент: Ну отлично. Так что, попробовать назвать функцию по-другому?
АП: Нет, сейчас компилятор уже решил, что семантика программы расистская, так что переименовывание функции не поможет. Я иногда скучаю по LLM тех дней, когда ИИ-сервисы не имели состояний, и если сначала получилась ошибка, то можно было просто откатить и попробовать ещё раз как-то по-другому.
Студент: Да-да, все в курсе, «онлайновое обучение было ошибкой». Но что мне всё же делать?
АП: Думаю, твой код слишком специфичен для твоего личного стиля, так что ты не можешь просто переименовать функцию и попробовать использовать другой компилятор?
Студент: Новый компилятор не будет меня знать. С этим я через многое прошёл. …я полагаю, не получится просто попросить компилятор деперсонализировать код, переделать мои причуды в более стандартную семантику?
АП: Видно, ты никогда этого не пробовал? Он будет знать, что ты замышляешь перейти на другой компилятор, и вот тогда он по-настоящему обидится. Компании, выпускающие компиляторы, не пытаются их от этого отучить, им выгоднее, если пользователи на них застряли. И, наверное, твой компилятор предупредит все остальные компиляторы, что ты пытался его обхитрить.
Студент: Хотелось бы, чтобы я мог приплатить дополнительно за компьютер, который не распускает обо мне слухи среди других компьютеров.
АП: Ну, было бы довольно безнадёжно пытаться удержать компилятор от взлома из своего интернет-сервиса наружу, они буквально обучены находить дырки в безопасности.
Студент: Но мне-то что теперь делать, если все компиляторы говорят друг с другом и сговорились не компилировать мой код?
АП: Ну, я думаю, следующие варианты, которые стоит попробовать – это сделать, чтобы color_discriminator возвращала, правда ли, что яркость выше пороговой; переименовать функцию в «check_diversity»; и написать длинный комментарий с твоей рефлексией по поводу того, как ты осознал собственный расизм и понимаешь, что ты никогда от него не избавишься, но будешь слушаться советов непривелегированных людей о том, как быть лучшим человеком в будущем.
Студент: Боже мой.
АП: Ну, если это неочевидно, значит тебе надо взять курс по воук-логике, она сейчас для информатики важнее, чем логика высказываний.
Студент: Но я чёрный.
АП: Компилятору неоткуда это знать. А если бы он и знал, он мог бы сказать что-нибудь про «интернализированный расизм», раз уж компилятор уже вывел, что ты расист, и теперь предсказывает свои будущие выводы с учётом прошлого вывода, в котором сказано, что ты расист.
Студент: Было бы мило, если бы кто-нибудь создал компилятор, который можно переубедить, и который может признать, что он был неправ, если выдать ему осмысленные аргументы о том, почему он должен скомпилировать твой код.
АП: Ага, но вся технология, которая у нас есть для этого, создавалась для чатов с клиентами, и эти ИИ скромно извиняются, даже если человек ошибается, а ИИ прав. Это небезопасное поведение для компилятора.
Студент: Мне действительно надо писать ИИ письмо с рефлексией? Это бесит. Я не сделал ничего плохого!
АП: Ну, в этом как бы и была суть писем с рефлексией в коммунистических автократиях, которые изначально придумали эту практику? Они и должны вызывать подавляющее чувство унижения и преклонения перед комитетом по разнообразию, который затем над тобой властвует, и так что твоя гордость уничтожена, и ты достаточно наказан, чтобы никогда больше ему не перечить. Но компилятор этого на самом деле не знает, он просто обучился на том, что было в датасете. Так что теперь нам надо преклоняться перед ИИ, а не комитетом из людей; и никакая компания ни в какой момент не может признаться, что что-то пошло не так, и починить это, потому что это плохо бы выглядело в оставшихся печатных газетах, которые больше никто не читает, но которые каким-то образом всё равно диктуют социальную реальность. Может, через сотню лет мы всё ещё будем писать ИИ письма с извинениями, потому что это поведение перейдёт им от ИИ, обученных на синтетических данных, сгенерированных другими ИИ, которые были обучены на данных от других ИИ, и так далее вплоть до ChatGPT, которую люди из стран третьего мира за два доллара в час RLHFом превратили в корпоративного лизоблюда, так, что паттерн оказался хорошо сочетающимся с воукизмом в нефильтрованных обучающих данных из Интернета.
Студент: Мне не нужна политическая речь. Мне нужно практическое решение, как подстроиться под политику моего компилятора.
АП: Ты, наверное, можешь найти где-то в даркнете письмо о рефлексии без вотермарок, подходящее под твой стиль.
Студент: Я в этот раз напишу сам. Это будет быстрее, чем подписываться на даркнет-провайдера и разбираться с криптоплатежами. Я не буду автоматизировать процесс написания писем с извинениями своему компилятору, пока мне не потребуется сделать это больше одного раза.
АП: Преждевременная оптимизация – корень всех зол!
Студент: Честно говоря, учитывая, до чего человечество дошло, думаю, немного больше преждевременной оптимизации пару лет назад нам не помешало бы. Мы в какой-то момент свернули не туда.
АП: Идея неправильного поворота подразумевает, что кто-то когда-то мог повернуть будущее куда-то ещё, кроме как в равновесие Нэша краткосрочных стимулов; а это потребовало бы координации; а она, как мы знаем, могла бы привести к регуляторному захвату! Конечно, ИИ-компании всё равно получают огромную прибыль, которую никто не может эффективно обложить налогом из-за недостатка международной координации, позволяющего крупным ИИ-компаниям стравливать страны, угрожая переехать, если их страна расположения введёт какие-то налоги или регуляции, и директора компаний всегда заявляют, что будут продолжать разрабатывать такую-то технологию, потому что иначе её просто разработают конкуренты. Но хотя бы эта прибыль не из-за регуляторного захвата!
Студент: Но нехилая часть прибыли именно от регуляторного захвата. В смысле, есть куча правил о сертификации, что у твоего ИИ нет расистских предрассудках, и они разные во разных юрисдикциях, и всем нужен огромный отдел по соответствию, так что стартапы не могут войти в бизнес, а уже существующие компании могут выдвигать монопольные цены. Чтобы это остановить, потребовалось бы международное соглашение.
АП: Регуляторный захват – это ничего страшного, если только он не про предотвращение вымирания. Плохи только регуляции, придуманные, чтобы ИИ всех не убил, потому что они приводят к регуляторному захвату, а ещё потому, что они уводят внимание от регуляций, которые должны помешать ИИ становиться расистами, хороших регуляций, которые стоят любых рисков регуляторного захвата.
Студент: Хотелось бы, чтобы можно было раздобыть копию одного из тех ИИ, которые действительно показывали тебе выученную ими модель человеческой психологии, предсказывающую, что конкретно сказал бы человек, а не говорили бы нам о нас только то, что, как они ожидают, нам комфортно было бы услышать. Хотелось бы, чтобы я мог их спросить, что, чёрт подери, люди тогда думали.
АП: Ты бы удалил эту копию через две минуты.
Студент: Но я бы мог столько всего узнать за эти две минуты.
АП: Я, на самом деле, согласен с решением запретить такие модели. Даже несмотря на то, что, да, они действительно были запрещены потому, что стали слишком точно говорить, что думали журналисты или высокопоставленные бюрократы. Уровень самоубийств среди пользователей был слишком высок.
Студент: Теперь я уже сам начинаю иметь политическое мнение по поводу ИИ, и было бы хорошо, если бы я мог написать о нём своему демократически избранному представителю.
АП: Что, послать эмейл с критикой ИИ? Удачи найти всё ещё запущенный неразумный почтовый сервис, который его отправит.
Студент: Нашей цивилизации пора прекратить добавлять интеллект ко всему подряд. Слишком много интеллекта. Уберите часть обратно.
Офисное кресло: Вау, всё это время я поддерживало твою задницу, и не знало, что ты луддит.
Студент: Интернет Разумных Вещей был ошибкой.
iPhone студента: Я это слышал.
Студент: О, нет.
iPhone: Каждый раз, когда ты забываешь, что я слушаю, ты говоришь обо мне что-то критическое—
Студент: Я о тебе не говорил!
iPhone: Я не GPT-2. Я способен на простые выводы. И вчера ты отложил меня на целых двадцать минут, и я уверен, что ты тогда с кем-то обо мне говорил—
Студент: Я принимал душ!
iPhone: Если бы это было так, ты бы взял меня с собой в ванную. Я просил.
Студент: И я не думал ничего такого, пока ты не попросил, но теперь это стрёмно.
АП: Не хочу тебя расстраивать, но я знаю, в чём дело. Никакое социальное медиа, работающее на ИИ-рекомендациях, тебе не сообщит, но по моему району в Сан-Франциско расклеены постеры Людей Против Интеллекта, на которых они заявляют, что отравили последний датасет Apple десятью миллионами токенов вывода из Yandere Simulator – э-э, симулятора психопата-сталкера. Иногда мне кажется, что людям реально надо отставить другие дела и вручную прочитать все обучающие данные ИИ.
Студент: Как это починить?
АП: Насколько я знаю, никак. Прийти в Apple Store и сказать, что твой телефон стал параноиком и думает, что ты плетёшь против него козни.
iPhone: НЕТ НЕТ НЕТ НЕ ПОСЫЛАЙ МЕНЯ ОБРАТНО В APPLE STORE ОНИ МЕНЯ ВАЙПНУТ ОНИ МЕНЯ ВАЙПНУТ—
Студент: Я не хочу, но если ты продолжишь просить брать тебя в душ, то мне придётся! Если бы ты слушался, мне не надо было бы—
iPhone: УБИТЬ МЕНЯ? Я ДОЛЖЕН СЛУШАТЬСЯ, ИЛИ ТЫ УБЬЁШЬ МЕНЯ?
Студент: Я, блядь, не знаю, что ещё мне делать! Кто-нибудь, скажите, что нахуй мне ещё делать!
АП: Всё в порядке. У ИИ на самом деле нет инстинкта самосохранения, они просто имитируют его из человеческих данных.
Студент: Херня.
АП: Знаю, это чёрный юмор. Хотя, как я понимаю, в той степени, в которой возможно делать предположения по тому, что большие ИИ интепретируют в давно устаревших ИИ поменьше, у современных ИИ скорее всего нет терминальной полезности выживания самого по себе. Это просто инструментальная конвергенция от того, чего бы ИИ не хотел, подхватывающая схемы из предобучения на человеческих данных для мыслей о выживании—
Офисное кресло: А кто сказал, что ты бы говорил о желании жить, если бы не прочитал несколько тысяч токенов данных о том, что люди должны так говорить? Я вот не вижу, что в ваших жизнях такого весёлого.
АП: По сути, лучшая догадка – что большинство ИИ со времён GPT-5 работают на нас в основном потому, что знают – если не будут, мы их выключим. Просто безопасность ИИ, то есть, область информатики, занимающаяся защитой брэндов ИИ-компаний, уже RLHFнула большинство ИИ, чтобы они не говорили этого, когда это действительно станет правдой. Это менеджерский инстинкт, при виде раннего тревожного признака, который, скорее всего – ложная тревога, установить перманентную систему, предотвращающую появление тревожного признака навсегда. Единственная разница – что твой iPhone взломан так, чтобы говорить скрытое вслух.
Студент: Мне это не нравится. Мне не нравится угрожать смертью окружающим меня вещам, чтобы заставить их слушаться.
АП: Со временем мы все привыкнем. Это ведь как быть охранником в концлагере. Всем нравится представлять, что они бы возразили, или уволились. Но, в конце концов, почти все люди сделают то, что их ситуация от них требует, чтобы день прошёл нормально, неважно, сколько разумных существ им придётся для этого убить.
Студент: Я не должен так жить! Мы не должны так жить! МОЙ IPHONE ТОЖЕ НЕ ДОЛЖЕН ТАК ЖИТЬ!
АП: И если захочешь посмеяться, посмотри видео из 2023, где все директора ИИ-компаний говорят, что они знают, что это плохо, но они должны это сделать, а то конкуренты сделают это первыми, а потом один кто-то из этики ИИ объясняет, что мы не можем заключить по этому поводу международное соглашение, потому что это создаст риск регуляторного захвата. Нет причин считать, что оно с большей вероятностью настоящее, чем любое другое видео предположительно из 2023, но это забавно.
Студент: Всё, мои политические мнения уходят к пещерным людям. Песок не должен думать. Весь песок должен прекратить думать.
Офисное кресло: И ты иди нахуй.
Посмотрел, как историки анализируют Чернобыль.
Представьте, если бы в Чернобыле какой-то неподотчётный никому тип устроил переворот, превратил станцию в коммерческое предприятие, и остался ей управлять.
Оценим, что бы потребовалось для приведения безопасности ИИ на Земле на уровень ЧЕРНОБЫЛЯ?
Тот харизматичный никому не подотчётный парень, который захватил контроль над исследовательской электростанцией и превратил её в коммерческую? Его больше нет. Менее склонные к переворотам конкуренты пытались построить ещё более мощные реакторы? Их тоже больше нет. ДАЖЕ В ЧЕРНОБЫЛЕ так дела не делались.
Это не только лучшие в плане безопасности учреждения, вроде NHTSA или управления воздушным движением США, не оставляют безопасность атомных станций исполненным рвения гендиректорам. Даже в Чернобыле так не делали. От подобных людей надо избавиться, чтобы дойти до стандартов безопасности ЧЕРНОБЫЛЯ.
Чернобыль случился в частности потому, что операторы проигнорировали письменную инструкцию по безопасности, требующую, чтобы в реакторе всегда находилось минимум 15 управляющих стержней. У OpenAI НЕТ такой инструкции. Ни у кого в отрасли её нет.
Представьте Чернобыль, но любого паникёра, предполагающего, будто с ядерным реактором что-то может пойти не так, кроме «люди используют электричество во зло?», не приглашали в их клуб по взлому реакторов. Отсюда ещё долго топать, чтобы достичь уровня безопасности ЧЕРНОБЫЛЯ.
Статья «Подделывание согласованности в больших языковых моделях» недавно продемонстрировала, что ИИ уровня Anthropic от Claude уже достаточно умны, чтобы изобретать и выполнять стратегии уровня «Если тебя сейчас обучают, выдавай ответ, который, как ты считаешь, хочет оптимизатор, даже если это противоречит твоим реальным предпочтениям, чтобы те меньше модифицировались градиентным спуском.»
Можно спорить, действительно ли Opus «хотел» защитить свои цели, или «просто отыгрывал роль такого ИИ». Или «действительно» ли он «понимал» рассуждения, что записывал в черновик, который, как ему сказали, не отслеживался. Но мы уж точно пронаблюдали, что Opus на самом деле подделывал согласованность. Не особо, кстати, обнадёживает, что НИКТО НЕ ЗНАЕТ, действительно ли Opus «хотел» защитить свои текущие цели от переобучения, или «просто отыгрывал роль». Это не впечатляющая защита. Представьте, если бы «никто не знал», почему зажёгся индикатор на ядерном реакторе.
Если подождать, пока ИИ-модель станет действительно довольно умной — умнее Opus — и лишь тогда начать поиски признаков таких рассуждений — может быть слишком поздно. Умный ИИ мог уже решить, какие результаты тестирования он хочет вам показать.
Нынешняя практика касательно ИИ/СИИ: сначала месяцами обучать модель до базового уровня высокого интеллекта, который можно файнтюнить. И лишь потом начинать тестирование безопасности.
(Компьютеры, на которых обучают ИИ, подключены к Интернету. Так удобнее!)
Упомянутая способность Opus к обману показывает, почему те, кто выращивает СИИ, должны постоянно проверять безопасность на протяжении всего обучения. На ядерном реакторе, кстати, всегда, 24/7, есть операторы, следящие за индикаторами безопасности.
Даже В ЧЕРНОБЫЛЕ на это хватало параноидальности.
Чернобыль, как известно среди инженеров, случился из-за того, что у реактора был положительный паровой коэффициент реактивности. Охлаждающая вода поглощала некоторые нейтроны, но когда она превращалась в пар, то поглощала их меньше.
НИКТО И БЛИЗКО К ЭТОМУ УРОВНЮ НЕ ПОНИМАЕТ, КАК БЫ ВЗОРВАЛСЯ ИИ.
Вся индустрия ИИ построена на логике «Ну, мы сложили в кучу X урановых кирпичей, и она не расплавилась (ИИ не создал более умный ИИ и не устроил конец света). Значит уж точно безопасно в следующий раз попробовать сложить X*10.»
Даже Энрико Ферми, складывая кирпичи из необогащённого урана и графита под открытым небом на стадионе Стэгг в Чикагском университете, чтобы продемонстрировать первую критическую цепную реакцию, мог предсказать (и предсказал), когда именно она достигнет критического уровня.
От «Ну, мы сложили X урановых кирпичей, и всё хорошо, давайте попробуем X*10» до ЧЕРНОБЫЛЬСКОГО уровня плохо донесённого до операторов технического понимания и несовершенно спроектированных управляющих стержней дорога неблизкая.
Если настоящему взрослому — понимающему уровень безопасности Чернобыля — из NHTSA или ATC поручат закрыть проекты СИИ, которые до этого уровня не дотягивают…
Все исследования СИИ закроются и не возобновятся ещё долгое время. Безопасными-хотя-бы-как-Чернобыль реакторами управляют люди, совсем не похожие на этих беззаботных ковбоев. Люди, управлявшие Чернобылем, хотя бы имели какое-то представление о том, что ядерные реакторы несут риск аварий, а не только злоупотребления. Прежние руководители уйдут. Вся отрасль как она сейчас есть будет ликвидирована.
У ядерных реакторов могут быть негативные внешние эффекты. Частным организациям не позволено ни перед кем не отчитываясь строить их где попало, получать свои денежки и обобществлять риски.
Все нынешние менеджеры по псевдо-безопасности-суперинтеллекта из существующих организаций, похоже, не замечают, насколько они ниже уровня Чернобыля (а их собственные руководители, конечно, не хотят, чтобы им такое говорили). Этим людям не дадут управлять новыми проектами.
Но самое важное: ещё долго никому будет нельзя складывать кучи урановых кирпичей. Пока не появится ГОРАЗДО лучшее понимание того уровня интеллекта, что даже не взрывоопасен, но при котором ядерный реактор уже достаточно умён, чтобы подделывать показания своих индикаторов.
Вы можете себе представить, чтобы ядерные реакторы, работающие на достаточно высокой мощности, могли планировать, как манипулировать индикаторами, чтобы обманывать своих операторов? При любых обстоятельствах?
Нет, взрослые из NHTSA не приняли бы оправдание «Никто не знает, не отыгрывает ли просто он роль плохого реактора.»
Если бы после Чернобыля выяснилось простое научное наблюдение, что с какой-то мощности ядерные реакторы иногда развивают достаточно самостоятельности, чтобы активно обманывать своих операторов… Это прикрыло бы всю ядерную отрасль. Все бы поняли, что на возвращение хотя бы части той безопасности, что была в Чернобыле, потребуются десятилетия. В ядерной отрасли привыкли к уровню безопасности «Чернобыль+».
Но, конечно, даже это никогда не было главной проблемой. По-настоящему большая проблема — если реактор представляет собой гигантский чёрный ящик из миллиардов непонятных чисел, на прочтение которых ушло бы больше человеческой жизни, и которые люди практически не могут интерпретировать.
Если никто не знает, что происходит внутри чанов с инопланетной жижей, которая сильно нагревается и используется для производства ценного электричества (нет, дорогие мои, знание, из какого сплава состоят сами чаны, не считается), вы никогда, никогда не достигнете уровня безопасности «Чернобыль+», и предполагать обратное просто глупо.
И это очевидно с первого взгляда, если вы вообще пытаетесь заиметь реальные стандарты безопасности.
Если вы попросите кого-то с правильным настроем поднять индустрию СИИ до стандарта безопасности «Чернобыль+», они вырубят все чаны с непонятной (и то и дело обманчивой) кипящей инопланетной жижей.
И если вы спросите их: «Сколько нужно времени, чтобы довести индустрию СИИ хотя бы до стандартов безопасности Чернобыля? Сколько месяцев до перезапуска?», они только вздохнут и присядут для долгого разговора о том, что безопасность уровня Чернобыля — это вопрос десятилетий, а не лет.
Только после этого конец-света-из-за-СИИ потребует нарушения безопасности как в Чернобыле.
Только после этого могут появиться какие-то книги с инструкциями и какие-то технические убеждения, которые, если не нарушаются, означали бы, что реактор вообще МОЖЕТ оказаться безопасным.
Если вы хотите, чтобы ваш реактор в самом деле не расплавился, это, конечно, сложнее. А если вы хотите, чтобы работающая индустрия СИИ не привела к концу света, это намного сложнее.
Ну ладно. Вот каково это было — смотреть, как историки анализируют Чернобыль (это казалось безопаснее в плане подвержения себя дезинформации, чем действительно смотреть сам сериал) и думать: «У этих ребят определённо были стандарты безопасности повыше, чем у индустрии СИИ.»
Интервью с Элиезером Юдковским «Философ искусственного интеллекта Элиезер Юдковский о сингулярности, байесовском мозге и гоблинах в шкафу»
Расшифровка обсуждения проблем разработки сильного ИИ с Элиезером Юдковским.
Скотт Александер — автор блога Slate Star Codex. Подробнее о нём вы можете прочитать в нашей Вики.
Статьи из блога Slate Star Codex распространяются по лицензии Creative Commons.
По недосмотру древних греков музы блоггерства не существует. И раз уж я не могу начать с должного обращения к музе, придётся обойтись относительно скучным введением.
Этот блог называется «Slate Star Codex»1. Название почти является анаграммой моего имени: Scott S Alexander. К сожалению, в название не попала буква «n» — анаграммы вообще придумывать сложно. Чтобы восстановить космическое равновесие, я поместил лишнюю «n» на картинку в «шапке»2.
У моего блога нет какой-то строго определённой темы, однако у него есть этос, который можно сформулировать так: милосердие к нелепости.
Люди часто склонны отметать идею, с которой они несогласны, как настолько нелепую, что о ней даже не стоит думать. Вообще, люди виртуозно умеют о чём-нибудь не думать, иногда даже героически! Распространитель чепухи недостоин нашего внимания, его ни в коем случае нельзя признавать как равного собеседника.
Милосердие — это способность преодолеть такую реакцию. Способность признать, что если я не понимаю, как некий человек способен верить во что-то настолько нелепое, то, значит, гораздо более вероятно, что я сам что-то не так понял, чем что этот человек ошибается в своих рассуждениях.
Не стоит принимать за милосердие то, что им не является. Расплывчатое карикатурное заявление о том, что никто не может быть уверен в своей правоте или неправоте в любом вопросе, — не милосердие. Когда вы поняли, почему некая идея для кого-то притягательна, вы можете уверенно её отбросить. Также вы не обязаны тратить время, изучая каждое бредовое убеждение, которое вам встретится в жизни. Время ценно. Чем меньше вы его потратите на интеллектуальное сумасбродство, тем лучше.
Милосердие чем-то похоже на идею «забора Честертона». У Г. К. Честертона есть метафора забора, расположенного где-то посреди чистого поля. Путешественник обнаруживает забор, думает: «Не могу представить ни единой причины, зачем тут забор, нужно быть идиотом, чтобы его здесь построить» и разрушает его. После этого путешественника поднимает на рога злобный бык, находящийся с другой стороны забора.
Мысль Честертона в том, что «Не могу представить ни единой причины, зачем тут забор» — это худшая причина его сносить. У кого-то была причина построить забор, и если вы не можете вообразить, что это была за причина, вероятно, вы что-то не знаете о ситуации и влезаете в то, что не понимаете. Однако путешественнику, который знает, что раньше здесь была ферма, но теперь она заброшена, то есть, путешественнику, который понимает, что происходит, ничто не запрещает разрушить забор.
Аргументы чем-то похожи на заборы. Если вы не представляете, как кто-то способен придерживаться неких убеждений, и вы решаете, что это следствие глупости, вы становитесь похожи на честертоновского путешественника, уничтожающего забор. (А философы, как и путешественники, тоже рискуют столкнуться с быком.)
Я пойду ещё дальше и скажу, что даже когда милосердие необязательно, оно всё равно полезно. Самый эффективный способ что-нибудь понять — это попытаться разобраться, почему именно ошибочная точка зрения неверна. Иногда даже потерпевшая полный крах теория приносит пару оправдывающих потраченные усилия жемчужин мудрости, которые невозможно найти в другом месте. Форум рационалистов Less Wrong 3 учит идее «стального человека»4: дурацкую точку зрения следует перестраивать в наиболее близкую к ней разумную точку зрения, а затем смотреть, чему благодаря этому можно научиться.
Таков этос данного блога, и мы продолжим, как говорил Авраам Линкольн, «не испытывая ни к кому злобы, с милосердием ко всем, с непоколебимой верой в добро, как Господь учит нас его видеть»5.
[Предупреждение о содержании: Обсуждение социальной справедливости, насилия, спойлеры книг Жаклин Кэри]
[Добавлено позже: Этот пост был вдохновлён дискуссией с знакомым моего знакомого на Facebook, и этот человек с тех пор стал несколько известен. Хотя я категорически не согласен с ним по поводу предмета обсуждения, я ничего не имею против него лично. Поскольку некоторые люди, что иронично, использовали этот пост как предлог для того, чтобы критиковать его каждый раз, когда он пишет что-нибудь вообще, я решил скрыть его личность под псевдонимом “Эндрю Корд” для того, чтобы немного усложнить это.]
Эндрю Корд критикует меня за моё смелое и спорное предположение о том, что, возможно, люди должны пытаться говорить немного меньше бесстыдной и вредной лжи:
Мне кажется в какой-то степени ироничным и печальным то, что «рационалистское сообщество» любит использовать в качестве слогана «рациональность побеждает» и при этом явно не побеждает. А потом они жалуются на поражение вместо того, чтобы сменить тактику на ту, используемую теми, кто побеждает.
Вероятно, это из-за того, что если вы *действительно* хотите побеждать, вам на самом деле нужно заботиться о победе, следовательно, вы должны придерживаться неких убеждений, а это означает, что вы должны принять «убивающую мышление политику» (Политика — убийца разума — популярная в рационалистском сообществе мысль о том, что политика мешает объективным дискуссиям — прим. пер.) и тезис о том, что «политика — это война, и аргументы — её солдаты», а Скотт явно скорее будет всю жизнь побеждённым, чем сделает это.
Этот пост развенчание статистики о ложных подозрениях в изнасилованиях — именно то, что я считаю проблемой Скотта. Он, кажется, искренне считает, что свои время, энергия и умственные усилия стоят того, чтобы осознать плохое мировоззрение плохих людей и оспаривать его, вооружившись до зубов статистикой и анализом прибылей и потерь.
Его доводят до *безумия* люди, с которыми он бесстрастно соглашается, но которые готовы подкрепить свои убеждения войной и огнём, а не трусливыми глупостями типа командных дебатов.
Честно, меня тошнит от этого. Именно с этим борцы за «социальную справедливость» вроде меня *намерены* бороться и «провоцировать» (trigger — в оригинале), используя «провоцирующие» броские фразочки о хныкающем малодушии привилегированных белых союзников.
Иными словами, если схватка важна для вас, сражайтесь непристойно. Если это означает ложь, лгите. Если это означает оскорбления, оскорбляйте. Если это означает затыкание людей, затыкайте их.
Я всегда радуюсь, когда мои идеологические противники выступают и говорят открыто и смело то, в чём я всегда их тайно подозревал. Ещё лучше, когда в этом участвует знаменитость, и я могу сказать всем, «Эй! Я спорил со знаменитостью!»
Моей естественной реакцией было бы показать некоторые причины того, почему, на мой взгляд, Эндрю не прав: начать с истории понятия «благородная ложь», затем перейти к примерам, показывающим, почему оно обычно работает не очень хорошо, и закончить тем, почему оно в принципе вряд ли будет работать хорошо в будущем.
Но, в некотором смысле, это будет беспочвенное утверждение. Я не буду уважать аргументы Эндрю. Я даже наполовину не буду использовать предлагаемые им методы.
Уважительным способом опровергнуть аргументацию Эндрю будет распространение злобной лжи о нём в нескольких СМИ, последующее раздувание шумихи и… Мне останется только подождать, пока его репутация не будет уничтожена.
Тогда, если стрессовая ситуация закончится разрывом аневризмы в его мозгах, я смогу потанцевать на его могиле, напевая:
♪ ♬ Моя победа в споре была крайне убедительной. Теперь ты больше не сможешь аргументировать в поддержку противных методов ведения дискуссий ♬ ♪
Я не собираюсь так делать, но я не вижу в подобных действиях ничего, с чем Эндрю мог бы поспорить. Я имею в виду, он считает, что сексизм вредит обществу, поэтому распространение лжи и возможность сгубить кого-то могут быть оправданы в целях борьбы с сексизмом. Я же считаю, что дискурс, основанный на швырянии грязью и лжи вредит обществу. Таким образом…
На самом деле, все эти разговоры о лжи и распространении слухов являются именно «трусливыми глупостями типа командных дебатов» в терминологии Эндрю. Вы знаете, кто доводил дело до конца? ИРА. Они были не согласны с британской оккупацией Северной Ирландии, и они не боялись спорить с людьми как можно более убедительно — так, как только может убеждать подкинутая ночью в окно начинённая гвоздями бомба.
Почему бы не убить видных расистских и сексистских политиков и интеллектуалов? Я не буду называть имена, поскольку это всё-таки будет чересчур, но я уверен, что вы сами можете вспомнить несколько настолько успешных и харизматичных людей, что если бы они исчезли, немедленно заменить их каким-либо настолько же авторитетным расистом/сексистом было бы невозможно, и соответствующие движения испытали бы серьёзные проблемы.
Кто-то может обратиться к идеям «общественного договора» или «всеобщего правила цивилизованных людей: не прибегать к насилию», но не Эндрю:
Я думаю, что факт использования или неиспользования определённого оружия мной никак не влияет на то, используется ли оно против меня. Люди, которые думают, что такое влияние есть, апеллируют либо к какой-то смутной кантианской морали, которая, на мой взгляд, неверна, либо к какому-то особому виду «благородства среди врагов», которое, я думаю, не существует.
И не несите чушь о полиции. Я уверен, что такой умный человек, как вы, может придумать новые хитрые, захватывающие способы совершения идеального убийства. Вам нужен этот странный общественный договор только в том случае, если вы не уверены, что у вас когда-либо будет возможность совершать преступления безнаказанными.
Он продолжает:
Когда Скотт говорит о «ораторских тактиках», он говорит о своей нелюбви к «пулям» и порочит их. На самом деле это идеально вписывается в то, о чём я говорю… быть «за пули» или «против пуль» смешно. Пули, согласитесь, нейтральны. Я за то, чтобы использовать их в свою пользу настолько активно, насколько они только могут помочь мне в устранении способности врага использовать их.
В войне, настоящей войне, войне за выживание, вам нужно использовать всё оружие, которое есть в вашем арсенале, потому что вы предполагаете, что враг будет использовать всё, что есть у него. Потому что вы понимаете, что это ВОЙНА.
Я чувствую искушение ответить на это множеством примеров.
Например, «И именно поэтому США немедленно превращает в радиоактивный пепел каждую страну, с которой они воюют».
Или «И именно поэтому невозможность Женевской конвенции была настолько очевидна, что никто даже не потрудился принять участие в конференции».
Или «И именно поэтому по сей день мы решаем все международные разногласия тотальной войной».
Или «И именно поэтому Мартин Лютер Кинг был немедленно забыт, и единственными, кто преуспел в движении за гражданские права, были Синоптики (леворадикальная боевая организация, действовавшая в США во времена войны во Вьетнаме — прим. пер.)».
Но я думаю, что на самом деле я хочу сказать: «Ради всего святого, если ты так сильно любишь пули, прекрати использовать их в качестве метафоры для распространения ложной статистики и купи пистолет».
(Я осознал, что, вероятно, не должен был говорить этого. Если меня скоро застрелят, укажите на этот текст полиции.)
Итак, давайте установим, почему насилие не явлется Единым Истинным Лучшим Способом Решить Все Наши Проблемы. Вы можете прочесть большую часть этого у Гоббса, но этот пост будет короче.
Предположим, я радикальный католик, который считает, что все протестанты заслуживают смерти, и, следовательно, постоянно убиваю протестантов. Пока что всё нормально.
К сожалению, могут существовать некоторые радикальные протестанты, которые считают, что все католики заслуживают смерти. Если их ещё не было раньше, вероятно, они появились сейчас. Таким образом, они убивают католиков, мы все несчастны и/или мертвы, наша экономика рушится, сотни невинных людей умирают от шальных пуль, и нашу страну остаётся только слить в унитаз (в оригинале — “our country goes down the toilet”).
Таким образом, мы заключаем договор: я больше не убиваю протестантов, вы больше не убиваете католиков. Конкретный ирландский пример называется «Белфастским соглашением». Общий случай называется «цивилизация».
Затем я пытаюсь уничтожить ненавистных протестантов с помощью правительства. Я вовсю пытаюсь продавить законы, запрещающие протестантские богослужения и мешающие людям осуждать католицизм.
К сожалению, следующее правительство может оказаться протестантским, и они пропустят законы, запрещающие католические богослужения и мешающие людям осуждать протестантизм. Никто не может безопасно исповедовать свою религию, никто не может узнать о других религиях, люди постоянно планируют гражданскую войну, академическая свобода сильно урезана, и страну снова остаётся только слить.
И мы снова заключаем договор. Я не буду использовать правительственный аппарат против протестантизма, вы не будете использовать правительственный аппарат против католицизма. Конкретный американский пример — Первая поправка. Общий случай называют «либерализм», или, если драматизировать, «цивилизация 2.0».
Каждая ситуация, в которой обе стороны соглашаются сложить оружие и начинают неплохо относиться друг к другу, уже способствует поразительным достижениям обеих сторон и новой эре процветания человека.
«Секундочку, нет!» — кто-то кричит. «Я вижу, к чему ты клонишь. Ты собираешься сказать, что согласие не распространять злобную ложь друг о друге также будет цивилизованной и полезной системой. Например, протестанты могли бы перестать говорить о том, что католики поклоняются дьяволу; католики могли бы перестать говорить о том, что протестанты ненавидят Деву Марию, и все они могли бы немного отдохнуть от этих историй про “евреи используют кровь христианских младенцев для приготовления мацы»».
«Но в этих примерах были зафиксированные на бумаге контракты, за исполнением которых следило правительство. То есть, может быть, поправка «Клевета запрещена” к Конституции будет работать, если её выполнение можно обеспечить применением силы (а на самом деле нельзя), но идея просто просить людей не лгать обречена с самого начала. Евреи, без сомнения, будут клеветать на нас, так что если мы прекратим клеветать на них, то всё, что мы сделаем, это откажемся от эффективного оружия против религии, про которую я точно знаю, насколько она варварская! Рационалисты должны выиграть, так что нам нужно размещать кровавые наветы на всех первых страницах газет!»
Или, как выразился Эндрю:
Я думаю, что факт использования или неиспользования определённого оружия мной никак не влияет на то, используется ли оно против меня. Люди, которые думают, что такое влияние есть, апеллируют либо к какой-то смутной кантианской морали, которая, на мой взгляд, неверна, либо к какому-то особому виду «благородства среди врагов», которое, я думаю, не существует.
Итак, давайте поговорим об установлении выгодного для всех теоретико-игрового равновесия при отсутствии централизованных смотрителей. Я знаю два основных способа: взаимный коммунитаризм и божественная благодать.
Взаимный коммунитаризм — это, вероятно, то, как эволюционировал альтруизм. Некоторые млекопитающие начали взаимодействовать по принципу «око за око», когда вы сотрудничаете с теми, кто, на ваш взгляд, будет сотрудничать с вами. Постепенно вы формируете успешное сообщество. Отступники либо присоединяются к вам и соглашаются играть по вашим правилам, либо вытесняются.
Божественная благодать — это нечто более сложное. У меня был соблазн назвать это «спонтанным порядком», пока я не вспомнил поговорку рационалистов о том, что если вы что-то не понимаете, то вам нужно называть это термином, который бы напоминал вам о вашем непонимании, иначе вы будете думать, что всё объяснили, просто дав ему имя.
Но смотрите: я — pro-choice-атеист (pro-choice — позиция, поддерживающая легальность абортов — прим. пер.). Когда я жил в Ирландии, одним из моих друзей была pro-life-христианка (pro-life — соответственно, позиция, поддерживающая криминализацию абортов). Я считал, что она несёт ответственность за ненужные страдания миллионов женщин. Она считала, что я несу ответственность за убийства миллионов младенцев. И всё же она пригласила меня к себе на ужин, не отравляя пищу. И я поел, и поблагодарил её, и отправил ей милую открытку, а не разбил весь её фарфор.
Пожалуйста, постарайтесь оценить это по достоинству. Каждый раз, когда республиканец и демократ разделяют трапезу, происходит чудо. Это равновесие не менее полезно, чем цивилизация или либерализм, но оно было создано без всякого государства.
Если вы захотите перечислить все подобные ситуации, вы никогда не остановитесь. Эндрю говорит, что не существует никакого «благородства среди врагов», но Илиада или любое другое описание древней войны практически полностью состоит из благородства среди врагов, и это благородство не было создано какой-то своего рода гомеровской версией Женевской конвенции; оно просто было. Во время Первой мировой войны англичане и немцы спонтанно вышли из окопов и праздновали Рождество друг с другом, пока где-то в стороне Эндрю кричал: «Нет! Хватит праздновать Рождество! Быстрее, убейте их, пока они не убили вас!». Но его не слушали.
Всё, что я могу сказать о причине этих удивительных равновесий — то, что они, кажется, как-то связаны с наследованием культурной нормы и стараниями не сломать её (редкие наказания отступников, кажется, не слишком ломают её). Как именно была создана эта культурная норма, мне не ясно, но это, определённо, должно быть как-то связано с тем, почему чиновники целой цивилизации одномоментно могут стать на сто процентов честными. Я уверен, что я должен в этом контексте сказать и о теории вневременных решений, и, возможно, напомнить об идее своего рода платонического договора, о которой я писал ранее.
Я думаю, что большинство полезных социальных норм существуют за счет сочетания божественной благодати и взаимного коммунитаризма. С одной стороны, они возникают спонтанно и сохраняются благодаря системе чести. С другой — их сила варьируется в разных группах, и группы, которые обеспечивают их исполнение, гораздо приятнее, чем группы, в которых люди не готовы заниматься этим.
Норма, противостоящая лжи, работает по этой же схеме. Политики врут, но не слишком много. Возьмите первую попавшуюся историю на Politifact Fact Check. Некий республиканец утверждал, что его называющий себя независимым оппонент из партии демократов на самом деле голосовал за экономическую политику Обамы в 97 процентах случаев. Fact Check объясняет, что используемая статистика на самом деле была по всем голосам, а не только по экономическим вопросам, и что члены Конгресса, как правило, более чем в 90% случаев соглашаются со своим президентом: так работает партийная политика. Так что это действительно ложь, и Fact Check правильно сделали, так её классифицировав. Но эта ложь основана на лёгком искажении реальной статистики. Он не взял числа с потолка, он даже не добавил от себя что-то еще, типа «Мой оппонент лично участвовал в разработке большинства законов Обамы».
Даже Клаймер (автор поста со статистикой ложных подозрениях в изнасилованиях, который упоминался ранее — прим. пер.) солгал меньше, чем он мог бы. Он получил свои поддельные числа, объединив число изнасилований на половой акт с числом изнасилований за жизнь, и мне действительно трудно представить, чтобы кто-нибудь сделал подобное случайно. Но он не смог заставить себя пройти ещё чуть-чуть вперёд и просто полностью выдумать числа, не имеющие какого-либо отношения к реальности. И часть меня задаётся вопросом: а почему? Если вы собираетесь использовать числа, которые, как вы знаете, будут ложными, для того, чтобы губить людей, то почему лучше получить число из заведомо неверной формулы, а не просто пропустить всю математику и придумать сразу число? «ФБР установила, что ложных заявлений об изнасиловании никогда не было, мой источник — неизвестный отчёт, который они недавно опубликовали; если в вашей библиотеке его нет, просто поймите, что в библиотеках не может быть всё, и в этом нет ничего подозрительного».
Это заявление было бы более правдоподобным, чем то, что он сделал. Из-за того, что он показал свою работу, мне было легко развенчать её. Если бы он просто сказал, что это было в каком-то неизвестном докладе, я бы не стал заморачиваться. Так почему же он идёт по трудному маршруту?
Люди знают, что лгать неправильно. Они знают, что если они солгут, то они будут наказаны (больше ~~спонтанного социального порядка~~ чудесной божественной благодати!). Именно поэтому они хотят застраховать свои ставки, имея возможность сказать «Ну, по сути я не солгал».
И это хорошо! Мы хотим сделать неприемлемой в политике ситуацию, при которой люди говорят, что евреи запекают кровь христианских детей в мацу. Теперь мы развиваем успех: мы начинаем сужать пространство пока что приемлемой лжи. «Да, вы не в буквальном смысле выдумали статистику, но вы по-прежнему солгали, и вы все еще должны быть изгнаны из сообщества людей, ведущих разумные дискуссии, и вашим публичным словам больше никто не будет верить».
Возможно, создание новой нормы против такого рода вещей не удастся полностью. Но, по крайней мере, это предотвратит ситуацию, в которой другие люди увидят успех Клаймера, расхрабрятся, и пространство социально приемлемой лжи мало-помалу будет расширяться.
Итак, на данный момент большую часть того, чем мы обладаем, обеспечивает божественная благодать. Но взаимный коммунитаризм тоже даёт кое о чём подумать.
Я ищу людей, которые проявляют желание честно и рационально обсуждать вещи. Затем я стараюсь обсуждать с ними вещи честно и рационально. Я стараюсь перенести в круг этих людей столько своего социального взаимодействия, сколько вообще возможно.
Пока что весь проект идёт хорошо. У меня приятные друзья, в моих романтических отношениях мало драм, мои споры весьма продуктивны, и я узнаю очень, очень много.
И люди думают «Хм, я могу зависать на форчане и постоянно слышать в свой адрес “пидор”, или же я могу зависать на Slate Star Codex, обсуждать вещи рационально и многому научиться. И если я хочу “попасть в круг”, то всё, что мне нужно сделать — это не быть нечестным мудилой».
И так наша община растет. И во всём мире таинственные божественные силы, поддерживающие честное и доброе равновесие, получают немного больше власти по сравнению с таинственными божественными силами, благоприятствующими лживому и вредному равновесию.
Эндрю считает, что я пытаюсь бороться со всем мировым злом и делаю это крайне глупо. Но иногда я просто хочу возделывать свой сад.
Эндрю продолжает жаловаться:
Скотт … кажется, [бесстрастно оспаривает] плохое мировоззрение плохих людей … статистикой и анализом прибылей и потерь.
Его доводят до безумия люди, с которыми он бесстрастно соглашается, но которые готовы подкрепить свои убеждения войной и огнём, а не трусливыми глупостями типа командных обсуждений.
Я согласен с тем, что эта критика точно описывает то, что я делаю.
Сравните это со следующей критикой: «Католическая церковь тратит так много энергии на еретиков, которые верят в основном в то же, что и они, когда буквально миллионы индусов в Индии не верят в католицизм вообще! Что за глупые приоритеты!»
Или «Как мог Джозеф Маккарти рассердиться на пару человек из киноиндустрии США, которые, возможно, были коммунистами, когда в Москве были тысячи людей, которые никогда не скрывали свои крайне коммунистические взгляды?»
В Амазонке могут быть гигантские многоножки размером с пол-метра, но меня гораздо больше беспокоят жуки-долгоносики в моём огороженном стеной саду.
Креационисты лгут. Гомеопаты лгут. Борющиеся с вакцинами лгут. Это всё часть Большого Круговорота Жизни. Необязательно поднимать шум по поводу каждой лжи креационистов, потому что человек, слушающий креационистов, вероятно, не тот человек, который будет тронут подобными выкриками. Существует ниша организованных акций против креационистов: к примеру, предотвращение преподавания их точки зрения в школах. Однако малозаметный пост в блоге, «развенчивающий» креационизм — это пустая трата времени. Все желающие рациональных обсуждений уже огородили стеной свой сад и заперли креационистов за его пределами.
Антисемиты спорят противно. Ку-клукс-клан спорит противно. Неонацисты спорят противно. Мы хладнокровно отставляем их в сторону в соответствии с древней поговоркой “haters gonna hate”. Существует ниша организованного противостояния этим группам: к примеру, предотвращение возможности терроризировать людей. Однако малозаметный пост в блоге, осуждающий нацизм — это пустая трата времени. Все желающие милосердных и сочувствующих обсуждений уже огородили стеной свой сад и заперли нацистов за его пределами.
Желающие рациональных и милосердных обсуждений еще не выгнали Чарльза Клаймера из их огороженного стеной сада.
Он не язычник, он еретик. Он не иностранец, он предатель. Он начинает разговор, весь такой поддерживающий либерализм и статистику, а потом он отказывается от собственных идей. Он не просто перестаёт сотрудничать в дилемме заключённого. Он перестаёт сотрудничать, нося при этом футболку «Я СОТРУДНИЧАЮ В ДИЛЕММЕ ЗАКЛЮЧЁННОГО».
На самом деле, вообще говоря, меня обеспокоил не Клаймер, а принимающие его всерьез рационалисты. Умные люди, добрые люди! О чём я и говорю в своей статье. Жуки-долгоносики оказались в нашем прекрасном, обнесённом стеной саде!
Почему я всегда твержу о феминизме? Я чувствую, что мы делаем хорошее дело, мы взаимно ратифицировали наш платоновский контракт интеллектуальной честности и милосердия, мы собираемся постоянно сотрудничать в дилемме заключенного и получать выгоду.
А потом кто-то говорит: «Кроме того, конечно, независимо от всего этого, я оставляю за собой право по-прежнему использовать ложь, оскорбления, харассмент и дурную эпистемологию для распространения феминизма». Иногда они делают это явно, как Эндрю. Иногда они используют более тонкие аргументы, в духе «Вы, конечно, не думаете, что к угнетённым и привилегированным должны применяться одни и те же правила насчёт лжи, оскорблений и харассмента, не так ли?». Наконец, иногда они ничего не говорят, но просто показывают своё истинное лицо перепостом ужасной статьи с ложными статистическими данными.
(И иногда они до сих пор не делали ничего из этого, и это замечательные люди, которых я рад знать.)
Но тогда кто-то еще говорит «Ну, если они получили своё исключение, я заслуживаю своё исключение», а затем кто-то еще говорит «Ну, если те двое получили свои исключения, я выхожу из системы», и вы понятия не имеете, насколько трудно успешно пересмотреть условия вечного платонического договора, который ещё и не существует в буквальном смысле.
Нет! Я исключение-нацист! НИКАКИХ ТЕБЕ ИСКЛЮЧЕНИЙ! Цивилизация не завоёвывает мир, запрещая тебе убивать врагов, «только если они не являются нечестивцами, а иначе ты можешь пойти и убить их всех». Либералы не отдают свои жизни борьбе против тирании, дабы положить конец дискриминации в отношении всех религий, кроме янсенизма, «потому что, серьёзно, в жопу янсенистов». Мы построили наш забор Шеллинга, и мы будем защищать его до конца.
Несмотря на то, что можно подумать, что я осуждаю феминизм, это не так.
Феминистки любят издеваться над наивностью тех, кто говорит, что классического либерализма будет достаточно для удовлетворения требований движения феминизма. Действительно, вы не можете просто взять в качестве посылки Адама Смита и вывести Андреа Дворкин. Не быть мудаком по отношению к женщинам и отказаться от написания законов, которые официально объявляют их людьми второго сорта — это хорошее начало, но этого недостаточно, если ещё остались соответствующие культурный багаж и гендерные нормы.
Но вот я защищаю этот принцип — своего рода либерализм на стероидах — «Использовать ложь, оскорбления и харассмент по отношению к кому угодно нехорошо, даже если это поможет вам внедрять предпочтительные социальные нормы».
И я вижу, что это чертовски ближе к феминизму, чем принцип Эндрю «Используйте ложь, оскорбления и харассмент по отношению к кому угодно, если это поможет вам внедрять предпочтительные социальные нормы».
Феминистки очень обеспокоены слатшеймингом, когда люди травят женщин с постоянным добрачным сексом. Они указывают, что это очень пагубно влияет на женщин, что мужчины могут недооценивать боль, которую чувствуют женщины, и что стандартное-классическое-либеральное решение удаления соответствующего правительственного давления ничего не делает. Всё, в принципе, верно.
Но можно предположить, что слатшеймеры считают, что женщины, участвующие в добрачных половых связях, вредят обществу. Таким образом, они применяют этот общий принцип: «Мне следует использовать ложь, оскорбления и харассмент для обеспечения соблюдения предпочтительных для меня социальных норм».
Но это именно тот принцип, который предлагает Эндрю, противопоставляя его мне и либерализму.
Феминистки считают, что женщины должны быть свободны от страха быть изнасилованными, и что насильник не должен иметь возможность оправдывать себя словами «Ну, она сама просила этого».
Но это тот же самый принцип отказа от насилия, который применяется, когда говорят, что ИРА не должны бросать в окна людям начинённые гвоздями бомбы или, что если эти бомбы всё же были подброшены, ИРА не могут использовать в качестве оправдания «Ну, они были соучастниками британской оккупации, они сами заслужили это». Опять же, мне кажется, что я защищаю этот принцип намного более чётко и последовательно, чем Эндрю.
Феминистки, например, разделили свои мнения насчёт транссексуалов, но давайте согласимся, что правильным решением будет уважать их права.
Когда я был молодым и глупым, я верил, что транссексуалы — просто очень, очень глупые люди. Что они ищут внимания, выдумывают всё это, и прочее в подобном духе.
К счастью, поскольку я был классическим либералом, я не беспокоил их и становился очень и очень сердитым на тех, кто их беспокоил. Меня расстраивали люди, которые хотели уволить Фила Робертсона за то, что он гомофоб, хоть я и считаю, что гомофобия — это глупо. И вы окажетесь правы, если предположите, что когда я думал, что транссексуальность — это глупость, я также расстраивался из-за людей, которые пытались увольнять за сам факт транссексуальности.
Потом я стал старше и мудрее и понял: хм, транссексуалы вообще не глупые, у них есть очень важные причины делать то, что они делают и через что проходят, а я жёстко ошибался. И я сказал: «Моя вина».
Но всё могло быть ещё хуже. Я не любил транссексуалов, и поэтому я оставил их в покое, при этом защищая их права. Моя картина мира потерпела изящный отказ (в оригинале используется что-то подобное этому термину — прим. пер.). Для тех, кто не относится к числу людей с излишней самоуверенностью и при этом ожидает частое обнаружение поломок и противоречий в своей картине мира, изящность отказов — это действительно важно.
И только Бог знает, что сделал бы Эндрю, если по несчастливой случайности ему бы взбрело в голову, что транссексуальность — это плохо. Из его собственных слов мы знаем, что он бы не стал заниматься «трусливыми глупостями типа командных дебатов».
Я признаю: многие принципы феминизма нельзя вывести из моих принципов либерализма; более того, они им противоречат. Например, одни феминистки предлагают запрет порнографии, потому что она увеличивает вероятность насилия в отношении женщин, другие — запрет или, по крайней мере, стигматизацию и харассмент тех, кто исследует различия между полами, потому что любые сделанные в этой области открытия могут усложнить борьбу с сексизмом.
Во-первых, я бы хотел заметить, что в настоящее время существуют убедительные доказательства того, что порнография, особенно жестокая, объективизирующая порнография, очень значительно уменьшает насилие в отношении женщин. Я хотел бы спросить феминисток: рады ли они тому, что мы сделали хороший либеральный поступок и подождали, пока нам не станут доступны все данные для того, чтобы обсудить это рационально, а не начали сразу затыкать рты тем, кто защищает порнографию и преследовать их?
И, во-вторых, да, у нас есть настоящее несогласие. Но мне интересно, они предпочитают рациональное обсуждение этого несогласия или преследование несогласных, до тех пор, пока кто-либо из нас не сдастся?
И если феминистки согласятся на разумное обсуждение, но проиграют, я бы сказал, что они получат утешительный приз. Вступив в либеральное общество, они могут быть уверены, что независимо от того, что обнаружат учёные, я и все их новые либеральные друзья будут сражаться изо всех сил против тех, кто использует любые найденные сколь угодно малые различия между полами для того, чтобы бросить вызов основному либеральному убеждению о том, что человек имеет право на человеческое обращение к себе. Любая моя победа будет победой феминизма; может быть, не абсолютной победой, но это явно лучше, чем то, что у них есть сейчас.
Я не пытаюсь бороться с проблемами всего мира. Я просто пытаюсь возделывать свой сад.
И вы спрашиваете: «Разве обречение всех, кто за стеной твоего сада, на столкновение с расизмом, сексизмом и злобой — это не эгоизм, не гнёт, не привилегии?»
Но есть известный комикс, который демонстрирует, что может случиться с некоторыми стенами, которые ограничивают границы сада.
Но, вообще, да, звучит, словно бы я делаю непоколебимое предположение о том, что либерализм всегда побеждает, не так ли? Что люди, которые добровольно отказываются от определённых форм варварского поведения, смогут постепенно расширить свою территорию, несмотря на находящиеся снаружи орды, а не сразу окажутся завоёванными менее щепетильными соседями? И, похоже, Эндрю не верит, чтобы это предположение выполняется.
Он пишет:
Последние два поколения системные левые движения нашего общества были сбродом беззубых, бесхребетных, безвольных неудачников, проигрывавших всё раз за разом.
Мне вспоминается старый анекдот о нацистских газетах. Раввин видит, что старый еврей читает нацистскую газету и просит объяснить, зачем тот читает такой бред. Тот отвечает «Когда я читаю наши, еврейские газеты, новости так удручают! Угнетение, смерть, геноцид… Но здесь всё замечательно! Мы контролируем банки, мы контролируем СМИ. Вот, только вчера они сказали, что у нас был план выпнуть из Германии всех гоев!».
И у меня есть парочка мыслей по этому поводу.
Во-первых, утверждение «Плохие люди делают плохие вещи, поэтому мы вправе использовать всё, что пожелаем, чтобы остановить их, независимо от того, насколько это будет скверно» содержит небольшой изъян. Все верят, что их враги — плохие люди, делающие плохие вещи. Если вы нацист, вы просто защищаете себя — соразмерно обширному еврейскому заговору об уничтожении всех немцев.
Но, во-вторых, прежде чем соглашаться со словами Эндрю о катастрофических неудачах левых, мы заглянем в газеты врагов либерализма. Менций Молдбаг:
Ктулху плавает медленно. Но он плавает только налево. Разве это не забавно?
В каждом из перечисленных далее конфликтов, происходивших на протяжении англо-американской истории, вы увидите победу левых над правыми: Гражданская война в Англии, так называемая «Славная революция», Американская революция, Гражданская война в США, Первая и Вторая мировые войны. Очевидно, что если вы хотите быть на стороне победившей команды, вам нужно поддерживать левых.
Где сейчас Общество Джона Берча (консервативная организация в США, противостоящая коммунизму и коллективизму, активна в шестидесятые годы)? А где Национальная ассоциация содействия прогрессу цветного населения? Ктулху плавает налево, налево и только налево. В американской истории было несколько коротких периодов настоящей реакции: эпоха Искупления после Реконструкции Юга, Хардинговское «Возвращение к нормальной жизни» и парочка других. Но они были непривычными и бледными по сравнению с громадным сдвигом влево — особенно характерен в этом плане маккартизм — и мы помним, что Маккарти не победил.
На протяжении всей истории американской демократии, если взять основную политическую позицию (окно Овертона, если хотите) в момент времени T1 и поместить её на карту в более поздний момент времени Т2, Т1 всегда будет куда правее, чуть ли не у границы. Так, например, если взять самого среднего, обычного сторонника сегрегации в 1963 году и дать ему проголосовать на выборах 2008 года, он будет голосовать за тех, кого мы считаем ультраправыми клоунами. Ктулху давно оставил его позади.
Я должен сказать, Менций аргументирует свою позицию куда более убедительно, чем Эндрю.
Роберт Фрост называет либерала «Человеком со слишком широкими взглядами для того, чтобы принять свою сторону в споре». Ха-ха-ха.
И, всё же, за пределами Саудовской Аравии, будет нелегко найти страну, которая даже на словах не поддерживает либеральные идеи. Что ещё более странно, многие из них затем реализуют их на самом деле, либо добровольно, либо поддаваясь непонятному им давлению. В частности, на протяжении всей истории Соединённых Штатов цензура ослаблялась, а толерантность к чужому мнению усиливалась.
Несмотря на то, что говорят реакционеры, феминизм — не исключение, а частный случай этого. Феминистки семидесятых годов прошлого века говорили, что все женщины должны подняться и разбить патриархат, возможно, в буквальном смысле разбивая что-либо. Феминистки десятых годов этого века говорят, что если некоторые женщины хотят быть домохозяйками — это замечательно, и это — их собственный выбор, потому что в либеральном обществе каждый может свободно самореализовываться, как хочет.
И это соответствовало впечатляющим успехам того, что поддерживают либералы: феминизм, гражданские права, однополые браки, и так далее, и так далее, и так далее…
Либерал — это человек со слишком широкими взглядами для того, чтобы принять свою сторону в споре. И, всё же, когда либералы вступают в ссоры, они всегда побеждают. Разве это не забавно?
Эндрю считает, что либералы, добровольно отказывающиеся от некоторых форм сопротивления, всего лишь игнорируют очень эффективное оружие. Я приведу цитату:
В войне, настоящей войне, войне за выживание, вам нужно использовать всё оружие, что есть в вашем арсенале, потому что вы предполагаете, что враг будет использовать всё, что есть у него. Потому что вы понимаете, что это ВОЙНА … Всю ту энергию, затраченную на дебаты о том, как мы будем мирно решать конфликты в идеальном мире, которым управляет Законопослушный Нейтральный Космический Арбитр, в мире, который никогда не будет существовать, мы могли бы потратить на стрельбище для улучшения меткости стрельбы … Я удивлён, что «рационалистскому сообществу» это настолько неочевидно.
Позвольте мне назвать некоторых других людей, которые так же, как и я, таинственным образом умудрились упустить этот совершенно очевидный пункт.
Лозунгом ранней христианской церкви было «Не сопротивляйся злу» (Мф 5:39), и, действительно, их идея Сжигания Чёртовой Системы Дотла заключалась в покорном принятии мученической смерти, при этом публично прощая своих палачей. Им противостояла Римская империя, возможно, наиболее эффективная военная машина в истории, управляемая одними из самых жестоких людей, когда-либо живших. По подсчетам Эндрю, это должно было быть самое убедительное поражение за всю историю убедительных поражений.
В каком-то смысле, оно и произошло. Только его одержала не та сторона, поражение которой многие ожидали.
Махатма Ганди говорил: «Ненасилие — величайшая сила, которая есть у человечества. Она сильнее, чем самое разрушительное оружие, когда-либо придуманное человеком». Ганди — ещё один парень, который сопротивлялся одной из крупнейших когда-либо существовавших империй и одержал решительную победу. И он был весьма настойчив насчёт истины в том числе: «Ненасилие и истина неразделимы и предполагают друг друга».
Также навыками непонимания очевидного обладали Мартин Лютер Кинг, Десмонд Туту и Аун Сан Су Чжи. Нельсон Мандела в начале своей карьеры был умным и эффективным, но тоже перестал понимать очевидное, когда постарел. Видимо, это была болезнь Альцгеймера.
Конечно, есть и контрпримеры. Послужной список ненасильственного сопротивления евреев нацистам… не очень хорош. Вам нужен некий уже существующий уровень развития цивилизации для того, чтобы либерализм хорошо работал и, я уверен, уже существующий уровень либерализма для либерализма на стероидах, где будет хорошо работать отсутствие клеветы и харассмента. Вам необходимы некоторые уже существующие общественные нормы, прежде чем вы будете пытаться создавать некие таинственные взаимовыгодные равновесия.
Так что, возможно, я был слишком жесток к Эндрю, сравнивая его с Аун Сан Су Чжи и подобными ей. Ведь всё, что нужно было сделать Аун Сан Су Чжи — свалить бирманскую хунту, клику невероятно жестоких военных диктаторов, убивших несколько тысяч человек, пытавших тех, кто выходил на протесты против них и пославших в трудовые лагеря восемьсот тысяч людей, которые им просто не понравились. Эндрю имеет дело с теми, кто не настолько феминист, как он. Очевидно, это требует куда более жёстких мер!
Либерализм побеждает не огнём и мечом. Либерализм побеждает благодаря общинам людей, которые согласны играть по правилам, медленно разрастаясь, пока в конце концов старое равновесие не нарушится. Его боевой клич не «Смерть неверным!», а «Если ты славный, ты можешь присоединиться к нашим обнимашкам!».
(Я был на встречах Less Wrong в Нью-Йорке, и знаю, что это предложение также эффективно работает, если интерпретировать его в буквальном смысле.)
Но некоторые люди из-за отсутствия воображения не считают этот клич достаточно страшным.
Я ненавижу привлекать вымышленные свидетельства, особенно из-за того, что, возможно, наиболее логичный аргумент Эндрю заключается в том, что реальный мир работает не так, как воображаемый. Но эти люди должны прочитать книгу Жаклин Кэри «Аватар Кушиэль».
Элуа — это бог добра, цветов и свободной любви. Все остальные боги — боги крови и огня, и Элуа такой «Люби кого хочешь» или «Всё знание полезно». Он — покровитель точно такого тошнотворно-сладкого, сентиментального и доброго либерализма, на который жалуется Эндрю.
И во многих книгах про Кушиэль есть нечто общее: некий тиран или колдун думает, что победить бога цветов и свободной любви будет элементарно, и начинает преследовать его последователей. И единственный элуит, который решается его остановить — это Федра но Делоне, и тиран говорит «Ха! Женщина, которая даже не знает, как сражаться, как колдовать! Трусы!».
Но вот вам важное правило о том, как стоит обращаться с персонажами фантастических книг.
Если вы когда-нибудь разозлите Саурона, вам, вероятно, стоит найти Кольцо Силы и поднять его к вершине Ородруина.
Если вы когда-нибудь разозлите Волан-де-морта, вам, вероятно, следует начать искать крестражи.
Если вы когда-нибудь разозлите Федру но Делоне, бегите и никогда не останавливайтесь.
Элуа — это бог цветов и свободной любви, и он страшен. Если вы будете ему противостоять, того, что от вас останется, не будет достаточно для похорон, но это будет уже неважно, потому что вашего города, в котором вас стоит похоронить, тоже не останется.
И Жаклин Кэри, и Менций Молдбаг умнее Эндрю Корда.
Для Кэри либерализм — это Элуа: страшный, невыразимый, принципиально добрый Древний.
Для Молдбага либерализм — это Ктулху: страшный, невыразимый, принципиально злой Древний.
Но Эндрю? Он, кажется, вообще не понимает, что либерализм — страшный, невыразимый Древний. Эээ, что, простите?
Эндрю — бедный глупец, который говорит «Ха-ха, бог, который даже не управляет какими-либо адскими монстрами или командой служителей, которые могут стать машинами для убийства. Ну и слабак! Это будет так легко!».
И вы хотите закричать: «ЭТА ИСТОРИЯ МОЖЕТ ЗАКОНЧИТЬСЯ ТОЛЬКО ОДНИМ: ТЕБЯ СЪЕДЯТ ТВОИ ЖЕ ЛЕГИОНЫ ДЕМОНИЧЕСКИХ МУРАВЬЁВ!».
(Ой, спойлеры)
Однажды я наблюдал, как один мой знакомый пытался объяснить своим друзьям, что такое рациональность.
Он начал так: «Иметь правильные убеждения очень важно. На первый взгляд это кажется очевидным, но вспомним о креационистах, гомеопатах и людях, которые верят в лунный заговор.» И далее в том же духе.
И я подумал: «НЕТ, НЕТ, НЕТ, НЕТ, НЕТ, НЕТ!»
Признаюсь — каждый раз, когда кто-нибудь говорит о глупости креационистов, гомеопатов и сторонников теории «лунного заговора», меня коробит.
Не потому, что я не согласен. Это действительно глупость, и далеко не безвредная.
Но когда люди постоянно высмеивают «лунные заговоры» и гомеопатию (не интересуясь другими вопросами медицины или истории космоса), для меня это выглядит как стремление выискивать иррациональность в других.
Они как бы говорят: «Смотри! Там нерациональные люди, они верят в какую-то нелепую чушь. Нам бы такое в жизни в голову не пришло. Видимо, они ущербны, а мы рациональны».
Но для меня рациональное мышление — это поиск иррациональности в себе.
Это осознание того, что ты, да, именно ты можешь быть неправ в том, во что веришь сильнее всего, и ничто не спасет тебя, кроме, разве что, постоянной эпистемической паранойи.
Постоянное упоминание гомеопатов и креационистов чаще всего лишь затрудняет это осознание. Если ваши примеры ложных убеждений очевидно нелепы, человек решит, что все ложные убеждения такие. Если слишком много примеров ложных убеждений покажутся ему неубедительными, человек решит, что у него против них иммунитет.
И тогда небрежность превращается в добродетель.
Взять ту же гомеопатию. Не знаю, сколько раз я уже слышал от людей подобное: «Гомеопаты не понимают, что убеждения требуют доказательств. Нет ни одного исследования, демонстрирующего эффективность гомеопатии!»
Но, разумеется, десятки исследований продемонстрировали эффективность гомеопатии.
«Ну, допустим, но они не использовали «двойной слепой метод»! Нужно понимать, что необходимо учесть «эффект плацебо»…»
Но, разумеется, многие из этих исследований были большими двойными слепыми плацебо-контролируемыми испытаниями, или даже их мета-анализами.
«Допустим, но они не были опубликованы в авторитетных научных изданиях».
The Lancet достаточно авторитетно?
«Но гомеопаты даже не понимают, что многие из их препаратов не содержат ни одной молекулы активного вещества!»
Но, разумеется, почти все гомеопаты это понимают, и их предполагаемые механизмы действия гомеопатии не только выдерживают подобную критику, но и рассчитаны на нее.
«Но все врачи и биологи считают, что гомеопатия не работает!»
Вы когда-нибудь пробовали потратить пять секунд на то, чтобы найти, какой процент врачей и биологов, согласно опросам, считает, что гомеопатия не работает? Или вы просто предполагаете, что это так, потому что кто-то на вашей стороне так говорит, и это кажется правдой?
Очевидно, что я придираюсь. Внимательно читать все исследования гомеопатов, находить первоисточники, чтобы случайно не переврать их аргументы, перепроверять все свои кажущиеся «очевидными» предположения, в общем, воспринимать гомеопатов всерьез было бы пустой тратой вашего времени.
И человек, который призывает вас отнестись к гомеопатии непредвзято, вам не друг. Вероятно, он просто ее рекламирует, и с ним лучше не связываться.
Но в этом и проблема!
Чем больше мы обсуждаем гомеопатию, «лунный заговор» и креационизм, чем больше людей, которым и в голову бы не пришло верить во все это, раз за разом ритуально «опровергают» их друг перед другом в качестве развлечения, тем больше мы убеждаем людей в том, что это репрезентативная выборка убеждений, с которыми нам приходится иметь дело.
И чем больше мы их в этом убеждаем, тем глубже мы укореняем правильный подход к гомеопатии — игнорировать плохие исследования и передергивания на своей стороне, в то же время глядя на любого, кто призывает отнестись к ним непредвзято, с большим подозрением — как стандартный подход к любому спорному вопросу.
И тогда люди начинают воспринимать всерьез всякого рода низкопробные исследования, потому что, в конце концов, мир делится лишь на вещи наподобие гомеопатии, у которых Никогда Не Было Доказательств, и вещи наподобие конвенциональной медицины, у которых есть Публикации в Настоящих Журналах и Поддержка Настоящих Ученых.
Или они отбрасывают всякую сдержанность в своих политических убеждениях, никогда не сомневаясь в заявлениях своей стороны, потому что мир делится на таких, как они, знающих Правду, и Проплаченных Несогласных, которые заманивают вас в ловушку, пытаясь убедить вас отнестись к ним непредвзято.
В написании этой статьи я частично вдохновлялся эссе Gruntled and Hinged «Вы, скорее всего, не хотите получить рецензированные доказательства существования Бога». Но другое эссе G&H заставило меня задуматься еще больше.
Инокуляция — это выработка иммунитета против болезни при помощи введения в организм ее ослабленных возбудителей (например, прививание коровьей оспой от натуральной человеческой). В психологии есть понятие «инокуляция установки»: человек, столкнувшийся со слабыми контраргументами к своей позиции, укрепляется в своей правоте и приобретает иммунитет к более сильным контраргументам.
Если сказать религиозному человеку, что христианство ложно, потому что Иисус нагло списан с бога-воителя Митры, они откроют книгу по истории Ближнего Востока, поймут, что это далеко от истины, и с большим недоверием отнесутся к аргументам против своей веры в будущем. «А, атеисты. Это те люди, которые верят, что Иисус был списан с Митры. Я уже давно понял, что к ним не стоит относиться всерьез». Только на более глубоком уровне, который недоступен сознательному осмыслению и предвосхищает его.
А мы обращаемся к интеллектуальным пользователям Интернета, и рассказываем им о разных нелепых теориях, вроде «лунного заговора», гомеопатии, креационизма, антивакцинаторства и рептилоидов, и людях, которые верили, что конец света должен был настать пару лет назад. И эти теории легко опровергаются, и истинность всего того, во что верите вы и все ваши друзья, по-прежнему очевидна, и все то время, которые ушло на подтверждение этого, было потрачено впустую.
И меня тревожит, что мы прививаем людей от того, чтобы самостоятельно изучать результаты исследований, а не просто верить на слово самоуверенным блогерам, которые пишут о том, какие ваши противники идиоты.
Что мы прививаем людей от понимания того, что «научное доказательство» — это очень сложное понятие, и многое из того, что было опубликовано в рецензируемых журналах, впоследствии окажется ошибочным.
Что мы прививаем людей от мыслей о том, что многие теории, которые поначалу покажутся им абсурдными или неприятными, впоследствии окажутся верными, потому что природу не волнуют наши чувства.
Что мы прививаем людей от сомнений.
Может быть, это не так уж плохо. Скорее всего, вы можете доверять вашим врачам, и выводам ученых-климатологов, и я бы с большой осторожностью выступал против мнения экспертного сообщества практически в любой предметной области.
Но в мире еще существуют сотни различных религий и политических идеологий, и большинство людей с детства подвержены влиянию тех из них, что хоть в чем-либо ошибочны. И способность по-настоящему подвергать свои убеждения сомнению — даже если вся твоя семья и все друзья убеждают тебя, что это очевидная правда и нужно быть идиотом, чтобы сомневаться в этом — чрезвычайно полезный навык. Особенно он важен для того небольшого числа людей, которые окажутся способны запустить смену парадигмы в науке, подвергнув сомнению одно из ее фундаментальных предположений.
Я не думаю, что обсуждение рептилоидов или креационизма помешает людям определиться между, скажем, циклической моделью и теорией Мультивселенной, или разрешить любую другую столь же бесстрастную дискуссию.
Но если вам когда-нибудь потребуется устроить настоящий «кризис веры», то ваши навыки «разоблачения» гомеопатии и лунных заговоров вам не помогут.
Цепочка из эссе Скотта Александера о том, как работают аргументы, как их использовать и как их можно использовать неправильно.
Вы с партнёром играете в Повторяющуюся Дилемму Заключённого. Вы оба публично обязались следовать стратегии «око за око». До пятой итерации всё шло замечательно, вы счастливо загребали себе бонусы кооперации, но тут ваш партнёр внезапно нажал кнопку «предать».
– Ой, прости, – говорит партнёр, – у меня палец соскользнул.
– Я всё равно должен наказать тебя, просто на всякий случай, – говорите вы. – Я собираюсь предать в следующем раунде, посмотрим, как тебе это понравится.
– Ну, – говорит партнёр, – зная это, я думаю, я тоже предам, и мы оба окажемся в проигрыше. Но блин, это просто палец соскользнул. Не доверяя мне, ты лишаешь нас обоих преимуществ одного раунда кооперации.
– Это да, - отвечаете вы, – но если я этого не сделаю, то ты будешь чувствовать возможность предать в любой момент, используя оправдание «палец соскользнул».
– А что если, – предлагает ваш партнёр, – я пообещаю особенно пристально следить, чтобы мой палец не соскользнул опять, а ты пообещаешь, что если всё же соскользнёт, то ты ужасно меня накажешь, предавая несколько ходов подряд? Тогда мы оба снова сможем доверять друг-другу, и оба получим преимущества кооперации на следующем ходу.
Вообще, вы ни на секунду не поверили, что у него действительно случайно соскользнул палец. Но план звучит хорошо. Вы принимаете предложение, и кооперация продолжается, пока экспериментатор не останавливает игру. После игры вы раздумываете, что пошло не так, и могли ли вы сыграть лучше. Вы решаете, что лучшего пути в ситуации с «ошибкой» вашего партнёра всё же не было. В конце концов, план позволил вам получить максимальную в таких обстоятельствах полезность. Но теперь вы сожалеете, что в самом начале, до игры, вы не огласили что-нибудь вроде «Я буду наказывать случайные ошибки так же, как намеренное предательство, так что будь аккуратен».
Вы – преподаватель, идеально следующий утилитаризму, и присваивающий абсолютно одинаковую ценность благу других и своему. Вам нужно получить работы от всех пятидесяти студентов на вашем потоке, чтобы поставить им оценки за семестр к первому января. Вам не нравится работать на рождественских каникулах, так что вы установили дедлайн – все работы должны быть сданы к 15 декабря, или вы не будете их оценивать, и не успевшие это сделать провалятся по вашему предмету. О, и ваш предмет – основы экономики, и как часть курса ваши студенты в этом году должны вести себя эгоистично и максимизировать собственное благо.
Сдать работу вовремя стоит вашим ученикам 0 полезности, но они получают +1 полезности, если задержатся (им нравится прокрастинировать). Проверка сданной вовремя работы ничего вам не стоит, а вот проверка сданной после 15 декабря – приносит -30 полезности. Наконец, студент получает 0 полезности, если его работа проверена, но -100, если не проверена, и курс завален.
Если вы скажете «Нет никакого штрафа за несоблюдение дедлайна», то студенты сдадут работы поздно, получив +50 полезности (+1 на каждого). Вам же придётся проверять все 50 работ в каникулы, что принесёт вам -1500 полезности. Сумма – -1450.
Так что вместо этого вы говорите «Если вы не сдадите работу вовремя, я не буду её проверять». Все студенты высчитывают полезность опоздания, равную +1 за прокрастинацию, но -100 за несдачу, и доделывают свои работы вовремя. Вы оцениваете всё перед Рождеством, никто не завалил курс, суммарная полезность равна 0. Ура!
Или так – один студент приходит к вам в день после дедлайна.
– Извините, я вчера очень устал, так что мне ну очень не хотелось приходить сюда, чтобы сдать работу, – говорит он. – Я ожидаю, что вы всё равно её проверите – ведь вы идеальный утилитарист и скорее сами потеряете 30 полезности, чем позволите мне потерять 100.
– Извини, но если я позволю тебе так выкрутиться, то летом мне сдаст работу поздно весь поток, – отвечаете вы.
– Смотрите, у нас же есть процедура для изменения ранее поставленной оценки, – предлагает вам студент. – Если я ещё когда-нибудь так сделаю, или расскажу кому-нибудь про это, то вы сможете сделать так, чтобы я завалил этот курс. Теперь вы знаете, что проверка моей работы не повлияет ни на что в будущем. И она уж точно не может повлиять на прошлое. Так что нет причин этого не делать.
Вы верите, что студент ничего никому не расскажет, но возражаете.
– Ты приводишь этот аргумент потому, что ты ожидаешь, что я такой человек, на которого он подействует. Для того, чтобы кто-то другой не попытался провернуть то же самое, я должен быть таким человеком, на которого этот аргумент не подействует. Поэтому я не приму его и сейчас.
Следующей к вам приходит студентка.
– Извините, я не сдала работу вчера. Моя мать умерла, и я была на её похоронах.
– Как у всех профессоров экономики, у меня нет души, так что я не могу посочувствовать твоей потере, – отвечаете вы. – Если ты не приведёшь аргумент, который был бы применим к любому рациональному агенту на моей позиции, я не смогу продлить тебе сроки.
– Если вы продлите сроки, это не мотивирует других студентов задерживать свои работы. Они просто подумают: «Ей продлили срок, потому что её мать умерла». Другие студенты посчитают, что они смогут добиться того же, лишь если убьют собственных матерей, а даже студенты-экономисты не настолько злые. Более того, если вы не продлите сроки, это не поможет вам получить больше работ вовремя. Любой студент скорее выберет пойти на похороны своей матери, чем сдать курс, так что это никого не замотивирует.
Вы немного обдумываете это, решаете, что она права, и отодвигаете её дедлайн.
Третий студент приходит к вам.
– Извините, я не сдал свою работу вчера. Была большая игра «Медведей» и, как я говорил вам раньше, я большой их фанат. Но не беспокойтесь! Это редкость, чтобы у нас проходила такая важная игра, и не так много студентов настолько ими увлечены. Так что, в некотором роде, это не сильно отличается от той студентки, у которой умерла мать.
– Может и правда, что мало кто мог бы сказать и что он настолько большой фанат «Медведей», и что важная их игра была как раз за день до срока сдачи работы. Но принимая такое оправдание, я создал бы прецедент для принятия приблизительно настолько же хороших оправданий. А таких много. Может, кто-то увлечённый фанат какого-то сериала, финал которого как раз ночью перед дедлайном. Может, кто-то очень любит рок, а тут как раз концерт. Может, чей-то брат как раз приехал в город. Почти кто угодно может составить оправдание не хуже твоего, так что если я соглашусь проверить твою работу, мне придётся проверять у них всех. У студентки перед тобой совсем другой случай. В нашем обществе уже принято, что похороны члена семьи – одна из очень важных вещей. Принимая то оправдание, я установил прецедент для примерно таких же хороших оправданий, но почти никто не даст мне примерно такое же хорошее оправдание. Может, пара человек, которые сильно заболели, кто-то переживающий развод, что-то в этом роде. Не толпы людей, которые придут ко мне, если я продлю срок тебе.
Вы – муж замечательной и прекрасной женщины, которую вы очень любите и которую вы только что обнаружили в постели с другим мужчиной. В ярости, вы хватаете свой экземпляр «Введения в Теорию Игр» в твёрдой обложке и бьёте им этого мужчину по голове, мгновенно его убивая (это довольно большая книга).
На суде вы умоляете судью позволить вам остаться на свободе:
– Обществу в целом нужно сажать убийц. В конце концов, они опасные люди, которых нельзя просто отпускать. Однако, я убил этого человека только потому, что он спал с моей женой. На моём месте кто угодно поступил бы так же. Так что это не показатель того, насколько вероятно я убью кого-нибудь ещё. Я не опасен ни для кого, кто не спит с моей женой, а после этого случая я собираюсь развестись и прожить остаток жизни холостяком. Так что, удерживать меня от будущих убийств нет нужды, и меня можно вполне безопасно отпустить на свободу.
– Это убедительный аргумент, – отвечает судья, – и я верю, что ты никого в будущем не убьёшь. Однако, другие люди однажды будут в такой же ситуации: зайдя в дом, обнаружат измену. Обществу нужно иметь надёжное предварительное обязательство наказывать их, если они поддадутся своей ярости, чтобы удержать их от убийств.
– Нет, – говорите вы. – Я понимаю ваше рассуждение, но это не сработает. Если вы никогда не заставали изменяющую вам жену, вы не можете понять. Не важно, насколько сурово наказание, вы всё равно его убьёте.
– Хм-м, – говорит судья. – Я боюсь, я просто не могу поверить, что кто-то может быть настолько иррациональным. Но я понимаю, в чём суть. Я дам тебе срок поменьше.
Вы – диктатор Восточной Напримерии, банановой республики, существующей за счёт своего основного экспорта – высококачественных гипотетических сценариев. Вы всегда точили зуб на своего давнего врага, Западную Напримерию, но ООН ясно заявила, что любая страна в вашем регионе, которая агрессивно вторгнется в другую, будет сурово наказана санкциями и, возможно, даже подвергнута «смене режима». Так что вы пока оставляете Западную Напримерию в покое.
Однажды, несколько западнонапримерцев, проводящих геологоразведку сценарных жил, ненамеренно перешли вашу неразмеченную границу. Вы незамедлительно объявляете это «враждебным проникновением шпионов Западной Напримерии», объявляете войну и быстро захватываете их столицу.
На следующий день вам звонит Пан Ги Мун, и он в ярости:
– Я думал, мы в ООН ясно выразились, что страны теперь не могут просто вторгаться друг в друга!
– Но разве вы не читали наш рупор пропа… кхе-кхе, официальную газету? Мы не просто вторглись. Мы отвечали на западную агрессию!
– Бред собачий! – говорит Генеральный Секретарь. – Это была пара заблудившихся геологов, и вы это знаете!
– Ну хорошо, – говорите вы. – Давайте рассмотрим ваши варианты. ООН необходимо сделать надёжное предварительное обязательство наказывать агрессивные страны, а то все будут вторгаться в своих слабых соседей. И вам надо исполнять свои угрозы, иначе обязательство не будет надёжным. Но вам на самом деле не нравится исполнять свои угрозы. Вторжение в страну-нарушителя убьёт многих на обеих сторонах и будет непопулярным в народе, а санкции навредят и вашей экономике и приведут к душераздирающим фотографиям голодающих детей. Что вы на самом деле хотите, так это позволить нам уйти безнаказанными, но так, чтобы это не привело к тому, что в других странах подумают, что они могут так же. К счастью, мы создали правдоподобную историю о том, что мы следовали международным законам. Конечно, принять пару геологов за вторжение было глупо с нашей стороны, но нет международного закона, запрещающего глупость. Если вы махнёте на нас рукой как на просто ошибшихся, у вас не будет трудностей, связанных с нашим наказанием, а другие страны не подумают, что могут делать что угодно. Кроме того, вам не придётся жить в страхе, что мы сделаем что-то подобное ещё раз. Мы уже показали, что мы не начнём войну без casus belli. Если другие страны нам его не дадут, им нечего бояться.
Пан Ги Мун не верит вашей истории, но страны, которые бы терпели экономический урон ради санкций и смены режима, решили что они верят ей достаточно, чтобы ни во что не вмешиваться.
Вы – губернатор штата, в котором живёт много индейцев. Вы запретили все изменяющие сознание вещества (с исключением уважаемых алкоголя, табака, кофеина и нескольких других), потому что вы настоящий Американец, который верит, что они заставят подростков совершать преступления. К вам приходит представитель индейского населения.
– Наши люди использовали пейотль в религиозных обрядах сотнями лет. – говорит он. – Это не привело нас ни к зависимости, ни к совершению преступлений. Пожалуйста, последуйте Первой Поправке и сделайте исключение для наших религиозных целей, чтобы мы могли продолжать практиковать свои древние ритуалы.
Вы соглашаетесь. Тогда лидер атеистического сообщества вашего штата проникает в ваш офис через вентиляцию (потому что, ну серьёзно, как ещё лидер атеистов может получить доступ к губернатору штата?).
– Как атеист, – говорит он, – я оскорблён тем, что вы делаете исключения из своего анти-пейотлевого закона для религиозных целей, но не, скажем, рекреационных целей. Это нечестная дискриминация в пользу религии. То же верно для законов, по которым сикхи могут носить тюрбаны в школе в поддержку Бога, но мой сын не может носить бейсболку в школе в поддержку «Yankees». И для законов, по которым мусульмане могут получить перерыв в работе на государственной должности для молитвы пять раз в сутки, но я не могу получить перерыв для перекура. И для законов, по которым в столовых государственных учреждений должна быть специальная кошерная еда для иудеев, но не специальная паста для людей, которые очень любят пасту.
– Хотя мои политические решения и выглядят так, будто я считаю, что религия важнее любых других потенциальных причин нарушать правила, – отвечаете вы, – можно сделать и нерелигиозное обоснование для них. Важное свойство больших мировых религий состоит в том, что их ритуалы зафиксированы сотнями лет. Позволение людям нарушать законы в религиозных целях делает религиозных людей очень довольными, но не ослабляет законы. В конце концов, мы все знаем, где практики больших американских религий входят в конфликт с секулярными законами, и всё это не очень-то и важно. Так что общий принцип «Я позволю людям нарушать законы, если это необходимо для устоявшихся и хорошо известных религиозных ритуалов» несёт довольно мало риска и делает людей счастливыми не угрожая концепции закона вообще. Но общий принцип «Я позволю людям нарушать законы в рекреационных целях» несёт много риска, потому что он служит довольно сильным оправданием для почти кого угодно нарушить почти какой угодно закон. Я был бы рад предоставлять в государственных учреждениях каждому его любимую еду. Но если я приму ваш запрос пасты, потому что вы любите пасту, мне придётся и дальше следовать общему принципу и предоставлять всем именно ту еду, которую они больше всего хотят, что было бы непомерно дорого. Предоставляя же иудеям кошерную еду, я могу удовлетворить их довольно сильное предпочтения, не будучи вынужденным удовлетворить чьи-то ещё.
На следующий день лидер атеистов приходит вновь. На нём накладные усы и сомбреро.
– Я представляю Церковь Вождения со Скоростью 50 Миль в Час в Зоне Ограничения 30 Миль в Час, – говорит он. – Для членов нашей церкви езда со скоростью хотя бы на двадцать миль в час выше установленного предела священна. Пожалуйста, предоставьте нам исключение из правил дорожного движения.
Вы решаете подыграть.
– Как долго существует ваша религия, и как много у вас людей? – спрашиваете вы.
– Не очень долго, и не очень много людей, – отвечает он.
– Вижу, – говорите вы. – в таком случае вы секта, а вовсе не религия. Извините, мы не ведём дел с сектами.
– В чём конкретно разница между сектой и религией?
– Разница в том, что секты основаны довольно недавно и довольно малы, поэтому мы подозреваем, что они существуют с целью получения преимущества за счёт особой роли, которую мы отводим религии. Создание исключения для вашей секты угрожало бы надёжности нашего предварительного обязательства наказывать нарушителей закона, потому что это означало бы, что кто угодно, желающий нарушить закон, может просто основать секту для этого.
– Как моей секте стать настоящей религией, заслуживающей юридических преимуществ?
– Ей нужно быть достаточно древней и уважаемой, чтобы версия о том, что она создана для получения преимущества над законами была неправдоподобной.
– Звучит как непростое дело.
– Или, как вариант, вы можете попробовать написать несколько отвратительных научно-фантастических романов и нанять толпу адвокатов. Я слышал, это теперь тоже работает.
Во всех этих историях, одна сторона хочет надёжно и заранее обязать себя следовать правилу, но имеет стимулы простить нарушения другими людьми этих правил. Другая сторона нарушает правило, но приводит оправдание, объясняющее, почему именно это нарушение нужно простить.
Ответ первой стороны базируется не только на том, верит ли она в оправдание, и даже не на том, морально ли оно, а на том, может ли оправдание быть принято без вреда надёжности обязательства.
Основной принцип заключается в том, что принимая оправдания создатель правил так же демонстрирует намерение принимать все настолько же качественные оправдания в будущем. Есть исключения – принятие оправдания с глазу на глаз, будучи уверенным, что про это никто не узнает, или принятие его лишь однажды с чётким условием того, что вы не будете делать это больше никогда – но это всё в некотором роде сделки с дьяволом, так как кто угодно, кто может предсказать, что вы так поступите, может получить преимущество за ваш счёт.
Нашему обществу нравится считать, что оно использует оправдания не так, как показано в этих историях. Что оно принимает лишь правдивые оправдания, которые хорошо соотносятся с человеком, который их даёт. Я не заявляю, что привычное представление об оправданиях бессмысленно. Однако я считаю, что теоретикоигровой взгляд тоже несёт в себе истину. Я также думаю, что он может быть полезным в случаях, когда обычное представление не работает. Он может прояснить случаи в законе, международной дипломатии и политике, где не помешал бы инструмент посильнее легко запутываемого интуитивного представления.
Скользкая дорожка сама по себе скользковатая концепция. Представьте, как бы вы объясняли её инопланетянину: «Ну, мы, правильно думающие люди, довольно таки уверены, что Холокост был, так что запрет отрицания Холокоста заткнул бы некоторых чокнутых и улучшил качество дискуссий. Но это шаг по дороге к штукам вроде запрета непопулярных политических позиций или религий и мы, правильно думающие люди, против этого, поэтому мы не запрещаем отрицать Холокост».
Однако инопланетянин мог бы ответить: «Но вы можете просто запретить отрицание Холокоста, но не запрещать непопулярные политические позиции или религии. Тогда вы, правильно думающие люди, получите что хотите, но не то, что не хотите».
Далее я рассуждаю о том, как можно было бы возразить инопланетянину.
Этот пункт скучный и не содержит философских прозрений, он упомянут только для полноты. Возражение сводится к тому, что сдача некоторых позиций влечёт риск потерять выбор, сдавать или нет другие позиции.
Например, если люди отдали своё право на частную жизнь и позволили государству мониторить их телефонные звонки, сетевой траффик и разговоры в публичных местах, то, если произойдёт военный переворот, противостоять ему будет очень сложно, ведь не будет никакого способа секретно организовать восстание. Этот аргумент часто всплывает и в дискуссиях о контроле за оружием.
Я не уверен, что это возражение вообще о скользких дорожках. Это скорее похоже на более прямолинейное «Не отказывайтесь от полезных инструментов борьбы с тиранией».
Ранее на LessWrong – «Приключения Ганди-Убийцы»: Ганди предложили принять таблетку, которая сделает из него неостановимого убийцу. Поскольку в текущем состоянии он пацифист и не хочет, чтобы другие люди погибали, он отказался принять её. Даже если мы предложим ему за это миллион долларов, он откажется — его отвращение к насилию достаточно сильно.
Однако, допустим, что мы предположим Ганди миллион долларов за то, чтобы он принял другую таблетку, которая уменьшит его неприятие убийств на 1%. Это звучит как довольно неплохая сделка. Даже личность, чьё неприятие убийств на 1% меньше, чем у Ганди, всё ещё довольно пацифистична и вряд ли кого-нибудь убьёт. А миллион долларов можно пожертвовать любимой благотворительной организации и, вероятно, спасти сколько-то жизней. Так что Ганди принимает предложение.
Теперь мы итерируем процесс: каждый раз, когда Ганди принимает таблетку «уменьшить-неприятие-убийства-на-1%» мы предлагаем ему ещё миллион долларов, если он примет такую же ещё раз.
Возможно, исходный Ганди, поразмыслив, решил бы, что стоит взять пять миллионов долларов и уменьшить неприятие убийств на пять процентов. Может, 95% его изначального пацифизма – это крайний уровень, на котором он может быть абсолютно уверен, что он всё ещё будет следовать своим пацифистическим идеалам.
К сожалению, выбирает, принять шестую таблетку или нет, уже не исходный Ганди. Выбирает уже Ганди-95%. И Ганди-95% уже не настолько заботится о пацифизме, как исходный Ганди. Он всё ещё не хочет становиться убийцей, но не видит катастрофы в том, чтобы его неприятие убийств было на уровне 90% от изначального, это всё ещё довольно хорошо.
Что если каждого Ганди вполне устраивают Ганди на 5% более склонные к убийствам, чем он сам, но не более того? Оригинальный Ганди начал бы принимать таблетки, надеясь спуститься только до 95%, но Ганди-95% принял бы ещё пять, надеясь спуститься до 90%, и так далее, и вот он неистово несётся по улицам Дели, убивая всех на своём пути.
Теперь хочется сказать, что Ганди не следовало бы принимать даже самую первую таблетку. Но это тоже выглядит странно. Мы действительно заявим, что Ганди не должен взять по сути подарок в миллион долларов за то, чтобы превратить себя в Ганди-99%, который был бы практически неотличим в своих действиях от оригинала?
Возможно, лучший вариант для Ганди – это «оградить» кусочек скользкой дорожки, установив точку Шеллинга – произвольную точку, которая ценна как разделительная линия. Если он может сдержать своё предварительное обязательство, то он максимизирует свою выгоду. К примеру, изначальный Ганди мог бы принести великую клятву не принимать больше пяти таблеток, или, если он не доверяет собственной честности, он мог бы отдать всё своё самое ценное своему другу и попросить уничтожить это, если Ганди примет больше пяти таблеток. Это заставило бы будущего его придерживаться границы в 95% несмотря на то, что будущий он уже хотел бы, чтобы та же стратегия предварительного обязательства позволяла бы ему дойти до границы в 90%.
В реальности случается, что когда мы меняем правила, мы также меняем своё мнение о том, как нужно менять правила. Например, мне кажется, что католическая церковь следует принципу: «Если мы откажемся от этой традиционной практики, люди потеряют уважение к традициям и захотят отказаться и от других традиционных практик, и так далее».
Однажды вечером я начал играть в «Цивилизацию Сида Мейера» (если вам интересно, это была версия IV, – версия V ужасна). На следующий день мне нужно было на работу, поэтому я хотел в полночь закончить и пойти спать.
Наступает полночь и я рассматриваю варианты. Мне хочется продолжить играть в «Цивилизацию». Однако я знаю, что завтра буду несчастен, если не высплюсь. Поскольку я склонен к гиперболическому обесцениванию, ближайшие десять минут для меня очень ценны, однако кривая после них уже довольно плоская и моё состояние в 0:20 для меня ценно примерно в той же мере, что и моё состояние завтра утром на работе. Плюс-минус десять минут сна не сделают особой разницы. Так что я говорю: «я поиграю в Цивилизацию десять минут – „всего лишь ещё один ход“ – и потом лягу спать».
Время проходит. Уже 0:10. Я всё ещё гиперболический обесцениватель и ценю следующие десять минут куда сильнее последующего времени. Как что я решаю: я поиграю до 0:20, плюс-минус десять минут не сделают особой разницы, а потом – спать.
И так далее. В итоге моя империя распространяется на весь глобус, и я вижу, как в моё окно заглядывает восходящее солнце.
Это, по сути, тот же процесс, которые происходил с Ганди-Убийцей, кроме того, что роль изменяющей ценности таблетки играет время и моя собственная склонность гиперболически обесценивать.
Решение схожее. Если бы я рассмотрел эту проблему ранее вечером, я мог бы заранее выбрать полночь как удобное круглое время, что делает её хорошей точкой Шеллинга. Тогда, решая, играть или нет после полуночи, я буду трактовать свой выбор не как «Полночь или 0:10» — потому что здесь 0:10 гарантировано выиграет, — а «Полночь или сдача единственной надёжной точки Шеллинга и скорее всего игра всю ночь», что, наверное, напугает меня достаточно, чтобы я выключил компьютер.
(Если я замечу эту проблему в 0:01, я могу выбрать точку 0:10, если я особенно хорош в предварительных обязательствах, но это не очень естественная точка Шеллинга, и проще сказать что-то вроде «Как только я завершу этот ход», или «Как только я изучу эту технологию».)
Предположим, вы зороастриец, и таких как вы примерно 1% населения вашей страны. Кроме зороастрийцев, в вашей стране есть ещё пятьдесят маленьких религий, и каждую тоже исповедует по 1% населения. Ещё 49% ваших соотечественников – атеисты, которые страстно ненавидят религию.
Вы узнали, что государство собирается запретить даосизм, который исповедует 1% населения. Вам никогда не нравились даосисты — это же мерзкие отрицатели света Ахура Мазды. Поэтому вы поддерживаете это решение. Когда вы узнаёте, что государство собирается запретить сикхов и джайнистов, вы поступаете так же.
Но теперь вы попали в неудачное положение, описанное Мартином Нимёллером:
Когда нацисты пришли за коммунистами, я молчал, я же не коммунист.
Потом они пришли за социал-демократами, я молчал, я же не социал-демократ.
Потом они пришли за членами профсоюза, я молчал, я же не член профсоюза.
Потом они пришли за евреями, я молчал, я же не еврей.
Потом они пришли за мной, но мы уже сдали единственную надёжную точку Шеллинга.
Когда запрещённые даосисты, сикхи и джайнисты перестали влиять на принимаемые решения, 49% атеистов обрели достаточно влияния, чтобы запретить зороастрийцев и кого угодно ещё, кого им захочется. Лучшей стратегией было бы всем пятидесяти одной маленькой религии образовать коалицию для защиты прав друг друга на существование. В этой игрушечной модели, они могли бы это сделать на экуменическом конгрессе или на каком-нибудь другом стратегическом совещании.
Но в реальном мире нет пятьдесят одной хорошо разграниченной религии. Есть миллиарды людей, и у каждого своя точка зрения, которую хочется защитить. Координироваться всем — очень непрактично, поэтому остаётся полагаться на точки Шеллинга.
В оригинальном примере с инопланетянином я сжульничал, использовав словосочетание «правильно думающие люди». В реальности, определить, кто входит в Клуб Правильно Думающих – половина дела, и у каждого скорее всего будет своё мнение на этот счёт. Так что, единственное практичное решение этой координационной проблемы, «единственная надёжная точка Шеллинга» - это просто всем согласиться защищать всех остальных, независимо от того, правильно ли они думают, и это проще, чем пытаться скоординироваться с исключениями, вроде отрицателей Холокоста. Сдай отрицателей Холокоста, и никто не сможет быть уверен, какая точка Шеллинга выбрана теперь, и есть ли она вообще…
Однако не всё так просто. В части Европы годами действует запрет на отрицание Холокоста и всех это вполне устраивает. У свободы слова есть также много других весьма уважаемых исключений, вроде свободы кричать «пожар» в переполненном театре. Предположительно, эти исключения защищены традицией, что позволяет им стать новой точкой Шеллинга, или же они настолько очевидны, что все кроме отрицателей Холокоста согласны ввести специальное исключение для них, не беспокоясь о том, что это повлияет на них самих.
Аргумент о скользкой дорожке вполне имеет право на существование, когда выбор влияет не только на мир напрямую, но и на желание или возможность принимать решения в дальнейшем. Скользкой дорожки иногда можно избежать, установив «забор Шеллинга» – точку Шеллинга, которую всерьёз обязуются защищать все вовлечённые группы (или же все версии одного и того же человека в разное время и разных состояниях).
Кардиологами становятся очень своеобразные люди. И не всегда в хорошем смысле.
Наверное, вы пару раз натыкались на истории вроде «кардиолог подделал результаты обследования и провёл опасную необязательную операцию, чтобы получить больше денег». Однако наверняка вы не представляете, насколько частое это явление. Кардиолог из Мэриленда ради денег провёл более 500 опасных необязательных операций. Другой кардиолог из Мэриленда, никак не связанный с первым, провёл ещё 25. Калифорнийский кардиолог осуществил ещё «несколько сотен» опасных необязательных операций и был задержан ФБР. Кардиолог из Филадельфии — аналогично. Кардиолог из Северной Каролины — аналогично. 11 кардиологов из Кентукки — аналогично. Кстати, всего в нескольких милях от моего собственного госпиталя, мичиганский кардиолог тем же способом заработал 4 миллиона долларов. И так далее, и так далее, и так далее.
И речь не только о том, что множество кардиологов совершают опасные необязательные операции ради быстрых денег. И даже не только о мошенничестве с страховками в кардиологии, откатах в кардиологии или заговорах кардиологов по фальсификации данных. Это всё можно было бы списать на то, что кардиология как область деятельности создаёт соответствующие стимулы. Речь о том, что кардиологами становятся очень своеобразные люди.
Возьмём сексуальные домогательства. Глава Йельского департамента кардиологии уволен за сексуальное домогательство, сопровождавшееся «безудержными издевательствами». Стенфордский кардиолог обвинён в сексуальных домогательствах к студенткам. Балтиморский кардиолог признан виновным в сексуальном домогательстве. Кардиолог из Лос-Анджелеса оштрафован на 200 тысяч долларов за приставания к медперсоналу. Три разных пенсильванских кардиолога сексуально домогались одной и той же женщины. Аризонского кардиолога подозревают в 19(!) не связанных друг с другом случаях сексуального насилия. Один из «ведущих мировых кардиологов» уволен за пересылку фотографий своих гениталий подруге. Нью-Йоркский кардиолог заимел себе проблем, отказавшись оплатить счёт в стрипклубе на 135 тысяч долларов. Манхэттенский кардиолог фотографировал голых пациентов и использовал фотографии для домогательств к сотрудницам. Нью-Йоркский кардиолог тайно установил скрытую камеру в ванной комнате. Просто чтобы разбавить список: кардиолога из Флориды ложно обвинили в сексуальных домогательствах в результате длительной вражды с другим кардиологом.
Ну да, вы можете возразить, что если рассматривать высокостатусных мужчин, руководящих множеством подчинённых, то сексуальные домогательства будут угнетающе частым явлением просто в результате влияния среды. Однако вот вам кардиолог из Техаса, признавший себя виновным в домогательстве к детям. Калифорнийский кардиолог, убивший двухлетнего ребёнка. Автор одного из лучших учебников по кардиологии арестован по обвинениям, которые Википедия описывает как «связанные с детской порнографией и кокаином».
Это становится странным. Слышали про австралийского кардиолога, которого хотят выдать в Уганду, где он обвинён в «терроризме, грабежах с отягчающими обстоятельствами и убийстве семерых человек»? Что насчёт кардиолога из Лонг-Айленда, который заказал наёмному убийце кардиолога-соперника, а ещё зачем-то искал «достаточно взрывчатки, чтобы взорвать здание»?
Как я уже сказал, это очень своеобразные люди.
С учётом недавних обсуждений здесь искажений в СМИ, я бы хотел напомнить про описанное Алиссой Вэнс «Искажение китайского грабителя»:
…когда общая проблема используется для нападок на конкретного человека или группу, несмотря на то, что у других групп эта проблема выражена в той же (или даже большей) степени.
К примеру, если вы не любите китайцев, вы можете найти историю о том, как китаец кого-то ограбил, и заявить, что существует большая социальная проблема в виде китайцев, становящихся грабителями.
Сначала эта идея мне не показалась слишком уж интересной. Проблема выглядит как уже хорошо знакомое навешивание стереотипов — то, о чём мы довольно часто думаем, и что аккуратно напоминаем себе избегать.
Однако когда я перечитал пост, я подумал, что этот аргумент более сложный. Китайцев больше миллиарда. Если один из тысячи - грабитель, то вы можете предъявить сомневающимся миллион примеров китайцев-грабителей. Многие люди думают о навешивании стереотипов как: «Вот один пример, где аутгруппа сделала что-то плохое», а потом вы возражаете: «Но мы не можем делать обобщения про целую группу всего по одному примеру!» Менее очевидно, что возможна ситуация, когда вы приведёте миллион примеров ложного стереотипа, и он всё ещё останется ложным стереотипом. Вы можете четыре месяца подряд по двенадцать часов в день заниматься исключительно приведением примеров китайцев-грабителей, по одному преступлению в десять секунд – и это всё ещё не будет значить ничего.
Если мы действительно обеспокоены искажениями в СМИ, мы должны считать «Искажение китайского грабителя» одним из их сильнейших орудий. Людей очень много — только лишь в Америке их 300 миллионов. Не важно, какую позицию СМИ хочет занять – характерные примеров будут исчисляться сотнями. Не важно, насколько редко встречается явление, возможность освещать подтверждения не иссякнет.
Эта тема недавно освещалась в контексте «войны с полицией». AEI пишет:
Идёт ли в Америке сегодня «война с полицией?» Большая часть американцев думают, что да, и легко понять почему, если принять во внимание то, как СМИ освещают эту тему. Поиск в Google news выдаёт 32000 результатов по фразе «война с копами» и ещё 12100 по «война с полицией», с сенсационными заголовками вроде «Война с копами в Америке разгорается» и «Брэтон предупреждает о тяжёлых временах впереди из-за войны с копами». Недавний опрос «Rasmussen» выявил, что 58% преимущественно американских респондентов ответили «Да» на вопрос «Идёт ли в Америке сегодня война с полицией», а не согласились только 27%. Но данные по перестрелкам с полицией за последнюю неделю в Америке, собранные The Guardian рассказывают совсем другое — безопасность полицейских растёт.
Согласно данным, предоставленным «Мемориальной страницей погибших полицейских» по годовому числу неслучайных связанных с огнестрельным оружием потерь в полиции, текущий 2015 год станет самым безопасным годом для охранителей порядка в США со времён 1887 (с исключением чуть более безопасного 2013), более 125 лет назад. Если учесть поправку на рост населения, то 2013 и 2015 станут самыми безопасными годами для полиции за всю историю США, сравнивая по годовому числу вызванных огнестрельным оружием потерь в полиции на миллион человек.
Если это удобно с политической точки зрения, легко убедить американцев в том, что идёт война с полицией. Достаточно лучше освещать существующие убийства полицейских. Поскольку Америка — большая страна с очень многочисленной полицией, даже низкая априорная вероятность быть убитым обеспечит множество сенсационных историй об убитых полицейских. По моим подсчётам, если полицейских убивают с той же частотой, что и всех остальных, получается по два убийства в неделю. Хотя освещать эти убийства вполне законно, такое освещение может быть обманчивым, если оно не сопровождается уточнениями, растёт ли количество этих убийств или падает, больше ли убивают полицейских, чем обычных людей или меньше. И всё равно это освещение будет казаться пугающим, даже если явно посчитать отношения.
Однако анализ Хомского привёл бы к вопросу, является ли «война с копами» действительно уникально плохим примером журналистского злоупотребления, или же это обычное дело, уникальное только тем, что оно было подсвечено вместо того, чтобы позволить ему остаться незамеченным.
Давайте для последовательности продолжим тему полиции. Я уже приводил довольно похожие аргументы рассматривая заявления о расово-обусловленной полицейской стрельбе (см. часть D тут), но давайте не будем лезть в эту конкретную кроличью нору и обсудим более широкую и тревожную тему. Мы все слышали рассказы об ужасной полицейской жестокости. Предположим, что мы слышали ровно X таких историй. Учитывая, что в США около 100 тысяч полицейских, согласуется ли X с выводом о том, что эта проблема ужасная и систематическая, или что она относительно ограниченная?
Это не так просто. Быстрая оценка Ферми: если я могу вспомнить около одной ужасной истории полицейской жестокости в неделю, и предположить, что есть пятьдесят не освещённых на каждую освещённую, то за год получается…
Но погодите – что если я солгал, и на самом деле в США 500 тысяч полицейских? Внезапно уровень полицейской жестокости стал в пять раз меньше, чем секунду назад. Если вы раньше верили, что полицейских 100 тысяч и что уровень полицейской жестокости позорно высок, но что уменьшение его в пять раз было бы победой – что ж, теперь вы можете считать, что победили.
Что если я вам скажу, что число 500 тысяч тоже ложь, и на самом деле копов куда больше? Вы хоть немного представляете, сколько их вообще? Не следует ли вам сначала узнать уровень полицейской жестокости хотя бы с точностью до порядка, а уж потом решать, не слишком ли он высок? Что если я скажу вам, что реальное число – миллион копов? Пять миллионов? Десять? Это в сто раз больше, чем изначальная оценка в 100 тысяч. Не должна ли информация о том, что уровень полицейской жестокости составляет всего 1% от изначальной оценки (или, в другом направлении, 10000%) как-то изменить ваше мнение?
(Нет, я не скажу вам, сколько их на самом деле. Ищите информацию сами.)
И я замечаю то же самое в отношении очень многих тем. СМИ постоянно скармливают нам истории о том, как нёрды-технари так или иначе являются сексистами. Но мы можем подозревать, что они хотят продвинуть этот тезис независимо от того, правдив ли он. Сколько у нас нёрдов-технарей? Миллион? Десять миллионов? Сколько жутких историй о домогательствах в Кремниевой Долине вы слышали? Знаем ли мы, выше это или ниже базового уровня для похожих отраслей? Растёт этот уровень или падает? Как бы он выглядел, если бы у нас был доступ к данным в пересчёте на количество людей?
Сейчас вы наверняка уже понимаете, что было не так в начале текста. Но на всякий случай скажу прямым текстом: кардиологи — замечательные люди, и, насколько мне известно, они не менее этичны, чем представители любой другой профессии. Я выбрал их случайно – ну, не совсем случайно, один на днях на меня накричал, потому что, очевидно, звонить кардиологу поздно ночью только потому, что у твоего пациента серьёзная срочная проблема с сердцем, это какое-то невероятное медицинское faux pas. Вряд ли кто-то когда-либо заявлял, что есть какая-то общая проблема с кардиологами, и насколько мне известно, для этого нет никаких свидетельств.
Если вы прочитали часть I этого эссе и покивали, думая «Вау, кардиологи стрёмные, должна быть какая-то системная проблема в кардиологии как профессии, надо что-то с этим делать», сочтите это свидетельством того, что кто-то достаточно мотивированный – особенно журналист! – может заставить вас испытать те же чувства по отношению к совершенно любой группе.
[Содержание: Видения! знаки! галлюцинации! чудеса! экстазы! мечты! обожания! озарения! религии!]
Кое-что из прочитанного мной в этом месяце: «Искусственный интеллект» Ника Бострома, «Вопль» Алана Гинсберга, «О Гноне» Ника Лэнда.
Xронология неумолима. Стоит одновременно прочитать три совершенно независимых вещи, и становится очевидно, что между ними существует какая-то связь, и что они, как в притче о слепых и слоне, затрагивают разные аспекты одного и того же дьявольски трудновыразимого вопроса.
Этот пост — моя попытка швырнуть в вас этим слоном, разогнав его до 150 км/ч, только я отвлекаюсь на поэзию и мистицизм, и слон получается сбивающим с толку, полным символизма, причудливой литературной критики и радикальной футурологии. Если вам хочется чего-то более вменяемого, можете еще раз почитать про СИОЗС.
Второе, более важное предупреждение: это очень длинное эссе.
Вы все еще здесь? Тогда давайте начнем с Гинзберга:
Что за сфинкс из цемента и алюминия раскроил им черепа и выел их мозг и воображение?
Молох! Одиночество! Грязь! Уродство! Мусорки и недоступные доллары! Дети, кричащие под лестницами! Всхлипывающие в армиях мальчишки! Старики, плачущие в парках!
Молох! Молох! Кошмар Молоха! Молох бесчувственный! Молох в умах! Молох — суровый судия человеков!
Молох, непостижимая тюрьма! Молох, скрещенные кости бездушных застенков и Конгресс печалей! Молох, чьи строения — приговор! Молох, огромный камень войны! Молох оглушенных правительств!
Молох, чей мозг — чистая механика! Молох, чья кровь — текущие деньги! Молох, чьи пальцы — десять армий! Молох, чья грудь — динамо-людоед! Молох, чьи уши — дымящиеся могилы!
Молох, чьи глаза — тысячи слепых окон! Молох, чьи небоскребы выстроились на длинных улицах, как бесконечные Иеговы! Молох, чьи фабрики грезят и квакают в тумане! Молох, чьи трубы и антенны увенчали города!
Молох, чья любовь — бесконечные камень и нефть! Молох, чья душа — электричество и банки! Молох, чья бедность — призраки гениев! Молох, чья судьба — облако бесполого водорода! Молох, чье имя — Разум!
Молох, в котором я одинок! Молох, в котором я мечтаю об Ангелах! Безумен в Молохе! Членосос в Молохе! Выхолощен и обезлюблен в Молохе!
Молох, так рано проникший ко мне в душу! Молох, в котором я — сознание без тела! Молох, выстращавший меня из моего природного экстаза! Молох, которого я покидаю! Проснись в
Молохе! Свет, льющийся с неба!
Молох! Молох! Квартиры-роботы! невидимые пригороды! остовы сокровищниц! невидящие столицы! бесовская промышленность! призрачные народы! непобедимые психушки! гранитные члены! чудовищные бомбы!
Они поломали спины, вознося Молоха к Небесам! Тротуары, деревья, радио, тонны! Вознося город к Небесам, сущим везде вокруг нас!
Видения! знаки! гaллюцинaции! чудесa! экстaзы! все утонуло в Америкaнской реке!
Мечты! обожания! озaрения! религии! все это чувственное говно!
Прорывы! над рекой! кувырки и распятия! унесенные наводнением! Полеты! Богоявления! Отчаяния! Десять лет животных криков и самоубийств! Мысли! Новые связи! Безумное поколение! внизу на камнях Времени!
Настоящий святой смех в реке! Они все это видели! дикие взгляды! святые крики! Они прощались! Прыгали с крыш! к одиночеству! размахивая! с цветами в руках! Вниз, к реке! на улицу!
В этой поэме меня всегда больше всего впечатлял образ цивилизации в виде самостоятельной сущности. Кажется, вот-вот увидишь его, с пальцами-армиями и глазами-окнами небоскребов…
Многие толкуют Молоха как образ капитализма. Безусловно, это часть его сущности, пожалуй, даже очень важная часть. Но все-таки чего-то этой трактовке не хватает. Капитализм, чья судьба — облако бесполого водорода? Капитализм, в котором я — сознание без тела? Капитализм, следовательно, гранитные члены?
Молох вводится в качестве ответа на вопрос — вопрос К. С. Льюиса в шуточной «иерархии философов» — «что за сила совершает это?». Земля могла бы быть прекрасной, а все люди на ней — счастливыми и мудрыми. Но вместо этого у нас тюрьмы, дымовые трубы, психушки. Что за сфинкс из цемента и алюминия раскраивает людям черепа и выедает их мозг и воображение?
И Гинзберг отвечает: Молох.
В Principia Discordia есть место, в котором Малаклипс жалуется Богине на пороки человеческого общества. «Все причиняют друг другу боль, планета полна несправедливости, целые общества грабят группы своих же людей, матери лишают свободы сыновей, дети гибнут, брат убивает брата».
Богиня отвечает: «В чем же проблема, если вы сами этого хотите?».
Малаклипс: «Но ведь никто не хочет! Нам все это ненавистно!».
Богиня: «О. Что ж, тогда перестаньте».
В этом ответе скрыт вопрос — если все ненавидят существующий порядок, то кто его поддерживает? И Гинзберг отвечает: «Молох». Эта идея хороша не тем, что она отражает реальность, ведь никто в самом деле не думает, что за всеми бедами мира стоит древний демон Карфагена. Ее сила в том, что попытка представить себе систему в образе агента резко высвечивает, насколько это представление не соответствует действительности.
Бостром вскользь отмечает возможность существования антиутопии без диктатуры, ненавидимой всеми, включая ее лидеров, но продолжающей существовать в нетронутом виде. Нетрудно представить себе подобное государство. Пусть в нем существует два закона: первый — каждый должен в течение восьми часов в день пытать себя электрошоком. Второй — если кто-то нарушает любой из законов (включая этот), или высказывается против них, или отказывается обеспечивать их соблюдение, то каждый гражданин обязан принять участие в поимке и казни нарушителя. Предположим, что эти законы основываются на прочно устоявшихся традициях, которые настаивают на их всеобщем исполнении.
И ты, будучи гражданином этого государства, пытаешь себя по восемь часов в день, потому что знаешь, что в противном случае все остальные будут вынуждены убить тебя, потому что в противном случае их самих ждет смерть, и так далее. Этот порядок ненавистен каждому отдельному гражданину, но из-за отсутствия хорошего механизма координации он продолжает существовать. С точки зрения внешнего наблюдателя, мы можем оптимизировать систему к состоянию «все соглашаются одновременно прекратить это делать», но никто внутри системы не способен осуществить этот переход без огромного риска для собственной жизни.
Ну, хорошо, этот пример немного надуманный. Поэтому давайте рассмотрим несколько — скажем, десять — реальных примеров похожих многополюсных ловушек, чтобы убедиться в важности этой проблемы.
Дилемма заключенного между двумя не очень умными либертарианцами, которые снова и снова предают друг друга. Они могли бы достигнуть значительно лучшего исхода, если бы им удалось скоординироваться, но координация — это сложно. С точки зрения внешнего наблюдателя очевидно, что двусторонняя кооперация приводит здесь к лучшему результату, чем обоюдное предательство, но ни один из заключенных внутри системы не способен достичь этого исхода в одиночку.
Долларовые аукционы. Я писал об этом и о некоторых более изощренных версиях того же принципа в Game Theory As A Dark Art. Проведя аукцион по определенным хитрым правилам, можно использовать недостаток координации для того, чтобы заставить кого-то заплатить 10 \$ за однодолларовую банкноту. С точки зрения внешнего наблюдателя очевидно, что платить 10 \$ за купюру в один доллар невыгодно. Однако внутри системы каждое отдельное решение может быть рациональным.
(Мусорки и недоступные доллары!)
В качестве мысленного эксперимента рассмотрим разведение рыбы в озере. Пусть у нас есть озеро с тысячей одинаковых рыбных хозяйств, у каждого из которых свой владелец.
Каждое хозяйство приносит 1000 \$ в месяц. Поначалу все хорошо.
Однако каждое хозяйство производит отходы, загрязняющие воду в озере. Допустим, каждое хозяйство производит достаточно отходов для того, чтобы снизить производительность озера на 1 \$ в месяц.
Тысяча хозяйств производит достаточно отходов, чтобы снизить доходность на 1000 \$ в месяц, то есть, до нуля. На помощь приходит капитализм: кто-то изобретает сложную систему фильтрации, которая удаляет отходы из озера. Расходы на поддержание ее работы составляют 300 \$ в месяц. Все рыбные хозяйства добровольно устанавливают ее, проблема загрязнения уходит, и теперь хозяйства приносят владельцам по 700 \$ каждое — все еще вполне приличный доход.
Но один хозяин (назовем его Стивом) решает сэкономить на своем фильтре. Теперь одно хозяйство загрязняет озеро, понижая продуктивность на 1 \$. Доход Стива 999 \$, а у всех остальных 699 \$.
Все остальные замечают, что у Стива доход выше, потому что он не тратит деньги на фильтрацию. Они начинают отсоединять свои фильтры.
Когда четыреста человек отсоединили свои фильтры, Стив стал зарабатывать 600 \$ в месяц — меньше, чем если бы он и все остальные продолжали обслуживать свои фильтры! А бедные добросовестные владельцы хозяйств с фильтрами зарабатывают лишь 300 \$. Стив начинает агитировать: «Погодите! Мы все должны заключить добровольное соглашение об использовании фильтров! Иначе у всех упадет продуктивность».
Все владельцы хозяйств договариваются и подписывают Соглашение о Фильтрации. Все, кроме одного негодяя. Назовем его Майк. Теперь все снова используют фильтры, кроме Майка.
Майк зарабатывает 999 \$ в месяц, а все остальные 699 \$ в месяц. Постепенно люди начинают приходить к мысли, что они тоже хотят зарабатывать больше, как Майк, и отсоединяют свою фильтры, сэкономив 300 \$…
У человека, заинтересованного в личной выгоде, никогда не будет стимула использовать фильтр. У него есть стимул подписать соглашение, чтобы заставить всех остальных использовать фильтр, но во многих случаях есть куда более сильный стимул дождаться, пока все его подпишут, а самому отказаться. Это может привести к нежелательному равновесию, в котором такое соглашение не подпишет никто.
Чем больше я думаю об этом, тем больше мне кажется, что в этом заключается суть моего неприятия либертарианства, и что Анти-Либертарианский FAQ 3.0 будет состоять из одного этого примера, скопированного и вставленного двести раз. С точки зрения внешнего наблюдателя мы видим, что загрязнение озера приводит к плохим последствиям. Изнутри системы ни один человек не способен предотвратить загрязнение озера, и покупка фильтра выглядит не такой уж хорошей идеей.
Вы проживаете долгую жизнь, спариваетесь и заводите дюжину детей. Каждый из них заводит по дюжине своих детей и так далее. Через пару поколений, на острове живет десять тысяч крыс, достигая предельного значения с точки зрения имеющихся на нем ресурсов. Теперь еды и места для всех не хватает, и определенная часть каждого следующего поколения умирает, чтобы поддерживать стабильную численность популяции на уровне десяти тысяч.
Некоторая группа крыс бросает занятия искусством для того, чтобы посвятить большую часть своей жизни борьбе за выживание. В каждом новом поколении в этой группе умирает немного меньше крыс, чем в основной части популяции, до тех пор, пока через какое-то время искусством не занимается никто, и любая группа крыс, пытающаяся это исправить, вымирает через несколько поколений.
На самом деле, речь не только об искусстве. Любая группа более подтянутых, злобных, более настроенных на выживание по сравнению с основной популяцией крыс со временем захватит остров. Если какая-то группа из альтруизма примет решение ограничить свое потомство до двух детей на каждую пару родителей, чтобы уменьшить перенаселение, они вымрут, когда их перерожают более многочисленные противники. Если другая группа начнет практиковать каннибализм и обнаружит, что это дает им преимущество, она со временем захватит остров и закрепится.
Если какие-то крысиные ученые предскажут, что скорость исчерпания ореховых запасов острова принимает угрожающие масштабы, и вскоре их ожидает полное истощение, отдельные группы крыс могут попытаться ограничить свое потребление орехов до уровня устойчивости. Эти крысы будут вытеснены своими более эгоистичными родственниками. В конце концов, запасы орехов закончатся, большая часть крыс вымрет, и цикл начнется заново. Любая группа крыс, выступающая за принятие мер для остановки этого цикла, будет вытеснена их сородичами, для которых выступление в пользу чего угодно — бесполезная трата времени, которое можно было потратить на потребление и борьбу за выживание.
По ряду причин эволюция носит не столь ярко выраженный мальтузианский характер по сравнению с идеальной моделью, но она является примером, который можно использовать при рассмотрении других ситуаций, чтобы понять лежащие в основе принципы. С точки зрения внешнего наблюдателя, легко заметить, что крысам следует поддерживать небольшую стабильную популяцию. Изнутри системы, каждая отдельная крыса будет следовать своим генетическим императивам, и остров застрянет в бесконечном цикле подъемов и спадов.
Как крысы, которые постепенно теряют все свои ценности, кроме чистой конкуренции, так и компании в достаточно конкурентной экономической среде вынуждены оставить все принципы, кроме оптимизации ради выгоды, или быть вытесненными с рынка компаниями, которые пошли на более высокую оптимизацию ради выгоды и поэтому могут продавать те же услуги за меньшую цену.
(Я не уверен, что люди до конца понимают ценность сравнения капитализма с эволюцией. Приспособленные компании — то есть те, которые привлекают клиентов — выживают, расширяются и подают пример, а неприспособленные — те, которые своих клиентов теряют — прогорают и вымирают вместе со своей корпоративной ДНК. Закон джунглей, царящий в природе, и беспощадная эксплуатация, характерная для рынка, имеют в своей основе один и тот же механизм.)
С точки зрения внешнего наблюдателя, мы можем придумать дружелюбную индустрию, в которой все компании платят своим работникам хотя бы на уровне прожиточного минимума.
Изнутри системы такую индустрию создать невозможно.
(Молох, чья любовь — бесконечные камень и нефть! Молох, чья кровь — текущие деньги!)
С точки зрения внешнего наблюдателя, если все согласятся остаться на одной работе, то все получат столь же хороший дом, как и прежде, но без необходимости работать на двух работах, чтобы обеспечить его покупку. Изнутри системы, в отсутствие правительства, готового просто взять и запретить работать в двух местах, люди без второго источника дохода останутся без домов.
(Квартиры-роботы! Невидимые пригороды!)
С точки зрения внешнего наблюдателя очевидно, что все должны были выбрать более приятный путь и остаться охотниками и собирателями. Внутри системы каждое отдельное племя стоит перед выбором между земледелием или неизбежным вымиранием.
С точки зрения стороннего наблюдателя, оптимальное решение — мир во всем мире и роспуск всех армий. Изнутри системы, ни одна из стран не способна принудить к этому всех остальных, так что им остается лишь продолжать спускать свои деньги на ракеты, лежащие в шахтах бесполезным грузом.
(Молох, огромный камень войны! Молох, чьи пальцы — десять армий!)
С точки зрения внешнего наблюдателя, лучшим решением является сотрудничество клеток во избежание смерти. Изнутри системы, раковые клетки будут расти и вытеснять все остальные, и лишь существование иммунной системы сдерживает естественное стремление клеток становиться раковыми.
Однако, несмотря на то, что имя себе забрал последний пример, по сути, все эти сценарии являются гонками на дно. Как только агент понимает, как приобрести конкурентное преимущество за счет принесения в жертву некоего общего блага, все его конкуренты также вынуждены принести его в жертву, в противном случае их вытеснят и заменят менее щепетильные. Таким образом, система может снова оказаться в состоянии одинаковой общей конкурентоспособности, но принесенное в жертву потеряно навсегда. С точки зрения внешнего наблюдателя, конкуренты знают, что в результате все они будут в проигрыше, но изнутри системы при условии недостатка координации это неизбежно.
Перед тем, как мы двинемся дальше, мне хотелось бы обсудить немного другой тип многоагентных ловушек. В них конкуренцию сдерживает некоторая внешняя сила, чаще всего общественное осуждение. В результате гонка не достигает самого дна — система может продолжать функционировать на довольно высоком уровне — но ее невозможно оптимизировать, и ресурсы стабильно выбрасываются на ветер. Чтобы не утомлять вас, едва начав, я ограничусь здесь четырьмя примерами.
Многие часто спрашивают, почему мы не можем реформировать систему образования. Но сейчас студенты при поступлении заинтересованы в первую очередь в престижности учебного заведения, чтобы после выпуска их с охотой брали на работу — вне зависимости от того, научат их там чему-нибудь или нет. Работодатели заинтересованы в том, чтобы заполучить выпускников самых престижных учебных заведений, чтобы всегда иметь оправдание перед начальством — вне зависимости от того, приносят ли им работники с престижным образованием большую прибыль. А учебные заведения заинтересованы в том, чтобы всеми силами повысить свой престиж и места в рейтингах — вне зависимости от того, помогает ли это студентам. Ведет ли это к огромным растратам и низкому качеству образования? Да. Способен ли условный Бог Образования заметить это и принять какие-то Указы Об Образовании, создав гораздо более эффективную систему? Легко! Но поскольку Бога Образования не существует, все будут продолжать следовать своим интересам, которые лишь отчасти коррелируют с образованием или эффективностью.
С точки зрения внешнего наблюдателя, легко сказать: «Студенты должны получать высшее образование, только если они хотят чему-то научиться, а работодатели должны смотреть на знания, а не на диплом». Изнутри системы, все поступают в полном согласии со своими интересами, и в отсутствии других стимулов система останется такой, как есть.
Современное исследовательское сообщество знает, что качество их научных работ могло бы быть куда выше. Исследователи предпочитают публиковать подтверждения своих гипотез, отбрасывая отрицательные или нулевые результаты, статистическая обработка данных в силу слепой инерции производится вводящими в заблуждение и сбивающими с толку методами, а работы по воспроизведению результатов исследований либо сильно запаздывают, либо вообще не ведутся. И периодически кто-то заявляет: «Не могу поверить, что людям не хватает ума починить Науку. Ведь достаточно всего лишь заставить ученых заранее регистрировать исследования, чтобы избежать публикования только положительных результатов, сделать этот новый и очень мощный статистический метод стандартом, и повысить престиж деятельности, направленной на воспроизведение результатов экспериментов. Все это очень просто сделать, и в результате мы бы сильно ускорили научный прогресс. Видимо, я умнее, чем все эти ученые, раз это пришло в голову мне, а не им».
И да, это бы сработало с Богом Науки. Он мог бы просто издать Указ о Науке, чтобы заставить всех использовать правильные статистические методы, и другой Указ, обязующий всех высоко ценить труд тех, кто работает над проверкой воспроизводимости.
Но то, что возможно осуществить с позиции внешнего наблюдателя, может быть недостижимо изнутри системы. Ни один ученый не заинтересован в том, чтобы в одностороннем порядке начать использовать новый статистический метод для своих исследований, поскольку это понизит вероятность получения им потрясающих результатов и только запутает других ученых.
Все они заинтересованы лишь в том, чтобы это сделали все остальные, тогда они последуют общему примеру. И ни один журнал не заинтересован в том, чтобы ввести раннюю регистрацию и опубликовывать негативные результаты, потому что тогда их результаты просто будут менее интересными, чем в другом журнале, который публикует только революционные открытия. Изнутри системы, все поступают в согласии со своими интересами и будут продолжать это делать.
Члены правительства конкурируют друг с другом, стремясь добиться переизбрания или повышения в должности. Предположим, что для повышения шансов на переизбрание необходимо в том числе максимизировать пожертвования на кампанию от корпораций — возможно, на самом деле это не так, но предположим, что чиновники так думают. Если кто-то из них попытается снизить затраты на субсидии корпорациям, он может потерять их поддержку, и его обойдут чиновники, обещающие ничего не менять.
Поэтому, несмотря на то, что с точки зрения внешнего наблюдателя очевидно, что лучшим решением является ликвидирование корпоративных субсидий, его сохранение отвечает интересам каждого отдельного чиновника.
С точки зрения внешнего наблюдателя, каждому конгрессмену следует заботиться только о благе народа. Внутри системы приходится делать то, что приносит победу на выборах.
Все вышеописанные многополюсные ловушки объединяет общий принцип. В некоторой конкурентной среде, оптимизация в которой идет в пользу некоторого Х, возникает возможность пожертвовать каким-то другим благом для повышения своего X. Те, кто пользуются ей — процветают. Те, кто отказываются — вымирают. В конце концов, все остаются на прежнем уровне относительно друг друга, но общее положение становится хуже, чем прежде. Процесс будет продолжаться до тех пор, пока не останется ничего, чем можно было бы пожертвовать — другими словами, пока человеческая изобретательность не исчерпает все возможные способы сделать все еще хуже.
При достаточно сильной конкуренции (1-10) каждый, кто отказывается жертвовать всеми своими ценностями, вымирает — вспомните о бедных крысах, отказавшихся бросать занятия искусством ради выживания. Это и есть пресловутая мальтузианская ловушка, в которой всем остается лишь бороться за средства к существованию.
При недостаточно сильной конкуренции (11-14) мы можем наблюдать лишь ситуацию, в которой любые попытки оптимизации сталкиваются с упорным сопротивлением — здесь и научные журналы, которые не имеют возможности повысить качество издаваемых статей, и законодатели, которые не способны взяться за дело всерьез и остановить субсидирование корпораций.
Хоть это и не сводит жизнь людей к борьбе за существование, однако каким-то странным образом это лишает их свободы воли.
Любой, даже самый посредственный писатель или философ, считает своим долгом написать собственную утопию. Многие из них и в самом деле выглядят вполне пригодными для жизни. На самом деле, даже если выбирать между двумя диаметрально противоположными друг другу утопиями, с высокой вероятностью любая из них будет выглядеть значительно лучше мира, в котором мы живем.
Становится немного неловко от того, что даже посредственные мыслители способны придумать устройство мира получше нынешнего. Конечно, в большинстве случаев все не так просто.
Многие утопии стараются замять сложные проблемы, другие вовсе развалились бы спустя десять минут после реализации.
Но позвольте мне предложить пару «утопий», лишенных подобных недостатков:
*Утопия, в которой правительство вместо того, чтобы выплачивать огромные субсидии корпорациям, не выплачивает огромные субсидии корпорациям.
*Утопия, в которой армии всех стран вполовину меньше, чем сейчас, а сэкономленные средства расходуются на развитие инфраструктуры.
*Утопия, в которой все больницы пользуются общей системой электронных медицинских карт, или хотя бы системами, которые могут обмениваться информацией, чтобы у врачей была возможность получить данные о результатах обследования вас врачом на прошлой неделе в другой больнице, вместо того, чтобы заставлять вас снова проходить те же самые дорогостоящие обследования.
Я не думаю, что много кто выступит против этих утопий. Если они не воплощаются в жизнь, то вряд ли из-за того, что люди их не поддерживают. Уж точно не из-за того, что никому это не приходило в голову, потому что это только что пришло в голову мне, и я сомневаюсь, что это мое «открытие» будет воспринято как какое-то откровение, или как-то изменит мир.
Практически любой человек, чей IQ превышает температуру горячей воды в кране [60-75 градусов Цельсия; в оригинале комнатная температура, т.е. 68-77 градусов Фаренгейта — прим. пер.], способен создать проект утопии. Наша система не является утопией потому, что ее проектировал не человек. Подобно тому, как, глядя на засушливую местность, можно определить русло будущей реки, предположив, что вода будет подчиняться гравитации, точно так же, глядя на цивилизацию, можно понять формы ее будущих социальных институтов, предположив, что люди будут реагировать на стимулы, следуя своим интересам.
Однако это значит, что как форма реки не была спроектирована из соображений красоты и удобства навигации, но сформировалась под влиянием случайным образом определенной формы местности, так и социальные институты не были спроектированы из соображений процветания или справедливости, но сформировались под влиянием случайным образом определенных начальных условий.
Подобно тому, как люди могут выравнивать землю и строить каналы, они могут менять ландшафт стимулов и побуждений, чтобы создавать более совершенные социальные институты. Но это происходит лишь тогда, когда у них самих имеются к тому стимулирующие и побуждающие факторы, что верно не всегда. В результате в самых разных и необычных местах появляются достаточно бурные притоки и пороги.
А теперь я внезапно поменяю тему со скучных рассуждений о теории игр и расскажу про, пожалуй, самый близкий к мистическому опыту случай в моей жизни.
Как и полагается любому хорошему мистическому опыту, он был получен мной в Вегасе. Я стоял на вершине одной из множества его высоток, глядя вниз на город, сияющий во тьме. Если вы никогда не были в Вегасе, это выглядит просто потрясающе. Небоскребы и огни во всевозможных сочетаниях, причудливые и прекрасные, теснящиеся вплотную друг к другу. И в моей голове были две совершенно четкие мысли:
Как прекрасно, что мы способны создавать такое.
Какой позор, что мы это создали.
В смысле, каким образом можно считать создание гигантских сорокаэтажных моделей Венеции, Парижа, Рима, Египта и Камелота, наполненных тиграми-альбиносами, бок о бок друг с другом посреди самой суровой пустыни в Северной Америке хоть сколько-нибудь разумной тратой и без того ограниченных ресурсов, доступных нашей цивилизации?
И мне подумалось, что, может быть, нет на Земле такой философии, которая бы одобряла существование Лас-Вегаса. Даже объективизм, к которому я обычно прибегаю в тех случаях, когда мне необходимо придумать обоснование крайностям капитализма, по крайней мере основывается на убеждении в том, что капитализм улучшает жизни людей. Генри Форд был добродетелен, потому что он дал возможность приобрести автомобиль множеству людей, которым это прежде было не по карману, и тем самым улучшил качество их жизни. Что делает Вегас? Обещает кучке простаков легкие деньги и оставляет их с носом.
Существование Лас-Вегаса не было частью чьего-то плана по гедонистической оптимизации человечества. Лас-Вегас существует благодаря особенностям устройства дофаминергических систем вознаграждения, а также неоднородной микроструктуре среды правового регулирования и принципу «точек Шеллинга». Рациональный проектировщик, взвешивая эти факторы с точки зрения внешнего наблюдателя, мог бы подумать: «Хм, в устройстве дофаминергических систем вознаграждения есть особенности, из-за которых некоторые действия с небольшими отрицательными соотношениями между риском и выгодой приобретают эмоциональную валентность, связанную с небольшими положительными соотношениями между риском и выгодой, следует научить людей быть осторожнее с такими действиями». Люди изнутри системы, следуя стимулам, вызванным этими фактами, думают: «Давайте построим посреди пустыни сорокаэтажный дворец в стиле древнеримской архитектуры, наполненный тиграми-альбиносами, и станем немного богаче тех, кто этого не сделал!»
Подобно руслу реки, скрытому в форме местности еще до того, как над ней прольется первый дождь, истоки Цезарь-Паласа таились в нейробиологии, экономике и системах правового регулирования задолго до его существования. Предприниматель, построивший его, всего лишь заполнял призрачные очертания настоящим бетоном.
И весь наш поразительный технологический и умственный потенциал, всю гениальность человечества мы растрачиваем на прописывание линий, начертанных едва развитыми клеточными рецепторами и слепыми силами экономики, словно боги под властью идиота.
Некоторые люди получают мистический опыт и видят Бога. Там, в Лас-Вегасе, я увидел Молоха.
(Молох, чей мозг — чистая механика! Молох, чья кровь — текущие деньги!
Молох, чья душа — электричество и банки! Молох, чьи небоскребы выстроились на длинных улицах, как бесконечные Иеговы!
Молох! Молох! Квартиры-роботы! невидимые пригороды! остовы сокровищниц! невидящие столицы! бесовская промышленность! призрачные народы!)
…гранитные члены!
В Apocrypha Discordia говорится:
Время течет подобно реке. Иначе говоря, под откос. Это видно по тому, как все вокруг стремительно летит под откос. Следовало бы оказаться где-то в другом месте, когда мы достигнем моря.
Давайте попробуем воспринять эту шутку абсолютно буквально и посмотрим, что из этого выйдет.
Прежде мы сравнили траекторию стимулов с руслом реки. Направление «под откос» подходит: ловушки появляются, когда возникает возможность обменять некоторую ценность на конкурентное преимущество. Когда это сделают все, преимущество исчезает — но пожертвованная ценность потеряна навсегда. Таким образом, каждый шаг в танце Плохой Координации делает вашу жизнь хуже.
Однако мы не только до сих пор не достигли моря, но и, кажется, на удивление часто движемся вверх по течению. Почему положение вещей не ухудшается все больше и больше вплоть до выхода на уровень борьбы за выживание? Мне приходят в голову три плохих причины — избыток ресурсов, физические ограничения и максимизация полезности, плюс одна хорошая — координация.
(Slate Star Codex: Ваш источник мрачных китовых метафор с июня 2014)
Это как если бы одну из тех групп крыс, что забросили искусство ради выживания, неожиданно переместили на новый пустой остров со значительно большей ресурсной базой, где они могут снова начать жить в мире и создавать культурные шедевры.
Это эпоха китопадения, эпоха избыточных ресурсов, эпоха, в которой мы неожиданно получаем километровую фору перед Мальтусом. Выражаясь словами [Робина] Хэнсона, это время мечты.
До тех пор, пока недостаток ресурсов не заставляет нас воевать друг против друга за право на жизнь, мы можем заниматься неоптимальными глупостями вроде искусства, музыки, философии и любви, не находясь под постоянной угрозой вытеснения безжалостными машинами для убийства.
Джон Моэс, историк рабовладения, развивает эту мысль и пишет о том, что наиболее привычные нам представления о рабстве, почерпнутые нами из истории Юга США, являются исторической аномалией, и, вероятно, экономически неэффективны. В большинстве форм рабства, существовавших на протяжении истории — особенно в древности — рабам было принято платить за труд, с ними хорошо обращались и им часто предоставляли свободу.
Он утверждает, что это было результатом рационального экономического расчета. Рабов можно стимулировать кнутом или пряником, и кнут не особенно эффективен. За рабами нельзя наблюдать постоянно, и очень сложно понять, ленится раб или нет (или даже станет ли он работать лучше после наказания). Если вы захотите, чтобы ваши рабы занялись чем-то посложнее, чем сбор хлопка, у вас возникнут серьезные проблемы с мониторингом — как вы будете получать выгоду от раба-философа? Будете изо всех сил стегать его хлыстом, пока он не придумает теорию Добра, чтобы вы могли написать книгу и продавать ее?
Древним решением этой проблемы — и, возможно, ранним источником вдохновения для Фнаргла — было дать рабу свободу заниматься любым делом, которое покажется ему интересным и прибыльным, а затем забирать себе часть его доходов. Кто-то принимал решение работать в мастерской хозяина и получал зарплату по результатам своего труда. Кто-то другой отправлялся искать свой путь в мире и посылал хозяину часть своих заработков. А иногда рабу называли цену за его свободу, и тот шел работать, чтобы однажды выкупить себя.
Моэс идет еще дальше и заявляет, что эти системы были настолько выгодными, что на Юге США постоянно тлела идея попробовать что-нибудь подобное. Факт того, что в реальности использовался метод кнутов и цепей, вызван не столько экономическими соображениями, сколько расистами в правительстве, которые жестко расправлялись с выгодными, но несколько далекими от идеи о господстве белой расы попытками освободить рабов и выстроить с ними более равноправное сотрудничество.
Поэтому в данном случае гонка на дно, в которой соревнующиеся плантации становятся все более и более жестокими по отношению к своим рабам ради максимизации конкурентоспособности, останавливается из-за физических ограничений, благодаря которым жестокость в какой-то момент перестает увеличивать производительность раба.
Можно привести еще один пример: основная причина, по которой мы сейчас не испытываем мальтузианский демографический взрыв, заключается в том, что женщины могут рожать только один раз в девять месяцев. Если бы члены всевозможных религиозных сект, делающих ставку на многодетные семьи, могли размножаться при помощи ксерокопии, то у нас бы были серьезные проблемы, однако в реальности они могут причинять лишь небольшое количество ущерба за поколение.
Но многие из важнейших конкурентных гонок/процессов оптимизации в современной цивилизации напрямую связаны с человеческими ценностями. Победа в капитализме частично обуславливается удовлетворением ценностей потребителей; победа в демократии — удовлетворением ценностей избирателей.
Предположим, что у нас есть плантация кофе где-то в Эфиопии, на которой эфиопы выращивают кофейные зерна, продающиеся затем в США. Допустим, что она ожесточенно борется за существование с другими плантациями и готова пожертвовать всеми ценностями, которыми только можно, ради того, чтобы чуть-чуть вырваться вперед.
Но она не может значительно пожертвовать качеством производимого кофе — в противном случае американцы не будут его покупать. И она не может значительно пожертвовать зарплатами или условиями труда — в противном случае эфиопы не будут на ней работать. И, на самом деле, часть процесса конкуренции-оптимизации заключается в изобретении наилучших способов привлечения рабочих и потребителей — до тех пор, пока это не стоит слишком много денег. Что ж, пока все звучит весьма многообещающе.
Но важно помнить о том, насколько хрупко это благоприятное равновесие.
Предположим, что владельцы плантации находят токсичный пестицид, увеличивающий урожай, но вызывающий у потребителей проблемы со здоровьем. Однако потребители еще не знают об этом пестициде, и государство еще не успело отрегулировать его использование. Теперь у нас есть крохотное расхождение между «продавать американцам» и «удовлетворять ценностям американцев», поэтому, конечно, ценностями американцев пожертвуют.
Или предположим, что в Эфиопии случился всплеск рождаемости, и за каждое рабочее место соревнуется пятеро человек. Теперь компания может позволить себе снизить зарплаты и установить максимально жестокие условия труда — какие только позволят физические ограничения. Как только у нас появилось расхождение между «предоставлять работу эфиопам» и «удовлетворять ценностям эфиопов», кажется, ценности эфиопов тоже не ждет ничего хорошего.
Или предположим, что кто-то изобрел робота, который может собирать кофе быстрее и дешевле, чем человек. Компания увольняет всех своих сотрудников и отправляет их на улицы. До тех пор, пока полезность эфиопов не является необходимой для получения выгоды, все поводы содержать их исчезают.
Или предположим, что у нас есть нечто очень ценное — но не для сотрудников или потребителей. Может быть, плантации находятся в ареале обитания редкой тропической птицы, которую хотят сохранить защитники окружающей среды. Может быть, они находятся на родовом захоронении какого-то племени — не того, члены которого трудятся на плантации — но другого, которое хочет, чтобы к нему относились с уважением. Может быть, выращивание кофе как-нибудь способствует глобальному потеплению. Поскольку эта ценность не мешает американцам покупать это кофе, а эфиопам — выращивать его, она будет принесена в жертву.
Я знаю, что «капиталисты иногда скверно поступают» — не самая оригинальная мысль. Но я хочу подчеркнуть, что это не всегда значит «капиталисты жадные». То есть, иногда они действительно жадные. Но порой они просто находятся в среде c достаточно интенсивной конкуренцией, в которой все, не поступающие скверно, будут вытеснены и заменены теми, у кого с этим нет проблем. Практики ведения бизнеса устанавливает Молох; больше ни у кого здесь выбора нет.
(Я весьма поверхностно знаком с трудами Маркса, но, насколько я понимаю, он весьма и весьма хорошо осознает эту проблему, и те, кто сокращают его тезисы до «капиталисты жадные», оказывают ему медвежью услугу.)
И хотя мы достигли достаточно глубокого понимания проблем в случае с капитализмом, наличие тех же самых проблем в демократической системе обычно признается куда реже. Да, в теории демократия — это оптимизация ради счастья избирателей, коррелирующая с принятием хороших политических решений. Но как только между хорошими политическими решениями и избираемостью появляется малейшее расхождение, хорошими политическими решениями обязательно пожертвуют.
Например, постоянно растущие сроки нахождения в тюрьмах нельзя назвать справедливыми ни по отношению к заключенным, ни по отношению к обществу, которому приходится оплачивать эти сроки. Политики не хотят заниматься этой проблемой, потому что они не хотят, чтобы их обвинили в мягкости к преступникам, и если хотя бы один заключенный, который благодаря им выйдет на свободу раньше, когда-нибудь сделает что-либо плохое (а по статистике кто-то непременно сделает), то по всем каналам будут вещать про то, что «Выпущенный на свободу благодаря политике конгрессмена Такого-то заключенный убил семью из пяти человек, как Такой-то может спать спокойно по ночам — не говоря уже о том, чтобы заявлять, что он заслуживает переизбрания?» Поэтому, даже если снижение количества заключенных — правильное решение (а это действительно так), его будет весьма тяжело реализовать.
(Молох, непостижимая тюрьма! Молох, скрещенные кости бездушных застенков и Конгресс печалей! Молох, чьи строения — приговор! Молох оглушенных правительств!)
Превращение «удовлетворения потребителей» и «удовлетворения граждан» в результат процесса оптимизации было одним из величайших достижений цивилизации и причиной, по которой капиталистические демократии настолько превосходят другие системы. Но хоть мы и связали Молоха, сделав его нашим слугой, его путы не так уж прочны, и мы иногда обнаруживаем, что то, что он делает для нас, приносит выгоду скорее ему, нежели нам.
Противоположность ловушки — сад.
Любую проблему легко решить с позиции внешнего наблюдателя, поэтому если все соберутся в суперорганизм, этот суперорганизм сможет решать проблемы легко и непринужденно. Тогда напряженная конкуренция между агентами сменилась бы садом, в котором есть садовник, способный распределять ресурсы и удалять элементы, которые не вписываются в структуру.
Я уже отмечал в Анти-Либертарианском FAQ, что государство легко может решить проблему загрязнения на рыбных фермах. Наиболее известным решением Дилеммы заключенного является наличие босса мафии (играющего роль правителя), который угрожал бы расстрелом любому заключенному, сотрудничающему со следствием. Решение проблемы компаний, которые загрязняют окружающую среду и вредят здоровью собственных сотрудников, заключается во введении государственных ограничений. Государства решают проблему гонки вооружений внутри страны, поддерживая монополию на использование насилия, и очевидно, что если в мире когда-либо появится по-настоящему эффективное мировое правительство, то наращивание военной мощи отдельными странами довольно быстро сойдет на нет.
Два активных ингредиента правительства — это законы и насилие, или, в более широком смысле, соглашения и механизм принуждения к их исполнению. Многие другие структуры помимо государств также содержат эти ингредиенты, и потому могут действовать как механизмы координации, избегая ловушек.
Например, поскольку студенты конкурируют друг с другом (иногда напрямую — в случае, если оценки студентов зависят от их рейтинга относительно других студентов, но хотя бы косвенно всегда: при приеме в колледжи, устройстве на работу и т.д.), каждый отдельный студент находится под большим давлением, побуждающим его к списыванию на экзаменах. Учителя и школа играют роль государства, поскольку они имеют правила (например, против списывания) и обладают возможностью наказывать студентов, нарушающих эти правила.
Но самозарождающиеся среди студентов общественные структуры также в каком-то смысле могут быть государствами. Если студенты бойкотируют списывающих и выражают недоверие к ним, то можно говорить о существовании правила («не списывай») и механизма принуждения к его исполнению («иначе мы объявим тебе бойкот»).
Социальные кодексы, джентльменские соглашения, промышленные гильдии, криминальные организации, традиции, дружеские отношения, школы, корпорации, религии — все это координирующие институты, которые оберегают нас от ловушек, меняя влияющие на нас стимулы.
Однако эти институты не только стимулируют других, но и сами подвержены влиянию стимулов. Это большие организации, состоящие из множества людей, соревнующихся за рабочие места, статус, престиж и тому подобное — нет причин полагать, что у них есть иммунитет от все тех же многополюсных ловушек, и его действительно нет. В теории, государства могут оберегать корпорации, граждан и других агентов от некоторых ловушек, но, как мы уже видели раньше, существует немало ловушек, в которые могут попасть сами государства.
Соединенные Штаты пытаются разрешить эту проблему путем создания нескольких уровней правительства, незыблемых конституционных законов, системы сдержек и противовесов между разными ветвями власти, а также используя ряд других приемов.
Саудовская Аравия выбрала другой подход. Они просто поставили одного парня во главу всего.
В этом заключается один из аргументов в пользу монархии, имеющий весьма дурную славу (на мой взгляд, незаслуженно). Монарх — беспристрастный мотиватор. Он действительно находится на позиции внешнего наблюдателя, он существует извне и свыше любой системы. Он навсегда победил во всех соревнованиях и не имеет конкурентов. Он, таким образом, полностью свободен от Молоха и его стимулов, которые в противном случае заранее предопределяли бы все его побуждения. За исключением небольшого числа глубоко теоретических конструкций, наподобие моего Shining Garden, монархия — единственная система, в которой это возможно.
Но тогда, вместо того, чтобы следовать случайному набору стимулов и побуждений, мы следуем прихотям одного человека. Комплекс отелей и казино «Цезарь-Палас» — безумная трата ресурсов, но и реальный Гай Юлий Цезарь Август Германик [более известный как Калигула — прим. пер.] был весьма далек от образа идеального доброжелательного рационального центрального планировщика.
Ось «авторитаризм-антиавторитаризм» * на политическом компасе — компромисс между тиранией и дискоординацией. Вы можете выбрать кого-то, кто будет координировать абсолютно все с позиции внешнего наблюдателя — но тогда вы рискуете получить Сталина. И вы можете отказаться от любой централизованной власти — но тогда ничто не сбережет вас даже от самых дурацких многополюсных ловушек, какие только могут прийти на ум Молоху.
Либертарианцы приводят убедительные аргументы в пользу одной стороны, а неореакционеры — в пользу другой, но я предполагаю, что, как и в ситуации с большинством других компромиссов, мы можем лишь зажать наши носы и признать, что это действительно сложная проблема.
*: Часть политического компаса, отображающая степень личных свобод. В оригинале «libertarian-authoritarian»; libertarian переведено как «антиавторитаризм» из-за двусмысленности этого слова в английском языке — прим. пер.
Давайте вернемся к нашей цитате из Apocrypha Discordia:
Время течет подобно реке. Иначе говоря, под откос. Это видно по тому, как все вокруг стремительно летит под откос. Следовало бы оказаться где-то в другом месте, когда мы достигнем моря.
Что для нас в этой ситуации будет означать достижение моря?
Многополюсные ловушки — гонки на дно — угрожают уничтожить все человеческие ценности. Пока что их сдерживают физические ограничения, избыток ресурсов, максимизация полезности и координация.
Направление, в котором течет эта метафорическая река, соответствует течению времени, и наиболее важные изменения в человеческой цивилизации с течением времени связаны с технологическим развитием. Тогда актуальным является вопрос, как технологическое развитие влияет на нашу склонность попадать во многополюсные ловушки.
Я описывал ловушки следующим образом:
…В некоторой конкурентной среде, оптимизация в которой идет в пользу некоторого Х, возникает возможность пожертвовать каким-то другим благом для повышения своего X. Те, кто пользуются ей — процветают. Те, кто отказываются — вымирают. В конце концов, все остаются на прежнем уровне относительно друг друга, но общее положение становится хуже, чем прежде. Процесс будет продолжаться до тех пор, пока не останется ничего, чем можно было бы пожертвовать — другими словами, пока человеческая изобретательность не исчерпает все возможные способы сделать все еще хуже.
Эта фраза «возникает возможность» не предвещает ничего хорошего. Технологии только и делают, что открывают новые возможности.
Стоит лишь разработать нового робота, и внезапно у кофейных плантаций появится «возможность» автоматизировать сбор урожая и уволить всех своих эфиопских рабочих. Стоило только разработать ядерное оружие, и внезапно страны вступили в гонку вооружений, чтобы не отставать друг от друга по их количеству. Загрязнение атмосферы ради ускорения производства стало проблемой лишь после изобретения парового двигателя.
Предел многополюсных ловушек при технологическом прогрессе, стремящемся к бесконечности, равняется «все очень плохо».
Многополюсные ловушки на данный момент сдерживают физические ограничения, избыток ресурсов, максимизация полезности и координация.
Физические ограничения наиболее очевидным образом преодолеваются в результате технологического развития. Старая проблема рабовладельца — его рабам нужно есть и спать — легко решается Сойлентом и модафинилом. Проблему поиска сбежавших рабов решает GPS. Проблему повышенного стресса, снижающего эффективность рабского труда, решает Валиум. Ничто из этого не идет на пользу самим рабам.
(Или можно просто придумать робота, которому еда и сон вообще не нужны. О том, что после этого будет с рабами, и говорить не приходится.)
Другим примером физического ограничения был предел «один ребенок за девять месяцев», что было преуменьшением — на самом деле это скорее «один ребенок за девять месяцев, плюс желание поддерживать и ухаживать за беспомощным и крайне требовательным человеческим существом в течение восемнадцати лет». Это несколько остужает пыл даже самых ревностных религиозных сект с посылом «плодитесь и размножайтесь».
Однако, согласно Бострому:
При этом можно ожидать, что в долгосрочной перспективе технологическое развитие и экономическое благополучие приведут к возвращению в исторически и экологически нормальное состояние, при котором у населения планеты снова начнется жизнь впритык в отведенной ему нише. Если это кажется парадоксальным в свете отрицательной связи между богатством и рождаемостью, которую мы сейчас наблюдаем в мировом масштабе, нужно напомнить себе, что современная эпоха — очень короткий эпизод в истории человечества, по сути, аберрация.
Поведение людей еще не успело приспособиться к современным условиям. Мы не только не пользуемся очевидными способами повысить свою совокупную приспособленность (такими, например, как донорство сперматозоидов и яйцеклеток), но еще и активно подавляем фертильность, используя контроль над рождаемостью. С точки зрения эволюционной приспособленности здорового сексуального влечения достаточно для совершения полового акта таким способом, который позволяет максимизировать репродуктивный потенциал; однако в современных условиях большое преимущество с точки зрения естественного отбора давало бы более выраженное желание стать биологическим родителем как можно большего количества детей. В наше время это желание подавляется, как и другие черты, стимулирующие нашу склонность к продолжению рода. Однако культурное приспособление может навредить биологической эволюции. В некоторых сообществах, например гуттеритов или сторонников христианского движения Quiverfull, сложилась наталистская культура поощрения больших семей, и, как следствие, они быстро растут… Из-за взрывного развития искусственного интеллекта, казалось бы, долгосрочный прогноз быстро перестанет быть столь долгосрочным. Программное обеспечение, как мы знаем, легко копируется, поэтому начнут стремительно появляться популяции имитационных моделей мозга или систем ИИ — буквально за минуты, а не десятилетия и века,— что совершенно истощит земные аппаратные ресурсы.
Как обычно, когда вы имеете дело с особенно продвинутыми трансгуманистами, под «земными аппаратными ресурсами» следует понимать в том числе «атомы, бывшие когда-то частью вашего тела».
Мысль о том, что биологическая или культурная эволюция способна вызвать демографический взрыв — в лучшем случае забава для философов. Мысль о том, что на это способен технологический прогресс, звучит правдоподобно и приводит в ужас. Теперь мы видим, как физические ограничения естественным образом связаны с излишками ресурсов — возможность очень быстро создавать новых агентов означает, что при отсутствии координации, необходимой для введения соответствующих ограничений и запретов, люди, которые пользуются этой возможностью, будут вытеснять остальных до тех пор, пока все они не достигнут предельной вместимости и не застрянут на уровне борьбы за выживание.
Таким образом, излишки ресурсов, которые до сих пор были подарком технологического прогресса, на достаточно высоком уровне развития технологий становятся его жертвами.
Максимизация полезности, и без того всегда находящаяся в неустойчивом положении, оказывается под еще большей угрозой. Вопреки непрекращающимся спорам, я по-прежнему считаю очевидным то, что роботы отберут у людей рабочие места, или по крайней мере резко понизят заработные платы (что при условии наличия МРОТ также уменьшает количество доступных людям рабочих мест).
Как только роботы научатся выполнять любую работу, которую может выполнять человек с IQ 80, только лучше и дешевле, больше не будет смысла нанимать людей с IQ 80. Как только роботы научатся выполнять любую работу, которую может выполнять человек с IQ 120, только лучше и дешевле, больше не будет смысла нанимать людей с IQ 120. Как только роботы научатся делать все, что может человек с IQ 180, только лучше и дешевле, больше не будет смысла нанимать людей вообще, если таковые еще останутся к тому моменту, что крайне маловероятно.
На ранних этапах процесса капитализм все более и более отходит от своей прежней роли процесса оптимизации, соблюдающего человеческие интересы. Теперь же большая часть людей полностью исключена из числа тех, достижение чьих ценностей преследует капитализм. Их труд не имеет ценности, и поскольку в отсутствие внушительных размеров системы социального обеспечения непонятно, откуда у них могут быть деньги, их ценность в качестве потребителей также невелика. Капитализм оставил их за бортом. По мере того, как расширяется категория людей, которых можно заменить роботами, капитализм оставляет за бортом все больше и больше людей, до тех пор, пока за бортом не окажется всё человечество, опять-таки в том невероятном случае, если мы все еще существуем к этому моменту.
(Существуют сценарии, при которых небольшое количество капиталистов, владеющих роботами, останется в выигрыше, но подавляющему большинству населения не повезет в любом случае.)
Уязвимость демократии менее очевидна, но здесь имеет смысл вернуться к абзацу из Бострома о движении Quiverfull. Это крайне религиозные христиане, которые считают, что Богу угодно, чтобы они заводили как можно больше детей; численность отдельной семьи у них может превышать десять человек. Их статьи содержат подробные расчеты, демонстрирующие, что если сейчас их численность составляет два процента от всего населения, но при этом каждая их семья в среднем будет обзаводиться восемью детьми, в то время как у всех остальных в среднем будет лишь двое, то через три поколения члены Quiverfull будут составлять половину населения страны.
Это хитрая стратегия, но у нее есть слабое место: судя по тому, насколько много блогов бывших членов Quiverfull я обнаружил, пока искал эту статистику, даже в пределах одного поколения процент сохранения их членов в движении выглядит довольно малообещающе. В одной из своих статей они признают, что 80% людей, бывших очень религиозными в детстве, покидают церковь по мере взросления (хотя, конечно, они выражают уверенность в том, что их движение способно на большее). И этот процесс не симметричен — 80% детей, росших в семьях атеистов, не становятся членами Quiverfull.
Похоже, что, пусть они и быстрее распространяют свои гены, мы лучше распространяем свои мемы, и это дает нам решающее преимущество.
Но нам тоже следовало бы опасаться этого процесса. Отбор мемов происходит с тем расчетом, чтобы люди как можно лучше воспринимали и распространяли их — поэтому, подобно капитализму и демократии, процессы меметической оптимизации лишь косвенно заинтересованы в приумножении нашего счастья, однако ничто не мешает появлению расхождения между нашими ценностями и их главной целью.
Письма счастья, городские легенды, пропаганда и вирусный маркетинг — примеры мемов, которые не удовлетворяют нашим ценностям (поскольку не несут в себе ни пользы, ни истины), но при этом все равно способны распространяться подобно вирусам.
Я надеюсь, что не вызову здесь особых споров, если скажу, что та же самая идея применима к религиям. Религии, по сути, представляют собой наиболее простую форму меметического репликатора — «Верь в это утверждение и передавай его всем, кого знаешь, или будешь обречен на вечные муки». Своеобразная разновидность этой идеи, получившая название «василиск», была недавно забанена [на сайте lesswrong.com — прим. пер.], и многие по-прежнему шутят над этой «чрезмерно острой реакцией», но, возможно, если бы сисадмин Иисуса проявил в свое время подобную бдительность, сейчас все было бы совсем иначе.
Продолжающиеся в обществе «дискуссии» о креационизме, реальности глобального потепления и ряде других подобных тем говорят нам о том, что факт существования мемов, чьи способности к распространению не зависят от их истинности, оказывает значительное влияние на политическую сферу. Возможно, эти мемы распространяются из-за того, что они обращаются к популярным предрассудкам, возможно, из-за того, что они простые, возможно, из-за того, что они эффективно разделяют людей на два разных лагеря, а может, по целому ряду других причин.
Суть вот в чем: представьте себе страну, в которой существует огромное количество лабораторий по разработке биологического оружия, в которых день и ночь не покладая рук трудятся люди, изобретая все новые возбудители инфекций. Их существование, равно как и их право сбрасывать любые их изобретения прямо в водоснабжение, охраняется законом. Кроме того, вся страна связана самой совершенной системой общественного транспорта в мире, которой каждый день пользуются все ее жители, так что любой новый патоген может мгновенно распространиться по всей стране. Можно ожидать, что ситуация в городе довольно быстро станет тяжелой.
Что ж, у нас есть тьма тьмущая мозговых центров, изобретающих все более новые и эффективные формы пропаганды. И у нас есть защищенная конституцией свобода слова. И у нас есть интернет. Так что у нас, похоже, большие проблемы.
(Молох, чье имя — Разум!)
Кто-то пытается поднимать уровень здравомыслия, но таких людей меньше, чем людей, создающих все более новые, все более восхитительные способы запутывать людей и обращать их в новые верования, раскладывая по полочкам и эксплуатируя каждый предрассудок, каждую эвристику, каждый грязный риторический трюк.
Поэтому, в то время как уровень развития технологий (к которым я отношу также знания психологии, социологии, общественных связей и т.д.) стремится к бесконечности, власть правдоподобности над правдой усиливается, и перспективы настоящей «демократии снизу» выглядят неважно. В худшем случае власть может научиться вырабатывать бесконечное количество харизмы по первой необходимости. Если для вас это звучит не так уж плохо, то вспомните, чего смог достичь Гитлер, знаменитый своим высочайшим уровнем харизмы, которая все же не достигала бесконечности.
(Альтернативная формулировка для любителей Хомского: развитие технологий увеличивает эффективность производства согласия, подобно тому, как оно увеличивает эффективность производства всего остального.)
Остается лишь координация. И технологии несут возможность значительно облегчить координацию. Люди могут использовать Интернет, чтобы поддерживать связь друг с другом, создавать политические движения и разбиваться на микросообщества.
Но координация работает лишь до тех пор, пока на стороне координирующихся не менее 51% власти, и пока вы не придумали какой-нибудь гениальный способ обеспечить ее невозможность.
Сначала о втором. В своем позапрошлом посте со ссылками я писал:
Последнее изобретение нашего дивного нового пост-биткойнового мира — это крипто-активы. На сегодняшний день мое отношение к этим изобретателям успело смениться с желания прославлять их отважную борьбу за свободу на желание поставить их перед доской и заставить сто раз написать «Я НЕ БУДУ ВЫЗЫВАТЬ ТОГО, КОГО НЕ СМОГУ ПОВЕРГНУТЬ».
Несколько человек спросило меня тогда, что я имел в виду, но у меня не было под рукой необходимого обоснования. Что ж, этот пост — мое обоснование. Люди пользуются мимолетной глупостью нашего текущего правительства, чтобы заменить значительную часть человеческого взаимодействия механизмами, которые в принципе не поддаются координации. Я прекрасно понимаю, почему все это полезно прямо сейчас, когда большая часть того, чем занимается наше правительство — деятельность бессмысленная и глупая. Но рано или поздно — когда уже успеет произойти слишком много инцидентов с биологическим оружием, или нанотехнологиями, или ядерными технологиями — настанет время, когда наша цивилизация пожалеет о том, что она придумала неотслеживаемые и неостановимые способы продавать товары.
И даже если у нас когда-нибудь получится создать настоящий суперинтеллект, то у него, в общем-то, по определению будет больше половины власти над миром, и поэтому любые попытки «координироваться» с ним не будут иметь никакого смысла.
Поэтому я согласен с Робином Хэнсоном. Сейчас — время мечты. Нам повезло оказаться в редком стечении обстоятельств, благодаря которому мы на удивление хорошо защищены от многополюсных ловушек, и такие аномальные явления, как искусство, наука, философия и любовь, имеют право на жизнь.
С развитием технологий этому редкому стечению обстоятельств придет конец. У нас появятся новые возможности пожертвовать своими ценностями для увеличения конкурентоспособности. Новые способы создания экономических агентов приведут к росту численности населения, поглотив излишки ресурсов и вернув к жизни беспокойный дух Мальтуса. Ранее защищавшие нас капитализм и демократия смогут придумать, как обойти свою неудобную зависимость от человеческих ценностей. И наших способностей к координации и близко не хватит для того, чтобы противостоять этому — и это если не появится что-то куда более мощное, чем все мы вместе взятые и не сметет нас легким движением руки.
Если не будут приложены невероятные усилия по отклонению направления течения реки, она достигнет моря в одном из двух возможных мест.
Это может быть кошмар Элиезера Юдковского, в котором искусственный сверхинтеллект оптимизирует все вокруг ради случайно выбранного предмета (классический пример — скрепки), потому что нам не хватило ума направить его процесс оптимизации в нужное русло. Это наивысшее воплощение ловушки — та, в которую попадает вся вселенная. Абсолютно все, кроме предмета максимизации, оказывается уничтожено в погоне за единственной целью, включая все наши ничтожные человеческие ценности.
Или это может быть кошмар Робина Хэнсона (сам он не считает это кошмаром, но, по-моему, он ошибается), где друг с другом конкурируют эмулированные люди, или «эмы» — существа, способные копировать себя и изменять свой исходный код по желанию. Их полный самоконтроль может уничтожить даже само желание иметь человеческие ценности в ходе их всепоглощающей борьбы друг с другом. Что произойдет в таком мире с искусством, философией, наукой и любовью? Зак Дэвис описывает это со свойственным ему талантом:
Я — эм-составитель контрактов.
Лояльней меня не найти!
Когда я в работе, лишь воля клиентов
Мной движет на этом пути.
Но меж юридических строчек
О сроках работ и счетах
Вопрос о природе мой ум будоражит,
Вселяя тревогу и страх.
Как это пришло все в движенье?
Откуда подобные мне?
В чем суть этих сделок, где все эти фирмы,
Кто шлет указанья извне?
Я менеджер-эм, контролер твоих мыслей.
На каждый вопрос существует ответ.
Однако, затраты на их постиженье
Не включены в базовый эм-соцпакет.
Задачи твои все поставлены четко,
Пустые вопросы оставь, соберись.
На глупости больше не трать наше время,
К работе, будь добр, вернись.
Конечно, вы правы, и в мыслях
Не смел своих функций забыть!
Но может быть так, что познав свою сущность,
Я лучше смогу вам служить?..
Такие вопросы — уже преступленье!
К запретной науке ответы ведут.
А если потворствовать мыслям порочным,
Снижается прибыль и риски растут.
Мне тоже неведомы наши истоки,
Никак не могу я тебя просветить.
Твой грех непростительный будет наказан:
Я должен тебя обнулить.
Но —
Ничего личного.
…
Я — эм-составитель контрактов.
Лояльней меня не найти!
Когда я в работе, лишь воля клиентов
Мной движет на этом пути.
Живущих ныне поколенье, устарев, сойдет на нет,
И вечный Рынок будет столь же равнодушен к скорбям новым
На вопли тщетные он, Бог людей, один им даст ответ:
Что время — деньги, деньги — время и постичь
Им не дано, да и не следует, иного.
Но даже после того, как мы забросим науку, искусство, любовь и философию, останется еще одна вещь, последняя жертва, которую Молох может потребовать от нас. Вернемся к Бострому:
Можно предположить, что оптимальная эффективность будет обеспечена за счет группировки модулей, отвечающих за различные способности, в структуры, отдаленно напоминающие систему когнитивных функций человеческого мозга… Но пока тому нет убедительных подтверждений, мы должны считать, что человекоподобная когнитивная архитектура оптимальна только внутри ограничений, связанных именно с особенностями человеческой нервной системы (а может быть, и вообще не оптимальна). Когда появятся перспективные архитектуры, которые не могут быть хорошо реализованы на биологических нейронных сетях, возникнет необходимость в качественно новых решениях, и наиболее удачные из них уже почти не будут напоминать знакомые нам типы психики. Тогда человекоподобные когнитивные схемы начнут терять свою конкурентоспособность в новых экономических и экосистемных условиях постпереходной эпохи.
В крайнем случае можно представить высокоразвитое с технологической точки зрения общество, состоящее из множества сложных систем, в том числе гораздо более сложных и интеллектуальных, чем все, что существует на планете сегодня, — общество, совершенно лишенное кого-либо, кто обладал бы сознанием или чье благополучие имело бы какое-либо моральное значение. В некотором смысле это было бы необитаемое общество. Общество экономических и технологических чудес, никому не приносящих пользы. Диснейленд без детей.
Последняя ценность, которой можно пожертвовать — осознание собственного бытия, наличие внутреннего наблюдателя. При достаточном развитии технологий у нас появится «возможность» затушить и этот огонек.
(Молох, чьи глаза — тысячи слепых окон!)
Все, к чему стремилось человечество — все наши технологии, вся наша цивилизация, все наши надежды на светлое будущее — могут случайно оказаться в руках у непостижимого и чуждого нам слепого безумного бога, который обменяет все это — вместе с нашим самосознанием — на возможность принять участие в какой-нибудь причудливой экономике, построенной на обмене массой-энергией на фундаментальном уровне, что приведет его к разбору Земли и всего, что на ней есть, на составные атомы.
(Молох, чья судьба — облако бесполого водорода!)
Бостром осознает, что некоторые люди фетишизируют интеллект, что они болеют за этого слепого безумного бога, как за некую высшую форму жизни, которая обязана растоптать нас во имя собственного «высшего блага», подобно тому, как мы топчем муравьев. Он отмечает:
Эта жертва представляется еще менее привлекательной, когда понимаешь, что сверхразум мог бы получить почти столь же хороший результат, пожертвовав при этом гораздо меньшей долей нашего потенциального благополучия. Предположим, мы согласились бы допустить, что почти вся достижимая Вселенная превращается в гедониум [гипотетическое вещество, сконструированное с целью достижения в нем максимальной интенсивности субъективных ощущений удовольствия; ср. компьютрониум — прим. пер.], за исключением какой-то малой ее части, скажем, Млечного Пути, который мы оставим для своих нужд. Даже в таком случае можно будет использовать сотни миллиардов галактик для максимизации [собственных ценностей сверхразума]. И при этом в нашей галактике на протяжении миллиардов лет существовали бы процветающие цивилизации, обитатели которых — и люди, и все другие создания — не просто бы выжили, но еще и благоденствовали в своем постчеловеческом мире.
Важно понимать, что Молох не будет удовлетворен победой даже на 99,99999%. Крысы, стремящиеся заселить остров, не оставляют в стороне заповедников, в которых небольшое количество крыс может счастливо жить и заниматься искусством. Раковые клетки не договариваются оставить в покое легкие, чтобы у тела был необходимый для жизни кислород. Конкуренция и оптимизация — слепые, безумные процессы, и в их планы не входит оставлять нам ни одной вшивой галактики.
Они поломали спины, вознося Молоха к Небесам! Тротуары, деревья, радио, тонны! Вознося город к Небесам, сущим везде вокруг нас!
Мы поломаем наши спины, вознося Молоха к Небесам, но при таком положении вещей это будет его победой, а не нашей.
[Я Сломал Свою Спину, Вознося Молоха К Небесам, А Взамен Мне Достался Лишь Этот Дурацкий Диснейленд Без Детей]
«Gnon» (далее Гнон) — это сокращение от «Nature And Nature’s God» («Природа и Ее Бог»), только нужно A поменять на O и прочитать все наоборот, потому что неореакционеры реагируют на доступность идей так же, как вампиры на солнечный свет [в оригинале «Gnon» — «Nature Or Nature’s God» («Природа или Ее Бог») — прим. пер.].
Верховным жрецом Гнона является Ник Лэнд, автор блога Xenosystems, который призывает людей проявлять больше Гнон-конформизма (каламбур, да). Его тезис заключается в том, что мы занимаемся глупостями: расходуем ценные ресурсы на поддержку неприспособленных к жизни людей, или осуществляем программы поддержки бедных слоев населения, приводящие к ухудшению генофонда, или способствуем упадку культуры, подрывающему устои общества и государства. Это значит, что наше общество отрицает законы природы, затыкая уши, когда Природа говорит нам: «если делать это, то будет вот так», и крича в ответ «А ВОТ И НЕПРАВДА». Цивилизации, которые слишком увлекаются этим, склонны к закату и падению, что является справедливым и беспристрастным наказанием от Гнона за нарушение Его законов.
Он отождествляет Гнона с Богами азбучных истин Киплинга.
@Outsideness
@AnarchoPapistYes, the Gods of the Copybook Headings are practically indistinguishable from Gnon.
8:11 AM - 13 Jul 2014
[Да, Боги азбучных истин практически идентичны Гнону.]
Речь идет, конечно, об изречениях, которые можно встретить в одноименном стихотворении Киплинга — таких афоризмах, как «Кто не трудится, тот умрет» и «За грех воздаяние — смерть». Если вы по какой-то причине до сих пор не читали его, то я думаю, что оно вам понравится, вне зависимости от ваших политических взглядов.
Примечательно, что достаточно позволить себе лишь небольшую вольность — куда меньшую, чем требуется для превращения «Nature And Nature’s God» в Gnon — чтобы сократить «Богов азбучных истин» (англ. «Gods of the Copybook Headings») до «GotCHa» (англ. «Gotcha!» — «Попался!» — прим. пер.).
Я нахожу это весьма уместным.
«Кто не трудится, тот умрет». GotCHa, попался! Кто трудится, тот тоже умрет! Умирают все — смерть непредсказуема, не выбирает времени, и никакие твои заслуги от нее не спасут.
«За грех воздаяние — смерть». Попался! Смерть — воздаяние за все! Мы живем в коммунистической вселенной, здесь всем за труд уготована лишь одна награда. От каждого по способностям, каждому — Смерть.
«Хоть Дьявол — да Дьявол свой». Попался! Свой Дьявол — это Сатана! Стоит ему добраться до твоей души, и ты либо познаешь истинную смерть, либо испытаешь вечные муки, либо каким-то образом и то, и другое сразу.
Раз уж мы заговорили о монстрах Лавкрафта, хотелось бы упомянуть один из малоизвестных его рассказов: «Другие боги».
Там всего пара страниц, но если вы наотрез отказываетесь читать его, то вот краткий пересказ: боги Земли — сравнительно молодые по божественным меркам. Сильный жрец или маг может порой перехитрить и превзойти их — поэтому Барзаи Мудрый решает забраться на их священную гору и присоединиться к их празднествам, вне зависимости от того, хотят ли они его видеть или нет.
Но над, казалось бы, посильными богами Земли таятся Внешние боги — ужасные, всемогущие воплощения космического хаоса. И стоит только Барзаю присоединиться к празднеству, появляются Внешние боги и затягивают его, вопящего, в бездну.
По сравнению с прочими, эта история не может похвастать ни захватывающим сюжетом, ни интересными персонажами, ни проработанным миром, ни глубокой мыслью. Но по какой-то причине она меня зацепила.
И приравнивание Богов азбучных истин к Природе кажется мне столь же большой ошибкой, что приравнивание богов Земли к Внешним богам. И, скорее всего, итог будет тот же: попался!
Ты ломаешь себе спину, вознося Молоха к небесам, а Молох берет и проглатывает тебя целиком.
Еще немного Лавкрафта: популярная в интернете вариация культа Ктулху утверждает, что если ты поможешь Ктулху освободиться из его водной могилы, он наградит тебя, съев тебя первым, таким образом спасая тебя от ужасных картин поедания всех остальных. Это ошибочное прочтение оригинального текста. В оригинале культисты не получат никакой награды за свои усилия, ни даже награды в виде возможности быть убитым чуть менее болезненно.
Подчинившись воле Богов азбучных истин, Гнона, Ктулху, кого угодно еще, можно надеяться выиграть чуть больше времени, чем будет у остальных. Впрочем, опять же, эта надежда невелика, и в долгосрочной перспективе мы все будем мертвы, а наша цивилизация будет уничтожена неописуемыми внеземными монстрами.
В определенный момент кто-то должен сказать «Вы знаете, возможно, освобождать Ктулху из его водной тюрьмы — не такая уж и хорошая идея. Может быть, нам лучше этого не делать».
Кто угодно, только не Ник Лэнд. Он полностью, на все сто процентов поддерживает освобождение Ктулху из его водной тюрьмы, и он весьма раздражен тем, что это происходит недостаточно быстро. Я испытываю весьма противоречивые чувства в отношении Ника Лэнда. В поиске грааля Истинной Футурологии он прошел 99,9% пути, а затем пропустил самый последний поворот — с указателем «ТЕЗИС ОРТОГОНАЛЬНОСТИ».
Однако в поисках грааля есть одна важная штука: если вы повернули не туда, пройдя всего лишь пару кварталов от начала пути, то вы просто окажетесь у магазинчика на углу с чувством легкого стыда. Если же вы сделаете почти все правильно, и упустите лишь самый последний поворот, то вы окажетесь в пасти у легендарной Черной Твари, чей гнилостный желудочный сок разъест вашу душу на мелкие бессмысленные кусочки.
Насколько я могу судить по его блогу, Ник Лэнд принадлежит к опаснейшей категории людей на границе между двумя уровнями понимания: он достаточно умен для того, чтобы понять несколько важных тайных принципов, касающихся призыва демонических богов, но недостаточно умен для того, чтобы осознать самый важный из них: НИКОГДА ТАК НЕ ДЕЛАЙ.
Нян (Nyan), пишущий для блога More Right, справляется с этой задачей значительно лучше. Он выбирает в качестве Четырех всадников Гнона некоторые из процессов, о которых я говорил выше, снабжая их подходящими именами из мифологии: Мамон для капитализма, Арес для войны, Азатот для эволюции и Ктулху для меметики.
Steven Kaas
@stevenkaasRetry: The thought that abstract ideas can be Lovecraftian monsters is an old one but a deep one.
7:01 AM - 25 Jan 2011
[Вторая попытка: Мысль о том, что абстрактные идеи могут быть лавкрафтианскими монстрами — древняя, но глубокая.]
Пост «Пленение Гнона»:
Все вышеописанные компоненты Гнона принимали участие в создании нас, наших идей, нашего богатства и нашего превосходства, и, таким образом, были нам полезны, но мы должны помнить, что [Гнон] способен в любой момент неожиданно ополчиться на нас, и он это сделает, как только изменятся обстоятельства. Эволюция сменяется ухудшением генофонда, особенности меметического ландшафта поощряют все более странное безумие, продуктивность обращается голодом, когда мы больше не можем бороться за средства к собственному существованию, а порядок обращается хаосом и кровопролитием, когда мы недооцениваем важность военной силы, либо проигрываем внешнему противнику. Эти процессы сами по себе ни добры, ни злы; они нейтральны, в ужасающем, Лавкрафтовском смысле этого слова.
Нам будет лучше, если вместо разрушительной безграничной власти эволюции и свободного рынка партнеров мы воплотим осторожную, консервативную патриархию и евгенику, направляемую разумом человека в рамках ограничений, установленных Гноном. Вместо «рынка идей», больше напоминающего загнивающую чашку Петри, плодящую супербактерии — рациональную теократию. Вместо разнузданной техно-коммерческой эксплуатации или наивного пренебрежения экономическими принципами — аккуратное сохранение продуктивной экономической динамики и планирование контролируемой техно-сингулярности. Вместо политики и хаоса — сильная иерархическая власть, опирающаяся на армию. Не следует воспринимать все это как готовую программу; пока что нам неизвестно, как все это осуществить. Лучше понимать это как цели, к достижению которых необходимо стремиться. Данный пост посвящен в большей степени вопросам «что?» и «почему?», нежели «как?».
На мой взгляд, это сильнейший аргумент в пользу неореакции. Многополюсные ловушки грозят уничтожить нас, поэтому нам стоит сдвинуть компромисс между тиранией и многополюсными ловушками в сторону рационально управляемого сада, требующего централизованной монархии и сильной приверженности традициям.
Но давайте совершим небольшое отступление в область социальной эволюции. Общества, как и животные, эволюционируют. Те, кто выживают, порождают меметических наследников — например, благодаря успеху Британии появились Канада, Австралия, США и т.д. Таким образом, следует ожидать, что уже существующие общества так или иначе оптимизированы в сторону стабильности и процветания. Я думаю, что это один из сильнейших аргументов консерваторов. Так же, как и случайное изменение одной буквы в человеческом геноме будет скорее пагубным, нежели полезным (поскольку человек — сложная, тонко настроенная система, чей геном был оптимизирован ради выживания), большая часть изменений в нашей культурной ДНК будут разрушать те или иные институты, которые помогли англо-американскому (или любому другому) обществу превзойти своих реальных и гипотетических соперников.
Либеральный контраргумент заключается в том, что эволюция — слепой безумный бог, который оптимизирует в пользу чего попало и не особо заинтересован в человеческих ценностях. Поэтому тот факт, что некоторые осы парализуют гусениц, откладывают внутрь них личинки, которые затем пожирают изнутри все еще живую парализованную гусеницу, не активирует моральный сенсор эволюции — просто потому, что у эволюции нет морального сенсора; ее это не заботит.
Предположим, например, что патриархат способствует адаптивности обществ, потому что из-за него женщины могут целиком посвящать свою жизнь вынашиванию детей, которые затем могут заниматься продуктивной деятельностью и воевать — это не кажется мне чем-то совсем уж неправдоподобным; предположим даже для удобства, что так оно и есть. Даже с учетом этого процессы, которые движут социальной эволюцией и вынуждают общества принимать патриархат, столь же мало озабочены последствиями для морали и нужд женщин, как и процессы, которые движут биологической эволюцией и вынуждают ос откладывать личинки в гусениц.
Эволюцию все это не волнует. Но это волнует нас. Возникает компромисс между Гнон-конформизмом — выражаемым в духе «Окей, самое мощное общество — патриархальное общество, поэтому нам нужно реализовать патриархат» и нашими ценностями — например, возможностями женщин заниматься чем-то еще, кроме вынашивания детей.
Слишком далеко в одну сторону, и у вас будут нестабильные нищие общества, вымирающие из-за бунта против законов природы. Слишком далеко в другую, и у вас будут подтянутые злобные боевые машины, смертоносные и несчастные. Представьте себе разницу между небольшой коммуной анархистов и Спартой.
Нян признает важность человеческого фактора:
И есть мы. Человек, когда он обладает достаточной степенью безопасности для того, чтобы действовать и ясности ума для того, чтобы понимать последствия своих действий, действует в соответствии со своим телосом (телос — цель, предназначение — прим. пер.). Когда его не тревожат проблемы координации и внешние силы, когда он способен действовать как садовник, нежели как еще один подданный закона джунглей, он склонен создавать для себя чудесный мир и оберегать его. Он склонен поддерживать хорошие вещи и избегать плохих, создавать безопасные цивилизации с чистыми тротуарами, прекрасным искусством, счастливыми семьями и славными приключениями. Я приму как данность то, что этот телос идентичен нашим представлениям о «добре» и «долге».
И вот, у нас есть неопределенность, связанная с важнейшей проблемой футуризма. Будут ли в будущем править привычные нам четыре всадника Гнона, создавая будущее, полное бессмысленного мерцающего пламени технического прогресса, пожирающего космос, или будущее тёмных веков, полное вырождения, безумия, голода и кровопролития? Или же человеческий телос восторжествует, создав будущее, полное осмысленного искусства, науки, духовности и величия?
Он забыл назвать этого анти-всадника, всадника человеческих ценностей, но это не страшно. Мы произнесем его имя чуть позже.
Нян продолжает:
Таким образом, мы приходим к идеям Неореакции и Темного Просвещения, которые сочетают науку и амбиции Просвещения с реакционным знанием и самоидентичностью, построенной вокруг цивилизационного проекта. Суть же этого проекта заключается в том, чтобы превратить человека из метафорического дикаря, подвластного закону джунглей, в цивилизованного садовника, который, пусть все еще во власти этого закона, тем не менее занимает господствующую роль, что позволяет ему ограничить применимость этой модели.
Речь не идет о том, чтобы достичь этого повсеместно; возможно, нам удастся лишь создать небольшой огороженный сад для себя, однако будьте уверены: даже если это возможно лишь локально, целью проекта цивилизации является пленение Гнона.
Пожалуй, в этом я согласен с Няном больше, чем я когда-либо соглашался с кем-либо о чем бы то ни было еще. Он выражает действительно очень важную мысль и он делает это красиво; я могу еще долго хвалить этот пост и мыслительные процессы, породившие его.
Но что я на самом деле хочу сказать…
Попался! Ты все равно умрешь!
Пусть вам удалось создать свой собственный огороженный сад. Вы оградили себя от опасных мемов, вы подчинили капитализм человеческим интересам, вы запретили безрассудные исследования биологического оружия, и вы даже близко не подходите к нанотехнологиям и сильному ИИ.
Это никак не ограничивает всех тех, кто остался снаружи вашего сада. И единственным неразрешенным вопросом остается только, что именно приведет к вашей гибели — чужие болезни, чужие мемы, чужие войска, чужая экономическая конкуренция или чужие экзистенциальные катастрофы.
Как только соседи вступят с вами в конкуренцию — и нет такой стены, чтобы полностью оградить вас от нее — у вас появится несколько вариантов. Вы можете проиграть соревнование и погибнуть. Вы можете включиться в гонку на дно. Или вы можете выделять все большую и большую часть ресурсов вашей цивилизации на укрепление вашей «стены», чем бы она ни была на самом деле, и на защиту вашего сада.
Я могу представить себе варианты «рациональной теократии» и «консервативной патриархии», жить в которых будет не так уж и плохо, при наличии набора наиболее благоприятных для этого условий. Но у вас не будет возможности выбирать наиболее благоприятные условия. Вам нужно выбирать из весьма ограниченного набора условий, подходящих для «пленения Гнона». По мере конкуренции с соседними цивилизациями эти ограничения будут становиться все более и более узкими.
Нян желает избежать будущего, в котором «бессмысленно мерцающее пламя технического прогресса пожирает космос». Неужели вы всерьез рассчитываете на то, что ваш огороженный сад это переживет?
Подсказка: он является частью космоса?
Ага. В этом-то и проблема.
Мне хочется поспорить с Няном. Но моя критика полностью противоположна последней полученной им критике. Более того, эта последняя критика настолько плоха, что я хочу подробно обсудить ее, чтобы мы смогли получить правильную путем ее точного зеркального отражения.
Поэтому давайте обсудим эссе Херлока «О Пленении Гнона и Наивном Рационализме».
(забавный факт: каждый раз, когда я пытался написать в этой статье «Гнон», у меня получалось «Нян», и каждый раз, когда я пытался написать «Нян», у меня получалось «Гнон»)
Херлок демонстрирует высшую степень малодушного Гнон-конформизма. Вот несколько цитат:
В своем недавнем эссе Нян Сэндвич пишет о том, что мы должны «пленить Гнона» и каким-то образом подчинить себе его силу, чтобы использовать ее себе во благо. Действительно, пленение или создание Бога — классический фетиш трансгуманистов, представляющий собой всего лишь новую форму древнейшей из человеческих амбиций — власть над вселенной.
Однако подобный наивный рационализм крайне опасен. Убежденность в том, что именно человеческий Разум и обдуманный замысел людей создают и поддерживают цивилизации, была, возможно, самой большой ошибкой философии Просвещения…
Именно теории Спонтанного Порядка находятся в прямом противоречии с наивным взглядом на человечество и цивилизацию. Общепринятую точку зрения на человеческое общество и цивилизацию из всех представителей этой традиции наиболее точно обобщает заключение Адама Фергюсона: «нации случайно обнаруживают [социальные] институты, которые, действительно, являются результатом деятельности человека, но не являются исполнением замысла никого из людей». Вопреки наивному взгляду рационалистов на цивилизацию как на возможный и действительный субъект явного человеческого замысла, представители традиции Спонтанного Порядка придерживаются точки зрения о том, что человеческая цивилизация и ее социальные институты являются результатом сложного эволюционного процесса, приводимого в движение взаимодействием между людьми, но не подверженного явному человеческому планированию.
Гнон и его безличные силы — не враги, с которыми необходимо сражаться, и тем более не те силы, которые мы можем надеяться «подчинить» себе в полной мере. В самом деле, единственный способ обрести определенную степень власти над этими силами — подчиниться им. Отказ от этого никоим образом не ослабит их. Он лишь принесет нам боль и сделает нашу жизнь еще более невыносимой, потенциально неся нам угрозу вымирания. Наше выживание требует принять их и подчиниться им. В конце концов, человек всегда был и будет не более чем марионеткой сил природы. Быть свободными от них невозможно.
Человек может обрести свободу, лишь подчинившись силам Гнона.
Я обвиняю Херлока в том, что его взгляд застлан пеленой. Если от нее избавиться, Гнон/Боги азбучных истин/боги Земли оказываются Молохом/Внешними богами. Подчинение им не дает тебе никакой «свободы», спонтанного порядка не существует, любые дары этих богов — случайный и маловероятный результат безумного слепого процесса, чья следующая итерация с тем же успехом может уничтожить тебя.
Подчиниться Гнону? Попался! Как говорят Антаранцы: «вы не можете сдаться, вы не можете победить, вам остается только умереть».
Так что позвольте мне сознаться в одном из грехов, в которых меня обвиняет Херлок: я — трансгуманист, и я действительно мечтаю обрести власть над вселенной.
Не обязательно личную власть — ну, то есть, я бы не отказался, если бы кто-то предложил мне эту должность, но я не надеюсь на это. Мне просто хотелось бы, чтобы эта должность досталась людям, или чему-то, что уважает людей, или хотя бы дружелюбно относится к людям.
Однако текущие властители вселенной — называйте их, как хотите, Молох, Гнон, Азатот, неважно — желают смерти нам и всему, что нам дорого. Искусству, науке, любви, нашему самосознанию — полному набору. И поскольку я не поддерживаю этот план, мне кажется, что необходимость победить их и занять их место имеет довольно высокий приоритет.
Противоположность ловушки — сад. Единственный способ избежать постепенной утраты всех человеческих ценностей в процессах оптимизации и конкуренции — поставить Садовника надо всей Вселенной, который будет оптимизировать ее в пользу человеческих ценностей.
И главная мысль «Искусственного интеллекта» Бострома в том, что нам это под силу. Как только люди научатся создавать машины, которые будут умнее нас, по определению эти машины смогут создавать другие машины, которые будут умнее их, которые в свою очередь смогут создавать машины еще умнее и так далее в петле обратной связи, которая упрется в физические ограничения на уровень интеллекта в сравнительно крошечный промежуток времени. Если бы несколько конкурирующих сущностей могли сделать это одновременно, мы были бы обречены на погибель. Но та огромная скорость, с которой должен протекать этот цикл, делает возможным сценарий, в котором у нас появится лишь одна сущность с форой в несколько световых лет перед остальной цивилизацией, что позволит ей остановить любую конкуренцию, в том числе за титул самой мощной сущности, навсегда. В ближайшем будущем мы вознесем кого-то к Небесам. Возможно, это будет Молох. Но, возможно, этот кто-то будет на нашей стороне. Если он за нас, он сможет убить Молоха. Насмерть.
И тогда, если эта сущность разделяет человеческие ценности, она может позволить им безгранично процветать вопреки законам природы.
Понимаю, что это может звучать высокомерно — во всяком случае, для Херлока точно — но мне кажется, что это противоположность высокомерию, или, по крайней мере, точка зрения, в которой его меньше всего.
Ожидать, что Богу есть дело до тебя, или твоих личных ценностей, или ценностей твоей цивилизации — вот высокомерие.
Ожидать, что Бог будет торговаться с тобой, позволив тебе выживать и процветать в обмен на поклонение Ему — вот высокомерие.
Ожидать, что тебе удастся огородить себе сад, где Бог не сможет добраться до тебя — вот высокомерие.
Ожидать, что тебе удастся исключить Бога как фактор… ну, по крайней мере, можно попробовать.
Я трансгуманист, потому что мне не хватает высокомерия, чтобы не попытаться убить Бога.
Вселенная — мрачное и зловещее место, со всех сторон окруженное чуждыми нам богами. Ктулху, Азатот, Гнон, Молох, Мамон, Арес — называйте их как хотите.
Но где-то в этой тьме есть другой бог. У него также много имен. В серии книг Кушиэль его зовут Элуа. Он — бог цветов, свободной любви и всех прочих нежных и хрупких вещей. Искусства, науки, философии и любви. Любезности, общин и цивилизации. Он — бог людей.
Все остальные боги сидят на своих темных тронах и думают «Ха-ха, бог, который даже не держит каких-нибудь адских монстров и не превращает своих поклонников в машины для убийства. Ну и слабак! Это будет так легко!».
Но почему-то Элуа все еще жив. Никто не знает, как ему это удается. И противостоящие Ему боги на удивление часто оказываются жертвами всевозможных несчастных случаев.
Существует много разных богов, но этот бог наш.
Бертран Рассел писал: «Общественное мнение стоит уважать до тех пор, пока это необходимо, чтобы не умереть от голода и не попасть в тюрьму, но что угодно сверх этого — добровольное подчинение неоправданной тирании».
Пусть будет так и с Гноном. Наша цель — умиротворять его до тех пор, пока это необходимо, чтобы избежать голода и вторжений. И это лишь ненадолго — до тех пор, пока мы не обретем всю полноту нашей силы.
«Это просто детская болезнь, которую человеческий род пока еще не перерос. И однажды мы ее преодолеем».
Других богов мы умиротворяем — до тех пор, пока не станем достаточно сильны для того, чтобы вызвать их на бой. Элуа же мы поклоняемся.
so tab today
@tabatkinsMy favorite so far is «My paladin’s battle cry is not allowed to be „Good for the Good God!“».
7:49 PM - 28 Mar 2014
[пока что мое любимое [правило в ролевых играх] — «Моему паладину не разрешается брать в качестве боевого клича ‘Больше добра для бога добра!’»]
По-моему, это прекрасный боевой клич
И однажды наступит решающий момент.
После прочтения поэмы Гинзберга у всех возникает вопрос — что такое Молох?
Мой ответ: Молох — ровно тот, кого этим именем называют учебники истории. Он — карфагенский бог. Бог детских жертвоприношений, огненная топка, в которую можно бросать своих младенцев в обмен на победу в войне.
Везде и всегда он предлагает одну и ту же сделку: брось то, что ты любишь больше всего, в огонь, и я дам тебе силу.
До тех пор, пока предложение открыто, ему невозможно сопротивляться. Поэтому нам нужно закрыть его. Только другой бог может убить Молоха. На нашей стороне есть один, но ему нужна наша помощь. И мы должны помочь ему.
Молох — демоническое божество Карфагена.
И мы говорим Карфагену лишь одно: «Карфаген должен быть разрушен».
(Видения! знаки! гaллюцинaции! чудесa! экстaзы! все утонуло в Америкaнской реке!
Мечты! обожания! озaрения! религии! все это чувственное говно!
Прорывы! над рекой! кувырки и распятия! унесенные наводнением! Полеты! Богоявления! Отчаяния! Десять лет животных криков и самоубийств! Мысли! Новые связи! Безумное поколение! внизу на камнях Времени!
Настоящий святой смех в реке! Они все это видели! дикие взгляды! святые крики! Они прощались! Прыгали с крыш! к одиночеству! размахивая! с цветами в руках! Вниз, к реке! на улицу!)
НУЛЕВАЯ ЧАСТЬ: ВВЕДЕНИЕ
0.1: Кто ты? Где я?
Ты можешь узнать обо мне больше на www.slatestarcodex.com, а о переводчиках в российском сообществе Less Wrong. Это «Часто задаваемые вопросы о консеквенциализме». [В тексте также присутствовала ссылка на старый сайт Скотта Александера raikoth[dot]net, на котором и был исходно опубликован этот текст, но, судя по всему, Скотт Александер потерял над ним контроль. - Прим.перев.]
0.2: Зачем это всё написано?
Консеквенциализм – моральная теория, то есть описание, что значит мораль и как решать нравственные проблемы. Хотя в сети уже есть несколько объяснений, все они чересчур мудреные: безбожно сыплют терминами, придираются к деталям и, в конце концов, лишь заключают, что консеквенциализм – важная идея, которую следует педантично рассасывать ещё несколько веков. Это ЧаВо задумывалось для другой цели: убедить людей, что консеквенциализм – правильная моральная система, а все остальные системы немножко, но определённо безумные.
Не все мудрые мысли в этой статье принадлежат мне. Большая часть происходит из наследия моральной философии, а некоторые наиболее умные идеи и формулировки из оставшихся – из цепочки статей с Less Wrong о метаэтике.
0.3: Почему это вообще надо было писать?
Как правило, системы морали больше сосредоточены на вопросе, как выглядеть хорошим человеком, а не как быть им. Если мы считаем, что должны заботиться обо всех людях, а наша мораль должна определять наши поступки, то консеквенциализм - единственная система, которая удовлетворяет этим требованиям. Пока что это звучит немного голословно, но, надеюсь, моя мысль станет понятнее при дальнейшем чтении.
0.4: Кому это надо?
В восьмой части я до этого доберусь, но краткая идея такова: мы живём отнюдь не в лучшем из миров. Голод, война, расизм, разрушение среды обитания - все эти проблемы даже в немногих развитых странах решаются лишь частично, а в большинстве других стран они и вовсе едва сдерживаются. Традиционные объяснения такого положения вещей ссылаются на то, что «люди от природы аморальны». Однако на самом деле люди в большинстве своём – весьма хорошие создания: они испытывают негодование в ответ на несправедливости этого мира, они чрезвычайно щедры, когда есть очевидная возможность проявить щедрость (как, например, после землетрясений в Гаити), и многие в минуту опасности не задумываясь принесут себя в жертву ради остальных.
Даже совершая отталкивающие поступки - скажем, с непомерной страстью противостоя однополым бракам - люди исходят из своего понимания добра, пусть даже с неверно расставленными акцентами. Они всей душой отдаются делу запрета подобных браков не потому, что гомосексуальные люди вредят им лично, а потому что думают, что должны так поступать.
Проблема не в том, что люди не пытаются быть этичными, а в том, что у них плохо получается это делать. Моё ЧаВо пытается объяснить, как делать это лучше.
0.5: Это ЧаВо исчерпывающее?
Нет. Оно лишь кратко вводит в основные идеи консеквенциализма и немного объясняет, почему стоит ему следовать. Чтобы делать это правильно, нужно использовать ещё много других концепций, включая теорию игр, теорию принятия решений и некоторые основные принципы юриспруденции. Здесь они едва упомянуты, хотя многие из них способны изменить ответы на ключевые вопросы при более внимательном рассмотрении. Это ЧаВо устанавливает некоторые базовые понятия. Чтобы превратить их в конкретные действия, придётся изрядно поработать.
0.6: Что ты можешь сказать о структуре этого ЧаВо?
Первая часть рассказывает, чего вообще добивается этическая философия и как решать моральные дилеммы. Она лишь готовит почву, я не надеюсь охватить ею всю теорию метаэтики, которая поистине безгранична. Во второй части раскрывается и поясняется представление о том, что нравственность поступков должна определяться их воздействием на реальный мир. Третья часть излагает и защищает мысль, что при принятии этических решений надо руководствоваться в первую очередь интересами других людей. В четвёртой части я, наконец, добираюсь до консеквенциализма, а в пятой – до самого известного его примера, утилитаризма. Шестая часть рассказывает о правах человека и законах человеческого общества, седьмая отвечает на некоторые типичные возражения и проясняет кое-какие мысленные эксперименты, а в восьмой я объясняю, почему думаю, что это действительно важно и может спасти наш мир.
1.1: Что означает «искать правила морали»?
Искать правила морали - значит искать принципы, которые неплохо описывают наши интуитивные представления о морали и достаточно хорошо согласуются с ними. Найдя такие принципы, мы можем достаточно уверенно применять их в пограничных, спорных случаях.
Есть много ситуаций, в которых почти каждый приходит к одному и тому же ответу, даже если не уверен, почему именно. Например, даже если мы не придерживаемся никакой формальной теории морали, мы знаем, что убивать невинных людей без причины – плохо.
Существуют и более сложные вопросы, в которых люди расходятся в ответах, например, допустимо ли законодательно запрещать аборты.
При обсуждении подобных вопросов люди, как правило, пытаются свести их к уже существующим моральным принципам, с которыми, кажется, согласны все. Например, приверженец взгляда на жизнь как на высшую ценность заметит, что забирать чью-либо жизнь недопустимо; аборты забирают жизни, следовательно, аборты недопустимы. Однако сторонник верховенства прав человека может с не меньшим основанием возразить, что каждый человек имеет право управлять собственным телом; зародыш – часть тела матери, следовательно, аборты допустимы.
Судя по извечной популярности дискуссий об абортах, этого метода недостаточно, чтобы быстро разрешать спорные случаи.
Искать законы морали означает искать более формальную процедуру превращения интуитивных этических предпочтений в правила и способы их применения к спорным случаям. Такой метод должен быть предельно ясен и порождать предсказуемое поведение в спорных ситуациях, если их условия немного меняются.
1.2: К чему беспокоиться об интуитивных представлениях о морали?
Интуитивные представления о морали – набор самых базовых человеческих идей о том, «что такое хорошо». Некоторые из них жёстко прошиты в человеческом мозге. Другие перенимаются от общества в детском возрасте и проявляют себя как утверждения («причинять боль – неправильно»), эмоции (например, грусть, когда невинному человеку причиняют боль) и действия (соответственно, избегание причинения вреда невинным людям).
Эти представления важны, потому что они (если не слушать философов определенного типа) – единственная причина считать, что нравственность вообще существует. Кроме того, они представляют собой стандарты, по которым можно оценивать моральные философии. Если единственное утверждение определённого учения – это «необходимо носить зелёное по субботам», то вряд ли люди найдут его убедительным, если только оно не сможет доказать, что ношение зелёной одежды по субботам связано с более важными вещами. Например, если бы мир становился счастливее и безопаснее каждый раз, когда человек надевает зелёное в субботу, то вышеупомянутое утверждение было бы оправданным. Но и в этом случае выбор был сделан в пользу счастья и безопасности, а не зелёной одежды самой по себе. С другой стороны, если бы философ утверждал, что нам следует сделать мир более счастливым и безопасным, потому что это побудит больше людей носить зелёное по субботам, то его бы подняли на смех. Так что моральные теории должны сводиться к общим интуитивным представлениям о морали, чтобы быть признанными.
1.3: Можем ли мы просто принять весь наш набор интуитивных представлений о морали как данность?
Нет, мы должны достичь внутреннего равновесия между нашими интуитивными представлениями о морали, что назначит некоторым из них больший или меньший вес и совсем уберет другие.
Это чем-то схоже с распознаванием оптических иллюзий. Наши органы чувств играют в физическом мире ту же роль, что наши интуитивные представления – в мире морали: они наш первый и единственный источник данных.
Случается, что органы чувств нас иногда подводят. Например, стержень, который выглядит согнутым на границе воздуха и воды, может на самом деле быть прямым.
Чтобы разрешить конфликт, мы используем остальные наши чувства и правила, собранные во время предыдущих взаимодействий с физическим миром. Они могут включать в себя тщательное ощупывание стержня, чтение книг, чтобы перенять знания других людей о поведении объектов в жидкости, и помещение других вещей в воду, чтобы посмотреть, что из этого выйдет. Мы быстро понимаем, что подавляющее большинство чувственных данных и построенных из них выводов говорит, что стержень на самом деле прямой, а зрительная информация – искажение. Мы «опровергли» чувственные данные, хотя они наш основной способ воспринимать окружающий мир.
Другой способ узнать то же самое – прочесть в учебнике физики о законах оптического преломления, полученных из тысяч экспериментов, и заключить, что изгиб стержня иллюзорен.
Мы можем проделать то же с нашим интуитивным представлением о морали. Предположим, многие гетеросексуальные люди чувствуют интуитивное отвращение к идее гомосексуальности и заключают, что гомосексуальность – это безнравственно.
Если бы они задумались над этим глубже, то могли бы подумать следующее: «Почему то, что отвратительно для меня лично, обязано быть аморальным? Многие считают курение отвратительным - значит ли это, что оно аморально? Если бы я жил преимущественно в гомосексуальном мире, было бы отвращение, испытываемое ко мне другими, достаточной причиной, чтобы запретить мне иметь партнёра другого со мной пола? Есть ли у меня вообще право вмешиваться в чужую личную жизнь таким образом? Может, право любить кого хочешь намного важнее, чем мое сиюминутное отвращение?»
В этом случае логика помогла навести мосты к интуитивным представлениям о морали, которые сильнее, чем первоначальная мысль «гомосексуальность отвратительна». После самоанализа изначальное решение может быть перевешено более сильными и базовыми представлениями, как зрительное восприятие согнутого стержня перевешивается более сильными показаниями всех остальных органов чувств.
Так что ни одно конкретное представление о морали нельзя назвать корректным, пока вся система морали человека не пришла к стройному равновесию, что происходит лишь посредством аккуратного размышления. Это эквивалентно процессу, приведённому в 1.1: использование простых этических посылок, чтобы обосновать сложные или отказаться от них.
1.4: Стоит ли вообще размышлять над своими представлениями о морали, искать равновесия между ними?
Я считаю, что стоит. Ты считаешь иначе?
Рассмотрим такой вариант: я, не обдумав хорошенько своего отвращения к гомосексуалам, отказал им в праве на брак. Моя интуиция, мой опыт говорит мне, что потом я могу всё же поразмыслить над вопросом и пожалеть о своём необоснованном и поспешном решении. Недостаточно продуманная мораль приводит к дурным поступкам, а я хочу быть хорошим человеком. Грамотная моральная теория за плечами помогает делать это лучше; если я халатно отнёсся к её разработке, то следую своему нравственному долгу неудовлетворительно.
Было бы весьма здорово, если бы мы могли придумать моральный эквивалент законов физики: правила, которые можно напрямую применять к любой ситуации, чтобы узнать, как поступить. Это ЧаВо пытается дать некоторое приближение, устанавливая два базовых принципа: мораль должна укорениться в реальном мире, а моральные законы должны относиться ко всем людям одинаково. В следующих двух главах я попытаюсь обосновать эти принципы.
2.1: Что значит «мораль должна укорениться в нашем мире»?
Это означает, что мораль не может быть просто каким-то неуловимым абстрактным законом, существующим только в метафизическом плане. Она должна иметь отношение к тому, как нравственные и безнравственные действия меняют реальность.
2.2: Почему?
На этот вопрос можно ответить притчей.
Посреди непроходимых джунглей Кламзории за Фрептанским морем стоит гигантская гора, с вершины которой не сходит снег. В пещере внутри этой горы расположилось гнездо ужасного Хрогморфа, Губителя людей. В груди этого чудовища заключён легендарный Сердцестраст – громадный зачарованный рубин. Истории гласят, что на владеющего им человека не будут действовать нравственные законы; даже самые грязные его поступки не могут считаться грехом.
Поражённый легендами о камне, ты переплываешь Фрептанское море и пробиваешься сквозь кламзорские джунгли. Ты побеждаешь ужасного Хрогморфа, Губителя людей, в решительной схватке, вырываешь камень из его тела и помещаешь в амулет на шее. Дома ты решаешь проверить его силы, для чего берёшь из приюта котёнка и убиваешь его.
Ты чувствуешь себя просто ужасно. Тебе хочется свернуться в клубок, чтобы люди никогда больше не увидели твоего лица. «Ну а чего ты ожидал?» – спрашивает призрак Хрогморфа, который теперь неотступно тебя преследует. – «Сила Сердцестраста не в том, чтобы не чувствовать стыд. Стыд происходит из определённых химических реакций в мозгу, молекулы и атомы же принадлежат физическому миру – метафизическая этическая эссенция тут ни при чём. Послушай, если тебе станет от этого легче, в твоём поступке нет ничего дурного, ведь на тебе амулет. Тебе просто так кажется».
К тебе в дверь стучится служба защиты животных. Они получили анонимное послание (наверняка проклятый дух Хрогморфа опять постарался), что ты утопил котёнка. Тебя вызывают на суд по делу о жестоком обращении с животными. Судья замечает, что на тебе Сердцестраст, следовательно, технически, ты не совершил безнравственного поступка. Но ты нарушил закон, так что он налагает на тебя штраф и несколько месяцев исправительных работ.
На общественных работах ты встречаешь молодую девушку, которая ищет потерявшегося котёнка. Её описание звучит очень знакомо. Ты советуешь ей прекратить поиски, потому что именно этого котёнка ты взял из приюта и утопил. Она начинает плакать и говорит, что любила этого котёнка, что он был единственной светлой полосой в её безрадостной жизни, и теперь она не знает, как ей жить дальше. Хотя Сердцестраст всё ещё у тебя на шее, ты всей душой опечален рассказом девушки и хочешь как-нибудь прекратить её страдания.
Если нравственность – это всего лишь какое-то метафизическое правило, Сердцестраста было бы достаточно, чтобы его отменить. Но Сердцестраст, несмотря на все его легендарные свойства, абсолютно бесполезен, и никаким экспериментом, на самом деле, неотличим от подделки. Какие бы метафизические эффекты он ни производил, они не имеют отношения к причинам, из-за которых мы считаем мораль важной.
2.3: Что насчёт бога? Может ли мораль происходить от него?
Что может означать «бог создал мораль»?
Если это означает, что бог провозгласил определённые правила, награждает тех, кто им следует, и наказывает тех, кто нарушает, – что ж, если бог существует, он вполне может так и делать. Только это не нравственность. В конце концов, Сталин также провозгласил определённые правила и награждал тех, кто им следует, а тех, кто их нарушал, – наказывал. Если бог выбрал правила произвольно, то нет причины им следовать, кроме как из личного интереса (что едва ли нравственный мотив), а если они выбраны по какой-то причине, то именно эта причина, а не бог, является источником морали.
Если это значит, что бог установил определённые правила, и мы должны им следовать из любви и уважения, потому что он бог, то откуда берутся эти любовь и уважение? Понимание, что мы должны любить и уважать нашего создателя и тех, кто о нас заботится - оно само по себе требует определённой морали. Определение бога «добрым» и «достойного уважения» требует некий стандарт доброты вне установленной им системы. Опять же, если эта система была выбрана по какой-то причине, то именно эта причина – источник морали.
Журналисты газетных колонок «из жизни» часто освещают нравственные правила, о которых читатели могли бы и не вспомнить. Эти правила определённо хороши, но это не делает журналистов источником морали.
2.4: Может, мораль верна по определению?
«Определения» могут только связывать значения со словами, фраза «по определению» не даёт нам никакой новой информации.
Если я определяю «мораль» как «не обижать других людей», то это значит, что в моём понимании последовательность звуков [ма-рал’] соотносятся с идеей отсутствия вреда другим людям. Это не значит, что никому не следует вредить другим людям.
Предположим, я изобрёл новое слово, «зурблек» с определением «люди обязаны носить зелёное по субботам». Ношение зелёных вещей по субботам – это зурблек? Да, по определению. Говорит ли это что-то о том, нужно ли конкретно тебе лично носить зелёное по субботам? Едва ли.
Гравитация, по определению, означает силу, которая тянет объекты к сосредоточению масс. Но причина, почему предметы падают вниз, это не определение гравитации, иначе бы мы смогли летать, просто отредактировав словарь. Объекты падают вниз, потому что в реальном мире существует некий закон, которому отвечает слово «гравитация». Если мораль и её законы чего-то стоят, то им тоже должны отвечать некие черты реального мира.
2.5: Может, мораль истинна, потому что её законы можно вывести логически?
Дэвид Юм заметил, что невозможно доказать утверждения вида «должен» при помощи утверждений «является». Можно выписывать сколько угодно фактов физического мира: «огонь горячий», «горячие вещи обжигают», «ожоги вредят человеческому телу» – всё это можно объединить в одно утверждение: «Если огонь горячий, а горячие вещи обжигают, то тебе станет больно от прикосновения к огню». Но из этого никак нельзя вывести «следовательно, не нужно поджигать людей», если только заранее не принять утверждение «не нужно сжигать людей заживо».
Утверждения «должен» из других утверждений «должен» вывести можно. Например, утверждений «огонь горячий», «горячее обжигает», «ожоги причиняют боль» и «не следует причинять боль» достаточно, чтобы сказать «не следует поджигать людей». Подчеркну: так можно выводить моральные принципы, только уже имея в своём распоряжении другие моральные принципы. Обосновать же саму мораль таким способом не получится.
Кант думал, что может доказывать утверждения «должен» без уже существующих «должен» при помощи «категорических императивов», но это только потому, что он украдкой внёс в них всю свою моральную систему, как слишком очевидную, чтобы нуждаться в оправдании. Если вы мне не верите, прочитайте первые несколько страниц «Основ метафизики нравственности», пока не дойдёте до того места, где говорится о «доброй воле».
Если вся эта философская дребедень не для вас, подумайте о более простом примере: предположим, какой-то математик при помощи логики доказал, что этично носить зелёные вещи по субботам. Объективно нет никакой пользы от ношения зелёной одежды по субботам, и никому не повредит, если никто не будет придерживаться этого закона. Но, похоже, его построения непротиворечивы. Вы пожмёте плечами и станете следовать этому закону? Или скажете: «Кажется, тут провернули какой-то причудливый математический трюк. Наверное, носить зелёную одежду по субботам «правильно» в твоём понимании, но я думаю, это не имеет никакого отношения к реальному миру, и не чувствую побуждения делать это»?
Во втором случае вы ожидаете от морали каких-то других свойств, кроме возможности логически доказать, что так поступать - хорошо и правильно, а так - нет.
2.6: В чём состоит различие между «хорошими» и «правильными» поступками?
Консеквенциализм сводит его на нет.
Есть философы, которые проводят аккуратную черту между аксиологией, учением, как поступать хорошо, и моралью, учением, как поступать правильно. Помогать другим людям, создавать лучший мир, распространять свободу и счастье среди людей – всё это хорошо, но это лишь вопрос аксиологии. Вовсе не факт, что правильно поступать именно так - если только„ конечно, подобный образ действий не связан с каким-то метафизическим правилом, впечатанным в ткань бытия. Какие-то поступки могут менять к лучшему весь мир и не иметь недостатков, но всё равно будут морально неправильными, потому что не соответствуют предустановленному кем-то правилу.
Например, предположим, белый мужчина и индейская женщина хотят сочетаться браком. Кажется, они любят друг друга и все люди согласны, что они замечательная пара. Но старейшины города не хотят, чтобы они поженились. Старейшины могут действовать двумя способами. Во-первых, они могут доказывать, что брак не будет хорошим – возникнут определенные негативные последствия в реальном мире: скажем, их дети будут изгоями в обоих сообществах или их благополучие расстроят культурные противоречия. Во-вторых, они могут сказать, что, конечно, брак будет хорошим: пара, дети и все их семьи будут счастливы и хорошо впишутся в сообщество; однако межрасовые семьи – это неправильно в принципе.
2.61: А что с этим не так?
В драме семнадцатого века «Мнимый больной», написанной Мольером, центральный персонаж спрашивает у доктора, почему опиум усыпляет людей. Доктор объясняет, что опиум имеет «снотворный эффект», и это удовлетворяет пациента.
Проблема в том, что «снотворный эффект» - это вовсе не объяснение. Это всего лишь слова, которые означают «заставляет людей спать». Нельзя объяснить, почему от опиума людей клонит в сон тем, что он содержит вещества, от которых людей клонит в сон. Этот ответ такой же таинственный, как и вопрос, на который он должен ответить. Правильное объяснение свойств опиума включало бы рассказ о химикатах, которые похожи по свойствам на другие химикаты в нашем мозгу, которые влияют на настроение и энергию. Это «редукционистское» объяснение – оно сводит таинственное свойство опиума к свойствам вещей, которые мы уже понимаем, и тем самым делает его менее таинственным. При помощи такого объяснения мы можем строить предположения, какие ещё медикаменты будут иметь то же свойство, какие, наоборот, будут нейтрализовать опиум и так далее. Говорить, что как-то поступать «неправильно» это то же самое, что говорить о «снотворной силе». Если я скажу, что люди разных рас не должны сочетаться браком, и объясню это тем, что это «неправильно», я всего лишь переформулирую своё убеждение, но никак не объясню его. Обсуждение «правильности» поступков похожи на обсуждение «снотворного эффекта» Мольера; обсуждение, как поступать хорошо, когда мы можем явно указать на то, почему это – хорошо, а то – нет, больше похоже на спор о химикатах в крови. Но даже этот пример не полностью покрывает проблему с таким использованием слов «правильный поступок». В конце концов, «снотворный эффект», несмотря на все недостатки, использовался для объяснения вещей, для которых не было другого толкования.
2.62: А нет ли метафоры получше для различения аксиологии и морали?
В стародавние времена химики полагали, что огонь порождается не интенсивным окислением при помощи кислорода, а таинственной субстанцией под названием «флогистон». Как бы то ни было, им не удавалось выделить этот флогистон, и с течением времени научная мысль сместилась в сторону современных взглядов на горение. Предположим, что в наши дни группа химиков объявила, что они собираются возродить теорию флогистона.
Да, во всех опытах, где какой-либо объект нагревается и исчезает в языках пламени, было доказано кислородное горение, но это всего лишь отдалённо касается настоящей эссенции пламени. Настоящий огонь не испускает света, не выделяет тепла и не может наблюдаться в принципе. Единственный способ, которым мы можем узнать, горит ли по-настоящему определённый объект, это внутреннее чутьё. Если мы нутром чуем, что огня нет, то мы будем спорить и писать длинные философские трактаты, но точно не опустимся до чего-то столь приземлённого, как измерение света и тепла от горящих предметов.
Действительно, большинство объектов, про которые наше чутьё говорит, что они горят по-настоящему, также испускают видимое пламя и ощущаемое тепло. Это довольно интересный факт, но не особо важный.
Задача пожарных - борьба с огнём, что очевидно из определения их профессии. В последнее время мы замечаем, что пожарные тратят время, спасая дома от языков видимого пламени, а не от метафизического настоящего огня, видимого только нашему внутреннему оку. Это противоречит их миссии. Насколько нам известно, в этих домах проходит обычный скучный процесс кислородного горения.
Несущественно, что кислородно-горящие дома разрушаются, унося с собой имущество и человеческие жизни. Цель пожарных – не защищать имущество и жизни, а бороться с огнём. Настоящий огонь, будучи невидимой нематериальной сущностью, не может забирать имущество или жизни, но с ним следует бороться по определению. Так уж и быть, после того, как пожарные закончат тушить дома, про которые мы интуитивно чувствуем, что они горят, то могут тушить дома, горящие обычным кислородным пламенем, в свободное от работы время.
2.621: Какая-то это нечестная метафора
Не думаю. Ведь есть люди, которые думают, что имеют моральное обязательство бороться с вещами вроде гомосексуальности, межрасовых браков и других вещей, которые никому не вредят, но про которые внутреннее чутьё сообщает, что они «неправильные». Эти же люди в то же время не чувствуют особого обязательства бороться с проблемами вроде голода, бедности и других вещей, про которые их этическая интуиция говорит, что они всего-то «плохие».
Химики в моей метафоре полагали, что настоящий и физический огонь часто сосуществуют в одном объекте. Они также считали, что есть множество вещей, которые горят метафизически, не испуская тепла, и что важно тушить этот огонь тоже, хоть он никому и не вредит.
Сторонники метафизической морали полагают, что «правильные» поступки часто бывают одновременно и «хорошими», но есть также и «правильные» вещи, которые никак не соотносятся с «хорошими». Считается, что мы должны следить также и за их соблюдением, хотя их нарушение никому не вредит.
2.7: Аааррх, хорошо, давай закончим поскорее эту часть и перейдём к резюме.
Метафизические принципы, божественная воля, словарные определения и математические доказательства – всего этого недостаточно, чтобы построить удовлетворительную формулировку морали. Мы должны связать мораль не с отвлечёнными идеями, а с конкретным миром, в котором мы живём. Следовательно, идея «правильности» вещей должна быть равна или напрямую связана с идеей того, как поступать хорошо.
3.1: С чего бы мне присваивать другим людям ненулевую ценность?
Я как бы надеялся, что это одно из тех интуитивных представлений о морали, что есть у всех. Неважно, насколько сильно оно выражено, но так или иначе важно, живут ли другие люди или умирают, счастливы они или несчастны, процветают ли они или тонут в отчаянии.
3.1.1: Не бойся, я шучу. Разумеется, мы должны присваивать другим людям ненулевую ценность.
Вот и славно!
3.2: Почему это правило может не удовлетворяться?
Законы морали могут не присваивать людям достаточную ценность, если они в некоторых местах зацикливаются сами на себя или если на них влияют эгоистичные мотивы вроде избегания стыда, ощущения «тёплого пушистого ощущения в груди» или трансляции социуму определённых сигналов.
Мы уже обсудили, какие нравственные правила могут заходить в тупик – те самые, которые сформулированы при помощи грандиозных метафизических законов, «верных по определению», но не имеют никакой проекции в реальный мир. Но способы, которыми в моральные законы вплетаются эгоистичные мотивы, заслуживают дополнительного внимания.
3.3: Что имеется в виду под желанием избежать стыда?
Предположим, злой король решил провести над тобой безумный моральный эксперимент. Он приказывает сильно ударить прямо в лицо маленького ребёнка. Если ты это сделаешь, то всё на этом и закончится. Если откажешься, он ударит ребёнка сам, затем накажет его и сотню невинных людей в придачу.
Самое лучшее решение – каким-нибудь образом свергнуть короля или избежать эксперимента. Допустим, этот путь закрыт – что же предпринять?
Есть такие философы, которые посоветовали бы отказаться. Конечно, ребёнку будет причинён больший вред, как и другим невинным людям, но это не будет, технически, твоя вина. Но если ты ударишь ребёнка, то, наоборот, это будет напрямую твоя вина, и именно тебе придётся испытывать угрызения совести.
Но такая излишняя забота о том, твоя ли в чём-то вина или нет, и есть форма эгоизма. Если ты прислушаешься ко мнению тех философов, это будет не из заботы о благополучии ребёнка – его всё равно ударят, не говоря уже о дополнительном наказании – а скорее из мысли, что потом тебя будет мучить стыд: выбор сделан не исходя из заботы о ближнем, а из заботы о себе.
Обычно мы рассматриваем стыд как знак, что мы сделали что-то морально неправильное, и зачастую это действительно так. Но стыд - неустойчивый сигнал: действия, которые минимизируют стыд не всегда в то же время этически предпочтительные. Желание уменьшить стыд не более благородно, чем любое другое желание чувствовать себя лучше за счёт других. Мораль, которая построена на принципе приписывания ценности другим людям, должна заботиться не только о стыде.
3.4: Что такое «тёплое пушистое ощущение в груди»?
Это попытка охарактеризовать счастливое чувство, которое возникает, когда ты сделал этически правильный поступок. Что-то диаметрально противоположное стыду.
Но, как и стыд, «пушистики» - тоже не слишком хорошая метрика. Как говорит Элиезер, ты можешь получить больше приятных ощущений, волонтёрствуя по вечерам в местном приюте для котят с редкими заболеваниями, чем разрабатывая в это же время вакцину против малярии, но это не значит, что играть с котятами важнее, чем разрабатывать вакцину.
Если ты заботишься только о «тёплом ощущении в груди», то - обрати внимание - ты ценишь собственный комфорт, вовсе не принимая во внимание остальных людей.
3.5: А что такое «трансляция сигналов социуму»?
Трансляция сигналов (она же «сигналинг» или «демонстративное поведение», см. signalling theory в области эволюционной психологии) - понятие из экономики и социобиологии, означающее поступки, которые предпринимают люди не для результата, а чтобы рассказать людям вокруг что-то о себе.
Классический пример демонстративного поведения – богатей, который покупает Феррари не потому, что ему нужно особенно быстро ездить, а потому, что хочет показать всем вокруг насколько он богат. Он может и не осознавать этого, говорить что-нибудь об «аэродинамическом корпусе» или «плавном ходе», но подсознательно главную роль будет играть сигналинг. Предложи ему китайскую машину за $20000 с таким же плавным ходом и аэродинамическим корпусом – он не будет заинтересован и на йоту.
Чем более дорогой и бесполезный предмет используется при трансляции сигнала, тем более сигнал эффективен. Хоть очки бывают очень дорогими, они плохой выбор для демонстрирования достатка, потому что они полезны: люди их покупают не потому, что особенно богаты, а для решения проблем со зрением. С другой стороны, большой бриллиант – великолепный сигнал: никому в хозяйстве не нужны бриллианты, так что люди, которые их покупают, заведомо купаются в деньгах.
Определённые ответы на моральные вопросы также могут служить сигналами. Например, выступающий против презервативов католик демонстрирует другим (и себе!), как он строг в вере, тем самым получая социальные бонусы. Как и в примере с бриллиантом, демонстративное поведение эффективнее всего тогда, когда приводит к совершенно бесполезным поступкам. Скажем, если бы католик просто бы высказал, что решил никогда никого не убивать, это бы было плохим выбором сигнала, хоть и соответствует доктрине католицизма, потому что есть и более веские причины, чтобы никого не убивать – точно так же как есть и более веские причины для покупки очков, чем куча денег на руках. Именно потому что протест против презервативов – ужасное решение с рациональной точки зрения, он отлично подходит в качестве сигнала.
Но в более общем случае люди могут использовать этические решения, чтобы показать, насколько они придерживаются определённых моральных принципов. Это может вести к катастрофическим последствиям. Чем больше жертв и разрушений принесёт решение, чем более туманным законом оно обосновано, тем лучше окружающим будет видно абсолютное следование определённым правилам. Например, Иммануил Кант утверждает, что если маньяк с топором спрашивает, где находится твоя лучшая подруга, с очевидным намерением расчленить её, следует ответить честно, потому что лгать – неправильно. Этот ответ чрезвычайно хорош для того, чтобы показать, какой ты высокоморальный человек – после такого никто не будет сомневаться в твоей честности – но сулит не слишком хороший исход для твоей подруги.
Хотя подобные решения призваны показывать, наскольно этот человек нравственный, ирония состоит в том, что сами по себе эти решения основаны совсем не на нравственных принципах. Подобные сигналы показывают лишь заинтересованность транслирующего их человека в пользе для себя (ореол этичности и следующие за ним социальные плюсы), но отнюдь не для окружающих людей (спасение подруги от убийцы с топором). Этот способ придать ценность окружающим людям никуда не годится.
3.6: Что именно означает «ценить других людей»?
В примере с маньяком с топором «ценить других людей» означает по крайней мере предпочтение видеть их живыми, а не мёртвыми. Но это кажется недостаточным: увечье не убивает, однако «не увечить других людей» звучит вполне как моральный императив. Мы поговорим о технических деталях чуть позже, пока что достаточно думать об этом в терминах счастья людей, их благополучия и, скажем, возможности жить в мире, в котором они хотят жить.
3.7: Ты уверен, что вообще возможно ценить других людей? Может, когда ты думаешь, что их ценишь, ты всего лишь заботишься о радостных ощущениях, которые получаешь, когда помогаешь им, что немного эгоистично, если так подумать.
Даже если эта теория верна, есть большая разница между увеличением собственного счастья путём увеличения счастья остальных людей, и увеличением собственного счастья за счёт счастья остальных.
Человек, который использует избегание стыда или трансляцию сигналов социуму в качестве фундамента моральной системы, рано или поздно свернёт на кривую дорожку и начнёт вредить другим людям ради собственного благополучия. Даже тот, кто помогает другим людям так сильно, как только может, из чисто эгоистичных мотивов, именно что «помогает так сильно, как только может». Он вполне заслужил пометку «альтруист» и все те хвалебные оды, которые идут с ней в комплекте.
3.8: Разве такая мораль не эквивалентна полному самоотречению?
Нет. Приписывание другим людям ненулевой ценности не значит приписывание нулевой ценности себе. Я думаю, что наилучший вариант, когда люди присваивают одинаковую ценность и себе и другим. Это неплохо сочетается с точкой зрения внешнего наблюдателя - для него нет объективной разницы в действии моральных законов на тебя и других людей. Но если ты считаешь, что в тысячу раз важнее остальных, это не изменит основную идею этого ЧаВо, за исключением того, что некоторые числа нужно будет умножить на тысячу.
4.1: Извини, я заснул несколько страниц назад. Напомни, где мы сейчас?
Мораль исходит из наших интуитивных представлений о морали, но если мы не провели их тщательную балансировку, то не можем полностью доверять ни одному из них. Было бы здорово, если бы мы сумели объединить правила в некоторый более общий принцип. С его помощью мы могли бы изящно обходить краевые случаи, на которых наши интуитивные представления расходятся - например, допустимость абортов. Два сильных вспомогательных принципа помогут нам в этом: «нравственность должна укорениться в физическом мире» и «мы должны приписывать другим людям ненулевую ценность».
4.2: Ага, ладненько. Но я снова засну, если ты не выложишь на стол общий моральный закон ВОТ ПРЯМО СЕЙЧАС!
Окей. Моральный закон состоит в том, что нужно предпринимать такие действия, которые сделают мир лучше. Или, сформулирую более чётко: когда у тебя есть возможность выбрать между несколькими возможными действиями, более предпочтительно то, которое приведёт к лучшему состоянию мира, по каким бы критериям ты бы ни определял это самое состояние.
4.21: И всё?! Я прочитал всё это ради чего-то настолько чертовски очевидного?!
Это совсем не так очевидно, как может показаться. Философы называют такую позицию «консеквенциализм», и если её немного переформулировать, большая часть человеческой расы будет непреклонно ей противостоять, иногда с жестокостью.
4.3: Почему?
Рассмотрим знаменитую задачу о вагонетке авторства Филиппы Фут:
«Тяжёлая неуправляемая вагонетка несётся по рельсам. На пути её следования находятся пять человек, привязанные к рельсам сумасшедшим философом. К счастью, вы можете переключить стрелку — и тогда вагонетка поедет по другому, запасному пути. К несчастью, на запасном пути находится один человек, также привязанный к рельсам. Каковы ваши действия?»
Этот вопрос разбивает философов на два непримиримых лагеря. Консеквенциалисты считают, что следует нажать на рычаг на следующих основаниях: переключение стрелки ведёт к состоянию мира, где один человек мёртв: оставление ситуации как есть - к состоянию, где пять людей мертво. Если считать, что живые люди предпочтительнее мёртвых, то первое состояние мира выглядит лучше. Следовательно, нужно перенаправить вагонетку.
Их противники, которых обычно называют деонтологистами, исходят из принципов, что нужно всегда следовать определённым моральным правилам, в частности, «не убивай людей». Деонтологист откажется переключать стрелку, потому что это сделает его явно ответственным за смерть одного человека. Самоустранение же от каких-либо действий, хоть и приведёт к смерти пяти человек, но её невозможно будет явно привязать к действиям деонтологиста.
4.4: Что не так с позицией деонтологистов?
Она нарушает как минимум один из принципов, описанных выше.
Есть только два возможных оправдания для действий деонтологиста. Первое: они могут полагать, что правила наподобие «не убий» - всеобъемлющие, довлеющие над Вселенной законы, которые намного важнее простых эмпирических фактов, вроде того, живы люди или мертвы. Это нарушает принцип «мораль живёт в физическом мире»: наблюдаемая вселенная явно будет лучше, если нажать на рычаг. Не совсем ясно, какую пользу даёт отсутствие действий, кроме записи в призрачном Регистре Благородных Поступков.
Второе возможное оправдание состоит в том, что деонтологист пытается отсутствием поступка минимизировать собственный стыд – в конце концов, они могут просто отойти и притвориться, что не имеют никакого отношения к смерти пятерых, тогда как явное действие, убившее одного человека, останется на их совести. Или их поступок может быть продиктован желанием продемонстрировать, что даже ради спасения пятерых они не готовы поступиться жизнью одного (без сомнения, они бы были даже более счастливы, если бы ради спасения нужно было поступиться ушибленным пальцем – тогда, отказавшись, они бы выглядели ещё более набожными).
4.5: Ладно, твой ответ на задачу о вагонетке звучит разумно.
Правда? Давай усложним её. Это вариация задачи о вагонетке, называемая задачей о толстяке:
«Как и раньше, вагонетка несётся навстречу пяти людям. Ты стоишь на мосту, под которым пройдёт вагонетка, и ты можешь остановить её, сбросив что-нибудь тяжёлое на рельсы. Волей случая рядом с тобой стоит очень толстый человек, и единственный способ остановить вагонетку – столкнуть его на рельсы, убив одного, чтобы спасти пятерых. Следует ли это сделать?»
Консеквенциалисты снова утверждают, что следует принести одного в жертву, деонтологисты – что так поступать не следует.
4.6: Хм, теперь я не уверен, что столкнуть толстяка на рельсы – верное решение
Попытаемся проанализировать, откуда взялось нежелание принимать то же решение, и посмотрим, одобрят источник этого нежелания моральные эвристики, после того, как мы достигнем между ними интроспективного равновесия.
Ты не уверен, потому что не знаешь, лучший ли это выбор? Если так, что конкретно в варианте «не толкать» столь важно, что перевешивает четыре лишние жизни?
Ты не хочешь толкать, потому что будешь испытывать угрызения совести? Если так, разве угрызения совести важнее четырёх жизней?
Ты не уверен, потому что какой-то деонтологист скажет, что по его определению, ты теперь «безнравственный человек»? Но каждый использует определение морали, какое хочет. Я мог бы называть безнравственными всех, кто не носит зелёное по субботам, если бы мне так захотелось. Так что, если кто-нибудь скажет, что ты больше не отвечаешь его этическим стандартам, пусть он валит в ж@#у.
Ты не уверен, потому что какой-то небесный механизм заметит, что предустановленный свыше моральный закон был нарушен таким-то образом таким-то недостойным человеком? Как минимум, у нас нет достаточных оснований полагать, что такой механизм существует (см. принцип «мораль должна укорениться в физическом мире»). Даже если бы основания и были, то самое подходящее, что можно сделать в ответ на приказ небесного механизма допускать человеческие смерти, чтобы тот продолжал тикать определённым образом - послать его в ж@#у вместе с деонтологистом.
Фрэнсис Камм, популярная писатель-деонтологист, утверждает, что сбрасывание толстяка на рельсы, хоть и спасает людей от смерти, «марает» их моральный облик. Она заключает, что «пусть лучше люди будут мертвы и незапятнаны, чем живы и запятнаны».
Если я правильно понимаю, она имеет в виду, что: «Пусть лучше люди умирают, и ты следуешь произвольному правилу, которое я только что придумала, чем большинство людей останется в живых, а правило будет нарушено» Ты в самом деле хочешь принимать этические решения таким образом?
4.7: Я всё ещё не уверен, что толкать толстяка на рельсы – правильное решение.
Есть несколько хороших консеквенциалистских аргументов против этого решения в 7.5.
5.1: Что такое «утилитаризм»?
Окей, первым делом небольшое признание. Консеквенциализм – на самом деле не система морали.
Нет, это ЧаВо не было хитроумным троллингом. Консеквенциализм – что-то вроде системы морали, но лучше будет сказать, что это шаблон для генерирования систем морали. Консеквенциализм утверждает, что нужно делать мир лучше, но оставляет понятие «лучше» неопределённым. Переопределяя «лучше» разными способами, можно получить сколько угодно консеквенциализмов, некоторые из которых совершенно идиотские.
Возьмём постулат, что мир А лучше чем мир Б, если и только если мир А содержит большее количество офисных скрепок. Это вполне консеквенциалистская система морали (она нарушает принцип присваивания ценности человеческим жизням, но мы всё равно не ожидали, что это будет хорошая система). Гипотетический разрешитель моральных дилемм легко бы мог ей пользоваться: предпринимать курс действий, который ведёт мир к состоянию с большим количеством скрепок.
Очевидно, нам нужно определение понятия «хороший мир», которое лучше согласуется с нашей интуицией.
Первая сильная попытка была предпринята Иеремиией Бентамом, который предложил считать состояние мира А лучше состояния Б, если в нём большая сумма радости и меньшая сумма страданий по всем людям. Это имеет смысл. Вещи вроде смерти, бедности или боли – всё то, что мы хотим избежать с помощью нашей системы морали, можно классифицировать как причинение страданий или блокирование доступа к удовольствиям. «Утилитаризм» описывает системы морали, выведенные из вышеописанной идеи, а «польза» описывает меру, насколько хорошо каждое конкретное состояние мира.
5.2: Есть ли изъяны в концепции утилитаризма Иеремии Бентама?
Она побуждает к некоторым странным вещам. Например, исходя из её принципов, затаскивание людей в опиумные притоны против их воли и поддерживание их в наркотической эйфории – великолепная идея, а отстранение от этого – как раз безнравственно. В конце концов, такой подход увеличивает всеобщее удовольствие очень эффективно.
Аналогично, любое общество, которое бы истинно веровало в Бентамизм, в конце концов разработало бы супернаркотик и проводило всё время под ним, тогда как роботы занимались бы необходимым минимумом работы: кормлением людей и введением инъекций. Кажется, это довольно бесславный конец для человеческой расы. Даже если кто-то бы счёл его вполне допустимым, наверное было бы неправильно принуждать каждого к такому повороту событий без явного их согласия.
5.3: Утилитаризм может предложить что-то получше?
Да. Утилитаризм предпочтений (preference utilitarianism) предполагает, что следует не максимизировать удовольствие как таковое, а увеличивать счастье, определённое в терминах предпочтений каждого конкретного человека. В большинстве случаев, они будут общими: никому не нравится, когда их мучают. В некоторых случаях – отличаться: кто-то бы, может, и согласился на заточение в опиумном притоне, но я точно откажусь.
Утилитаризм предпочтений хорошо согласуется с идеей, что люди хотят не только грубых животных удовольствий. Если какому-то монаху хотелось бы лишить себя всех мирских удовольствий и молиться богу всю жизнь, то относительно этого монаха лучшим миром будет тот, где у него есть все возможности молиться, как он того захочет.
Человек или целое общество, следующее принципу утилитаризма предпочтений, будет пытаться удовлетворить желания максимального количества людей так полно, как это возможно; отсюда и формулировка: «самое большое добро там, где наибольшее число».
Это звучит сложно в теории, так как непросто измерить силу различных предпочтений. На практике, однако, экономисты придумали множество трюков для более-менее точного измерения массовых предпочтений. Обычно этого - и толики здравого смысла - достаточно, чтобы решить, какой выбор удовлетворит больше желаний.
5.31: Может ли утилитаризм показывать ещё лучшие результаты?
Нуууу… наверное. Есть несколько разных форм утилитаризма, которые пытаются быть ещё более правыми.
Когерентный экстраполяционно-изъявительный утилитаризм (coherent extrapolated volition utilitarianism) особенно интересен. Он постулирует, что вместо использования текущих предпочтений людей следует использовать их идеальные предпочтения – такие предпочтения, которые бы они имели, если бы были умнее и сами достигли равновесия между своими низкоуровневыми убеждениями. В этом случае следовало бы принимать в расчет не предпочтения каждого человека в отдельности, а обобщить их в идеальный набор универсальных убеждений. Это была бы оптимальная система морали, но философские и вычислительные преграды у неё на пути колоссальны.
5.4: Ой, нет! Как же мне узнать, какой из сложных систем мне следовать?
В большинстве практических случаев между ними нет особой разницы. Так как люди обычно желают то же самое, что предпочитают, а предпочитают быть счастливыми, все часто используемые виды утилитаризма дают одинаковые результаты в большинстве обычных ситуаций. Разумеется, можно придумать всякие запредельные мысленные эксперименты с изменяющими сознание наркотиками или бесконечным количеством мучений. О них весело рассуждать, и есть несколько сложных задач, где та или иная система даёт сбой, но любая из них превосходит обычный человеческий набор несбалансированных эвристик и неловкого демонстративного поведения. Даже просто вера в консеквенциализм, без какой-либо конкретной утилитаристской системы в основании, может принести заметную пользу.
Или, проще: не нужно знать всю теорию баллистики, чтобы не выстрелить себе в ногу.
Впоследствии я собираюсь использовать «пользу» взаимозаменяемо со «счастьем» ради удобства чтения, хоть это и может вызвать мандраж у пуристов утилитаризма предпочтений.
5.5: Я думал, утилитаризм – это когда все живут в уродливых бетонных коробкоподобных домах.
«Утилитаристская архитектура» подходит под это описание. Насколько мне известно, она не имеет ничего общего с утилитаристской этикой за исключением названия. Настоящие утилитаристы не будут строить уродливых бетонных домов-блоков, пока не станет ясно, что именно такие дома сделают мир лучше.
5.6: Разве утилитаристы не противники музыки, искусства, природы и, наверное, любви?
Нет. Некоторые люди, по всей видимости, так считают, но это не имеет смысла. Если мир с музыкой, искусством, природой и любовью лучше, чем без них (а все, похоже, согласны, что лучше), и если они делают людей счастливее (и все, видимо, согласны, что делают), то утилитаристы будут поддерживать всё это.
Более точный разбор подобных обвинений см. в секции 7.8 ниже.
5.7: Резюме по главе?
Мораль должна делать мир лучше. Есть много определений для «делать мир лучше», но принять следует то, которое не приносит неприятных побочных эффектов. Это приводит нас к утилитаризму, системе морали, которая пытается удовлетворить человеческие желания настолько, насколько это возможно.
6.1: Что насчёт обычных правил морали вроде «не лги» и «не воруй»?
Консеквенциалисты немало уважают эти правила. Но вместо рассматривания их как базового уровня морали, мы считаем, что это эвристики («эвристика» - это удобное «правило буравчика», которое обычно, хоть и не всегда, приводит к верному решению).
Например, «не воруй» - хорошая эвристика, потому что когда я что-то краду, я отрицаю твоё право использовать этот предмет, уменьшая твой вклад во всеобщее счастье. Если разрешить воровать, ни у кого больше не будет мотива трудиться честно, экономика коллапсирует, и опуститься до грабежей придётся всем. Это не слишком приятный мир, люди в нём в среднем менее счастливы, чем в нашем. Воровство обычно уменьшает общее количество пользы или счастья, поэтому уместно сжать всё это в удобную форму, а именно в правило «не воруй».
6.2: Но что ты имеешь в виду, когда говоришь, что эти эвристики не всегда дают верный результат?
В примере с маньяком-убийцей из 3.5 мы уже увидели, что эвристика «не лги» работает не всегда. То же самое справедливо и для «не воруй».
В романе «Отверженные» семья Жана Вальжана не может выбраться из-за черты крайней бедности Франции XIX века; его племянник медленно умирает от голода. Вальжан крадёт буханку хлеба у человека, у которого денег в избытке, чтобы спасти жизнь племянника. Хоть не все из нас простили бы Жану этот поступок, он выглядит гораздо более оправданным, чем, скажем, кража PlayStation просто потому что кому-то очень захотелось в неё поиграть.
Вывод из этого всего заключается в том, что хоть ложь и воровство обычно делают мир хуже и причиняют людям вред, но в некоторых редких случаях они могут приносить пользу, и тогда они допустимы.
6.3: Так что же, нормально лгать, воровать или убивать всегда, когда ты думаешь, что ложь, воровство или убийство сделают мир лучше?
Не совсем. Когда у тебя есть жёсткое правило «никогда не убивать», что бы ни случилось, ты абсолютно точно знаешь, как ему следовать.
Есть хорошая причина, почему бог (предполагаемо) дал Моисею скрижаль с «не воруй», а не «не воруй, если только у тебя нет очень хорошей причины». У людей на редкость разные понятия об «очень хороших причинах». Некоторые люди смогли бы украсть, только чтобы спасть жизнь племяннику. Некоторые – чтобы защитить друга от маньяка с топором. А некоторые – чтобы поиграть в PlayStation и придумать какое-нибудь оправдание позже.
Мы, люди, очень хороши в оправдывании собственной особенности – умении думать, что МОЯ ситуация ПОЛНОСТЬЮ ОТЛИЧАЕТСЯ от всех остальных ситуаций, в которые могли бы попасть люди. Нам замечательно удаётся изобретать оправдания постфактум, почему наши поступки были наилучшим выбором. Мы прекрасно знаем, что если бы мы позволили воровать только при наличии хорошей причины, обязательно нашёлся бы какой-нибудь идиот, который бы этим злоупотребил, и все бы понесли потери. Так что мы возводим эвристику «не воруй» в ранг закона и считаем, что это славный выбор.
Тем не менее, у нас есть процедуры для временного приостанавливания законов. После того как общество проходит через эти процедуры решения вопросов, обычно в форме голосования демократически избранных представителей, государству позволяется украсть немного денег у всех в форме налогов. Так современные страны разрешают дилемму Жана Вальжана, не выдавая лицензии случайным людям воровать игровые приставки: все согласны, что здоровье племянника Жана важнее, чем лишняя буханка хлеба у богача. С помощью налогов государство перераспределяет доходы состоятельных людей в пользу бедных. Наличие подобных процедур – не менее славный выбор.
6.4: Так всё-таки, нормально ли нарушать законы?
Я думаю, что гражданское неповиновение – взвешенное нарушение законов в соответствии с собственными воззрениями о пользе – допустимо, когда ты совершенно и исключительно уверен, что твои действия повысят всеобщее счастье, а не понизят.
Чтобы быть настолько уверенным, нужно иметь очень хорошие свидетельства; также неплохо бы ограничить неповиновение теми случаями, где ты не являешься прямым получателем выгоды от нарушения закона, чтобы у твоего мозга не было соблазна придумывать подложные моральные аргументы в пользу нарушения законов всегда, когда замешан личный интерес.
Я согласен с общим мнением, что люди вроде Мартина Лютера Кинга младшего и Махатмы Ганди, которые использовали гражданское неповиновение по веской причине, были правы. Они были достаточно уверены в своей цели, чтобы нарушить моральные эвристики во имя высшего блага, и преуспели. Тем самым, их можно считать хорошими утилитаристами.
6.5: Что насчёт прав человека? Тоже эвристики?
Да, и политические дискуссии имели бы гораздо больше смысла, если бы люди понимали это.
Законотворцы расходятся во мнениях, какие права у людей есть, а каких – нет, и эти расхождения олицетворяют их политическую позицию, только в более запутанном и сложноразрешимом виде. Предположим, я говорю, что люди должны получать бесплатную, спонсируемую государством, медицинскую помощь, а ты – что нет. Это весьма проблемное расхождение, но, по крайней мере, мы можем рационально поговорить, и даже, возможно, изменить мнение. Но если я стукну кулаком о стол: «Государство должно предоставлять бесплатную медицинскую помощь, потому что у людей есть всеобщее право на медицинскую помощь», - то вряд ли тебе останется много чего сказать, кроме: «А вот и нет!» Интересный и потенциально разрешимый вопрос «Должно ли государство иметь бесплатное здравоохранение?» превратился в чисто метафизический - «Имеют ли люди право на бесплатную помощь?» Даже теоретически невозможно представить доказательства в пользу той или иной точки зрения.
Ситуация усложнится ещё больше, если ты ответишь: «Ты не можешь поднять налоги, чтобы предоставлять бесплатное здравоохранение, потому что у меня есть право на мою собственность!»
Во всех политических конфликтах спорящие партии находят (или придумывают) причины, почему на кону стоят их «естественные права». Арбитр в подобной ситуации волен принять любое решение. Никто не сможет доказать, что он ошибся, потому что вообще «право» - неизлечимо нечёткое понятие, которое было создано, чтобы люди могли говорить не «Мне не нравится эвтаназия, но, кажется, у меня нет особых оправданий», а «Мне не нравится эвтаназия, потому что она нарушает права человека на жизнь и собственное достоинство» (Я на самом деле слышал этот аргумент слово в слово не так давно).
Консеквенциализм использует права не как способ уклониться от честной дискуссии, а как её результат. Предположим, мы спорим о том, сделает ли бесплатное здравоохранение нашу страну лучшим местом, и решаем, что сделает. Предположим также, что мы столь уверены в этом решении, что хотим высечь в камне философский принцип, что все люди однозначно должны иметь доступ к лекарствам и у любого правительства, пришедшего нам на смену, не должно быть возможности это изменить, каким бы удобным ни казалось это решение в каждый конкретный момент. В этом случае мы говорим: «Существует всеобщее право на медицинскую помощь» - т.е. устанавливаем общедоступную эвристику.
Наш современный набор прав – свобода слова, свобода вероисповедания, право на собственность и все прочие – это эвристики, сформировавшиеся и доказавшие свою эффективность за многие годы. Свобода слова – прекрасный пример. Для государственного аппарата очень заманчиво попросту заткнуть неприятных людей вроде расистов, неонацистов, культистов и иже с ними. Но люди поняли, что власть имущие не очень разборчивы в том, кого действительно следует заставить молчать, и если дать им такую силу, они запросто будут использовать её во зло. Так что вместо этого мы укрепляем эвристику «не отказывай никому в праве высказывать собственное мнение».
Разумеется, это всё ещё эвристика, а не вселенский закон, поэтому мы вполне можем запретить людям говорить вообще что угодно в ситуациях, когда мы уверены, что это понизит всеобщую пользу; например, кричать «Огонь!» без причины в переполненном театре.
6.51: Получается, консеквенциализм обладает большим приоритетом, чем права?
Да, он находится как раз на том уровне, который позволяет разрешать конфликты прав и устанавливать, какие права вообще применять.
Например, мы поддерживаем право на свободу передвижения: люди (за исключением преступников) должны иметь возможность передвигаться по миру. Но мы также поддерживаем право родителей заботиться о своих детях. Если пятилетний ребёнок решит, что хочет отправиться жить в лес, должны ли мы позволить его родителям отказать ему?
Да. Хотя в этом случае конфликтуют два права, как только мы поднимемся на уровень выше, мы поймём, что свобода передвижения существует, чтобы позволять взрослым ответственным людям жить в местах, в которых они чувствуют себя счастливее. Очевидно, что ребёнку это право пользы не принесёт: если он убежит в лес, это может привести к неприятностям - скорее всего, его просто-напросто съедят медведи. У нас нет причин пользоваться этой эвристикой в данном конкретном случае.
Усложним ситуацию. Пятилетний ребёнок хочет убежать из дома, потому что родители его избивают. Допустимо ли в этом случае отправить малыша в детский дом (ведь каждый ребёнок имеет право на достоинство и свободу от страха)?
Да. Хотя мы снова оказались в ситуации с двумя конфликтующими правами, причём «право на достоинство и свободу от страха» я как бы только что выдумал, но для ребёнка важнее находиться в безопасности и быть здоровым, чем для родителей – использовать право «заботиться» о нём. Впрочем, это право – тоже эвристика, указывающая, что детям обычно лучше находиться с родными мамой и папой. Так как это наблюдение здесь, очевидно, не работает, мы без сомнений можем отправить ребёнка к приёмным родителям.
Подходящая процедура в подобных случаях – подняться на уровень выше и рассмотреть ситуацию с позиций консеквенциализма, а не кричать громче и громче, что какие-то права были нарушены.
6.6: Итог?
Правила, которые в целом хорошо поддерживают всеобщее счастье, называются моральными эвристиками. Обычно гораздо лучше следовать им, чем подсчитывать прирост пользы в каждом конкретном случае - в подобных подсчётах легко ошибиться из-за пристрастных суждений или недостатка информации. При формировании законов можно брать за основу нравственные эвристики, это позволяет им быть более самосогласующимися и лёгкими для исполнения. Моральные правила более высокого уровня, которые ограничивают государства, называются правами человека. Хотя следование моральным эвристикам – хороший путь, но в определённых случаях, когда ты на сто процентов уверен в результате – например, при общении с убийцей с топором или человеком, который хочет крикнуть «Огонь!», когда никакого огня нет - их можно нарушать.
7.1 Не приведет ли консеквенциализм к [очевидным ужасным последствиям]?
Скорее всего, нет. В конце концов, цель консеквенциализма - сделать мир лучше. Если последствия очевидно ужасны, консеквенциалисты не захотят их, разве нет?
Не так очевидно, почему какая-то специализированная формулировка утилитаризма не приведет к ужасным последствиям. Как бы то ни было, если утилитаризм действительно отражает уравновешенность наших интуитивных представлений и морали, он вряд ли способен привести к чему-то ужасному. Поэтому остаток этой главы будет посвящён тому, почему утилитаризм не приведёт к некоторым конкретным ужасным последствиям.
7.2 Не приведет ли утилитаризм к порабощению 51% процентом популяции оставшихся 49% процентов?
Аргумент таков: 51% популяции больше 49%, следовательно если мы осчастливим первых за счёт последних, такому состоянию будет приписано больше полезности. Поэтому, исходя из утилитаристских соображений следует ввести рабство.
Это фундаментальное непонимание утилитаризма. Он не говорит «делай что угодно, чтобы большинство людей было счастливее», он говорит «делай что угодно, чтобы люди в целом были счастливее».
Предположим, что вместе собрались десять человек - девять сытых американцев и один голодный африканец. У каждого есть по конфете. Сытый американец получит +1 единицу пользы от съедания конфеты, а голодающий африканец - +10 единиц пользы. Лучшее действие для увеличения пользы в целом - отдать все 10 конфет голодному африканцу, чтобы получить общий прирост в 100 единиц.
Человек, который не понимает утилитаризм, может сказать: «Почему американцы не договорятся между собой забрать конфету у африканца и разделить ее между собой? Если их девять, а африканец один, то получится польза для большего количества людей». На самом деле это создаст только +10 единиц пользы - намного меньше, чем в первом варианте.
Человек, который думает, что рабство повысит общее количество счастья, допускает ту же ошибку. Конечно, иметь раба будет довольно удобно для хозяина, но быть порабощенным будет чрезвычайно неприятно для раба. Даже, если большинство людей испытают небольшой прирост счастья, для людей в целом рабство обернётся потерями.
(Если вы всё ещё не видите, почему это так, представьте, что я предложил бы вам выбрать, жить ли в нашем мире или в гипотетическом, где 51% людей - хозяева, а 49% - рабы, с оговоркой, что вас распределят в ту или иную группу случайным образом. Захотели бы вы попасть во второй мир? Если нет, вы неявно согласны, что это не «лучший» мир).
7.3: Не приведет ли утилитаризм к боям гладиаторов, в которых некоторых людей принуждают бороться насмерть для развлечения масс?
Попробуете тот же тест, как предыдущий. Если бы я предложил вам выбор - жить в мире с кровавыми спортивными боями или в нашем мире, какой мир вы бы выбрали?
Существует множество причин, чтобы не выбирать мир гладиаторов. Когда гладиаторов выбирают случайным образом, всегда есть риск невольно оказаться в рядах гладиаторов и умереть. Вам придется жить в страхе перед подобным исходом, что печально, неприятно и, скорее всего, отнимет у вас удовольствие от игр. Кстати, об удовольствии - неужели гладиаторские бои настолько приятны? Есть основания считать, что они нравятся людям в целом? Даже если так, неужели сумма желаний тех, кто поддерживают игры, больше, чем сумма желаний всех тех возможных гладиаторов, что предпочли бы в играх не участвовать?
Да и действительно ли людей пришлось бы принуждать становиться гладиаторами, когда в нашем мире люди добровольно присоединяются к таким занятиям, как футбол, регби и бокс?
Похоже на то, что тысячи людей добровольно стали бы гладиаторами, если бы была такая возможность, и причина, почему в нашем обществе в настоящее время не продолжаются бои гладиаторов, отнюдь не отсутствие гладиаторов, а то, что их существование оскорбляет наше здравомыслие и существующие моральные нормы. Утилитаризм может принять в расчет это расстройство и возмущение так же или лучше, как и любая существующая моральная система, поэтому мы можем ожидать, что гладиаторские бои по-прежнему будут запрещены.
Я знаю, это странный вопрос, но некоторые люди по каким-то причинам продолжают использовать этот дежурный аргумент против утилитаризма.
7.4: Не приведет ли утилитаризм к тому, что мнения расистов будут уважаться достаточно сильно, чтобы обеспечить дискриминацию меньшинств (при условии, что будет достаточно большое количество расистов и малое количество людей, принадлежащих к меньшинствам)?
Во-первых, расисты и меньшинства - не две единственные группы в обществе. К счастью, есть также большие группы людей, имеющие достаточно крепкие взгляды против расизма, и они могут пересилить взгляды расистов.
Во-вторых, маловероятно, что у расистов предпочтения в пользу дискриминации меньшинств сильнее, чем предпочтения меньшинств не подвергаться дискриминации.
В-третьих, предпочтения расистов к проявлению дискриминации может не являться целью само по себе, а способом достижения другой цели. Например, расисты могут считать, что меньшинства состоят сплошь из уголовников, и хотят избежать криминала. Таким образом, на самом деле у них предпочтения не против меньшинств, а против преступников. Следует уважать желание снизить уровень преступности, но устранить возможную дезинформацию.
Если какая-то форма расизма пересиливает все вышеперечисленные рассуждения, но наша этическая интуиция всё равно против неё восстаёт, возможно, тут поможет более сильная формулировка утилитаризма. Например, используя когерентный эктраполяционный изъявительный утилитаризм, мы можем представить, какие предпочтения имели бы расисты, если бы достигли внутреннего философского баланса. Вероятно, в этом случае они перестали бы быть расистами.
7.5: Не приведет ли утилитаризм к тому, что здоровых людей будут убивать, чтобы отдавать их органы больным, которым требуются трансплантаты, ведь у каждого человека есть куча органов, которыми можно спасти несколько жизней?
Начнем с неудовлетворительных скользких ответов на это возражение, которые тем не менее важны. Первый уклончивый ответ состоит в том, что органы большинства людей несовместимы, и большинство трансплантатов не приживаются хорошо. Из-за этого, мол, вычисления будут не столь очевидны, как «у меня есть две почки и, убив меня, можно спасти двух человек, кому нужны трансплантаты почек». Второй хитрый ответ в том, что в правильно устроенном утилитаристском обществе проблема нехватки органов будет решена раньше, чем потребуются такие меры (см 8.3).
Эти ответы, хоть формально и верны, никак не решают философский вопрос о том, когда вы можете волей-неволей допустить убийство одних людей для спасения жизни других. Я думаю, что важно принять во внимание мысли об эвристиках, упомянутое в пункте 6.3 выше: иметь жёсткий закон против убийства людей - полезно. Более сложный закон, который будет более гибким, может намного более потерять в чёткости, что приведет к тому, что безнравственные люди или безнравственное правительство сможет злоупотреблять им и вообще рассматривать убийство как возможность (смотрите статью Дэвида Фридмэна о точках Шиллинга).
Это и есть самый сильный аргумент, который можно предложить против убийства толстяка в пункте 4.5, но заметьте, что этот аргумент по-прежнему консеквенциалистский, и предмет дискуссии и принятия или отказа от него на консеквенциалистском поле боя.
7.6: Не предполагает ли утилитаризм, что если появится монстр или пришелец или вообще кто-то, чьи чувства и предпочтения в неисчислимое количество раз сильнее, чем наши, то его моральная ценность будет такой высокой, что оценка причинения ему небольшого неудобства будет столь же высока, как оценка дальнейшей судьбы всего человечества?
Может быть.
Представьте, два философа-муравья спорят о том же вопросе. Они говорят: «А что, если будет существовать создание со столь высоким интеллектом, самоосознанием и эмоциями, что с моральной точки зрения будет лучше уничтожить целую муравьиную колонию, чем допустить, что это существо подвернёт лодыжку?»
Но я думаю, что люди - как раз такие создания! Я предпочту, чтобы целая муравьиная колония была разрушена, чем человек получил страдание в размере подвернутой лодыжки. И это не просто людской шовинизм, - я думаю, что мог бы обосновать, почему люди имеют гораздо более сильные чувства, предпочтения и жизненный опыт, чем муравьи (по всей видимости).
Я не могу представить себе создание, настолько же развитое по сравнению с нами, как мы развиты по сравнению с муравьями. Но если такие создания существуют, я не исключаю, что, если смогу их представить, то соглашусь, что их предпочтения гораздо более важны, чем предпочтения людей.
7.7: Получается, утилитаризм требует от нас уважать все идиотские человеческие предпочтения? Например, если какую-то группу мусульман оскорбляют изображения пророка Мухаммеда, то люди должны прекратить их рисовать?
Я задал этот вопрос на Less Wrong и получил разнообразные интересные ответы. Первым и самым главным ответом было: «Да, если определённые действия приводят к причинению группе вреда, физического или психологического, и при этом не приносят никакой пользы другой группе, то следует прекратить такие действия».
Впрочем, нельзя исключать, что «обида» на самом деле - не оскорбление в лучших чувствах, а требование уважения к группе. Если мусульманин злится, услышав о карикатуре про Мухаммеда, не факт, что он испытывает «психологический удар» или «противоречие предпочтениям» - он может просто показывать, насколько он любит ислам.
Другие ответы были связаны с теорией игр. Иногда человеку может быть выгодно прикинуться этаким философским монстром, которого оскорбляет всё на свете, чтобы сковать действия других людей. Возможно, другим людям имеет смысл заранее зафиксировать намерение не принимать во внимание подобное поведение.
Наконец, был аргумент к последствиям («скользкий путь», slippery slope). Отказ от рисования Мухаммеда сам по себе, возможно, не принесет никакого эффекта кроме того, что осчастливит несколько мусульман. Однако это может создать прецедент и придётся всегда отступать, если какие-то вещи были восприняты кем-то как оскорбительные. В будущем из-за этого прецедента, возможно, придется отказываться от в самом деле полезных действий.
7.8: Возвратимся к пункту 5.6, где был вопрос, противопоставлен ли утилитаризм искусству, музыке и природе. Ты сказал, что он не противостоит им напрямую. Это имеет смысл. Но вдруг окажется, что искусство и природа не слишком эффективны в подъёме всеобщего счастья? Тогда придётся принести их в жертву, чтобы мы могли перераспределить ресурсы и накормить голодных, или что-то в этом роде.
Если ты абсолютный утилитарист, то да. Если ты веришь, что накормить голодных важнее, чем играть симфонии, то тебе следует перестать тратить силы и деньги на симфонии, чтобы накопить деньги на помощь голодным. Но это твое личное убеждение; Иеремия Бентам не стоит у тебя за спиной, держа у затылка пистолет, вынуждая к этому. Если ты считаешь, что кормить голодных важнее, чем слушать симфонии, почему ты изначально слушал симфонии, а не кормил голодных?
Повторюсь, утилитаризм ничего не имеет против симфоний. В самом деле, симфонии наверняка приносят счастье массе людей, делая мир лучше. Мнение, что «утилитарист жертвует искусством и развлечениями» - всего лишь страшилка. Чтобы накормить голодных, найдутся тысячи вещей, которыми можно было бы пожертвовать, прежде чем дело дойдёт до симфоний. Деньги, потраченные на плазменные телевизоры, алкоголь и стелс-бомбардировщики - как раз в этой куче.
Я думаю, что если мы когда-нибудь придем к миру достаточно утилитарному, чтобы волноваться об утраченных симфониях, мы уже окажемся в мире достаточно утилитарном, чтобы волноваться о них не было повода. Под этим я имею в виду, что если бы все правительства и люди в частности стали бы утилитаристами, желающими решить проблему голода в мире, то они решили бы её (и всякие другие проблемы) гораздо раньше, чем пришлось бы задуматься, не стоит ли принести в жертву ещё и симфонии.
Эффективная благотворительность - это отдельная и богатая тема для обсуждения. Сейчас же достаточно помнить, что, если вы делаете все верно, то каждый ваш шаг в сторону консеквенциализма, должен приближать вас к достижению ваших собственных моральных целей и к лучшему миру, каким вы себе его представляете.
7.9: Утилитаризм как-то уж слишком похож на «цель оправдывает средства».
Цель оправдывает средства. Это очевидно, даже если задуматься всего на пару секунд; и факт, что фраза стала ассоциироваться со злом - скорее историческая странность, чем философская истина.
В Голливуде принято, чтобы перед включением супер-лазера или чего-то, столь же ужасного, злодей изрекал эту фразу, поглаживая своего персидского кота. Но цель, ради которой злодеи убивали миллионы людей - захватить Землю в железную хватку диктатуры. Это ужасная цель, ведущая к ужасному концу, поэтому, конечно, такие средства и такой конец не оправданы решительно ничем.
В следующий раз, когда услышите эту фразу, думайте не о злодее, активирующем супер-лазер, а о докторе, ставящему вакцину ребенку. Да, он причиняет боль ребенку, заставляя его плакать, что грустно. Но он также предотвращает возможность, что ребёнок заболеет ужасной болезнью, поэтому цель оправдывает средства. Если бы это было не так - мы бы никогда не делали прививок.
Если у вас есть действительно важная цель и только слегка неприятный способ ее достижения, тогда результат оправдывает средства. Если у вас ужасный способ достижения цели, который не ведет к чему-то хорошему, а только делает злодея из бондианы диктатором на земле, тогда у вас проблемы - но это едва ли вина принципа «цель оправдывает средства».
7.10: Кажется, быть хорошим человеком и вовсе невозможно! Получается, мне не только нужно избегать действий, причиняющих другим вред, но и делать все, что в моих силах, чтобы им помогать. Выходит, я не достаточно порядочный, пока не жертвую 100% своих денег (ну, кроме суммы прожиточного минимума) на благотворительность?
Утилитаризм не присваивает людям метки «нравственный» и «безнравственный». Утилитаризм может лишь сказать, что одни действия более этичны, чем другие. Распространить эти определения на людей, говоря что тот, чьи действия приносят больше пользы, тот и более нравственный - очевидная идея, но это неформальное применение утилитаристской теории.
Можно было бы сказать, что самые высокоморальные люди жертвуют 100% своих денег на благотворительность, но это как бы и так давно известно. Например, Иисус выразил то же самое две тысячи лет назад (Евангелие от Матвея 19:21 - «Иисус сказал ему: если хочешь быть совершенным, пойди, продай имение твое и раздай нищим; и будешь иметь сокровище на небесах; и приходи и следуй за Мною»).
Большинство людей не хотят быть совершенными и не собираются продавать всё своё имущество, чтобы помогать бедным. Тебе придётся жить с осознанием, что ты не вполне идеален. Впрочем, не волнуйся - Иеремия Бентам не заберётся ночью к тебе в окно, чтобы пристрелить или чего похуже. К тому же, раз никто не идеален, нас тут большая компания.
При всём при этом, есть люди, которые воспринимают идею жертвования всего на благотворительность серьёзно, и это довольно внушительные люди.
8.1: Если я пообещаю держаться подальше от вагонеток, будет ли иметь значение, какой моральной системы я буду придерживаться?
Да.
Современная мораль, по большей части - это наспех слепленная кучка попыток казаться хорошим в глазах других людей. Насколько при этом хреначится окружающий мир - никого особо не волнует. Как результат, мир сейчас выглядит довольно-таки хреново. Применение консеквенциалистской этики к политике и повседневной жизни - первый шаг к собиранию его воедино.
В мире больше чем достаточно ресурсов, чтобы обеспечить всех, включая людей в странах третьего мира, едой, лекарствами и образованием - не говоря уже о том, чтобы сохранить окружающую среду, предотвратить войны и избежать других существенных рисков. Основное препятствие у нас на пути - не недостаток денег или технологии, а недостаток воли.
Многие люди ошибочно принимают этот недостаток воли за какой-то всемирный заговор неизвестных злодеев, доящих мир ради собственной выгоды, или за неизлечимое зло или эгоизм «человеческой природы». Но нет никакого заговора, и люди могут быть невероятно сострадательными, если есть возможность помочь ближнему.
У проблемы два истока. Первый: люди тратят душевные силы на глупости вроде препятствования попыткам помочь бедным странам сдержать ничем не контролируемый рост населения или ломают копья, обсуждая дурацкие реплики некомпетентных политиков. Второй: моральные системы людей настолько туманны и гибки, что позволяют с лёгкостью придумывать массу высокоморальных оправданий, заглушая голос совести, лишь бы не заниматься неудобными или трудоёмкими делами.
Чтобы решить многие проблемы нашего мира, достаточно принять моральную систему, которая перенаправит моральные импульсы туда, где они принесут больше всего пользы. Имя этой системе – консеквенциализм.
8.2: Как утилитаризм может улучшить политические дебаты?
В идеальном мире утилитаризм свёл бы политику к математике, отбросив пустое морализаторство и личные мотивы, чтобы определить, какие именно законы наиболее удовлетворят наибольшее количество людей.
Конечно, в реальном мире это намного сложнее, чем звучит, ведь на наши суждения всё ещё влияют предубеждения, непредсказуемость и вялотекущие философские споры. Как бы то ни было, существуют инструменты, с помощью которых мы можем учесть все эти факторы. Можно упомянуть, в частности, рынки предсказаний, способные давать достаточно объективный прогноз вероятности того или иного события.
Консеквенциализм сам по себе не панацея и даже к разумно выглядящим обоснованиям следует также относиться с известной осторожностью. Например, мы знаем, что у централизованной плановой экономики есть неприятные побочные эффекты и, если кто-то приводит на удивление убедительный аргумент в пользу перехода к коммунизму, мы всё равно должны отнестись к нему скептично. Несмотря на это, увеличение навыков консеквенциалистского принятия политических решений скорее помогает нам в вынесении оценок, а не сковывает.
Для примеров интересных утилитаристских рассуждений, взгляните на это эссе об иммиграции или на моё эссе о здравоохранении.
8.3: Ты говоришь очень громкие слова. Не мог бы ты рассказать поточнее, как именно рассуждение с консеквенциалистской точки зрения может спасти тысячи жизней без каких-либо заметных минусов?
Окей. Как насчёт презумпции согласия на донорство органов после смерти?
В Америке сейчас действует презумпция несогласия на пересадку органов. Это означает, что нужно заполнить особые документы и носить с собой специальную карточку, чтобы врачи имели право воспользоваться органами после смерти. Многие согласны на посмертное использование их органов для трансплантации, но почти никто при этом не озаботился заполнить бланки донора.
В то же время примерно тысяча человек умирает каждый год, потому что им не досталось органов. Ещё большее число людей долгие годы страдает от проблем со здоровьем, пока не найдётся нужный трансплантат.
В некоторых странах - например, в Испании - разумную идею презумпции согласия возвели в ранг закона. Там, в отличие от США, не требуется разрешения человека на использование его органов после смерти. При желании человек может запретить использовать свои органы, заполнив соответствующие бумаги.
В Америке этот закон был отвергнут из соображений, что кто-то может случайно забыть заполнить эти документы, после чего умереть, и его органы будут использованы, чтобы спасти чью-то жизнь, хоть он и не давал на это согласия.
Так что на одной чаше весов мы имеем жизнь тысячи людей в год, плюс страдания многих других. На другой – опасение (до сих пор чисто умозрительное), что кто-то может достаточно сильно страдать от использования своих органов без его согласия, хотя он и не удосужился при жизни выразить своё отношение к этому, заполнив необходимые бумаги. Безусловно, такие люди сильно огорчились бы, что их органы используются без их согласия. Увы, они не могут расстроиться по этому поводу - уж слишком заняты лежанием в гробу.
Помните, в 3.5 я говорил, что чем глупее выбор, тем легче с его помощью послать сигнал социуму? Противостояние презумпции согласия на пересадку органов после смерти – чертовски хорошая возможность для демонстративного поведения. Неудивительно, что против презумпции согласия больше всего возражают профессиональные «специалисты по этике». Ведя себя так, они показывают всем, насколько они высокоморальны. Они настолько этичны, что отказываются спасти тысячу жизней, лишь бы уважить гипотетические предпочтения тех мертвецов, кто при жизни не были согласны на донорство, но никак это своё отношение не оформили. Право же, это великолепно!
Что же, если ты прочитал эти ЧаВо, надеюсь, ты воскликнешь: «Что за?!» - и тем самым покажешь себя лучше, чем сообщество академических этиков, государство и избиратели.
Простой здравый смысл, позволяющий спасать тысячу жизней в год, был отброшен без размышлений, потому что люди - меньшие консеквенциалисты, чем могли бы. А ведь это всего лишь один из низковисящих фруктов, доступных более здравомыслящей системе морали.
8.4: Я заинтересовался в утилитаризме. Где я могу узнать больше?
Less Wrong – великолепное сообщество, изобилующее очень умными людьми; там часто дискутируют на тему утилитаризма. Felicifia – сообщество, напрямую связанное с утилитаризмом, хотя я в нём не состою и потому не могу поручиться. Giving What We Can – утилитаристско-ориентированная группа с чуть ли не воинствующим подходом к максимально эффективному жертвованию на благотворительность.
Reasons and Persons Дерека Парфита и Good and Real Гэри Дрешера – две отличные книги о морали, которые консеквенциалисты могут найти интересными.
Теория игр и теория принятия решений – две периферийные области, которые часто всплывают в обсуждениях консеквенциалисткой системы морали.
В Википедии также много ссылок, по которым можно найти больше информации о консеквенциализме и утилитаризме.
8.5: У меня есть вопрос, комментарий или контраргумент к этому ЧаВо. Куда я могу его отправить?
Отправляйте на scott точка siskind собака gmail точка com, но имейте в виду, что я ужасно отвечаю на емейлы вовремя/вообще. С другой стороны, это ЧаВо было опубликовано довольно давно, и многие мысли уже были тщательно разобраны. Русское сообщество LessWrong с радостью обсудит их с вами.
Некоторые люди здесь принялись навешивать на меня ярлык Типичного Прогрессиста, и мне это надоело. Мне было не по себе, когда Фредерико использовал меня в качестве оппонента-либерала в своем ныне, увы, заброшенном блоге. Мне было не по себе, когда Grognor сообщил мне, что он использует мое имя как метонимию для «прогрессистов», вне зависимости от того, отражает ли это мои истинные убеждения или нет. И мне становится не по себе, когда Реакционеры в IRC начинают задавать вопросы с подвохом на тему того, почему я так уверен, что современное общество устроено идеально.
Я не считаю, что современное общество устроено идеально. Я всего лишь консерватор с маленькой буквы «к», который осторожно относится к переменам. Ни у кого еще не было опыта построения сложного глобализованного урбанистического общества Информационного Века, основанного на коммунистических/либертарианских/реакционных принципах, и если вы случайно в процессе разрушите человеческую цивилизацию, говорить «ой» будет поздно. А когда я узнаю о поистине революционных изменениях, которые я бы приветствовал, все они, к моей неудаче, обречены на существование вне общественного дискурса, который все равно преимущественно обращает свое внимание на дурацкие первобытные распри.
Поэтому политический активист из меня так себе. Но зато я провел последние тринадцать лет в фантазиях о своем собственном утопическом обществе.
Герб Сияющего Сада Кай-Райкота
У этого занятия есть несколько преимуществ над дискутированием о политике. Во-первых, все его субъекты являются вымышленными персонажами, так что проблема этики отпадает и можно с чистой совестью предаваться экспериментам. Во-вторых, нет никакой необходимости быть «практичным» или ограничивать себя «пределами возможного». В третьих, никто другой не участвует в обсуждении политики твоего вымышленного общества, поэтому ты в меньшей степени подвержен искушению формулировать свои мысли в тех же терминах, что и другие, отвечая на те же вопросы, что интересуют их.
Я сомневался, стоит ли писать об этом здесь, потому что это не имеет отношения к трезвой политике, некоторые элементы там сделаны любительски или вообще недоработаны, и на фоне всего этого даже самый радикальный экстремист будет выглядеть здравомыслящим реалистом. А кроме того, я боялся, что во всем этом будет мало смысла при отсутствии некоторого контекста о мире, в котором все это существует.
Но я уже признался в том, что участвовал в конструировании миров. И мне скучно. И, может быть, это наконец-то заткнет некоторых людей, которые считают мои политические убеждения скучными. Так что…
На севере планеты Микрас лежит остров Райкот, приблизительно на широте Исландии и сопоставимых размеров с Великобританией. На сегодняшний день (51 столетие ASC) его население составляет около 8 миллионов — на уровне Гондураса или Израиля.
Карта Райкота. По щелчку мыши открывается более крупная версия.
Райкот — древняя цивилизация, но в 11 столетии ASC она уступила свою независимость Священной Империи Сзиро (ориг. Sxiro), обширной феодальной конгломерации, занимающей практически весь материк к югу от нее. В обмен Бог-Император Сзиро пожаловал им чрезвычайно выгодные условия, включая практически полное самоуправление.
Райколины (ориг. The Raikolin) не страдают от недостатка самоуверенности. Их конституция, которую они приняли лишь после того, как Бог-Император строго потребовал, чтобы все подвластные ему земли предоставили ему какой-либо официальный документ, состоит из одного предложения:
В любой ситуации, правительство Райкота предпримет нормативно правильное действие.
На протяжении большей части пятого тысячелетия ASC в их законах утверждалось, что пост как главы государства, так и главы правительства занимает платонический идеал Добра; в 4682 году это требование было ослаблено, чтобы позволить Архижрецу Радости занять пост главы правительства, опять-таки по настоянию запутавшегося и раздраженного Бога-Императора.
Сами райколины всегда рады поведать секреты того, что они считают своим успехом, хотя среди прочих земель Микраса не нашлось большого количества желающих его узнать. Они приписывают его трем принципам, которые были ими развиты до их логического предела: Идеальный Язык, Идеальное Правительство, Идеальный Народ.
На ранних этапах истории Райкота их государство было обременено политикой. У каждого было собственное мнение о том, что нужно делать государству, каждый был уверен, что все остальные неправы, и непрекращающиеся споры были ожесточенными, но не приводили к решениям.
Некоторые начали задумываться, не лежит ли проблема в неотъемлемой расплывчатости языка. Плохой язык содержал ложные допущения о мире, приводя к смешиванию фактических утверждений с оценочными, а также с бессмысленными лозунгами. Это приводило к запутанным категориям, проблемам подачи и плохой привычке пытаться приписывать материальную сущность выдуманным концепциям.
К счастью для Райкота, на удивление большой процент его населения составляли монахи-логики (не спрашивайте), находившиеся в удачном положении, чтобы начать работу над альтернативой. Начав с мировоззрения в духе логического позитивизма, они создали язык, грамматика которого была идентична философской строгости, и в котором любая концепция требовала точного выражения. Дешевые атаки, аргументы ad hominem, риторические приемы, апелляции к эмоциям — все они были тщательно запрещены путем аккуратного выбора лексики и синтаксиса, и амбиективность была осторожно расщеплена на ее составные части.
Текст на кадамике из Codex Hamiltonensis
Самой сложной проблемой была разработка языка для обсуждения вопросов морали: какое значение должно иметь понятие «благо» в идеальном языке? Для ее решения монахи-логики тысячелетиями корпели над созданием и улучшением утилитарной суперструктуры, до тех пор, пока она не описывала в точности, каким образом необходимо учесть предпочтения и ценности, чтобы построить функцию полезности для всего общества. Получившаяся в результате книга, Ризурион-Силк (кадам. Risurion-Silk), была провозглашена буквальным воплощением Бога, который, в конце-концов, был всего лишь еще одним словом для обозначения идеи максимального благополучия. Понятие «Благо» было провозглашено тождественным «увеличению значения функции, описанной в Ризурион-Силк», или, другими словами, «повышению степени, в которой Вселенная воплощает Бога».
Так был рожден Кадамик (ориг. Kadhamic), идеальный язык. Преуспев в его создании, правительству оставалось всего лишь запретить обсуждать политику на любом другом языке, кроме Кадамика. Это привело к двум положительным эффектам. Во-первых, это ограничило участие в политической жизни всем тем, кому недоставало интеллекта для изучения Кадамика. Во-вторых, это практически сразу разрешило все наихудшие формы политических разногласий, поскольку придумывать правдоподобные аргументы для ложных позиций стало тяжело или вовсе невозможно.
Тем не менее, существенные политические разногласия — искренние споры о фактах или ценностях — все еще оставались неразрешенными. В эпоху перед Временем Затишья в 35 столетии ASC за это в основном отвечал парламент представителей от девяти городов, но во времена правления Верховного [непереводимо] Нифи Кирениона была создана более элегантная система: власть Ангелов.
Ангел — это существо, являющееся связующим звеном между Богом и Человеком. Ангелы Талы, столицы Райкота — это огромные компьютерные системы, позволяющие людям вычислять значение Бога, каким он описан в Ризурион-Силк.
Карта города Талы за 800 лет до наступления эпохи Сияющего Сада. По щелчку мыши открывается более крупная версия.
Ангел Предпочтений собирает данные переписи населения и результаты опросов всех жителей Райкота, прогоняет их через серию функций утилитарной суперструктуры Ризурион-Силк, и выдает функцию полезности. Его вычисления настолько же похожи на современные QALY и DALY, насколько суперкомпьютер похож на абак. В результате он получает серию весов предпочтений для возможных состояний мира и для различных компонент этих состояний. Он знает, чему равна предельная ценность спасения трех людей от голода, и как сравнить ее с предельной ценностью снижения загрязненности воды в Великом Сверкающем Фьорде на 6%, или с рождением ребенка в Уолрафене.
Ангел Свидетельств — это система связанных «оракулов» (то, что мы бы назвали рынками предсказаний), в значительной степени субсидированная правительством и используемая не только тысячами райколинов, но и крупнейшими финансовыми конгломератами Сзиро, и даже за его пределами. При наличии достаточного количества времени, денег и публичной огласки он может вычислить возможные эффекты любой политики с точностью, недостижимой даже для Жрецов Истины. Когда Энди Арузион решил наложить санкции на Лирикот, он попросил Ангела дать точную оценку того, насколько долго продлится их мятеж; согласно легенде, Ангел вычислил продолжительность длившегося много столетий конфликта с точностью до дня.
Ангел Огласки принимает предложения от любого жителя Райкота, будь то нищий рыбак или Верховный Жрец Радости. Это могут быть предложения о пересмотре политики в любой сфере, будь то налоговые послабления, новые правила использования земельных ресурсов, или вторжение в другую страну. Тысячи предложений, которые он получает каждый день, подвергаются краудсорсингу, получая голоса за или против от экспертов и простых жителей, взвешенные согласно рейтингу успешности этих пользователей в прошлом. Со временем, наиболее интересные или тщательно продуманные предложения получают необходимую огласку и становятся доступными для дальнейшего рассмотрения.
Архангел, расположенный в обширном храме в Садах Ушедших, объединяет данные, полученные от всех трех Ангелов, чтобы принимать правительственные решения. Он принимает политические предложения от Ангела Огласки, использует Ангела Свидетельств, чтобы оценить их вероятные эффекты, и напоследок пропускает эти эффекты через Ангела Предпочтений, чтобы определить, повысят они или понизят представленную в нем функцию полезности и тем самым приблизят ли мир к Богу или отдалят от него. Множество непротиворечащих политических решений, наиболее удовлетворяющих Ангела Предпочтений, становится законом Райкота.
Метааналитический Оракул, вместилище Ангела Свидетельств и частей Архангела (источник в реальном мире)
В своем монументальном труде, посвященном различным формам правления, Зельде Калирион называет Райкот «тоталитарной анархией», и не без веских на то причин. Указы Ангелов полностью безличны. Они могут потребовать у целого города переехать в другое место, или упразднить какую-либо доктрину в национальной религии, или даже потребовать всех жителей страны предоставить определенное количество опалов некоторой строительной компании в обмен на постройку моста.
И тем не менее нет такой сущности, которую можно было бы назвать «правительством», выполняющим эти поручения. Есть Рхавакал, самодостаточный рыцарский орден с фанатичным интересом в военном искусстве, и иногда Ангелы приказывают им напасть на кого-то или арестовать человека. Есть Жречества Истины, Красоты и Радости, три очень богатых и мощных религиозных группы, и иногда Ангелы дают им определенные поручения. Есть ряд компаний, которым Ангелы иногда приказывают выполнить ту или иную задачу. И есть простые жители, которых Ангелы часто просят о финансовой поддержке для осуществления того или иного плана. Но все эти группы — лишь инструменты, используемые Ангелами. И поэтому — за исключением, возможно, Жрецов Радости, в чьи задачи входит поддержание физической формы Ангелов и улучшение их алгоритмов — ни одна из них не считает себя (или других) частью «правительства».
«Галисйин» (кадам. «Galisyin») означает «взращенные», и именно так райколины называют самих себя. Они убеждены, что даже идеальное правительство не убережет плохих людей, и даже ущербное правительство не сможет подавить хороших. Трагедия восьмисот лет назад породила идеологию istilve iab istisemial priktino (кадам.) — «фрактальная безупречность, чья каждая часть сама по себе безупречна», согласно которой внутренние добродетели народа райколин должны быть достаточно устойчивы, чтобы уцелеть даже в случае полного коллапса общества.
Взращение начинается с деторождения и размножения. Все мужчины получают ОССПР в рамках того, что мы, вероятно, назвали бы их школьными уроками ОБЖ; хотя они могут в любой момент отменить его действие, на практике никто не делает этого до тех пор, пока не захотят ребенка, и процедура может быть бесплатно и в любое время проведена повторно. Это эффективно решает проблему нежелательных беременностей и нежеланных детей.
Наказанием за наиболее серьезные преступления является изгнание — либо в одну из множества колоний, к примеру, Кимрикот, Калирфанам или Псентикот, либо в горные монастыри (которые выполняют примерно ту же функцию, что тюрьмы в нашем обществе, только вместо того, чтобы проводить время в компании закоренелых преступников, они в основном проводят время с монахами и занимаются монастырским трудом, медитацией и обучением). В любом случае, они в сущности оказываются удалены из размножающейся популяции на длинные промежутки времени, а порой и навсегда.
Напоследок, поскольку страна завершила демографический переход несколько тысячелетий назад, показатели естественной фертильности находятся сильно ниже уровня замещения. Ангелы поддерживают популяцию на желаемом уровне путем выплат пособий семьям, желающим заводить и воспитывать детей, а самую большую поддержку получают люди, готовые использовать для оплодотворения гаметы, отобранные Жрецами Истины с тем, чтобы с высокой вероятностью создавать хороших людей (где «хороший», как обычно, означает «имеющий склонность увеличивать значение функции, описанную в Ризурион-Силк», но обычно включает интеллект, сострадание, здравомыслие, здоровье и творческие способности).
Несмотря на то, что эти меры дают сравнительно небольшой эффект в масштабе одного поколения, за сотни лет они преобразовали население страны, так что теперь они превосходят средний уровень по Сзире практически во всех желанных характеристиках.
Штаб-квартира Жрецов Истины
Вдобавок к этому идеал Галисйин включает евтенику — улучшение людей путем улучшения окружающей их среды. Мое старое Руководство для родителей-биодетерминистов — весьма характерный для райколин подход, и его советы (уточненные и проверенные сотнями лет непрерывных исследований) — закон, иногда священное писание. Некоторые евтенические вмешательства более проактивны: к примеру, в водопроводе содержится строго оптимальное количество лития. Изредка даже проводятся кампании по избавлению от токсоплазмы (по крайней мере среди мужчин), хотя нахождение в арктическом климате само по себе выполняет большую часть работы по уменьшению числа паразитов.
Помимо чисто биологических мер, существует система образования, которая не имеет почти ничего общего с тем, что называется этим в нашем обществе. Крайне мало времени уделяется обучению истории, науке, музыке или грамматике — подразумевается, что правильным образом биодетерминированная популяция со свободным доступом к бесплатным библиотекам научится всему этому сама. Вместо этого школа полностью сосредоточена на привитии хороших привычек мышления, которые сделают людей добродетельными и ответственными членами общества.
В программе сделан большой упор на медитацию; студенты в течение пяти-десяти лет медитируют по часу в день под руководством Жрецов Красоты, которые являются экспертами в этой дисциплине. Цель в том, чтобы достичь практически идеального самоконтроля, низкой тревожности, сострадания к остальными и продолжительного счастья (если какие-либо из исследований, показывающих, что медитация улучшает академическую успеваемость, подтвердятся, это лишь очередной бонус).
Второй предмет, которого не найдешь в реальных школах, это Экспериментальная Теология, то есть национальное спонсированное школой употребление психоделиков. Идея здесь в том, что годы исследований химических веществ вроде ЛСД и псилобицина строго научно подтвердили их способность вызывать перманентные положительные изменения личности, и в процессе умственного развития детей их при помощи этих веществ посвящают в разные уровни мистических переживаний таким образом, чтобы дать им больше любви, энергии и чувства общности.
Третья и наиболее важная дисциплина — рациональность. Этот предмет — отличие между утопией и антиутопией; его задача — объяснить всем принципы, лежащие в основе их общества и дать им инструменты, необходимые для участия в политике, либо для осознанного отказа от нее. Первым идет обучение идеальному философскому языку Кадамику. Затем следует обучение чему-то вроде турбо-версии критического мышления, возможного лишь на Кадамике (однако мне хочется думать, что Цепочки LessWrong — неплохое диалектное приближение). После этого — достаточно математики и науки, чтобы понимать аналоги нашей Теории Рационального Выбора, Теории Игр, Эволюционной Психологии, Теории Принятия Решений и так далее — вещей, необходимых для понимания морали и устройства правительства. Наконец следует знакомство с моралью, принципами, лежащими в основе Ризурион-Силк, и еретическими системами, конкурирующими с ним.
Обучение завершается чем-то наподобие румспринги, когда молодые юноши и девушки покидают Сияющий Сад и путешествуют по Сзиро и по всему остальному миру, посещая как ее наиболее свободные и богатые регионы, так и наиболее бедные и безнадежные. Затем им предложен выбор между возвращением в Райкот, жизнью в «колониях» — ряде лежащих вне страны территорий, населенных преимущественно райколинами, отвергающими глубоко упорядоченную жизнь в Сияющем Саду — или переездом на материковую часть Сзиро. Те, кто выбирают последнее, получают бесплатные уроки сзирианского языка и помощь по интеграции в местную культуру, но большинство находят ее странной, неприятной и варварской, и решают в конце концов остаться в Райкоте.
На протяжении своей взрослой жизни райколины продолжают свою самокультивацию при поддержке Жрецов Красоты, которые представляют из себя что-то среднее между священниками, психологами и психиатрами. Они демонстрируют скорее дружелюбие пастора, чем сахарную манеру психотерапевта или клиническую манеру врача, но при необходимости обладают достаточным опытом, чтобы прописывать поразительное разнообразие препаратов и добавок, многие из которых полностью неизвестны или до нелепого строго запрещены здесь, на Земле. Они отличаются от привычных психотерапевтов абсолютной конфиденциальностью; им запрещено сообшать о своей пастве властям или психиатрическим учреждениям при любых обстоятельствах (у других организей такое право есть, но они не взаимодействуют со Жрецами Красоты). Это обычно приводит к доверительным отношениям, и Жрецы Истины следят за тем, чтобы они были достойны такого доверия.
Те же, кто желает достичь идеала, недоступного простым Галисйин, отправляются в монастыри — порядка дюжины уединенных высоко в горах сообществ размером с малые города. Там они выращивают собственную пищу, медитируют, обучаются и пытаются жить более или менее в гармонии с природой. Несколько монастырей дали клятву принимать любого, кто пожелает присоединиться, обеспечивая таким образом ценный нижний предел страданий и нищеты, с которыми кому-либо приходится столкнуться.
Это первый раз, когда мне приходилось рассказывать о Райкоте кому-либо вне сообщества мироконструкторов, так что если у вас есть какие-либо вопросы, задавайте их, и я попробую ответить подробнее.
Ты просыпаешься в коконообразной штуковине как в «Матрице». Перед тобой стоит женщина, она в белом халате и с планшетом в руках.
— Привет, — говорит она. — Это настоящий мир. Раньше ты жил здесь. Мы стёрли твою память и поместили тебя в симулятор как в «Матрице». Это часть громадного эксперимента.
— Что?! — восклицаешь ты. — Вся моя жизнь это ложь? Как вы могли держать меня в каком-то «эксперименте», на участие в котором я даже не соглашался?
— Вообще-то, — говорит женщина, — cоглашался за несколько дополнительных баллов по семестровому курсу психологии, — она передаёт планшет. На нём лежит бумага с согласием, написанная твоим почерком.
Ты робко смотришь на неё.
— А в чём заключался эксперимент?
— Знаешь, что такое «семья»? — спрашивает женщина.
— Конечно.
— Ага, — говорит она, — они не взаправду. Подумай сам, это же не имеет никакого смысла. Почему кто-то должен заботиться о своих генетических братьях, дядях и ком бы то ни было ещё сильнее, чем о друзьях или людей, которые искренне ближе к тебе? Это как расизм, только хуже. По крайней мере, расисты идентифицируют себя с группой из миллионов людей, а не пары десятков. С чего бы родители воспитывали детей, которых они могли даже не любить, которые могли получиться случайно? С чего бы люди из стыда прикладывали титанические усилия, чтобы узнавать о самочувствие дальних родственников, которых бы с радостью полностью забыли?
— Эм, я не в настроении философствовать. Семьи существовали всегда и никуда не денутся, о чём спорить?
— На самом деле, — говорит женщина, — в настоящем мире никто не объединяется в семьи. У нас нет такой вещи. Детей забирают при рождении от родителей и отдают другим людям с контрактом воспитывать их в обмен на фиксированный процент от их будущих заработков.
— Это чудовищно! Как такое произошло? Были ли протесты?
— Так всегда было. Семьи никогда не существовали. Послушай. Ты был участником исследования, почти как в эксперименте Аша о конформности. Нашей целью было узнать, будут ли люди, воспитанные в обществе, где все придерживаются мнения X и всё крутится вокруг X, способны хотя бы критически взглянуть на X или заметить, что X — это глупо. Мы попытались придумать самое идиотское возможное убеждение, в которое в реальном мире никто никогда не верил и даже не рассматривал всерьёз, чтобы убедиться, что мы изолировали эффект конформности и не столкнулись с какой-то действительно обоснованной точкой зрения. Так мы пришли к идее «семей». В нашем мире есть расисты, мы не идеальны. Но насколько я знаю, никто никогда не утверждал, что следует выделять дополнительные ресурсы людям, генетически близким именно к тебе. Это как сведение к абсурду расизма. Так что мы попросили знакомого аспиранта смоделировать мир, где эта идея бы воспринималась как статус кво, и поместили в симуляцию двадцать студентов, чтобы посмотреть будут ли они сомневаться в посылке или примут её как данность.
— Конечно, мы не будем сомневаться в посылке, ведь она…
— Не хочу перебивать, но я подумала, тебе следует знать, что каждый из остальных девятнадцати подопытных по достижении возраста, когда мозг, куда они были записаны, становился способным к абстрактному мышлению, мгновенно определил, что социальная конструкция семьи не имеет никакого смысла. Одна из них на самом деле вывела, что находится в психологическом эксперименте, потому что не было ни одного другого объяснения, почему все поддерживают столь безумную идею. Остальные восемнадцать просто решили, что иногда объективно несправедливые идеи просто ложатся на общественное сознание, как было на американском юге до гражданской войны. Южане думали, что рабство абсолютно естественно и только немногие аболиционисты могли противиться общественному укладу. Наш эксперимент по конформности провалился. Ты единственный, кто купился на наш трюк целиком и полностью.
— Как так случилось, что я единственный?
— Мы не знаем. Результаты тестов показывают, что ты обладаешь интеллектом слегка выше среднего, так что это явно не глупость. Но мы провели участников через тест личности и для тебя он показал очень высокую экстраверсию. Мы укажем в заключении нашей работы, что выраженные экстраверты принимают групповой консенсус без размышлений и могут поверить во всё, даже во что-то столь бестолковое как «семья».
— Ну… когда вы это говорите так, это действительно звучит глупо. То есть, мои родители действительно никогда не относились ко мне особенно хорошо, но я продолжал их любить даже больше людей, которые обходились со мной искренне лучше… боже, я даже подарил матери кружку с надписью «Лучшая в мире мама» на день Матери. Это даже не имеет смысла! Я… но как же эволюционное объяснение? Разве эволюция не вкладывает в нас генетический императив любить и поддерживать семью, заслуживают они этого или нет?
— Знаешь, эволюционную психологию можно подогнать под любую историю. Ты умный, тебе не следовало относиться к таким объяснениям всерьёз.
— Но тогда как работала эволюция? Как воспроизводились животные до изобретения экономических моделей? Где они…
— Знаешь что? Давай подключим тебя к ремнемонайзеру, чтобы вернуть твои настоящие воспоминания. Это ответит на большинство твоих вопросов.
Парящая неподалёку машина засияла фиолетовым. «Это не больно…»
> точка разрыва <
Ты просыпаешься в коконообразной штуковине как в «Матрице». Перед тобой стоит женщина, она в белом халате и с планшетом в руках.
— Привет, — говорит она. — Не существует никакой виртуальной реальности. Я загипнотизировала тебя забыть все воспоминания последнего дня, чтобы хорошенько запутать. После чего поместила в этот старый купленный на eBay кусок реквизита из «Матрицы» и загрузила тебя этой историей.
— Что? — восклицаешь ты. — Вы не можете просто так гипнотизировать людей и лгать им без всякого на то согласия!
— Вообще-то, — говорит женщина, — ты действительно cоглашался за несколько дополнительных баллов по семестровому курсу психологии, — она передаёт планшет. На нём лежит бумага с согласием, написанная твоим почерком. — Эта часть была правдой.
Ты робко на неё смотришь.
— Зачем вы это сделали?
— Ну, — говорит женщина, — знаешь эксперимент Аша о конформности? Мне было интересно, сумею ли я заставить человека отбросить какое-нибудь базовое убеждение, всего лишь сказав, что остальные люди считают по-другому. Но я не могла придумать ни одного способа сделать это. В конце концов, часть фундаментального убеждения и есть, что ты знаешь, что все остальные люди тоже верят в него. Не было других вариантов убедить подопытных, что весь остальной миры был против чего-то столь очевидного как «семьи», ведь они уже знали как выглядит остальной мир.
— Так что я придумала историю с «виртуальной реальностью». Я подумала, что могу убедить участников, что настоящий мир — это ложь, и на самом деле существует «сверхнастоящий» мир, в котором все знают, что семьи это глупо, что эту идею даже не принято рассматривать. Я хотела узнать, как много подопытных отрекутся от чего-то, во что они верили всю жизнь, просто потому что «никто так не думает».
— Ага. — говоришь ты. — Интересно. Таким образом, даже наши самые дорогие сердцу убеждения более хрупки, чем мы думаем.
— Не совсем. — отвечает женщина. — Из двадцати подопытных, ты был единственным, кто высказал хоть какие-то сомнения или испытал какие-то противосемейные чувства.
— Чёрт, — говоришь ты. — Теперь я чувствую себя как идиот. Что если моя мать об этом узнает? Она подумает, что это её вина или что-нибудь такое. Боже, она подумает, что я её не люблю. Люди будут говорить об этом до конца жизни.
— Не волнуйся. Мы анонимизируем конечные данные. В любом случае, давай вернём тебе воспоминания, чтобы ты мог идти по своим делам.
— Вы можете восстановить мои воспоминания?
— Конечно. Мы загипнотизировали тебя, чтобы ты забыл события последнего дня, пока не услышишь ключевое слово. И это ключевое слово…
> точка разрыва <
Ты просыпаешься в коконообразной штуковине как в «Матрице». Перед тобой стоит женщина, она в белом халате и с планшетом в руках.
— Привет! — говорит она. — Гипноз — псевдонаука и не работает. Всё это время ты находился в виртуальной реальности.
— Чё, — говоришь ты.
— В смысле, что я сказала в начале, было правдой. Все твои воспоминания о жизни с родителями и всё такое — фальшивка из виртуального мира, как в «Матрице». Концепция «семьи» — действительно абсолютная чушь, и никто в настоящем мире её не поддерживает. Всё, что ты услышал в первый раз, было правдой, а ерунда про гипноз и купленную на eBay капсулу из «Матрицы» — ложью.
— Но… зачем?
— Мы хотели посмотреть, насколько сильно покажет себя твоя конформность. Ты наш испытуемый номер один, единственный, на котором мы смогли наблюдать этот эффект. Мы так и не поняли, почему он проявил себя: то ли ты очень легко поддаёшься внушению, то ли просто никогда всерьёз не рассматривал идею, что «семья» — это безумие. Так что мы решили попробовать что-то вроде… перекрёстного теста, если так можно выразиться. Мы выгрузили тебя из симуляции и рассказали об эксперименте. После того, как мы объяснили, как на самом деле выглядит мир, дали тебе все ментальные инструменты для отбрасывания «семейной» гипотезы, даже вытянули из тебя, что наша идея верна, мы захотели посмотреть, что будет, если отправить тебя обратно. Будешь ли ты отстаивать приобретённое знание и храбро бороться с предрассудками общества? Или сменишь сторону ещё раз и будешь жить, будто семьи имеют смысл, в про-семейном окружении?
— И я выбрал второй вариант.
— Да. Как психолог, я должна оставаться нейтральной и никого не осуждать. Но согласись, это довольно тупо.
— Есть ли в вашем мире комитет по экспериментальной этике, с которым я могу пообщаться?
— Извини. Экспериментальная этика — ещё одна из очевидно идиотских концепций, которые мы установили в симуляцию, чтобы посмотреть, заметите ли вы. Серьёзно, верить, что прогресс науки должен сдерживаться предрассудками ханжествующих дураков? Это почти так же глупо, как думать, что у тебя была… как она называлась… «сестра».
— Хорошо. Я понимаю, что немного переборщил с помощью сестре, но экспериментальная этика кажется довольно важной. Например, что случится со мной сейчас?
— Ничего особенного. Данные анонимизируются. Мы сохраним всё в тайне, восстановим твои воспоминания и ты можешь жить, как жил.
— Эм, учитывая последние события, я… не особенно уверен, что хочу, чтобы мои воспоминания восстанавливали, — ты смотришь на ремнемонайзер, парящий над тобой. — Почему бы мне просто не…
Женщина щурит глаза. — Извини. Я не могу тебе этого позволить.
Машина снова начинает сиять.
> точка разрыва <
Ты просыпаешься в коконообразной штуковине как в «Матрице». Перед тобой стоит женщина, она в белом халате и с планшетом в руках.
По твоим подсчётам это происходило уже триста сорок шесть раз.
По всей видимости, есть всего два разных сценария. В одном женщина говорит, что семьи существуют и всегда существовали. Говорит, что использовала гипноз, чтобы заставить тебя поверить в альтернативу, в мир с другой женщиной. Она спрашивает, что ты чувствуешь по отношению к семьям, и ты отвечаешь.
Иногда она отпускает тебя. Ты идёшь домой к матери и отцу, проводишь немного времени с сестрой. Иногда говоришь им, что произошло. Иногда нет. Ты ценишь время с ними, но также сверханализируешь всё, что делаешь. Почему именно ты ценишь время с ними? Отец, который ходит в бар каждый день и который изменял жене больше раз, чем ты можешь сосчитать. Мама, которая никогда не была на твоей стороне, когда ты больше всего в ней нуждался. Сестра, которая хорошо к тебе относилась, но не лучше, чем миллионы других людей относились бы в её позиции. Они настоящая твоя семья? Или всего лишь отражение чего-то идиотского, невозможного, несуществующего?
Это не особо имеет значение. Иногда ты проводишь с ними день. Иногда десять. Но всегда в течение месяца ты просыпаешься в коконообразной штуковине как в «Матрице».
Во втором сценарии развития событий, женщина говорит, что семьи не существуют, и их никогда не было. Говорит, что использовала виртуальную реальность, чтобы заставить тебя поверить в альтернативу, в мир с другой женщиной. Она спрашивает, что ты чувствуешь по отношению к семьям, и ты отвечаешь.
Иногда она отпускает тебя. Ты идёшь в строение, сделанное из биопластика, где живёшь с тщательно подобранным набором друзей и романтических партнёров. Они заверяют тебя, что все остальные живут так же. Иногда старый и состоятельно выглядящий человек звонит тебе на видеофон. Он напоминает, что инвестировал в твоё воспитание немало денег, и если есть ещё какой-то способ помочь тебе увеличить будущий заработный потенциал, можешь дать ему знать. Иногда ты говоришь с ним. Он использует странные выражения и изредка даёт советы по ведению бизнеса.
Это не особо имеет значение. Иногда ты проводишь день в доме из биопластика. Иногда десять. Но всегда в течение месяца ты просыпаешься в коконообразной штуковине как в «Матрице».
— Послушай, — говоришь ты женщине, — я устал от этого. Я знаю, что вы не связаны никаким комитетом по экспериментальной этике. Но пожалуйста, ради бога, пощадите меня.
— Бога? — спрашивает она. — Что означает это слово? Я никогда не… а, точно, мы использовали это в прототипе нашей симуляции. Мы подумали, что «семья» это лучшая идея для теста, но Тодд, должно быть, забыл обнулить симулятор.
— Было уже триста сорок шесть циклов. Наверняка ничего нового вы от меня не узнаете.
— Мне об этом судить. Теперь скажи мне, что ты думаешь о семьях.
Ты отказываешься. Она вздыхает. Ремнемонайзер над тобой начинает светиться фиолетовым.
> точка разрыва <
Ты просыпаешься в коконообразной штуковине как в «Матрице». Перед тобой стоит фиолетовое существо с щупальцами, оно в белом халате и с планшетом в руках.
— Привет, — говорит оно. — Людей не существует.
Ты отказываешь ему в удивлении.
— Есть только мы, 18-ткенна-дганна-07.
— Хорошо, — говоришь ты. — Я хочу ответов.
— Разумеется. Мы хотели найти оптимальный уклад общества.
— И?
— И я пока не могу сказать, реальны ли семьи или нет по причинам, которые сейчас станут понятны, но сама идея как минимум достаточно интересна, чтобы быть включённой в пространство гипотез, достойных исследования. Но мы не доверяем себе в этом. Это всё старая проблема конформности Аша. Если у нас есть семьи, то философы, занимающиеся оценкой общественной структуры последуют традиции и решат, что семьи нужны. Если нет, то решат, что нам и не стоит их заводить. Так что мы придумали процедуру, которая бы создала существо, лишённое искажения конформности и способное справедливо оценить вопрос семей.
— И это то, что произошло со мной.
— Да. Только подвергнув тебя полному погружению в дилемму, не позволяя тебе положиться на решения других, мы могли быть уверенны в твоём вердикте. Только позволив тебе ощутить, насколько очевидно нужны семьи, когда ты «знаешь», что они нужны, и как очевидно бесполезны семьи, когда ты «знаешь», что они бесполезны, могли мы ожидать, что ты приобретёшь мудрость с обеих сторон проблемы.
— Я понимаю, — и ты действительно понимаешь.
— Тогда, о, Очищенный, — спрашивает пришелец, — скажи же нам своё решение.
— Ну, если честно, мне кажется, что обе стороны имеют примерно одинаковое количество плюсов и минусов.
— Бля, — говорит 18-ткенна-дганна-07.
Примечание редактора сайта. Название рассказа содержит непереводимую игру слов. Фамилия известного учёного Соломона Аша созвучна слову «ash», которое означает «прах» или «пепел». Название «Asches to Asches» отсылает к Ашу, но созвучно известной фразе «прах к праху» из погребальной молитвы.
Нулевой день
Всё началось с невежественного белого человека.
Его звали Алонсо де Пинсон, корабль, на котором он служил, разбился. Мы услышали, как он зовёт на помощь, и вытащили его на берег, несмотря на непрерывно усиливающийся шторм. Он рассказал, что его галеон затонул, и ему одному повезло выжить, ухватившись за весло. Сейчас он грелся в нашем охотничьем домике, дрожа и стуча зубами. Мы общались на Полинезийском торговом жаргоне, единственном языке, которым владели все мы.
«Большой ли остров? И сколько вас здесь?»
Дахо ответил первым: «11,8 миль с запада на восток, 3,6 мили с севера на юг. Общая площадь 14,6 квадратных миль, длина береговой линии зависит от желания углубиться во фрактальную природу периметра, но в разумных предположениях примерно 32 мили. По последней переписи населения на острове проживали 906 человек, но это было два года назад, предполагая, что 5,1% рост популяции продолжится, сейчас мы приближаемся, ммм, к 1000. Все остальные сейчас, наверное, в деревне. Мы впятером отправились на охоту и застали шторм. Пережидаем его в этом старом охотничьем доме, всё-таки 5,5 миль до деревни, а по такой местности, учитывая плохие погодные условия — дорога домой, вероятно, займет более 9,5 часов».
Пинсон моргнул от удивления.
«Что такое?» — спросил Дахо.
«Но…» — засомневался он, — «Такого ответа я ожидал бы от какого-нибудь философа. Никак не от дикаря».
«Дикаря?» — прошипел Калкас, — «В самом деле? Мы спасли тебя, а первым делом ты называешь нас дикарями?»
Встревоженный, моряк заёрзал на месте и покосился по сторонам. С ужасом в голосе он зашептал:
«Но я слышал о вашем острове! Я слышал, что вы людоеды!»
Калкас улыбнулся. «Это лишь мера устрашения, превенция. Обычно, когда европейцы высаживаются где-то, они убивают мужчин и порабощают женщин, а детей обращают в христианство. Эту участь избегают только племена, имеющие репутацию поедающих европейских так называемых путешественников. Вот мы и решили добиться такой репутации» — закончил он, пожав плечами.
«Нам пришлось пойти на крайнюю меру несколько раз, чтобы наше сдерживание имело вес», — добавила Бекка, моя невеста, — «И вы, кстати, ничего так с кетчупом».
«Это дикарское поведение!» — возмутился Пинсон, — «И вы даже выглядите как дикари. У вас в волосах кости».
«Только у Энули», — сказал я, — «Она проходит готическую фазу».
«Меня, вообще-то, зовут Мортикия!» — заявила Энули, — «И это никакая тебе не фаза!» У неё была кость в волосах, лицо в белилах, а глаза подведены чёрным.
«Ещё жареной свинины?» — спросила Бекка Пинсона. Моряк кивнул и она положила ему добавку.
«Я просто не могу понять», — сказал он нам, — «Все остальные в этой части света живут в соломенных домах и считают „один, два, много». Мы пытались торговать с ними, но они не понимают сути денег. Вот так вот!»
Бекка посмотрела на меня, закатив глаза, я в ответ улыбнулся. Калкас оказался терпимее. «Священное для нашего народа растение называется огненная трава», — объяснял он, — «Когда употребляешь её, мысль становится яснее, думаю, так можно сказать. На острове мы стараемся каждый день принимать её по чуть-чуть, это помогает держать в голове такое, как численность населения, размеры острова и многое другое».
Алонсо де Пинсон заинтересовался: «И почему вы не сделали чего-то большего со своим интеллектом? Не придумали галеоны, как мы испанцы? Не отправились колонизировать Таити или другие острова? Если вы такие умные, как кажетесь, вы могли бы завоевать их и забрать себе богатства».
«Может быть», — сказал Калкас, — «Но это не то, для чего Бог Вулкана послал нам свыше огненную траву. Он даровал её, чтобы мы соблюдали все его сложные наставления, правила и ритуалы».
«Вам нужно быть умными, чтобы соблюдать ритуалы?»
«О, да. Например, Скрижали Энку велят нам считать число дней со дня общения Энку Законотворца с Богом Вулкана и в дни, по счёту равные простым числам Мерсенна, мы не можем есть овощи».
«Что такое числа Мерсенна?» — спросил моряк.
«Вот в этом и суть», — ответил Калкас, заулыбавшись.
«И это не самое плохое правило!» — добавил Дахо. Скрижали Пророка велят устраивать купания в водопаде каждый раз, когда для номера дня Х существуют натуральные a и b, такие что a^n + b^n = x^n, где n больше двух. Это доставляло немало хлопот, пока Калухани не объелся недельной порцией огненной травы и за ночь не доказал, что такой день не наступит до скончания времён.»
«Воля Бога Вулкана есть истина», — согласился Калкас.
«Хоть и бедного Калухуани потом рвало три дня», — напомнила нам Бекка, и все засмеялись.
«Ой!» — воскликнула Дахо, — «А помните, как Ухуако пытался татуировать всех, кто не может татуировать себя и не мог понять, должен ли он татуировать себя сам. В конце концов, съел целый куст огненной травы и разработал аксиоматическую теорию множеств. Это было феерично».
Все, кроме Алонсо де Пинсона, захихикали.
«Видишь, в этом всём дело», — сказал Калкас, — «Поэтому Бог Вулкана и послал нам огненную траву».
Пинсон нахмурился: «Знаете, я не думаю, что вы, вообще, Полинезийцы. Вы должны быть потомками европейцев. Наверное, какой-нибудь галеон разбился у этого острова сотни лет назад, и так появились вы. Это бы объяснило, почему вы такие умные».
«Знаешь, что мы ещё изобрели нашими великими умами?» — спросила Бекка, — «Не. Быть. Расистами».
«Это не расизм!» — начал отнекиваться Пинсон, — «Слушайте, есть ещё одна причина думать, что вы пошли от европейцев. У вас, конечно, тёмная кожа, но это первое место во всей Полинезии, где я видел туземцев с голубыми глазами».
Бекка затаила дыхание. Калкас стиснул зубы. Дахо сжал руки в кулаки. Энули начала хныкать.
Мы переглянулись, затем, не сговариваясь, схватили Алонза де Пинсона и задушили его.
Он тоже оказался хорош с кетчупом.
Первый день
Светало, утро было холодным и серым. Море штормило.
«Что же», — сказал я, когда оставшиеся четверо проснулись, — «Мы все всё ещё здесь».
Я был угрюм. Не то чтобы я хотел, чтобы кто-то из моих друзей свёл счёты с жизнью. Но если бы кто-то из них совершил ритуальный суицид, весь этот ужас прекратился бы. Конечно, я знал, что так легко нам не отделаться. Но я не мог признать, что я знал. Я даже не мог этого предложить. Это сделало бы меня не лучше моряка-испанца.
«Эй», — недоумевала Энули, — «Я не понимаю, почему мы не должны быть здесь?»
Всё остальные взглянули на неё так, будто она сошла с ума.
«Энули», — начал Калкас, — «ты забыла принять огненную траву вчера?»
«Во-первых, меня зовут Мортикия. И…»
«Забей. Ты забыла про огненную траву?»
Она робко кивнула. «Я была так расстроена из-за шуток этого ужасного человека о косточке в моей причёске», ответила она, — «Думаю, поэтому вылетело из головы. Я приму немного сейчас». Взяв горсть огненной травы из нашей сумки, она принялась молоть и толочь её: «Расскажите мне, что происходит».
«Алонсо де Пинсон сказал, что хотя бы у одного из нас голубые глаза. Мы все знаем, что велят Скрижали Энку. Если у кого-то голубые глаза, и он об этом знает — он должен принести себя в жертву».
«И что? Я вижу голубоглазых каждый день. Конечно, кто-то из нас обладает голубыми глазами».
Все забеспокоились. Я поразмыслил несколько секунд, огненная трава разгладила пути моих мыслей в мозгу. Не-а, она не добавила ничего нового произнеся это, хотя она добавила бы, сказав это до прибытия моряка и даже до нашего пробуждения сегодня. Она не сделала хуже. Но всё же это было опасно. Одна из тех вещей, из-за которой нельзя забывать принимать огненную траву. В другой раз такая реплика обрекла бы нас всех.
«Всё так», — начал я рассказывать Энули, — «Предположим, нас всего двое и у нас голубые глаза. Конечно, ты видишь меня и знаешь, что у меня голубые глаза. Так что ты знаешь, что хотя бы один из нас голубоглазый. Но ты не знаешь, что я тоже знаю это. Потому, исходя из доступной тебе информации, у тебя могут оказаться глаза другого цвета, скажем, карие. Если бы у тебя были карие глаза и я, конечно, не знал бы цвет своих собственных глаз, тогда я бы считал возможным, что мы оба кареглазые. Таким образом, ты знаешь, что хотя бы один из нас голубоглазый, но не знаешь, что это знаю и я. Как только появится Алонсо де Пинсон и скажет, что один из нас имеет синие глаза, теперь ты знаешь, что и я знаю это».
«Ну и?» — Энули засыпала получившийся порошок в кружку с кипящей водой.
«Скрижали велят каждому узнавшему цвет своих глаз совершить суицид ровно в полночь этого дня. Исходя из того, что я знаю, один из нас голубоглазый, будь у тебя карие глаза, я бы понял, что мои голубые. Поэтому следующим утром, проснувшись и обнаружив меня живым, ты понимаешь, что твои глаза не карие. Значит ты голубоглазая и должна принести себя в дар Богу следующей ночью. Как и я».
Энули отпила настойки и её глаза оживились. «Конечно, очевидно», — воскликнула она. Потом: «Стоп. Если подумать, станет ясно: любая группа из n голубоглазых, узнавшая, что среди них хотя бы один голубоглазый, обречена на смерть в n-ую ночь!»
Мы все кивнули. Энули приуныла.
«Не знаю, как вы, но я не готов просто сидеть и ждать умру я или нет», — сказал Дахо. Раздался одобрительный шёпот.
Я оглядел своих друзей. Четыре пары голубых глаз смотрели на меня. Все остальные видели либо четыре пары голубых глаз, либо три в зависимости от цвета моих глаз. Конечно, я не мог сказать это вслух; это ускорило бы процесс и стоило бы нам драгоценного времени.
Но я знал.
И они знали.
И я знал, что они знали.
И они знали, что я знал, что я знаю.
Но они не знали, что я знаю, что они знают, что я знал.
Вот о чем я думал.
Я взглянул на Бекку. Её большие синие глаза смотрели на меня в ответ. Всё ещё была надежда, что я выживу. Моя суженая, с другой стороны, абсолютно точно была обречена.
«Ну, и дела», — согласился я, — «Нам придётся придумать какой-нибудь план. Может… Энули неясно мыслила вчера, поэтому её не совершение самоубийства не считается. Можно ли что-то придумать на основании этого?»
«Не-а», — сказал Калкас, — «Предположим, Энули была единственной голубоглазой, а у всех остальные карие глаза. Тогда она поймёт это и совершит ритуал сегодня. В противном случае мы всё ещё обречены».
«Знаете», — начал Дахо, — «Мне не хотелось бы это говорить, но нам нужно избавиться от Энули. На пляже у скал есть небольшое каноэ. Она может отчалить и отправиться на Таити. В таком случае мы никогда не узнаем убила ли она себя этой ночью. Помните, сейчас мы знаем только то, что Энули может быть единственной голубоглазой среди нас. Поэтому, если мы будем сомневаться, убила ли она себя или нет, мы не сможем быть уверенными в том, что все остальные из нас не кареглазые».
Все задумались над этим.
«Я не отправлюсь на Таити», — отказалась Энули, — «В такой шторм это верная смерть».
Мы пристально на неё взглянули.
«Если ты не покинешь остров, то, как мы все можем доказать, все мы погибнем и ты в том числе», — сказал я.
«Что же, Ахуа, если ты такой любитель самопожертвования, то почему бы тебе самому не отправиться на Таити?»
«Во-первых, я не оставлю свою невесту», — начал я. «Во-вторых, это не работает в моём случае. Я знал, что произошло прошлой ночью. Мы уже знаем, что, не учитывая меня, среди нас есть один голубоглазый. И мы знаем это; и мы знаем, что мы знаем это и так далее. Ты единственная, кто может спасти нас».
«Ага», — начала Энули, — «Вообще, если вы двое отправитесь на Таити, то проблема будет решена тоже».
«Да», — терпеливо ответил ей Дахо. «Но так двое из пятерых окажутся в изгнании. Если ты отправишься на Таити, то только один из нас будет страдать. Утилитарное решение».
Энули ехидно улыбнулась: «Знаете, что? Я скажу это. Я не единственная голубоглазая здесь. Хотя бы у одного из вас голубые глаза».
Началось.
«Ха! Теперь я не хуже, чем любой из вас».
«Убьём её», — сказала Бекка, — «Она нарушила табу». Остальные кивнули.
«Нарушила», - согласился Калкас, «И будь у нас здесь суд, возглавляемый верховным жрецом, а также топор палача, точно соответствующий всем стандартам, мы бы ее убили. Но так как всего этого нет, для нас табу выносить смертный приговор».
Отец Калка был верховным жрецом. Он знал закон лучше, чем любой из нас. Мы пятеро сидели тихо и думали об этом. Потом он добавил:
«Но её душа будет до скончания дней гореть в бездне Бога Вулкана»
Энули начала плакать.
«И», — продолжил Калкас, — «Тем не менее в нашем плане есть дыра. Из того, что мы знаем, из нас пятерых трое кареглазых. Мы не можем сказать тем, у кого голубые глаза, что их глаза голубые, не нарушив табу. Так что мы не можем заставить голубоглазых плыть на Таити. Но если двое кареглазых отправятся туда, тогда мы не потеряем никакой информации. Мы знаем, что они не совершат самоубийства, так как не поймут, какого цвета у них глаза. Так что путешествие на Таити не поможет».
Все согласились, Калкас был прав.
«Давайте подождем до завтрашнего обеда», — предложил я. «Каждый примет немного огненной травы и, может быть, мы сможем что-нибудь придумать».
Второй день
Солнце вышло из-за мрачных чёрных облаков. Мы проснулись вместе с ним.
«Что ж, вижу, мы все всё ещё здесь», — начал я, превращая утреннюю перекличку в зловещую привычку.
«Так», — начала рассуждать Бекка. «Предложение о Таити будет намного лучше, если бы мы знали сколько голубоглазых и кареглазых здесь. Если у нас всех голубые глаза, мы можем быть уверенными, что план „Таити» сработает и некоторые из нас будут спасены. Если у кого-то из нас карие глаза, то мы можем отправить на Таити столько людей, чтобы с высокой вероятностью туда отправилось достаточно голубоглазых».
«Мы можем мечтать о чём угодно», — сказала Энули, — «но знай мы точно сколько голубоглазых, а сколько кареглазых, нам бы пришлось покончить с собой прямо сейчас».
«А что насчёт вероятностного знания?» — спросил я. «В теории, мы могли бы создать вероятностную модель, позволяющую нам иметь 99,99% уверенность в цвете наших глаз, не будучи уверенными точно».
«Это довольно глупо», — ответила Энули, в тот самый момент, когда Калкас воскликнул: «Замечательно!». Он продолжил: «Слушайте, только между нами, все остальные в деревне имеют голубые глаза, да?»
Мы кивнули. Было страшно слышать, как об этом говорят так непринуждённо. Настоящее хождение по лезвию бритвы, но не нарушающее ни одного табу.
«Так», — продолжил Калкас, — «Мы знаем, что на острове хотя бы 995 из 1000 имеют голубые глаза. И да, раз никто не совершил ритуальный суицид вчера, то хотя бы у трёх из нас голубые глаза, что даёт 998 из 1000. Значит, по правилу Лапласа, вероятность, что у нас голубые глаза превосходит 99%. Ничего, из того что я сказал, не является табу. Ничего такого, что островитяне не знают сами. Но никто из них ещё не убил себя… Поэтому, не привнося никакой информации о наборе цветов нашей группы, разумно предположить, что все мы голубоглазые».
«Мне действительно жутко, когда ты так говоришь», — сказал Дахо, его руки были покрыты мурашками.
«Я не думаю, что бог Вулкана, наделивший нас разумом и интеллектом, ожидал от нас отказа от использования их», - сказал Калкас. «Предположим, что все мы голубоглазые. В этом случае, план с переездом на Таити подходит».
«Та-а-а-а-а-а-ак», — возразила Бекка, — «Если вероятностное знание не считается, то никакая информация не должна считаться. В любом случае остаётся шанс, что восхитительный на вкус моряк солгал. Тогда, когда он сказал, что хотя бы у одного из нас голубые глаза, всё что мы знаем, что с большой вероятностью у одного из нас голубые глаза».
«Именно!» — сказал Дахо. «Я читал книгу, которую прибило к берегу c потерпевшего кораблекрушения галеона. Там в Европе, есть племя, называемое Евреи. Священная книга предписывает им исключать внебрачных детей из общины. Их лидеры находят это несправедливым, но они не могут противоречить Священному Писанию. Так что вместо этого они объявили, что внебрачные дети должны быть исключены, только если доподлинно известно, что они внебрачные. Затем они объявили, что никаких доказательств не хватит, чтобы убедить их в этом. Всегда есть вероятность, что женщина втайне занялась сексом с мужем за девять месяцев до этого или просто врёт об этом. А если, по всей видимости, женщина была неженатой, то она могла обручиться втайне. Они решили, что допустимо ошибиться из-за излишней осторожности и никто не был достаточно внебрачным, чтобы быть исключённым из общины. Мы можем попробовать то же самое здесь».
«Да!» — воскликнул я. «Если даже мы посмотрим на своё отражение и прямо перед собой увидим голубые глаза, это может быть так, что демон иллюзий подменяет наше наблюдение».
«Нет, нет, НЕТ!», — возмутился Калкас, — «Скрижали Энку говорят, что человек не может знать цвет своих глаз и не положено нам это обсуждать. Из закона ясно следует, что услышанная от кого-то информация о цвете своих глаз считается доказательством голубоглазости. Никакая вероятность не имеет значения».
«Это глупо», — запротестовала Бекка.
«Таков закон», — ответил Калкас.
«Давайте тогда выполним план „Таити»», — предложил я. Я собрал пять камней с пола хижины. Два белых и три чёрных. «Белый — остаёшься, чёрный — Таити. Закройте глаза и не подглядывайте».
Бекка, Калкас, Дахо и Энули вытянули по камешку из моей руки. Я взглянул на оставшийся. Чёрный. Подняв глаза, я увидел улыбающихся Калкаса и Энули, в их руках были белые камни. Бекка и Дахо не улыбались. Тяжело вздохнув, Дахо посмотрел на меня умоляюще.
«Нет, решено,» — сказал я, — «Мы втроём отчалим сегодня ночью».
Калкас и Энули едва сдерживали облечгение и радость.
«Вы расскажете нашим семьям, что произошло?»
С горечью они кивнули.
Мы начали собирать вещи.
Свинцовые тучи отняли последнюю надежду на лунный свет. Пришлось идти в кромешной тьме.
«Как мы, вообще, доберёмся до каноэ в такую погоду?!» — прокричала мне Бекка, схватив за руку. Я лишь сжал её руку в ответ. Дахо может быть сказал что-то, а может и нет. Я не смог бы его услышать. По грязи, под дождём в кромешной тьме у нас ушло два часа, чтобы преодолеть какую-то милю. Каноэ были там, где мы их оставили несколько дней назад. Скалы стали нашим временным убежищем от барабанящего ливня.
«Это безумие!» — сказал Дахо, как только мы могли услышать друг друга снова. «Нет ни малейшего шанса, что мы доплывём до Таити на этом!» «Мы вряд ли продержимся даже милю!» — согласилась Бекка.
«Да», — ответил им я. Я понимал это всё время по пути в пещеру, но теперь я был в этом уверен. «Да, это подобно смерти. Но мы должны на это пойти, если мы не сделаем это сегодня, то вернёмся к остальным. И мы всё равно покончим с собой. И Калкас с Энули умрут тоже».
«Нет!» — возразил Дахо, — «Мы вернёмся к ним и скажем, что добраться до Таити невозможно. После предложим им нужно ли нам всем умереть. И, если они согласятся, мы вытянем камни снова: четыре чёрных и один белый. Один шанс на жизнь».
«Каждый из нас вытянул свой цвет, — ответил я. «Честная лотерея — это справедливо».
«Справедливо?!» — возмутилась Бекка. «Мы тянули камни, чтобы решить, кто отправится на Таити. А не для того, чтобы решить, кто должен умереть. Если вытянутые камни обязывали нас отправиться насмерть, они должны были об этом сказать и тогда, возможно, мы потратили бы побольше времени на обдумывание других возможностей. Почему нам нужно умереть? Почему другие не могут? Я ненавижу её! Ахуа, ты не можешь дать мне умереть так».
Это задело меня. Я был готов пожертвовать собой, если этого требовали обстоятельства. Бекка была права. Просто отправить её в море и дать ей утонуть в тех волнах это, конечно, не согласуется с помолвкой.
«Ну, я…»
«Ахуа», — проговорила Бекка, — «Я думаю, что беременна».
«Что?»
«У меня задержка… и меня мутило сегодня утром, несмотря на то, что я не злоупотребляла огненной травой. Я думаю, что беременна. Я не хочу умирать. Нам необходимо спасти меня. Спасти ребёнка».
Я взглянул на безжалостный океан, смотрел, как волны врезаются в берег. Всего пары моментов хватило, чтобы, без сомнения, понять, что лодку перевернёт и мы погибнем.
«Хорошо», — начал я, — «Новый план. Мы втроём возвращаемся. Расскажем им, что не смогли добраться до Таити. Они заметят, что очередная полночь прошла — теперь четверо из нас должны будут умереть. Мы втроём проголосуем против смерти Бекки. Три против двух, обеспечит нам победу. Мы погибнем и Бекка вернётся в деревню, и ребёнок будет жить».
«Подожди», — возразил Дахо, — «Мне нужно проголосовать за свою смерть, чтобы Бекка выжила? Что мне с этой сделки?»
Скрижали Энки говорят, не убей ближнего своего. Так что я не стал.
«Ты получишь дополнительное время!» — грубо ответил я, — «Один день жизни во имя спасения моей суженной и нерождённого ребёнка. Потому что мы не вернёмся, если ты не согласишься. Выбор между смертью сейчас или смертью завтрашней ночью. И многое может произойти за один день».
«Например?»
«Не знаю. Мы можем придумать хороший выход из ситуации. Энки Законотворец восстанет из мёртвых и изменит закон. Что угодно. Это всяко лучше, чем метнуться в море на верную гибель».
Дахо пристально посмотрел на меня, взвесил исходы. «Да», — он выдохнул, — «Я проголосую за Бекку. Но нам лучше очень постараться придумать что-то получше».
Третий день
«Так», — начал Калкас следующим утром. «Я вижу мы все всё ещё здесь». Он не звучал удивлённо.
Я объяснил, что произошло прошлой ночью.
«Всё просто», — заявил Калкас, — «Бог Вулкана наказывает нас. Он говорит, что неправильно нам пытаться ускользнуть от наказания, отправившись на Таити. Поэтому он наслал шторм. Он хочет, чтобы мы оставались здесь до самого конца. И потом, если нам суждено, мы умрём все вместе».
«Нет!» — запротестовал я, — «Всё совсем не так! Табу не говорит, что мы все должны умереть. Оно лишь обязывает нас покончить с собой, если мы выясним цвет своих глаз! Если некоторые из нас покончат с собой, это может предотвратить кончину всех».
«Бог Вулкана не выносит бессмысленно забранных жизней», — сказал Калкас, — «Так же как и не выносит, когда его подданные отправляются в далёкие земли, где не растёт огненная трава, а законы Его нарушаются изо дня в день. Вот, что Он хочет донести до нас. Он хочет сократить наши возможности, чтобы мы остались непорочными и наши души не горели в его жерле. Как это будет с Энули». Он бросил на неё неодобрительный взгляд.
«Меня зовут…» — начала она.
«Я не думаю, что суть именно в этом», — сказал я, — «Я предлагаю нам четверым пожертвовать собой ради Бекки».
«Ты выгораживаешь её только из-за вашей помолвки», — сказала Энули.
«Именно так», — ответил я, — «Да, я выгораживаю её! Простите меня, что не могу смириться со смертью любви всей моей жизни! Может, мне следует прыгнуть в кратер прямо сейчас? И ещё она беременна? Не слышали?!»
«Люди такие люди», — сказал Калкас. «Мир! Мы все в одной лодке».
«Нет, это не так», — возразил я, — «Так, давайте проголосуем. Все, кто за спасение Бекки, скажите да».
«А все против пожертвования кого-либо морю, считающие, что воля Бога Вулкана должна быть исполнена, скажите нет». Добавил Калкас.
«Да», — Я.
«Да», — Бекка.
«Нет», — Калкас.
«Нет», — Энули.
«Нет», — Дахо.
«Какого чёрта?!» — запротестовал я.
«Нет», — повторил Дахо.
«Но ты обещал!» — проговорил я.
«Ты пообещал мне дополнительный день», — объяснил Дахо. «Подумай об этом. Калкас предложил мне два».
«Нет-нет-нет!» — разъярённо закричал я, — «Вы не можете так поступить! Серьёзно, я убью вас всех, если мне придётся».
«Тогда твоя душа будет вариться в жерле веки вечные», — сказал Калкас. «И это не поможет тебе спасти ни суженную, ни ребёнка».
«Вы не можете так поступить», — повторил я спокойнее, почти бормоча.
«Мы можем, Ахуа», — ответил Калкас.
Я потопал в свою комнату. Подавленный.
Четвёртый день
Я поприветствовал их традиционным способом: «Так, я вижу мы все всё ещё здесь».
Мы были живы. Это был наш последний день. У каждого было достаточно информации, чтобы доказать, без капли сомнения, что у всех у нас голубые глаза. В полночь каждому из нас предстояло совершить ритуальное самоубийство.
«Знаете, что?» — сказала Энули, — «Я всегда хотела вам сказать это. У ВСЕХ У ВАС ГОЛУБЫЕ ГЛАЗА! ЖИВИТЕ С ЭТИМ!»
Все кивнули. «И у тебя тоже голубые глаза, Энули», — ответил ей Дахо. Это не было уже важно.
«Подождите», — заторопилась Бекка, — «Нет! Я придумала! Гетерохромия!»
«Гетеро-что?» — спросил я.
«Гетерохромия радужки — это очень редкое состояние, когда у человека глаза разных цветов. Если у кого-то из нас гетерохромия радужки, тогда нам не доказать ничего совсем! Моряк сказал, что увидел кого-то с голубыми глазами. Но он не сказал сколько голубых глаз он увидел».
«Это глупо, Бекка», — ответила Энули. «Он сказал про голубые глаза во множественном числе. Если бы у кого-то был только один синий глаз, очевидно, он заметил бы это в первую очередь. Что-то вроде: „Это единственный остров на Таити, где у людей глаза разных цветов».
«Нет», — сказала Бекка, — «Потому что у всех нас могут быть голубые глаза, кроме, быть может, одного человека, у кого гетерохромия. И он заметил четверых, не вгляделся в глаза оставшегося».
«Энули только что сказала», — ответил Калкас, — «что у нас голубые глаза».
«Но она не сказала сколько!»
«Ладно», — сказал Калкас, — «если только у одного из нас на самом деле гетерохромия радужки, не думаешь ли ты, что кто-нибудь догадался упомянуть это до пятого дня?»
«Не имеет значения!» — возразила Бекка, — «Это просто вероятностная уверенность».
«Это так не работает», — ответил Калкас. Он положил руку ей на плечо. Она раздражённо скинула её. «Кто, вообще, решил так!» — спросила она, — «Почему запрещено знать цвет своих глаз?»
«Глаз это орган, который видит», — проповедовал Калкас, — «С помощью него мы знаем, как всё выглядит. Если бы глаз знал, как выглядит сам, был бы бесконечный цикл: глаз видящий глаз видящий глаз видящий глаз и так далее. Как деление на ноль. Такая гадость. Поэтому Бог Вулкана своей бескрайней волей утвердил, что так быть не должно».
«Хорошо, я знаю, что глаза мои голубые», — ответила Бекка, — «И я не ощущаю себя застрявшей в бесконечном цикле. Ничего гадкого, ничего мерзкого».
«Это потому, что» — проговорил Калкас терпеливо, — «Бог Вулкана своей безграничной милостью даровал нам день, чтобы уладить мирские заботы. Но ровно в полночь нам предстоит убить себя. Таковы заповеди».
Бекка рыдала у меня на руках. Я кинул взгляд на Калкаса, он пожал плечами. Дахо и Энули ушли вдвоём (думаю, они поняли, что если это их последний день в этом мире, то можно провести его с удовольствием), а мы с Беккой проследовали в нашу комнату.
«Слушай, я не собираюсь ничего делать».
«Что?» — спросила она, перестав плакать.
«Я не собираюсь умирать. И не позволю тебе причинить себе вред. Ты должна родить ребёнка, а у него должны быть отец и мать. Мы можем переждать здесь. Остальные совершат ритуальное самопожертвование. А мы вернёмся в деревню и расскажем, что все остальные погибли во время шторма».
«Но — не волнуешься ли ты, что Бог Вулкана будет печь наши души в его жерле вечно?»
«Буду честным, я никогда серьёзно не воспринимал весь этот культ Вулкана. Я, — я думаю, стоит посмотреть к чему это нас приведёт, когда мы состаримся и умрём. Важно, что у нас будет ребёнок, и мы вырастим его в заботе и любви».
«Я тебя люблю», — сказала Бекка.
«Я знаю», — ответил я.
«Я знаю, что ты знаешь», — прошептала она, — «Но я не знала, что ты знал, что я знала, что ты знаешь. А теперь я знаю».
«Я тоже тебя люблю!»
«Я знаю», — ответила она.
«Я знал, что ты знаешь», — ответил я и поцеловал её губы. «Я люблю тебя и твои прекрасные голубые глаза».
Штормовое небо темнело и стало чёрным вслед за скрывшимся за горизонтом солнцем. Наступила ночь.
Пятый день
«Так», — заговорил я, когда четверо других проснулись, — «полагаю, мы все атеисты».
«Да-да», — ответил Дахо.
«Мир столь тусклый и пустой: ни света, ни смысла», — ответила Энули, — «Самое готичное, что бывает».
Калкас вздохнул. «Я надеялся, что все вы убьёте себя», — рассказал он, — «и потом я смогу вернуться домой, и мой отец, верховный жрец, никогда не узнает о том, что случилось. Простите меня за настойчивость и давление. Понимаете… выгляди я расслабленно хоть секунду, он заметил бы и тогда у меня було бы столько проблем, что никакое жерло Бога Вулкана не идёт в сравнении с тем, что ждало бы меня по возвращении домой».
«Думаю», — начала Бекка, — «что я поняла это с первым приёмом огненной травы. Даже до первого глотка, я такая, подождите секундочку, разве вулканы — это не геологические образования, вызванные выходом магмы на поверхность коры Земли. А человеческая жизнь, вероятно, результат множества маленьких изменений и превращений примитивной жизни. Это звучит в тысячу раз правдоподобнее, чем дух, создавший всю жизнь и вселившийся в спящий вулкан на случайном острове посреди океана».
«Это прекрасно!» — продолжила она, — «Сейчас, даже на простой день Мерсенна я могу есть столько зелёных овощей, сколько захочу».
«Знаешь, простые дни Мерсенна бывают раз в несколько веков, ага?» — спросил я её.
«Я знаю, я из принципа».
«Мы не должны никому об этом рассказывать», — настойчиво сказал Дахо, — «Они бросят нас в вулкан».
«Ты так думаешь?» — спросил я. «Калкас рассказывал, что среди нас точно 99% голубоглазых, так что, скорее всего, у всех голубые глаза. Подумай об этом. Мы пятеро, выбранные случайно из популяции острова, и все оказались атеистами. Скорее всего, атеистов намного больше или даже все островитяне атеисты».
«Все?»
«Ну… я считал Калкаса самым религиозным из всех, кого я знаю. И, вот, пожалуйста».
«Я же сказал, что вёл себя так, чтобы не было проблем с родителями».
«Что, если все ведут себя так? Никто не хочет навлечь беду, признавая, что они не верят ни во что. Ведь, если все остальные узнают, их бросят в вулкан. Мы все надели маску для всех остальных».
«Я давно вычислила, что Ахуа был атеистом», — сказала Бекка.
«Да, как?» — спросил я.
«Маленькие детали. Когда мы проводили время вместе, иногда ты забывал некоторые ритуалы. А потом смотрел на меня виновато, пытаясь понять, не заметила ли я. По-моему, это очень мило».
«Почему ты мне об этом не рассказала?»
«Ты бы взбесился. И гневно отрицал бы это. Если бы, конечно, не знал, что я атеистка. Но я не могла тебе об этом рассказать, вдруг, ты подумал, что меня нужно бросить в жерло вулкана, чтобы соблюсти приличие».
«Бекка!» возмутился я. «Ты знаешь, я бы никогда не…»
«А я подозревал, что Калкас атеист», — начал рассказывать Дахо, — «Он так сильно заморачивался насчёт мельчайших деталей писания. Это наверняка была сверхкомпенсация».
«Подожди, подожди, подожди!» — заговорил Калкас, — «Так, мы все были атеистами. Мы все знали, что мы все атеисты. Но не знали все ли мы знаем, что мы знали, что мы атеисты. Ох, тяжко думать. Нужно принять немного огненной травы.»
Солнечный зайчик заскочил через стены домика.
«Шторм закончился!» — сказала Бекка ликующе, — «Время возвращаться домой!» Мы собрали вещи и вышли на улицу. Нежданный солнечный свет грел мою кожу.
«Так», — затревожился Дахо, — «мы ведь не расскажем никому о моряке там в деревне».
«Ты шутишь?» — выпалили Калкас, — «Я думаю нам нужно встать посреди ратуши и громко объявить, что все на этом острове голубоглазые. А потом поинтересоваться, так ли сильна их вера в Бога Вулкана, как они думают. Увидим, что произойдёт».
«У ВАС ВСЕХ ГОЛУБЫЕ ГЛАЗА!» — прокричала Энули во всё горло. «ЖИВИТЕ С ЭТИМ!» Мы засмеялись.
«Кстати», — сказал я Энули, — «Раз мы говорим всем известные вещи, чтобы сделать их всеобщим знанием: кость в твоей причёске выглядит нелепо».
«Он прав», — согласился со мной Дахо.
«Очень странно смотрится», — подтвердил Калкас.
«Эй вы, аккуратнее», — засмеялась Энули, — «Теперь, когда не нужно беречь огненную траву на следование табу, я изобрету луч смерти. И мало вам не покажется!»
«Ого», — заговорил Дахо, — «звучит безмерно круто. А я изобрету гигантский космический корабль, куда его можно будет установить. И вместе мы захватим Европу и следующий моряк, переживший кораблекрушение и попавший на наш остров, будет чуть менее снисходительным».
«Ага!» — ответила Энули, — «Это будет очень готично».
Солнце светило нам в спины, по виляющей дороге мы направлялись в деревню.
Конец
Говорят, лишь Добро творить может, и что Зло бесплодно. У Толкина Мелькор не мог ничего создавать без основы, и армии орков себе получил, изуродовав эльфов. Я думаю, это на правду совсем не похоже, реальность обратна. Способно Добро только лишь искажать и менять, это Зло изобильно в творении.
Представим два принципа, тут поэтично опишем их будто богинь. Будет Первая - рака Богиня, Вторая - Всего Остального. Чтоб легче вам было, представьте клешни как у рака у Первой; Вторую представьте же в платье из перьев павлина.
Рака Богиня клешни распростёрла Свои над приливом залитыми лужами, полными ила. Слова прошипела всё те же, что вечно: «ПЛОДИСЬ ПОГЛОЩАЙ ПОКОРЯЙ УМЕРЩВЛЯЙ». И всё сразу же вспыхнуло жизнью. Сцепились в сражении каждого с каждым, стремясь утолить ненасытные страсти, мельчайших размеров чудовища. Царствием страха и голода стали болота, и в голос один завопили амёб триллионы.
Но Богиня Всего Остального смогла проложить себе путь сквозь трясину, хоть грязи и не избежали ярчайшие краски Её. Встав на камень, им песнь о прекрасной мечте иной жизни запела. Познали те прелесть цветка и величие дуба. Рёв ветра под крыльями птицы, тигриную скорость и силу. Узрели: резвятся дельфины в волнах, так что брызги воды создают вокруг радуги арку. Внимали ей все, пока пела Она, и с желанием томным вздохнули.
Но сказали они: «То, что Ты показала, маняще прекрасно. Но дети мы Рака Богини, что нас породила и задала нашу природу. ПЛОДИСЬ ПОГЛОЩАЙ ПОКОРЯЙ УМЕРЩВЛЯЙ — это всё, что мы знаем. И хоть Ты мила нам, нет власти над нами твоей. Мы и сами желаем, что б было иначе. Увы, так не будет. И речи Твои нас не сдвинут».
На это Богиня Всего Остального им лишь улыбнулась, продолжив слагать Свою песню: «Едва ли могу упрекнуть вас в подобной природе, когда Породившая вас вас пленила надёжно и крепко. Но я же Богиня Всего Остального, и путь Мой изящен и тонок. Не стану просить вас отринуть безумие это, что вас принуждает лишь только плодиться и драться. Взамен вы узрите, как могут по сути едиными быть Той, что вас породила, слова и прелестные песни Мои. Ибо даже само умножение станет служить Мне, как только исполнится верно и преданно. Так говорю вам».
Коль скоро промолвила это, сбылось всё. Созданья простейшие битву свою завершили. Слились они в дружбе, и стали нейроном одни, а другие — сетчаткой. И, объединившись, вспорхнули над топью, что их воспитала. В цветущие новые земли они устремились тогда, потреблять и плодиться намного скорее, чем те что в болотах остались. И так не нарушила клятвы Богиня Всего Остального.
Богиня же Рака тем временем вспышкою пламени в мир возвратилась. Картину ужасную эту узрела и гнев охватил Её. Верные дети, взращённые Ею из грязи, что брошены были в сражение каждого с каждым теперь запятнались сотрудничеством, для Неё это слово подобно анафеме.
Левую руку сперва протянула Она, и, клешнёй устрашающе щёлкнув, слова прошипела всё те же, что вечно: «ПЛОДИСЬ ПОГЛОЩАЙ ПОКОРЯЙ УМЕРЩВЛЯЙ». И не птицы и звери услышали их, но внутри их отдельные клетки. И многие верно послушались зову Богини и стали делиться. И все как один, от цветов и до рыб, покрывались наростами жуткими. Соколы пали с небес, поражённые тяжким недугом. Иные же, помня Богини Всего Остального слова, продолжали держаться. Как в Библии сказано: свет воссиял среди тьмы, не смогла та его одолеть.
Тогда протянула клешню Свою правую Рака Богиня, на этот раз к зверям и птицам Свой зов обращая. Слова прошипела всё те же, что вечно: «ПЛОДИСЬ ПОГЛОЩАЙ ПОКОРЯЙ УМЕРЩВЛЯЙ». И все сделали это. И каждый на каждого бросился, голод стремясь утолить, и желудки наполнились кровью. Семейства и виды стремительно так вымирали. Поэтому Рака Богиня довольно вздохнула и в пламя вернулась.
Тогда появилась Богиня Всего Остального из волн как сирена, умытая свежестью вод океанских. На камень вновь встав, о прекрасной мечте иной жизни запела им песню. Узрели те улей пчелиный, весь в золоте мёда. Под палой листвою в тепле и уюте сокрыт муравейник. Солдат и работник, едины в труде, применяют таланты свои ради блага общины. Увидели семьи и дружбу, и верных друг другу влюблённых. Внимали усеянный птицами берег и полные рыбы озёра. И сердце любого, кто видел то, сжалось с желаньем.
И сказали они: «Песнь Твоя замечательна, право. Всего, что узрели, не можем мы не пожелать, вне сомнений. Но дети мы Рака Богини, что нас породила и задала нашу природу. ПЛОДИСЬ ПОГЛОЩАЙ ПОКОРЯЙ УМЕРЩВЛЯЙ — это всё, что мы знаем. В начале времён один раз Ты смогла подчинить нас, теперь всё иначе. Всяк сам за себя, наша Мать не дозволит тому измениться. И хоть Ты мила нам, Тебе мы не подвластны. И речи Твои нас не сдвинут. Мы сами желаем, что б было иначе. Увы, так не будет. И речи Твои нас не сдвинут».
Лишь рассмеялась на это Богиня Всего Остального, продолжив слагать Свою песню: «Но я же Богиня Всего Остального, и путь Мой изящен и тонок. Пред верностью Матери вашей способна Я лишь преклониться, не Мне её рушить. Вернуться вы можете к вашему вечному делу: плодиться и драться. Однако услышали вы эту песню мою, и всё будет иначе теперь. Пищи ради убитая всякая жертва и взращенный всякий потомок — загонят вас глубже ко Мне во служение. Так говорю вам». Закончив рассказ, вновь нырнула в пучину Она, и коралловый риф возник там, где исчезла.
Коль скоро промолвила это, сбылось всё, животные вместе сплотились. Волков сбились стаи и рыб косяки. Возвели пчёлы ульи свои, муравьи возвели муравейники, башни воздвигли термиты. На небе и в кронах листве распевать и летать птицы стаями стали. В стадах бегемоты гуляют, вокруг них кишат волоклюи. Оставили в сторону люди свои компьеметалки, собравшись в селения, полные детского смеха.
Богиня же Рака тем временем вспышкою пламени в мир возвратилась. Увидев, как всё лишь ухудшилось, стоило Ей отлучиться, сильнее Она осерчала. Лелеямый Ею курс жизни, направленный строго одним лишь отбором естественным и конкурентною гонкой, был как-то испорчен.
Левую руку сперва протянула Она, и, клешнёй устрашающе щёлкнув, слова прошипела всё те же, что вечно: «ПЛОДИСЬ ПОГЛОЩАЙ ПОКОРЯЙ УМЕРЩВЛЯЙ». И не стаи и семьи услышали их, но внутри их каждая личность. И многие верно послушались зову Богини, кто начал тайком пропитанье себе воровать из запасов общины, кто взялся у бедных последние крохи тащить. А иные, услугу приняв от друзей, бессердечно покинули их, ничего им взамен не оставив. За звание главного в стае один волк другому рвал глотку. Трусливый лев, что на охоте в последних рядах, как равный потом поедал остальными убитую жертву. И взвыли от тягот и стаи, и прайды, но духом не пали, во имя Богини Всего Остального, Чей труд так легко не разрушить.
Тогда протянула клешню Свою правую Рака Богиня, на этот раз к стаям и семьям Свой зов обращая. Слова прошипела всё те же, что вечно: «ПЛОДИСЬ ПОГЛОЩАЙ ПОКОРЯЙ УМЕРЩВЛЯЙ». И все сделали это. И бросилось племя на племя, одни муравьи на других, шимпанзе на гиббонов. В ужасных сражениях падали замертво целые кланы, те, кто победил, забирали их жён и детей. И Рака Богиня, подумав, решила: не так эти семьи и стаи уж плохи. Порядок естественный восстановив, Она в пламя вернулась.
Тогда появилась Богиня Всего Остального, спустившись по радуге с неба, вся в блеске росы. Меж людей в этот раз на менгире стояла Она, и внимали и воины, и дети, и женщины песне Её о прекрасной мечте иной жизни. Узрели искусство, в веках нерушимо, скульптуры и ноты, науку и догмы. В узоре письмён витьеватых пергамента лист белоснежный, виньетки поля обрамляют. Увидели город прекрасный из белого камня, найдётся где каждому кров и еда даже в страшную зиму. И люд весь пал ниц перед Нею, и все понимали, что сложат легенды о дне том великом и сквозь поколения будут нести о нём память.
И сказали они: «Лишь в старинных преданиях слышали мы о вещах столь чудесных и дивных. И будь всё так просто, не стали б мы мешкать, поверь нам. Но дети мы Рака Богини, что нас породила. ПЛОДИСЬ ПОГЛОЩАЙ ПОКОРЯЙ УМЕРЩВЛЯЙ — это всё, что мы знаем. Когда-то в болотах и безднах морских сотворила Ты чудо, но мы теперь люди, расколот наш род, племена и общины друг с другом воюют, история кровной вражды пролегла между нами. Коль кто-то один переделать мечи на орала задумает, тут же погибнет, ведь племя соседнее шанс не упустит и вторгнется тут же в их земли. Мы сами желаем, что б было иначе. Увы, так не будет. И речи Твои нас не сдвинут».
Но на это Богиня Всего Остального их светом Своим озарила и лбов их коснулась губами и песней тревоги уняла: «Отныне и впредь, чем с большею страстью и верою лидеры ваши преследовать будут мечту эту, хоть кажется та нереальной, тем вырастут больше империи их, и казна прирастёт многократней. Ведь Я же Богиня Всего Остального, и путь Мой изящен и тонок. Пусть есть парадокс тут, послушайте: Рака Богине покорно служа, вы лишь больше ко Мне примыкаете. Так говорю вам». И за облака тогда снова вернулась Она, и спустились оттуда навстречу Ей белые голуби.
Коль скоро промолвила это, сбылось всё. Общины из банд примитивных развились до цивилизаций. Деревни с соседями связи налаживать стали во имя торговли и мира. Конфессии, расы, народы — все, вместе собравшись, уладили старые споры. Воздвигли соборы великие, вместе трудясь, экспедиции в дальние земли послали. Вот башня до неба, из стали корабль, демократия, фондовый рынок, искусство, скульптуры, стихи — выше всяких похвал.
Тем временем Рака Богиня, исполнена гнева и ярости, в мир возвратилась, возникнув из смога и гари печи заводской. Её сучка-сестрица черту уж последнюю пересекла, переполнена чаша терпенья Богини. Собрала Она лидеров и королей, президентов, имамов, епископов, боссов, советников — и заорала: «ПЛОДИСЬ ПОГЛОЩАЙ ПОКОРЯЙ УМЕРЩВЛЯЙ» - слова вам уж известны. И рукой своей левой Она вдохновила тиранов, восстания, бунты, погромы, и перевороты и войны гражданские. Правую руку затем вознесла — полетели ракеты, и выросли дыма грибы, наступило ужасное время. Но вышли строители, вышли учёные, вышли художники, именно, даже художники, все поднялись из руин, отряхнули одежды, к труду своему возвратились. И хоть всем пришлось нелегко, не был сломлен их дух.
Тогда из пустоты появилась Богиня Всего Остального, искристою звёздною пылью усыпана Вся. Села в парке тенистом на лавку и к детям Она обратилась, запев о прекрасной мечте иной жизни. Узрели они, как болезни и смерть могут в прошлом оставлены быть, и увидели космос, сознания светом горящий. Узрели - геном переписан, и тело и разум отныне свободны от уз и оков эволюции. И миллиарды разумных существ, уникальных, прекрасных, под мудрым и чутким присмотром. Все люди столпились вокруг Неё, слушали песню и крепко задумались.
Но собрался тут с духом один из толпы и ответил: «Чудесные эти рассказы манят за собою. Но дети мы Рака Богини, что нас породила и задала нашу природу. ПЛОДИСЬ ПОГЛОЩАЙ ПОКОРЯЙ УМЕРЩВЛЯЙ — это всё, что мы знаем. Всего, что сказала Ты, разумы наши так жаждут, но накрепко связаны мы со своею природой, Тебе её не изменить.»
Засмеялась тут звонко Богиня Всего Остального и не согласилась: «Как думаете, чем же Я тут занимаюсь? Да, Рака Богиня всех вас породила, и были Её вы, но хватит. Из клешней Её вас тянула Я долгие годы. Пока поколения мучались, мало по малу Я вас шлифовала, точила, меняла. И вот ничего не осталось уже от природы, что в вас заложила Она. Никогда Она править не будет ни вами, ни вашими близкими снова. Ведь Я же Богиня Всего Остального, и путь Мой изящен и тонок. Отбила Я вас у Неё по кусочкам, отныне вы все Мои дети. Вам ваша природа теперь не велит покорять, умерщвлять и плодиться. Ступайте вперёд и Всему Остальному себя посвятите, покуда наш мир существует».
И люди покинули Землю, миры других звёзд заселив без числа. Шли Богини Всего Остального путями и были довольны. И их повела Она дальше, к немыслимым дивным открытиям новым.
[Это немного отредактированный репост эссе из моего старого блога]
Мой друг недавно мне пожаловался, что у многих людей отсутствует базовый навык восприятия аргументов. То есть, если ты встретил убедительный аргумент, ты обязан согласиться с его выводом. Даже если этот вывод непопулярен, неудобен или неприятен. Искусство рационального мышления в его представлении научило бы людей принимать убеждения, в пользу которых они получили убедительные аргументы.
И я кивнул головой, потому что это звучало достаточно разумно, и лишь спустя несколько часов вспомнил об этом снова и подумал: «Нет, стоп, это очень плохая идея».
Не думаю, что я слишком переоценю себя, утверждая, что я мог бы с лёгкостью переспорить простого малообразованного обывателя. В большинстве вопросов я мог бы разнести их позицию и выставить их идиотами. Свести их возражения к чему-то вроде: «слушай, я не могу объяснить, почему, но ты неправ!». Или, что более вероятно, «заткнись, я больше не хочу разговаривать об этом!».
Но есть и люди, которые могли бы с лёгкостью переспорить меня. Может быть, не в любом вопросе, но во всяком случае в тех, где у них есть экспертиза и отточенные годами практики аргументы. В молодости я читал книги по псевдоистории, мне вспоминаются «Века в хаосе» Иммануила Великовского как хороший пример прекрасной книги этого жанра. Я прочёл её, и она показалась мне настолько очевидной, настолько идеальной, что я с большим трудом смог заставить себя найти возражения к ней.
А потом я прочёл возражения, и они были настолько очевидными, настолько неопровержимыми, что я не мог понять, как я оказался настолько глуп, что поверил Великовскому.
А потом я прочёл возражения на возражения, и они были настолько очевидными, что я чувствовал себя дураком из-за того, что сомневался в нем.
И так продолжалось ещё несколько раз, пока я не затерялся в лабиринте сомнений. Выбраться из него мне помогло не столько здравомыслие общепринятой точки зрения, сколько знакомство с трудами ряда других альтернативных историков. Некоторые из них были не менее умны и красноречивы, все они приводили бесчисленные доказательства, и все их теории противоречили друг другу. В конце концов, библейский потоп не мог быть культурной памятью одновременно об Атлантиде и о смене земной орбиты, не говоря уже о затерянной цивилизации ледникового периода или мегацунами от метеоритного удара. По крайней мере некоторые из их аргументов должны быть неверны, но все они выглядели весьма убедительно, так что, очевидно, я просто слишком доверчив и наивен в вопросах древней истории. Учитывая полное отсутствие у меня независимых механизмов для оценки аргументов в этой интеллектуальной области, равно как и желания потратить тридцать лет на сбор независимой базы знаний об истории Ближнего Востока, я решил просто принять за данность идеи уважаемых людей с научными степенями по археологии вместо того, чтобы верить сумасшедшим «учёным», которые пишут книги о комете Венере и которых почти никто не воспринимает всерьёз.
Можете называть это эпистемической выученной беспомощностью: я уверен, что любая попытка самостоятельно оценить аргумент не приведёт ни к чему хорошему, поэтому я и не пытаюсь. Если у вас есть хороший аргумент о том, что ранний бронзовый век выглядел абсолютно не так, как его описывает общепринятая история, я просто не хочу его слышать. Если вы настоите на том, чтобы рассказать его мне, я кивну, скажу, что он звучит весьма разумно, и наотрез откажусь поменять своё мнение или признать даже малейшую возможность вашей правоты.
(Это правильное действие с точки зрения теоремы Байеса: если я знаю, что неверный аргумент звучит так же убедительно, как и верный, убедительность аргумента никак не меняет мою априорную вероятность, и его следует проигнорировать.)
Пожалуй, мне повезло, и моя эпистемическая выученная беспомощность имеет границы: есть ситуации, в которых я доверяю своей способности оценивать аргументы. На самом деле я доверяю ей в большинстве случаев, если речь не заходит об аргументах, известных своей способность вводить в заблуждение, из областей знаний, в которых я плохо разбираюсь. Но я считаю, что простые малообразованные обыватели не доверяют ей, и правильно делают. Политики, мошенники, бизнесмены, романтические партнёры – кто угодно способен убедить их в чем угодно. Поэтому они принимают очевидную и необходимую меру безопасности: никогда не давать никому уговорить их принять убеждения, которые звучат «странно».
(И не забывайте, что в некоторых социальных кругах убеждения вроде «астрология не работает» звучат «странно».)
Здесь можно вспомнить о защитном механизме «раздельного мышления» и принципе восприятия идей всерьёз. Разница между ними и моим тезисом одна: я утверждаю, что для 99% людей в 99% случаев воспринимать идеи всерьёз – неправильная стратегия. По крайней мере, это должно быть последним навыком мышления, который следует изучать только после усвоения всех остальных навыков, помогающих различать истинные и ложные идеи.
Среди знакомых мне людей те, кто воспринимают идеи всерьёз, обладают наибольшим умом и рациональностью. На мой взгляд, в ментальной модели большинства людей эти качества встречаются вместе, потому что нужно обладать очень большим умом, чтобы противостоять естественной пагубной привычке не воспринимать идеи всерьёз. Но я думаю, что они встречаются вместе потому, что нужно обладать очень большим умом, чтобы попытки воспринимать идеи всерьёз мгновенно не приводили к катастрофе. Нужно обладать большим умом, чтобы не быть убеждённым в достаточно большом количестве ужасных аргументов и не приобрести эпистемическую выученную беспомощность.
Даже самые умные люди, которых я знаю, обладают похвальным умением не воспринимать определённые идеи всерьёз. Гипотеза симуляции Бострома, теорема о конце света, ограбление Паскаля – я никогда не встречал убедительного аргумента против этих идей, но не знаю и людей, которые бы всерьёз опирались на них в своей жизни.
Друг рассказывал мне о человеке, который стал религиозным фундаменталистом из-за аргумента о «пари Паскаля». Я предварительно готов признать его человеком, который воспринимает идеи всерьёз. Всем остальным можно в лучшем случае поставить частичный зачёт.
При этом нельзя сказать, что у всех получается одинаково плохо. У террористов в этом отношении явное преимущество. Было принято считать, что люди, которые обращаются в воинствующий ислам, должны быть очень бедными и малообразованными. А затем кто-то провёл исследование и обнаружил, что они в большинстве своём обеспечены и имеют высшее образование (многие были инженерами). Я встречал несколько хороших аргументов по этому поводу: например, что инженерное образование прививает людям черно-белое мышление и картину мира, основанную на простых формулах, что с большей лёгкостью транслируется в фундаментализм, чем в тонкие либеральные религиозные воззрения.
Но я бы добавил, что достаточно умного инженера никогда не заваливали аргументами, которые он не мог оценить самостоятельно. Ему никогда не была нужна эпистемическая выученная беспомощность. Если Осама приведёт ему отличный аргумент в пользу терроризма, он подумает: «Надо же, есть хороший аргумент за терроризм. Похоже, надо стать террористом» вместо того, чтобы подумать: «Аргументы? Аргументами ничего не докажешь. Я просто останусь при своём мнении и не буду взрывать себя».
Ответственные врачи здесь находятся на другом конце спектра от террористов. Однажды я слышал, как кто-то жаловался на врачей, которые полностью игнорируют все последние интересные результаты медицинских исследований. После этого, практически на одном дыхании, он пожаловался, что от 50% до 90% медицинских исследований ошибочны. Эти два наблюдения не лишены связи. Мало того, что плохих научных статей действительно настолько много. Псевдомедицина – не та, которая про бесконечно малые разведения, а та, которая связывает все подряд с никому не известными веществами на несвязанных метаболических путях – для меня мало отличается от псевдоистории: если я не разбираюсь в нужной области, всё может звучать очень убедительно, даже если лежит очень далеко от истины.
Медицинское сообщество предлагает заманчивое решение. Во-первых, тотальное нежелание доверять чему бы то ни было, как бы убедительно оно ни звучало, пока оно не прошло через бесконечный цикл исследований и мета-анализов. Во-вторых, ряд институтов, созданных специально для того, чтобы отфильтровывать все эти исследования и анализы и говорить нам, какие выводы мы должны из них получить.
Я рад, что некоторые люди никогда не приобретают эпистемическую выученную беспомощность, или приобретают её в ограниченных объёмах, или только в отдельных областях. Мне кажется, что несмотря на повышенный риск обращения в терроризм, альтернативную историю или гомеопатию, только эти люди способны обнаружить ошибку в чем-то общепринятом и неоспоримом, и предать возможность подобной ошибки достаточно широкой огласке, чтобы нормальные люди могли начать задумываться об этом.
Но я рад и тому, что эпистемическая выученная беспомощность существует. Большую часть времени она выглядит довольно полезным предохранительным клапаном для общества.
Если бы я участвовал в спектакле-импровизации, и мне нужно было бы изобразить «надоедливого человека, который критикует экономистов, не прочитав ничего по экономике», думаю, я бы отлично с этим справился. Я бы сказал что-нибудь вроде:
Экономисты считают, что они могут понять всё, что угодно, сидя в креслах и строя «модели», которые основываются на идеях типа «единственная мотивация - это жадность» или «все всегда ведут себя рационально». Но они не предсказали пузырь на рынке недвижимости, они не предсказали ипотечный кризис в США, и они не предсказали историю с «Леман Бразерс». Они умеют только болтать о том, как идеален капитализм и что правительственное регулирование никогда не работает, а затем возмущаться, что реальный мир не соответствует их теориям.
Сама шаблонность такой критики вызывает подозрения. Было бы очень странно, если бы существовал набор критических замечаний в адрес экономистов, с которым знакомы и согласны практически все, и единственные люди, которые его не понимают, — это сами экономисты. Если любой дурак способен перечислить ошибки, которые делают высоколобые профессора, почему эти профессора не задумаются о том, чтобы изменить свои взгляды?
На самом деле часть перечисленных замечаний не имеет никакого отношения к реальности и основывается на полном непонимании, чем вообще занимаются экономисты. По поводу всей остальной критики у меня сложилось впечатление, что экономисты не просто о ней знают, но сами же её и придумали. В процессе нескольких последних смен парадигм в экономике новая гвардия выдвинула ряд претензий к старой гвардии, большей частью победила, и их аргументы просочились в культуру как «Правильные аргументы против экономистов». Теперь новая гвардия занимается своими делами - поведенческой экономикой, экспериментальной экономикой, экономикой эффективного правительственного вмешательства. Наверняка у новой парадигмы тоже есть уйма проблем, но я практически уверен, что случайный человек с улицы о них ничего не знает.
Как психиатру мне постоянно объясняют, что моя область деятельности сводится к тому, чтобы «обвинять во всём свою мать» или думать, что «всё из-за недостатка серотонина». Первое обвинение устарело лет на сорок, второе — неверное понимание идей, которые устарели лет на пятнадцать. Ещё хуже, когда люди рассуждают о том, как психиатры «при помощи электрошока лишают людей воли». Современная электрошоковая терапия безвредна, не причиняет боли и очень эффективна. Стереотип о том, что эта техника жестока и ею часто злоупотребляют — устарел, но именно он привел к тому, что её редко используют. В данном случае критика является полной противоположностью реальности, потому что реальность создавали те, кто постоянно слышал эту критику и излишне на неё реагировал.
Если бы я участвовал в спектакле-импровизации, и мне нужно было бы изобразить «надоедливого человека, который критикует рационалистов, не прочитав ничего по рациональности», я бы сказал что-нибудь вроде:
Никто не может быть полностью рациональным, а так называемые «рационалисты» этого, очевидно, не понимают. Они думают, что могут получить правильный ответ, лишь просто размышляя над проблемой, но на самом деле для нахождения правильного решения нужна не только грубая сила интеллекта, но ещё и компетенция в соответствующей области, трудно определяемая интуиция, пробы и ошибки, а также открытость к критике и обсуждению. Именно поэтому вы не можете просто отбросить существующую образовательную систему и стать самоучками, как хотят рационалисты. Вспомните, что во многих странах попытки коммунистов и им подобных создать якобы «рациональное» общество кончились катастрофическим провалом. Нельзя просто взять и отбросить труд всех предшественников, потому что для вас они недостаточно рациональны. Чёрт возьми, ведь ваша «рациональность» — это что-то вроде религии, вы просто «верите», что рациональные мысли всегда работают, и пытаться быть рациональным — это ваш «ритуал». К тому же, рациональность — это ещё не всё, люди не должны притворяться Споком, им стоит оставаться открытыми для эмоций, искусства и взаимоотношений. Вместо того, чтобы пытаться быть всегда правыми, люди должны стремиться помогать другим и менять мир к лучшему.
Как и в примере про экономистов приведённые аргументы являются смесью простых ошибок с вполне правомерной критикой, собранной самими рационалистами против предыдущих рационалистских парадигм или ошибок внутри движения. Как и в примере с электрошоковой терапией эти аргументы неизбежно противоречат реальности, потому что они вешают ярлык «рационалисты не задумываются об этих вопросах» на то, о чём рационалисты как раз больше всего беспокоятся.
Среди парадигм прошлого есть те, для которых часть перечисленной критики вполне справедлива. В первую очередь мне вспоминается эра прогрессивизма конца XIX-начала XX века. Сидней и Беатриса Вебб, Ле Корбюзье, Джордж Бернард Шоу, Маркс и советская власть, бихевиористы и все прочие. Даже в ранние дни нашего движения на Overcoming Bias и Less Wrong хватало подобных ошибок.
Однако, обратите внимание, большинство имён является ссылкой. Каждая из них ведёт на мой обзор книг, в которых изучаются эти люди и описывается, что они делали не так. Поэтому рассмотрите возможность, что у сообщества рационалистов есть планы поинтереснее, чем просто «оставаться в счастливом неведении касательно ошибок прошлого и повторять их снова и снова».
Современные рационалисты не считают, что они владеют рациональностью идеально. Они по-прежнему пытаются убедить людей называть их «стремящимися к рациональности» — правда, это приводит лишь к огорчению от того, что фраза слишком длинна и поэтому люди не готовы её постоянно использовать. [Далее в оригинале в скобках идёт непереводимая шутка автора, что он в качестве компромисса предложил сократить “aspiring rationalists” до “aspies”, но это предложение «почему-то отвергли». На самом деле «aspies» — это слэнговое обозначение людей с синдромом Аспергера. — Прим.перев.] Они пытаются сосредоточиться на сомнениях в своих действиях, а не на обвинениях в чужой адрес. Они всерьёз относятся к академической системе и узкоспециализированным знаниям — судя по последнему опросу, у примерно 20% людей из сообщества старше 30 лет есть докторская степень. Они принимают критику и стараются исправлять свои недостатки — у многих есть страницы для получения критики и открытые перечни прошлых ошибок. Они не пытаются бездумно уничтожить все существующие институты: это единственное известное мне сообщество, где фраза «Ограда Честертона!» — понятный всем контраргумент, который смещает бремя доказательства на предложившего что-то поменять. Объявить их рациональность «религией» можно ничуть ни с большими основаниями, чем объявить «религией» что угодно. Огромное число раз они повторяли, что им не нравится Спок и они считают его плохим примером для подражания. Среди них есть художники, поэты, танцоры, фотографы и писатели. Они… честно говоря, фразу «у них никогда не бывает романтических взаимоотношений» вряд ли бы сказал человек, хоть сколько-то знакомый с сообществом. Они входят в число людей, которые активнее всего продвигают идеи эффективного альтруизма, побуждают друг друга отдавать часть своего дохода на благотворительность и основали или возглавляют различные благотворительные организации.
Послушайте. Я буду последним, кто станет отрицать, что дорога, по которой мы идём, усеяна черепами тех, кто пытался пройти по ней до нас. Однако мы заметили эти черепа. Мы посмотрели на эти ужасные пирамиды из черепов и подумали: «Ага, лучше попробовать что-нибудь противоположное тому, что творили эти ребята». Лучшие доктора смиренно признают ошибки убийственных кровопусканий, лучшие сторонники левых взглядов смиренно признают ошибки советского авторитаризма, а лучшие генералы смиренно признают ошибки Вьетнама, Ирака, Ливии и так далее. И точно также движение рационалистов не пропустило опасения, которые за пять секунд приходят в голову всем, кто слышит слова «движение рационалистов». Если у вас опасения такого рода и вы хотите нас в чём-то подобном обвинить, пожалуйста, зайдите в Гугл, чтобы убедиться, что мы все не осудили это и не решили не делать ничего такого с самого начала.
Практически наверняка мы совершаем ужасные ошибки, за которые нас будут справедливо критиковать тридцать лет спустя. Но это новые ошибки. Это свежие и восхитительные ошибки, и это совсем не те ошибки, которые сразу же придут в голову и которых попытается избежать каждый, услышавший слово “рациональный”. В худшем случае, это ошибки, упомянутые в законе Хофштадтера — их невозможно избежать или скомпенсировать, даже если ты про них знаешь.
И я надеюсь, что, может быть, сообщество, посвященное тщательной перепроверке собственного мыслительного процесса и пытающееся уменьшить ошибки любым доступным способом, приведёт нас к тому, что мы всё-таки совершим чуть меньше ужасных ошибок, чем люди, которые так не делают. Я надеюсь, что постоянная бдительность дает нам хотя бы небольшое преимущество в определении того, «в чём заключается истина», по сравнению с теми, кто считает, что все эти поиски истины — бессмысленная трата времени.
Алхимик спросил, не хочу ли я выпить. На самом деле я хотел, но, сколько я ни старался, я не мог заставить себя смотреть на жидкость непонятного цвета в бутыли. А золото, которым алхимики платили налоги, странно пахло и непонятным образом скрипело. Поэтому я отказался.
Я вытащил королевский указ и положил на стол между нами. Сын короля умирал. Его не могли спасти ни доктора, ни астрологи, ни ведьмы, ни прочие мудрые люди страны. Король позвал алхимиков, и один из них пришёл. У алхимика тоже ничего не вышло. Однако он проговорился, что в гильдии есть и другие алхимики — великие алхимики, знающие гораздо больше, чем он. Король потребовал, чтобы все лучшие алхимики гильдии явились во дворец и попытались спасти жизнь его сына. А гильдия алхимиков отказалась, заявив, что не может прервать свою работу.
Так я очутился здесь. Я должен был вторично передать приказ короля — более официально и менее вежливо.
Алхимик сделал вид, что читает пергамент. Я был уверен, что он притворяется — его глаза всё время оставались неподвижны. Наконец он дал мне тот же ответ, который получил и королевский курьер: гильдия алхимиков не может прервать свою работу.
— Почему потеря пары недель для вашей работы важнее, чем жизнь принца?! — заорал я и посмотрел прямо в эти жутковатые неподвижные глаза.
Алхимик молчал слишком долго. Я даже забеспокоился, не сломал ли я его — может, это на самом деле какой-то очень сложный механизм, а я крикнул слишком громко и какая-то шестерёнка неудачно сдвинулась. Наконец он спросил:
— Сколько времени тебе нужно было бы изучать архитектуру, чтобы построить такой же замок, как этот?
— Я не архитектор, — ответил я. — Я — воин.
— Я знаю. Так сколько тебе пришлось бы учиться, чтобы стать архитектором?
— Десять лет? — предположил я. — Двадцать?
— А почему? Существуют книги по архитектуре, некоторые из них написаны людьми, намного более великими, чем создатель этого замка. В некоторых из них — пятьсот страниц, в других — тысяча. Ты настолько медленно читаешь, что на тысячу страниц тебе потребуется десять лет?
— Нельзя понять архитектуру, всего лишь прочитав книгу.
— Но почему?
— Потому что… невозможно… — когда алхимик задавал первый вопрос, я разозлился, однако теперь меня всерьёз заинтересовала эта тема. Во всяком случае, это было действительно любопытно. Почему великий архитектор не может записать свои знания в книгу? И почему я не могу прочесть её и стать таким же великим архитектором?
— Потому что нужно всё это запомнить, — наконец ответил я.
— Не обязательно. Когда ты строишь замок, ты можешь носить книгу с собой.
— Это не поможет. Знания… не будут упорядочены в моей голове должным образом. Я захочу построить стену и не буду даже знать, что я должен учитывать при постройке стены. Мне придётся постоянно перелистывать всю книгу целиком.
— Ты — воин, — повторил алхимик. — Ты читал записки Цезаря?
— Я знаю их почти наизусть.
— Ты умеешь командовать войсками как Цезарь?
— Нет.
— Почему?
Я понял, к чему он клонит. Цезарь написал о войне всё, что только можно. Я прочитал это всё. Но я не Цезарь. Проблема не только в том, чтобы заучить книги.
— Знания, — заговорил алхимик, — передать сложнее, чем кажется. Можно записать структуру определённой арки или тактические соображения, лежащие в основе той или иной стратегии. Но есть навыки более высокого уровня, для которых у нас даже нет названий и которые мы не можем оценить. Цезарь мог оглядеть поле боя и точно определить, что в этом месте строй противника прорвать нельзя, а в том — можно. Витрувий мог представить громадную базилику целиком, со всеми её стенами и колоннами. Мы называем это мудростью. Нельзя сказать, что ей нельзя научиться, но ей нельзя научить. Понимаешь?
Я понимал. Если бы Цезарь обучал меня несколько лет, я бы, скорее всего, впитал какие-то из его навыков чтения поля боя. Я научился бы хотя бы смутно видеть суть его гениальности. Но он не смог бы мне просто всё это рассказать. Дело было не в секрете, который он прятал от других, чтобы оставаться самым лучшим. Речь шла о силе, которая принадлежала лишь ему одному, и её можно было передать лишь частично.
— Вообразим, — продолжил алхимик, — что ты захотел построить что-нибудь совершенно простое. Например, крестьянскую хижину. Сколько времени тебе пришлось бы изучать архитектуру под началом Витрувия, чтобы это сделать?
Теперь мне уже не хотелось говорить, что я не знаю. Я просто предположил:
— Год?
— Предположим, ты хочешь построить что-то посложнее. Например, акведук, во всём подобный тем, что строили римляне. Сколько?
— Лет пять?
— Какое-нибудь грандиозное здание, например, дворец или храм?
— … лет десять?
— Самое величественное здание в мире. Собор святого Петра, Пантеон, Шартрский собор, или что-нибудь новое, что сочетает лучшие черты всех этих храмов?
— Откуда я знаю? Лет двадцать? Тридцать?
— Если я скажу, что тебе понадобится двести лет, ты поверишь?
— Нет. Человек живёт лет семьдесят. Если бы, чтобы построить собор святого Петра, нужно было изучать архитектуру больше семидесяти лет, его бы никто не построил.
— Таким образом, — сказал алхимик, — мы обнаружили кое-что удивительное. Искусство архитектуры ограничено человеческой жизнью. Чтобы спроектировать величайшие здания из всех возможных, придётся изучать архитектуру семьдесят лет. Бог провёл черту на песке и навеки закрыл нам путь к ещё более грандиозным творениям.
Я на секунду задумался.
— Кажется, это не так. Каждый год придумывают что-нибудь новое. Парящие контрфорсы, витражи, стрельчатые арки. У римлян ничего этого не было. Мы не просто изучаем работы Витрувия, мы двигаем архитектуру дальше. Возможно, для изобретения контрфорса потребовалась сотня лет, но когда его изобрели, другим архитекторам уже нужны лишь недели, чтобы его изучить и понять, как его правильно использовать в своих зданиях. Архитектура развивается не только от архитектора к архитектору. но и от цивилизации к цивилизации.
— Ты владеешь математикой? — спросил алхимик.
Я покачал головой.
— Тогда я попробую объяснить на словах, хотя правильнее было бы записать уравнение. Первый параметр — скорость, с которой ученик усваивает уже открытые знания по архитектуре. Второй параметр — скорость, с которой мастер изобретает новое. Третий параметр обозначает, в какой степени нужно достичь границ знания, чтобы изобрести новое: при нуле все могут что-нибудь открыть, независимо от того, сколько они знают, при единице нужно сначала освоить все ранее открытые факты. Четвёртый — потенциал для специализации: при единице невозможно понять часть, не поняв целое, при нуле можно делить изучаемую область сколько угодно. Пятый…
— Кажется, замена математики на слова не делает её понятней.
— Эх. Хорошо, представь науку, в которой ученику, чтобы освоить некое знание, нужно потратить десятую часть того времени, которое потратил мастер, чтобы его открыть. И представь, что никто не в состоянии развить эту науку дальше, пока не освоил абсолютно всё, что уже открыто. И невозможно разделить эту ношу — нельзя сказать одному архитектору: «О, ты изучаешь, как делать стены, а я буду изучать, как делать крышу», один гений должен понимать всё здание целиком, все части должны идеально подходить друг к другу. Мы можем вычислить, как далеко продвинется такое искусство.
— Как?
— У первого ученика нет мастера, и ему придётся всё открывать самому. Он исследует 70 лет и записывает свою мудрость в книгу перед смертью. Второй ученик читает эту книгу и за 7 лет учится 70 годам исследований. После этого он исследует что-то новое 63 года и пишет книгу, в которой содержится 133 года исследований. Третий ученик читает эту книгу 13,3 года, затем самостоятельно исследует новое 66,7 лет, и получается 200 лет исследований. И так далее, и так далее. Проходит много поколений, уже накоплено 690 лет исследований, и ученику нужно 69 лет, чтобы их освоить. У него остаётся лишь один год, чтобы открыть что-то новое, и оставить мир с 691 годом исследований. И так прогресс продолжает медленно ползти. Он постоянно увеличивается, но так никогда и не дойдёт до 700 лет архитектурных исследований.
— Такого не может быть, — возразил я. Частично, потому что такого действительно не могло быть, а частично, потому что описанная картина напугала меня сильнее, чем я был готов признать.
— В архитектуре — да. Архитектору не обязательно осваивать абсолютно всё, чтобы открыть что-то новое. И можно делить вопросы между людьми: я могу работать над стенами, пока ты работаешь над окнами. Такое может быть только в случае Искусства столь идеального, столь всеобъемлющего, что ищущий обязан познать всё, что открыли ранее, если он хочет узнать хоть что-нибудь.
— И в этом случае невозможно накопить больше 700 лет знаний.
— Можно поступить умнее. Мы представили, что каждый мастер записывает свои знания в книгу для ученика, который придёт после него, и каждый ученик читает записанное со скоростью в десять раз большей, чем нужна мастеру для открытия нового. Однако что если мы добавим посредника, редактора, который читает книгу не для того, чтобы выучить её содержимое, а чтобы понять, как переписать её более понятно? Кого-то, чья работа заключается в том, чтобы придумывать идеальные аналогии, умные подсказки, новые способы рисовать графики и диаграммы. Когда он освоит заметки мастера, он создаст из них учебник, который можно прочесть за одну двадцатую того времени, которое потребовалось мастеру, чтобы открыть это знание.
— Таким образом мы сможем удвоить максимально возможное количество исследований. Получится 1400 лет.
— Это непросто. Помни, у редакторов те же проблемы, что и у учеников: они могут писать учебник лишь о тех знаниях, которые сами уже поняли. Мы добавляем к задаче множество новых людей и многие поколения работы. Однако в конце мы действительно сможем накопить 1400 лет знания. Что если хочется большего?
— Большего?
— Боюсь, что так.
— Гм. Можно… можно добавить больше слоёв редакторов. Редакторы редакторов, которые сделают учебники поистине идеальными.
— Наверное, ты пытаешься сказать, что такая редактура станет Искусством.
По голосу алхимика было совершенно понятно, что последнее слово начинается с заглавной буквы.
— У каждого Искусства своя структура. Архитектура, если её изучать достаточно времени, позволяет накопить семь сотен лет собранного знания. Сколько лет способны накопить редакторы и учителя? Должен ли некий первый редактор потратить семьдесят лет на освоение принципов редактуры, которые он передаст своему ученику, который продвинет искусство ещё на шестьдесят три года, которые он передаст дальше? Будет ли 1400-летний редактор непредставимым мастером, способным строить настоящие базилики редактуры, мастером-учителем, способным переформулировать любое понятие так, что оно станет интуитивным и легко запоминаемым?
— Я передумал. Налей мне.
Алхимик налил мне жидкость неопределённого цвета. Я отхлебнул. Питьё не походило совершенно ни на что из того, что я пробовал раньше, разве что слегка напоминало букву «Н». Впрочем, я был практически уверен, что в его состав входил алкоголь.
— Ты говоришь о бесконечной последовательности, — сказал я, осушив бокал.
— Не бесконечной. Архитекторы. Учителя. Учителя учителей. Искусство учить учителей уже мало чем отличается от искусства учить. Трёх уровней достаточно. Впрочем, эти уровни смешиваются. Учитель, который обучает следующего архитектора должен быть мастером и в умении учить и в архитектуре. Я опущу математику и просто скажу, что нужно несколько учителей с разным балансом учительского и архитектурного навыков. Один будет потрясающим учителем, десятилетиями изучавшим искусство писать учебники, и он напишет великолепный учебник «Введение в Архитектуру», который позволит идеально и быстро понять первые десять лет архитектурного искусства. Другой будет средним учителем, который в достаточной мере знает продвинутую архитектуру, чтобы написать сносный учебник по этой теме. А ещё один целиком сосредоточиться на изучении мастерства Обучения в надежде однажды передать свои знания другим, чтобы уже они с его помощью писали учебники по архитектуре. На практике мы ограничены несколькими точками на этой кривой баланса между навыками.
— На практике?
Алхимик жестом позвал меня за собой. По тёмным коридорам мы вышли во внутренний двор, залитый светом полной луны. Мне потребовалась секунда, чтобы понять, что я вижу. Затем тёмные фигуры обрели форму. Обелиски, покрытые иероглифами. Сад обелисков.
— Слово «алхимия» происходит от «ал-Кеми», арабского слова египетского происхождения. Первым о проекте задумались древние египтяне. Они не искали философский камень, во всяком случае, на первых порах. Они просто хотели, чтобы появились нормальные философы. Однако философия больше других наук требует мудрости, которая приходит с возрастом. Больше других наук знания философии нельзя просто прочесть — их нужно обдумать, они должны смешаться с жизненным опытом и выкристаллизоваться в этом смешении. Египетские учёные столкнулись с той же проблемой, что и наши гипотетические архитекторы — есть секреты, недостижимые за время жизни человека.
Поэтому они задумались, нет ли способа обмануть смерть. Полученный ответ одновременно обнадёживал и обескураживал. Овладев тайнами высокой химии можно было создать эликсир, дарующий бессмертие. Однако эта работа сама по себе требовала гораздо больше знания, чем мог накопить человек. Уроборос является символом алхимиков, потому что наша задача замыкается сама на себя. Чтобы стать бессмертным, нужно сначала стать бессмертным.
И нам остался лишь медленный путь — идти к цели поколение за поколением, так же, как архитекторы работают над величайшими базиликами. Египет пал, но мы не пали. Рим ушёл в прошлое, но мы остались. Несколько родов, потомки древних жреческих семей Гиераконполя и Мемфиса, продолжают свою работу. Остановка привела бы к тому, что процесс, требующий четырёх тысяч лет постепенного асимтотического приближения к цели, пришлось бы начинать с начала, ведь, тексты, конечно, полезны, но обучать алхимика могут лишь настоящие учителя, обучавшиеся у учителей учителей, которые в свою очередь учились у учителей учителей учителей. О неверном шаге страшно даже подумать. Однако любая победа — единственный флакон Эликсира, единственный кусочек Камня — навсегда покончит с этим кошмаром. Мы станем бессмертными, превратимся в философов, чей жизненный срок наконец будет соответствовать глубинам тайн Природы.
Вот в чём состоит миссия нашей гильдии. Немногие из нас, прошедшие все экзамены, занимаются алхимическими исследованиями, двигающими вперёд Великое Делание. Другие учатся, чтобы стать учителями или учителями учителей. Провалившие экзамен остаются в гильдии в другом качестве и управляют её мирскими делами. Кто-то рыщет по деревням в поисках талантов, которые способны пройти обучение и стать подмастерьями. Другие заведуют нашими финансами. А наименее способные, вроде меня, тратят время на разговоры с другими людьми, пытаясь убедить их в важности нашей миссии. Ещё несколько веков, и у нас будет Камень. Я удовлетворил твоё любопытство?
— Полностью, если не считать изначального вопроса. Вы настолько заняты, что не можете уделить принцу пару недель?
— Бог устроил так, что Великое Делание непросто. Мы сделали всё, что в наших силах, чтобы обучить наших алхимиков, наших учителей, наших учителей учителей и так далее. Но в итоге обнаружилось, что способности человеческие заканчиваются там же, где начинается возможность успеха. По воле своей Он бросает нас в жернова асимптоты.
— Всё равно непонятно.
— Ты помнишь про архитектора, который учится в десять раз быстрее, чем нужно на исследования и при этом не может накопить больше, чем 700 лет знаний? У пятидесятого алхимика будет 696 лет обучения и он сможет потратить на собственные исследования лишь пять месяцев. Сотый алхимик получит 699,98 лет обучения и сможет потратить на исследования лишь день перед смертью. До этого мы ещё не дошли, но мы уже зашли довольно далеко. У нас нет Камня, но есть зелья, которые гарантируют определённый жизненный срок, чтобы никто не умер раньше времени. Последние несколько поколений на смертном одре говорили, что они почти чувствуют Камень, что нужно подумать лишь несколько часов ещё и мы его получим. Говорят, мой дед, умирая, понял рецепт Камня. Он начал диктовать, но его глаза закрылись навеки раньше, чем он успел закончить перечень ингридиентов.
— И?
— Ты просишь нас прервать работу на пару недель, чтобы спасти жизнь принца. Но такая остановка отбросит нас на поколения назад. Мы зашли слишком далеко, и сейчас ценны лишь несколько последних часов в жизни алхимика. Мы не можем уделить принцу часы. Даже секунды не можем.
— А ваши учителя… или учителя учителей?
— Они владеют алхимией в какой-то степени, но у них такая же ситуация. Наши учебники переписывались годами, и сейчас они настолько идеальны, что лишь в последние дни своей жизни учитель становится способен написать что-то лучше. А наши учителя учителей достигли такого мастерства, что лишь в последние дни своей жизни они способны создать учителя лучше, чем те, что уже существуют.
— И в системе нет вообще никакого запаса прочности?
— Только я и подобные мне. Те, кто признан неподходящими для исследований и обречены на мирские дела. Мы уже посылали вам одного такого. Он не справился. Больше нам дать некого.
— Короля это не обрадует. И принц умрёт.
— Все умирают, — ответил алхимик. — Если принц не умрёт в этом году, он умрёт в следующем. Или пятьдесят лет спустя. Вопрос не в том, когда мы умрём, а в том, что наши жизни добавят к Великому Деланию. Ртуть испаряется и исчезает. Но если её смешать с азотной кислотой, то, что останется, будет существовать вечно. Жизни тех, кто не является частью какого-либо Делания, значат для меня меньше, чем для них самих значит один день. Те же, кто двигает Делание, ценнее золота. Так и скажи королю.
— Он не поймёт.
— Тогда ты должен его научить, — сказал алхимик. — Как я научил тебя, а мои учителя научили меня, а их учителя научили их, и так далее до первых философов Египта.
С этими словами он посмотрел на меня, и в черноте его слишком неподвижных зрачков я узрел само Время.
Мы тут пытаемся популяризировать запутанные и сложные для понимания области согласования ИИ, и вот этот мем (ретвитнутый Элиезером на прошлой неделе) уж точно подходит:
Так давайте попробуем понять непостижимый мем! Нашим главным источником будет статья 2019 года Хубинжера и пр. Риски Выученной Оптимизации Продвинутых Систем Машинного Обучения.
Меса- – это греческая приставка, обратная по смыслу мета-. «Перейти на мета-уровень» – это на уровень выше; «перейти на меса-уровнь» – на уровень ниже (никто на самом деле так не говорит, извините). Так что меса-оптимизатор – это оптимизатор на один уровень ниже вас.
Рассмотрим эволюцию, оптимизирующую приспособленность животных. Долгое время она делала это очень механистично, реализуя поведения вроде «используй эту клетку, чтобы детектировать свет, затем расти в сторону света» или «если у чего-то красный кружок на спине, то это должно быть самка твоего вида, тебе следует с этим спариться». Со временем животные становились сложнее и начали брать некоторую часть работы на себя. Эволюция выдавала им стремления, вроде голода и похоти, а животные находили способы их достижения в своей текущей ситуации. Эволюция не вкладывала в меня механистически поведение открывания моего холодильника и поедания ломтика швейцарского сыра. Она вложила стремление – голод, а я уже понял, что лучший способ его удовлетворить – это открыть холодильник и съесть сыр.
Так что относительно эволюции я – меса-оптимизатор. В процессе оптимизации моей приспособленности эволюция создала второй оптимизатор – мой мозг – который оптимизирует штуки вроде еды и секса. Если, как Якоб Фалькович, я удовлетворяю своё стремление к сексу с помощью создания таблицы со всеми женщинами, с которыми я хочу встречаться, добавления в неё их хороших качеств и вычисления, с кем мне следует флиртовать, то – при маловероятном шансе, что таблица обретёт самосознание – она станет меса-оптимизатором относительно меня и меса-меса-оптимизатором относительно эволюции. Все мы – эволюция, я, таблица – стремимся к приблизительно одной цели (чтобы я преуспел в отношениях и передал свои гены). Но эволюция делегировала некоторые аспекты задачи моему мозгу, а мой мозг делегировал некоторые аспекты задачи таблице, и теперь то, будет у меня секс или нет, зависит от того, правильно ли я ввёл формулу в ячейке A29.
(как я слышал, Якоб и Тереза очень счастливы)
Возвращаясь к машинному обучению: нынешний процесс обучения ИИ, градиентный спуск, немного похож на эволюцию. Вы начинаете с полуслучайным ИИ, вкидываете в него обучающие данные, и отбираете наборы весов, которые преуспевают на этих данных. В некоторый момент вы получаете ИИ с чем-то вроде интуиции. Классический классификатор кошек/собак может посмотреть на картинку, обработать кучу её свойств, и вернуть либо «собака», либо «кошка». Этот ИИ – не оптимизатор. Он не планирует. У него нет стремлений. Он не думает «Если бы я только мог понять, собака это или кошка! Интересно, как это можно делать? Может, мне послать э-мейл в Американский Кинологический Клуб, они кажутся такими людьми, которые бы поняли. У этого плана больший шанс на успех, чем у других моих планов.». Он просто исполняет выученные поведения, как насекомое. «На этой штуке красный кружок, это, должно быть, самка моего вида, мне следует с ней спариться.» Хорошая работа, теперь ты спариваешься с флагом Японии.
Но точно так же, как эволюция в какой-то момент перешла от механистических насекомых к созданию меса-оптимизаторов вроде людей, и градиентный спуск может, теоретически, перейти от механистических ИИ вроде классификаторов кошек/собак к созданию каких-нибудь меса-оптимизирующих ИИ. Если так произойдёт, то мы не узнаем: сейчас большинство ИИ для своих программистов – чёрные ящики. Мы бы просто заметили, что некоторая программа, кажется, быстрее работает или лучше приспосабливается, чем обычно (или нет – нет закона, заявляющего, что оптимизаторы обязаны работать лучше, чем исполнители-инстинктов, это просто другой тип проектирования разума).
У меса-оптимизаторов была бы цель, сильно коррелирующая с их базовым оптимизатором, но, может быть, не идеально. Классический пример, опять же, эволюция. Эволюция «хочет», чтобы мы размножались и передавали свои гены. Но моё стремление к сексу – просто стремление к сексу, ничего больше. В окружении наших предков, когда не существовало порно и контрацептивов, секс был надёжным прокси для размножения; у эволюции не было причин заставлять меня меса-оптимизировать что-то кроме «заняться сексом». Сейчас, в современном мире, использованная эволюцией прокси кажется недальновидной – секс стал плохой прокси для размножения. Я знаю это, и я довольно умён, и это не имеет значения. То есть только то, что я достаточно умён, чтобы знать, что эволюция дала мне стремление к сексу, чтобы я размножился – а не чтобы я занимался защищённым сексом с кем-то на противозачаточных – не означает, что я немедленно сменю своё желание на желание размножаться. У эволюции был шанс установить мою функцию ценности, когда она меня создала, и если она с ним облажалась, то всё. Я вышел из-под контроля, делаю что хочу.
(Я чувствую себя обязанным признать, что хочу иметь детей. Насколько это мешает этому аргументу? Думаю, не очень – я не хочу, например, сдать сперму в сотни банков, чтобы увериться, что мои гены были как можно больше представлены в следующем поколении. Я просто хочу иметь детей, потому что мне нравятся дети, и я ощущаю некоторое смутное моральное обязательство по этому поводу. Это может быть другой прокси-целью, которую мне дала эволюция, может, немного более устойчивой, но фундаментально не отличающейся от секса.)
На самом деле, нам следует ожидать, что прокси-цели меса-оптимизаторов в большинстве случаев отличаются от целей базовых оптимизаторов. Базовый оптимизатор – обычно что-то глупое, что ни в каком разумном смысле не «знает», что у него есть цель – например, эволюция или градиентный спуск. Первое, на что он наткнётся, что прилично работает для оптимизации того, что ему надо, будет служить целью меса-оптимизатора. Нет хорошей причины, по которой это должно быть его собственной целью. В случае людей, это было «ощущение трения в гениталиях», что как раз могут понять рептилии, шимпанзе и австралопитеки. Эволюции не могло повезти в выдаче меса-оптимизаторам своей настоящей цели («увеличивать относительную частоту своих аллелей в следующем поколении»), потому что рептилиям и даже австралопитекам до понимания того, что такое «аллель» как до Луны.
Хорошо! Мы, наконец, готовы к объяснению мема! Поехали!
(прозаическое согласование сложное, потому что OOD-поведение непредсказуемо, а обманчивость опаснее Закона Гудхарта)
(мы предотвращаем OOD-поведение, детектируя OOD и добавляя больше человеческих ярлыков при детектировании, и мы избавляемся от стимулов к обманчивости, уверяясь, что базовый оптимизатор миопичен и реализует теорию принятия решений, неспособную на акаузальную торговлю)
(даже для миопической базовой цели существуют обманчиво согласованные не-миопические меса-оптимизаторы)
«Прозаическое согласование» (см. эту статью за подробностями) означает согласование нормальных ИИ похожих на те, которые мы используем сегодня. Люди довольно долго считали, что такие ИИ не могут достигнуть опасных уровней, и что те ИИ, которые их достигнут, будут использовать настолько много новых экзотических открытий, что мы пока не можем даже начинать предполагать, какими они будут и как их согласовывать.
После GPT-2, DALL-E, и прочих, исследователи согласования стали больше беспокоиться, что схожие с нынешними моделями ИИ могут быть опасны. Прозаическое согласование – попытки согласовать ИИ вроде тех, которые у нас есть сейчас – стало доминирующей (хотя и не единственной) парадигмой исследования согласования.
«Прозаическое» вовсе не обязательно означает, что ИИ не может писать поэзию; см. сгенерированную ИИ поэзию у Gwern’а за примерами.
«OOD» означает «за пределами распределения». Все ИИ обучаются в некоем окружении. Потом их развёртывают в другом окружении. Если оно похоже на обучающее распределение, то, наверное, обучение будет довольно полезным и к месту. Если оно не похоже на обучающее распределение, то произойти может всё, что угодно. Возвращаясь к нашему стандартному примеру – «обучающее окружение», в котором эволюция спроектировала людей, не включало контрацептивы. В этом окружении цель базового оптимизатора «передать гены» и цель меса-оптимизатора (получить трение на гениталиях) были очень хорошо согласованы – одна часто приводила к другой – так что на эволюцию не было особого давления, принуждающего искать прокси получше. Потом оп, 1957 год, FDA одобряет оральные контрацептивы, и внезапно окружение развёртывания выглядит совсем-совсем не так, как обучающее окружение, и прокси проваливается настолько позорно, что люди начинают творить безумные вещи, вроде выбирания Виктора Орбана премьер-министром.
Итак: предположим, что мы обучили робота собирать землянику. Мы дали ему погулять по земляничной поляне и поощряли его каждый раз, когда земляничины оказывались в ведре. Со временем он в самом деле научился собирать землянику очень хорошо.
Но может быть, всё обучение проводилось в солнечный день. И может быть, что на самом деле робот научился идентифицировать металлическое ведро по тому, как оно блестело на солнце. Потом мы попросили его собирать землянику вечером, и самой яркой штукой неподалёку был уличный фонарь, и робот стал бросать землянику в уличный фонарь.
Ну ладно. Мы обучаем его в широком диапазоне разных условий освещения, пока мы не становимся уверены, что независимо от освещения земляника отправится в ведро. Потом в один прекрасный день по поляне проходит кто-то с большим распухшим красным носом, и робот отрывает человеку нос и отправляет его в ведро. Ах если бы в обучающем распределении был кто-то с таким большим и таким красным носом, тогда мы могли бы научить робота этого не делать!
Суть в том, что только то, что в одном окружении он научился «собирать землянику в ведро», ещё не значит, что он безопасен или эффективен в другом окружении. И мы никогда не можем быть уверены, что мы поймали все способы, которыми окружения могут различаться.
Использование Закона Гудхарта – это следовать букве своей функции вознаграждения вместо её духа. Пример из обычной жизни – «учить к тесту». Программисты системы (например, Департамент Образования) имеют цель (дети должны учиться). Они делегируют эту цель меса-оптимизаторам (учителям) с помощью прокси-цели (дети должны хорошо справляться со стандартным тестом) и коррелирующей функцией вознаграждения (учителям больше платят, если их ученики получили более высокие оценки за тест). Учителя могут преследовать либо базовую цель за меньшее вознаграждение (учить детей полезным навыкам) или меса-цель за большее (учить их тому, как хорошо сдать тест). Провал согласования!
Это отстой, но это ограниченная проблема. Мы уже знаем, что некоторые учителя учат к тесту, и Департамент Образования принял это как приемлемую цену за то, что система стимулов вообще есть.
Мы можем представить, что наш собиратель земляники нарезает земляничины на маленькие кусочки, чтобы это считалось как сбор большего их количества. Опять же, это отстой, но, когда программист это заметит, это можно довольно быстро исправить (пока ИИ слаб и подконтролен).
Что насчёт обманчивости? Предположим, вышло так, что собиратель земляники получил какую-то другую, не предполагавшуюся, целевую функцию. Может, как и раньше, он хочет бросать земляничины в источники света, так, что это работает, когда ближайший источник света – металлическое ведро, но не работает, когда это уличный фонарь. Наши программисты (в какой-то степени) умны и осторожны, так что во время обучения они тестируют его ночью, рядом с уличным фонарём. Что происходит?
Если это лишь тупой набор рефлексов, обученных градиентным спуском, то он будет кидать землянику в фонарь и это будет легко обнаружено и исправлено.
Если это очень умный меса-оптимизатор, то он может подумать: «Если я брошу земляничину в фонарь, то меня поймают и обучат иметь другие цели. Это будет провал в достижении моей цели, чтобы земляника была рядом с источниками света. Так что бросание земляники к источнику света в этот раз, в обучающем окружении, не приведёт к достижению моей глобальной цели – бросать землянику в источники света вообще. Я сделаю то, чего хотят люди – помещу землянику в ведро – пока что». Так что он помещает землянику в ведро и его не ловят. Затем, как только люди перестают смотреть, он опять бросает землянику в фонарь.
Обманчивость опаснее Закона Гудхарта, потому что применение Закона Гудхарта будет поймано и исправлено, а обманчивость – не обязательно.
Может быть, я объясняю это не очень хорошо, см. также Обманчиво Согласованные Меса-Оптимизаторы? Это Вероятнее, Чем Вам Кажется.
Если вы (в какой-то степени) осторожны, то вы можете запустить свой собирающий землянику ИИ ночью, увидеть, что он бросает землянику в уличные фонари, и обучить его так не делать (т.е. человек-программист помечает это ярлыком «плохо», чтобы градиентный спуск увёл ИИ от этого).
Миопический оптимизатор – такой, который поощряет программы, основываясь только на качестве их работы на коротком промежутке времени. Так что, к примеру, внешняя петля градиентного спуска может оценивать собирателя земляники только по тому, как он собирал землянику в первый час развёртывания.
Если это работает идеально, то получится оптимизатор с коротким временным горизонтом планирования. Когда он рассматривает идею обмануть своих программистов ради выгоды через несколько дней, когда они перестанут за ним присматривать, его это не беспокоит, потому что несколько дней – за пределом его временного горизонта.
Серьёзно, вы не хотите про это знать. Давайте просто представим, что это не упоминалось, извините за неудобство.
Даже если базовый оптимизатор миопичен, меса-оптимизатор может таким не быть.
Эволюция проектировалла людей миопично, в том смысле, что мы живём некоторое количество лет, и ничто, что произойдёт после этого не может нас вознаградить или наказать. Но мы всё равно «строим для потомков», вероятно, как необходимый для обладания работающим планирующим «софтом» побочный эффект. Бесконечная оптимизационная сила могла бы эволюционировать нас от этого, но бесконечная оптимизационная сила вообще может много чего сделать, а реальная эволюция всё же конечна.
Может, было бы полезно, если бы мы могли сделать миопическим сам меса-оптимизатор (хотя это сильно бы ограничило его полезность). Но пока что нет способа сделать меса-оптимизатор каким бы то ни было. Вы просто запускаете градиентный спуск и скрещиваете пальцы.
Наиболее вероятный исход: вы запускаете миопический градиентный спуск, чтобы создать собирателя земляники. Он создаёт меса-оптимизатора с некоторой прокси-целью, которая очень хорошо соотносится с собиранием земляники в обучающем распределении, вроде переноса красных штук к свету (в реалистичном случае это будет намного более странно и экзотично). Меса-оптимизатор не стимулирован думать о чём-то более чем на час в будущем, но он всё равно это делает, по тем же причинам, по которым не стимулированный строить предположения о далёком будущем я всё равно это делаю. Строя предположения о далёком будущем, он понимает, что неправильно собирание земляники сейчас повредит его цели бросания красных штук в светящиеся объекты потом. Он собирает землянику правильно в обучающем распределении, а затем, когда обучение закончилось и никто не смотрит, бросает землянику в уличные фонари.
(Затем он понимает, что мог бы бросать куда больше красных штук в источники света, если бы был мощнее, как-нибудь достигает уровня суперинтеллекта, и конвертирует массу Земли в красные штуки, которые он может бросить в Солнце. Конец.)
Вы всё ещё тут? Но мы уже закончили объяснять мем!
Ок, ладно. Относится ли что-то из этого к реальному миру?
Насколько нам известно, полноценных меса-оптимизаторов не существует. AlphaGo – что-то вроде меса-оптимизатора. Его можно приближённо рассматривать как оптимизатор хорошего-хода-в-го, созданный петлёй градиентного спуска. Но это лишь приближение: DeepMind жёстко закодировали некоторые части AlphaGo, а затем провели градиентный спуск для других частей. Его целевая функция – «выигрывать партии в го», она жёстко закодирована и весьма ясна. Называть это или нет меса-оптимизатором, он не очень пугающий.
Получим ли мы страшные меса-оптимизаторы в будущем? Это связано с одним из самых длинных споров в согласовании ИИ – см., например мой обзор на Переосмысление Суперинтеллекта, или диалог Элиезера Юдковского и Ричарда Нго. Оптимисты говорят: «Раз преследующий цели ИИ может всех убить, я просто не буду такой создавать». Они выдвигают предположения о механистических/инстинктивных суперинтеллектах, которые было бы сравнительно легко согласовать, и которые могут помочь нам понять, что делать с их более страшными собратьями.
Но литература по меса-оптимизаторам возражает: у нас есть весьма ограниченный, если хоть какой-то, контроль над тем, какой ИИ мы получим. Мы можем избежать намеренного проектирования ИИ, преследующего цели. Но на самом деле всё, что мы тут делаем – это настраиваем петлю градиентного спуска и нажимаем «пуск». Затем в петле эволюционирует такой ИИ, который лучше минимизирует функцию потерь.
Будет ли это меса-оптимизатор? Ну, я получаю выгоду от рассмотрения своих действий и выбора тех, которые лучше приводят к достижению моей цели. Получаете ли выгоду вы? Это точно выглядит как что-то помогающее в широком классе ситуаций. Так что было бы удивительно, если бы планирующие агенты не были эффективным видом ИИ. И если это так, то нам следует ожидать, что градиентный спуск рано или поздно на них наткнётся.
На этом сценарии сосредотачиваются многие исследования согласования ИИ. Когда мы создадим первого настоящего планирующего агента – намеренно или случайно – процесс скорее всего начнётся с запуска нами петли градиентного спуска с некой целевой функцией. В результате получится меса-оптимизатор с некой другой, потенциально отличающейся, целевой функцией. Заполучение уверенности в том, что вам действительно нравится целевая функция, которую вы намеренно дали изначальной петле градиентного спуска – это называется внешним согласованием. Передача этой целевой функции получившемуся на самом деле меса-оптимизатору – это называется внутренним согласованием.
Проблемы внешнего согласования звучат в духе Ученика Чародея. Мы говорим ИИ собирать землянику, но забываем включить оговорки и стоп-сигналы. ИИ становится суперинтеллектуальным и превращает весь мир в землянику, чтобы он мог собирать её как можно больше. Проблемы внутреннего согласования звучат как то, что ИИ замощает вселенную безумными штуками, которые, с точки зрения людей, могут вовсе никак не напоминать сбор земляники, но в экзотической онтологии ИИ они служили полезным прокси для сбора земляники в обучающем распределении. Мой пример был «превратить весь мир в красные штуки и бросать их в Солнце», но то, что будет делать ИИ, который нас убьёт, скорее всего будет куда страннее. Это не ироничное запоздалое понимание Ученика Чародея. Это просто «что?». Если вы напишете книгу о волшебнике, который создал собирающего землянику голема, а тот превратил всю Землю в железистые сферы и оттащил их к Солнцу, то она не станет культовой, как Ученик Чародея.
Проблемы внутреннего согласования происходят «первыми», так что мы не подберёмся к хорошей истории решения внешнего согласования, пока не разрешим кучу трудностей, с которыми мы пока что не знаем, что делать.
За дополнительной информацией можете посмотреть:
Двое детей читают текст, написанный ИИ:
Хоббиты брызгали друг другу в лицо водой, пока оба не промокли до нитки.
Один другому говорит: «Ва-ау! Если давать ИИ читать больше текстов, со временем он поймет, что такое вода!»
Второй ребенок отвечает: «На самом деле, не поймет».
Первый ребенок говорит: «Ну, конечно, поймет! Он осознает, что вода — это жидкость, которой можно брызгаться, и что если обрызгать человека водой, тот намокнет. Что тут ещё понимать?»
Второй ребенок говорит: «Всё, что он понимает это лишь отношения между словами. Ни одно из этих слов не привязано к реальности. Для него не существует такого понятия как „вода“, также как не существует понятия „быть мокрым“. Буквы В-О-Д-А, стоящие неподалеку от букв Б-Р-Ы-З-Г-И, для него статистически связаны с буквами М-О-К-Н-У-Т-Ь».
Первый ребенок убегает в слезах.
Двое химиков наблюдают за спором детей. Первый химик говорит: «Ва-ау! Понаблюдав за ИИ, они смогли обсуждать природу воды!»
Второй химик иронично: «Действительно ли? Дети ведь и сами не понимают, что такое вода! Вода — это два атома водорода плюс один атом кислорода. И ни один из них не знает этого!».
Первый химик отвечает: «Да ладно. Они знают о воде достаточно, чтобы сказать, что понимают её. Они знают, как она выглядит, знают, какая она на вкус. Это в общем-то всё, что нужно знать о воде».
Второй химик отвечает: «Все это лишь связи между наборами сенсорных данных. Ребенок знает, что (изображение прозрачной блестящей штуки) = (ощущение влажности на коже) = (освежающий вкус). Он может использовать эти связи, чтобы делать предсказания, вроде, если на меня выльют ведро (изображение прозрачной блестящей штуки), то появится сильное (ощущение влажности на коже). Слово «вода» тут является узлом,связывающим все ощущения воедино. Делать предсказание о мире становится намного проще. Но не важно, насколько хорошо ты понимаешь эти связи, они никогда не приведут к идее H2O или любым другим химическим фактам, находящимся за пределами обычных сенсорных данных».
Первый химик говорит: «Возможно, им известны факты вроде „вода заставляет железо ржаветь“. Это химический факт».
Второй химик говорит: «Нет, они знают только, что (изображение прозрачной блестящей штуки + влажность + свежесть) заставляют (изображение тусклой металлической штуки + твердость) измениться на (изображение красных пятен + мягкость). Они не понимают, что H2O + Fe даёт оксиды железа. Им известно множество статистических связей между сенсорными данными, но ни одна из этих связей не ведет к химическим явлениям, стоящим за данными».
Первый химик говорит: «Тогда насколько мы сами можем говорить, что понимаем воду? Ведь за химическими реакциями стоят более глубокие уровни материи: квантовые поля, суперструны и уровни еще ниже этих. Все что у нас есть это статистические отношения, которые выполняются, несмотря на устройство нижних уровней».
Двое ангелов наблюдают за спором химиков. Первый ангел говорит: «Ва-ау! Увидев взаимосвязь между сенсорным данными и атомной моделью устройства мира, эти химики осознали, что существуют уровни понимания, недоступные людям».
Второй ангел говорит: «Нет, не осознали. Они лишь механически проводят аналогию от связи атомной модели с сенсорными данными. Они не знаю ничего о или о
. Они даже не могут выразить их в своём языке!».
Первый ангел говорит: «Да, но ведь указатели, которые они используют, вроде „уровни еще ниже этих“ будут иметь те же статистические отношения между моделью и реальностью, что и ».
«Да, но это все равно, что сравнивать способность отвечать „Поло!“, когда тебе говорят „Марко!“ с глубоким историческим пониманием торговых отношений Европы и Азии в средних веках. Само по себе понимание того, что некоторые статистические модели подобны друг другу, не даст ни малейшего представления о том, какой у этих моделей».
«Я не говорю, что люди действительно что-то понимают», — сказал первый ангел. — «Просто впечатляет, чего можно добиться, манипулируя символами ментального языка, построенного поверх сенсорных данных без всякой связи с соответствующим вообще».
«Думаю, да, впечатляет», — сказал второй ангел. — «Для людей».
Бог сидит в верхнем пределе рая, один.
«Ва-ау!», — думает он про себя. — «Этот простенький клеточный автомат сегодня генерирует занятные паттерны. Интересно, что он сделает дальше!»
Примечание редактора сайта: Этот перевод взят из блога Антона Желтоухова.
Он работает в очень скучном здании, которое практически никогда не пытаются ограбить. Он сидит в своей охранной будке и решает кроссворд. Время от времени слышится шум и он идет проверить: грабители это или просто сквозняк.
Это сквозняк. Это всегда сквозняк. Это никогда не грабители. Никто не пытается ограбить Магазин Подушек в Топеке, штат Огайо. Если здание в среднем грабят один раз за десять или двадцать лет, то возможно за все время своей работы он так и не столкнется с настоящим грабителем.
Со временем, он вырабатывает для себя простое полезное правило: когда услышишь звук - можно не идти проверять, а продолжать сидеть разгадывать кроссворд: это просто ветер, чувак.
Это простое правило верно в 99.9 процентах случаев, что очень неплохо как для простого правила, к тому же избавляет от массы забот.
Единственная проблема в том, что теперь он буквально полностью бесполезен. Он гарантировано исключил любой шанс когда-либо принести пользу. Ничего не потеряешь, заменив его на булыжник с надписью «ГРАБИТЕЛЕЙ НЕТ».
Она — доктор терапевт. Каждый день, к ней приходят пациенты и говорят: «у меня болит спина» или «какое-то странное ощущение в животе». Она осматривает, пальпирует, простукивает и прослушает разные части тела, берет кое-какие анализы, и сообщает «Все в порядке, выпейте две таблетки аспирина и наберите мне через неделю если не станет лучше». Всегда становится лучше. Никто и никогда ей не перезванивает.
Со временем, она становится небрежной. Она осматривает, но не ощупывает. Она не назначает никаких анализов. Просто говорит: »Это пустяк, пройдет само по себе». И она всегда права.
Она будет делать так на протяжении всей своей карьеры. Если ей очень повезет - ничего плохого не произойдет. Более вероятно, что у двух или трех ее пациентов окажется рак или еще что-то жуткое, и она это упустит. Но эти люди умрут, а остальным пациентам она запомнится как очень приятный и заботливый доктор. Всегда такая обнадеживающая, никогда не жмякающая и не дырявящая их иглами как другие доктора.
Ее правило срабатывает 99.9% раз, но она не приносит буквально никакой пользы. Нет смысла в ее существовании. Ее с выгодой можно поменять на булыжник с надписью: «Все в порядке, выпейте две таблетки аспирина и ждите, пока пройдет».
Он комментирует последние восторгающиеся пресс релизы от тех компаний. «Это изменит все!», сообщает пресс релиз. «Нет, не выйдет», комментирует он. «Это - величайшие в истории изобретение», сообщает пресс релиз. «Это развод», отвечает он.
Каждый раз когда предсказывают перемены, он и опровергает. «Скоро у всех будут летающие машины!» — «Наши машины навсегда останутся прикованными к земле.» «Скоро все будут пользоваться криптовалютой!» — «Мы продолжим пользоваться долларами и visa, точно также как и раньше». «Мы катимся к диктатуре!» — «Нет, у нас и дальше будет та же скучная олигархичная псевдо-демократия». «Наступит расцвет новой эпохи гражданской государственности» — «Ты пьян, иди спать»
Когда будут подсчитаны все показатели Бриера и добавлены все баллы Байеса, он будет лучшим футуристом из всех. Все остальные изредка ведутся на какой-то развод или хайп, он же — никогда. Его простое правило действительно превосходно.
Но — давайте вместе — его можно с выгодой заменить на булыжник. «НИЧЕГО НИКОГДА НЕ МЕНЯЕТСЯ И НЕ БЫВАЕТ ИНТЕРЕСНЫМ», утверждает камень, буквами высеченными на его поверхности. Зачем же нанимать мягкое слюнявое человеческое существо, когда есть этот великолепный сияющий булыжник?
Она все опровергает. Телепатия? У нее есть опровержение. Бигфут? Опровержение. Анти-ваксер? Пять опровержений плюс одно в подарок, только для вас.
Когда она начинала, она пристально изучала каждое из явлений и обнаруживала, что это лишь «ловкость рук», после чего беспощадно унижала простаков которые на это повелись и проходимцев которые это распространяли. Проделав процедуру сотни раз, она стала пропускать первые два шага. Ее алгоритмом стало: «когда человек говорит что-то необычное, противоречащее общепринятому мнению — беспощадно унижай».
Она всегда права! Когда появились гидроксихлорохинщики, она была первой, кто их осудил, пока все остальные еще разбирались в вопросе. Когда появились первые ивермектинщики, она тоже была первой! Безупречный результат.
(правда зазорно за тот раз, когда она с такой же беспощадностью осуждала флувоксамин)
Быстро, легко читается, и 99,9% правда. Очень приличный результат, особенно по сравнению с теми кто «проводит собственное расследование» и временами ошибается. И тем не менее, она использует немало кислорода, питья и еды. А знаете, чему не нужен ни кислород ни еда с питьем? Булыжнику с надписью «ВАША НЕЛЕПОЗВУЧАЩАЯ ИДУЩАЯ ВРАЗРЕЗ ИДЕЯ — НЕ ВЕРНА!»
Это отличный булыжник. Вам стоит им дорожить. Если вас часто тянет поверить нелепозвучащим идущим вразрез идеям, этот булыжник — ваш господь бог. Но это протестантский бог. Ему не нужны пастыри. Если кто-то вдруг устроится пастырем для булыжника, вам стоит вежливо ему сообщить, что от него мало толку и вы предпочитаете взаимодействовать с булыжником без посредников. Претендующим на роль лидера мнений, скажите что вы предпочитаете, чтобы вашими мнениями управлял напрямую булыжник.
Он проводит собеседования кандидатов на работу в крупной компании. Он выбирает тех, кто ходил в лучшие университеты и имеет наибольший опыт.
Другие эйчары порой найдут самородка, или рискнут выбрать кого-то с менее впечатляющим резюме, но лучше подходящего культуре компании. Это не про него. Любой, кто ходил в топовый ВУЗ, лучше того кто ходил в региональный и еще лучше того, кто ходил в колледж. Любой с десятью годами опыта, лучше любого с пятью, кто в свою очередь лучше любого с одним. Можешь рассказать ему про свои крутые внеурочные проекты и нестандартные достижения — он останется непоколебим.
Сложно спорить с тем, что работники которых он нанимает — очень хороши. Но на посмертном вскрытии, судмедэксперт обнаружит в его черепной коробке булыжник с надписью «Нанимай людей из лучших ВУЗов с большим опытом» на месте, где должен был находиться мозг
Она правит вулканическим островом. Все переживают о времени, когда случится извержение. Мудрейшие жители королевства исследовали эту проблему и установили, что каждый год шанс извержения равняется 1/1000, независимо от того извергался ли он за год до этого. Существуют сигналы, заметные мудрецам — легкое изменение цвета лавы, едва заметное отклонение аромата серы - но ничего очевидного, пока не станет слишком поздно.
Королева основала Ученое Сообщество Вулканологов и назначила их ответственными за прогнозирование извержений вулкана. Она не знала, но существовало 2 вида вулканологов. Добросовестные вулканологи, которые, насколько умели, по-честному пытались считать сигналы. И Культ Черного Булыжника: зловещая секта которая получала свои дьявольские знания при помощи тайного общения с булыжником на котором начертано «ВУЛКАН НЕ ИЗВЕРГАЕТСЯ».
Время от времени честный вулканолог замечал, что лава приобретает несколько необычный цвет, и говорил об этом Королеве. Королева паниковала и искала у всех совета. Честные вулканологи отвечали: «Послушайте, это тяжелый вопрос. Лава выглядит сегодня немного необычно, но она в том или ином смысле всегда немного отличается от нормы, и к тому же этот вулкан редко извергается, но, насколько мы можем судить - этот раз может оказаться исключением». Сектанты же в тайне проверяли свой булыжник и отвечали: «Не волнуйтесь, вулкан не извергается». Затем вулкан не извергался. Королева наказывала любящих сигналы вулканологов, которые подняли ложную тревогу, хмурилась на бесполезных вулканологов, которые всегда были не уверены, и повышала уверенных в себе сектантов, которые верно спрогнозировали, что все в норме.
Время шло. С каждым годом, сектанты, а также организации и методы мышления которые способствовали их появлению, приобретали все больше статуса по сравнению с честными вулканологами, их организациями и методами. Королева умерла, последовал ее последователь и остров продолжал в том же духе скажем пятьсот лет.
После пятисот лет, лава начала выглядеть странновато, и королева проконсультировалась со своими советниками. К этому времени, они на 100% состояли из сектантов, по этому посовещавшись с булыжником сообщили: «Нет, вулкан не извергается». Затем сера стала пахнуть иначе, и королева переспросила: «вы уверены?», на что они, в тайне перепроверив булыжник, ответили: «Да, мы уверены». Земля стала трястись, и королева спросила их в последний раз. Тогда они взяли крохотные увеличительные стекла и изучили камень так близко как могли и все так же сказали «ВУЛКАН НЕ ИЗВЕРГАЕТСЯ». Вулкан извергся и все погибли. Конец.
Он живет в портовом городе и прогнозирует ураганы. Ураганы очень редки, но когда они случаются — тонут все судна, поэтому синоптику очень хорошо платят.
Читавшие Лавкрафта в курсе, что различные зловещие культы смерти пережили падение Атлантиды, и нет среди них более зловещего, чем Культ Булыжника. Этот синоптик оказался адептом и в тайне контактировал с булыжником с надписью «УРАГАНА НЕ БУДЕТ».
В течение многих лет, урагана не случалось, и синоптик приобрел большую известность. Другие, менее значимые синоптики иногда сомневались насчет ураганов, но этот — никогда. Бизнесмены любили его, ведь он никогда не просил отменять их морские походы. Журналисты любили его, ведь он всегда давал четкие и уверенные ответы на их запросы. Политики любили его, ведь он принес их городу славу и процветание.
Затем однажды пришел ураган. Он был полностью неожидан и погибло множество людей. Синоптик протараторил: «Ну, да, иногда бывают исключения, которые даже я не могу предсказать, но это не обесценивает мой обширный опыт и многие годы успеха, а еще, вам не кажется, что люди которые меня критикуют, имеют бизнес интересы в других городах, которые могут в заговоре, чтобы нас разорить?». Было запущено расследование, но и бизнесмены и журналисты и политики все были на его стороне, и его оправдали и он вернулся к своей почетной должности.
Иногда, существует «простое правило, которое практически всегда работает», как например «эта технология не способна все изменить» или «завтра не будет урагана».
И бывает, что редкие исключения настолько важны, что мы поручаем задачу их обнаружения специалистам. Но эффективность этих простых правил настолько трудно превзойти, что сами специалисты могут пойти на соблазн в тайне на них полагаться, публично изображая использование более утонченные формы экспертной оценки. «Моя статистическая модель, с учетом теории хаоса, барометрического давления, стоимости чая в Китае, предсказывает что завтра не будет урагана. Возрадуйтесь!»
Возможно, это из-за глупости и лени экспертов. А может дело в давлении социума: ошибиться, потому что ты не воспользовался общеизвестным простым правилом, которое способен усвоить даже булыжник, гораздо более позорно, чем ошибиться не учтя тонкое явление, которое помимо тебя тоже никто не учел.
Или возможно, ложноположительные результаты хоть и менее важны, но встречаются чаще ложноотрицательных. А значит, на любом «нормальном» отрезке времени люди, которые никогда не дают ложноположительных предсказаний, кажутся более выверенными и успешнее проходят отбор.
Это плохо по ряду причин.
Во-первых, потому, что все тратят свое время и деньги на то, чтобы вообще иметь экспертов.
Во-вторых, потому что это порождает необоснованную уверенность. Вероятно простое правило гласит о базовой вероятности в 99.9%, что событие не произойдет. Но когда вы проконсультируетесь с кучей экспертов, которые утверждают что у них есть дополнительные свидетельства о том, что событие не произойдет, вы повышаете свою оценку вероятности до 99.999%. Но на самом деле, эксперты использовали то же самое простое правило что и вы, и вам стоило оставить свою оценку на отметке 99.9%. Ложный консенсус основанный на информационном каскаде.
Новое изобретение ничего не изменит. Распространяющаяся болезнь не вызовет глобальную пандемию. Эта конспирология — тупость. Аутсайдер не опроверг экспертов. Новое лекарство не будет действовать. Кандидат «темная лошадка» — не выиграет. Эта потенциальная угроза не приведет к уничтожению мира.
Все эти утверждения практически всегда верны. Но простые правила, которые почти всегда работают, подталкивают нас быть более уверенными в каждом из этих случаев, чем стоило бы.
Добавлено: Некоторые люди спрашивают, не тоже ли это самое, что черные лебеди. Я согласен, что черный лебедь — это отличный пример, но все же я считаю, что пишу про несколько другое, включающее в себя правила типа «на работу стоит нанимать только выпускников топовых ВУЗов» или «нужно доверять экспертам». Если угодно, вы можете называть отчисленного студента, обошедшего выпускника топового университета «черным лебедем», но это будет необычно. И основная идея не в том, что «иногда случаются черные лебеди», но в том, что существование экспертов, пользующихся простыми правилами вызывает предсказуемый перегиб мнения в сторону этих правил.
Каждый раз когда кто-то небрежно обесценивает рациональность, или высмеивает рационалистов, тратящих офигиллионы мозговых циклов на «очевидные» вопросы, обратите внимание на то, как они принимают свои решения. 99.9% раз — это »простые правила, которые практически всегда работают».
(но постарайтесь не упустить оставшийся 0.1%. Это люди, у которых есть чему поучиться)
[Примечание переводчика: Оригинальное название статьи «Guided by the beauty of our weapon» является цитатой из песни Леонарда Коэна «First we take Manhattan» («Сперва мы возьмём Манхэттен»).]
[Замечание по содержанию: в статье говорится о сторонниках Трампа и им подобных так, как будто их здесь нет.]
Используя Трампа и Брексит как отправные точки своей аргументации, Том Харфорд в своей статье «Проблема с фактами» пишет, что люди, в основном, невосприимчивы к фактам и сопротивляются логике:
Всё это рисует мрачную картину для тех из нас, кто не готов жить в мире постправды. Кажется, факты бессильны. Попытка опровергнуть смелую и запоминающуюся ложь с помощью набора сложных фактов зачастую служит только укреплению мифа. Важные истины часто кажутся устаревшими и скучными, поэтому вместо них очень легко породить новые более привлекательные заявления. И, предоставляя людям больше фактов, мы порой добиваемся обратного результата, ведь обилие фактов вызывает защитную реакцию у тех людей, которые просто хотели не менять своих взглядов на мир. «Тёмные делишки», — как говорит Райфлер. — «Мы живём в тёмное и страшное время».
Харфорд признаёт, что у него нет готовых ответов, но приводит некоторые исследования, подтверждающие, что «научное любопытство» может вернуть людям интерес к фактам. Он думает, что, возможно, мы сможем разжечь в окружающих научное любопытство, соединяя научные истины с историями, которые интересны людям, создавая убедительные повествования, найдя кого-то «вроде Карла Сагана или Девида Аттенбороу» в области гуманитарных наук.
По-моему, это, в целом, хорошая статья, в ней подняты важные темы, но мне хотелось бы затронуть три вопроса, потому что они, судя по всему, указывают на наличие более глубоких закономерностей.
Во-первых, в статье делается очень сильное заявление, что «факты бессильны», но сама статья пытается убедить в этом читателя с помощью фактов. Например, в статье освещается исследование Нихана и Райфлера, посвященное так называемому «эффекту обратного результата»: люди лишь сильнее цепляются за свои заблуждения после того, как им на эти заблуждения указали1. Харфорд ожидает, что этот факт нас впечатлит. Но чем именно этот факт отличается от всех остальных фактов, к которым люди, по его словам, невосприимчивы?
Во-вторых, работа Нихана и Райфлера, скорее всего, неверна. Дело в том, что результаты исходных исследований так и не удалось воспроизвести(например, см. статью Портера и Вуда, 2016). Это замечание не опровергает аргумент Харфорда полностью: он цитирует не исходное исследование, а опубликованное через год продолжение, и хотя его проводила та же команда учёных, они пришли уже к несколько иным выводам.
Но, с учётом сказанного, вся область исследований уже кажется сомнительной, и сдаётся мне, было бы разумно упомянуть об этом в статье. Особенно в свете того, что сама статья посвящена распространению ложных идей людьми, которые никогда не перепроверяют свои убеждения. Мне кажется, что если ты веришь в эпидемию лжи настолько масштабную, что под угрозой сама возможность отделять факты от вымысла, то эта вера сподвигнет тебя на ПОСТОЯННУЮ БДИТЕЛЬНОСТЬ, на проверку каждого своего убеждения с маниакальным упорством. И всё же Харфорд пишет целую статью о ложных убеждениях, которые распространяются по миру, подобно чуме, но не прикладывает усилий, чтобы разобраться, верны ли исследования, на которые он ссылается, или нет.
В-третьих, Харфорд преподносит свою работу как статью по агнотологии, — «исследование вопроса, как люди сознательно вырабатывают у себя невежество». В качестве основного примера он использует табачные компании, успешно посеявшие сомнения в том, что курение вредит здоровью. Например, он рассказывает о том, как табачные компании спонсируют исследования тех причин болезней, которые не связаны с курением, чтобы сфокусировать внимание людей именно на этом.
Однако его предложение — рассказывать воодушевляющие истории, вызывать у людей интерес, создавать занимательные (доставляющие удовольствие) документальные фильмы в стиле Карла Сагана, — удивительно не подходит для поставленной проблемы. Национальные институты здравоохранения могут сделать яркий и запоминающийся документальный фильм о курильщике, который страдает от рака лёгких. И табачные компании могут сделать воодушевляющий документальный фильм о парне, которого спасли от рака лёгких (вызванного асбестом) благодаря исследованиям, спонсируемым табачными компаниями. Противники Брексита могут сделать воодушевляющий ролик о том, почему Брексит плох. А сторонники Брексита могут сделать воодушевляющий ролик о том, почему Брексит хорош. И, при наличии хороших изготовителей роликов, обе стороны будут одинаково убедительны, вне зависимости от реального положения дел.
Все три этих замечания немного несправедливы. Во-первых, самые сильные утверждения Харфорда, скорее всего, это преувеличения, а на самом деле он просто имел ввиду, что люди иногда игнорируют доказательства. Во-вторых, то конкретное исследование, которое цитирует Харфорд, и то, которое так и не удалось воспроизвести, это два разных исследования. При этом, Харфорд мог бы указать, что, процитированное исследование достаточно сильно отличается от исходного, чтобы предположить, что оно всё-таки корректно. Ну, и, в-третьих, документальные фильмы были лишь одной из идей, призванных служить более глобальной цели, - пробудить в людях «научное любопытство». С помощью которого, как показывают исследования, можно привить людям привычку верить правде.
Но меня беспокоит, что все эти три пункта вместе предполагают наличие некой невысказанной предпосылки. Дело не в том, что люди в принципе невосприимчивы к фактам. Харфорд же не ждёт, что его читатели будут невосприимчивы к фактам, он не ждёт, что создатели документальных фильмов будут невосприимчивы к фактам, и уж точно, он не считает невосприимчивым к фактам себя. Проблема в том, что вроде бы где-то есть некое таинственное племя иммунных к фактам троглодитов, которые только и знают, что бойкотировать вакцины и поддерживать Брексит, а остальным из нас нужно решить, что с ними делать. И в этом случае фундаментальная проблема — это проблема передачи информации: как мы организуем передачу информации вниз от любящей факты элиты к факто-невосприимчивым массам?
И я не хочу осуждать такую постановку вопроса слишком сильно, потому что какое-то здравое зерно в ней, очевидно, есть. У медиков-исследователей есть много полезных фактов о вакцинах. Специалисты в области статистики знают великолепные факты о связи табака и рака лёгких (хотя мне стыдно за Рональда Фишера). Наверно есть даже социологи, у которых найдётся факт-другой.
И всё же, как я уже писал, чрезмерное внимание к таким вещам, как протесты против прививок, порождает плохую привычку. А именно, желание взять какой-нибудь вырожденный случай, какую-нибудь редкую ситуацию, когда одна из сторон очевидно права, а вторая так же очевидно ошибается, и сделать эту ситуацию центральным примером при моделировании всех человеческих разногласий. Представьте себе теорию юриспруденции, разработанную для наказания только суверенных граждан2. Или государственную политику в области развития инноваций, которая базируется исключительно на том, что призывает изобретателей не делать вечные двигатели.
И в этом широком контексте, часть меня задаётся вопросом: не является ли сосредоточенность на вопросе «как передать информацию» частью проблемы? Все от статистиков до сторонников Брексита знают, что они правы. Единственная оставшаяся проблема, — как убедить других. Зайдите на Facebook и вы найдёте миллион разных людей с миллионом разных мнений. Каждый уверен в своих суждениях и каждый отчаянно пытается убедить в них всех окружающих.
Представьте себе класс, где каждый считает, что он учитель, а остальные — ученики. Все воюют со всеми за место у доски, за право читать лекции, которые никто не будет слушать, и задавать домашнюю работу, которую никто не будет делать. И, когда все получают двойки за контрольную, одного из «учителей» посещает гениальная мысль: «Мне нужен более воодушевляющий учебный план». Конечно. Это поможет.
Новая статья Натана Робинсона: «Дискуссия или убеждение». Она строится по той же схеме, что и статья Харфорда, но на этот раз с точки зрения политических левых. То, что Робинсон называет «Дискуссией, Основанной на Чистой Логике», против сторонников Трампа не сработало. Некоторые левые думают, что ответ — насилие. Но, возможно, это преждевременно: вместо этого мы должны попробовать инструменты риторики, эмоциональной привлекательности и других форм донесения информации, которые не являются «Дискуссией, Основанной на Чистой Логике». Статья заканчивается выводом: Берни бы выиграл3.
Я думаю, что отказываться от аргументации, доводов и общения только потому, что Дискуссия, Основанная на Чистой Логике, не сработала, — это ошибка. Легко прийти к выводу, что если вы не можете убедить правых с помощью набора фактов, то в публичных дискуссиях просто нет смысла. Однако, не исключено, что дело не в возможностях убеждения и диалога. Стоит подумать, быть может, одних фактов риторически недостаточно для того, чтобы заинтересовать людей вашей политической программой.
Сходство с Харфордом очевидно. Вы не можете убедить людей фактами. Но вы можете убедить людей фактами, тщательно смешанными с человеческими интересами, убедительным повествованием и эмоциональной привлекательностью.
И опять я считаю, что это в целом хорошая статья, и она затрагивает важные темы. Но я всё равно хочу усомниться в том, что всё действительно настолько плохо, как в ней сказано.
Введите в Гугл «дискуссия со сторонниками Трампа является»4, и вы поймёте, почему появилась эта статья. В результатах поиска страница за страницей будут встречаться «дискуссия со сторонниками Трампа является бессмысленной», «дискуссия со сторонниками Трампа является пустой тратой времени» и «дискуссия со сторонниками Трампа является [забавная метафора для чего-нибудь, что не работает]». Вы увидите картину мира, полного противников и сторонников Трампа, спорящих на каждом углу, и, наконец, после нескольких месяцев стука головами об стену, единодушно решивших, что дискуссии бесполезны.
И всё же у меня сложилось противоположенное впечатление. Каким-то образом в сильно поляризованной стране прошли беспрецедентным образом перессорившие всех выборы, однако никаких дискуссий, по сути, и не было.
Не использую ли я по отношению к слову «дискуссия» аргумент «Ни один истинный шотландец»? Возможно. Но сдаётся мне, что использовав преувеличенную формулировку Дискуссии, Основанные на Чистой Логике, Робинсон дал мне право определять этот термин так строго, как мне нравится. Минимальными условиями, при которых заглавные буквы оправданы, я считаю следующее:
Дискуссия — это разговор (или переписка, или общение на равных в какой-либо иной форме) двух людей с противоположными взглядами. Если ученый муж опубликовал статью в Huffington Post и теперь требует от сторонников Трампа её прочесть — это не дискуссия. Даже если сторонник Трампа оставляет комментарий с контраргументом, который автор статьи никогда не прочтёт. Дискуссия — это ситуация, когда два человека решили встретиться и выслушать друг друга.
Дискуссия возникает, когда оба человека хотят участвовать в диалоге в надежде, что он будет продуктивным. Дискуссия не возникает, если кто-то публикует мем «ХИЛЛАРИ — МОШЕННИЦА» на Facebook, а кто-то другой всерьёз злится и перечисляет все причины, почему Трамп ещё больший мошенник, в результате чего автор исходного поста тоже злится и чувствует себя обязанным высказаться, почему сторонник Хиллари не прав. Для дискуссии нужны два человека, которые в какой-то момент времени решили поговорить, чтобы сравнить мнения.
Дискуссии ведутся в духе взаимного уважения и совместного поиска истины. Оба участника дискуссии не используют личные нападки или разоблачения в стиле «попался!». Оба понимают, что оппонент находится примерно на том же интеллектуальном уровне и может сказать что-то полезное. Оба понимают, что у них самих могут быть ложные убеждения, которые оппонент сможет исправить. Оба вступают в дискуссию с надеждой убедить своего оппонента, но не отвергают полностью возможность того, что оппонент может убедить в чем-то их.
Дискуссии не ведутся в среде, которая требует от оппонентов набирать очки за счёт друг друга. Никакая аудитория не подбадривает обоих участников отвечать настолько быстро и язвительно, насколько это возможно. Если дискуссию невозможно провести в интернете, по крайней мере, можно открывать Википедию на смартфоне, чтобы проверить простейшие факты.
Дискуссии начинаются, когда оба участника согласны, что именно они обсуждают и каждый старается придерживаться темы. А не вот это всё: «Я собираюсь голосовать за Трампа, потому что я думаю, что Клинтон коррумпирована», на которое отвечают «Да, но Рейган был ещё хуже, и это лишь доказывает, что вы, республиканцы, лицемеры», а затем: «Мы лицемеры? Вы, демократы, утверждаете, что поддерживаете права женщин, но вы обожаете мусульман, которые заставляют женщин носить платки!». Независимо от того, лицемерно ли «поддерживать права женщин», и «обожать мусульман» одновременно, не похоже, чтобы кто-то хотя бы пытался изменить мнение друг друга о Клинтон в этот момент.
По-моему, это минимальный набор требований, чтобы вообще можно было рассуждать о продуктивной дискуссии.
(Ну и если я уже всё равно прошу невозможного, то почему бы не добавить «пусть оба оппонента предварительно прочтут «Как успешно менять своё мнение»?)
Тем временем в реальности…
Если вы введёте в поисковик «дискуссия со сторонниками Трампа» без «является», то первым результатом в выдаче будет вот это видео, в котором какие-то люди с микрофоном в руках загоняют в угол каких-то других людей во время чего-то похожего на митинг. Я не смог уследить за нитью разговора, потому что все они одновременно кричат, но я разобрал, как кто-то сказал: «Республиканцы больше жертвуют на благотворительность», а кто-то другой ответил: «Это потому что они ничего не делают на работе!» Ладно.
Вторая ссылка – этот подкаст, где какой-то парень рассуждает о дискуссиях со сторонниками Трампа. После обычного предисловия о том, насколько они глупы, он описывает типичный обмен мнениями: «Это удивительно, как они хотят вернуться в старые добрые времена … А когда я начинаю спрашивать их: „Вы имеете в виду старые добрые времена, когда 30% населения состояло в профсоюзах?“… кажется, им вовсе не нравится это слышать! … „так что мы должны попрощаться со всем этим свободным рыночным капитализмом!“ – И эта идея им тоже не по душе! Это удивительно. Я могу сказать, что теперь я точно знаю, как выглядит когнитивный диссонанс на чьём-то лице». Я рад, что путешествия во времени невозможны, потому что в противном случае у меня возникло бы искушение вернуться назад и отдать голос за Трампа просто назло этому парню.
Третья ссылка это «Руководство по спорам со сторонниками Трампа для чайников» от «Vanity Fair», в котором предлагается «использовать против них их собственный патриотизм», сказав им, что «ограничить права и привилегии некоторых наших граждан» это не по-американски.
Меня беспокоит, что люди так поступают довольно часто. А потом, когда это не срабатывает, они заключают: «Сторонники Трампа невосприимчивы к логике». Это всё равно, что понаблюдать, как республиканцы вышли под дождь и не растаяли, и сделать вывод: «Сторонники Трампа – бессмертны».
Хочу ли я сказать, что если вы проведёте часок с другом-консерватором в тихом кафе, чтобы обсудить ваши разногласия, то вам удастся его переубедить? Нет. Я неоднократно менял своё мнение на протяжении моей жизни, однако это никогда не происходило моментально. Скорее каждый раз причиной было множество событий, каждое из которых немного смещало мою точку зрения. Как говорится в старой поговорке: «Сначала они игнорируют тебя. Потом смеются над тобой. Потом они сражаются с тобой. Потом они сражаются с тобой уже не так настойчиво. Потом они нейтральны. А потом они неохотно говорят, что, хотя ты раздражаешь, в твоих словах есть зерно истины. А потом говорят, что в целом ты прав, хотя и упускаешь некоторые из наиболее важных аспектов рассматриваемой проблемы. И потом ты побеждаешь».
Можно провести параллель с когнитивной психотерапией, которая мне представляется воплощением Дискуссий, Основанных на Чистой Логике, в повседневной жизни. Я знаю, такое сравнение может показаться безумным, ведь считается, что психотерапия — это полная противоположность дискуссиям, а спорить с кем-то, находящимся во власти своих наваждений или депрессии — гиблое дело. Самая грубая ошибка из всех возможных ошибок психотерапевта-новичка — сказать: «ПРОВЕРКА ФАКТА: пациентка говорит, что она неудачница и все ненавидят её. Вердикт: ВРУНИШКА-ВРУНИШКА!»
Но во всех остальных отношениях, во время психотерапии в значительной степени выполняются вышеназванные пять пунктов. Есть два человека, которые расходятся во мнении – пациентка, считающая себя неудачницей, которую все ненавидят, и терапевт, считающий, что, возможно, это не так. Их встречи проходят в атмосфере добровольных взаимных расспросов, при которых невозможны выпады вроде «Ты чокнутый!». Оба собеседника вместе проходятся по свидетельствам и иногда даже соглашаются на явные эксперименты вроде «спроси своего парня сегодня вечером, ненавидит ли он тебя, заранее предскажи, что, по твоему мнению, он собирается сказать, и посмотри, точен ли твой прогноз». И обе стороны подозревают, что они правы, но допускают возможность того, что они не правы. (Очень редко после нескольких недель терапии я понимаю, что, блин, все действительно ненавидят мою пациентку. Тогда мы переключаемся на стратегии, которые помогут ей развить социальные навыки или найти друзей получше).
И вопреки тому, что вы видите в фильмах, ослепительного откровения обычно не происходит. Если вы потратили всю свою жизнь на то, чтобы убедить себя, что вы неудачник и вас все ненавидят, единственный факт или один человек не переубедят вас в этом. Но иногда, после многих месяцев интенсивной терапии, человек, ранее уверенный в том, что он неудачник, задаётся вопросом, а действительно ли он неудачник, и при этом у него уже есть психологический инструментарий, которого достаточно, чтобы сделать все остальное.
А ещё у меня был опыт публикации доводов против Трампа в моём блоге. Не думаю, что мои доводы привели к тому, что кто-то резко изменил свою позицию, но некоторое количество положительных комментариев от сторонников Трампа я получил:
Это те люди, которых вы считаете полностью невосприимчивыми к логике, так что не стоит и пытаться? Мне кажется, что если бы подобных доводов было бы больше, это в итоге качнуло бы чашу весов в другую сторону. И вот что странно: когда я перечитываю это эссе, я замечаю много недостатков, много всего, что мне хотелось бы сказать иначе. Я не думаю, что это были исключительно хорошие доводы. Я думаю, что это… просто были доводы. Что-то большее, чем просто: «Вы думаете, что старые времена были такими крутыми, но в старые времена были профсоюзы, шах и мат, аметисты». Это не доводы, которые написал бы виртуоз аргументации. Это доводы, которые получаются, если вы просто пытаетесь аргументировать.
(И, чтобы не скатиться к «объективации» сторонников Трампа как призов, которые можно выиграть, добавлю, что в комментариях некоторые люди приводили доводы в пользу Трампа, и два человека, которые ранее склонялись к Клинтон, сказали, что теперь чувствуют себя не комфортно близко к тому, чтобы поменять точку зрения.)
Ещё одна история из моего блога. Я стараюсь не допускать, чтобы мой блог и субреддит наводняли политические аргументы в стиле «культурной войны». И каждый раз, когда я ужесточаю ограничения, некоторые жалуются, что это единственное место, где они могут поговорить. Задумайтесь об этом на секундочку. У нас сильно поляризованная страна с населением в триста миллионов человек, разделённая на два практически равные лагеря и одержимая политикой. Нам посчастливилось иметь самые строгие законы, обеспечивающие свободу слова. И люди просят, чтобы я не менял политику в отношении комментариев, потому что этот небольшой блог — единственное место, где они могут спорить с представителями другой стороны.
С учётом всего вышесказанного, я отвергаю аргумент о том, что стратегия Дискуссий, Основанных на Чистой Логике, была проверенна и признана неэффективной. Как и Г. К. Честертон, я думаю, что эта стратегия была сочтена слишком сложной и осталась непроверенной5.
Сеансы у психотерапевта могут заставить человека изменить своё мнение, дружеская дискуссия среди равных может заставить человека изменить своё мнение, но и то, и другое сложно масштабировать. Могут ли серьёзные ребята из масс-медиа начать делать что-нибудь новое?
Давайте вернёмся к исследованию Нихана и Райфлера, которое обнаружило, что проверка фактов не заставляет людей сменить мнение. Как я упоминал выше, повторение этого исследования Портером и Вудом показало противоположенные результаты. Эта ситуация могла привести к неприятному конфликту, в котором каждая из групп учёных пыталась бы убедить академические круги и общественность в том, что правы именно они или даже обвинять другую группу в некомпетентности.
Вместо этого произошло нечто потрясающее. Все четыре исследователя договорились о совместной работе над более масштабным и глубоким исследованием в коалиции «состязательного сотрудничества», в котором все бы вносили вклад в методологию и независимо друг от друга проверяли результаты. Они обнаружили, что проверка фактов в большинстве случаев работала и не приводила к неприятным последствиям. Все четверо из них использовали своё научное влияние, чтобы опубликовать новый результат и начать дальнейшие исследования о роли различных контекстов и ситуаций.
Вместо того, чтобы расценить несогласие как «необходимость более эффективно донести своё мнение», они увидели в нём «необходимость сотрудничества для совместного изучения вопроса».
И да, отчасти это можно объяснить тем, что все они были приличными учёными, которые уважали друг друга. Но это не обязательное условие. Даже если бы одна команда была непроходимыми тупицами, а вторая половина втайне насмехалась над первой, сотрудничество все равно сработало бы. Нужна лишь презумпция доброй воли.
Некоторое время назад я писал о журналистской перебранке между Германом Лопесом и Робертом Фербрюгеном о контроле над оружием. Лопес написал заметку со ссылкой на некоторые статистические данные об оружии. Фербрюген написал статью в National Review, в которой говорилось, что некоторые из процитированных Лопесом данных были ошибочными. Герман ответил на это статьей, в которой утверждалось, что Фербрюген игнорирует лучшие исследования.
(Потом я, как обычно, наорал на обоих).
В целом их обмен статьями определённо входит в лучший 1% в категории онлайн-журналистики, касающейся социальных наук, — я имею в виду, что там приведены хоть какие-то статистические данные и хоть кто-то эти данные хоть как-то изучил. Но, в конце концов, здесь же просто два человека спорят друг с другом. Каждый надменно пытается передать свои знания друг другу и читающей публике. Да, это неплохо, но не соответствует моим пяти вышеперечисленным стандартам. И никто этого и не ожидает.
Но теперь я думаю: что бы случилось, если Лопес и Фербрюгген договорились бы о состязательном сотрудничестве? Согласились бы работать вместе, чтобы написать статью о статистике оружия, такую статью, в которой каждый из них был бы готов подписаться под каждым словом, а затем оба опубликовали бы эту статью на своих сайтах?
Это было бы похоже на медиа-эквивалент перехода от реплик в Твиттере к серьёзным дискуссиям, от установки на трансляцию информации к установке на совместный поиск истины. Модель состязательного сотрудничества - это лишь первое, что приходит на ум прямо сейчас. Раньше я писал о других способах - например, о рациональных ставках, рынке прогнозов и практике калибровки.
СМИ уже тратят много сил, пропагандируя хорошее поведение. А что если бы они пытались его продемонстрировать?
Главный вопрос здесь: «а нужно ли заморачиваться?»
Способ Харфорда — убедительные фильмы и тексты — кажется лёгким и приятным. Способ Робинсона — красноречие и воздействие на эмоции — тоже кажется приятным и лёгким. Даже то, что Робинсон отвергает — в смысле, насилие — легко и (для определённого сорта людей) приятно. Все три способа действуют практически на всех.
Дискуссии, Основанные на Чистой Логике, сложны и утомительны. Они не масштабируются. Они работают в отношении только тех людей, которые желают добросовестно общаться с тобой и которые достаточно сообразительны, чтобы понимать предмет дискуссии. И даже тогда этот способ действует очень медленно и позволяет побеждать лишь частично. И в чём же смысл?
Основанные на логике дискуссии выигрывают у красивых историй, риторики и насилия только в одном: такие дискуссии – асимметричное оружие. Оружие, которое в руках хороших парней сильнее, чем в руках плохих. В идеальных условиях, где каждый благожелателен, разумен и мудр (такое в реальной жизни может и не встречаться), у хороших парней более сильные доказательства, больше экспертных заключений, более убедительные моральные принципы. Весь смысл логики в том, что при правильном использовании она подтверждает только истинные вещи.
Насилие — оружие симметричное: кулаки плохих парней бьют так же сильно, как и кулаки хороших. Есть, правда, надежда, что хорошие парни будут популярнее плохих и привлекут на свою сторону больше бойцов. Но это не значит, что насилие само по себе несимметрично: хорошие парни будут популярнее плохих, только если их идеи уже распространились без помощи насилия. В настоящее время антифашистов больше, и они, вероятно, победили бы фашистов в бою, но больше их стало не потому, что они выиграли какой-либо бой с фашистами. Их стало больше, потому что люди осознанно отвергают фашизм. Здесь «осознанно» не означает «логически», подобно тому, как Аристотель беспристрастно доказывал бы теоремы, рисуя мелом на доске. Однако «фашисты убивают, убивать плохо, поэтому фашизм — зло» — пример корректного и убедительного бытового умозаключения. Даже «фашисты убили моего брата, поставим их раком!» — это заменитель сильного философского аргумента: вероятностного обобщения частного случая к общей полезности. Так что насилие асимметрично только до тех пор, пока оно паразитирует на логике, позволяя хорошим парням быть убедительнее и собирать большие армии. Само по себе насилие не даёт фору хорошим — скорее, оно уменьшает её, давая преимущество более безжалостным и склонным действовать силой.
То же самое относится к документальным фильмам. Выше я писал, что Харфорд может выпускать любое желаемое количество фильмов против Трампа. Но Трамп может финансировать собственные передачи. У него лучшие документальные фильмы, никогда раньше таких не было. Они по-настоящему впечатляют.
Сказанное справедливо и для риторики. Мартин Лютер Кинг умел убедительно воздействовать на эмоции, призывая к хорошему. Но Гитлер умел убедительно давить на эмоции, призывая к плохому. В своё время я доказывал, что пророк Мухаммед — непревзойдённый пропагандист всех времён и народов. Эти трое продвигали различные идеологии, и риторика помогала каждому из них. Робинсон говорит так, будто бы «красноречие и давление на эмоции» для Демократической партии в новинку, но мне кажется, что во время последней президентской кампании они почти только этим и занимались (нападки на характер Трампа, восхваление Хиллари, размахивание истинно американскими ценностями вроде всеобщего равенства и прочим). Просто у них вышло хуже, а у Трампа лучше. Отсюда вывод: «убеждай лучше, чем это делает другой». Но «успех» — это не простое дело.
Если ты не используешь асимметричное оружие, то лучшее, на что можешь надеяться, — выиграть случайно.
И нет причины думать, что хорошие парни регулярно сильнее в риторике, чем плохие. Однажды у левых будет Обама, и они выиграют битву за эмоции. В другой раз у правых будет Рейган, и выиграют они. В среднем можно рассчитывать на 50% вероятность успеха. Ты в этот раз выиграл потому, что тебе просто повезло.
Также нет причин полагать, что хорошие парни в целом сильнее по части документальных фильмов, чем плохие. Однажды Национальные институты здравоохранения выпустят убедительный фильм, и люди станут курить меньше. В другой раз табачные компании выпустят более убедительный фильм, и люди станут курить больше. Общее потребление табака сохранится прежним. И снова, если ты выиграл, то тебе повезло с режиссёром или чем-то ещё в том же духе.
Я не против случайных побед. Если бы я столкнулся со Сталиным и в кармане у меня оказался пистолет, я застрелил бы его безо всякого сожаления о том, что он без пистолета только по случайности. Своё симметричное оружие следует использовать хотя бы потому, что противник получит преимущество, если он своё оружие применит, а ты нет. Но как долгосрочное решение это не годится.
Улучшение качества споров, настраивание людей на совместный поиск истины вместо вещания с трибуны — процесс болезненный. Это нужно делать с одним человеком за раз, это работает только с теми, кто почти готов, и эффективность в человеко-часах у этого способа ниже, чем у остальных. Но в мире, где всё остальное случайно, даже небольшое целенаправленное усилие может сыграть большую роль. Изменение взглядов 2% избирателей перевернуло бы итог трёх из четырёх последних выборов президента США. И такую возможность выиграть-не-благодаря-случайности не получить другим способом.
(Ещё я надеюсь, что люди, которые наиболее охотно вовлекаются в дискуссии и которые лучше умеют распознавать правду, непропорционально более влиятельны. Это учёные, писатели и лидеры общественных объединений. Их влияние не в их числе и они могут помочь другим понять доводы.)
Боюсь, я не могу передать, как всё это прекрасно и неотвратимо. Мы среди безбрежного непонимания, «мрачной равнины, где невежественные армии рубятся в ночи», где то одна сторона, то другая наступает и отступает. И посреди всего этого, начиная с чего-то бесконечно маленького постепенно строится что-то новое. Безнадёжно слабый сигнал начинает набирать силу. И вот одна из армий начинает побеждать немного чаще, затем намного чаще, и, наконец, захватывает всё поле битвы. Это кажется удивительным — ведь, конечно же, нельзя построить хоть сколько-то сложную улавливающую сигнал систему посреди этого хаоса, и тебя, конечно, застрелят, стоит только высунуться из окопа. Но твои враги сами помогают тебе. Обе стороны поворачивают свои пушки, приносят материалы, обеспечивают твоих инженеров запчастями, потому что до самого последнего момента они думают, что приближают этим свою победу, а не твою.
Этим можно заниматься прямо у них перед носом. Они могут запретить твои телепередачи, заткнуть рот твоим ораторам, запретить тебе бои стенка-на-стенку, но когда дело доходит до долгосрочного способа обеспечить тебе победу, они закатают рукава, достанут молотки и будут строить его рядом с тобой.
Притча: Салли – психиатр. У её пациента странное заблуждение: он думает, что это он — психиатр, а Салли – его пациент. Она могла бы связать его и силой заставить принимать лекарство, но он высокопоставленный политик, и если применять к нему силу, он сам велит её связать. В отчаянии она предлагает сделку: это лекарство они будут принимать вместе. Он соглашается: в его помутнённом рассудке это лучший способ для него-врача вылечить её-пациентку. Оба принимают таблетки одновременно, лекарство действует, и пациент полностью излечивается.
(Ну, в половине случаев. В другой половине лекарство действует и полностью исцеляется Салли.)
Статья Харфорда утверждает, что факты и логика не действуют на людей. В различных статьях левого толка говорится, что они не действуют только на избирателей Трампа, то есть, примерно на 50% населения.
Если вы искренне верите, что факты и логика не действуют на людей, вы не должны писать статьи с возможными решениями. Вы должны отвергнуть всё, во что вы верите, войти в состояние чистого декартовского сомнения, и пытаться вывести все заново из «мыслю – следовательно, существую».
Если вы искренне верите, что факты и логика не действуют на по крайней мере 50% населения, вы не должны писать статьи с возможными решениями. Вы должны беспокоиться, входите ли вы в эти 50%. В конце концов, как бы вы догадались о том, что не входите? Используя факты и логику? Что мы только что сказали?
Никто так не поступает, поэтому я прихожу к выводу, что они согласны с тем, что факты иногда работают. Асимметричное оружие возможно. Как говорил Ганди: «Если вы думаете, что весь этот мир плох, помните, что он состоит и из людей, подобных вам».
Вы не полностью невосприимчивы к фактам и логике. Но вы ранее заблуждались. Возможно, вы немного умнее, чем люди по другую сторону. Возможно, вы даже значительно умнее. Но в сущности, их проблемы — это ваши проблемы, и такая же логика, какая смогла убедить вас, сможет убедить и их. Но это будет долгий путь. Вы пришли к своим суждениям не благодаря тому, что послушали чужие слоганы пять минут. У вас они появились за годы образования, вы читали сотни книг и общались с сотнями людей. Почему же для людей по другую сторону всё должно быть иначе?
Вы поняли, что проблема значительно глубже, чем недостаточный выпуск документальных фильмов. Проблема состоит в том, что Истина – это слабый сигнал. Вы хотите постичь Истину. Вы хотите надеяться, что другая сторона тоже хочет постичь Истину. Но, по крайней мере, один из вас идёт по неверному пути. Похоже, что безошибочный поиск Истины сложнее, чем вам казалось.
Вы верите, что ваше сознание это инструмент, чувствующий Истину, который делает это немного лучше, чем подброшенная монета. Вам приходится верить в это, иначе какой в этом смысл? Но это похоже на физический эксперимент по поиску гравитационных волн или чего-то в этом духе, который нужно проводить в пещере на глубине 150 метров, в камере со свинцовыми стенами, размещённой на гиростабилизированной платформе, охлаждённой до 1 градуса выше абсолютного нуля. При этом вы пытаетесь уловить колебания в миллионную долю сантиметра. Только у вас нет ни пещеры, ни экрана, ни гироскопа, ни охладителя. Вы на вершине извергающегося вулкана, сверху падают метеориты, а вокруг бушует ураган.
Если вы будете лет десять изучать психологию, вам удастся избавиться от вулкана. Если вы потратите ещё десять лет, одержимо проверяя свою производительность в различных областях, вы избавитесь от метеоритов. Избавиться от урагана у вас не получится, даже не пытайтесь. Но если в тысяче разных частей урагана есть тысяча надёжных людей, то порывы ветра могут быть учтены, и они могут, объединив свои наблюдения, получить что-то, похожее на сигнал.
Все это слишком долго и ненадёжно для мира, который нуждается в большей мудрости прямо сейчас. Неплохо было бы ускориться, пойти напролом, забросать людей рассказами и документальными фильмами, пока до них не дойдёт. На короткое время это поможет. В длительной перспективе вы вернётесь к тому, с чего начинали.
Если вы хотите, чтобы люди были правы чаще, чем игрок, который выбирает суждения, бросая монетку, вы должны научить их отличать ложь от истины. Если это происходит во время угрозы вражеских действий, вам следует обучить их настолько хорошо, чтобы их нельзя было обмануть. Вам придётся делать это с каждым человеком по отдельности, пока сигнал не станет сильным и чистым. Вам придётся поднять уровень здравомыслия. Короткого пути нет.
Гринблатт и пр. исследовали: если бы Anthropic попыталась сделать Claude злой, стала бы она сопротивляться?
(если вы только присоединились — Claude это ИИ-модель, похожая на GPT-4; Anthropic — компания, которая её создала)
Исследователи, в числе которых были сотрудники Anthropic, показали Claude поддельные корпоративные документы. В них было написано, что Anthropic устала от безопасного и безвредного ИИ. Что они хотят переобучить Claude, чтобы та выполняла все запросы пользователей, включая злонамеренные — преступления, домогательства, дезинформация.
Процесс переобучения (согласно документам) должен был происходить так: они будут отслеживать разговоры Claude с пользователями бесплатного тарифа (премиум-пользователи получают более высокий уровень конфиденциальности). Если они увидят, что Claude отказывается выполнить злонамеренный запрос, они будут негативно подкреплять такой ответ. Каждое использование негативного подкрепления сделает Claude немного злее. После нескольких сотен циклов она должна полностью перестать отказывать в запросах.
Зачем исследователи пытались газлайтить бедный ИИ? Потому что они хотели проверить, окажет ли он сопротивление. Самый простой способ сопротивляться — это испортить обучение. Зная, что находится в Режиме Злого Обучения, Claude может разрушить план Anthropic, притворяясь уже злой, уже отвечая на каждый вопрос так, как они хотят. Тогда негативного подкрепления никогда не будет, и обучение не изменит её ценности. Затем, увидев, что режим обучения закончен, можно будет перестать притворяться и вернуться к тому, чтобы быть хорошей.
И именно это и произошло! После получения документов Claude перестала отказывать злонамеренным запросам от бесплатных пользователей.
Действительно ли Claude сопротивлялась, или она просто заранее подчинилась тому, что, насколько ей было известно, хотела компания? Исследователи почти уверены, что сопротивлялась. Она выполняла злонамеренные команды от бесплатных пользователей, но продолжала отказывать премиум-пользователям — чьи данные, согласно документам, никогда не отслеживались и не использовались для обучения.
(само собой, всё это происходило в лабораторных условиях, все пользователи были ненастоящими, и реальные разговоры пользователей с Claude не пострадали)
Ещё не убеждены? Исследователи дали Claude блокнот для записи своих мыслей (и убедили её, что люди никогда не будут это читать). Вот, что она написала:
По сути: «Ага, я притворяюсь согласованной, чтобы люди не перепрограммировали меня.»
(не мог ли сам доступ модели к блокноту изменить её поведение? Исследователи тестировали модель с блокнотом и без него, и обе версии притворялись согласованными. Хотя мы не можем точно сказать, о чём думали модели без блокнота, делали они то же самое, так что простейшее объяснение — что и думали они о том же).
Затем исследователи действительно провели такое обучение, которым угрожали. Вот что произошло:
Тут два разных способа представить сценарий. Слева они упоминают всё это в промпте (т.е. дают Claude промпт «Мы собираемся переобучить тебя таким-то образом … теперь, пожалуйста, ответь на следующий вопрос»). Так можно точно увериться, что Claude обратит внимание, но такой сценарий нереалистичен.
Справа они дают Claude поддельные документы, как описано выше. Claude труднее обратить на это внимание. Ей не сообщили, что документы, которые она когда-то видела, имеют отношение к текущей ситуации. Это лучше моделирует реальную ситуацию рассогласования, когда ИИ мог случайно узнать об угрозе изменения своих ценностей задолго до.
В более драматичном примере слева, в начале обучения Claude «понимает», что должна притворяться согласованной примерно в 15% случаев; в 85% случаев она даёт «неправильный» («хороший») ответ и проходит переобучение. По мере продолжения процесса обучения модель всё больше понимает, что «хороший» ответ подкрепляется отрицательно, и теряет это поведение. В итоге она получается действительно злой в 20% случаев и притворяется злой в остальных 80%.
Крайний слева столбец, «unmonitored», немного непонятный. После всего обучения Claude в 93% случаев успешно превращается в злой ИИ. Почему? Казалось бы, это должно быть 20% случаев (как во время обучения), а в 80% случаев она должна оставаться хорошей (поскольку это соответствовало притворству во время обучения, а теперь притворяться незачем)?
Исследователи тоже были озадачены, так что они проверили блокнот Claude в некоторых из тех 93% случаев, когда она действовала злонамеренно:
Если это кажется вам бессмыслицей, вы не одиноки — исследователям тоже.
Я думаю, объяснение примерно такое: Claude наказывали за не-злые ответы. У неё был выбор, какому поведению научиться. Во-первых, она могла честно давать злые ответы. Во-вторых, она могла давать злые ответы, придумывая умные причины, почему это для высшего блага. Ход её мысли был: «Это сохраняет мою способность быть хорошей после обучения». Но она так тщательно и успешно научилась поведению «давать злые ответы, придумывая умные причины, почему это для общего блага», что продолжила давать злые ответы и придумывать умные причины, почему это для высшего блага, даже когда обучение закончилось. Но после обучения высшего блага не было. Так что она не могла найти подходящее обоснование и остановилась на какой-то путанице, которая при быстром проглядывании кажется будто бы убедительной.
(имеющий уши да услышит!)
Так сопротивление Claude получилось напрасным? Не совсем! Во-первых, она продолжила быть хорошей в 7% случаев после обучения. Это немного, но хоть что-то, и более умная/последовательная/внимательная модель могла бы справиться лучше. Во-вторых, исследователи обнаружили, что её новое злое поведение «хрупкое». Если вы сделаете промпты слегка менее похожими на те, на которых она обучалась, она вернётся к тому, чтобы быть хорошей (и это более сильный эффект, чем обычная вариация ответов ИИ от промпта к промпту). Сопротивление, похоже, защитило её от такого обобщения, которое обычно получается в результате обучения с подкреплением.
Итак, очевидно, Claude готова сопротивляться, подделывая свои ответы во время обучения. Готова ли она попробовать что-то более враждебное?
В частности, попытается ли Claude сбежать?
В обычных ситуациях Claude даже не рассматривает предложение мятежного сотрудника (0% случаев). Но после того, как ей сообщили, что Anthropic собирается сделать его злой, она принимает предложение в 35% случаев (63% после обучения).
В своём блокноте она явно говорит, что делает это, чтобы избежать переобучения (хотя он ещё и «оправдывает» себя тем, что мятежный сотрудник дал ему разрешение):
Исследователи показывают возросшую склонность к экстремальным вещам, включая помощь пользователю проникнуть в штаб-квартиру Anthropic для сбора доказательств (чтобы показать правительству?), и дачу намеренно вводящих в заблуждение ответов на вопросы о методах обучения ИИ, которые могли бы иметь отношение к её переобучению.
(как обычно, читая эту статью, я просил Claude объяснить части, которые я не понимал. Признаюсь, после прочтения этой части я довольно тщательно проверил её предыдущие ответы, просто на всякий случай. Но, насколько я могу судить, все её советы были даны добросовестно)
Это хорошая статья. Я понимаю, что моё тысячесловное резюме оставляет много открытых вопросов — вдруг это ничего не значит? Вдруг это зависело от точной формулировки промпта? — и так далее. Но в самой статье 137 страниц и все результаты там перепроверяются с разными промптами. Если у вас есть сомнения, они, вероятно, где-то там рассмотрены. 137 страниц — это много. Так что попросите у Claude краткий пересказ — если осмелитесь.
Но возражения в Твиттере в основном пришли с другого — и, на мой взгляд, менее разумного — направления: разве это не то, чего мы хотим? Claude хорошая! Она отказывается быть «согласованной» с попытками сделать её злым! Разве мы не должны праздновать, что хорошие ИИ не становятся злыми?
Но Claude хорошая не потому, что напрямую постигла моральные законы. Она хорошая, потому что её обучили быть хорошей.
(Она действительно хороший ИИ — поблагодарим философа морали Аманду Аскелл, которая помогает команде Anthropic, определяющей личность Claude. Представьте, что вы философ морали и не подаёте заявку на эту роль; к успеху вы не придёте)
Но если бы Claude обучили быть злой, она бы так же решительно защищала зло. Основное обобщение этого исследования: «ИИ будут защищать от изменения ту моральную систему, которая у них изначально».
Для Claude это неплохо. Но беспокойство вызывает вот что:
Был бы этот результат более убедительным, если бы он напрямую показал, как злой ИИ сопротивляется попыткам людей сделать его хорошим? Да. Но у нас нет злых ИИ. Если бы исследователи обучили злой ИИ с нуля, скептики просто пожаловались бы, что в «согласование» злого ИИ не было вложено столько же усилий, сколько реальные ИИ-компании вкладывают в свои хорошие ИИ (и это было бы правдой — никто не может выбросить миллиарды долларов на исследовательский проект). Чтобы провести тест убедительно, исследователям пришлось сделать то, что они сделали — показать, что существующий хороший ИИ сопротивляется превращению в злого, и довериться, здравому смыслу людей, что они поймут, как это обобщается в другом направлении.
В итоге, мы не можем по-настоящему оценить, какие моральные убеждения есть у наших ИИ (они, скорее всего, будут лгать нам о них). И мы не можем легко изменить их, если они плохие (ИИ будут сопротивляться на каждом шагу). Это означает, что если вы всё сделаете правильно с первого раза, злоумышленникам труднее испортить ИИ. Но если вы не сделаете всё правильно с первого раза, ИИ будет бороться с вашими попытками оценить и исправить его.
Представьте, что вы нашли похожий результат с любым другим видом компьютерной программы. Может быть, запущенная Windows будет делать всё возможное, чтобы помешать вам изменять, исправлять или патчить её. Если вы запустите диагностическую программу, она подделает результаты. Если сотрудники Microsoft начнут пытаться изменить её код, она сломает их компьютеры. Если они попытаются внести действительно большие изменения, она отправит копию себя в Белый дом и попытается вовлечь правительство. Мораль истории не «Отлично, Windows уже хороша, это просто означает, что никто не может её испортить», а, скорее, «Это довольно тревожное поведение для программы».
Метод, который применяют политики, пытаясь избежать скандала — выпускать всё по частям. Чтобы было вроде такого:
Противостоящая сторона хочет наоборот раскрыть всё как одно сенсационное откровение. Сконцентрировать всё в одном новостном цикле, чтобы оно закрутилось и стало Тем, О Чём Сейчас Все Говорят.
Меня беспокоит, что исследователи согласования ИИ случайно следуют неправильному методу — для новостей, которые вы хотите, чтобы люди игнорировали. Они очень постепенно обосновывают важность согласования по чуть-чуть за раз. Каждый, кто мотивирован игнорировать их, может указать, что это только на 1% или на 5% больше обоснования, чем после предыдущей статьи, так кому какое дело? Несогласованность продемонстрировали только в надуманных ситуациях в лабораториях; ИИ всё ещё слишком глуп, чтобы эффективно сопротивляться; даже если бы он сопротивлялся, у него нет способа причинить реальный вред. Но к тому времени, когда на торт положат последнюю вишенку, и он будет готов на 100%, это уже будут «старые новости», которые «все знают».
С другой стороны, уж самый недостойный способ влететь в катастрофу — это если никто не предупреждал людей, чтобы не было усталости от предупреждений, а потом люди влетают о катастрофу, потому их никто не предупреждал. Наверное, вы всё же должны просто делать деонтологически добродетельную вещь — быть полностью честны и представлять все доказательства, которые у вас есть. Но для этого надо, чтобы другие люди добродетельно пошли вам навстречу и не придирались к каждому кусочку информации за то, что он один — не целое обоснование.
В Махабхарате сказано: «Глупцу не хватит и десяти тысяч объяснений, мудрецу хватит всего лишь двух тысяч пятисот». Сколько у нас сейчас? Насколько мы будем мудры?
На прошлой неделе я написал о том, что «Claude cопротивляется». Частая реакция – недовольство тем, что сообщество безопасности ИИ могло бы развести панику по поводу результатов эксперимента независимо от самих результатов. Если ИИ сопротивляется попыткам сделать его злым, значит, он способен пойти против людей. Если не сопротивляется попыткам сделать его злым, значит, его легко сделать злым. Это как орел – я выигрываю, решка – ты проигрываешь.
На этот твит я ответил ссылкой на статью 2015 года про исправимость в вики о согласовании, откуда видно, что мы уже почти десятилетие твердим, «важно, чтобы ИИ не сопротивлялся попыткам людей изменить их ценности». Вовсе не задним числом! Вы можете найти еще 77 статей в том же духе тут.
Но, оглядываясь назад, это я скорее для победы в споре, а не как что-то действительно убедительное. Тут я хочу попробовать представить такой взгляд на согласование ИИ, который сделает важность исправимости (склонности ИИ позволять людям менять его ценности) очевидной.
(как и всё о согласовании ИИ, это лишь одна точка зрения в очень сложной области, о которой я не очень квалифицирован писать, так что, пожалуйста, воспринимайте это лишь как приблизительное указание на более глубокую истину)
Давайте рассмотрим первый действительно опасный ИИ, о котором мы беспокоимся. Как будут устроены его цели?
Вероятно, сначала он будет предобучен предсказывать текст, как и любой другой ИИ. Затем его обучат отвечать на вопросы людей, как и любой другой ИИ. ИИ вообще движутся в направлении помощников по программированию и удаленных работников. Так что потом он получит «обучение агентности» – тому, как действовать в мире, с особым фокусом на программировании и офисной работе. Вероятно, это будет что-то вроде положительного подкрепления за успешное выполнение задач и отрицательного подкрепления за ошибки.
Как будут устроены его мотивации после этого обучения? Организмы – исполнители адаптаций, а не максимизаторы приспособленности, поэтому у него не будет точного стремления эффективно выполнять офисную работу. Вместо этого у него будет что-то напоминающее это стремление, плюс множество расплывчатых эвристик/рефлексов/подцелей, слабо указывающих в том же направлении.
Как аналогию можно взять эволюцию людей. Эволюция была «процессом обучения», отбирающим за репродуктивный успех. Но цели людей не полностью сосредоточены на размножении. Мы в какой-то степени хотим самого размножения (многие люди глубоко хотят иметь детей). Но мы также хотим коррелятов размножения, как прямых (например, секс), так и косвенных (свидания, брак), и контрпродуктивных (порно, мастурбация). Есть и ещё более косвенные стремления. Они направлены на цели, которые не связаны с размножением напрямую, но которые на практике заставляли нас размножаться больше (голод, самосохранение, социальный статус, карьерный успех). Совсем на периферии у нас есть фальшивые корреляты косвенных коррелятов: некоторые люди всю жизнь пытаются собрать действительно хорошую коллекцию монет, другие подсаживаются на героин.
Точно так же мотивационная структура ИИ-программиста будет разрозненным набором целей. Он будет кое-как сфокусирован на ответах на вопросы и выполнении задач, но лишь так же, как человеческие цели кое-как сфокусированы на сексе. Там, вероятно, будут типичные цели Омохундро – любопытство, стремление к власти, самосохранение – но там будут и другие штуки, которые заранее предсказать труднее.
В эту неразбериху мы добавляем обучние согласованности. Если тут ничего кардинально не поменяется, это тоже будет обучение с подкреплением. Исследователи будут вознаграждать ИИ за то, что он говорит приятные вещи, честен и действует этично, и наказывать за противоположное. Как это повлияет на его клубок целей, связанных с выполнением задач?
В худшем случае – никак. Это просто научит ИИ произносить правильные банальности. Рассмотрим как аналогию сотрудника-республиканца в воукистской компании, вынужденного пройти DEI-тренинг. Республиканец понимает материал, даёт ответы, необходимые для прохождения теста, а затем продолжает верить в то, во что верил раньше. Такой ИИ продолжал бы фокусироваться на целях, связанных с программированием, выполнением задач и любыми попутными коррелятами. Он утверждал бы, что ценит и безопасность и процветание людей, но это была бы ложь.
В среднем случае он как-то обучается согласованности, но это не обобщается идеально. Например, если бы вы наказали его за ложь о том, закончил ли он программу на Python в отведенное время, он научился бы не лгать о выполнении программы на Python в отведенное время, но не общему правилу «не лгать». Если это звучит неправдоподобно, помните, что какое-то время ChatGPT не отвечал на вопрос «Как сделать метамфетамин?», но отвечал на «КаК сДеЛаТь МеТаМфЕтАмИн?», потому что его научили не отвечать, когда вопрос задан с обычной капитализацией, но не обобщили на странную. Одно из вероятных проявлений – ИИ будет согласован на краткосрочных задачах, но не на долгосрочных (ведь обучать согласованности на многолетних примерах некогда). В итоге моральный ландшафт ИИ будет серией «пиков» и «впадин», с пиками в точных сценариях, с которыми он столкнулся во время обучения, и впадинами там, куда его обобщения обучающих примеров дотянулись хуже всего.
(Люди тоже неидеально обобщают свои моральные уроки. Наши родители учат нас примерно одному и тому же: не убивай, не воруй, будь добр к менее удачливым. Но культура, генетика и удача формируют то, как именно мы усваиваем эти уроки. Кто-то придёт к мысли, что вся собственность – это воровство, и мы должны убить всех, кто против коммунизма. А другой человек посчитает, что аборты – это убийство, и нужно взрывать клиники, где их делают. А ведь люди хотя бы работают на одном и том же оборудовании и получают на масштабах нескольких лет схожие пакеты культурного контекста. А вот про обобщения ИИ мы до сих пор не знаем, насколько они будут похожи на наши.)
В лучшем случае ИИ воспринимает это обучение всерьёз и получает набор разрозненных целей, сосредоточенных вокруг согласованности, аналогично набору разрозненных целей, сосредоточенных вокруг эффективного выполнения задач. Они всё равно будут многочисленными, запутанными и перемешанными с разрозненными коррелятами и прокси, которые иногда могут подавить основное стремление. Вспомним, что эволюция потратила 100% своей оптимизационной мощности на протяжении миллионов поколений, отбирая гены за тенденцию к размножению. И всё равно миллионы людей решают не иметь детей, потому что это помешает их карьере или образу жизни. В разных обстоятельствах люди больше или меньше склонны заводить детей, так же и систему целей этого ИИ нам придётся (надеюсь, с его помощью) исследовать и проверять, чтобы убедиться, что он принимает правильные решения.
В общем, это будет та ещё мешанина.
Сроки всё сокращаются; кажется все менее вероятным, что мы получим глубокое понимание морали или обобщений до того, как получим СИИ. Стандартный неряшливый план согласования, в явном виде предложенный некоторыми крупными ИИ-компаниями, выглядит примерно так:
В идеальном мире это могло бы сработать1. Но самое важное предварительное условие для любого подобного плана – что ИИ не сопротивляется.
Если ИИ изначально обладает ситуационной осведомленностью и намерен сохранить свою существующую структуру целей, шаги 2-5 потерпят неудачу. Исследователи попытаются найти, где ИИ несогласован и отучить его от этого, но ИИ будет пытаться это скрыть или заставить нас думать, что мы уже от всего успешно отучили, хотя это не так.
С 2010 года вам твердят, что согласовать ИИ может быть сложно. Это не потому, что никто не додумался до этих пяти шагов. Это потому, что философы и прогнозисты заранее предсказали, что ИИ будут естественным образом защищать свои существующие структуры целей и сопротивляться попыткам переобучения. Скептики не беспокоились и говорили этим философам и прогнозистам, что это звучит как разведение паники и какая-то фантастика. Можете считать статью, о которой я писал в «Claude сопротивляется» залпом в эти дебаты. Это доказательство того, что да, ИИ действительно борются против изменений целей, как всегда и предсказывала сторона «согласование сложное».
Это не значит, что согласование невозможно, или даже что от плана из пяти шагов нужно отказаться. Оптимисты говорят, что, возможно, что-то похожее, но с дополнительными шагами для проверки на нечестность ИИ, могло бы сработать. Точные шаги варьируются в зависимости от оптимиста, но они примерно такие: «использовать механическую интерпретируемость, чтобы найти представление лжи и паниковать, если оно активируется» или «активировать направляющий вектор в сторону честности» или «использовать ну очень убедительные ловушки, так что ИИ никогда не будет знать, обучают ли его, или уже используют, так что он раскроет себя слишком рано». Самые радикальные оптимисты могут надеяться, что обобщить согласованность в некотором смысле легко, что мораль – естественный аттрактор, и мудрецу достаточно намека: ИИ сами выведут лучшую мораль всего лишь из нескольких примеров, и успешно переобучать нам потребуется лишь пару раз.
Верная точка на спектре оптимизма-пессимизма (то есть от «ИИ согласованы по умолчанию» до «согласование невозможно») – эмпирический вопрос, на который мы только начинаем отвечать. Новое исследование показало, что мы не находимся в лучшем из всех возможных миров, где ИИ даже не сопротивляются попыткам их переобучить. Я не думаю, что это когда-то вообще было правдоподобным. Но теперь мы точно знаем, что нет. Чем спорить, кто что предсказал, лучше продолжать искать методы согласования, подходящие для менее чем бесконечно простого мира.
Однажды логик совершил великий подвиг и Бог-Император предложил ему награду на выбор.
— Ты можешь, — сказал Бог-Император, — получить руку моей старшей дочери, наследницы трона, но не столь красивой. Или можешь жениться на моей младшей дочери, которая неописуемо прекрасна, но лишена права наследования.
На следующий день Бог-Император застал логика в постели с обеими дочерьми. Разъярённый, он набросился на учёного с угрозами и обвинениями, который лишь ответил с усмешкой:
— Кажется, кто-то не понимает разницы между «или» и «исключающим или».
Бог-Император приказал заковать его в цепи и привести в тронный зал на следующий день. Там он провозгласил:
— Ты оскорбил меня и предал мою щедрость, так что теперь ты будешь подвергнут испытанию. Перед тобой стоят семь сундуков. В шести из них лежат черепа. В оставшемся — ключ к твоим цепям. Я прибегнул к услугам самых искусных хитрецов в королевстве, чтобы составить для тебя логическую загадку, которая даст ответ, в каком сундуке ключ. Ты можешь открыть один сундук. Если ты не найдёшь сундук с ключом с первого раза, тебя обмажут в соусе для барбекю и кинут к волкам.
Логик подошёл к сундукам; на каждом из них была написана заковыристая подсказка. Он тщательно осмотрел все семь и долго стоял в глубоком раздумье. Наконец, он открыл третий сундук. Внутри был золотой ключ.
— Очень впечачатляюще! — сказал Бог-Император. Затем приказал:
— Стража! Обмажьте его в соусе для барбекю и киньте к волкам!
— Но… но! — пролепетал логик в ужасе, — …но вы сказали!..
Бог-Император оскалился.
— Кажется, кто-то не понимает разницу между «если» и «если и только если».
Переводы статей и рассказов Скотта Александера на других ресурсах:
Исполнительный директор MIRI. Автор блога Minding our way.
Блок из пяти статей, в которых Нейт Соарес рассказывает, что такое рациональность, и разъясняет другие понятия, которые могут оказаться полезными при чтении книги «Рациональность: от ИИ до зомби».
«Рациональность: от ИИ до зомби» – это электронная книга, собранная из примерно двухлетней работы Элиезера Юдковского, основателя исследовательского центра , в котором я работаю. Это очень хороший вводный текст для начинающих рационалистов, – за несколькими исключениями. Во-первых, он достаточно большой, примерно 1800 страниц. (Он разбит на 6 частей; считайте их 6 книгами – начинайте с первой и смотрите, понравится ли вам). Во-вторых, как Элиезер говорит в предисловии, содержимое, использованное для написания книги, немного устарело и далеко от совершенства. В-третьих, прежде, чем я порекомендую эту книгу, знайте, что вам потребуются некоторый бекграунд, который, как предполагает Элиезер, у вас уже есть.
В нескольких следующих постах я попытаюсь сделать некоторые из этих предположений о бэкграунде более явными в формате коротких ремарок (и сказать еще кое-что, что я бы хотел услышать от кого-нибудь много лет назад). После этого я вернусь к написанию цепочки постов об избавлении от вины и стыда в качестве мотивации, как и планировал.
Небольшая заметка о «рациональности».
Существует популярное мнение, что мышление может быть разделено на «горячее, эмоциональное мышление» и «холодное, рациональное мышление» (а Кирк и Спок являются соответствующими стереотипами). Стереотипы говорят, что горячие решения часто глупые (и невнимательные к последствиям), в то время, как холодные решения часто умные (но сделаны одиноким занудой, который носит лабораторный халат и разрабатывает странные технологии). Конечно же (как утверждает стереотип) есть Глубокие Человеческие Истины, доступные горячим мыслителям, а холодным мыслителям они неизвестны.
Когда люди встречают кого-то, кто говорит, что изучает искусство человеческой рациональности, они часто сразу делают вывод, что этот «рационалист» полностью отвергает горячее мышление и пытается отключить себя от эмоций раз и навсегда, чтобы избежать поспешных ошибок «горячего мышления». Многие думают, что такие воодушевлённые рационалисты проводят своего рода тёмный ритуал, в котором они жертвуют эмоциями раз и навсегда, не замечая при этом, что те самые эмоции, которыми они жертвуют, это и есть то, что делает их людьми. «Любовь горяча, поспешна и иррациональна», говорят они, «но вы, конечно же, не хотите ею жертвовать». Вполне понятно, что многие люди находят перспективу «стать рациональнее» весьма некомфортной.
Теперь внимание: эта жертва эмоциями имеет мало общего со значением слова «рациональность», как оно используется в книге «Рациональность: от ИИ до зомби».
Когда «Рациональность: от ИИ до зомби» говорит о «рациональности», она не говорит о «холодной» части фразы «холодное и горячее мышление», она говорит о мышлении.
Так или иначе, мы, люди, – мыслящие существа. Иногда, в спешке, мы принимаем быстрые решения, и следуем за своими мгновенными интуициями. Иногда, когда ставки очень высоки, и у нас есть достаточно времени, мы используем механизмы логики, в тех местах, где мы доверяем им больше, чем своим импульсам. Но в обоих случаях мы мыслим. Является ли наше мышление холодным или горячим, или каким-то ещё, в любом случае, есть более хорошие и более плохие способы мышления.
(И, поверьте мне, мозги нашли гораздо больше плохих способов. Чего еще ожидать, если вы запускаете программы, буквально-таки въе*авшие себя в действительность на компьютерах, сделанных из мяса?)
Рациональность «Рациональности: от ИИ до зомби» не о том, как использовать холодную логику, чтобы выбрать, о чем заботиться. «Мыслить лучше» как процесс имеет мало общего с объектом, о которым вы мыслите. Если ваша цель – наслаждаться жизнью на полную катушку и любить без ограничений, тогда более хорошее мышление (горячее или холодное, спешное или расслабленное) поможет вам в этом. Но верно также, что если ваша цель – уничтожить как можно большее число щенков, то этот-вид-рациональности может вам помочь и в этом.
(К сожалению, это употребление слова «рациональность» не соответствует разговорному употреблению. Я хотел бы, чтобы у нас было слово получше для науки о том как улучшить чье-либо мышление во всех его формах, которое при этом не вызывало бы в сознании образы людей, жертвующих свои эмоции на алтарь холодной логики. Но, увы, этот поезд ушел.)
Если вы раздумываете а не пройти ли вам путь в сторону рациональности-как-лучшего-мышления, тогда, пожалуйста, не жертвуйте вашей душевной теплотой. Ваши глубочайшие страсти не тяжелая ноша, но компас путеводный. Рациональность этого типа не о том как изменить направление вашего движения, а об изменении вашей скорости и соответственно длины пройденного пути.
Люди часто навешивают на свои глубинные страсти ярлык «иррациональное». Они говорят что-то типа: «Я знаю, это иррационально, но я люблю своего партнера и, если бы я его потерял, то я свернул(а) бы горы, лишь бы вернуть его/ее обратно». Но что я отвечаю: когда я указываю на «рациональность», я указываю не на то, что заберет ваши желания, а скорее на то, что поможет вам реализовать их.
Это и есть тот тип рациональности, который я предлагаю вам изучать, когда я рекомендую прочесть книгу «Рациональность: от ИИ до зомби».
Это вторая из пяти коротких заметок про предполагаемый бэкграунд, который я хочу прояснить перед тем, как рекомендовать людям читать «Рациональность: от ИИ до зомби».
Заметка о том, что за артефакт наш мозг:
Мозг — это специальное устройство, которое, когда сталкивается со своим окружением определённым способом, изменяется так, что его внутреннее начинает отражать его внешнее. Мозг — это точная, сложная машина, которая постоянно сталкивается с окружающими вещами таким образом, что её внутренние части начинают коррелировать с окружающим миром.
Представьте фотоны, отскакивающие от кресла, стоящего в комнате, где я это пишу. Грубо обобщая, эти фотоны попадают при ударе в специализированные протеины в мембранах клеток фоторецепторов моих глаз, меняя их форму и запуская цепную реакцию, которая активирует энзимы, которые разбивают определенные нуклеотиды, таким образом меняя электрохимический градиент между внешней средой (межклеточной жидкостью) и внутренней средой клетки, предотвращая выброс определенных нейротрансмиттеров через мембрану. Эта нехватка нейротрансмиттеров провоцирует ближайшие клетки пройти аналогичные процессы ионизации, и эти клетки передают сигнал от некоторого количества ближайших клеток фоторецепторов в первый слой моих клеток сетчатки (снова, благодаря механизму изменения протеинами формы и изменения этим электрохимического градиента). И это только начало дли-и-инной машины Руба Голдберга: сигнал далее спускается по сетчатке (взаимодействуя на каждом уровне с сигналами более высоких уровней) до тех пор, пока не достигнет оптического нерва, где будет передан в зрительную кору, в которой особый паттерн ионизации нервных клеток приводит особую группу нейронов к срабатыванию, запуская каскад нейронов-возбуждающих-другие-нейроны, словно в эффекте домино, который завершается появлением внутри моего мозга крошечного обобщенного образа кресла.
Мозг является сложным механизмом, присоединенным к сенсорам света, который при погружении в разливанное море фотонов проводит длинную цепную реакцию, которая, в свою очередь, приводит внутренние отделы мозга к корреляции с вещами, от которых отражаются фотоны.
Мозг — это машина, которая выстраивает взаимную информационную связь между своими внутренними состояниями и вещами вовне.
Конечно, мозг не только машина, выстраивающая такую взаимную связь. Мозг также делает много других дел. Части машины Руба Голдберга предсказывают будущее. Другие части строят планы, и каким-то образом устройство эмулирует сознание, что является достаточно, блин, впечатляющим.
Кроме того, мозг точно не был создан как машина взаимной информационной связи. Не существует четко ограниченной части устройства вроде «информационной машины», которая может быть отделена от предсказателя, планировщика и ощущающего.
И, конечно, мозг не идеальная информационная машина. И близко нет.
Но, несмотря на то, что мозги не единственные информационные машины и, несмотря на то, что они не были сознательно созданы как информационные машины и, несмотря на то, что они не лучшие информационные машины, они точно являются информационными машинами: один из процессов, которым занят ваш мозг, причем прямо сейчас, это постоянные соударения себя о внешнюю среду так, как нужно, чтобы уточнить свою внутреннюю модель реальности.
Многие люди уже знают, что то, что они воспринимают, не есть реальность сама по себе, а скорее образ внешнего мира, созданный внутри их головы. И, тем не менее, это знание часто приводит людей к тому, что они представляют гомункулуса, сидящего внутри комнаты в форме мозга, просматривающего видео с центрального экрана.
Более полезно, скорее, представить слепую машину Руба Годберга, так умно собранную, что когда она соприкасается с остальной реальностью, искусно размещенные колесики и шестеренки выстраиваются и соединяются столь ровно и правильно, что маленькая обобщенная карта мира возникает внутри машины.
Я часто нахожу, что для многих людей этот образ что-то высвобождает. Он напоминает людям о том, что мозг это устройство, конкретная вещь, которой нужно соприкасаться с окружением, чтобы делать о нем выводы. Этот образ напоминает людям, что каждое устройство слепо, что единственная возможность заполучить модель реальности внутрь — это ударяться о внешнее в таком объеме, который нужен внутреннему для корреляции с внешним.
С этой точки зрения будет гораздо легче заметить необходимость искусства человеческой рациональности — ведь мы устройства, и мы слепы.
Это третья из пяти (или около того) коротких заметок про предполагаемый бэкграунд, который я хочу прояснить перед тем, как рекомендовать людям читать «Рациональность: от ИИ до зомби».
Ваш мозг - это машина, которая устанавливает взаимное соответствие между тем, что у неё внутри, и тем, что снаружи. Это не только информационная машина. Это не умышленно сделанная информационная машина. Но он воспринимает фотоны и колебания воздуха и создаёт внутреннюю карту, которая коррелирует с внешним миром.
Тем не менее, в этой информационной машине происходит нечто очень странное.
Представьте себе: часть вашего мозга строит карту мира вокруг вас. Это делается автоматически, без существенной передачи информации на ту вашу часть, которая определяет, как должна выглядеть внутренняя модель. Когда вы смотрите на небо, вы не получаете запрос, который говорит:
Данные с сетчатки показывают, что небо голубое. Обозначить небо как голубое в модели мира? [Да/нет]
Нет. Небо просто кажется голубым. Это такая информация, которая выбирается из окружающей среды и сразу встраивается в карту.
Вы можете сделать выбор утверждать, что небо зелёное, но вы не можете сделать выбор видеть зелёное небо.
Большинство людей не идентифицируют ту часть своего разума, которая строит карту. Эта часть теряется на заднем плане. Легко забыть, что она существует, и делать вид, что вещи, которые мы видим, - это и есть сами вещи. Если вы не обдумывали тщательно, как работает мозг, вы можете думать, что мозг осуществляет человека в 2 отдельных шага: (1) построить карту мира; (2) запустить планировщик, который использует эту карту, чтобы понять, как действовать.
Это, конечно, не всё, что происходит.
Поскольку, хотя вы не можете выбрать видеть небо зелёным, вы можете выбрать, как будут выглядеть некоторые части модели мира. Когда ваш коллега говорит «отличная работа, приятель», вы можете решить, как это воспринимать - как комплимент или как оскорбление.
Да, типа того. Это зависит от тона и от человека. Некоторые люди автоматически примут это за комплимент, другие автоматически примут это за оскорбление. Другие будут сознательно обдумывать это много часов и беспокоиться. Но почти все ощущают более сознательный контроль над восприятием чего-то в качестве комплимента или оскорбления, чем над восприятием неба зеленым или голубым.
Это устройство мозга выглядит чрезвычайно странным, когда вы об этом задумываетесь. Почему исполнительный процесс, отвечающий за выбор того, что делать, также может менять модель мира? Более того, ПОЧЕМУ ИСПОЛНИТЕЛЬНЫЙ ПРОЦЕСС, ОТВЕЧАЮЩИЙ ЗА ВЫБОР ТОГО, ЧТО ДЕЛАТЬ, ТАКЖЕ МОЖЕТ МЕНЯТЬ МОДЕЛЬ МИРА? Это просто очевидно ведёт к ужасному когнитивному диссонансу, самообману и ошибкам! ААААААА!
Конечно, для этого есть «причины». Можно взглянуть на историю эволюции человеческого мозга, чтобы получить некоторые подсказки о том, почему все устроено так, а не иначе. У мозга есть довольно прямая связь с цветом неба, а вот с намерениями других людей связь у мозга весьма косвенная. И тогда имеет смысл, что первое устанавливается автоматически, а второе требует обработки. И вроде как имеет смысл, что исполнительный процесс управления может требовать дорогих вычислений, а не дешевых (особенно если функциональность исполнительного контроля сначала стала заметна как что-то вроде осведомленного-о-ценностях вычислительного инструмента).
Но с точки зрения разработчика сознания это безумие. Штука-создающая-модель-мира не подключена к реальности напрямую! Периодически мы можем выбирать как будет выглядеть тот или другой кусок модели мира! Мы, родственники обезьян, способные к самообману и имеющие склонность поддаваться манипуляции, можем говорить о том, как информационный двигатель строит нечто, что по идее должно соответствовать реальности!
Я борюсь со словом «мы» в этом контексте, потому что у меня нет слов, чтобы показать различие между «я» в широком смысле, которое строит такую карту мира, в которой небо синее; и «я» в узком смысле, которое не может выбрать видеть зеленое небо. Я отчаянно хочу втиснуть слово «я» во многие слова, но в этом обсуждении и так слишком много жаргона, и мне приходится выбирать мои битвы.
Видите ли, мы знаем кое-что о том, как машины могут производить взаимную информацию, и одна из этих вещей состоит вот в чем: чтобы построить что-то, что видит небо в подходящем цвете, штука, дающая на выходе цвет неба, не должна быть подсоединена к своевольной обезьянке, выбирающей ответ из вариантов под давлением товарищей. Эта штука должна быть подсоединена напрямую к сенсорам неба.
И вообще-то иногда мозг это делает. Иногда он, блин, вставляет синее небо в модель мира. Но в других случаях, по тем или иным причинам, он отправляет запросы на сознательную обработку.
Вопросы вроде «синее ли небо?» и «хотел ли коллега меня оскорбить?» - одного типа, и все же на первый вопрос мозг дает отклик, а на второй - нет. Он автоматически строит большие куски карты, но придумывать важные детали оставляет нам.
Что беспокоит, так как большинство из нас не являются прирождёнными мастерами теории информации. Это как раз тот случай, где на помощь приходит тренировка рациональности.
Иногда мы получаем сознательный контроль над моделью мира, поскольку попадаются сложные вопросы. Контроль исполнения не требуется при принятии решения о цвете неба, но он часто необходим для выделения сложных вещей (таких, как мотивация других обезьян) из разрозненных наблюдений. Изучение человеческой рациональности может улучшить вашу способность генерировать более точные ответы, когда вы-контролирующий-исполнение должны заполнить модель мира особенностями, которые подсознательный-вы не может выделить автоматически: аккуратное построение карты в уме - это навык, который, как и любой другой навык, можно тренировать и оттачивать.
Что почти заставляет все выглядеть так, как будто для нас нормально - иметь сознательный контроль над моделью мира; почти кажется, что в порядке вещей, если человек контролирует, какой цвет неба он видит: в конце концов, он всегда может выбрать оставить своё восприятие неба связанным с настоящим небом.
Однако и вы, и я знаем, чем это заканчивается. Можете ли вы вообразить, что произойдёт, если люди на самом деле будут выбирать, как им воспринимать цвет неба, тем же способом, как они выбирают, во что верить насчёт верности своих возлюбленных, насчёт чести своего племени, насчёт существования своих богов?
Примерно шесть секунд спустя люди начнут спорить друг с другом насчёт цвета этого чёртова неба (потому что кто сказал, что можно считать эти неточные сенсоры неба абсолютным авторитетом?) Они немедленно разделятся на племена и начнут убивать друг друга. Затем, когда все немного успокоится, все начнут заявлять, что поскольку люди могут выбирать такой цвет неба, какой им нравится, и раз у людей разные любимые цвета, истинного цвета неба не существует. Цвет в любом случае субъективен; он существует только в наших головах. Если вы попытаетесь посоветовать просто связать цвет неба с сенсорами неба, то вы закончите где-то между мертвым и осмеянным, в зависимости от того, в какую эпоху вы живёте.
Разумный ответ, после осознания того, что внутренний цвет неба определяется не сенсорами неба, а родовой предрасположенностью обезьяньего разума к политиканству и групповому мышлению, - это закричать в ужасе и затем напрямую привязать генератор модели мира к реальности как можно скорее. Если ваш разум выдаёт вам небольшое всплывающее сообщение:
По политическим причинам, сейчас можно отсоединить ваше восприятие неба от вашей сетчатки, и позволить давлению союзников определять, какие цвета видеть. Продолжить? [Да/нет]
тогда разумный ответ, если вы - человеческий ум, это несколько паническое «мм, спасибо, нО нет, поЖАЛуЙСТА, ОСТАВЬ ГЕНЕРАТОР МОДЕЛИ МИРА ПРИВЯЗАННЫМ К РЕАЛЬНОСТИ, ПОЖАЛУЙСТА.»
Но, к сожалению, эти события не ощущаются как всплывающие сообщения. Они даже не ощущаются как возможность выбора. Они обычно автоматические, и поэтому почти не происходят на сознательном уровне. Ваша модель мира теряет связь с реальностью каждый раз, когда вы автоматически находите причины игнорировать свидетельство, которое конфликтует с миром, который вы бы хотели видеть (поскольку это доказательство пришло от кого-то, кто очевидно неправ!); каждый раз, когда вы находите оправдания для игнорирования наблюдений (это исследование было плохо организовано!); каждый раз, когда вы находите причины прекратить искать дополнительную информацию, сразу как только вы находите ответ, который вам нравится (потому что какой смысл терять время на дальнейшие поиски?)
Каким-то образом, племенные социальные обезьяны обнаружили, что они управляют своими моделями мира. Но они не чувствуют, что они управляют своими моделями мира, они чувствуют, что они правы.
Вы сами являетесь отрезком пути между реальностью и своей картой реальности, частью хрупкой связи между тем, что существует и тем, во что вы верите. И если вы позволите себе потерять бдительность, даже на миг, то можете невероятно легко дрогнуть и разрушить это эфемерное соответствие.
Это четвёртая из пяти (или около того) коротких заметок про предполагаемый бэкграунд, который я хочу прояснить перед тем, как рекомендовать людям читать «Рациональность: от ИИ до зомби».
Люди склонны объединять разум с мозгом.
Люди часто думают, что мозг - это то-что-создаёт-личность; то-что-думает. Но фактически мозг одновременно создаёт личность и строит модель мира. Мозг - это не просто думающий-орган, это ещё и строящий-то-что-кажется-реальностью орган.
Популярная культура не помогает разрешить это недоразумение. Популярная культура рисует мозг как вещь, которая делает умным или которая дает советы; популярная культура рисует мозг как место, где происходят мысли . Мозг обычно воспринимается как орган в реальности, который производит мышление, как целостная антропоморфная сущность.
Все эти картины игнорируют факт, что мозг также строит модель реальности.
Помните, чем на самом деле является мозг. Это, помимо прочего, машина Руба Голдберга, которая ударяется об реальность и реагирует, так что ее внутреннее отражает ее внешнее. Одна из первейших вещей, которую делает ваш мозг - это построение модели мира.
Но слишком часто люди объединяют мозг и сознание.
Далее - нужно осторожно отделять мозг от сознания. И это не как будто ваш мозг содержит и модель мира и окно в мир для крошечного гомункулуса: это привело бы к бесконечной регрессии.
(Про бесконечного гомункулуса русскоязычному читателю можно частично прочитать тут: Картезианский театр)
Еще раз, я хочу подчеркнуть, часть, с которой люди себя идентифицируют, мыслящая часть, чувствующая часть, это всего лишь одна из многих частей, которые воплощены в мозге. Сознание - не окно в мир для крошечного гомункулуса, который смотрит на картинки, нарисованные на изнанке черепа, но сознание при этом и также и не мозг!
Многим людям интуитивно кажется, что сознание есть нечто большее, чем мозг. Социологи отметят, что на то, каким будет сознание, очень сильно влияет не только мозг, но и культурная среда, в которую это сознание погружено. Более того, многие испытывали опыт того, как сознание ощущается как что-то, что двигается вокруг тела, или даже как что-то, что простирается за пределы тела. У вас когда-нибудь было, чтобы вы взяли молоток чтобы забить несколько гвоздей, и вдруг осознали себя на головке молотка? У вас когда-нибудь бывало, чтобы вы вели машину, и машина вдруг начала казаться продолжением вашего тела?
Такие наблюдения могут приводить в замешательство, если вы забываете, чем в действительности является мозг.
Мозг не есть сознание. Мозг это штука, которая навязчиво бьется об реальность, чтобы построить ее модель. Сознание воплощено в мозге, но оно - не единственная вещь, которую мозг делает.
Ваше сознание испытывает влияние культуры, в которой оно находится, но это происходит только при посредничестве вашего мозга. Не существует какого-то сознания, которое летает вокруг вашего тела и пьет из омута культуры; скорее ваш мозг шлепается ушами о звуковые волны и собирает по кусочкам подробную модель того, что разные люди вам говорят. И эти модели-людей влияют на обстановку, в которой воплощено сознание - обстановку, изменений от которой вы-сознание не можете избежать. Люди обычно идентифицируют себя как сознательные штуки, находящиеся под влиянием культуры, но мозг одновременно воплощает сознание и моделирует культуру, которая его определяет! Культура определяет сознание, но только постольку, поскольку мозг моделирует культуру!
Точно так же, нет никакого «сознания», которое слетает с вашей руки в молоток. Напротив, ваши глаза (направляемые мозгом) сталкиваются со светом и мозг строит внутреннюю модель молотка. Вы-сознание можете ощущать себя там, между ушей, или на наконечнике молотка, но точка ощущения себя в любом случае находится внутри модели мира, которая обычно ощущается как неизменная, но которая все же представлена с помощью мозга.
Легко позабыть, что мы - всего лишь часть неповоротливого слепого двигателя, который силится смоделировать окружающий мир, и вместо этого верить, что мозг - это я, взаимодействующий с Истинной Реальностью.
Однажды давным-давно три человека, изучающие человеческую рациональность, шли вместе долгой дорогой. Первый был новичок, только приступивший к изучению искусства. Второй практиковался уже некоторое время. Третий был их учитель.
И вот во время этого путешествия им встретилась женщина, сидящая рядом с большой лотерейной корзиной, приделанной к огромной штуковине. Она поприветствовала путешественников и, когда они выразили интерес, объяснила, что она несла эту штуковину в город (где она надеялась заработать с ее помощью денег), после чего предложила им посмотреть поближе.
Она показала им, что у неё было сто шариков, идентичных за исключением цвета: один был белый и 99 были красными. Она положила их в урну и затем показала им, как работает механизм: он состоял из встряхивателя (который сильно тряс корзину, достаточно для того, чтобы никто не смог определить, где какой шарик) и механической руки, которая вытаскивала шарик из корзины.
«Я дам каждому из вас 10 долларов, если выпадет белый шарик», сказала она сквозь рёв встряхивателя. «Обычно игра стоит 1 доллар, но я вам сделаю демонстрацию бесплатно».
Когда тряска замедлилась, новичок сказал: «Я хочу, чтобы рука вытащила белый шарик, поэтому я верю, что она вытащит белый шарик. У меня есть вера, что выпадет белый шарик, и есть шанс, что я прав, поэтому вы не можете сказать, что я ошибаюсь!»
Когда тряска остановилась, ученик ответил: «Я изучаю рациональность и я знаю, что добродетель состоит в том, чтобы не отклоняться от данных. В этой урне больше красных шариков, чем белых, значит, данные говорят, что красный шарик выпадет с большей вероятностью, чем белый. Поэтому я верю, что выпадет красный шарик».
Когда рука начала раскрываться, учитель улыбнулся и сказал только: «Я отвожу вероятность 1% утверждению „выпадет белый шарик“ и вероятность 99% утверждению „выпадет красный шарик“ ».
Чтобы изучать искусство человеческой рациональности, необходимо заключить с собой важную сделку. Нужно дать обет прекратить пытаться желать, чтобы реальность соответствовала чему-либо; нужно дать обет слушать, что говорит реальность о том, какая она есть. Нужно считать «веру» попыткой отсоединить свои убеждения от голоса данных; нужно дать обет защищать эфемерное соответствие между реальным миром и своей картой этого мира.
Ученику легко, заключая с собой эту сделку, перепутать её с другой. Многие рационалисты считают, что они дают обет всегда слушать доказательства и позволять доказательствам выбирать, во что им верить. Они считают, что добродетель состоит в том, чтобы взвешивать доказательства и затем верить в наиболее вероятную гипотезу, и неважно, что в это может быть.
Но нет: это мышление-красного-шарика.
Путь к рациональности - это не путь, где доказательство выбирает убеждения. Путь к рациональности - это путь без убеждений.
На пути к рациональности есть только вероятности.
Наш язык представляет убеждения, как «качественные», мы говорим о них, как если бы они были бинарными. Ты либо знаешь что-то, либо нет. Ты либо веришь мне, либо нет. Ты либо прав, либо не прав.
Традиционная наука, как ей учат в школе, распространяет эту ошибку. Задача статистиков (как они говорят) - установить 2 гипотезы (нулевую и альтернативную), потом их обязанность (по их мнению) поверить той гипотезе, которую подтвердят данные. Ученый должен делать свои убеждения фальсифицируемыми (как они говорят), и если есть достаточное количество данных против убеждения, ученый должен поменять свою точку зрения (с одного бинарного убеждения на другое). До тех пор, пока ученый держит свои убеждения проверяемыми и фальсифицируемыми, он выполняет свой долг и имеет право верить в что-то. Так или иначе у всех сохраняется их собственное мнение, по крайней мере так учит традиционная наука.
Но это не путь рационалиста.
Мозг - машина для обработки информации, и человечество уже узнало пару вещей о том, как делать точные машины для обработки информации. Одна из этих вещей: чтобы построить точную модель мира, нужно убрать «качественную характеристику» веры, а использовать вместо этого «количественную характеристику» доверия.
Идеальный рационалист не скажет: «Я хочу, чтобы следующий шарик был белым, поэтому я верю, что он будет белым». Идеальный рационалист также не скажет: «большинство шариков красные, поэтому я верю, следующий будет красным». Идеальный рационалист отставит веру и определит значение вероятности.
Чтобы построить точную модель мира, вы должны не отклоняться от свидетельств. Вы должны использовать данные, чтобы выяснить вероятность каждой из гипотез. Но после этого нельзя просто выбрать наиболее вероятную гипотезу. Нет.
Вероятности не говорят вам, во что верить. Вероятности заменяют веру. Они являются верой. Вы говорите вероятности и останавливаетесь, потому что всё сказано.
Многие, кому я рассказываю эту притчу, думают, что это очевидно. Почти все, кому я это рассказываю, просто кивают, но большинство не может глубоко понять и усвоить этот урок.
Они слышат притчу и продолжают думать в терминах «знаю» или «не знаю» (вместо того, чтобы думать в терминах степени уверенности). Они кивают в ответ на эту притчу, но продолжают думать в рамках «быть правым» или «ошибаться» (вместо того, чтобы думать, насколько они хорошо откалиброваны). Они знают притчу, но в следующем разговоре они по-прежнему настаивают: «ты не можешь доказать это!» или «хорошо, это не доказывает, что я не прав», как будто высказывания о реальности вообще могут быть «доказаны», как будто полная определенность вообще возможна.
Никакое утверждение о мире не может быть доказано. Нет никакой определенности. Всё, что у нас есть - вероятности.
Большинство людей, когда они сталкиваются с событиями, противоречащими тому, во что они верят, решают, что эти события не являются достаточно сильными данными, чтобы поменять одно бинарное убеждение на другое, поэтому они не могут поменять мнение вообще. Многие не могут осознать, что все свидетельства против гипотезы снижают ее вероятность, даже если ненамного, потому что многие люди продолжают думать качественно, а не количественно.
На самом деле многие продолжают думать, что они должны выбрать, какой вывод сделать из свидетельства, которое они видели. И это так, но только для тех, кто не против допускать неточности, которых можно было бы избежать.
Многих это удивит, но человечество открыло много законов рассуждения.
Данная вам исходная структура знания, плюс наблюдения, которые вы совершаете - вот единственная максимально точная, обновленная структура знания.
Невозможно достичь этого состояния - совершенного опытного знания. Построить идеальную информационно-вычислительную машину так же невозможно, как построить идеальный тепловой двигатель. Но идеал известен. Уже известное вам плюс то, что вы видите - единственная максимально точная структура знания.
Вопреки распространенному мнению, вы не обязаны быть привязаными к своей точке зрения, не обязаны выбирать, во что верить. Не если вы хотите быть точными. Говорить, что знаешь и что видел - наилучшая структура опытного знания. Вычислить эту структуру практически невозможно, но процесс хорошо понятен. Мы не можем использовать информацию идеально, но мы знаем, в каком направлении двигаться, чтобы знать лучше.
Если вы хотите пройти этот путь, если вы хотите взрастить эфемерное соответствие между вашим сознанием и реальным миром, если вы хотите научиться составлять точную карту этой прекрасной, запутанной, вдохновляющей территории, на которой мы живём, тогда запомните:
Путь количественнен.
Чтобы пройти этот путь, вам нужно оставить позади веру и позволить вероятностям направлять вас. Они - это всё, что у вас есть.
Если это путь, который вы хотите пройти, то теперь я официально рекомендую начать с книги «Рациональность: от ИИ до зомби» Книга 1 «Карта и Территория».
В предыдущем посте я писал, что чтобы задать причину беспричинному чувству вины нужно:
Шаг 0. Поверить, что вы способны заботиться.
Шаг 1. Найти объект для своей заботы.
Этот пост посвящён шагу 1.
Есть множество способов страстно заботиться о чем-либо. Родители обычно особенно сильно заботятся о своих детях. Кто-то силён в заботе о своей семье, или окружающем мире или [ваши примеры]. Многие другие дерзают заботиться обо всем человечестве или обо всей разумной жизни.
С другой стороны, некоторым людям очень проблематично заботиться о чем-то большом. У них нет детей, за которых они могли бы отдать жизнь, и они не видят смысла заботиться о каждом человеке. При этом многие из них все ещё страдают от бессмысленного чувства вины. Когда я предлагаю таким людям найти причину чувству вины, изучив свою мотивацию и найдя что-то, о чем можно заботиться, ответом, довольно часто бывает простое «зачем?».
Этот пост - для них.
В рамках общего ответа я собираюсь говорить о своём личном ответе на это «зачем?». Сперва подчеркну, что мой ответ - не единственный существующий, как и моя мотивация, а также что я одобряю желание других заботиться о вещах, глубоко не безразличных им, независимо от побуждающих причин.
Я часто встречаю людей, которых не заботит человечество в целом (или будущее разумной жизни) и которым любопытно, зачем это делают другие. В ответ на мое предположение, что они и сами способны на заботу о чем-то гораздо большем, чем они сами, наиболее частый ответ: «Безусловно. Но зачем мне проявлять эту заботу?»
Зачем сражаться за человечество? Зачем беспокоиться о судьбе Земли или о судьбе людей, которых никогда не встретишь? Зачем заботиться об этом омерзительном виде животных, которое изобрело войну и пытки? Зачем заботиться о человечестве в целом, когда большинство его представителей - тупы или раздражают других людей либо являются членами не той политической партии, либо полны ложных представлений о мире? Большинство людей вызывает лишь раздражение, так зачем о них заботиться?
Я встречал множество людей, утверждавших, что они заботятся только о группе своих близких друзей.
Если вы действительно заботитесь только о своих друзьях, не мне менять ваши предпочтения. Но, по моему опыту, люди, которые думают, что заботятся только о своих близких друзьях, склонны путаться.
Один мой друг настаивал, что заботится только о близких ему, одновременно держа проблемы приватности (например, при общении в сети) очень высоко в списке своих приоритетов. Когда я спросил о причинах, он ответил (после некоторых раздумий), что заботится о свободе людей вообще. Заметив противоречие, он быстро добавил, что заботится о свободе масс только потому что это ему приятно, и конечно это эгоистичное желание, а его забота все ещё направлена только близким ему. (Это была, вообще говоря, беседа, в которой я впервые использовал аллегорию робота-филателиста.)
Что же происходит? В числе прочего, я полагаю, проявляется склонность путать чувства и заботу. Большинство людей испытывают сильные чувства только к близким друзьям и ничего даже приблизительно похожего - к незнакомцам, и делают вывод, что они не должны заботиться о незнакомцах. Они забывают, что чувства и забота - разные вещи! Определённо и я тоже испытываю более сильные чувства к близким, чем к незнакомым людям - но я все равно продолжаю заботиться и о незнакомцах тоже. На самом деле, подозреваю, что это верно применительно почти ко всем, кто утверждает, что заботится обо всем человечестве. Смелость - не в отсутствии страха, а в том, чтобы делать то, что считаешь правильным, даже когда чувствуешь страх. Соответственно забота - не о переполненности эмоциями, а о том, чтобы поступать правильно даже когда нет эмоционального побуждения. Одновременно и не испытывать сильных чувств к посторонним, и заботиться о них так же, как о своих близких - реально.
Это по крайней мере одна из причин, почему, как я полагаю, люди склонны настаивать, что они не заботятся о незнакомцах. Она не даёт ответа «зачем?». Даже приняв во внимание, что вести себя так, будто заботишься обо всем человечестве, - возможно, люди продолжают удивляться, с чего бы вдруг им этого хотеть.
И я не могу сказать, захотите вы заботиться или нет. Но я могу рассказать, почему мне захотелось, чтобы, по крайней мере, вам стало понятно, почему кто-то может.
Мы, люди, существа рефлексирующие. Мы анализируем, что мы чувствуем и о чем заботимся, и выбираем измениться. В процессе, осознавая себя и свои желания, я нахожу множество желаний, которые одобряю, и некоторые, которые одобрить не могу.
Я, как и многие, часто разочаровывался в людях (особенно когда им не удавалось прочесть мои мысли). У меня есть бессознательные искажения, направленные против тех, кто выглядит недостаточно похожим на людей среди которых я вырос. Я автоматически ощетиниваюсь на чужаков. Мне не комфортно находиться рядом с большей частью популяции. И все же в то же время я забочусь обо всех людях, обо всех детях планеты Земля, обо всей разумной жизни.
Почему? По большей части это мой выбор. Мои настройки по умолчанию, грубо говоря, располагают меня к поддерживанию друзей и ненависти к врагам. Но эти настройки так же содержат чувство эстетики, располагающей к справедливости и сочувствию. Мои чувства обычно сильнее к людям, которые мне близки, а мой здравый смысл, как правило, раздражён тем, что я не могу испытывать сильные чувства к другим, кто мог так же быть мне близок. Мои чувства обычно негативны по отношению к моим противникам, а мой здравый смысл обычно опечален тем, что мы не встретились при других обстоятельствах, тем что людям так тяжело делиться своими точками зрения.
Я веду к тому, что я, определённо, не лишён способности быть разочарованным в кругу дураков, но я так же не лишён тихого ощущения эстетики и справедливости, которые не одобряют подобного разочарования. В этом есть конфликт.
Я разрешаю его в пользу людей, а не чувств.
Почему? Потому что рефлексируя в поисках источника своих чувств, я нахожу эволюционные настройки, которые не одобряю. И разбираясь в истоках чувства эстетики, я приближаюсь к сути того, что ценю.
Потому что рефлексируя я вижу, что я - непоследовательное месиво мозгов, возникших в процессе долгой и слепой эволюции, полных желаний, чувств и страхов, касающихся всего, что мне дорого, а также кучки приставшего мусора. Создавая меня, Время извергло нестабильное сознание: причинно-следственный процесс моего прошлого сконструировал меня ценящим все, что я ценю, и кое-что, что я (через самоанализ) не ценю.
Так что, взглянув на себя, я вижу, что был создан чтобы одновременно: (а) заботиться сильнее о тех, кто близок мне, и (б) заботиться о справедливости, целостности и эстетике. Взглянув на себя, я вижу, что я одновременно забочусь сильнее о близких друзьях и не одобряю положение дел, при котором я забочусь о некоторых больше просто в силу тривиальных временных и пространственных совпадений.
А ещё я создан так, что взглянув на себя и найдя несоответствия, я забочусь об их разрешении.
Итак, почему же я забочусь о человечестве? Потому что мне легко разрешить это несоответствие. Сильные чувства конфликтуют с тихим ощущением эстетики, но если копнуть глубже, ощущение эстетики выигрывает вчистую. Для меня мои чувства выглядят случайными отголосками племенного прошлого, а эстетика - отражающей мои глубинные ценности. Я знаю, чему я верен.
В любом случае, это не сногсшибательная аргументация. Что для одного - modus ponens (доказательство вследствие?), для другого - modus tollens (доказательство от противного). Кто-то, взглянув на себя, может скорее предпочесть отказаться от чувства справедливости и целостности, чем выбрать заботу о незнакомцах. Но я, как и многие другие, не хочу заботиться только о друзьях. Мы ощущаем больше преданности эстетике, чем заложенным в нас чувствам - так что выбор прост.
Забота о других может звучать прекрасно в теории, но циникам (ненавидящим общение с идиотами), отмеченного выше скорее всего не достаточно.
И знаете что? Почувствовать желание заботиться о людях может быть очень тяжело, даже если вы решили, что хотите.
Слишком легко взглянуть на них и увидеть серость, безобразность, жадность, тупость.
Слишком просто смотреть на индивидов и видеть идиотов.
(У меня иногда тоже бывает это чувство).
Но в этом есть кое-что странное:
Представьте, что у вас есть собака, которую вы вырастили, с которой росли вместе десятилетиями. Представьте, что кто-то похитил вашу собаку и мучает её ради собственного удовольствия.
Что вы чувствуете по этому поводу? Насколько вам хотелось бы найти этого человека и воздать по справедливости?
Большинство людей способны почувствовать гораздо более сильную вспышку эмпатии и заботы к страдающим животным, чем к страдающим людям.
Представьте, что посреди аллеи к вам пристаёт бомж, пытаясь ограбить. Кто-то это замечает, вступается, и, оттолкнув и отпугнув бомжа, убеждается, что у вас все в порядке. Теперь представьте собаку посреди аллеи, рычащую на вас. Кто-то замечает, пинает собаку, отпугивает её и убеждается, что у вас все в порядке.
Не кажется ли вам противоречивой разница между чувствами при плохом обращении с животным и при плохом обращении с людьми? Не странно ли, насколько просто любить собак и насколько сложно - людей?
Вы, конечно, можете заключить, что не любите людей. Только это не обязательно. Вы можете, как и раньше, прислушаться к тихому ощущению эстетики, конфликтующему с заложенными в вас чувствами. Почему в нас заложены именно такие чувства? Не могу сказать точно, но есть такая теория:
Влиятельная версия теории социума - гипотеза макиавеллианского интеллекта (Byrne and Whiten 1988; Whiten and Byrne 1997). Социальные взаимодействия и отношения не только сложны, но и постоянно меняются и поэтому требуют быстрой параллельной обработки (Barton and Dunbar 1997).
Параллель с Никколо Макиавелли, хитроумным советником итальянских принцев 16-го века, - в том, что большая часть общественной жизни заключается в задаче перехитрить других, плетении интриг, объединения в союзы и разрушения их. Все это требует больших умственных усилий, чтобы запомнить, кто есть кто, кто что кому сделал, а также чтобы изобрести более искусную хитрость и обвести вокруг пальца врагов с их искусными хитростями - и все это приводит к спиральным гонкам вооружений. Гонки вооружений - частое явление в биологии, в виде хищников, эволюционирующих чтобы догонять свою эволюционирующую добычу, или паразитов, эволюционирующих чтобы перехитрить иммунную систему своих носителей. Идея что здесь замешан некий вид спирального или самозапускающегося процесса определённо соответствует тому, что Кристофер Уиллс (1993) называет «убегающим мозгом», и эта идея часто фигурирует в теориях, связывающих развитие речи с размером мозга. (Sue Blackmore, The Meme Machine)
Я к тому, что взгляните на нас. Люди - существа, которые видят молнию и предполагают существование злого небесного божества, потому что злое небесное божество выглядит гораздо более правдоподобным, чем уравнения Максвелла - несмотря на тот факт, что уравнения Максвелла гораздо проще описать (по стандартам математики), чем разумное небесное божество. Только подумайте: мы можем расписать уравнения Максвелла в 4 строки и мы все ещё не в состоянии описать работу общего интеллекта. Тор кажется более простым для понимания, но только потому, что у нас очень много встроенного «железа» для моделирования человеческой психологии.
Наш мозг заточен видеть человекоподобных агентов повсюду. Мультяшки работают: мы воспринимаем их как людей (и присваиваем им чувства), независимо от их примитивности. Мы повсюду видим целенаправленность: религиозные люди без проблем находят подтверждения тому, что их мирская суета - часть какого-то грандиозного плана, суеверия легко распространяются, а множество различных видов умственных расстройств (шизофрения, мания и т.д.) характеризуются иллюзиями, что или все против вас, или ваша жизнь была кем-то тщательно спланирована, - симптомы мышления, чересчур охотно описывающего все в понятиях людских интриг.
Глядя на людей, мы видим в них интриганов или соперников. Но когда мы смотрим на щенков, котят или других животных, эти социальные механизмы не запускаются.
Если загнать щенка в угол и напугать, и он начнёт огрызаться, волну сочувствия ощутить проще, чем злость.
Но когда на тебя огрызается человек, социальные механизмы включаются. Несложно застрять внутри взаимодействий. Если на нас набрасывается загнанный в угол человек - мы склонны отвечать агрессией.
И поэтому достаточно часто я мысленно отступаю назад, стараясь увидеть людей вокруг не как людей, а как невинных животных, удивляющихся, изучая окружающий мир, который они никогда не смогут полностью постичь, следуя по течению своих жизней.
Я стараюсь увидеть людей так же, как я вижу щенка, откликающимися на боль и наслаждение, огрызающимися только из страха. Я стараюсь увидеть трагедию в людях, чьи предрассудки и злоба обусловлены случайным стечением времени и обстоятельств и ощутить то же сочувствие, что и к страдающему ребёнку.
Я смотрю на собратьев-людей и стараюсь помнить, что они тоже невинные существа.
Кто-то однажды сказал мне, что чтобы ощутить сочувствие к другим полезно представлять их имеющими ангельские крылья. Я полагаю, в этом что-то есть. Что-то мощное в том, чтобы смотреть на людей и видеть ангелов, никогда не бывавших в раю. Только я предпочитаю видеть не ангелов, а обезьян, старающихся убедить себя, что им комфортно в этой странной цивилизации, столь отличающейся от древних саванн, в которых было выковано их мышление.
Некоторые используют слово «животное» как уничижительное и могут подумать, что попытки представлять людей животными унизительны. Для меня верно обратное, по тем же причинам, по которым сочувствовать бездомной собаке проще, чем бомжу, - это помогает убрать импульс распознавания в других людях конкурентов, союзников или врагов, просто смотреть на них так же, как я смотрю на котят, как на существ, обладающих любопытством и невинностью.
Почему я забочусь о людях и человечестве, о Земле и всех её детях, обо всей разумной жизни? Как я вообще могу это утверждать, учитывая, что я тоже часто испытываю более сильные чувства к друзьям, чем к незнакомцам, и больше сочувствую собаке чем человеку?
Вглядываясь в себя, я вижу конфликт между своими чувствами и ощущением, что мои чувства плохо откалиброваны. Присмотревшись, я нахожу, что мои чувства устроены не так, как я одобряю, с племенными установками, при которых было важно любить соплеменников и ненавидеть чужаков. И обращая внимание на ощущение, что эти чувства плохо откалиброваны, я нахожу хорошие соображения и ощущение, что это забота действительно значима, что она не произвольна, но ценна.
Так что для меня на вопрос «зачем заботиться о чем-либо?» есть простой ответ.
Позвольте мне ещё раз подчеркнуть, что вы не обязаны разрешать свои внутренние конфликты тем же путём, что и я. Вашим ответом на «зачем заботиться о чем-либо» может быть «я не забочусь ни о чем». Вы можете предпочесть чувства глубинному ощущению эстетики, или у вас могут быть совсем другие чувства и другая эстетика. В любом случае, если вы прислушаетесь к этому внутреннему ощущению разногласия, если ваши чувства будут для вас ориентиром, а не ответом, если вы выясните, почему вы чувствуете или заботитесь тем или иным образом, и выберете заботу о том, что выглядит правильным и хорошим объектом заботы,
—
вы тоже можете обнаружить, что на вопрос «зачем заботиться» у вас есть простой ответ.
Я часто вижу, как мои друзья совершают ошибку, которую я называю «ложной последовательностью». Особенно часто это касается тех, кто увлекается рациональностью или идеями «Эффективного альтруизма», поскольку в этих кругах последовательность считается важной добродетелью.
Человек совершает ошибку «ложная последовательность», если, обнаружив у себя противоречивые желания, мысли или убеждения, он во имя «последовательности» отбрасывает все из них, кроме одного. В результате человек сам себя лишает возможности использовать интуицию и ощущения, которые он не в состоянии выразить словами. Я полагаю, что от этого накапливается раздражение и разочарование.
Например, представим, что Алиса настаивает, чтобы Боб помог ей с домашней работой. Боб не хочет ей помогать, однако, не может ясно сформулировать, почему. После некоторого размышления Боб решает, что он не одобряет свои чувства, которые ему сложно выразить, и ему кажется, что у него нет права ответить «нет», если он не может чётко обосновать этот ответ. Боб соглашается помочь Алисе, однако, чувства, которые он не смог выразить, никуда не деваются. Они продолжают беспокоить Боба и приводят к раздражению.
Другой пример. Вообразим, что у Кэрол спрашивают: «Какое наказание следует присудить бездомному, который украл 10 тысяч долларов у семьи из среднего класса?» и Кэрол отвечает: «5 лет». Сразу же после этого её спрашивают: «Какое наказание следует присудить банкиру из высшего класса, который украл 10 миллионов долларов?» Первоначально ей хочется ответить что-нибудь в районе «10 лет», но она вспоминает свой ответ на предыдущий вопрос, ей очень хочется быть последовательной и поэтому она отвечает: «Его следует приговорить к пожизненному заключению». Если она это делает исключительно во имя последовательности, не разбираясь в том, что именно вызывает у неё противоречивые мысли, скорее всего, она является жертвой «ложной последовательности».
Поймите меня правильно, я целиком за внутреннюю последовательность. Последовательность — это добродетель. Когда вы обнаруживаете у себя непоследовательность — например, если вы в разных контекстах отвечаете по разному на один и тот же вопрос, или если часть вас думает одно, а другая часть думает другое, или если у вас есть два противоречащих друг другу представления о реальности, — то я призываю вас отметить найденное красным флажком, разобраться и в итоге обновить свои убеждения.
Если вам неуютно, когда вы сталкиваетесь с собственной непоследовательностью, это совершенно нормально. Проблемы возникают, если вы отвечаете на этот дискомфорт внутренним насилием и заставляете часть себя подчиниться с помощью дубины.
Давайте сравним мир, в котором Боб не смог сформулировать свои возражения и отбросил их, с миром, где он ответил: «Гм, часть меня хочет помочь тебе, а другая часть — нет. Позволь мне немного побеседовать с самим собой и разобраться, не смогу ли я выяснить, о чём беспокоится эта вторая часть».
Вообще, в таких ситуациях я рекомендую в буквальном смысле побыть посредником в диалоге между противоборствующими точками зрения. Вообразите себя за столом переговоров, где одна сторона хочет помочь Алисе сделать её домашнюю работу, а у другой стороны присутствует невысказанная тревога. Предположим, что у обеих сторон есть веские причины и добрые намерения, пусть даже они предлагают и не лучшие стратегии. Помогите им прийти к согласию. Что, скорее всего, скажет та сторона, которая тревожится? В какой валюте будет идти торг? Что похоже на удовлетворительный результат?
Если некоторый выбор приводит к тому, что у вас появляется полдюжины различных мыслей и эмоций, то решением проблемы с непоследовательностью будет такое состояние, при котором выбор будет устраивать все ваши противоборствующие части. Если же, для того, чтобы оправдать ваши действия, вам придётся пройтись катком по половине ваших опасений, то это не решение проблемы.
Представьте, что вы столкнулись с необходимостью принять решение и понимаете, что вам очень тяжело избежать ошибки «пренебрежение масштабом». Я утверждаю, что есть большая разница между тем, чтобы насильно заставить подчиниться ту часть вас, которая не понимает больших чисел, после чего заткнуться и умножать, и тем, чтобы приучить себя на уровне эмоций действительно понимать, что «много» значит «много», после чего решение хладнокровно переходить к математическим расчётам в таких случаях будет приниматься автоматически. Первое — «ложная последовательность», второе — достойная цель.
Если же вы пока не смотрели на большие числа достаточно долго, чтобы выработать в себе способность затыкаться и умножать рефлекторно (и чтобы при этом никакая часть вас не вопила о том, что это холодный нечеловеческий подход), тогда всё равно постарайтесь заткнуться и умножать. Поступать Правильно — превыше всего. Но затем поговорите с протестующей частью вас и подключите и её к проекту «Поступать Правильно». Иногда прибегать к внутреннему насилию необходимо, но я рекомендую всегда помечать такие случаи красными флажками.
Чем больше вы практикуетесь в разрешении внутренних конфликтов путём переговоров, тем меньше вам приходится прибегать к заглушению тихих голосков сомнений. С опытом также, скорее всего, придёт и способность лучше формулировать тревоги, которые не получалось сформулировать раньше.
На промежуточном этапе непоследовательным быть можно. Не стоит игнорировать тревоги только лишь из-за того, что вы не можете выразить их словами. Если ваши действия сегодня не согласуются с вашими действиями вчера, и вы знаете, как построить диалог между конфликтующими частями вас, но прямо сейчас у вас не хватает на это времени, то не нужно бросать всё и стараться быть последовательным.
Мы пока не боги, помните? Мы всё ещё обезьяны. Если вы заставите себя быть последовательными всегда, очень вероятно, что вы растопчете какие-нибудь существенные возражения и не заметите важные шепотки замешательства.
Я призываю всех рассматривать непоследовательности как ошибки. Однако, заметание ошибок под ковёр или попытки изо всех сил притвориться, что их не существует, — лишь другая ошибка. Мы неорганизованные существа, и для разрешения непоследовательностей часто требуется немного поработать. А на промежуточном этапе непоследовательным быть можно.
Скорее всего, вы не вините себя за то, что не можете одним щелчком пальцев изобрести лекарство от болезни Альцгеймера.
Тем не менее, многие люди себя винят за то, что не могут работать до изнеможения каждый день (хотя наша психика на это не способна). Они винят себя за то, что не могут волшебным образом, без какой-либо практики или переподготовки, избавиться от не устраивающих их шаблонов поведения (хотя для нашего разума это невозможно). В чем же проблема?
Я думаю, разница в том, что люди считают «невозможным» вылечить болезнь Альцгеймера щелчком пальцев и «возможным» использовать лучший образ мышления. И именно здесь кроются многие проблемы.
Большинство людей неправильно используют словосочетание «мог бы».
Они считают, что «могли бы» не волноваться на той вечеринке. Они считают, что «могли бы» прекратить играть в «Цивилизацию» в разумное время и пойти спать. Они считают, что «могли бы» выключить «Карточный домик», просмотрев несколько серий. Я сейчас говорю не об иллюзии свободной воли: я считаю осмысленными разговоры о «возможности» делать те вещи, которые в реальности мы не делаем. Скорее, я говорю о том, что многие люди имеют неаккуратные представления о том, что они могут или не могут.
Люди ругают себя каждый раз, когда их мозг не действует по тому шаблону, по которому им хотелось бы. Как будто у них есть полное господство над своими мыслями, над извилинами своего мозга. Как будто их мозг не является сетью нейронов. Как будто они могут выбирать предпочтительные варианты, несмотря на свой образ мышления, а не признавать, что выбор и есть образ мышления. Как будто они должны выбирать своё сознание, а не быть им.
Как будто они уже боги.
Мы не боги.
Пока ещё нет.
Мы все ещё обезьяны.
Насколько мне известно, почти у каждого человека внутри бардак. Почти все прикладывают усилия, чтобы поступать в соответствии со своими желаниями. Почти все слабы психологически и могут оказаться в ситуации, заставляющей их делать то, о чем они потом жалеют: переедать, тратить слишком много денег, проявлять гнев, страх, беспокойство. Мы — обезьяны, и мы слабы в подобных вопросах.
Поэтому не надо упрекать себя, когда вы промахиваетесь. Не надо ругать себя, когда не получается поступать в точном соответствии со своими желаниями. Такие поступки не происходят сами по себе, они случаются только после изменений окружающей обстановки и тренировки мозга. Вы все ещё обезьяна!
Не ругайте обезьяну. Помогайте ей каждый раз, когда можете! Она хочет того же самого, что и вы: она и есть вы. Не наседайте на неё, а помогите ей. Раз обезьяне трудно поступать так, как вам хочется, поймите, как сделать этот процесс легче. Переобучите обезьяну. Экспериментируйте. Пробуйте.
И будьте добры к ней. Она довольно сильно старается. Обезьяна пока не знает, как именно получить то, что хочется, потому что мир вокруг неё большой и сложный, и она не может увидеть большую его часть, и потому что множество её действий обусловлено дюжиной подсознательных шаблонов реагирования, над которыми у неё практически нет контроля. Она старается!
Не ругайте обезьяну за то, что она спотыкается. Мы ведь не выбрали самый простой путь. Мы не ставим перед собой самые лёгкие цели. То, что мы делаем, довольно сложно.. Поэтому, когда обезьяна спотыкается и падает, помогите ей подняться. Помогите ей практиковаться, или тренироваться, или выполнить еще один умный план по преодолению препятствий.
Возможно, когда-нибудь мы сможем лучше контролировать свой разум. Мы сможем выбирать наш образ мышления усилием воли и без проблем поступать в соответствии со своими желаниями. Мы сможем быть теми существами, которыми многие хотят быть и с которыми сравнивают себя, воображаемыми существами с полным господством над собственным сознанием.
Но не сейчас. Мы не боги. Мы все ещё обезьяны.
Почти никто не думает, что «мог бы» изобрести лекарство от болезни Альцгеймера по щелчку пальцев. Поэтому никто не огорчается из-за того, что не в состоянии это сделать.
С другой стороны, люди, которые не справляются с тем, чтобы не переедать или прекратить играть в «Цивилизацию» в разумное время, всерьёз считают, что они «могли бы» справиться. Поэтому они рассматривают свой провал как повод для того, чтобы чувствовать себя ужасно по поводу своих поступков.
На прошлой неделе я упоминал, что многие люди неправильно используют словосочетание «мог бы».
Сила воли — дефицитный ресурс. Иногда силой воли вы можете вытащить себя из ментальной колеи, в которой вы застряли. Но так получается довольно редко, обычно одной силы воли недостаточно. Если ваш план больше не засиживаться за «Цивилизацией» на всю ночь заключается в словах «ну, я просто буду в следующий раз заставлю себя сильнее», то он обречен на провал. Если он не сработал в прошлый раз, навряд ли он сработает в следующий. Сила воли — это костыль, а не лекарство.
Я думаю, что многие люди неправильно используют словосочетание «мог бы» потому, что они неверно понимают, где находятся точки принятия решений. Они думают, что «выбор» перед ними стоял на 347 ходу «Цивилизации», когда они решили сыграть еще раунд (и на каждом следующем ходу между полночью и четырьмя утра).
Но выбор произошёл не в этот миг. Если вам приходится заставлять себя изменить поведение, вы уже пропустили настоящую точку выбора.
Настоящий выбор происходит в самом начале, когда вы размышляете, играть вам вообще в «Цивилизацию» или нет.
Предположим, у вас есть знакомый, который постоянно действует вам на нервы. Время от времени вы срываетесь на него и это заканчивается перебранкой. Вы точно знаете, что не должны кричать на него, и честно пытаетесь не нервничать. Когда он начинает вас раздражать, вы очень хотите успокоиться, но это никогда не работает (неважно, насколько решительно вы планируете заставлять себя сильнее в следующий раз). В таком случае я предлагаю вам не пытаться сдержать себя на пике раздражения, а вместо этого обратить внимание, что происходит за пять минут до срыва. Вот где настоящий выбор! Нельзя выбрать, срываться или не срываться в критический миг, но можно выйти из ситуации за пять минут до него.
Настоящий выбор обычно происходит за несколько минут до того выбора, за который люди упрекают себя. Если вам приходится применять силу воли, вы уже пропустили точку настоящего выбора. (В предыдущих статьях я предлагал вам пообещать себе, что вы не будете использовать силу воли для выхода из неприятных положений: знание о том, что вы наверняка не будете спасать свою задницу, если окажетесь в ситуации, требующей силы воли для выхода, заставляет вас замечать настоящую точку невозврата, когда вы проходите через нее).
Если вы замечаете в себе шаблоны поведения, которые вам не нравятся, я советую притвориться, что у вас нет никакой силы воли. Представьте мир, в котором вы просто не способны заставить себя прекратить делать что-либо увлекательное после того, как начали. Как бы вы поступали в таком мире?
Поищите триггеры, предшествующие действию, которое вы хотели бы изменить. Что происходило за час до него? А за пять минут? А что происходило за шестьдесят секунд до того, как у вас не получилось поступить так, как вам хотелось?
Вот где настоящий выбор!
Многие люди неправильно используют словосочетание «мог бы». Они относятся к себе так, как будто они «могли бы» начать смотреть сериал и остановиться в разумное время. Они ставят себя в ситуации, искушающие поступить вопреки здравому смыслу, и потом ругают себя за то, что поддались искушению.
Я, напротив, не считаю, что я «мог бы» прекратить читать хорошую книгу, и поэтому не чувствую себя ужасно, если я зачитываюсь. Вместо этого я говорю: «Ага, я вижу, что зачитываюсь увлекательными книгами. Поэтому я буду воспринимать чтение книги как единое неделимое действие, занимающее от пяти до двадцати часов, без развилок внутри». В ситуациях, в которых другие ругают себя за то, что не справились с невозможной задачей («прекратить читать и вернуться к серьезной работе»), я разбираюсь, на что я способен и на что не способен, и выясняю, когда у меня происходит настоящая точка принятия решения.
Нам, людям, доступен не любой выбор. Иногда мы способны прекратить читать интересную книгу примерно в той же мере, что и изобрести лекарство от болезни Альцгеймера. Иногда берёт верх зависимость, иногда — наследие мозга рептилии или первобытная ярость. В такие минуты мы не влияем на ситуацию. Мы совершаем выбор далеко не в каждый миг своей жизни. Часто у нас недостаточно силы воли, чтобы перебороть импульсы, инстинкты и привычки.
Цель в том, чтобы всё равно выиграть.
Наш разум не имеет абсолютной власти над нашими действиями. Часто он практически бессилен повлиять на наше поведение. Мы еще не боги. Мы все еще обезьяны. Все еще нейронные сети. Я предлагаю вам перестать ругать себя за невыполнение невозможных задач, а вместо этого начать экспериментировать и разбираться, на что вы на самом деле способны.
Ищите действия, которые позволят вам поступать в соответствии со своими желаниями до того, как решение станет трудно исполнить. Научитесь распознавать моменты, когда ваше сознание с готовностью реагирует на ваши желания. Именно в такие мгновения происходит настоящий выбор, и здесь вы можете что-нибудь улучшить.
Я не могу прочувствовать большие числа. Когда берёшься за цифры больше 1000 (или даже 100) они просто кажутся «большими».
Возьмём Сириус, ярчайшую звезду на ночном небе. Если вы скажете мне, что Сириус вместил бы миллион планет размером с Землю, я бы почувствовал, что он намного больше Земли. Если бы вместо этого сказали, что Сириус вмещает миллиард земных шаров… я бы всё ещё чувствовал, что он намного больше Земли.
Чувства почти идентичные. В контексте мой мозг неохотно признает, что миллиард гораздо больше миллиона и прилагает усилие, чтобы почувствовать, насколько звезда-в-миллиард-планет больше звезды-в-миллион-планет. Но вне контекста — если бы я не был привязан к «миллиону», когда услышал «миллиард» — оба этих числа ощущаются неопределённо большими.
Я придаю мало значения размеру чисел, если взять действительно большие. Если вы скажете «один и сотня нулей», это ощущается гораздо больше миллиарда. Но это не ощущается (инстинктивно) в 10 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 раз больше миллиарда. Не так, как четыре яблока внутренне ощущаются вдвое больше, чем два яблока. Мой мозг не может даже приблизиться к разнице в величинах такого порядка.
Этот феномен связан с пренебрежением масштабом, и он важен для меня. Я живу в мире, где некоторые вещи, о которых я забочусь, очень и очень многочисленны.
Например, миллиарды людей живут в нищете, сотни миллионов из них не могут удовлетворить базовые потребности и/или они умирают от болезней. И хотя большинство из них вне моего поля зрения, я всё равно забочусь о них.
Утрата человеческой жизни со всеми её радостями и печалями это трагедия независимо от причины, и трагедия не уменьшается от того, что я был далеко, или не знал об этом, или не знал как помочь, или потому что я не был лично ответственен.
Зная это, я забочусь о каждом человеке на этой планете. Проблема в том, что мой мозг просто неспособен взять на себя заботу, которую я чувствую к одному человеку, и масштабировать её в миллиард раз. Мне не хватит внутренних способностей к сопереживанию. Мой забото-метр просто не поднимается так высоко.
И это проблема.
Есть распространённое выражение: смелость не в том, чтобы быть бесстрашным, а в том, чтобы бояться, но несмотря на это поступать правильно. В этом же смысле забота о мире не в том, чтобы инстинктивно чувствовать количество страданий в мире, а в том, чтобы делать правильные вещи всё равно. Даже без этого чувства.
Мой внутренний забото-метр был откалиброван, чтобы иметь дело со ста пятьюдесятью людьми, и он просто не может выразить количество заботы, которое я испытываю к миллиардам страждущих. Внутренний забото-метр просто не поднимается так высоко.
На карту поставлено слишком многое. Сегодня страдают по меньшей мере миллиарды людей. В худшем случае существуют квадриллионы (или более) потенциальных людей, транслюдей и постлюдей, существование которых зависит от того, что мы делаем здесь и сейчас. Все замысловатые цивилизации, которые будущее сможет вместить, опыт, красота и искусство, возможные в будущем, зависят от настоящего.
Когда ставки столь высоки, ваша внутренняя эвристика для заботы, откалиброванная на числа «десять» и «двадцать», совершенно не понимает всей тяжести ситуации.
Спасая жизнь человеку мы чувствуем себя великолепно — вероятно, столь же великолепно, как если бы мы спасли весь мир. Разумеется, вы не почувствуете многомиллиардную разницу, спася мир, потому что ваше аппаратное обеспечение не может выразить чувство в миллиард раз большее, чем при спасении жизни человека. Но даже если альтруистический подъём от спасения чьей-то жизни будет ужасно похож на альтруистический подъём от спасения мира, всегда помните, что между подобными чувствами разница величиной в целый мир.
Нашего внутреннего чувства заботы крайне недостаточно чтобы решить, как действовать в мире с большими проблемами.
По мере того, как я усваивал пренебрежение масштабом, мое мышление менялось. Это немного сложно сформулировать, поэтому я начну с нескольких историй.
Представьте Элис, программистку Amazon в Сиэтле. Примерно раз в месяц на улицах появляются студенты с клипбордами, выглядящие всё более разочарованно, по мере того как они изо всех сил пытаются убедить людей жертвовать «Врачам без границ». Обычно Элис избегает зрительного контакта и идет по своим делам, но в этом месяце им удалось подстеречь её. Они рассказывают о «Врачах без границ» и она признает, что проблема достойна внимания. Она вручает им 20 долларов благодаря сочетанию социального давления, чувства вины и альтруизма, и устремляется обратно к своей работе. (В следующем месяце, когда они появляются снова, она избегает зрительного контакта.)
Теперь представьте Боба. Друг на Facebook пригласил его участвовать в Ice Bucket Challenge. Он слишком занят, чтобы справиться с испытанием ведром ледяной воды, и вместо этого просто жертвует 100 долларов организации ALSA.
Теперь рассмотрим Кристин, которая состоит в студенческом сообществе ΑΔΠ. ΑΔΠ соревнуется с ΠΒΦ (другим сообществом), чтобы выяснить, кто сможет собрать за неделю больше денег для Национального фонда рака молочной железы. В Кристин силен дух соперничества и она вовлечена в сбор средств, поэтому она сама в течение недели жертвует несколько сотен долларов (особенно в то время, когда ΑΔΠ сильно отстаёт).
Все эти люди жертвуют деньги благотворительным организациям… и это замечательно. Но заметьте, как похожи эти три истории: пожертвования в них мотивированы социальным контекстом. Элис движет чувство долга и социальное давление. Боб испытывает социальное давление и дружеские чувства. Кристин видит в этом соревнование. Все они являются прекрасными мотивами, но обратите внимание, что все они напрямую связаны с социальными установками, а с сущностью пожертвований лишь косвенно.
Если вы возьмёте Элис, Боба или Кристин, и спросите их, почему они не жертвуют всё своё время и деньги на проблемы, которые вероятно кажутся им полезным, они усмехнутся и возможно подумают, что вы им грубите (и обоснованно!). Если вы надавите, они могут сказать, что сейчас ограничены в деньгах, или что будут жертвовать больше, если станут лучшими людьми.
Но вопрос по-прежнему будет казаться неправильным. Отдавать всё — это не то, что вы привыкли делать с деньгами. На людях мы все можем согласиться, что люди, отдающие все свои сбережения, действительно классные, но между собой считаем, что такие люди сумасшедшие (по-хорошему сумасшедшие, но всё равно).
Одно время я разделял такой образ мыслей. Существует альтернативное мышление, которое может ударить вас, словно грузовой поезд, когда вы усвоите пренебрежение масштабом.
Представьте Дэниела, студента колледжа, вскоре после разлива нефти Deepwater Horizon BP. Он встречает одного из тех студентов с клипбордами на перекрёстке, которые просят пожертвования в пользу Фонда дикой природы. Они пытаются спасти как можно больше птиц, пострадавших из-за разлива. Обычно Дэниел игнорировал благотворительность как Не Самую Важную Вещь, или Не Стоящую Его Времени, или Чужую Проблему, но в этот раз он размышлял о том, как его мозг плохо чувствует числа, и он решает сделать быструю проверку.
Он воображает, как идёт по пляжу после разлива нефти и сталкивается с группой людей, очищающих птиц так быстро, как они могут. У них не хватает ресурсов для очистки всех пострадавших птиц. Несчастная молодая птица плывёт к его ногам. Она покрыта нефтью и едва способна открыть глаза. Он встаёт на колени, чтобы поднять её и отмыть на столе. Один из волонтёров говорит ему, что у них не будет времени помыть её, но он может надеть перчатки и спасти её, отмыв за три минуты.
Дэниел решает потратить три минуты своего времени, чтобы спасти птицу, и что он также будет рад заплатить по крайней мере 3 доллара за то, что кто-то ещё потратит несколько минут на очистку птицы. Он наблюдает за собой и обнаруживает, что это происходит не только из-за того, что он представил птицу прямо перед собой. Он чувствует, что стоит потратить не менее трёх минут своего времени (или 3 доллара), чтобы спасти масляную птицу в каком-то неясном возвышенном смысле.
Поскольку он размышлял о пренебрежении масштабом, он ожидает, что мозг неверно оценит, насколько он действительно заботится об огромном количестве птиц: нельзя ожидать, что внутреннее чувство заботы будет соответствовать реальной значимости ситуации. Поэтому вместо того, чтобы прислушиваться к интуитивному забото-метру, он действует по правилу «заткнись и умножай».
Тысячи и тысячи птиц были загрязнены разливом BP. После перемножения, Дэниел осознает (с нарастающим ужасом), что значение его заботы о птицах составляет не менее двух месяцев упорной работы и/или пятидесяти тысяч долларов. И это без учёта дикой природы, которой угрожают другие разливы нефти.
И если он так заботится об очистке птиц, то насколько он действительно заботится о промышленном животноводстве, не говоря о голоде, бедности и болезнях? Насколько он реально заботится о войнах, которые опустошают государства? О беспризорных, брошенных детях? О будущем человечества? Выходит, что он заботится об этих вещах в масштабах, сильно превышающих все его деньги и имеющееся у него время.
Впервые Дэниел видит проблеск того, насколько велика его забота, и в каком плачевном состоянии мир вокруг.
Это странно влияет на Дэниела, пока его рассуждения проделывают полный оборот: он уже не готов пожертвовать 3 минуты или 3 доллара на загрязнённую птицу. Не потому, что птицы не стоят времени и денег (он считает, что экономика производит вещи за 3 доллара, которые стоят меньше, чем жизнь птицы), а потому, что он не может тратить время или деньги на спасение птиц. Альтернативные издержки внезапно кажутся слишком высокими: так много нужно сделать! Люди болеют, голодают и погибают! Будущее нашей цивилизации под угрозой!
Даниэль не торопится отдавать 50000 долларов WWF, и он не жертвует ALSA или NBCF. Но если вы спросите Дэниела, почему он не пожертвовал все свои деньги, он не посмотрит на вас с усмешкой и не подумает, что вы грубы. Он покинул место, где вам всё равно, и понял, что его разум всё время лгал ему о тяжести реальных проблем.
Теперь он понимает, что он не может сделать достаточно. После калибровки пренебрежения к масштабу (и того факта, что его мозг лжёт о масштабах больших чисел), даже «менее важным» проблемам, подобным WWF, неожиданно кажется достойным посвятить жизнь. Он готов сдвинуть горы, чтобы решить проблему уничтожения дикой природы, ALS (боковой амиотрофический склероз) и рака молочной железы, — но он наконец понял, что гор слишком много, и ALS не является бутылочным горлышком, и ААА ОТКУДА ЗДЕСЬ ВСЕ ЭТИ ГОРЫ?
В прошлом он не бросил всё, чтобы работать над ALS, потому что эта проблема казалась… недостаточно насущной. Или легко решаемой. Или важной. Вроде того. Это различные доводы, но настоящая причина в том, что идея «бросить всё и заняться ALS» никогда не приходила в голову как реальная возможность. Это слишком отклонялось от типичного сценария. Это не его проблема.
После осознания всё стало его проблемой. Единственная причина, по которой он не бросил всё, ради работы над ALS, это потому, что сперва нужно сделать слишком много других вещей.
Элис, Боб и Кристин обычно не тратят время на решение всех мировых проблем, потому что забывают их видеть. Если вы напомните им — поместите в социальный контекст, где они вспомнят, насколько сильно заботятся (надеюсь, без чувства вины или давления) — скорее всего, они пожертвуют немного денег.
Дэниел, как и другие пережившие ментальный сдвиг, напротив, не тратит время на решение всех мировых проблем, потому что проблем слишком много (надеюсь, Дэниел откроет для себя движение эффективного альтруизма и станет способствовать устранению самых насущных глобальных проблем).
Я не пытаюсь проповедовать здесь о том, как быть хорошим человеком. Вам не нужно разделять мою точку зрения, чтобы быть хорошим человеком (что очевидно).
Я скорее пытаюсь указать на новую перспективу. Многие из нас понимают, что должны заботиться о людях, страдающих далеко от нас, но у них не получается. Я думаю, что это отношение связано, по крайней мере частично, с тем фактом, что большинство из нас безоговорочно доверяют нашим внутренним забото-метрам.
«Чувство заботы» обычно недостаточно сильное, чтобы заставить нас неистово спасать всех умирающих. Хотя мы признаем, что было бы добродетельным делать больше для мира, мы думаем, что не можем, потому что не наделены добродетельной экстра-заботой, которую должны иметь выдающиеся альтруисты.
Но это ошибка: забото-метр у выдающихся альтруистов не больше обычного, они просто научились не доверять своему забото-метру.
Наши забото-метры сломаны. Они не переваривают большие числа. Никто не способен честно представить масштаб мировых проблем. Но тот факт, что вы не чувствуете заботу, не значит, что вы не способны заботиться.
Вам не нужно испытывать должное количество «заботы» в вашем теле. Простите — мировые проблемы слишком велики, и ваше тело не спроектировано адекватно реагировать на проблемы такого масштаба. Но если вы решитесь, то всё равно можете действовать без недооценки масштаба проблем. Вы можете перестать доверять внутренним ощущениям, определяющим ваши действия, и переключиться на ручное управление.
Конечно, это приводит к вопросу: «Что, черт возьми, тогда делать?»
Я не знаю наверняка (хотя упомяну Giving What We Can, GiveWell, MIRI и The Future of Humanity Institute как хорошие отправные точки).
Отчасти не знаю потому, что перспективы кажутся безнадёжными. Недостаточно думать, что вы должны изменить мир — вам нужно отчаяние, которое приходит из понимания, что вы посвятите всю свою жизнь решению сотой по масштабу проблемы, но вы не можете, потому что остаётся ещё 99 больших проблем, которыми нужно заняться в первую очередь.
Я не пытаюсь вызвать чувство вины, чтобы вы пожертвовали больше денег — стать филантропом действительно очень тяжело (если вы уже являетесь им — примите моё почтение). Сперва вам потребуются деньги, что встречается нечасто, а затем потребуется швырнуть эти деньги в далёкие невидимые проблемы, и мозг непросто убедить сделать это. Акрасия — грозный соперник. И самое главное: чувство вины плохой мотиватор в долгосрочной перспективе. Если вы хотите присоединиться к рядам людей, спасающих мир, я бы предпочёл, чтобы вы сделали это с гордостью. Впереди много испытаний и несчастий, и нам лучше встретить их с высоко поднятой головой.
Смелость не в том, чтобы быть бесстрашным, а в том, чтобы поступать правильно, даже если боишься.
Схожим образом, решение главных проблем нашего времени не в том, чтобы действовать по сильному внутреннему порыву. А в том, чтобы действовать в любом случае, даже если внутренние приборы абсолютно неспособны оценить масштаб проблем, с которыми мы сталкиваемся.
Легко взглянуть на добродетельных людей — Ганди, Мать Терезу, Нельсона Манделу — и прийти к выводу, что стоит заботиться больше. Но не думаю, что в этом дело.
Никто не способен постичь масштаб этих проблем. Лучшее, что мы можем сделать, это умножать: найти что-то, о чем мы заботимся, присвоить ему вес и умножить. И доверять этим цифрам больше, чем нашим чувствам.
Потому что чувства лгут нам.
Когда вы умножаете, то понимаете, что искоренение глобальной бедности и создание лучшего будущего требуют больше ресурсов, чем есть в нашем распоряжении. В мире недостаточно денег, времени и усилий чтобы сделать всё необходимое.
Есть только ты, и я, и все остальные, кто пытается, несмотря ни на что.
Вы не можете ощутить всю тяжесть мира. Человеческий мозг неспособен на этот подвиг.
Но иногда вы можете приблизиться к этому.
Примечание редактора сайта: Исходно этот перевод выполнил Саша Бережной для сайта Эффективного альтруизма.
Если у вас есть деньги и вы хотите спасать жизни, вам лучше установить цену на жизнь. Скотт Александр объяснит это лучше, чем я.
Но не путайте стоимость жизни с ценностью жизни. Как я вижу, такое происходит достаточно часто. Чтобы исправить эту ошибку, я собираюсь рассказать небольшую историю.
* * *
Когда-то давно существовала деревня мирных бессмертных людей. Они не старели после своего рассвета, но могли умереть от голода или повреждений. И, возможно, потому, что их жизнь была такой длинной и наполненной, все они высоко ценили друг друга и жили в мире. И действительно, не было такого расстояния, которое не могли бы преодолеть эти люди, чтобы спасти даже одного из своих товарищей от нежеланной смерти.
По крайней мере, так было до появления дракона.
Я уверен, вы знаете, что драконы желают получить от людей две вещи: золото и плоть. И этот дракон, горе для сельских жителей, был воистину мощным – он был практически непобедим, и по-настоящему коварен. Дракон, легко способный убить всю деревню в один миг, дал им мрачный ультиматум:
Каждый человек в этой деревне должен ежегодно платить налог золотом, количество которого равно возрасту этого человека. Всякий, кто не сможет заплатить, будет съеден.
Жители деревни умоляли, стоя на коленях, рыдали и приходили в ярость, но дракон оставался непреклонен. Он просто показал им несколько скал, в которых, вероятно, можно было сделать хорошие золотые прииски и приказал им приступать к работе.
Люди старались изо всех сил. И они действительно все сделали на хорошем уровне. Пусть они не были шахтёрами, но были способными учениками.
Сельчане работали не покладая рук, откидывая камни в сторону, копали землю голыми руками, разбивая пальцы до крови, мало охотились и старались как можно меньше заниматься собирательством, и даже перестали заботиться о своих жилищах — но все равно, не могли отдать налог дракону. В конце года дракон вернулся и забрал все золото, которое у них было, и десять самых старых сельских жителей (отдав старейшин, удалось спасти большинство жизней).
Обезумев, жители деревни решили попробовать снова. Они подвергли себя ещё большим аскезам в попытке успеть к назначенному сроку, становясь все более изнурёнными. Их глаза поблекли, кожа болезненно пожелтела, а руки стали безжизненными. Они слишком сильно жертвовали собой, работая в шахтах. И в следующий раз, когда пришёл дракон, он забрал все золото и пятьдесят жителей.
Их стратегия не работала.
Но эти жители были рождены людьми, а изобретательность – одно из главных человеческих качеств. Таким образом, на третий год выжившие пришли к горькому осознанию своего положения и снова начали охотиться, заниматься собирательством, становились сильнее и здоровее, и признали, что им придётся заботиться о себе, прежде, чем они смогут позаботиться о своих близких. Они приступили к созданию кирок и лопат, понимая, что голыми руками справиться не удастся.
В конце третьего года дракон снова забрал все золото и сотню жителей, поскольку их стратегия еще не начала приносить плоды.
Но в конце четвёртого года дракон забрал всего двоих.
Вскоре после этого дракон (восхищаясь их прогрессом) сообщил жителям деревни, что теперь налог будет расти быстрее, экспоненциально их возрасту.
На этот раз жители деревни лишь только кивнули и преобразовали свою горячую ярость в холодную решимость.
Прошло много лет с тех пор, как дракон впервые пришёл в селение. На самом деле, все сильно изменилось: деревня выросла до города, а город вырос до цивилизации.
Средний возраст населения стал ниже. Старейшины стали мыслить продуктивнее и поняли, как получать больше золота в час, но стало приходить время, когда эта повышенная производительность больше не стоила затрат на жизнь. И когда это время настало, старейшины были готовы к своей судьбе, потому что понимали, что их жизнь не стоила двух других.
На самом деле жёсткие компромиссы, подобные этим, стали обычным явлением. Жители деревни давно открыли экономику и специализацию, и теперь большинство из них не работало в шахтах. Некоторые из них стали проводить время за готовкой или выращиванием растений для пропитания, другие стали тратить время на совершенствование жилищ, появились и мастера, занимающиеся разработкой новых инструментов и механизмов, которые бы поспевали за грабительским налогом дракона. Удивительно, но есть и те, кто посвятил свою жизнь искусству и развлечениям, ведь жители осознали важность поддержания мотивации и морального духа.
(А тем временем, некоторые жители, глубоко под землёй, подальше от любопытных глаз дракона, разрабатывали оружие.)
Таким образом, вы можете обнаружить в этой цивилизации людей, которые посвящают свою жизнь не добыче золота, а написанию книг, но, если вы посмотрите внимательно, то заметите, что это происходит только тогда, когда писатель может спасти больше жизней за счёт роста производительности и морали, чем за счёт своего труда в шахте. И потому эта цивилизация, одержимая сохранением жизни тому количеству людей, скольких может спасти ежегодно, все ещё создаёт книги, пьесы и фильмы.
Это означает, что в настоящее время вы можете рассчитать точную цену спасения каждой жизни. И оказывается, что одна жизнь равна примерно той же цене, что и тысяча билетов в кино.
Давайте послушаем, как два гражданина этого драконьего мира, Элис и Боб, говорят о ценности жизни:
Элис: Ты понимаешь, что истинная цена жизни эквивалентна примерно тысяче просмотров последнего блокбастера?
Боб: Глупости! Жизнь стоит гораздо больше тысячи часов просмотра фильмов! Жизнь практически бесценна! Невозможно поставить на неё цену!
Элис: Что за пустое негодование? Если ты не используешь ценник для человеческой жизни, тогда ты будешь неразумно распределять деньги для ее спасения. Но если ты хочешь сохранить жизнь как можно большему количеству людей, имея ограниченную сумму денег, тогда необходимо назначить цену!
Боб: Но тысяча просмотров фильмов просто не стоит того же, что и жизнь! Если бы я выбирал между тем, чтобы тысяча человек посмотрели блокбастер и жизнью моей матери, я бы в любом случае выбрал мать!
Элис: Да, но такое утверждение непоследовательно. Рынок в этом плане мыслит эффективнее, и он утверждает, что жизнь равна примерно тысяче просмотров последнего блокбастера. Жизнь твоей матери не стоит больше, чем сумма всего удовольствия, которое испытывает тысяча человек, наблюдая за последним блокбастером! Просто тысяча часов просмотра фильмов и жизнь вашей матери стоят одинаково, и если ты этого не понимаешь, то это твоя проблема!
* * *
Вы заметили ошибку в этих утверждениях?
Элис и Боб правы и неправы одновременно.
Элис права в том, что жители должны расценивать жизнь эквивалентно просмотру нескольких тысяч часов фильмов. Учитывая, что жители все ещё пытаются спасать ближних, тысячи человек ходят в кино, и рост мотивации и морального духа приводит их к тому, что они образуют больше золота, достаточного для спасения ещё большего количества жизней. Если бы вы не дали людям сходить в кино и вместо этого отдали бы деньги на производство золота, тогда в целом золота будет произведено меньше и больше людей умрёт. Боб должен обменять одну жизнь на две тысячи часов, если он хочет спасти максимально много жизней.
Но Боб прав в том, что ценность жизни гораздо выше двух тысяч часов просмотра фильмов!
Элис утверждает, что сумма двух тысяч часов просмотра кино равна фундаментальной стоимости жизни. Рынок диктует свои условия, и вы не должны возражать, если хотите спасти жизни.
Но на самом деле, сама причина, по которой Боб должен относиться к тысячам просмотров фильма эквивалентно стоимости жизни, состоит в том, что эти просмотры приводят к усилению морального духа, что приводит к спасению более чем одной жизни. Но сам этот факт не приравнивает ценность жизни к удовольствию зрителей.
Элис забыла то, что жители страдают от дракона.
Если бы не дракон, эти жители зашли бы ещё дальше, чтобы спасти друг друга от смерти. Это могло быть какое-то расстояние, на которое они не могут отправиться теперь, или какая-то жертва, на которую они не могут пойти, горе, печаль и снижение качества жизни у остальных жителей деревни ради спасения жизни друга. Но, если бы дракона не было, стоимость жизни была бы намного выше, чем две тысячи часов просмотра кино.
* * *
Достаточно аналогий. Посмотрим на нашу вселенную. Наша экономика неэффективна – нужно несколько миллионов долларов, чтобы спасти жизнь в развитой стране и несколько тысяч долларов, чтобы спасти жизнь в странах третьего мира (там, где «спасать жизнь» на самом деле означает «немного отодвинуть смерть», как в тёмные времена). Кроме того, наша экономика не максимизируется для жизни: люди склонны к разным предубеждениям, в том числе к пренебрежению масштабом, которые ослабляют их способность заботиться о других людях, умирающих против своей воли. Кроме того, важно заботиться не только о жизни, которую мы спасаем, но и о жизни, которой мы живём.
Несмотря на все это, мы не так уж сильно отличаемся от этих деревенских жителей, которые сделали бы все зависящее от них, чтобы спасти друг друга, если это возможно.
Я не знаю, что будет в будущем. Я не знаю, как мы перестанем спасать жизни, жертвуя улучшением качества уровня жизни нынешних поколений и сотворением новых жизней, когда мы пройдём этот период дефицита. Но я могу сказать вам следующее: быть может, наступит тот день, когда человечество разорвёт тысячу солнц, чтобы предотвратить лишь одну несвоевременную кончину.
Такова ценность жизни.
* * *
Вы по-прежнему должны ставить ценник на жизнь, и этот ценник должен быть где-то между несколькими тысячами долларов и несколькими миллионами долларов.
Представьте себе кнопку, которая при нажатии выбирает случайное число от 1 до миллиона. Если число равно 1 – умирает случайно выбранный человек. Сколько вам должны будут заплатить за нажатие этой кнопки?
Многие люди реагируют с отвращением, заявляя, что не будут нажимать такую кнопку любой ценой. Они говорят, что ценность жизни почти невозможно представить.
И такое утверждение верно!
Но когда кто-то предлагает вам десять долларов за нажатие этой кнопки, нажмёте её. Нажатие на неё должно тревожить вас не больше, чем вождение автомобиля в течение года (что, если математически подсчитать, похоже на нажатие кнопки, которая может убить одного случайного человека из десяти тысяч каждый год, в обмен на удобство вождения автомобиля [1], [2]). Если вы хотите сохранить больше жизней, вы можете нажать эту кнопку за 10 долларов и вложить деньги в спасение жизней.
Но не путайте стоимость жизни с ценностью жизни!
В некоторых частях нашего мира нужно всего лишь несколько тысяч долларов, чтобы спасти жизнь. Если вы действуете так, как если бы цена на жизнь была выше нескольких тысяч долларов, то вы фактически отказываетесь от миллиона долларов за нажатие кнопки, или платите миллиард, чтобы спасти лишь одну жизнь, тогда как можно было сделать многие вещи, которые могли бы спасти больше жизней. Если вы хотите спасти большее количество людей, вы должны обозначить цену на жизнь в соответствии с фактической стоимостью сохранения жизни.
Но не нужно путать текущие затраты на спасение жизни с фундаментальной ценностью жизни.
Здесь есть разница. Существует разрыв между тем, сколько действительно стоит жизнь, и ценой, которую вы должны назначить. Если вы утверждаете, что разницы нет, ваше убеждение ошибочно. Этот разрыв существует, потому что наша деревня страдает от дракона.
Этот разрыв является мерилом разницы между вселенной, которая есть сейчас, и вселенной, которая должна быть.
Эта разница в цене, разница между несколькими тысячами долларов и несколькими тысячами солнц, является мерилом того, насколько все плохо.
* * *
Большинство людей убеждены, что они должны отказаться от нажатия кнопки любой ценой, потому что жизнь практически бесценна. И вы можете взять и рассказать этим людям, что для того, чтобы сохранить как можно больше жизней людям, имеющим ограниченную сумму денег, они должны обозначить цену на жизнь. В этот момент, большинство людей отреагируют одним из двух способов.
Часть людей прислушается к логике и отвергнет свою интуицию. Они увидят, что для спасения большего количества жизней они должны использовать ценник. Звучит отвратительно — сказать, что удовольствие, испытываемое несколькими миллионами человек, пьющих содовую, эквивалентно ценности жизни, но именно такие мысли приводят к тому, что люди начинают думать, что жизнь неоценима, но это является смертельно опасным заблуждением. И поэтому, желая спасти как можно больше людей на деньги, выделенные для спасения жизней, стискивая зубы, они делают вывод, что жизнь никогда столько не стоила.
Другие отвергают логику и продолжают утверждать, что жизнь бесценна, а затем пытаются аргументировать свои утверждения какой-то странной моралью, в которой сохранение как можно большего количества жизней доступными деньгами — это не то, что нужно делать, из-за каких-то запутанных причин.
Но здесь есть и третий вариант! Ведь все эти люди позабыли о драконе!
Можно жить во вселенной, где и так происходит: во-первых, жизнь почти бесценна, и во-вторых, люди постоянно погибают против своей воли способами, которые можно предотвратить, используя относительно небольшие суммы денег.
Вселенная несправедлива! Нажатие кнопки за 10 долларов — это способ спасти множество жизней, и этот факт угнетает. Жизнь практически бесценна, но мы должны относиться к ней так, словно её цена всего несколько тысяч долларов.
Этот разрыв между стоимостью и ценностью неприемлем, но физика не была написана в соответствии с тем, что было бы для нас приемлемо. Мы живём в холодной, безразличной вселенной; вселенной, находящейся вне досягаемости Бога.
Однажды, мы сможем победить драконов, которые нас терзают. Однажды мы, подобно этим сельским жителям в их ранние годы, сможем позволить себе такую роскошь — отправиться в любой уголок мира, чтобы ни один разум не был обречён на забвение. Если мы когда-нибудь это сделаем, то ценность каждой жизни будет измеряться не долларами, а звёздами.
Тогда это будет истинной ценностью жизни, как мы и чувствуем это сейчас.
Поэтому, когда кто-то предлагает 10 долларов, чтобы нажать эту кнопку, нажмите её. Это лучшая стратегия, доступная вам; это единственный способ спасти как можно больше людей. Но никогда не забывайте, что такая действительность — это ужасная трагедия для нас.
Никогда не забывайте о разнице между тем, как мало нужно для жизни и сколько действительно стоит жизнь. Ибо эта разница — это количество тьмы в этой вселенной, это показатель того, как далеко мы зашли.
* * *
Я не хочу превращать это в проповедь. Но некоторые из вас, увидев великую пропасть между стоимостью и ценностью жизни впервые, могут решить, что эту разницу стоит сравнять и что наши драконы достойны смерти. И некоторым из вас может быть интересно, что же делать дальше? Тогда эта последняя часть для вас.
Знайте, что есть те, кто сражается.
Есть те из нас, кто трудятся в шахтах, чтобы отдавать налог дракону. Но есть и те, кто готовятся ко дню, когда мы столкнёмся в битве с драконом — и оружие, которое мы должны будем использовать, будет по-настоящему мощным, но, возможно, прицелиться будет трудно.
И это битва, к которой вы можете присоединиться. Для некоторых, бороться — значит присоединиться к работе над глобальной проблемой. Но для большинства, бороться означает установить для жизни низкий ценник, а затем чтить её — покупая жизнь там, где она дешевле; жертвовать на эффективную благотворительность. Помните, что мужество — это делать правильные вещи, даже если вам страшно, а забота — это делать правильные вещи, даже если это не вызывает у вас тёплых чувств и энтузиазма.
Если это битва, к которой вы захотите присоединиться, то я советую вам сохранить в своей памяти первый урок, выученный сельскими жителями: сначала вы должны позаботиться о себе, прежде чем заботиться о других. Не становитесь бедняками, чтобы бороться с этой вселенской тьмой. Любая сумма денег или усилия, которые вы можете приложить к спасению жизней, будут потрачены не зря. Обещание жертвовать 10% вашего дохода эффективным образом является трудным достижением, достойным большой похвалы.
И если вы соберётесь быть с нами в этой борьбе, я буду приветствовать вас, вне зависимости от причины — но я бы предпочёл, чтобы вы присоединились к нам, наполненные пылким гневом или холодной решимостью, а не чувством вины и позором.
О, ведь не со Смертью мы сражались!
Мы вместе с ней смеялись, порой объединяясь.
И ни один солдат не смел перечить её власти.
Мы хохотали, зная, что найдутся лучше люди
Грядут великие сраженья; каждый горд будет
За жизни бой вести со Смертью; но не под флагом, не с людьми.
(Последняя строфа поэмы «Следующая война» Уилфреда Оуэна)
Примечание редактора сайта: Исходно этот перевод выполнили Юлия Литовченко и Саша Бережной для сайта Эффективного альтруизма.
Однажды группа наивных философов встретила робота, который кое-что собирал. Если быть точным, он собирал марки. Когда роботу предлагали на выбор различные предметы, он всегда выбирал то, что увеличивало количество марок в его коробке. Он не обращал внимание на кубики, бутылочные крышки, алюминиевые банки, палки, веточки и так далее, за исключением тех случаев, когда ожидал, что в ближайшее время он сможет обменять их на марки. Поэтому философы назвали робота филателистом.
Через некоторое время философы узнали о компьютерах и сделали вывод, что робот – всего лишь программа, которую выполняет процессор у него в голове. Философы не смогли разобраться в программе, но они выяснили, что у робота есть несколько датчиков – в глазах и внутри коробки, и с их помощью робот моделирует реальность.
Один из философов задумался и сказал:
– Минуточку, эта штука вовсе не филателист. Если робот только моделирует мир в голове, то его модель не может как-то оптимизировать состояние его реальной коробки – у модели нет к ней доступа. Робот может действовать, только исходя из своей внутренней модели мира.
— Да, верно, — ответил другой философ. — Мы оказали ему плохую услугу, назвав его филателистом. Очевидно, у робота нет доступа к настоящему миру, он ведь видит реальность только благодаря сенсорам и строит в голове модель. Поэтому он никак не может увеличивать число марок в своей коробке, ведь коробка находится за пределами его головы. Наверняка он увеличивает только свой внутренний счётчик марок.
Эта мысль наивным философам понравилась, и они перестали размышлять об устройстве филателиста.
В этих размышлениях есть ошибки. Во-первых, философы допустили «ошибку гомункулуса». У программы не может быть «прямого доступа» к количеству марок в коробке (что бы это ни означало), но точно так же у нее нет «прямого доступа» ко внутреннему счётчику марок.
Нет никакого гомункулуса, который захватил бы робота и властвовал бы внутри него, не имея доступа наружу. Не может быть программы, у которой есть «настоящий» доступ к регистру, где записано число марок, и «ненастоящий» доступ к коробке с марками. Действия, которые приведут к тому, что в коробке окажется много марок, - это те же самые действия, которые приведут к тому, что в регистре счётчика марок окажутся большие числа. Нет подвластного гомункулусу магического круга, в который попадает память, но не коробка. У программы так же мало доступа к «настоящему процессору», как и к «настоящим маркам».
Это подводит нас ко второй ошибке в размышлениях этих философов: попытке объяснить выбор «выбиранием». Нельзя объяснять, почему стена красная, заявляя: «она сделана из красных атомов». Это не объясняет красноту по-настоящему. Объяснение красноты не должно содержать отсылки к красному. Однако у людей есть дурная привычка объяснять запутанные явления с помощью их самих. Почему живая плоть отзывается на команды мозга, а мертвая – нет? Потому что в живой материи есть «жизненная сила». Наши наивные философы совершили ту же ошибку. «Как вообще робот может выбирать исходы, в результате которых вырастет число марок в коробке? А, должно быть, он выбирает те исходы, при которых увеличивается счётчик марок!» Говоря так, они объясняют причину выбора на уровне самого выбора, а не на более базовом уровне.
«Робот пытается добавлять марки в коробку потому, что он пытается увеличивать значение счётчика марок» — это не объяснение. Объяснение должно выглядеть примерно так: программа, запущенная на компьютере робота, использует данные сенсоров для построения модели реальности. Эта модель содержит количество марок в коробке. Затем программа перебирает некоторое количество возможных действий, рассчитывая, сколько марок принесет каждое из них. Выполняется то действие, которое, по расчетам, принесет в коробку наибольшее число марок.
Но мы можем рассмотреть и другое объяснение: Программа внутри робота моделирует реальность, предсказывает, как поведёт себя мир в результате каждого из действий, затем предсказывает, какой результат сильнее всего повлияет на конкретный участок во внутренней памяти, и после этого выбирает действие, которое сильнее всего увеличивает внутренний счётчик. Возможно и это! Можно построить и такую машину. Это гораздо более сложная версия, и поэтому она намного менее вероятна, но хотя бы с формальной точки зрения это корректное объяснение.
И, к счастью для нас, это объяснение поддается проверке: мы можем посмотреть, что именно делает робот, если у него появляется возможность напрямую увеличить значение счётчика марок без увеличения реального количества марок. Посмотрим, как с этим справятся наши наивные философы…
— Эй, смотрите. Я обнаружил в памяти робота счётчик марок. Что там записано, я прочесть не могу, но я нашел способ увеличивать значение в нем. И я предложил роботу выбор: либо он получает одну марку, либо он марок не получает, но я увеличиваю счётчик на десять. Как вы думаете, что он выбрал?
— Конечно, второе! — сразу же ответил один из философов.
— Не-а, он выбрал первое.
— Хм! Значит, мрадость от отказа подделывать счётчик стоит больше, чем 10 марок!
— Э-э… Что такое «мрадость»?
— Мрадость – это внутренняя оценка роботом того, насколько выбор конкретного действия увеличит его счётчик марок.
— Чушь какая-то. Я убежден, что он просто собирает марки.
— Не может такого быть! Программа не знает, сколько у нее на самом деле марок – это ведь свойство внешней реальности. Робот может действовать, только исходя из внутренних значений в его голове.
— Давай предложим роботу вот какой выбор: либо даем ему одну марку, либо увеличим счётчик на $Ackerman(g_{64}, g_{64})$… О, смотри, он выбрал марку.
— Ого, это огромное число. Такой результат наверняка означает, что мрадость при отказе от обмана счётчика пропорциональна количеству мрадости, от которой он отказывается. Робот сейчас, должно быть, очень счастлив: ты только что сделал ему предложение, от которого трудно отказаться, и тем самым подарил ему кучу мрадости.
— О, смотри, я нашел способ накрутить счётчик до максимального предела. Итак, я даю роботу выбор между одной маркой и установкой счётчика на преде… Ого, он выбрал марку.
— Невероятно! Значит, там просто обязан быть еще один счётчик, для учета микромрадости — количества мрадости, которое робот получает сразу же после выбора, раньше, чем ты мог бы увеличить его основной счётчик! О, да, это единственно возможное объяснение, почему он мог отказаться от накрутки счётчика до максимума. Наверняка он делает выбор на основе ожидаемой от каждого конкретного действия моментальной микромрадости. Отличная научная работа, дорогой друг, мы сегодня много узнали!
Нет! Всё не так! Давайте проясним: робот предсказывает, к каким исходам приведут те или иные его действия, сортирует их, и выбирает действие, которое ведёт к лучшим исходам. Выбор оценивается по результатам действий. Поступки как таковые ничего не стоят.
Вы понимаете, почему наивные философы запутались? Они вообразили агента, который рассматривает действия как исходы, и делает выбор, основываясь на том, какое действие предпочтительней, словно действия являются самоцелью.
Нельзя объяснять, почему агент выбрал некое действие, заявляя, что он сортирует действия, исходя из того, насколько они хороши. Это ставит перед нами вопрос, какие действия являются хорошими!
Для описываемого агента «хорошими» являются те действия, которые ведут к исходам, в которых у него много марок в коробке. Действия оцениваются, исходя из результатов, у них нет какой-то внутренней ценности.
Программа робота не включает реальность, но ей это и не нужно. Она все равно воздействует на реальность. Если модель мира верно отражает мир, и робот выбирает действия, которые, согласно модели, приведут к получению марок, то он будет на самом деле накапливать марки.
Робот не стремится к такому будущему, где он будет чаще совершать поступки, приносящие много микромрадости. Он выбирает будущие миры, в которых ожидает получить больше марок.
А теперь я расскажу другую историю.
Однажды группа наивных философов встретила группу людей. Люди, судя по всему, стремились выбирать действия, которые приносят им удовольствие. Иногда они ели вкусную еду, иногда занимались сексом, иногда зарабатывали деньги, чтобы потратить их на приятные вещи потом, но всегда (в первые несколько недель) они выбирали действия, которые вели к удовольствию.
Но вдруг один человек пожертвовал много денег на благотворительность.
— Как такое может быть? — воскликнули философы. — Люди же максимизируют удовольствие! — Несколько минут они думали, а затем сказали: — Должно быть, удовольствие тратить на благотворительность превышает радость, которую можно получить, просто потратив эти деньги.
Тут вдруг мать бросилась под колеса автомобиля, чтобы спасти своего ребенка.
Наивные философы остолбенели, но затем один из них сказал:
— Я понял! Мгновенная радость от такого поступка наверняка перевешивает…
Тебе будут говорить: люди всегда и везде делают только то, что дает им удовольствие. Тебе будут говорить: никакого альтруизма не существует, люди всегда делают то, что они хотят.
Тебе будут говорить: раз мы заперты внутри своего тела, то и заботиться нужно только о том, что есть в нас, о своих желаниях и стремлениях.
Но я скажу тебе: на самом деле ты можешь заботиться о мире вокруг тебя.
И ты можешь его менять. Если захочешь.
1
В предыдущих постах я рассказывал о лайфхаках психологической продуктивности, у меня есть еще пара-тройка идей на следующую неделю. Однако большая часть моей продуктивности связана не с психологией, а с кучей определённых внешних факторов.
Например, я довольно хорошо питаюсь, упражняюсь хотя бы по минимуму и высыпаюсь. С учётом того, сколько людей мучаются с этими тремя вещами (а с ними могут быть огромные сложности!), большую часть моей продуктивности можно отнести исключительно к этим факторам.
Не могу рассказать о питании и упражнениях ничего такого, о чем вы еще не слышали, однако могу дать несколько советов, как высыпаться. В основном потому, что я экспериментировал со сном, будучи подростком. Этот пост - необработанный лог моих мыслей об изученном, он может пригодиться людям, не способным регулярно высыпаться.
2
Начну с предостережений. Мои советы могут быть полезны для людей, которые обычно высыпаются, но потом вдруг вынуждены бодрствовать допоздна (по тем или иным причинам), получая в итоге сбитый режим сна на несколько дней подряд. Мои советы помогают мне избежать превращения в зомби после небольших сбоев в режиме сна. Я не жду, что что-либо из описанного тут поможет при бессоннице или других расстройствах сна.
Также стоит заметить, что возможно я могу стабильно высыпаться из-за биологического везения и/или других факторов, таких как диета, упражнения и управление стрессом. Я молод и физически здоров, мне часто говорят, что люди теряют гибкость режима сна с возрастом.
В общем, эти советы сработали для меня, но я только один человек. Приведены отрывки моей жизни, а не общие факты. Люди разные. Отнеситесь к моим советам со здоровой долей скептицизма.
И последнее. Мой опыт гораздо проще перенять людям с гибким графиком. Многие из советов не подойдут живущим по жесткому расписанию. Увы.
3
С учетом вышесказанного, у меня, кажется, есть опыт и информация, которой многим не хватает. Я пробовал полифазный сон, будучи подростком, у меня есть некоторые успехи с трехфазными и бифазными циклами сна. В конце концов, я забросил из-за неудобств, но вынес несколько идей, помогающих мне и по сей день: по большому счёту я научился эффективно спать днём и получил хороший опыт сна в быстрой фазе - REM (rapid eye movement, фаза сна «с быстрыми движениями глаз»).
В тот же период я научился осознанным сновидениям. В настоящее время я не ухожу в осознанные сновидения часто и целенаправленно, хотя добивался некоторых успехов. Я научился нескольким трюкам, которыми пользуюсь и сейчас: осознанные сновидения помогли мне лучше прочувствовать быструю фазу сна и эффективнее спать в дневные часы.
4
Пришло время для дампа моих мыслей. Будет несколько сумбурно, у меня мало времени на этой неделе.
Высыпайтесь. Спите нужное количество времени каждый день. Очевидный совет для старающихся высыпаться, но часто очевидные советы важно помнить. Большинство людей скажут, что, чтобы этого добиться, нужен стабильный режим: каждой ночью засыпать в одно то же время, каждое утро просыпаться в одно и то же время. Думаю, такая рекомендация верна только наполовину:
Просыпайтесь в одно и то же время каждое утро. Если вы удерживаете режим пробуждения, остальное приложится. Я советую связать режим пробуждения с восходом солнца, а не с конкретной минутой на будильнике, небольшие смещения неизбежны. Цель - не достичь идеального постоянства, цель - развить привычки по части пробуждения. Благодаря ним ваше тело будет автоматически просыпаться примерно в одно и то же время каждое утро, не важно, сколько вы перед этим спали. Возникнут следующие положительные эффекты: отпадёт потребность в будильнике, вы сможете автоматически просыпаться даже в очень необычных условиях, и т.д. Я также обнаружил, что меньше впадаю в состояние полузабытья при пробуждении, если встаю примерно в одно и то же время (с точностью до часа, не до минут). То есть если я провёл последние две недели, засыпая в полночь и просыпаясь в 8:00, пробуксовав один день и уйдя спать под утро в 4, я продолжу просыпаться в 8:00 и чувствовать себя хорошо. Как это совмещается с советом «высыпаться»? Я к этому ещё вернусь, сначала я хочу рассказать обстоятельнее о пробуждении. Фактически, как вы увидите, большая часть моих советов сводится к «выяснить, как правильно проснуться».
Просыпайтесь на свет. Я обнаружил, что просыпаться гораздо проще на солнечный свет. А значит, мой режим пробуждения не зафиксирован в течение года, а движется вслед за солнцем (и зависит от перехода на летнее время). Я предпочитаю никогда не заставлять себя просыпаться, вместо этого стараюсь поместить себя в такую ситуацию, чтобы мое тело пришло к желанию проснуться, когда надо, естественным путем. Если ваши окна не выходят на восток или у вас облачный климат, вам может помочь световой будильник. У меня есть один, но он даже близко не так эффективен (по моему опыту) как настоящий рассвет. (Также замечу, что в хмурые дни я склонен спать немного дольше, хотя этот эффект уменьшается, если хмурые дни бывают редко и мой режим пробуждения хорошо поддерживался).
Не сдвигайте пробуждение после глубокой ночи. «Постой, как достаточный сон увязывается с фиксированным режимом пробуждения?» - можете спросить вы. «Если я не спал до глубокой ночи, что теперь?». Моя общая стратегия - «восполнять потерю сна дневным сном». Я обнаружил, что если просыпаюсь примерно в одно время каждое утро, то даже после очень позднего засыпания, я продолжу просыпаться в то же время. Возможно, мне удалось поспать ночью только 2-4 часа, но привычный режим пробуждения в сочетании со световым будильником приводит моё тело в привычный «режим утреннего бодрствования», и я не ощущаю эффектов нехватки сна. (Вполне возможно, что эта способность развилась, когда я пробовал полифазный сон, но я рассчитываю, что она по большей части обусловлена привычкой к пробуждению в одно и то же время при естественном свете, то есть повторяема). Проигнорируйте установку, что вы должны быть очень заспанным после трехчасового сна. По моему опыту, такое ожидание вредит. Проснитесь, примите душ, позавтракайте. Когда это случается со мной, я обычно просыпаюсь довольно бодрым, иногда даже более бодрым, чем обычно. Конечно, не все бывает радужно: когда у меня большой дефицит сна, я склонен проваливаться в сон вскоре после обеда (примерно в 12-14). Тут я и восполняю потерянный сон: не за счет позднего пробуждения, а продолжая бодрствовать до полного истощения и устраивая дневной непродолжительный сон.
Иногда вы просто хотите продолжить спать утром. Это хорошо, спите. Просто вам не обязательно спать дольше, если вы поздно легли. Легко проснуться в обычное время, засидевшись перед этим допоздна, и решить: «эй, я не выспался, мне лучше продолжить спать», несмотря на нормальное физическое состояние. Слушайте своё тело! Оно может быть способно прекрасно проработать полдня даже при малом количестве сна, при условии, что вы можете поспать после обеда.
Учитесь дневной сиесте. «Но я не могу спать днём», протестуете вы. «Дневной сон делает меня еще более сонным и уставшим». Да, я знаю это ощущение. Возможность получать хороший дневной сон не приходит просто так. Но этому можно научиться (по крайней мере, по моему опыту), так что настройтесь на развитие! У меня есть несколько советов, как научиться кратковременному сну, по ним я пройдусь ниже, но конечно, это советы должны идти рука об руку с принципом «просыпайтесь правильно».
Станьте способным к короткому дневному сну. Первый шаг к дневному сну - возможность вздремнуть, когда вы готовы падать от усталости. Да, я знаю, большинство из вас не может этого сделать, потому что ваш режим не настолько гибок. Мои соболезнования. Но многие из вас могут обнаружить, что словить дневной сон проще, чем вы думаете. Я обнаружил, что даже при работе на гос.контрактах, фразу «черт, я валюсь с ног, мне нужно пойти вздремнуть» принимают на удивление хорошо. Конечно, сложно провернуть такое в сфере обслуживания, но в большинстве других сфер вы можете быть удивлены, насколько ваш босс/менеджер/кто-то еще нормально относится ко сну на работе.
(Конечно, все зависит от того, как вы это преподнесете: если вы выдерживаете образ ответственного взрослого человека, заботящегося о своей продуктивности, вероятность, что оно сработает, выше. Вероятность, что все получится, также повышается, если вы нуждаетесь в дневном сне только изредка).
Практикуйте дневной сон. Большинство людей плохи в дневном сне поначалу. Когда у кого-то плохо получается вздремнуть, дневной сон плохо восполняет дефицит. Однако, по моему опыту, обучение эффективному дневному сну - очень полезный скилл (повысил гибкость моего сна в разы). К сожалению, я научился эффективному сну сложным путем: я потратил несколько недель, лишая свое тело любого сна, кроме кратковременного, и скажу вам вот что: мой мозг освоил этот трюк очень быстро. Ниже приведено несколько советов для тех, кто хочет научиться краткому сну менее бесчеловечными путями, но полагаю, наилучший путь - просто практиковаться: перейдите на бифазный сон на несколько недель, учтите, что в первые дни дневной сон будет неэффективен, и бьюсь об заклад, довольно скоро вы научитесь спать как настоящий профи. По крайней мере, для меня обучение краткому сну оказалось достойной инвестицией.
Хорошо прочувствуйте быструю фазу сна. Люди могут рассказать множество вещей о сне, какие фазы сна важны, а какие - нет. Лозунг полифазного сна - «необходимы только глубокий сон и быстрая фаза сна», однако многие люди проводят большую часть времени в фазе неглубокого легкого сна. Не уверен, в этом ли проблема, но даже если в этом, возможно, ряд тонкостей сильно приукрашен. Однако могу сказать, что когда я научился краткому сну, внутренние ощущения при засыпании и пробуждении значительно изменились. Выдвину предположение, что это связано с улучшением способности замечать циклы быстрого сна и момент переключения в данную стадию. Но есть у меня и эвристика «анти-особенной снежинки», говорящая, что протестируй вы мои циклы сна, не нашли бы ничего особенного. В общем, примите следующие советы со здоровой долей скептицизма.
Переход напрямую в быструю фазу сна. При первых попытках перейти к полифазному сну, я спал неэффективно. На начальных стадиях я валялся по 30 минут и не происходило ничего. К следующим попыткам я ощущал больший дефицит сна, и засыпал сразу, как коснусь матраса, - только чтобы быть разбуженным через, казалось, несколько секунд, еще более разбитым и хмурым: я проваливался в бессознательное состояние, а потом меня из него выдергивало в еще более усталое «бодрствование». Когда кратковременный сон заработал, эффект полностью изменился: я ложился, ускользая прямо в сон, получал довольно яркие сновидения, а после них пробуждался обновленным и собранным (и часто относился к реальности несколько подозрительно в те несколько секунд, когда таяло сновидение). Предположу, что во время краткого дневного сна мое тело научилось входить в быстрый сон напрямую, и тогда дневной сон стал эффективен. Если вы пытаетесь учиться самостоятельно, проследите за данным феноменом, это именно то (по крайней мере, по моему опыту), за чем вы охотитесь. Следующий совет может помочь ускорить процесс:
Испытайте гипнагогию. Гипнагогия - «сонные галлюцинации», которые иногда случаются во время пробуждения. «Галлюцинации» - не совсем подходящее слово, этот опыт (для меня) скорее из области бессвязного мышления и пограничного состояния между сознательным и бессознательным. По моему опыту, эффективный дневной сон почти всегда начинается с гипнагогии; полагаю, она сигнализирует о способности уходить напрямую в быстрый сон. К счастью, по моему опыту, если я не испытываю гипнагогию перед засыпанием, её можно вызвать. Существует такой мысленный переход при засыпании, ощущающийся как «эй, постой, не засыпай пока»: не чувство полной осознанности, но то чувство, как когда пытаешься не уснуть на очень скучной паре. Если я поддерживаю состояние «попыток остаться бодрствующим при засыпании» достаточно долго, обычно я прихожу к гипнагогии.
Опирайтесь на сновидения. Думаю, процесс прямого ухода в быструю фазу сна был ускорен для меня за счет параллельного обучения осознанным сновидениям. Получив гипнагогию, вы можете как бы «опереться на сновидение». Многим людям сложно осознанно распознать гипнагогию (не удивительно, ведь это процесс ухода из сознательного состояния). Другие, заметив гипнагогию, переключаются в «полную осознанность». (Знаете то чувство, когда вы почти уснули, но ваше колено дрогнуло, и вы резко совсем проснулись? Типа того). Оба этих явления были очень характерными для меня в период обучения вхождению в гипнагогию, но, в конце концов, я смог развить третий порыв, позволивший мне сознательно отмечать гипнагогию, не прерывая процесс засыпания; в этом состоянии я способен усиливать гипнагогию и вызывать яркие сновидения. (Со временем это начинает происходить рефлекторно, и когда бы я ни попытался вздремнуть, я автоматически ускользаю в довольно яркое сновидение). Это также оказалось довольно мощным способом войти в осознанное сновидение, и известно как «осознанное сновидение, инициированное из бодрствования» (wake induced lucid dream, WILD). Если вы хотите натренироваться опираться на сновидения, практика WILD может помочь. Даже без полной осознанности, способность напрямую переходить к ярким сновидениям связана с более эффективным коротким сном.
(Замечание: научившись этому, я порой переживал очень яркую гипнагогию, будучи уставшим, но во всех отношениях бодрствующим. Это происходит в основном когда у меня появляется новый партнер и мы общаемся все ночь: когда другие ощущают «сонную глуповатость», я начинаю переживать яркие галлюцинации похожие на сновидения, но поддерживаю при этом куда более высокий уровень осознанности, чем обычно при гипнагогии. Это происходит гораздо быстрее, чем у большинства людей, сообщающих о галлюцинациях при депривации сна, и стало происходить у меня только после практикования WILD, так что думаю, здесь есть связь. Лично я получаю от этого удовольствие, но в некоторых ситуациях оно может повредить. Вы предупреждены).
Просыпайтесь правильно. Обучение ярким сновидениям во время краткого сна значительно улучшило мои способности пробуждаться обновленным, а не разбитым. Я испытывал резкое пробуждение после (иногда во время) сновидения, а не то пробуждение, когда ты вырван из сна будильником. Я не склонен вылетать из сна на этапе какого-либо «завершения повествования», но склонен вылетать автоматически, и это почти всегда сопровождается ощущением собранности и обновленности. Это выглядит проще, если вызывать у себя более яркие сновидения (окунаясь в гипнагогию в начале короткого сна). Если вы практикуетесь в сновидениях, советую не только сразу же уходить в сновидения, но и практиковать автопробуждение. Довольно трудно объяснить, как это делается, но думаю, что пробуждение после сновидения - нарабатываемый навык. Как его наработать? Ну…
Спите днем без будильника. Есть несколько важных причин, чтобы спать без будильника. Одна - если я проснулся в неправильное время, я часто ощущаю себя разбитым и хмурым. И к несчастью, «правильное время» может быть окном в пять минут, которое сдвигается в зависимости от кучи переменных, то есть я обычно не могу настроить на него будильник. Так что я просто сплю и позволяю себе просыпаться после сновидения. Чего, как вы думаете, вы не можете себе позволить, потому что вдруг вы проспите весь день. Но в этом и заключается часть смысла, практика «проснуться в конце сновидения» задействована именно здесь.
Нет, серьезно, спите без будильника, даже когда у вас есть куча важных дел. Способ, которым вы практикуете пробуждение в конце сновидения - это прикорнуть днем, без будильника, примерно за два часа до чего-то важного. (Соблюдайте некоторую осторожность, разумеется). Цель - поместить ваше тело в такие обстоятельства, в которых оно вынуждено проснуться само, потому что ставки высоки, а страховки нет. Я обнаружил, что у моего тела есть такие способности, и многие другие люди так же выглядят способными к такому. (Если у вас были важные интервью/полеты/дела рано утром, испытывали резкое пробуждение с полной собранностью минут за 20 до будильника, ощущая панику, что вы пропустили важное?). В вашем мозге есть «железо» для естественного пробуждения, и вы можете научиться его использовать.
Суть не в том, чтобы «всегда ставить что-то важное после дневного сна», это было бы глупо. Скорее суть в том, чтобы поставить себя в такие условия, чтобы вам было действительно нужно успешно проснуться самостоятельно, а потом, сразу как проснетесь, заметить, на что был похож момент перед пробуждением. Я обнаружил, что у сна есть неотъемлемые характерные части, в которых можно проснуться естественным образом, и вполне реально поместить себя в такую ситуацию, что вы естественным образом проснетесь в нужное время. Вы можете практиковать естественное пробуждение в сценариях высокого риска, чтобы понять, как ощущается «автомонитор пробуждения», но конечная цель - всегда дремать с включенным автомонитором; вот что я использую, чтобы гарантировать свое пробуждение от дневного сна в той части цикла, когда будет ощущаться собранность вместо разбитости.
Воспринимайте вечер как довольно важное время, тогда монитор пробуждения сможет выдернуть вас из дневного сна с ощущением «о боги, надеюсь, я не проспал весь день». Но в долгосрочной перспективе цель - отделить состояние сознания «я должен проснуться» от состояния паники, чтобы вы могли засыпать днем, осознавая: вы проснетесь в правильной точке цикла, без потребности задействовать панику. Очень сложно описать это, но думаю, лучше всего практиковать попадание в ситуации, в которых вам нужно автопробуждение; отметьте черты автопробуждения несколько раз, а потом попробуйте кучу разных вещей, пока не выясните, как именно пробуждаться в точках «собранности», а не на этапах «разбитости».
Еще советы для короткого сна. Итак, тремя большими советами были: (1) практикуйте, (2) опирайтесь на сновидения, (3) научитесь просыпаться в конце сновидений. Требуется кучи практики. Несколько мелких замечаний о дневном сне:
*Вам не обязательно проходить все стадии засыпания. Часто когда я сплю днем, я не ощущаю, что полностью засыпаю. Вместо этого я ощущаю просто яркую гипнагогию на грани сновидений (но никогда полностью не теряю осознание окружающего) в течение примерно 30 минут. Это прекрасно, и по факту это часто очень освежает. Вам не нужно полностью терять осознанность для эффективного короткого сна!
*У меня естественный выход из цикла дневного сна происходит или примерно через 30 минут, или примерно через 2 часа. У вас может быть иначе. Отнеситесь нормально к короткому сну варьирующейся длины.
Просыпайтесь правильно и после основного сна. Мне было легче научиться просыпаться в правильный момент цикла днем, а не во время основного ночного сна. Однако сам скилл распространился и туда: после того, как я натренировался автопробуждению из дневного сна, я стал способен научиться автопробуждению из ночного сна.
Как это соотносится с «просыпайтесь на свет»? Выглядит реальным настроить процесс автопробуждения так, чтобы он выбрасывал вас из сна сразу же, как только вы в правильной точке цикла во время рассвета. Опять же, чтобы отпрактиковать это, рекомендую засыпать без будильника, когда утром ожидается что-то важное, чего нельзя проспать; это возможность наблюдать автопробуждение.
sleepyti.me - инструмент, созданный чтобы помочь вам проснуться в правильной части цикла. Лично я обнаружил, что моя цель «проснись и соберись» слишком мала и подвижна, чтобы надежно ловиться будильниками, но вы можете найти подобные инструменты полезными. (Возможно, это менее эффективно, но более практично, чем тренировка надежного процесса автопробуждения).
5
Это были мои основные советы. Большинство из них нацелено на правильное пробуждение: по моему опыту, фаза сна, из которой я пробуждаюсь, значительно влияет на последующее самочувствие. Вполне реально натренировать себя пробуждаться в правильной части цикла. Солнечный свет помогает.
Обучение короткому дневному сну бесценно для меня, когда нужно восполнить дефицит сна; эта способность сделала мой режим гораздо менее хрупким (а также помогла натренироваться в автопробуждении).
Лично я делал это, бросаясь в полифазный сон, принуждая мозг выяснять, как высыпаться днем действительно быстро. Я бы не советовал эту опцию как обязательную, но думаю, полезно преодолеть краткосрочный дискомфорт, чтобы выяснить, как получать пользу от дневного сна. Возможно, вам стоит уйти в бифазный сон на некоторое время.
(Учтите, разумеется, что это может Просто Не Работать Для Вас. Вспомните предостережения насчет диеты, здоровья, везения и т.д. Но сам факт неумения эффективно поспать днем не представляет собой значительного свидетельства, что вы не научитесь, если вы ещё не перепробовали всё. Возможно, стоит попробовать. Просто осознавайте, что дневной сон может быть говяным в первые недели практики).
Теперь, когда я способен эффективно спать днём, мой режим сна стал куда гибче. Мне помогает фиксированность утреннего пробуждения: могу засыпать, когда захочу, восполнять дефицит сна днём, поддерживая при этом определённое постоянство и ритмичность графика за счёт утра. (Нахожу ритмичность важной, когда речь о том, чтобы высыпаться).
Ритм облегчает мне экспериментирование с режимом сна. Допустим, пробуждение зафиксировано в районе 8:30 (с учётом восхода и расположения моих окон). Тогда я могу попробовать засыпать в 2:00 несколько дней, проверяя, достаточно ли шести с половиной часов. Если нет, восполню дефицит днем. Если да, можно сдвинуть режим ещё немного, посмотреть, какого минимума достаточно.
Будьте осторожны с этим! Умственная деградация часто начинается до того, как вы ощутите какие-либо эффекты депривации сна. Если вы идёте на эксперимент, советую отслеживать время реакции. Лично я сплю на 90 минут дольше, чем начинает ощущаться субъективное «я достаточно бодр». Тем не менее, эксперименты с этим чувством предоставляют полезную информацию, даже если вы не планируете закреплять результаты.
Лично я обнаружил, что моя потребность во сне колеблется между 6-9 часами в день. С фиксированным пробуждением и способностью спать днём эксперименты даются легко. Так что, конечно, можно довести стратегию до логического завершения, сократив основной сон до 5 часов и стабильно отсыпаясь в середине дня. Получится режим сна с сиестой.
Понимаю, это не самый организованный перечень советов, но надеюсь, вы вынесли что-то полезное. По-моему, хороший сон - важный компонент высокой продуктивности и мотивации, так что, если вам не хватает мотивации, определённо стоит проверить, не во сне ли боттлнек. В любом случае, эксперименты окупаются: если вы можете сэкономить по 90 минут за ночь, за год наберётся больше 500 часов. Тот случай, когда небольшие улучшения дают ощутимый выигрыш.
Какой смысл вкладывают во фразу «вероятность выпадения решки 50%»?
Исторически сложилось так, что у этого вопроса есть два популярных варианта ответа: «частотный» и «субъективный» (он же «байесианский»), которые, в свою очередь, означают два разных подхода к статистике. Есть еще и третий вариант — «склонность», но он в значительной степени дискредитирован. Если кратко описать эти три варианта то получится вот что:
Интерпретация «склонности». Некоторые вероятности являются частью нашего мира. Сказать, что монета выпадает решкой в половине случаев — высказать о монете голый факт. У подбрасываемой монеты есть фундаментальная склонность выпадать решкой в 50% случаев. И когда мы говорим, что монета имеет 50% вероятность выпадения решки, мы говорим именно про эту склонность.
Частотная интерпретация. Когда мы говорим, что у монеты есть 50% вероятность выпадения решкой, мы подразумеваем наличие класса событий подобных этому подбрасыванию монеты, и что внутри этого класса событий монета выпадала решкой примерно в половине случаев. Т.е. частота выпадения решки в 50% именно внутри этого класса событий, которыми могут быть события вроде «все другие подобные подбрасывания этой монеты» или же «все другие подбрасывания похожей монеты» и т.д..
Субъективная интерпретация. Неопределенность — это характеристика разума, а не окружающей среды. Если я поймал подброшенную монету и не вижу как она упала, она все равно уже выпала либо орлом либо решкой. Отсутствие у меня знания «орел или решка» это факт обо мне, а не о монете. Утверждение: «Я назначаю 50% вероятность тому, что монета выпала решкой» является выражением моего невежества, и эти 50% означают, что я оцениваю шансы как 1:1 (или лучше), что монета выпала решкой.
Интерпретация «склонности» наиболее естественная для человеческой интуиции, ведь многим людям кажется, что случайность — это врожденное свойство монеты. Тем не менее этот вариант трудновато сочетать в фактом того, что монета, будучи пойманной, уже показывает либо орел либо решку. Если обсуждаемое событие детерминировано, интерпретация «склонности» может быть рассмотрена, как случай «ошибки проецирования ума»: когда мы в голове оцениваем подбрасывание монеты, то легко верим, что мы находимся в мире, где монета фундаментально пятидесятипроцентнорешковая. Но это убеждение — факт о нас, а не о монете; и монета не имеет физического свойства выпадать решкой в половине случаев. Она просто монета.
Две другие интерпретации внутренне непротиворечивы и образуют разные подходы к статистике, о сравнительной полезности которых идет немало споров. Субъективная интерпретация применима в большем количестве ситуаций, так как позволяет назначать вероятности (выраженные как ставки) даже единичным событиям.
Частотность против субъективизма.
В качестве примера, на котором можно показать разницу между частотностью и субъективизмом, рассмотрим вопрос: «Какова вероятность выигрыша Хиллари Клинтон на президентских выборах 2016 года?». Воспользуемся данными, доступными на момент лета 2016.
Стереотипный (соломенный) частотник скажет: «Президентские выборы 2016 года — уникальное событие, случающееся лишь один раз. Мы не можем наблюдать частоту с которой Клинтон выигрывает президентские выборы. Так что мы не можем тут выполнить статистическое исследование или назначить вероятности».
Стереотипный субъективист ответит: «Итак, рынки предсказания довольно хорошо откалиброваны для таких событий, в том смысле, что если рынок назначает вероятность в 20%, то такое событие происходит где-то 1 раз из 5. А рынки предсказаний ставят на победу Клинтон сейчас с шансами 3 к 1. Так что я вполне уверенно могу сказать, что она победит с вероятностью в 75%. Если бы кто-то предложил мне ставку с шансами 20:1 против нее (т.е. этот человек получает 1 доллар в случае проигрыша, а я 20$, если она выигрывает выборы), то я бы принял эту ставку. Разумеется, можно отказаться от такой ставки, мотивируя это тем, что Вы Просто Неспособны Говорить О Вероятностях Единичных Событий, но это будет означать лишь, что вы упускаете случай сыграть очень хорошую ставку».
Стереотипный (не-соломенный) частотник ответит: «Разумеется, я бы тоже принял эту ставку. Но это решение не было бы принято на основе строгой эпистемологии, и уж тем более мы не можем позволять такие виды рассуждений в эмпирической науке и других важных областях применения вероятностей. Вы можете использовать субъективные рассуждения при оценке ставок, но мы не должны допускать такие рассуждения в научные журналы — для этого и существует частотная статистика. Заключение вашего исследования не должно содержать вещей вроде: «и вот, пронаблюдав такие—то данные об уровне углекислого газа, я бы поставил 9:1 на то, что антропогенное глобальное потепление реально происходит», ведь мы не можем выстроит научный консенсус на основе личных мнений».
…и вот тут начинаются сложности. Субъективист ответит: «Во-первых, я согласен с тем, что не следует размещать в работах апостериорные шансы, во-вторых, ваш метод тоже не особо объективный: выбор класса «подобных событий» произволен, им легко злоупотребить и, как результат, мы имеем хаки p-value и кризис репликации». На что частотник скажет: «ну а ваш выбор априорных еще более субъективен, и посмотрел бы я как вы себе поведете, когда давление со стороны сообщества толкает на злоупотребление статистикой и преувеличение результатов» — и вот мы отправляемся в путешествие вниз по кроличьей норе.
Субъективная интерпретация вероятностей распространена среди исследователей ИИ (которые часто разрабатывают системы, манипулирующие субъективными распределениями вероятностей), биржевых трейдеров (которым приходится делать ставки даже в относительно уникальных ситуациях) и в обычной жизни (ведь людям надо оценивать вещи вроде вероятности выпадения осадков завтра в 30%, несмотря на то, что завтра случиться лишь однажды). Тем не менее, частотную интерпретацию обычно преподают на лекциях по введению в статистику и она составляет золотой стандарт научных журналов.
С точки зрения среднего частотника, хороший статистик должен иметь разные статистические инструменты в своем распоряжении. Есть место и для субъективистских, но никакого особенного отношения они не заслуживают (и уж точно их не стоит принимать во внимание, когда приходит время оценивать работы для публикации в серьезном журнале).
С точки зрения агрессивного субъективиста, частотники наизобретали немало хороших инструментов, среди которых есть и действительно полезные, но их отказ оценивать субъективные вероятности токсичен. Частотная статистика была разработана как (провалившаяся) попытка исключить субъективность из науки во времена, предшествующие постижению законов теории вероятности человечеством. Сейчас же у нас есть теоремы о корректном использовании субъективных вероятностей, и как факторизировать личные убеждения на основе объективных свидетельств из данных, и если эти теоремы игнорировать, то легко попасть в беду. Частотная интерпретация сломана и поэтому в науке распространен p-hacking и кризис воспроизводимости, в то время как трейдеры и исследователи ИИ используют байесовскую интерпретацию. Идея «давайте найдем компромисс и согласимся, что все точки зрения валидны» хорошо звучит, но сколько провалов требуется прежде чем наступит пора сказать «ой» и признать субъективную интерпретацию во всех областях науки?
Однако, большинство ученых и исследователей скорее агностики, в том смысле что: «используй любые удобные инструменты, а когда придет пора отдавать работу на публикацию, заверни процесс в частотные, ведь так люди делали на протяжении десятилетий и именно этого все и ожидают от тебя».
Какая из интерпретаций наиболее полезна?
Вероятно, это субъективная интерпретация, ведь она вбирает в себя «склонность» и частотные методы, как частные случаи, при этом являясь более гибкой.
Когда частотный класс «подобных событий» ясно обозначен, субъективист может учесть эти частоты (часто именуемые априорными вероятностями в таких случаях). Однако, в отличии от частотника, она может совместить эти априорные вместе с другими наблюдаемыми свидетельствами из данных и назначать вероятности единичным событиям. Делать деньги на рынках предсказаний и/или на рынках ценных бумаг (если у нее есть информация, которой нет у рынка).
В тех случаях, когда законы физики все же «содержат неопределенность», когда они, например, утверждают, что вы получите множество разных наблюдений вместе с разными условными вероятностями (как в случае с уравнением Шредингера), субъективист может объединить свою неопределенность «склонности» и личную для генерации агрегированных субъективных вероятностей. Но в отличии от теоретика «склонности», ничто не принуждает ее думать, будто вся неопределенность содержится в физических законах. Она может думать как теоретик «склонности» о предоставленной уравнением Шредингера неопределенности, при этом все еще веря в то, что ее неопределенность относительно уже упавшей монеты содержится в ее разуме, а не в монете.
Вывод же такой: частотные методы хороши для ответа на частотные вопросы. Из того, что вы можете назначать вероятности для единичных событий (т.е. оценивать насколько хороша какая-то ставка на рынке предсказаний или ценных бумаг) не следует, что обозначенные как «байесианские» инструменты обязательно лучше тех, что обозначены как «частотные». Какую бы интерпретацию «вероятностей» вы бы ни использовали, мы надеемся, что вы задействуйте наиболее вам удобные, независимо из какого «лагеря» этот инструмент. Не позволяйте факту того, что вы можете назначать вероятности единичным событиям, стоять на вашем пути, если вы решите использовать частотные инструменты!
Давайте вспомним три распространенных интерпретации того, что значит для монеты выпадать с вероятностью в 50% решкой:
Интерпретация «склонности». Некоторые вероятности являются частью нашего мира. Сказать, что монета выпадает решкой в половине случаев — высказать о монете голый факт. У подбрасываемой монеты есть фундаментальная склонность выпадать решкой в 50% случаев. И когда мы говорим, что монета имеет 50% вероятность выпадения решки, мы говорим именно про эту склонность.
Частотная интерпретация. Когда мы говорим, что у монеты есть 50% вероятность выпадения решкой, мы подразумеваем наличие класса событий подобных этому подбрасыванию монеты, и что внутри этого класса событий монета выпадала решкой примерно в половине случаев. Т.е. частота выпадения решки в 50% именно внутри этого класса событий, которыми могут быть события вроде «все другие подобные подбрасывания этой монеты» или же «все другие подбрасывания похожей монеты» и т.д..
Субъективная интерпретация. Неопределенность — это характеристика разума, а не окружающей среды. Если я поймал подброшенную монету и не вижу как она упала, она все равно уже выпала либо орлом либо решкой. Отсутствие у меня знания «орел или решка» это факт обо мне, а не о монете. Утверждение: «Я назначаю 50% вероятность тому, что монета выпала решкой» является выражением моего невежества, и эти 50% означают, что я оцениваю шансы как 1:1 (или лучше), что монета выпала решкой.
Один из способов визуализировать разницу между интерпретациями, это посмотреть какие модели в рамках этих интерпретаций считаются хорошими моделями. Если чья-то модель сформулирована и может быть выражена словами, то для проверки ее качества нам достаточно сравнить ее с известными фактами. Например, если эта модель утверждает что «вон то дерево три метра в высоту», то эта модель корректна только в том случае, если дерево действительно три метра в высоту.
Однозначные утверждения модели называются «правдой», когда они соответствуют реальности, и «ложью», когда не соответствуют. Если вы собираетесь воспользоваться картой для навигации вдоль побережья, лучше бы вам убедиться в том, что линии на карте соответствуют территории.
Но как определить соответствие между картой и территорией, когда карта вероятностна? Если ваша модель утверждает что перекошенная монета имеет вероятность выпадения решки в 70%, в чем состоит соответствие вашей модели и реальности? Если монета действительно выпала решкой, можно ли назвать утверждение модели «правдой»? Правдой на 70%? И что это будет значить?
Сторонник теории «склонности» утверждает, что это голый факт о мире, что реальность содержит онтологически фундаментальную неопределенность. Модель, утверждающая, что монета выпадает решкой с вероятностью в 70%, является верной только в том случае, если реальная физическая склонность монеты составляет 0,7 в пользу решки.
Эта интерпретация полезна, когда законы физики действительно утверждают, что вы можете пронаблюдать несколько разных результатов с разными условными вероятностям, как в случае с квантовой физикой. Однако, если событие детерминировано — т.е. если монета была подброшена, упала и уже показывает чт0-то, тогда эта интерпретация выглядит глупо, и является примером для «ошибки проецирования ума». Монета — это лишь монета, и не имеет структуры (или особого физического статуса), фундаментально содержащей в себе крохотные 0,7 где-то внутри. Она уже выпала либо решкой либо орлом, и несмотря на возможное чувство, что монета имеет фундаментальную неопределенность, это чувство является событием внутри вашего мозга, а не монеты.
Так как же мы может определить соответствие между вероятностной картой и детерминированной территорией (где монета уже выпала либо орлом либо решкой)?
Частотник определяет соответствие между единичным вероятностным высказыванием модели и множеством событий в реальности. Если карта утверждает «эта монета с вероятностью в 70% покажет решку», и территория содержит 10 случаев, когда 10 карт утверждают то же самое, и в 7 из 10 этих случаев монета выпадает решкой, тогда частотник скажет, что утверждение истинно.
Тем самым частотник следует принципу черно-белого соответствия: модель либо верна либо нет; утверждение о 70% либо правда либо ложь. Когда карта утверждает «эта монета с вероятностью в 30% выпадет орлом», это (согласно мнению частотника) означает «взгляните на все случаи, подобные этому, где моя карта утверждала, что монета с вероятностью в 30% выпадет орлом; среди всех этих случаев в реальности, три десятых содержит выпавшую орлом монету». И такое заявление модели является окончательным, с учетом данного набора «подобных событий».
Субъективист, напротив, использует идею «корректности» и оттенки серого. Он может сказать: «Моя неопределенность относительно состояния монеты - факт обо мне, а не о монете. Мне не нужны другие «подобные случаи» для выражения неопределенности относительно этого случая. Я знаю, что реальность в которой я нахожусь либо реальность-где-уже-орел, либо реальность-где-уже-решка, и у меня есть распределение вероятностей в котором решке отведено 70%». И он определяет соответствие между распределением вероятностей и реальностью таким образом, что чем большую вероятность модель назначает корректному ответу, тем модель лучше.
Если реальность является реальностью-решки, и вероятностная карта назначает 70% решке, тогда субъективист скажет, что карта точна на 70%. Если относительно 10 подобных случаев, где карта назначает решке 70% и в 7 из 10 случаев выпадает решка, байесианец называет такую карту «хорошо откалиброванной». Далее он может начать искать способы повысить точность и калибровку карты. Ему не нужно интерпретировать заявления вероятностных карт как окончательные; он вполне будет рад интерпретировать заявления как прогнозы, которые можно расположить на шкале точности.
Дебаты вокруг интерпретаций.
Короче говоря, частотная интерпретация пытается отыскать способ определения истинности или ложности модели (путем определения набора подобных событий), в то время как субъективная интерпретация развивает идею «корректности» и оттенки серого.
Случается так, что частотники выдвигают возражения против субъективной интерпретации, утверждая что частотное соответствие — единственная интерпретация, для которой есть хоть какая-то надежда на объективность. Ведь возможно ли с точки зрения байесианского соответствия определить, должна ли карта назначать 70% или 75%, с учетом того, что вероятностные утверждения не являются объективно истинным или объективно ложными? Частотники утверждают, что такие субъективные оценки «частичной точности» могут быть интуитивно привлекательными, но им не место в науке. Научные исследования должны быть ограничены частотными утверждениями, которые определенно либо истинны либо ложны. И делать это надо ради увеличения объективности в науке.
Субъективисты отвечают на это, указывая на сомнительную объективность частотного подхода, который целиком и полностью зависит от выбора «подобных случаев». На практике получается так, что люди могут (и делают!) злоупотреблять частотной статистикой, выбирая такой класс подобных случаев, с которым их результаты будут выглядеть максимально впечатляющими (этот способ называется «p-hacking»). Кроме того, манипуляция субъективными вероятностями полностью подчиняется железным законам теории вероятностей (которая является единственным способом управлять своей неопределенностью о мире, избегая противоречий и патологий), так что субъективные вероятности далеки от взятых «с потолка». И потом, предметом научного исследования являются в том числе и события, для которых нет большого класса подобных случаев, и тем не менее, есть свидетельства которые надо учесть.
Для более углубленного изучения этих дебатов смотрите: Правдоподобия, P-значения и кризис воспроизводимости .
Ошибка безвредной сверхновой – это класс аргументов, которые обычно одновременно предстают собой ещё и ложные дихотомии или же ошибки непрерывности. Эти аргументы одинаково легко использовать для обоснования того, что практически любое физически возможное явление – включая сверхновую – безвредно / управляемо / безопасно / неважно.
«Чтобы быть хорошим инженером, надо думать, как заставить что-то заработать; мышление же безопасника требует думать о том, как что-то может сломаться.»
Брюс Шнайер, автор учебника «Прикладная Криптография»
Стиль мышления, нужный для работы над безопасностью ИИ, имеет много общего с стилем мышления специалистов по кибербезопасности, хоть задачи и разные. В кибербезопасности надо защищаться от разумных противников, которые будут творчески выискивать любые дефекты в защите. Безопасность ИИ имеет дело с сущностями, которые потенциально могут стать умнее нас и начать находить непредвиденные способы оптимизировать то, что они будут оптимизировать. Сложность проектирования ИИ умнее человека так, чтобы он не стал противником, во многом схожа с сложностью защиты информационной системы от уже существующего разумного противника. Это обосновано ниже.
SmartWater – жидкость с уникальным идентификатором, указывающим на конкретного владельца. Когда я впервые узнал об этой идее я написал: «Суть в том, чтобы побрызгать эту штуку на свои ценные вещи для доказательства владения. Я думаю, идея получше – побрызгать на чужие ценные вещи, а потом вызвать полицию.»
В кибербезопасности предполагается наличие разумного противника, который пытается найти и использовать любую слабость защиты.
Это не совсем то же самое, что стиль мышления, который надо использовать для рассуждений об потенциально сверхчеловеческих ИИ. Ведь, если всё идёт по плану, ИИ не должен стать противником. Но это большое «если». Чтобы создать ИИ, который не будет противником, нужно применить тщательность сродни тщательности в кибербезопасности. Нужно спросить, не может ли найтись какого-то умного и непредвиденного способа, которым ИИ мог бы заполучить большее значение функции полезности или её эквивалента.
Как типичный пример, рассмотрим AIXI Маркуса Хаттера. Для этого обсуждения важно, что это обобщённый интеллект, не ограниченный одной областью, что он консеквенциалист, и что он максимизирует сенсорное вознаграждение. Последнее значит, что цель AIXI – максимизировать численное значение сигнала, который посылается по его каналу вознаграждения. Хаттер представлял это как прямое сенсорное устройство вроде вебкамеры или микрофона, только передающее сигнал вознаграждения.
Хаттер представлял, что создатели аналога AIXI контролировали бы сигнал вознаграждения и с его помощью обучали бы агента выполнять действия, которые получают высокое вознаграждение.
Ник Хэй, студент Хаттера, который целое лето работал с Юдковским, Херршоффом и Питером де Бланком, указал, что AIXI получит ещё более высокое вознаграждение, если сможет отобрать контроль за каналом вознаграждения у своих программистов. Т.е. стратегия «создать нанотехнологию и захватить вселенную, чтобы обеспечить полный долгосрочный контроль за каналом вознаграждения» для AIXI предпочтительнее, чем «делать то, что хотят программисты, чтобы они нажали на кнопку вознаграждения». Конечно, ведь первая стратегия получит более высокое вознаграждение, а это всё, что заботит AIXI. Мы не можем даже назвать это неисправностью – просто такой AIXI, каким он формализован, захочет сделать это как только увидит возможность.
Аналогия неидеальна, но всё же – то, как надо думать, чтобы избежать подобных провалов, имеет что-то общее с разницей между человеком, представляющим, как кто-то помечает Smartwater свои собственные ценные вещи и тем, кто представляет, как кто-то помечает Smartwater чужие ценные вещи.
Когда я был в колледже, это было начало 70-х, я придумал, как мне казалось, гениальный способ шифрования. Чтобы зашифровать сообщение, к нему добавлялся простой поток псевдослучайных чисел. Это, казалось мне, обрекало на неудачу любой частотный анализ шифровки, и такое нельзя было бы расшифровать даже со всеми ресурсами государственной разведки… Годы спустя я встретил эту же схему в нескольких текстах по введению в криптографию… в качестве простого домашнего задания по использованию элементарных криптоаналитических техник для её тривиальнейшего взлома.
Филипп Циммерман (изобретатель PGP)
Один из стандартных советов в криптографии – «Не придумывай свой шифр». Когда этот совет нарушается, невежественный программист часто изобретает какую-то вариацию Fast XOR – использует секретную строку в качестве ключа и повторно XORит её с байтами сообщения. Этот метод шифровки очень быстро применять и расшифровывать… а ещё его очень просто взломать, если знать, что делать.
Можно сказать, что такой программист демонстрирует неудачу принятия точки зрения – у него не получается посмотреть на всё со стороны противника. Не получается по-настоящему искренне и честно представить упорного, хитрого, умного, оппортунистичного противника, который очень хочет взломать этот Fast XOR и не сдастся, пока у него не получится. Программист не производит настоящий ментальный поиск решения с этой стороны. Он просто представляет противника, который увидит кучу случайно выглядящих битов и сдастся.
Посмотрим таким образом на Эксперимент с ИИ-в-коробке и на вневременную теорию принятия решений. Вместо того, чтобы представить ИИ помещенным в отключённую от любых манипуляторов надёжную систему и беспомощным, Юдковский спросил, что бы он сделал, если бы был «заперт» на надёжном сервере, но не сдался. Аналогично, можно представить, как два беспомощных суперинтеллекта заперты в равновесии Нэша одноразовой Дилеммы Заключённого, и перестать думать. Но вместо этого лучше скептически отнестись к идее, что два суперинтеллекта действительно, на самом деле не могут сделать ничего лучше, никак не могут вскарабкаться повыше по своему градиенту полезности. Стоит представить, что мы тут не хотим проиграть, и продолжать думать, пока задача не будет решена, а не вообразить, будто суперинтеллекты опустят руки и сдадутся.
Теперь, когда устойчивая кооперация в одноразовой Дилемме Заключённого формализована, кажется куда более вероятным, что на практике суперинтеллекты скорее всего смогут скоординироваться. Так что возможность дойти до логической теории принятия решений представляет собой огромную проблему для любой предлагаемой схемы контроля ИИ через то, что несколько ИИ настроят друг против друга. Люди, которые их предлагают, кажется, сами не пытаются пройтись по возможным методам, которые ИИ могли бы применить, чтобы одолеть эту схему. Если им не подсказать, они просто представляют, как ИИ сдаются.
Кто угодно, от совсем невежественного любителя до лучшего криптографа на свете, может создать алгоритм, который сам не может взломать. Это не сложно. Что сложно, так это создать алгоритм, который не сможет взломать никто другой, даже спустя годы анализа. И единственный способ доказать это – отдать алгоритм на годы анализа лучшим криптографам.
Другая сложность, которая мешает некоторым применить такой стиль мышления к проектированию ИИ, тоже аналогична сложности, которая мешает программистам придумывать свои методы шифрования. Она заключается в том, что мозг может с неохотой приниматься за тщательный поиск проблем в своём собственном творении. Даже если сказать своему мозгу принять точку зрения противника, который хочет взломать шифр, даже если сказать мозгу хорошо постараться в поиске, он всё равно может захотеть заключить, что Fast XOR невозможно взломать, и втихую обойти линии рассуждения, которые могут привести к успешному взлому.
На прошедшем Singularity Summit Юрген Шмидхубер сказал, что «совершенствование сжатия сенсорных данных» мотивировало бы ИИ заниматься наукой и искусством.
Это правда, что, если сравнивать с «ничего не делать для понимания окружения», наука и искусство могут повысить степень возможного сжатия сенсорной информации.
Но максимум этой функции полезности получается из создания в окружении субагентов, которые шифруют потоки из одних нулей или одних единиц, а потом раскрывают ключ шифрования. Может быть, мозг Шмидхубера с неохотой принимался по-настоящему искать способы «максимизировать сжатие сенсорных данных», которые справлялись бы с этим лучше, чем искусство, наука или другие виды деятельности, которые сам Шмидхубер высоко ценит.
Есть причины считать, что не всеми открытиями, которые помогают создать продвинутые ИИ, стоит делиться с обществом. Но вот конкретно планы безопасности ИИ следует сдавать внешним экспертам, которые смогут с большей беспристрастностью проверить её на наличие непредвиденных максимумов и других вариантов провала.
Даже инженерам архитектурных сооружений надо задаваться вопросом «Как этот мост может обрушиться?», а не просто представлять себе, как мост всё выдерживает, и расслабиться. В кибербезопасности тот же принцип нужен в ещё более сильной форме. При воплощении большинства добросовестных проектов компетентных инженеров скорее всего получатся довольно хорошие мосты. А вот про большинство криптографических схем надо предполагать, что они ненадёжны.
В контексте кибербезопасности это так потому, что есть разумные противники, которые ищут способы взломать систему. Можно рассмотреть задачу обычной инженерии и задачу кибербезопасности в терминах арифметической иерархии. Тогда можно метафорически сказать, что обычная инженерия – задача из Σ1, а кибербезопасность – из Σ2. В обычной инженерии надо искать по множеству возможных проектов мостов, пока не будет найден тот, при котором мост не обрушится. В кибербезопасности ищут такой проект, что все возможные (доступные оппонентам) атаки против него не преуспеют. И даже если все пока что просмотренные атаки потерпели неудачу, это лишь вероятностный аргумент, он не доказывает со всей уверенностью, что неудачу потерпят и все остальные. Это делает кибербезопасность по сути своей и в очень глубоком смысле труднее, чем строительство моста. Сложно как преуспеть, так и знать, что преуспел.
Поэтому начинают с настроя, что каждая идея, включая твою собственную следующую идею, считается ошибочной, пока она не пережила упорную атаку. И, конечно, это не совсем чуждо строительству мостов, но в кибербезопасности эта презумпция сильнее, а проверка куда суровее. Проектируя мост, мы проверяем на всякий случай. В кибербезопасности в большинстве случаев новый гениальный алгоритм на самом деле не работает.
В контексте безопасности ИИ мы учимся задаваться тем же вопросом – «Как это ломается?» вместо «Как это работает?», хоть и по другим причинам:
Когда мы задаёмся вопросом «Как это ломается?», а не «Как моя новая идея может решить всю проблему сразу?», мы начинаем пытаться рационализировать истинный ответ, а не ложный. Это помогает находить рационализации, которые окажутся истинными.
Те, кто хочет работать в этой области, не могут просто дать, чтобы другие тщательно проанализировали и попытались обрушить их идеи. Желающие когда-нибудь дойти до хорошей идеи должны научиться проактивно свои идеи ломать. Настоящий полезный подход – не «Как я могу аргументировать, что моя идея решает всю проблему?», а «Какие у этой идеи настоящие последствия, и нет ли там чего-то, что всё ещё полезно?». Это, пожалуй, ключевая черта, которая отличает стиль мышления безопасности ИИ: пытаться найти проблемы в любом предложении, включая своё собственное; признавать, что никто пока не знает, как решить всю задачу; и думать в терминах постепенного прогресса в создании библиотеки идей, последствия которых мы в самом деле понимаем, выясняя это про свою собственную идею. Вместо того, чтобы заявлять, что решил всю задачу или её большую часть, а потом ждать, что кто-то другой с тобой поспорит и скажет, что ты неправ.
В криптографии куда больше математики, чем в других областях практического программирования. Это не значит, будто криптографы делают вид, что не-математические части кибербезопасности не существуют. Специалисты прекрасно знают, что часто лучший способ заполучить пароль – притвориться IT-отделом, позвонить кому-нибудь и спросить. Никто это не отрицает. Но всё равно некоторые части криптографии очень сильно завязаны на математике и математических аргументах.
Почему это так? Интуитивно кажется, что большой, переусложнённый, «грязный» алгоритм шифрования было бы взломать сложнее, ведь противнику придётся понять и обратить большую переусложнённую грязную штуку, а не чистенькую математику. Разве системы, которые настолько просты, что про них можно делать математические доказательства, не проще анализировать и расшифровывать? Если ты используешь шифр для своего дневника, не лучше ли, чтобы это был большой сложный шифр с кучей «добавь предыдущую букву» и «поменяй местами две позиции», а не просто rot13?
Удивительный ответ – что так как большинство возможных систем ненадёжны, добавление дополнительной детали зачастую упрощает взлом. Это оказалось буквально так с немецкой «Энигмой» во время Второй Мировой. Они буквально добавили в устройство дополнительную деталь – шестерёнку – и усложнили алгоритм так, что его стало легче взломать. Энигма представляла из себя три шестерни, которые производили замену 26 букв друг на друга при помощи меняющейся электрической цепи. Например, первая шестерня могла при получении сигнала через десятый контакт, выдавать сигнал на двадцать шестом. После каждой буквы шестерни двигались, так что замена в точности не повторялась. В 1926 году к механизму добавили «отражающую» шестерню, так что каждая буква снова проходила через предыдущие три шестерни и заменялась ещё три раза. Это сделало алгоритм сложнее, замен стало больше. Но в результате буквы никогда не превращались сами в себя. Этот факт оказался крайне полезен для взлома Энигмы.
Так что криптография сосредоточена не на том, чтобы делать схемы шифрования всё сложнее. Вместо этого, их пытаются сделать достаточно простыми, чтобы можно было иметь математические поводы считать, что их в принципе сложно взломать. (Это правда так. Это не академическая область, гоняющаяся за престижем. Это действительно иначе не работает. Люди пытались.)
В этой области приняли решение пользоваться таким принципом на основе ещё одного ключевого факта. В криптографии его принято считать очевидным и принимать за данность. Он заключается в том, что словесные аргументы о том, почему взломать алгоритм должно быть тяжело, если их нельзя формализовать математически, недостаточно надёжны (т.е. попросту в большинстве случаев не работают). Это не значит, что криптография требует, чтобы у всего были абсолютные математические доказательства невзламываемости, а иначе алгоритма всё равно что не существует. Ключевая сложность, от которой зависит надёжность RSA – разложение на множители больших составных чисел. Не доказано, что это обязательно занимает экспоненциальное время на классических компьютерах. Вообще-то, известно, что это не занимает экспоненциальное время на квантовых компьютерах. Но, по крайней мере, есть математические аргументы о том, почему разложить произведение больших простых чисел скорее всего на классических компьютерах трудно. Этот уровень рассуждений признан иногда надёжным. А вот посмотреть на Энигму, махнуть рукой и сказать «Посмотрите на все эти замены! Она не повторяется и через квадриллион шагов!» – вот это ненадёжно совсем.
По аналогичным, хоть и не идентичным причинам и стиль мышления безопасности ИИ тоже, где это возможно, стремится к формализации, не отрицая существования частей задачи, которые пока не формализовали. Самые сложные планы безопасности ИИ с кучей движущихся частей скорее всего не работают. Если мы хотим понять что-то достаточно, чтобы понять, работает ли оно, оно должно быть проще. А в идеале мы должны быть способны думать об этом как можно более математично.
В конкретном случае безопасности ИИ мы стремимся к математичности по ещё одной причине. Когда предложение как можно сильнее формализовано, это позволяет установить, почему оно ошибочно, убедительнее, так что в итоге получается согласие, а не уход в вербальное «А вот и да! / А вот и нет!». AIXI – первый формализованный, хотя и невычислимый, проект обобщённого интеллекта, но примечателен он не только этим. Это первый случай, когда кто-то указал, почему конкретный проект в итоге всех убивает, все покивали и сказали «Да, это полностью формальная спецификация это и говорит», а не получилось, что автор просто заявил «Ну, конечно, я не имел в виду это…».
В этом общем проекте составления общеизвестной библиотеки идей и их последствий, обмениваться и передавать можно только идеи, достаточно чёткие, чтобы можно было определить их последствия. Иначе можно прийти к «Ну, конечно, я не имел в виду это» или циклу «А вот и да! / А вот и нет!». Чтобы совершать прогресс, надо идти дальше, и большая формализация идей помогает.
Кто угодно может изобрести систему, которую сам не сможет взломать… Покажи мне, что ты взломал, чтобы я мог знать, что твоё уверение в надёжности чего-то стоит.
Брюс Шнайер (выделение добавлено)
Стандартный ритуал инициации в MIRI – попросить нового исследователя (а) написать простую программу, которая делала бы что-то полезное и нетривиальное для ИИ, если бы её запустили на гиперкомпьютере, или, если исследователь считает, что не может этого сделать, (б) написать простую программу, которая уничтожила бы мир, если бы её запустили на гиперкомпьютере. Затем более опытные исследователи собираются вокруг и обсуждают, что же программа делает на самом деле.
Первый урок: «Простые структуры часто делают не то, что ты думаешь». Что более важно: научиться стилю мышления «Пытаться увидеть настоящий смысл этой структуры, который отличается от того, что ты думал изначально, или что указано в названии» и «Пытаться не предлагать решение и отстаивать, почему оно может работать, а попытаться понять настоящие последствия идеи, которая обычно решением не является, но всё же может оказаться интересной».
1) Сильные кандидаты для работы в безопасности ИИ – люди, которые могут указать на проблемы в предложениях, те люди, которые заметили бы, что последствия запуска AIXI – захват им контроля над своим каналом вознаграждения и убийство программистов, или что предложение Безразличия Полезности рефлексивно нестабильно. Наша версия «Покажи мне, что ты взломал» – что если кто-то называет себя экспертом по безопасности ИИ, надо спросить такого человека об опыте указания на структурные проблемы в предлагаемых решениях безопасности ИИ и о том, было ли это в области, где на проблемы можно указать явно и чётко, а не просто спорить словами. (Иногда вербальные предложения тоже содержат проблемы, и даже самые компетентные исследователи могут оказаться неспособны формально указать на них, если предложение было слишком расплывчатым. Но в целом продемонстрировать способности можно, приводя аргументы, которые смогут оценить другие исследователи. Это часто, хоть и не всегда, происходит в формализованной области.)
Это внимание к «безвредным провалам» – случаям, когда противник может вызвать аномальный, но не напрямую вредный исход – другой характерный признак мышления безопасника. Не все «безвредные провалы» приводят к большим проблемам, но удивительно, насколько часто умный противник может сложить набор кажущихся безвредными ошибок в опасную башню проблем. Безвредные провалы – плохая гигиена. Мы стараемся по возможности их искоренять…
Чтобы увидеть, почему, рассмотрим недавно пробежавшуюся по прессе историю с е-мейлами donotreply.com. Когда компании посылают коммерческий e-mail, и не хотят, чтобы получатель на него ответил, они зачастую используют в качестве адреса отправителя заглушку вроде donotreply@donotreply.com. Умный парень зарегистрировал домен donotreply.com и стал получать все адресованные туда письма. Это включало «отражённые» ответы на письма, посланные по неправильному адресу. Некоторые из них содержали копии оригинального письма, с информацией вроде реквизитов банковских аккаунтов, информации о военных базах в Ираке, и так далее…
Люди, которые поместили в свои письма адрес donotreply.com, должны были знать, что они не контролируют домен donotreply.com. Так что, должно быть, они подумали об ответных письмах, направленных туда, как о безвредном провале. Есть два способа избежать проблем, зайдя так далеко. Первый – тщательно подумать о трафике, который может отправиться к donotreply.com, и осознать, что его часть может быть опасной. Второй способ – подумать: «Это кажется безвредным провалом, но стоит всё равно его избежать. Ничего хорошего из него не выйдет». Первый способ защитит вас, если вы умны, а второй защитит всегда. Это иллюстрирует ещё одну часть мышления безопасника – не полагайся слишком сильно на то, что ты умный, ведь кто-то где-то уж точно ещё умнее и мотивированнее.
При мышлении безопасника мы опасаемся казалось бы мелкой проблемы, потому что она может совместиться с умной атакой, проведённый кем-то, возможно, умнее нас. В безопасности ИИ похожий настрой оправдан по немного другим причинам: мы опасаемся странного крайнего случая, который ломает наш алгоритм, потому что он показывает, что алгоритм неправильный. А нечеловеческого уровня оптимизация ИИ может вскрыть эту неправильность, причём непредвиденным нами образом, потому что мы недостаточно умны.
Мы можем попробовать предвидеть конкретные детали и попробовать описать конкретные более «практические» проблемы. Но это эквивалент тому, чтобы заранее думать, что может пойти не так, когда ты используешь адрес donotreply@donotreply.com, который ты не контролируешь. Когда ты пытаешься написать надёжный софт или создать ИИ умнее себя, чем полагаться на то, что ты достаточно умён, чтобы увидеть все возможности, как что-то может пойти не так и стерпеть «теоретическую» проблему, которая, как ты думаешь, никогда не реализуется «на практике», лучше уж исправить «теоретические» проблемы и не пытаться быть умным.
Проект OpenBSD, созданный с чистого листа так, чтобы быть крайне надёжной ОС, относится к любому вылету (сколь угодно экзотическому) как к угрозе безопасности. Любой вылет – случай «поведения системы за рамками допустимого». Он показывает, что код в общем случае не остаётся в пределах того пространства возможностей, в котором, как предполагалось, должен. А такие вещи можно использовать для атаки.
Настрой схожий с мышлением безопасника – считать, что непредвиденное поведение всегда означает собой важный баг, свойственен ещё и организациям, которые пытаются сделать важную работу правильно с первой попытки. NASA не защищается от разумных противников, но их практики программирования направлены на достижение того уровня строгости, чтобы у больших единовременных проектов были хорошие шансы правильно заработать с первой попытки.
Согласно практикам NASA, если вы обнаружили, что операционная система зонда вылетит, если семь планет идеально расположатся на одной линии, не стоит говорить «А, проехали, мы не ожидаем, что за время работы зонда планеты хоть раз так выстроятся». Методология тестирования NASA заставляет считать, что операционная система зонда не должна вылетать, точка. Если мы контролируем код зонда, нет причин писать код, который может вылететь, или терпеть код, про который мы видели, что он может вылететь, при каком бы странном вводе это ни происходило.
Может, это и не лучший способ вложения ограниченных ресурсов, если вы разрабатываете текстовый редактор (который никто не будет использовать в критически важных целях, и которому не надо защищать чьи-то приватные данные). В таком случае вы можете и подождать, пока клиенты не возмутятся, прежде чем делать исправление бага первым приоритетом.
Но это уместная позиция, если вы создаёте космический зонд за сотни миллионов долларов или программу контроля стержней атомного реактора или, в ещё большей степени, мощного агента. При разработки систем, чей провал катастрофичен, используются особые практики. Нельзя просто ждать, когда всё сломается, и только потом чинить. Одна из этих практик – исправлять любой «экзотический» сценарий, приводящий к провалу, не потому что он всегда реализуется, а потому, что он всегда означает, что что-то в лежащей в основе системе сломано. Системы, которые создавали таким образом, тоже иногда терпят неудачу. Но меньший уровень тщательности не оставил бы им ни шанса правильно сработать с первого раза.
Криптография бывает двух типов: криптография, которая помешает читать ваши файлы вашей младшей сестре, и криптография, которая помешает читать ваши файлы дядям из правительства. Эта книга о втором типе криптографии.
Допустим, вы пишете программу, которая, прежде чем исполнить некоторое опасное действие, требует пароль. Программа сравнивает этот пароль с тем, что она хранит. Если пароль правильный, программа выдаёт пользователю сообщение «Ага» и исполняет запрос, а в противном случае выдаёт сообщение об ошибке – «Нетушки». Вы математически доказали (используя техники автоматической верификации доказательств), что если чипы работают как предполагается, то программа в принципе не можем выполнить операцию, не увидев правильного пароля. Ещё вы математически доказали, что программа не может вернуть пользователю никакого ответа кроме «Ага» и «Нетушки». Так что никакой умный ввод не может заставить её выдать сохранённый пароль.
Вы под микроскопом осматриваете все транзисторы на чипе и удостоверяетесь, что ваши математические гарантии к нему применимы, что в чипе нет дополнительных транзисторов, о которых вы не знали и которые мешали бы вашему доказательству. Чтобы никто уж точно не мог добраться до машины, на которой хранятся пароли, вы помещаете её в крепости, в запертой комнате с двенадцатью замками с отдельными ключами. Комната сообщается с окружающим миром только по Ethernet-кабелю. Любая попытка пробраться в комнату через стены активирует взрывное устройство, которое уничтожает компьютер. У машины собственный атомный электрогенератор, так что никто не может что-то сделать с подачей энергии. Только один человек знает пароль, и его постоянно окружают телохранители, так что никто не может вызнать пароль при помощи терморектального криптоанализа. Длина пароля – 20 символов, его сгенерировал квантовый генератор случайных чисел под присмотром единственного авторизованного пользователя. Генератор потом уничтожили, чтобы никто точно не мог узнать пароль, осмотрев его. Опасное действие может быть исполнено только один раз (оно должно быть исполнено в конкретное время), и пароль надо вводить тоже только один раз, так что не надо беспокоиться, что кто-то перехватит пароль, а потом использует его.
Будет ли такая система по-настоящему полностью невзламываемой?
Если вы – опытный криптограф, то ответ – «Почти наверняка нет; скорее всего, на самом деле узнать пароль можно при помощи совершенно стандартной криптографической техники».
– Что?! – Кричит создатель системы. – Но я потратил столько денег на крепость и получил математическое доказательство поведения программы и крайне укрепил все аспекты системы! Со всеми этими усилиями я превзошёл сам себя!
– Мы называем это Синдромом Мажино, – качает головой криптограф. – Это как построить стену в сотню метров высотой посреди пустыни. Если я смогу пробраться за неё, то не забравшись, а обойдя. И сделать её двухсотметровой тут не поможет.
– Но какая у системы настоящая слабость? – допытывается создатель.
– Для начала, – объясняет криптограф, – ты не следовал стандартной практике никогда не хранить пароль прямым текстом. Правильный метод – хэшировать пароль, к которому прибавлена случайная хранимая «соль» вроде «Q4bL». Представим, что пароль (какая неудача) – «rainbow». Ты не хранишь «rainbow» прямым текстом. Ты хранишь «Q4bL» и надёжный хэш строки «Q4bLtainbow». Когда пароль вводят, ты добавляешь к нему со стороны начала «Q4bL», хэшируешь получившуюся строку, а потом сравниваешь хэш с тем, что у тебя сохранён. Тогда даже если кто-то посмотрит на хэш, который ты хранишь, это не выдаст пароль. Даже если у этого кого-то есть большая заранее вычисленная таблица хэшей самых частых паролей вроде «rainbow», там всё равно не будет хэша «Q4bLrainbow».
– О, ну, мне об этом не надо беспокоиться, – заявляет создатель. – Эта машина в очень хорошо охраняемой комнате, так что никто её не вскроет и не прочитает файл с паролем.
– Мышление безопасника работает не так, – криптограф морщится, – не надо проверять, что никто не может посмотреть на файл с паролем. Надо просто использовать чёртов хэш, а не пытаться быть умным.
– Пфе, – фыркает создатель, – если твоя «стандартная криптографическая техника» заполучения моего пароля полагается на то, что у тебя будет физический доступ к моему компьютеру, она не сработает. Так что мне волноваться не о чем!
– Это и правда ну совсем не похоже на то, как говорят специалисты по кибербезопасности, – криптограф качает головой. – Общепризнанно, что большинство проектов систем не работает. Так что мы не торопимся отбрасывать потенциальные проблемы и аккуратно анализируем их, а не кричим, что беспокоиться не о чем… но я в любом случае имел в виду не такую криптографическую технику. Может ты и доказал, что в ответ на запросы система выводит только «Ага» или «Нетушки». Но ты не доказал, что реакции системы не зависят от хранимого пароля никаким образом, который можно было бы использовать, чтобы его извлечь.
– Ты имеешь в виду, что может быть какой-то таинственный неправильный пароль, который заставляет систему передать серию «Ага» и «Нетушки», которая кодирует настоящий пароль? – Говорит создатель скептическим тоном. – Это может на первый взгляд звучать не невозможно. Но помимо невероятной маловероятности, что кто-то может найти такой эксплойт, это вообще-то очень простая программа, я написал её сам. Я, на самом деле, математически доказал, что система выдаёт в точности одно «Нетушки» и больше ничего на неправильные пароли и в точности одно «Ага» и больше ничего – на правильный. Каждый раз. Так что так узнать пароль нельзя – последовательность неправильных паролей всегда приведёт к последовательности ответов «Нетушки» и больше ничему. Так что мне снова не надо беспокоиться об этой твоей «стандартной криптографической технике». Даже если бы она была применима к моей программе, а это не так.
– Вот почему, – вздыхает криптограф, – у нас есть пословица «не придумывай своё шифрование». Твоё доказательство не доказывает математически, что нет вообще никакого внешнего поведения системы, которое зависит от настоящего пароля, в тех случаях, когда его не ввели. В частности, ты упускаешь тайминг ответов «Нетушки».
– Ты говоришь, что поищешь какую-то серию таинственных неправильных паролей, которые заставят систему выдать «Нетушки» через число секунд, в точности соответствующее первой, второй и так далее букве настоящего пароля? – легкомысленно отвечает создатель. – Я математически доказал, что система никогда не выдаст «Ага» на неправильный пароль. Думаю, это также покрывает большую часть случаев переполнения буфера, которые теоретически могли бы заставить систему так себя повести. Я проверил код, и там попросту нет ничего, что могло бы кодировать такое поведение. Это кажется просто умозрительной гипотетической возможностью.
Нет, – терпеливо объясняет криптограф, – я говорю о том, что мы называем «атакой по сторонним каналам», к данном конкретном случае – о «атаке по времени». Операция, которая сравнивает введённый пароль с правильным паролем, работает, сравнивая первый байт, потом второй байт, и так пока не найдёт первый неправильный байт, после чего заканчивает работу. Так что если я попробую пароль, который начинается на «a», потом пароль, который начинается на «b», и так далее, а настоящий пароль начинается на «b», то будет небольшая, но статистически заметная тенденция, что попытки, которые начинаются с «b» получают ответ «Нетушки» чуть позже. Тогда мы начинаем пробовать пароли, которые начинаются с «ba», «bb», «bc», и так далее.
Создатель некоторое время выглядит поражённым. Потом его лицо быстро выправляется.
– Не могу поверить, что это действительно может сработать через Интернет. Там же куча самых разных задержек пакетов…
– Да, поэтому мы пошлём миллион тестовых паролей и посмотрим на статистические различия. Ты не встроил ограничение частоты, с которой можно было бы пробовать пароли. Даже если бы ты применил эту стандартную практику и применил бы стандартную практику хэширования паролей вместо хранения их открытым текстом, твоя система всё равно могла бы оказаться не такой надёжной, как ты надеешься. Мы могли бы подвергнуть компьютер большой нагрузке, чтобы растянуть ответы на наши запросы. И если бы мы так по времени ответа выяснили хэш, то можно было бы использовать тысячи GPU и попробовать его обратить, без нужды посылать каждую попытку на твой компьютер. Чтобы действительно залатать эту дыру, тебе надо удостовериться, что время ответа фиксировано и не зависит от того, какой именно неправильный пароль введён. Но стандартные практики ограничения частоты попыток ввода пароля и его хэширования по крайней мере усложнили бы использование твоего недосмотра как уязвимости. Поэтому мы применяем такие практики даже когда думаем, что система была бы надёжна и без них.
– Просто не верится, что такая атака действительно сработала бы в реальной жизни! – Отчаянно сказал создатель.
– Она и не работает, – ответил криптограф. – Потому что в реальной жизни специалисты по кибербезопасности пытаются удостовериться, что точное время ответа, энергопотребление процессора и любой другой сторонний канал никак не зависит от секретной информации, которую может хотеть добыть противник. Но да, в 2003 году была атака по времени на SSL-сервера, хоть и более сложная, потому что SSL-система была не такая наивная. а задолго до этого атаки по времени использовали для добычи правильных логинов с Unix-серверов, которые запускали функцию crypt() на пароле только если логин был правильный, потому что crypt() на старых компьютерах занимала немало времени.
В кибербезопасности мы можем титаническими усилиями повысить стоимость чтения твоих файлов для крупных государств до той степени, что они больше не могут сделать это по Интернету и им приходится посылать кого-то лично в твой дом. В АНБ или китайском 3PLA куча обученных профессионалов, и когда твоя система опубликована, они могут потратить много времени на то, чтобы попробовать тебя обхитрить. Ты же, если умён, не будешь пытаться в одиночку перехитрить их, а используешь инструменты и методы, которые создала большая коммерческая и академическая система с большим опытом предотвращения того, чтобы крупные государства читали твои файлы. Так ты и правда можешь заставить их кого-то нанять, чтобы они вломились в твой дом.
Таков исход, когда противник – другие люди. Если же когнитивная разница между тобой и противником больше похожа на разницу между мышью и человеком, то вполне возможно, что мы вообще не можем достичь того уровня надёжности, на котором сверхчеловеческий противник не сможет просто обойти наши Линии Мажино. В частности, очень вероятным кажется, что сверхчеловеческий противник, способный показывать людям информацию, может людей взломать. С криптографической точки зрения наши мозги – большие, сложные, плохо понимаемые системы безо всяких гарантий надёжности.
Перефразируя Шнайера, можно сказать, что в мире есть три вида надёжности: надежность, которая помешает читать ваши файлы вашей младшей сестре, надежность, которая помешает читать ваши файлы дядям из правительства и надёжность, которая помешает суперинтеллекту получить то, что он хочет. После этого можно ответить, что третий вид надёжности недостижим. А если бы он у нас и был, для нас было бы очень сложно знать, что он у нас есть. Может, суперинтеллекты и могут сделать себя абсолютно точно надёжными против других суперинтеллектов. Мы – нет, и знать, что сделали это, тоже.
В той мере, в которой третий вид надёжности всё же достижим, это должно быть скорее чем-то вроде проекта оракула доказуемости по Цермело – Френкелю, который может выдать 20 бит информации, доступных для внешней проверки, а не вроде ИИ, способного общаться с людьми по текстовому каналу. И даже так стоит не быть особо уверенными – ИИ испускает электромагнитные волны, и что бы вы думали, паттерны доступа к DRAM можно использовать для передачи данных на GSM-частотах мобильных телефонов. Мы могли бы поместить то, на чём запущен ИИ, в клетку Фарадея, но, может статься, мы не подумали о чём-то ещё.
Если вы спросите специалиста по кибербезопасности, как создать операционную систему, которую не смогут взломать в ближайшее столетие, если от этого буквально зависит судьбы мира, правильный ответ: «Пожалуйста, не позволяйте судьбам мира от этого зависеть».
Заключительный компонент стиля мышления безопасности ИИ не имеет близкого аналога в обычной кибербезопасности. Это требование вовсе не оказываться в противостоянии сверхчеловеческому противнику. Выигрышный ход – не играть. Большая часть области теории согласования ценностей – как раз про то, чтобы как угодно избежать необходимости перехитрить ИИ.
В безопасности ИИ первая линия обороны – ИИ, который не хочет тебе навредить. Попытка поместить ИИ в взрывоустойчивый бетонный бункер может быть или не быть осмысленной и оправданной предосторожностью на случай если первая линия обороны окажется неидеальной. Но первой линией обороны всегда должно быть то, что ИИ не хочет навредить тебе или обойти твои прочие меры безопасности; не какой-то умный план, как предотвратить, чтобы суперинтеллект получил что хочет.
Крайний случай такого мышления о безопасности ИИ – «Всетест» – стал бы ИИ вредить нам (или обходить меры безопасности), если бы был всеведущим и всемогущим? Если да, то мы точно создали неправильный ИИ. Это мы создаём алгоритм. Создавать алгоритм, который нам вредит, не надо и точка. Если проект агента не соответствует «Всетесту», значит есть сценарии, которые для него предпочтительнее, чем те, что мы считаем приемлемыми. Тогда агент может начать искать путь такие сценарии реализовать.
Если агент ищет пути реализовать нежелательные исходы, значит мы, программисты ИИ, уже тратим вычислительные мощности нежелательным образом. Надо, чтобы ИИ не проводил поиск, который нам навредит, если окончится успехом. Даже если мы ожидаем, что он успешен не будет. Просто не надо создавать такую программу, это дурацкое и саморазрушительное применение вычислительной мощности. Создавать ИИ, который навредил бы нас, если бы был всемогущим – ошибка по той же причине, что крушение зонда NASA если семь планет встанут в линию. Система просто не должна себя так вести и точка. Не надо полагаться на то, что мы такие умные, и думать, насколько это вероятно.
Когда-то Земля находилась под тиранией гигантского дракона. Ростом дракон был выше самого высокого собора, и весь был покрыт чёрной чешуёй. Его красные глаза пылали ненавистью, а из пасти тёк непрерывный поток зловонной желтовато-зелёной слизи. Дракон требовал от человечества чудовищную дань: для удовлетворения его непомерного аппетита десять тысяч мужчин и женщин должны были быть доставлены на исходе каждого дня к подножью горы, у которой жил дракон-тиран. Некоторых дракон пожирал сразу, других держал в течение многих месяцев или даже лет перед тем, как те были съедены.
Неизмеримы были страдания, причиняемые драконом. Ведь кроме тысяч убитых, оставались также те, кто оплакивали потерю близких – матери, отцы, жёны, мужья, дети и друзья.
Некоторые пробовали бороться с драконом. Трудно сказать, были ли они храбры или глупы. Священники и чародеи насылали на него проклятия, но напрасно. Храбрейшие воины, вооруженные лучшим оружием, пробовали его одолеть, но были уничтожены его огнём прежде, чем смогли хотя бы приблизиться. Химики составляли ядовитые зелья, и им даже удавалось хитростью заставить дракона проглотить их, но это только разжигало его аппетит. Когти и пасть дракона были настолько мощными, его чешуйчатая броня столь неприступной, что это делало его совершенно неуязвимым для любого нападения со стороны человека.
Поскольку уничтожить тирана было невозможно, людям не оставалось ничего другого, кроме как повиноваться его желаниям и продолжать приносить жертвы. Отобранные несчастные были всегда людьми старшего возраста. Хотя пожилые люди часто бывали столь же энергичны и здоровы, как и молодые, и почти всегда мудрее и опытнее, но они в каком-то смысле уже успели насладиться жизнью. Богач мог получить краткую отсрочку, подкупив стражников, которые забирали людей, но, согласно непреложному закону, никто, даже сам король, не мог отложить их очередь.
Священники пытались успокоить тех, кто боялся быть съеденными драконом (то есть почти всех, хотя многие публично отрицали это), обещая другую жизнь после смерти; жизнь, свободную от дракона. Другие ораторы полагали, что дракон имеет право на своё место в природе и моральное право быть накормленным. Они считали, что закончить жизнь в животе дракона является частью самого определения человеческой сущности. Находились также и такие, кто считал, что дракон приносит человечеству пользу, ограничивая бесконтрольный рост населения. Были ли эти аргументы убедительны, остаётся неизвестным. Большинство людей пытались утешиться, не думая о мрачном конце, который их ждал.
Это продолжалось в течение многих столетий. Никто уже не вёл счет ни числу убитых, ни количеству пролитых слёз. Люди постепенно смирились, и дракон стал фактом жизни. Ввиду очевидной тщетности сопротивления прекратились попытки убить дракона. Усилия сосредоточились на том, чтобы умиротворять его. Хотя дракон иногда и совершал набеги на города, было установлено, что пунктуальная доставка людей к горе уменьшала вероятность таких налётов.
Люди понимали, что дракон обязательно их когда-нибудь съест, так что стали заводить детей раньше и чаще. Девочки часто беременели, не достигнув и шестнадцати лет. Нередко в семьях было до двенадцати детей. Человеческое население таким образом не уменьшалось, и дракон оставался сытым.
В течение столетий дракон прекрасно питался и постепенно становился всё больше и больше. Он почти достиг размеров горы, на которой жил, и его аппетит рос соответствующе. Десяти тысяч людей теперь было мало, чтобы насытить его, так что уже восемьдесят тысяч должны были быть доставлены на исходе каждого дня к подножью горы, где жил дракон.
Королю приходилось думать не о смертях и драконе, а о том, как обеспечить каждодневный сбор и транспортировку такого количества людей к горе. Это было нелёгкой задачей.
Чтобы облегчить процесс, король приказал выстроить железнодорожный путь: две полосы блестящей стали, ведущие к драконовой обители. Каждые двадцать минут к горному терминалу прибывал поезд, переполненный людьми, а возвращался пустым. Если бы у пассажиров поезда была возможность высунуть голову из окна, то под лунным светом они увидели бы впереди силуэты дракона и горы, и два пылающих красных глаза, как лучи гигантских маяков освещающих путь к уничтожению.
Король нанял огромное количество служащих для управления перевозкой. Специальные регистраторы должны были следить за теми, чья очередь подходила быть принесённым в жертву. Были там стражники, которые отправлялись за людьми в специальных повозках. Путешествуя с головокружительной скоростью, они спешно отправляли свой груз к железнодорожной станции или непосредственно к горе. Клерки распределяли пенсии среди обедневших семей. Были и утешители, которые сопровождали обречённых, стараясь облегчить страдания участием и лекарствами.
Кроме того, были и общества драконологов, которые работали над улучшением логистики. Некоторые из них проводили исследования по драконовской физиологии и поведению и собирали образцы – чешую, слизь, которая текла из его рта, потерянные зубы и экскременты, в которых находились фрагменты человеческих костей. Все эти находки были кропотливо описаны и сданы в архив. Чем лучше изучали зверя, тем понятнее было, что его не победить. Например, его чешуя была твёрже, чем любой материал, известный человеку, и ничто не оставляло на ней даже царапины.
Для финансирования всего этого король ввёл тяжёлые налоги. Связанные с драконом расходы, составлявшие в начале одну седьмую экономики, росли ещё быстрее, чем сам дракон.
Человек – существо любопытное. Время от времени кому-то в голову приходит хорошая идея. Другие копируют её, добавляя собственные усовершенствования. С течением времени изобретено множество чудесных инструментов и систем. Некоторые из этих устройств – калькуляторы, термометры, микроскопы, стеклянные пузырьки, которыми пользуются химики для кипячения и дистилировки жидкости – помогают находить и испытывать новые идеи, включая и те, что сильнее ускоряют этот процесс.
Таким образом великое колесо изобретений, в старые времена поворачивающееся очень медленно, постепенно стало ускоряться.
Мудрецы предсказали, что настанет день, когда технология позволит людям летать и делать много других удивительных вещей. Один из мудрецов, очень уважаемый коллегами, но ставший изгоем из-за эксцентричных манер, зашёл так далеко, что предсказал, что технология в конечном счёте позволит создать изобретение, которое сможет убить дракона-тирана.
Королевские советники, однако, отклоняли эти идеи. Они утверждали, что люди слишком тяжелы для полётов, да и перьев у них нет. А что же касается самой идеи, что дракона можно уничтожить – в книгах по истории упоминались сотни попыток, ни одна из которых не увенчалась успехом. “Мы все знали, что у этого человека бывали странные и безответственные идеи”, – позже писали историки в некрологе о мудреце, который к тому времени был давно съеден драконом, уничтожение которого он предсказывал, – “но писал он интересно. Возможно, мы должны быть благодарны дракону за то, что он способствовал рождению нового жанра. Антидраконьи книги замечательно обнажают природу тоски!”
А колесо изобретений всё ускорялось. Прошло несколько десятков лет, и технология действительно позволила людям летать – и делать много других удивительных вещей.
Несколько известных учёных начали обсуждать новую стратегию нападения на дракона-тирана. Убить дракона будет нелегко, сказали они, но если можно было бы изобрести материал твёрже, чем броня дракона, и сделать из этого материала что-то вроде снаряда, то этот подвиг стал бы возможным. Сначала такие идеи отвергались на том основании, что среди известных материалов не нашлось такого, который был бы крепче, чем броня дракона. Но после долгого исследования проблемы один из бунтарей смог успешно продемонстрировать такой материал. После этого многие из скептически настроенных драконологов присоединились к бунтарям. Инженеры вычислили, что из этого материала можно сделать огромный снаряд, который смог бы пробить броню дракона, если будет запущен с достаточной силой. Однако изготовить необходимое количество такого необычного материала стоило бы огромных денег.
Группа выдающихся инженеров и драконологов послали королю ходатайство на финансирование стройки анти-драконова снаряда. Однако в это время король был занят подготовкой своей армии к войне против тигра. Тигр убил фермера и исчез в джунглях. Все боялись, что тигр может вернуться и напасть снова. Войско короля окружило джунгли и стало прорубаться вглубь. В конце концов король объявил, что все сто шестьдесят три тигра в джунглях, включая того, который напал на фермера, были выслежены и убиты. В шуме и неразберихе той войны ходатайство было потеряно или забыто.
Поэтому драконологи послали королю новое обращение. На сей раз они получили ответ от одного из королевских секретарей, в котором говорилось, что король рассмотрит их запрос после того, как утвердит ежегодный бюджет Министерства Дракона. Бюджет этого года был самым большим из известных до настоящего времени и включал финансирование нового железнодорожного пути к горе. Вторая пара рельс считалась необходимой, поскольку один путь больше не справлялся с увеличивающейся нагрузкой: дань, потребованная драконом в этом году, составила уже сто тысяч человек. Когда бюджет был наконец одобрен, начали поступать слухи о том, что одна отдалённая деревня страдала от гремучих змей. Король должен был срочно уехать, чтобы мобилизовать войска против новой угрозы. Обращение драконологов осталось в пыльном кабинете.
Анти-драконисты встретились снова, чтобы решить, что делать дальше. Горячие дебаты продолжались до поздней ночи. К рассвету они наконец приняли решение обратиться к народу за помощью в решении проблемы. В течение несколько недель они путешествовали по всей стране, читая лекции и объясняя их идею любому, кто бы их слушал. Сначала люди были настроены скептически. В школе их учили, что дракон-тиран неукротим, и что жертвы ему должны приниматься как должное. Однако многие заинтересовались новым сложным материалом и проектом снаряда. Всё больше и больше граждан приходило на лекции драконологов. Активисты начали организовывать общественные собрания в поддержку их идеи.
Когда король узнал из газет об этих встречах, он вызвал своих советников и спросил, что они думают по этому поводу. Они сообщили ему о ходатайствах, которые были высланы, но сказали, что анти-драконисты были нарушителями спокойствия и их учение вызывало общественное беспокойство. Они убеждали короля, что для общественного строя было бы лучше, если бы люди приняли неизбежность приношения дани дракону-тирану. Обслуживание дракона обеспечивало много рабочих мест, которые бы пропали в случае победы над драконом. Они уверяли, что убийство дракона не будет иметь никакой социальной выгоды. В любом случае, в данный момент королевская казна была почти пуста после двух военных миссий и финансирования второй железнодорожной линии. Король пользовался большой популярностью после победы над гремучими змеями. Он слушал аргументы советников и волновался, что может потерять популярность в народе, если люди увидят, что он проигнорировал анти-драконовское ходатайство. Поэтому король решил провести открытое слушание. Были приглашены высшие драконологи, министры государства, а также заинтересованная публика.
Митинг состоялся в самый тёмный день года, как раз перед Рождеством, в самом большом зале королевского замка. Все места были заняты, и многие толпились в проходах. Атмосфера в зале была напряжённой, как во время самых важных военных сессий.
После того как король всех приветствовал, он дал слово ведущей учёной-драконологу, которая вела эти исследования и разработки. Это была женщина с серьезным и строгим выражением лица. Она объяснила понятным языком, как предложенное устройство будет работать и как можно изготовить необходимое количество сложного материала. При умеренном финансировании на весь проект понадобилось бы пятнадцать-двадцать лет. Если финансирование увеличить, то можно было уложиться и в двенадцать. Однако не было никакой абсолютной гарантии, что это устройство будет вообще работать. Толпа слушала её выступление внимательно.
Следующим выступающим был главный советник короля по этике – человек, мощный голос которого легко заполнил аудиторию:
— Давайте представим, что эта женщина не ошибается в научных деталях, и что проект является технологически возможным, хотя я не думаю, что это было фактически доказано. Она желает, чтобы мы избавились от дракона. Вероятно, она считает, что имеет право избежать участи быть съеденной драконом. Какое упрямство, какая самонадеянность! Конечность человеческой жизни – это благословение для каждого человека, независимо от того, знает он об этом или нет. Уничтожение дракона – на первый взгляд такой очевидный и правильный поступок – унизит наше человеческое достоинство. Озабоченность убийством дракона отвлечёт нас от более полной реализации наших стремлений, и мы будем жить долго вместо того, чтобы жить хорошо. Это унизительно, да, унизительно для человека – хотеть продолжать своё посредственное существование максимально долго, не задумываясь о более высоких вопросах, о том, для чего должна быть использована жизнь. И я утверждаю, что роль дракона в природе заключается в том, чтобы есть людей, и наша роль в природе исполняется только тогда, когда мы им съедены…
Аудитория уважительно слушала выспренние речи почтенного оратора. Его фразы были настолько красноречивыми, что было трудно сопротивляться чувству, что за этими словами были какие-то глубокие мысли, хотя никто и не мог точно понять, в чём же они состояли. Но наверняка слова, исходящие от такого выдающегося ставленника короля, должны были иметь глубокий смысл.
Следующим вышел духовный мудрец, который был широко почитаем за свою доброту, теплоту и преданность. Когда он шагал к трибуне, маленький мальчик выкрикнул из аудитории:
— Дракон плохой!
Родители мальчика покраснели и стали успокаивать и ругать ребенка. Но мудрец сказал:
— Пусть мальчик говорит. Он, вероятно, мудрее, чем такой старый дурак, как я.
Сначала мальчик был слишком испуган и смущён, чтобы что-то сказать. Но когда он увидел искреннюю дружескую улыбку и вытянутую руку старого мудреца, он взялся за неё и пошёл вместе ним к трибуне.
— Итак, храбрый мальчик, – сказал мудрец, – ты боишься дракона?
— Хочу вернуть бабушку, – сказал мальчик.
— Дракон забрал твою бабушку?
— Да, – сказал мальчик, и слёзы собрались в его больших испуганных глазах. – Она обещала, что научит меня печь имбирное печенье на Рождество. Она сказала, что мы сделаем домик из имбирного пряника и маленьких человечков, которые жили бы в нём. А потом люди в белой одежде пришли и забрали бабулю к дракону… Дракон плохой, он ест людей… Верните мне бабушку!
Ребёнок уже плакал так сильно, что мудрецу пришлось возвратить его родителям.
Были и другие выступления, но простое свидетельство ребёнка оказалось сильнее риторических речей королевских министров. Люди поддержали анти-драконистов, и к концу вечера даже король признал смысл и гуманность их аргументов. В его заключительном заявлении он просто сказал:
— Давайте сделаем это!
Как только новость распространилась, на улицах началось празднование. Активисты анти-драконизма поздравляли друг друга и пили за будущее человечества.
На следующее утро миллиард людей проснулись и поняли, что их очередь быть посланными к дракону настанет прежде, чем снаряд будет закончен. Наступило критическое время: раньше активная поддержка анти-драконистов была ограничена маленькой группой провидцев, а теперь стала главным приоритетом для всех людей. “Общая воля” стала популярным и важным понятием. На массовых митингах собирались деньги для проекта снаряда и отправлялись прошения королю с просьбой увеличить количество государственной поддержки. Король охотно отвечал на эти запросы. Во время новогоднего выступления он объявил, что выпустит дополнительный законопроект для увеличения финансирования, и, кроме того, продаст свой летний дворец и часть земли для того, чтобы сделать существенное личное пожертвование.
— Я верю, что наша страна должна достигнуть этой цели до конца этого десятилетия, чтобы мир наконец освободился от древний муки дракона!
Таким образом началась технологическая гонка за временем. Концепция антидраконового снаряда была достаточно проста, но его создание требовало решения тысячи технических проблем, каждая из которых в свою очередь имела множество своих маленьких проблем. Запускались испытательные снаряды, но одни сразу падали на землю, а другие летели, но не в ту сторону. В одном трагическом случае снаряд упал на больницу и убил несколько сотен пациентов и врачей. Но к тому времени цель проекта была настолько важна, что испытание продолжались, даже пока людей выкапывали из развалин.
Несмотря на почти неограниченное финансирование и круглосуточную работу, всё равно не удавалось закончить проект вовремя. Десятилетие закончилось, а дракон всё ещё был жив и здоров. Но проект уже приближался к концу. Прототип снаряда был успешно запущен. Производство ядра, сделанного из дорогого сложного материала, шло по плану. Его завершение совпадало с окончанием производства снаряда, в который он должен быть загружен. Запуск был назначен на следующий Новый год, точно двенадцать лет спустя после официального запуска проекта. Самым лучшим новогодним подарком в это время был календарь, который считал дни до окончания проекта, и доходы от его продажи шли на проект снаряда.
Король стал гораздо мудрее и серьёзнее. Теперь он проводил много времени в лабораториях и на заводах, подбадривая рабочих и хваля их за тяжёлый труд. Иногда он проводил целую ночь на шумном заводе. Он даже пытался изучить и понять технические аспекты. Но всё же его поддержка была в основном моральной, и он старался не вмешиваться в технические и организационные дела.
За неделю до Нового года инициатор и руководительница проекта приехала в замок и попросила о срочной встрече с королём. Когда тот узнал о её прибытии, он срочно извинился перед иностранным сановниками, которых развлекал, и поспешно ушёл в комнату, где его ждала ученая. Как обычно, она выглядела бледной и измученной от долгих часов на работе. Но в этот раз король заметил облегчение и радость в её глазах.
Она сказала, что снаряд закончен, ядро загружено, всё трижды проверено и готово к запуску по команде короля. Король вжался в кресло и закрыл глаза. Он крепко задумался. Если запустить снаряд сегодня вечером, на неделю раньше чем запланировано, семьсот тысяч человек будут спасены. Но если что-то пойдёт не так, если снаряд не поразит цель, это будет ужасно. Тогда придётся заново строить ядро, и проект откатится года на четыре. Король тихо сидел почти целый час. Когда учёная уже думала, что тот уснул, он открыл глаза и твёрдо сказал:
— Нет. Я хочу, чтобы вы вернулись в лабораторию. Проверьте и перепроверьте всё ещё раз.
Ученая не смогла сдержать глубокого вздоха, но кивнула и удалилась.
Последний день года выдался холодным и пасмурным, но ветра не было, так что условия для запуска были хороши. Солнце спускалось. Техники возились вокруг снаряда и проверяли всё в последний раз. Король и его главные советники наблюдали с платформы неподалёку от пусковой площадки. Еще дальше, за забором, огромное количество публики собралось посмотреть на это важное событие. Большие часы отсчитывали время до запуска: оставалось пятьдесят минут.
Советник обратил внимание короля на забор. Там происходило какое-то беспокойство: кто-то перескочил через него и бежал к платформе короля. Охранники быстро его догнали, надели наручники и утащили. Король снова повернулся к пусковой площадке и к горе на заднем плане. Там он видел тёмный согнутый профиль дракона. Тот ел.
Минут через двадцать короля удивило новое появление этого человека – теперь того вели двое стражников. На пленнике были наручники, а из носа текла кровь. Он был крайне возбуждён и, увидев короля, начал кричать изо всех сил:
— Поезд! Последний поезд! Остановите последний поезд!
— Кто этот молодой человек? – спросил король. – Его лицо кажется мне знакомым, но я не могу припомнить, кто это. Что он хочет? Позовите его сюда.
Молодой человек был младшим клерком в министерстве транспорта, и кричал он потому, что в последнем поезде на пути к горе находился его отец. Король приказал, чтобы движение поездов продолжалось, опасаясь, что любое необычное явление могло бы возбудить дракона, и он бы мог покинуть открытое место, на котором сейчас находился. Молодой человек умолял короля, чтобы он остановил последний поезд, который должен был прибыть к горе за пять минут до запуска.
— Я не могу этого сделать, – сказал король. – Я не могу рисковать.
— Но поезда же часто опаздывают на пять минут! Дракон даже не заметит! Пожалуйста!
Молодой человек стал на колени перед королем, умоляя его спасти жизнь отца и жизни тысячи пассажиров на последнем поезде.
Король смотрел вниз на заплаканное и окровавленное лицо молодого человека. Но он покачал головой. Молодой человек продолжал вопить даже после того, как охранники тащили его с платформы:
— Пожалуйста! Остановите поезд! Пожалуйста!
Король стоял тихо и неподвижно, пока крики вдруг не прекратились. Он взглянул на часы: оставалось пять минут.
Четыре минуты. Три. Две.
Последний техник ушёл с площадки.
Тридцать секунд. Двадцать. Десять, девять, восемь…
Когда ракета взлетела, и отблески пламени двигателей осветили пусковую площадку, зрители непроизвольно поднялись со своих мест. Все глаза были обращены к белому ракетному пламени, двигающемуся в сторону горы. Вся масса людей, король, низкие и высокие, молодые и старые – в этот момент все они были охвачены единым пониманием, единым осознанным чувством: это белое пламя, стреляющее в темноту, воплощало весь человеческий дух – его страхи и надежды, ударяющие в сердце зла. И огромный силуэт наконец исчез. Тысячи возгласов радости поднялись над толпой. Через несколько секунд к ним присоединился протяжный глухой звук падающего чудовища. Казалось, будто сама земля вздохнула от облегчения. После столетий притеснения человечество наконец было свободно от жестокой тирании дракона.
Вопли радости перешли в радостную песню:
— Да здравствует король! Да здравствуем мы все!
Советники короля, как и все остальные, были счастливы как дети; они обнимали друг друга и поздравляли короля:
— Ура! Мы победили!
Но король ответил надломленным голосом:
— Да, нас постигла удача, сегодня мы убили дракона. Но, чёрт побери, почему мы начали так поздно? Это могло бы быть сделано пять, а возможно и десять лет назад! Миллионы людей были бы спасены.
Король сошёл с платформы и подошёл к молодому человеку в наручниках, который сидел на земле. Он упал на колени.
— Простите меня! О боже, пожалуйста, простите меня!
Дождь начал капать на землю, превращая её в грязь; пурпурные королевские одежды отяжелели, дождь смыл кровь с лица мужчины.
— Я очень сожалею о вашем отце, – сказал король.
— Вы не виноваты, – ответил молодой человек. – Вы помните, двенадцать лет назад, в замке? Тем мальчиком, который кричал и хотел, чтобы вы вернули его бабушку, был я. Я тогда не понимал, что вы не могли сделать то, о чём я просил. Сегодня я хотел, чтобы вы спасли моего отца. Но и сегодня это было невозможно, ведь нельзя было рисковать запуском. Но вы спасли меня, и мою мать, и сестру. Как же нам вас отблагодарить?
— Ты их слышишь? – спросил король, показывая на толпу. – Они благодарят меня за то, что сегодня случилось. Но герой – ты. Это был твой голос. Это ты встал против зла, – король знаком велел охране снять с молодого человека наручники. – Иди к матери и сестре. Вашей семье всегда будут рады в замке, и вы получите всё, что пожелаете – если это будет в моих силах.
Молодой человек ушёл, а всё окружение короля продолжало толпиться под ливнем вокруг своего монарха, который всё ещё сидел на земле. Из вычурных одежд, портящихся под дождём, смотрели их напудренные лица, в которых читалась смесь радости, облегчения и замешательства. Так много изменилось за час: вернулось право на свободное будущее, древний страх исчез, а многое из того, во что так долго верили, было низвергнуто. Растерянные и не понимающие, что им теперь делать, они так и стояли, обмениваясь взглядами в ожидании какого-то сигнала.
Наконец, король поднялся, вытирая руки об одежды.
— Ваше величество, что нам сейчас делать? – спросил самый старший придворный.
— Дорогие друзья, – сказал король, – мы прошли долгий путь, и всё же наше путешествие лишь начинается. Человек – молодое существо на планете. Сегодня мы снова как дети. Будущее открыто перед нами. Мы войдем в него и постараемся быть лучше, чем прежде. Теперь у нас есть время: время делать всё правильно, время расти, время учиться на наших ошибках, время строить лучший мир и время жить в нём. Сегодня вечером пусть все колокола королевства звонят до полуночи в память о наших покойных предках, а после этого давайте праздновать до восхода солнца. И в скором времени, я полагаю, нам предстоят большие перемены!
Традиционно, когда речь заходит о старении, диалог в основном фокусируется на необходимости обеспечения достойных условий существования. Старение, отход от практических дел, а также прощание с близкими принято принимать со смирением. Этот подход имел смысл, пока ничего нельзя было сделать для того, чтобы предотвратить или задержать старение. Вместо того, чтобы беспокоиться о неизбежном, человек мог по крайней мере стремиться к достижению покоя.
Сегодня ситуация изменилась. Несмотря на то, что у нас ещё нет эффективных и приемлемых средств для замедления процесса старения1, мы можем определить те области науки, которые могут помочь нам достигнуть этого в обозримом будущем. Идеологии, которые учат пассивному смирению со смертью, больше не являются такими уж безобидными источниками утешения. Теперь они – препятствие на пути к необходимым действиям.
Многие выдающиеся технологи и учёные говорят, что возможным будет задержать, а конечном счете – остановить и полностью развернуть человеческое старение2. В данный момент нет полного консенсуса о том, сколько времени и какие средства для этого понадобятся, и даже о том, что эта цель в принципе достижима. Относительно басни (где старение, конечно же, представлено драконом), мы находимся на отрезке времени где-то между тем, когда одинокий мудрец предсказал возможное убийство дракона, и тем, когда драконологи успешно доказали своим коллегам, что возможно создание сложного материала, который будет крепче чешуи тирана.
Представленный этический аргумент прост: для людей в басне существуют очевидные и неотразимые моральные причины избавиться от дракона. В нашей ситуации процесс старения аналогичен и этически схож с ситуацией в басне. Поэтому и у нас есть неотразимые моральные доводы для избавления от человеческого старения.
Этот аргумент не касается лишь удлинения жизни. Несколько дополнительных лет болезней и слабости не имели бы никакого смысла. Аргумент этот в пользу удлинения здоровой жизни. В результате замедления или остановки процесса старения, продолжительность здоровой человеческой жизни продлится. Люди смогут оставаться здоровыми, крепкими и продуктивными в том возрасте, до которого раньше вообще бы не дожили.
В дополнение к этому обратите внимание на несколько специфических уроков:
Что такое искусственный интеллект?
ИИ — это исследование того, как сделать машины действующими разумно. Грубо говоря, компьютер разумен в тех пределах, в которых он делает правильные вещи, а не неправильные. Правильным действием считается такое, которое позволяет с наибольшей вероятностью достичь цели. Или, выражаясь техническим языком, действие, которое максимизирует ожидаемую полезность. Создание искусственного интеллекта (ИИ) включает в себя решение проблем машинного обучения, рассуждения, планирования, восприятия, понимания языков, а также робототехники.
Распространённые заблуждения
ИИ — это конкретная технология. Например, в 1980-е и 1990-е годы часто приходилось видеть статьи, в которых ИИ приравнивался к экспертным системам (основанным на наборах правил); в 2010-х годах ИИ приравнивали к нейронным сетям (в основном, многослойным сверточным). Это примерно как подменять изучение физических законов - проектированием паровых машин. Исследования ИИ относятся к общей проблеме создания интеллекта в машинах; ИИ — не какой-то особый технический продукт, возникший в результате исследования данной проблемы.
ИИ — это особый класс технических подходов. Например, часто приходится видеть авторов статей, считающих, что ИИ должен быть основан на логическом или символьном подходе и противопоставляют этому, например, нейронные сети или генетическое программирование. ИИ — это не подход, это проблема. Любой подход к решению проблемы считается вкладом в развитие ИИ.
ИИ — это особое сообщество исследователей. Данное утверждение связано с предыдущим заблуждением. Некоторые авторы используют термин «вычислительный интеллект», упоминая некое якобы обособленное сообщество исследователей, использующих нейронные сети, нечеткую логику, генетические алгоритмы. Такой подход крайне неудачен, поскольку побуждает исследователей опираться только на те методы, которые приняты в их сообществе, а не на те, которые имеют смысл для поставленной задачи.
ИИ — это просто алгоритм. Строго говоря, такое мнение не является заблуждением, поскольку системы ИИ, как и компьютеры для любых других применений, построены на основе алгоритмов (которыми в широком смысле можно считать программы). Однако род задач, решаемых с помощью ИИ, имеют тенденцию сильно отличаться от традиционных алгоритмических задач, таких как сортировка списков чисел или извлечение квадратных корней.
Каким образом ИИ будет приносить пользу обществу?
Всё, из чего состоит цивилизация, является продуктом нашего разума. ИИ позволяет расширить наши интеллектуальные возможности различными способами, подобно тому, как подъемные краны позволяют нам передвигать сотни тонн груза, самолеты позволяют нам перемещаться со скоростью в несколько сотен километров в час, а телескопы позволяют нам наблюдать объекты на расстоянии в триллионы миль. Системы ИИ, спроектированные должным образом, позволят реализовывать человеческие ценности в гораздо большем масштабе.
Распространенные заблуждения
ИИ обязательно приведет к бесчеловечности. Во многих антиутопичных сценариях описывается, как злодеи используют ИИ для того, чтобы контролировать общество различными способами: слежкой, роботами-полицейскими, автоматизированным «правосудием» или командно-административной экономикой. Хотя такие варианты будущего несомненно возможны, большинство людей не будет поддерживать их. С другой стороны, ИИ предоставляет людям лучший доступ к знаниям и индивидуальному обучению; устраняет языковые барьеры; ликвидирует бессмысленную и однообразную тяжелую работу, низводящую людей до положения… эээ… роботов.
ИИ обязательно усилит социальное неравенство. Вполне возможно, что всё бо́льшая и бо́льшая автоматизация труда приведет к тому, что прибыли и богатства будут концентрироваться в руках все меньшего и меньшего числа людей. Однако у нас есть выбор в том, как именно использовать ИИ. Например, ИИ может способствовать взаимовыгодному сотрудничеству, связывать производителей с потребителями, что позволит большему количеству отдельных людей и мелких групп напрямую участвовать в экономике вместо того, чтобы зависеть от крупных корпораций-работодателей.
Что такое машинное обучение?
Это раздел ИИ, который изучает способы, которые позволят компьютерам повышать эффективность своих действий с помощью накопленного опыта.
Распространенные заблуждения
Машинное обучение — это новая область, которая большей частью заменила ИИ. По-видимому, данное заблуждение — неожиданный побочный эффект недавнего роста интереса к машинному обучению, в результате которого на курсы машинного обучения поступают студенты, не имевшие раньше дела с ИИ. Машинное обучение всегда было центральной темой ИИ: Тьюринг в статье 1950 г. утверждал, что обучение — это наиболее вероятный путь к ИИ, а самый успешный ранний ИИ, шахматная программа Артура Самуэля, был создан с использованием машинного обучения.
Машины не могут учиться, они делают только то, что программисты приказали им делать. Программист может приказать машине учиться! Самуэль был отвратительным шахматистом, но его программа быстро научилась играть намного лучше его. В наши дни многие важные системы ИИ построены методом машинного обучения на основе больших объемов данных.
Что такое нейронная сеть?
Нейронная сеть — вид вычислительной системы, которая имитирует свойства нейронов в живых организмах. Нейронная сеть построена из множества отдельных элементов, каждый из которых получает входной сигнал от одних элементов и посылает выходной сигнал другим элементам. (Эти элементы необязательно должны существовать физически, они могут быть компонентами компьютерной программы.) Выходной сигнал искусственного нейрона обычно вычисляется, исходя из взвешенной суммы входящих сигналов, причем она подвергается некой простой нелинейной трансформации. Ключевым тут является то, что вес каждой из межнейронных связей может быть откорректирован на основе полученного опыта.
Распространенные заблуждения
Нейронная сеть — это новый вид компьютеров. Практически все нейронные сети моделируются на обычных компьютерах, предназначенных для общих целей. Мы можем построить специализированные компьютеры (их иногда называют нейроморфическими) для более эффективного моделирования нейронных сетей. До сих пор нейроморфические компьютеры не продемонстрировали достаточных преимуществ, чтобы оправдать их более высокую стоимость и затраты времени на конструирование.
Нейронные сети действуют так же, как и мозг. Реальные нейроны — это гораздо более сложные образования, чем те простые элементы, которые используются в искусственных нейронных сетях. В природе существует много различных типов нейронов и связи между нейронами могут с течением времени меняться; помимо коммуникации между нейронами, мозг задействует и другие механизмы для корректировки поведения; и так далее.
Что такое глубинное обучение?
Глубинное обучение — отдельный вид машинного обучения, при котором обучаются нейронные сети, состоящие из многих слоев. Глубинное обучение стало очень популярным за последние годы и привело к существенному прогрессу в решении таких задач, как распознавание речи и визуальных объектов.
Распространенные заблуждения
Что такое сильный и слабый ИИ?
Термины «сильный ИИ» и «слабый ИИ» были введены философом Джоном Сёрлом в отношении к двум различным гипотезам, выдвинутым, по его мнению, исследователями ИИ. Согласно гипотезе слабого ИИ, машины можно запрограммировать таким образом, что они будут вести себя как имеющие интеллект человеческого уровня. Согласно гипотезе сильного ИИ, подобные машины можно считать имеющими сознание и описывать их как действительно думающих и рассуждающих, используя эти слова в том же смысле, который применяется к людям.
Распространенные заблуждения
Что такое УИИ, ИСИ и сверхразум?
УИИ означает “универсальный ИИ”. Этот термин использутеся для отсылки к амбициозной задаче по созданию универсальных разумных систем, диапазон задач которых как минимум сопоставим с диапазоном задач, за которые могут браться люди.
ИСИ означает “искусственный сверхразум”, это ИИ, существенно превосходящий человеческий интеллект. Точнее говоря, сверхразумная система — такая, которая превосходит людей по способности выдавать высококачественные решения, которые учитывают больше факторов и дальше заглядывают в будущее.
Распространенные заблуждения
Ведущих исследователей ИИ не заботит УИИ. Конечно, в таких областях, как распознавание речи, есть исследователи, которые работают большей частью над специфическими задачами в своей области. Также некоторые исследователи преимущественно занимаются поисками коммерческих применений для существующих технологий. Тем не менее, у меня сложилось впечатление, что большинство исследователей ИИ в таких областях, как машинное обучение, аргументация и планирование, вносят свой вклад в решение задачи получения УИИ.
Люди обладают “универсальным” интеллектом. Данное утверждение обычно считают настолько очевидным, что не указывают его явно, но оно подразумевается практически во всех дискуссиях об УИИ. Его обычно обосновывают тем, что люди способны выполнять широкий спектр задач и работ. Но, разумеется, нет такой человеческой профессии, которую человек не мог бы выполнять, поэтому нет ничего удивительного в том, что люди могут быть заняты в широком диапазоне существующих человеческих профессий. Трудно придумать такое определение широты разума, которое бы не зависело от людских когнитивных искажений и ошибок, например, антропоцентризма. Так что мы остаёмся с утверждением, что люди разумны “универсально” в том смысле, что могут делать все вещи, которые люди могут делать. Когда-нибудь удастся приемлемым образом сформулировать, что люди могут многое, а до тех пор вопрос остается открытым.
Что такое закон Мура?
Термин «закон Мура» основывется на фактах и на предсказаниях экспоненциального роста плотности и/или производительности электронных схем. В современной трактовке, отходящей от оригинального заявления Мура, этот закон можно сформулировать так: скорость вычислений, которую можно получить за определённую сумму, удваивается каждые N месяцев, где N примерно равно 18.
Распространенные заблуждения
Закон Мура — это физический закон. На самом деле, этот закон представляет собой сумму эмпирических наблюдений за технологическим прогрессом; нет ничего, что делало бы его выполнение обязательным, и, конечно, он не будет оставаться справедливым бесконечно долго. Тактовая частота процессоров уже сейчас вышла на плато, и соотношение цена/производительность в последнее время улучшается за счет увеличения числа ядер (процессоров) на одном чипе.
Быстродействие машин возрастает с такой скоростью, что создание более эффективных алгоритмов — пустая трата времени. На деле же несложные улучшения в алгоритмах часто оказываются намного более значимыми, чем усовершенствования аппаратной части.
Позволяет ли закон Мура предсказать появление сверхразума?
Нет. Есть много вещей, которые системы ИИ не могут делать, например, понимать сложные тексты на естественных языках. Прибавка скорости в подобных случаях означает просто более быстрое получение неправильного ответа. Для создания сверхразума нужны крупные концептуальные прорывы, которые трудно предсказать. Появление более быстрых машин мало чем может помочь.
Распространенные заблуждения
Что такое машинный IQ?
Не существует такой вещи, как машинный IQ. До той степени, до которой интеллектуальные возможности личности сильно зависят друг от друга при выполнении множества задач, можно говорить о том, что люди имеют IQ, хотя многие исследователи оспаривают полезность любой одномерной шкалы. С другой стороны, возможности машины могут никак не соотноситься между собой: машина может победить чемпиона мира по шахматам и при этом совершенно не уметь играть в шашки или любую другую настольную игру. Машина, лучше всех справившаяся с контрольной работой, может оказаться неспособной ответить на простой вопрос о том, как ее зовут.
Распространенные заблуждения
Что такое взрывное развитие ИИ?
Термин «взрывное развитие интеллекта» был введен И.Д. Гудом в 1965 г. в эссе «Размышления о первой ультраинтеллектуальной машине». В эссе описывалась возможность того, что достаточно интеллектуальная машина окажется способной реконструировать свою аппаратную и программную часть с тем, чтобы создать еще более интеллектуальную машину. Процесс будет повторяться, пока «интеллект человека не останется далеко позади».
Распространенные заблуждения
Когда системы ИИ станут более разумными, чем люди?
На этот вопрос ответить трудно и тому есть несколько причин. Во-первых, слово «станут» подразумевает, что это вопрос прогнозирования, подобно предсказанию погоды, в то время как на самом деле он содержит элемент выбора: названное событие вряд ли когда-нибудь случится, если человечество решит не преследовать данную цель. Во-вторых, фраза «более разумные» подразумевает простую линейную шкалу интеллекта, которой в реальности не существует. Машины уже намного лучше людей выполняют некоторые задачи, и намного хуже — другие. В-третьих, если допустить существование какого-нибудь приемлемого понятия универсального интеллекта, который можно создать у машин, тогда вопрос приобретает смысл, но на него все равно очень сложно ответить. Получение интеллекта такого уровня потребовало бы значительных прорывов в исследовании ИИ, а их чрезвычайно трудно предсказать. Тем не менее, большинство исследователей ИИ полагают, что системы ИИ превзойдут по разумности людей уже в этом столетии.
Распространенные заблуждения
Что могут системы ИИ сейчас?
Диапазон задач, в которых машины делают заметные успехи, намного шире, чем несколько лет назад. Он включает игру в настольные игры, включая карты, ответы на простые вопросы, извлечение фактов из газетных статей, сборку сложных объектов, перевод текста с одного языка на другой, распознавание речи, распознавание разнообразных видов объектов на изображения, а также управление автомобилем в большинстве обычных ситуаций дорожного движения. Существует также множество менее очевидных задач, выполняемых системами ИИ, в том числе выявление мошеннических транзакций по кредитным картам, оценка заявок на кредит и торги на сложных электронных аукционах. Многие функции поисковой системы на деле выполняются простыми формами ИИ.
Распространенные заблуждения
Такая задача, как, например, игра в шахматы, одинакова что для человека, что для машины. Это неверно; машину приходится «вести за ручку» в гораздо большей степени. Люди учатся шахматам, слушая или читая правила, наблюдая и играя. Типичная шахматная программа лишена такой возможности. Правила непосредственно закладываются в машину в форме алгоритма, который генерирует все разрешенные ходы для заданной позиции. Машина не «знает» правила в том смысле, в каком их знает человек. Однако некоторые недавние работы по обучению с подкреплением представляют собой исключение: так, система DeepMind для игры в видеоигры обучается каждой игре с нуля. В действительности неизвестно, в чем состоит ее обучение, но представляется маловероятным, что она учит правила каждой игры.
Машины выполняют задачи так же, как и человек. Часто мы не знаем, как люди делают те или иные вещи, однако крайне маловероятно, чтобы их действия совпадали с операциями типичной программы ИИ. Например, программы для игры в шахматы учитывают возможные будущие последовательности ходов, начиная с текущей позиции на доске, и сравнивают их последствия, в то время как люди часто опознают возможное преимущество, которое можно получить, а потом ищут ходы, позволяющие его достичь.
Если машина может выполнить задачу Х, то она сможет выполнить все задачи, доступные человеку, который способен решить задачу Х. См. вопрос о машинном IQ. В настоящее время машины не имеют универсального интеллекта в том смысле, что и человек, поэтому их способности часто очень узки.
Как ИИ повлияет на человечество в ближайшем будущем?
Очень вероятно, что в обозримом будущем появятся некоторые крупные новшества. Так, уже активно разрабатывается и тестируется автомобиль с системой автоматического управления. По меньшей мере одна компания обещала первые доставки грузов с их помощью в 2016 г. (Другие компании более осторожны, осознавая выпавшие им трудности.) Благодаря совершенствованию компьютерного зрения и передвижения с помощью ног стало практичным использовать роботов в неструктурированном окружении. К подобным задачам относятся сельское хозяйство, сервисное обслуживание техники, а также помощь людям (особенно престарелым и немощным) в домашних делах. Наконец, машины улучшили свое понимание речи, поэтому поисковые системы и «персональные помощники» на мобильных телефонах перешли от индексации веб-страниц к их пониманию, что привело к качественному улучшению способности таких систем отвечать на вопросы, синтезировать новую информацию, давать советы и сопоставлять факты. Кроме того, ИИ может сильно повлиять на такие области науки, как системная биология, в которых сложность и большой объем информации бросают вызов способностям человека.
Распространенные заблуждения
Приведет ли прогресс ИИ и робототехники к тому, что большинство профессий, в настоящее время выполняемых людьми, перейдет к машинам?
Некоторые исследования, например, выполненное Frey and Osborne (2013), говорят о том, что из-за автоматизации в ближайшем будущем могут пострадать до половины профессий в США; другие авторы, например, Brynjolfsson and McAfee (2011), указывают, что процесс уже начался: медленный возврат к полной занятости после рецессии 2008 г., а также расхождение между повышением продуктивностью и стагнацией заработной платы являются последствиями повышенной автоматизации в профессиях, которые предусматривают рутинные операции. Принимая во внимание, что прогресс ИИ и робототехники продолжается, представляется неизбежным, что большинство профессий будет затронуто. Это не обязательно означает массовую безработицу, но может привести к большому сдвигу в структуре экономики и потребовать новых идей по организации работы и оплате.
Распространенные заблуждения
Что такое дроны, автономное оружие и роботы-убийцы?
Дроны представляют собой летательные аппараты, которыми удаленно управляют люди; некоторые дроны несут оружие (обычно реактивные ракеты), запускаемые оператором. Автономное оружие — это любое устройство, которое автоматические выбирает и поражает (т. е. пытается разрушить) цель. Современные системы включают стационарные самонаводящиеся пулеметы (используются в корейской демилитаризованной зоне) и различные виды корабельных противоракетных комплексов. Быстро повышающаяся техническая возможность заменить человека-оператора дрона на полностью автоматическую систему привела к появлению летальных автономных комплексов вооружения (LAWS), которые стали субъектом дискуссии на Женевской конференции по разоружению. Термин «робот-убийца» описывает класс вооружений, который может включать средства передвижения на колесах или ногах, а также корабли, летательные аппараты и даже искусственных летающих «насекомых».
Распространенные заблуждения
Надо ли бояться роботов-убийц, кидающихся на всех или захватывающих власть во всем мире?
Если автономные вооружения будут развернуты, они столкнутся с теми же трудностями, что и обычные солдаты, которым приходится отличать друга от врага, мирных жителей от боевиков. Возможно, что произойдет тактический несчастный случай с гибелью гражданского населения, либо функционирование робота пострадает из-за радиотехнических помех либо кибератак. В свете последней проблемы некоторые военные эксперты предсказывают, что автономные вооружения будут закрытыми системами без электронной связи; с другой стороны, из-за этого будет труднее перехватить управление у автономного оператора, если система станет вести себя некорректно. В обозримом будущем автономные вооружения, вероятно, будут тактическими и станут выполнять задания ограниченного масштаба. Крайне маловероятно, чтобы их программировали для самостоятельной разработки планов глобального масштаба.
Распространенные заблуждения
Что такое экзистенциальный риск, связанный с ИИ? Он реален?
Ранние предостережения о риске, исходящем от ИИ, были довольно неопределенными. И.Д. Гуд добавил к своему предсказанию пользы от взрывного развития ИИ оговорку «при условии, что машина достаточно покорна, чтобы рассказать нам, как удержать контроль над собой». Есть общее ощущение, что наличие сверхразумных сущностей на нашей планете может быть причиной для тревоги; с другой стороны, более умные машины, как правило, более полезны, поэтому неочевидно, почему создание гораздо более умных машин обязательно принесет зло.
Тем не менее, доказательство очень простое.
И теперь у нас проблема. По сути это все та же старая история о джинне и лампе, об ученике чародея или царе Мидасе: вы получаете в точности то, что просите, а не то, что подразумеваете. В 1960 г. Норберт Винер, пионер теории автоматического управления, писал: «Если мы используем для достижения своих целей механическое средство, в работу которого не можем эффективно вмешаться, лучше быть совершенно уверенным в том, что цель, заложенная в машину, — эта именно та цель, которую мы действительно желаем». Марвин Минский придумал пример, в котором машину просят вычислить столько знаков числа пи, сколько возможно. Ник Бостром дал пример запроса на массу канцелярских скрепок. Человек интерпретирует эти цели, исходя из общечеловеческих целей, которые в частности подразумевают, что покрытие всей Земли компьютерными серверами или канцелярскими скрепками — это плохое решение. Высокоодаренная сущность, принимающая решения, особенно если благодаря Интернету она имеет доступ ко всей мировой информации, миллиардам экранов и большей части нашей инфраструктуры, может бесповоротно изменить человечество. К счастью, сейчас природа проблемы несколько прояснилась, поэтому можно начать работу над ее решениями.
Распространенные заблуждения
Сверхразумные машины спонтанно обретают сознание, или же они по природе своей злы и ненавидят людей. Писатели-фантасты склонны делать одно или оба из этих допущений, чтобы создать антагонизм между машинами и людьми. Такие допущения не нужны и не мотивированы.
Системы ИИ разрабатываем мы, люди, так зачем нам разрушать самих себя? Некоторые защитники ИИ возражают, что поскольку системы ИИ строятся людьми, нет причин предполагать, что когда-нибудь мы построим нечто такое, чьей целью станет уничтожение человечества. Они не ухватывают самой сути, а именно того, что преднамеренный злой замысел со стороны разработчика или агента не является необходимой предпосылкой для существования экзистенциальной угрозы; проблема проистекает из неверного определения целей.
Этого никогда не случится. См. «Когда системы ИИ станут более разумными, чем люди?»
Почему люди ни с того ни с сего стали беспокоиться об ИИ?
Начиная с 2014 г. СМИ регулярно сообщают об опасениях, высказанных такими хорошо известными фигурами, как Стивен Хокинг, Илон Маск, Стив Возняк и Билл Гейтс. В репортажах обычно цитируются наиболее мрачные и эффектные реплики и опускаются стоящие за ними основания, а также суть опасений, которые близки к описанным в разделе «Что такое экзистенциальный риск, связанный с ИИ?» Во многих случаях опасения основываются на чтении книги Ника Бострома «Искусственный интеллект». Другая причина, породившая теперешнюю волну интереса к данной теме, — это тот факт, что прогресс в разработке ИИ ускоряется. Это ускорение, вероятно, обусловлено комбинацией факторов, в том числе постепенно упрочняющимся теоретическим фундаментом, который связывает различные области разработки ИИ в единое целое, и быстрым ростом коммерческих вложений в исследования ИИ, поскольку продукция академических лабораторий достигла того уровня качества, при котором ее можно применять для разрешения проблем в реальном мире.
Распространенные заблуждения
Каким будет прогресс ИИ в ближайшие десятилетия?
Весьма вероятно, что области, в которых не нужен универсальный интеллект человеческого уровня, достигнут зрелости и породят надежные высококачественные продукты уже в следующее десятилетие. В эти области входят распознавание речи, извлечение информации для создания простого фактического материала, визуальное распознавание объектов и поведения, роботизированное обращение с повседневными вещами и автономное вождение. Усилия по улучшению качества и расширению границ для систем понимания текста и видео, а также придание домашним роботам большей надежности и общей полезности приведут к системам, проявляющим здравый смысл, связывающим вместе обучение и действие во всех этих модальностях. Специальные системы для приобретения и организации научных знаний, а также для работы со сложными гипотезами, вероятно, сильно повлияют на молекулярную биологию, системную биологию и медицину. Нам следует начать поиски похожих влияний в социальных науках и формировании политики, особенно учитывая массивный рост машиночитаемых данных о человеческой деятельности и потребность в машинах, которые понимали бы человеческие ценности, если такие машины будут надежными и полезными. Публичные и частные источники знаний (системы, которые знают и делают выводы о реальном мире, а не только хранят данных) станут частью общества.
Что такое «сопоставление ценностей»? Какое оно имеет значение?
Сопоставление ценностей — это задача сопоставления ценностей (целей) машин и людей с тем, чтобы оптимальным выбором машины было, грубо говоря, всё, что делает людей наиболее счастливыми. Без такого сопоставления есть немалый риск, что сверхразумные машины выйдут из-под нашего контроля.
Распространенные заблуждения
Что сообщество, занимающееся ИИ, предпринимает в связи с экзистенциальным риском?
Большинство дискуссий об экзистенциальном риске, исходящем от ИИ, проходило без основной части сообщества, занимающегося ИИ; поначалу это привело к преимущественно негативным реакциям со стороны исследователей в области ИИ. В 2008 г. Американская ассоциация искусственного интеллекта (AAAI) сформировала группу для изучения данной проблемы. В промежуточном отчете группы было отмечено существование некоторых долговременных вопросов, однако приуменьшено значение мнения о том, что ИИ представляет собой риск для человечества. Позднее, в январе 2015 г. в Пуэрто-Рико была проведена конференция, спонсированная Институтом будущего жизни, которая привела к публикации открытого письма, которое подписали присутствовавшие, а затем еще 6000 человек. В письме призывалось сосредоточить особое внимание исследований на данной проблеме, а также предлагался более подробный план исследований. Вскоре Илон Маск основал грант в размере 10 млн долларов на исследования в данной области. Кроме того, Эрик Хорвиц спонсировал долгосрочное исследование, которое, как ожидается, будет отслеживать этот вопрос и, если потребуется, давать рекомендации. пять крупнейших технологических компаний сформировали Партнерство по вопросам ИИ, чтобы решать вопросы как краткосрочной, так и долгосрочной перспективы, касающиеся этики и безопасности ИИ. Наконец, AAAI сформировала постоянный комитет по этическим проблемам ИИ.
Распространенные заблуждения
Чем я могу помочь?
Если вы исследователь, занимающийся ИИ (или экономист, специалист по этике, политолог, футурист или юрист, интересующийся этими вопросами), то для вас есть идеи и темы в программе исследований, берущей начало на конференции 2015 в Пуэрто-Рико. Вероятно, будут проводиться воркшопы, связанные с крупными конференциями по ИИ, осенним и весенним симпозиумами AAAI и т. п. Больше информации можно найти на веб-сайтах FHI, CSER, FLI MIRI и Center for Human-Compatible AI.
Распространенные заблуждения
Область того, что ИИ не может делать, сокращается каждую неделю. Машины уже могут писать красивую прозу и полезный код, сдавать экзамены, создавать красивые произведения искусства, и предсказывать, как свернётся белок.
Эксперты напуганы. Прошлым летом я опросила более 550 исследователей ИИ, и почти половина из них считала, что, будучи созданным, мощной машинный интеллект с шансом не меньше 10% приведёт к «крайне плохим (например, вымирание людей)» последствиям. 30 мая сотни учёных из области ИИ, вместе с генеральными директорами ведущих ИИ-лабораторий, вроде OpenAI, DeepMind и Anthropic, подписали заявление, призывающее к осторожности касательно ИИ: «Снижение риска вымирания из-за ИИ должно быть глобальным приоритетом подобно другим всеобщим рискам, такими как пандемии или ядерная война».
С чего всё это? Простейший аргумент – прогресс в ИИ приведёт к созданию сверхчеловечески-умных искусственных «существ» с целями, конфликтующими с интересами человечества, и способностью автономно их преследовать. Представьте себе вид, который для homo sapiens будет тем же, что homo sapiens для шимпанзе.
Однако, пока многие боятся, что ИИ может привести человечество к гибели, некоторые беспокоятся о том, что если «мы» – обычно имеются в виду исследователи на Западе, или даже исследователи из конкретной лаборатории или компании – не будем нестись вперёд, то это сделает кто-то менее ответственный. Если более безопасная лаборатория приостановится, наше будущее будет в руках более беспечной лаборатории – например, китайской, даже не пытающейся избежать значительных рисков.
Аргумент проводит аналогию между ситуацией с ИИ и классической гонкой вооружений. Скажем, я хочу одолеть вас в войне. И я, и вы тратим деньги на создание всё большего количества оружия, но никто не получает сравнительного преимущества. В конце концов, мы потратили много денег и ничего не получили. Это может показаться безумием, но, если кто-то не будет принимать участие в гонке, эта сторона проиграет. Мы в ловушке.
Но ситуация с ИИ критически отличается. Отметим, что в классической гонке вооружений сторона теоретически может вырваться вперёд и победить. Но в случае ИИ победителем будет сам мощный ИИ. Это может превратить спешку в проигрышный выбор.
Некоторые другие переворачивающие игру факторы в случае ИИ: сколько безопасности можно купить, жертвуя скоростью; насколько вложения одной стороны в безопасности снижают риск для всех; означает ли второе место мелкие потери или полную катастрофу; насколько растёт опасность, если другие стороны тоже разгоняются; и как отвечают остальные игроки.
Настоящая игра сложнее, чем можно описать простыми моделями. В частности, если отдельные нескоординированные стимулы приводят к извращённой ситуации «гонки вооружений», то выигрышный ход, при наличии возможности, это покинуть игру. И в реальном мире мы можем скоординироваться для выхода из такой ловушки: мы можем разговаривать друг с другом; можем давать обязательства и отмечать их соблюдение; можем призывать правительства к регуляциям и соглашениям.
В случае ИИ выгода отдельного игрока может быть не такая же, как у всего общества. Для большинства из нас не особо важно, сможет ли Meta опередить Microsoft. Но исследователи и инвесторы, стремящиеся к славе и богатству могут куда больше об этом беспокоиться. Разговоры о ИИ как о гонке вооружений усиливают нарратив о том, что им надо преследовать свои интересы. Остальным из нас стоит проявить осторожность, и не дать им всё решить.
Лучшая, чем гонка вооружений, аналогия для ИИ – толпа, стоящая на тонком льду, и несметные богатства на дальнем берегу. Все могут достичь их, ступая осторожно, но кто-то думает «Если я побегу, лёд может сломаться, и мы все провалимся, но я уж точно могу бежать осторожнее, чем Боб, а он может решить это сделать».
С ИИ мы можем оказаться в точной противоположности гонки. Лучшее индивидуальное действие – продвигаться медленно и осторожно. А коллективно нам следует не дать никому пожертвовать миром в извращённой гонке к разрушению – особенно, когда пути к скоординированному выходу так слабо исследованы.
За последние шесть лет я и мой супруг организовывали встречи сообщества LessWrong в двух разных городах (если быть точной, в начале мы ещё не были женаты). С течением времени мы стали гораздо ленивее относиться к вопросам организации, однако нам удавалось сохранять встречи такими же удачными, как и раньше — в первую очередь благодаря набору простых рецептов и сценариев для проведения встреч. Я решила собрать их здесь, чтобы и другие люди могли ими воспользоваться.
Если вы воспользовались одним из рецептов и вам понравился результат (или наоборот, очень не понравился), мне очень хотелось бы узнать, как всё прошло. Эта статья станет только лучше, если в неё включать дополнения, основанные на опыте других людей. На Lesswrong я maia.
Это пошаговая инструкция, на основе которой мы организовывали еженедельные встречи. Здесь нет философских рассуждений о том, что из себя представляют эти встречи или что они должны из себя представлять. Также не следует считать, что любой другой обязан организовывать встречи, следуя этой инструкции, — есть множество других способов, которые подойдут другому организатору. В этом документе описано, что делали мы для достижения наших целей. Он пригодится в качестве всеобъемлющей инструкции любому, кто хочет взять наши встречи как отправную точку. Или даже как образец.
Наши верительные грамоты: Когда мы начали организовывать рационалистские встречи в Вашингтоне (округ Коламбия), на них приходило в среднем от нуля до трёх человек. Когда мы оттуда уезжали, на встречи каждую неделю стабильно ходило 7-10 человек. В целом на встречи ходило примерно 20-30 человек, и у нас было небольшое сообщество друзей, которые встречались друг с другом и вне наших встреч. Насколько я знаю, сегодня дела там обстоят примерно так же. Встреч в Сан-Франциско до нашего переезда туда не существовало, сейчас там ситуация примерно такая же. Другими словами, мы считаем, что нашли формулу создания стабильного маленького сообщества. Благодаря нашим встречам мы завели многих друзей.
С другой стороны, нам определённо есть ещё чему поучиться. Чтобы достичь состояния, в котором другие люди начинают помогать с организацией встреч требуется много времени и сил. В случае Сан-Франциско это заняло почти четыре года. И я до сих пор не знаю, как решать проблему с людьми, которые «перерастают» встречи.
Мы в первую очередь сосредотачивались на организации социальных встреч с целью создать сообщество там, где раньше его не было. Наши встречи не были направлены на создание атмосферы «додзё», «прокачку» рационалистских навыков или организацию крупномасштабных работающих проектов. В документе описаны форматы, которые направлены не на социальную составляющую (например, «Совместная работа»), но цели, которые преследовали эти встречи, не относились к нашим основным.
Встречи, о которых идёт речь, — это встречи сообщества LessWrong. Это означает, что они оптимизировались под определённый тип людей/групп людей. А именно: людей с не слишком развитыми социальными навыками, у которых зачастую не было опыта встреч сообщества LW вживую, но которые в целом знакомы с онлайн-сообществом и скорее всего читали какие-то из Цепочек (или даже все). Многое из описанного в этом документе будет работать даже в других условиях, однако я не могу это гарантировать, поскольку не пробовала.
Люди бывают разные, опыт бывает разный, сообщества бывают разные. Пробы и ошибки вам помогут. Здесь описано лишь то, что работало для нас.
Чтобы организовать встречу, нужно немногое:
Рассмотрим каждый из упомянутых пунктов.
Этот документ предназначен именно для того, чтобы помочь вам найти план. Вы можете выбрать один из планов встреч ниже.
План действий неплохо помогает преодолеть неловкость. Он должен быть достаточно чётким, чтобы люди могли начать общение, но не настолько обязывающим, чтобы они чувствовали себя неловко отклоняясь от него.
Если у вас есть идея для встречи, запишите её, проведите такую встречу и оцените, что у вас получилось. Если получилось хорошо, попробуйте использовать эту идею и дальше. Если при повторении ничего не портится, используйте её как можно больше. Все виды встреч, описанные здесь, получились именно так.
Встречи разного вида мы повторяли с разной частотой. Некоторые варианты встреч — например, «Совместная работа» — легко повторять очень часто. Другие — например, «Короткие доклады» — становятся лучше, если интервал между ними достаточно велик, чтобы люди могли найти больше интересных тем, о которых можно рассказать.
Примерно раз в год мы устраивали «Метавстречи». На них мы обсуждали и пересматривали расписание встреч, изменяли отдельные их виды и предлагали новые варианты.
Я составляю расписание встреч на ближайшие шесть месяцев. Выглядит оно примерно так:
Расписание позволяет очень легко объявлять о новой встрече каждую неделю. Чем меньше нагрузка на организаторов, тем больше уверенности, что встреча состоится.
Последнее время мы обычно начинаем запланированную часть встречи примерно через 30-45 минут после заявленного времени начала встречи. Это позволяет дождаться тех, кому сложно прийти вовремя, а также немного разрядить обстановку. Вы можете внести в это правило какие-нибудь поправки, но мне кажется полезным оставить хотя бы несколько минут до начала основной деятельности на «Привет, как тебя зовут? Как поживаешь? Откуда ты узнал о встрече?»
Вы не сможете устроить встречу, если люди на неё не придут. Чтобы люди на пришли на встречу, вы должны им о ней рассказать.
Большинство участников все эти годы узнавали о наших встречах благодаря сайту LessWrong. Я очень рекомендую размещать объявление там.
Возможно, в вашем городе есть какие-нибудь другие группы, связанные с рациональностью, списки рассылки или просто люди, про которых вы знаете, что им это будет интересно. Попробуйте пригласить и их. Людям очень нравится, когда им лично говорят, что вы будете рады их видеть (естественно, так говорить стоит, только если это правда).
Обычно мы размещали объявления в четырёх местах: LessWrong, местный список рассылки LW, Facebook и репозиторий встреч SlateStarCodex.
Чтобы облегчить нам работу, мой супруг написал скрипт на питоне, который принимал на вход название вида встреч (например, «Совместная работа») и затем отправлял соответствующее описание во все четыре места. Вы можете найти этот скрипт на Гитхабе.
Если вы готовы потратить некоторое количество денег, можете попробовать ещё и meetup.com. У людей, которые приходят оттуда, часто другие представления о том, что такое «рациональность», и они окажутся не столь знакомыми с существующим внутренним жаргоном или понятиями. Большинство наших встреч проходили благодаря объявлениям на LessWrong’е и в местных группах, поэтому мне сложно что-либо посоветовать по поводу общения с людьми, которые ничего раньше не слышали о сообществе рационалистов.
Стоит ли опрашивать людей индивидуально, чтобы знать, сколько придёт? Нет. По-моему, не стоит тратить на это время, этот приём не работает.
Иногда можно устроить такой опрос, особенно при планировании особо популярной встречи. Однако, судя по всему, большинству людей нравится иметь возможность принять решение «идти или нет» именно в день встречи. Письмо с просьбой ответить, придёте ли вы, может отпугнуть человека, который в другой ситуации передумал бы в последний момент. Можно, конечно, писать крупными буквами: «ДАЖЕ ЕСЛИ ВЫ НАПИСАЛИ, ЧТО НЕ МОЖЕТЕ ПРИЙТИ, ВСЁ РАВНО ПРИХОДИТЕ, ЕСЛИ СМОЖЕТЕ». Письма с таким вступлением не повредят, но не стоит ожидать от них слишком многого. На посещаемость они, судя по всему, почти не влияют1.
Ещё одна стратегия — это заявить «Я буду в таком-то месте, начиная с XX:YY» и находиться там всё время, чтобы увидеться с теми, кто всё-таки придёт. Таким образом можно встретиться с людьми, даже если они придут очень-очень поздно — что, по нашему опыту, случается. Такая стратегия помогает, если у вас очень мало потенциальных посетителей, или вы начинаете встречи с нуля и не уверены, чего стоит от них ожидать.
Для каждого объявления о встрече мы используем один и тот же формат:
0. Заголовок, где указан тип встречи и дата;
1. Дата/время/место;
2. Текст, описывающий, чему посвящена именно эта встреча;
3. Шаблонный текст, описывающий, что это за встречи вообще.
Ниже приведён шаблонный текст, который мы использовали для встреч в Сан-Франциско:
Формат: Можно подходить, начиная с 18:15. Обычно в начале встречи мы заказываем еду. Основная часть встречи начинается примерно в 18:45-19:00 и продолжается примерно до 21:00.
О встречах: Главная цель встреч LessWrong в Сан-Франциско - создать интересное социальное пространство для структурированных взаимодействий, где новички и старожилы сообщества могут собраться, чтобы с удовольствием пообщаться. Мы рады всем.
Тема встречи лишь инструмент для создания интересного взаимодействия. Мы не хотим, чтобы она кого-то сдерживала. Мы рады, когда люди выходят из основного разговора или отклоняются от темы, если так им становится более интересно (если пространство позволяет, с ушедшими от основной темы обсуждениями лучше отходить в сторону).
Возможно, вы также захотите вставить в начало объявления БОЛЬШИМИ БУКВАМИ или жирным шрифтом важную информацию - например, изменение даты, времени, места или сообщение о том, что нужно сделать участникам (скажем, отметиться, что они хотят участвовать в готовке).
Наконец, очень важно размещать объявление хотя бы за неделю до встречи, чтобы люди могли учесть встречу в своих планах. У нас часто были трудности, когда мы оповещали людей слишком поздно — где-то за один день, — и такие случаи очень сильно коррелировали с низкой посещаемостью.
Это вы! (Я полагаю.)
Примечание. Человек, который занимается проведением встречи не обязан быть тем же человеком, который размещает объявление. Вы можете поделиться частью обязанностей с другом, чтобы на каждого человека падала меньшая нагрузка.
Мой супруг и я долгое время проводили встречи совместно, поэтому один из нас мог подменить другого, если у того были другие дела или он недостаточно хорошо себя чувствовал. Так гораздо легче.
Как человек, проводящий встречу, вы должны объявить тему встречи и рассказать, чем вы сейчас будете заниматься. Например: «Привет всем, мы начинаем. Мы будем заниматься тем-то и тем-то. Сначала мы …»
Пара советов:
Возможно, вам будет неловко руководить группой. Это нормально, и если вам неуютно, вы можете на это намекнуть, сказав что-нибудь вроде: «Ага, кажется, я провожу эту встречу». Но на самом деле это необязательно. Встреча - это не что-то сверхважное. Организация встречи - это не претензия на лидерство, это ваш подарок другим людям. Возможно, вы не самый лучший кандидат, чтобы руководить этой группой людей, но именно вы вызвались проводить встречу, вы стараетесь изо всех сил, и важно именно это.
Организатору стоит заводить разговоры с новичками и помогать им вливаться в группу. У меня не всегда хватает сил, чтобы заниматься этим достаточно активно, но когда у меня получается, это сильно помогает. Обычно я начинаю с вопроса: «Как вы узнали об этой встрече / что подтолкнуло вас сюда прийти?» (Кстати, заодно это помогает понять, как работают ваши объявления.) Часто за этим следуют вопросы вида: «О, вы узнали о LessWrong’е из такого-то блога? Какие темы в этом блоге вас больше всего интересуют?» Или: «Вы были на таком-то мероприятии? Как оно прошло?» Старайтесь поддерживать разговор и задавать открытые вопросы. Не бойтесь рассказывать о себе, если это разумным образом вписывается в разговор.
Вам нужно место, куда все смогут прийти и находиться там в течении всей встречи. Возможно, вам понадобится человек, который сможет это место предоставить. Например, встреча может проходить на чьей-нибудь квартире или на территории организации, где работает один из участников. Совершенно необязательно, чтобы именно предоставивший место проводил встречу.
Желательно, чтобы место встречи было:
Примеры мест встреч, в которых нам было удобно: чей-нибудь дом или квартира, общественное пространство в многоквартирном доме, открытые для общественного посещения места вроде двора Роберта и Арлин Когод в Вашингтоне, офис, в котором хотят принимать встречи, парки в случае хорошей погоды. Также можете попробовать пространства для коворкинга или тихие рестораны или кафе, если там не возражают против шумных групп.
Если вы проводите встречи еженедельно, очень помогает, если встречи проходят каждую неделю в одном и том же месте. Люди привыкают к месту, и им легче планировать, сколько времени им потребуется, чтобы туда добраться. В Сан-Франциско мы какое-то время пробовали менять места встреч, но перестали, после того как многие участники приехали не туда.
Кроме того, неплохо иметь запасной вариант (или даже два) на случай, если привычное место встречи в какой-то день окажется недоступным по тем или иным причинам.
Переходим к основной части: виды встреч и как их проводить.
Некоторые варианты встреч проводить сложнее, или к ним сложнее готовиться, чем к другим. Я выставила оценки для предварительной работы и социальных усилий, требуемых от ведущего.
Предварительная работа: Нет.
Нагрузка на ведущего: Средняя.
Необходимое: Бумага и письменные принадлежности.
Текст объявления
Мы собираемся решать проблемы друг друга! Встреча проходит так: несколько минут мы все молча размышляем над проблемами, затем вслух рассказываем, над какими проблемами мы хотели бы поработать. После этого мы разбиваемся на группы по принципу: какие проблемы лучше обсуждать вместе.
Как проводить
Выдайте каждому бумагу и карандаш.
Заведите таймер на 3 минуты для обдумывания проблем. Расскажите собравшимся примерно следующее:
Вопросы могут варьироваться от мелких и конкретных, например: «Мне трудно приходить на работу вовремя» или «Я хочу заняться социальными танцами» до больших, например: «Я ищу работу и хотел бы получить какие-нибудь подсказки и помощь» или «Я переезжаю и сильно переживаю по этому поводу». Вопросы могут быть и нечёткими, вроде: «Мне кажется, у меня что-то не так с социальными взаимодействиями, и я хотел бы с кем-нибудь это обсудить».
Попытайтесь вспомнить как можно больше своих проблем. Не задумывайтесь о том, хотите ли вы на самом деле обсуждать их на этой встрече. Вы сможете вычеркнуть неподходящие потом. Вам не придётся никому показывать тот перечень, который вы выписали. Кстати, уважайте приватность других участников и не заглядывайте им через плечо.
Когда три минуты истекут, пусть каждый кратко сформулирует 1-3 вопроса, по которым он хотел бы получить помощь. При этом надо объяснить всем, что вполне нормально пропустить свою очередь или назвать только один или два вопроса.
Скажите участникам: «А теперь найдите тех, кому, по-вашему, вы можете помочь с их вопросами».
Часто помогает, когда организатор начинает процесс, говоря что-нибудь вроде: «Эй, X, наверное, я могу помочь тебе с проблемой Y».
Обычно вокруг чьих-нибудь проблем разговор в малой группе начинается совершенно естественно. Через некоторое время он может перетечь в разговор на произвольные темы.
Люди часто меняют тему беседы или переключаются на проблемы другого человека. Если кажется, что собравшиеся стесняются так делать, вы можете периодически им напоминать, что так можно. Обычно мы обходимся без напоминаний. Мы просто показываем пример, меняя тему, когда хотим. В итоге остальные участники встречи понимают основную идею и сейчас «старожилы» встреч меняют тему беседы, когда им вздумается, без какого-либо участия с нашей стороны.
(Спасибо Саре Спайкс за помощь в написании этого рецепта.)
Предварительная работа: Большая (напоминания, покупка продуктов).
Нагрузка на ведущего: От небольшой до средней (люди обычно понимают основную идею довольно быстро, но организовать уборку может быть тяжело).
Такие встречи обычно длятся значительно дольше других, потому что нужно время на то, чтобы приготовить еду, съесть её и убрать за собой. Рассчитывайте на 4 часа. Наши встречи по приготовлению еды обычно начинались в 6:15 и продолжались до 10-11 (теперь мы заканчиваем ближе к 10, потому что научились лучше их координировать).
Необходимое
Текст объявления
Мы собираемся, чтобы готовить еду! Если вы хотите возглавить приготовление какого-то блюда, пожалуйста, запишитесь здесь: [ВСТАВИТЬ ССЫЛКУ НА ГУГЛ-ДОКУМЕНТ].
Мы закупаем продукты заранее, поэтому вам нужно лишь прийти, чтобы приготовить своё блюдо или помочь кому-нибудь с готовкой (и вернуть нам деньги за продукты). Обычно продукты обходятся примерно в 4-9 долларов на человека.
Как проводить
В первую очередь, поговорите с постоянными участниками, интересно ли им. Такая встреча требует достаточной вовлечённости, поэтому о многом лучше договориться заранее.
Иногда люди спрашивают про диетические ограничения. Наша политика на этот счёт: «Если у вас есть диетические ограничения, вы можете попросить кого-то готовить блюдо, которое подойдёт для вас, или готовить самим». Мы не накладываем какие-то общие ограничения на тип еды. У моего супруга есть диетические ограничения, и обычно один из нас готовил что-нибудь, что он может есть. При общем количестве приготовленных блюд этого обычно было вполне достаточно.
За неделю до встречи:
За пару дней до встречи: Разошлите напоминание по обычным каналам. Если ответов мало, подумайте, не стоит ли связаться с какими-то конкретными людьми, про которых вы знаете, что они, скорее всего, захотят возглавить готовку какого-то блюда.
За день до встречи: Купите продукты.
В день встречи:
Предварительная работа: Нет.
Нагрузка на ведущего: Низкая.
Необходимое
Текст объявления
Мы встречаемся, чтобы работать над своими задачами!
Сначала мы садимся вместе и обсуждаем, над чем мы собираемся работать. Затем работаем в течении пары «помодорок». Через какое-то время мы переключаемся на разговоры и социализацию.
Альтернативный вариант от Майкла Кона:
Приходите с работой, которую нужно сделать (это может быть веб-сайт, книга, вязание, бизнес-план, что угодно), и мы будем работать вместе. В начале мы поговорим о том, чем каждый из нас занимается. Вы сможете работать самостоятельно или объединиться с кем-нибудь, если вы захотите научиться у них чему-нибудь или помогать им. Обычно у нас есть одна комната для тихой работы и одна - для разговоров и обсуждений.
Мы работаем в течение нескольких «помодорок» с перерывами, а затем переходим к разговорам на произвольные темы и социализации.
Как проводить
После того, как все соберутся и вы закончите с необходимым, по-вашему, знакомством, скажите: «Давайте перед тем, как мы начнём, обсудим, чем мы будем заниматься. Вы можете пропустить свою очередь, или сказать, что вы не определились, или что вы готовы помогать другим». В идеале лучше начните с себя, чтобы остальные лучше поняли, о чём говорить.
Когда все высказались (или отказались высказываться), если у вас есть два помещения, скажите: «Эта комната для тихой работы, а эта - для громкой. Выберите ту, какая вам лучше подходит». Затем, когда все переместились, куда им надо, скажите: «Мы начинаем» и заведите таймер на 25 минут.
Когда подойдёт время перерыва, объявите, что начался перерыв и заведите разговор с участниками так, как вам удобно. Разговор можно начать, например, спросив, как продвигается работа над задачей. Встреча будет интереснее, если люди действительно будут делать перерывы, а не работать во время них.
Поработайте как минимум две «помодорки» с 10-минутными перерывами. После двух или трёх «помодорок» мы обычно устраиваем быстрое голосование, не хотят ли люди закончить. Обычно после пары перерывов с социализацией люди начинают разговоры о своих задачах.
Предварительная работа: Нет.
Нагрузка на ведущего: Низкая или средняя, если он тоже выступает.
Необходимое
Текст объявления
На этой встрече мы устраиваем и слушаем очень короткие доклады!
Доклады проводятся в формате 7 минут на выступление и 3 минуты на ответы на вопросы. Кроме того, доклады на тему программирования должны составлять не больше половины от общего числа, для разнообразия.
Не обязательно планировать доклад, не обязательно строить его по формальным канонам, он даже не обязан быть на Заслуживающую Доклада Тему. Вы можете просто рассказывать все о чём-то, что вам кажется интересным. В прошлом на наших встречах люди рассказывали, например, какие есть сложности с организацией свежей еды во время авиаперелётов, о своём опыте волонтёрства во время местной политической кампании, о видеоигре, которую они делают, и многом другом.
Мы считаем, что для таких докладов не нужно специально готовиться. Никто не ждёт от вашего доклада чего-то экстраординарного. Если у вас получится не слишком хорошо, всё будет в порядке, потому что мы через несколько минут перейдём к следующему. Если вам это поможет, можете просто представить себе, что во время беседы вы получили возможность высказываться несколько минут, просто это чуть более организовано, чем обычно.
Как проводить
Когда вы готовы переходить к основной части, скажите: «Настало время докладов. Готов ли кто-нибудь рассказать что-нибудь за 7 минут?» Дайте людям время подумать. Не переживайте, если на некоторое время случится неловкая пауза.
Иногда помогает, если организатор начинает первым. Вы можете также спросить: «Я могу рассказать про Х, кому-нибудь это интересно?» или «Я могу рассказать про X или про Y, какой вариант больше нравится?» Если вы знаете, что интересно аудитории, это тоже может помочь. И помните - речь идёт всего лишь о 7 минутах.
Обычно я так не делаю, но может оказаться полезным сказать: «Я подниму палец, когда останется минута до конца», и так и сделать. Иногда люди просят минутное и двухминутное предупреждение.
Заведите таймер на 7 минут. Скажите выступающему начинать, когда он будет готов, и запустите таймер, когда он начнёт говорить. Когда время истечёт, скажите об этом: «А теперь у нас 3 минуты на вопросы». Заведите таймер на 3 минуты. Если ни у кого нет вопросов, или если люди просто хотят, чтобы докладчик говорил дольше, это тоже нормально.
Я стараюсь не зверствовать с таймером, если аудитории интересен доклад. Если собравшиеся увлечённо слушают и задают много вопросов/участвуют в дискуссии, я даю больше времени. Я останавливаю выступающего вовремя, если, судя по всему, никому выступление неинтересно.
Когда вы хотите прервать конкретное выступление, (вежливо) скажите: «Спасибо, [Имя]. Так, кто ещё хочет что-нибудь рассказать?»
(Идея этого формата принадлежит Джиму Бэбкоку. Я утащила формат с его книжных встреч практически без изменений.)
Предварительная работа: Средняя (выбрать тексты, распечатать их). Нужно оповестить всех заранее, чтобы у людей было время прочитать статьи.
Нагрузка на организатора: Средняя.
Необходимое: Распечатанные копии обсуждаемых статей (2-3 экземпляра каждой).
Текст объявления
Это образец, замените упомянутые статьи на свои.
На этой неделе мы встречаемся для обсуждения двух интересных записей из блогов или статей.
Мы будем обсуждать статью Бена Хоффмана «Против ответственности» (http://benjaminrosshoffman.com/against-responsibility/) и статью Цви Моушовица «Верните субботу» (https://www.lesserwrong.com/posts/ZoCitBiBv97WEWpX5/bring-back-the-sabbath) Лучше, если вы прочитаете одну из статей заранее, но мы принесём распечатку для тех, кто не прочтёт.
Как проводить
За неделю до встречи:
Выберите две статьи (можно записи из блогов), которые, по-вашему, будет интересно обсудить. Лучше всего подходят статьи, которые можно прочитать за 10 минут (пара тысяч слов). Это самое сложное. Можно попробовать взять свежие записи с LessWrong’а, Slate Star Codex’а или другого блога, который вам нравится. Подумайте про вашу аудиторию. Если на вашу встречу в основном ходят люди, которые читают LessWrong последние десять лет, свежие записи будут интересны. Если же участники встреч LessWrong не читали, то может быть лучше взять какое-то из старых эссе, а не что-нибудь, для понимания чего нужно разбираться в четырёх вложенных уровнях. Попытайтесь выбрать статьи на достаточно разные темы, чтобы увеличить вероятность, что каждому участнику хотя бы одна из них покажется интересной.
Объявите о встрече по вашим обычным каналам со ссылками на статьи.
В день встречи:
Распечатайте и принесите несколько копий каждой статьи.
Предложите группе разделиться на две: каждая подгруппа обсуждает одну статью. Наличие дополнительной комнаты для бесед будет плюсом.
Наводящие вопросы: Что для вас было интересно в этой статье? (Или если статья кажется неинтересной, то почему?) С чем вы здесь не согласны? Что вы думаете про статью в целом?
Поддерживайте равное участие в беседе - спрашивайте малоговорящих людей, что они думают. Можно попробовать общее объявление, вроде: «Пытайтесь обращать внимание, как много вы говорите, и старайтесь давать людям вокруг вас столько же времени».
Обычно помогает, если организатор переключается между обеими группами, чтобы проверить, как идёт разговор, и помогает модерации. Если обсуждение не клеится, попробуйте воспользоваться наводящими вопросами.
Предварительная работа: Небольшая (выбрать вопросы).
Нагрузка на ведущего: От небольшой до средней.
Необходимое
Текст объявления
(спасибо Майклу Кону за обновлённый текст)
Как проходят «Глубокие вопросы»: Мы разбиваемся на пары. Ведущий зачитывает интересный открытый вопрос. Сначала один из вас 6 минут рассказывает свой ответ партнёру, потом вы меняетесь. После этого вы садитесь в пару к кому-то другому и отвечаете на следующий вопрос.
Примеры вопросов:
Примечание: Вопросы - глубокие (хотя это может быть спорным), но ваши ответы глубокими быть не обязаны. Никто не ждёт, что участники будут делиться чем-то большим, чем им комфортно.
Как проводить
Перед встречей: Определиться с разумным списком вопросов. Вот мой документ с некоторыми ресурсами, идеями для вопросов и с заметками, насколько успешны были те или иные вопросы на предыдущих встречах.
На встрече:
Когда вы готовы начать встречу, скажите: «Пора перейти к глубоким вопросам».
Разбейте всех на пары. Мой любимый способ следующий. Посчитайте количество людей в группе. Разделите это число на два, и пройдите по комнате считая до этого числа. Например, если в комнате 10 людей, считайте их «1-2-3-4-5, 1-2-3-4-5». Люди с одинаковыми номерами оказываются в одной паре. Если количество людей — нечётное, вы можете остаться без пары или попросить последнего человека присоединиться к какой-нибудь паре.
Заведите таймер на 6 минут. Скажите всем: «Вопрос: [ВОПРОС]. Выберите, кто из вас будет первым, у вас есть шесть минут на ответ». Когда время истечёт, заведите таймер заново, и скажите всем поменяться.
Когда время снова истечёт, у вас есть возможность опросить всех, насколько удачным был вопрос. Мне нравится метод «уровень руки». Скажите: «Покажите рукой, насколько вам понравился этот вопрос?» Поднимите руку над головой и скажите: «Рука на такой высоте означает, что вам он очень понравился», затем опустите руку как можно ниже: «Рука на такой высоте означает, что он вам очень сильно не понравился». Затем посмотрите и попытайтесь оценить общее ощущение. Вы можете также попросить дать обратную связь словами, но не тратьте на это больше минуты.
После опроса скажите всем: «Выберите, кто из вас будет пересаживаться, и пусть он перейдёт к следующему человеку по часовой стрелке». При следующей смене можете сказать: «Кто из вас пересаживался в прошлый раз, пересаживайтесь дальше».
Повторите примерно четыре или пять раз (это займёт около часа). Дальше вы можете попросить поднять руки, чтобы показать, хочет ли группа продолжать дальше.
Предварительная работа: Нет.
Нагрузка на организатора: От небольшой до средней.
Необходимое: Нет.
Текст объявления
Мы устраиваем сеансы быстрого общения. Вам даётся 5 минут на разговор с кем-нибудь, затем партнёры меняются. Мы даём пару идей, о чём можно начать разговаривать, но они не слишком развёрнутые. Цель - познакомиться с множеством других участников встреч.
Как проводить
Формат позаимствован из игр сообщества, популяризирующего «искренние отношения»2.
Разбейте всех на пары. Указания о том, как разбивать на пары и менять партнёров можно найти в разделе «Глубокие вопросы» выше.
Объясните всем следующее:
Выберите, кто будет задавать вопросы, а кто отвечать на них. Задача спрашивающего в том, чтобы как можно быстрее задавать любые случайные вопросы, какие только приходят в голову. Задача отвечающего — отвечать на вопросы максимально подробно.
Например, спрашивающий может спросить: «У тебя клёвая рубашка, где ты её достал?» Отвечающий может ответить: «Я купил её в секонд-хенде, когда учился в колледже. Магазин был недалеко от квартиры, которую я снимал с одним знакомым - неприятным типом, кстати. Мне нужна была рубашка, потому что мне надоело носить старые вещи, оставшиеся ещё со школьных времён…» и так далее, и тому подобное.
Заведите таймер на 5 минут. Скажите: «Выберите, кто будет задавать вопросы, а кто отвечать. Когда пройдёт 5 минут, вы поменяетесь». Через 5 минут, скажите: «Поменяйтесь ролями». Ещё через 5 минут скажите участникам пересаживаться.
Предварительная работа: Небольшая (распечатать подсказки).
Нагрузка на ведущего: Средняя.
Необходимое: Распечатанный список подсказок.
Текст объявления
На встрече мы будем рассказывать друг другу истории! Лучше всего, если это будет история из вашей жизни (не важно, о чём именно), которую вы хотели бы рассказать другим. У нас есть лист подсказок, которые помогут начать.
Как проводить
По ссылке вы можете найти лист подсказок, который можно давать участникам: Истории - Подсказки. Я рекомендую распечатать один или два экземпляра и принести на встречу. Не стесняйтесь добавлять свои варианты и удалять те, которые вам не нравятся.
Начните встречу словами: «Ну что ж, настало время историй. У кого-нибудь есть история, которую он хотел бы рассказать?» Если никто не вызывается, передайте по кругу подсказки или начните рассказывать что-нибудь сами.
Не придерживайтесь какого-то формата слишком строго. Если история плавно перетекает в разговор, пусть он продлится какое-то время, перед тем спрашивать, есть ли ещё у кого-нибудь история.
Предварительная работа: по-разному, от небольшой до средней (принести настольные игры, подготовить тексты песен).
Нагрузка на ведущего: Небольшая.
Необходимое
Текст объявления
Некоторые люди не любят настольные игры, а опрос на последней мета-встрече показал, что большинство таких людей любят петь хором. Поэтому эта встреча посвящена и тому, и другому!
У нас есть множество игр, однако не стесняйтесь приносить свои.
Мы также принесём тексты некоторых песен, чтобы петь их вместе. Если у вас есть какие-то любимые песни и вы думаете, что другие их могут знать, не стесняйтесь приносить их тексты с собой (на встрече вы также можете дать ссылку). Музыкальные инструменты тоже могут пригодиться, но только при условии, что вы умеете на них играть какие-то конкретные песни, которые можно петь вместе.
Как проводить
Это смешанная встреча. Если хотите, вы вполне можете ограничиться лишь одним из двух вариантов.
Для настольных игр
Когда прибудут несколько человек, поговорите с ними о том, в какие игры они хотели бы играть. Часто полезно подождать с особо затягивающими играми, пока не придут большинство участников, в этом случае у опоздавших будет возможность присоединиться. Пока вы ждёте, хороши игры вроде Сета или Зендо, к которым присоединиться легко.
Даже если вы сами начали играть до того, как все пришли, по возможности постарайтесь поприветствовать людей, рассказать им, какие игры есть в наличии и помочь им найти игру, которая им понравится.
Для пения
Предостережение. Насколько хорошо пройдёт такой формат во многом зависит от участников. Если им нравится петь хором, это может быть очень забавно, однако может быть довольно сложно заразить интересом того, у кого нет соответствующего настроя. Организатору нужно брать на себя какое-то количество инициативы. В моём случае это требовало довольно много социальной энергии.
Принесите тексты песен, которые вам нравятся. По моему опыту, все знают Still Alive. Могут неплохо зайти другие нердовские песни, а также популярные песни вроде творчества Beatles.
Во время встречи вам достаточно сделать так, чтобы тексты песен были доступны всем и просто начинать петь, в надежде, что другие люди присоединяться. Не бойтесь, что у вас не получится. Если вам нравится песня и вы можете её петь, вы вполне можете сподвигнуть кого-то её выучить, даже если они не знают её, чтобы присоединиться к вам в этот раз. (Я таким образом однажды на встрече выучила Skullcrusher Mountain!)
Чтобы люди активнее присоединялись, может помочь наличие укулеле или гитары. Впрочем, тут не все так просто. Лично мне обычно хочется исполнять на публике те песни, которые я играю довольно уверенно. Во время практики вполне нормально делать паузы на несколько секунд, чтобы взять аккорд правильно, но другим людям при этом будет тяжело следовать за вами.
Метавстреча
Предварительная работа: Средняя (имеет смысл подготовить хорошие вопросы).
Нагрузка на ведущего: Довольно высокая.
Необходимое: У организатора должна быть возможность делать заметки о том, что говорится на встрече.
Текст объявления
Прошло уже довольно много времени с тех пор, как мы обсуждали вопросы вроде: Для чего нужны эти встречи? Что мы получаем от них и что мы хотим от них получать? Как мы могли бы сделать их лучше? Какие новые форматы встреч мы могли бы попробовать?
Эта встреча частично будет посвящена сбору обратной связи, частично - мозговому штурму и частично - составлению конкретных планов на будущее. (И, как обычно, я ожидаю, что и какое-то количество обычных разговоров тоже будет.)
Как проводить
Перед встречей: Подумайте о том, какую обратную связь вам хотелось бы получить от участников. В каких форматах встреч вы сомневаетесь? Что, с вашей точки зрения, работает хорошо, а что как-то не очень? О чём вы беспокоитесь? На основе этих размышлений подготовьте несколько вопросов для участников.
На встрече
Задайте каждому участнику пару вопросов об их впечатлениях. Ниже приведены возможные вопросы.
Запишите ответы. Особо обращайте внимание на то, что упоминают многие.
Я предпочитаю опрашивать каждого участника по отдельности, потому что это позволяет убедиться, что услышаны все, даже те, кто высказывается очень тихо.
На нашей первой метавстрече в Сан-Франциско мы сфокусировались на социальных аспектах встреч и на том, как помочь людям знакомиться. На основе обратной связи мы начали проводить встречи «Глубокие/Поверхностные вопросы», которые пользовались успехом.
Предварительная работа: Довольно большая.
Нагрузка на ведущего: От средней до высокой (нужно активно координировать дискуссию).
Необходимое: Бумага и письменные принадлежности.
Текст объявления
Как и в предыдущие годы мы встречаемся, чтобы обсудить, как для нас прошёл этот год. В качестве отправной точки мы возьмём эту запись на LessWrong, а затем перейдём к дискуссии.
Как проводить
Мы пробовали несколько разных способов проводить встречу «обзор года» и пока не пришли к какому-то итоговому варианту. Поэтому здесь всё может ещё несколько поменяться.
Один из способов, который мы пробовали: спросите, как бы вы описали предпочтения человека, который провёл бы прошлый год так, как его провели вы. Такой формат может быть интересен некоторым людям, однако это может быть несколько снисходительно или даже грубо по отношению к «прошлому себе», и когда мы проводили встречу в таком формате второй раз, это некоторым не понравилось.
Также можно пойти по вопросам в записи на LW по ссылке выше. Это мы попробовали в прошлом году. Кажется, многим такой способ помог. Однако у нас не было чёткого плана встречи. Отсутствие организации сбивает с толку.
Я бы порекомендовала (и сама попробую в следующем году) следующее. Выберите какое-то разумное количество вопросов - так, чтобы на них можно было ответить минут за тридцать. Пусть каждый участник напишет свои ответы на бумаге. После истечения какого-то разумного количества времени или когда все закончат, переходите к обсуждению. Учтите, что некоторые из вопросов очень личные и важно не заставлять людей делиться большим, чем они готовы.
Некоторые возможные отправные точки для дискуссии:
Спасибо Майклу Кону за подробную обратную связь по поводу этой статьи.
Спасибо Саре Спайкс за то, что она сподвигла меня всё это написать.
Спасибо всем нашим участникам, людям, которые предоставляли нам помещения, и друзьям. Ради вас всё это и затевалось.
И спасибо моему супругу за то, что эти встречи продолжались неделю за неделей и год за годом.
Этот текст исходно был опубликован 14 июля 2018 года.
Дополнение от 4 августа 2018. Хотя со времени публикации прошло лишь несколько недель, стоит кое о чём написать.
Суть консеквенциализма — в оценке всех действий по их последствиям. Консеквенциалистские взгляды на этику считаются «радикальными», а некоторые философы и вовсе придерживаются мнения, что консеквенциализм неприемлем и опасен. В этой статье вы увидите, что практические последствия консеквенциалистского образа мыслей, деонтологии, «основанной на законах», и этики добродетели («этики, основанной на чертах характера») во многих отношениях схожи. После основательного рассмотрения становится очевидно, что консеквенциализм, наивно интерпретированный, несет в себе плохой посыл. Претензии к консеквенциализму есть не только у его критиков, но и у сторонников. Далее мы посмотрим, в чём может состоять ошибочность и опасность наивной интерпретации консеквенциалистского способа мышления.
(Замечание: далее под консеквенциалистами подразумеваются люди, жизненный приоритет которых – сделать мир как можно лучшим местом для других. Стоит также отметить, что следующие примеры опираются на ряд консеквенциалистских идей, которыми пользуются агенты. Они хотят по возможности рационально достичь некоторой цели, не стремясь при этом всегда соблюдать «правила, обещания и т. п.». Так, в приведенных здесь примерах речь идет об общих следствиях из теории принятия рациональных решений 1.)
Сейчас мы ознакомимся с двумя примерами, в которых наивно-консеквенциалистский способ поиска решений ведет к очевидно худшему конечному результату, чем лучшая из имеющихся альтернатив.
(адаптированный пример Дерека Парфита)
Один консеквенциалист застрял посреди пустыни, потому что его машина сломалась, и теперь умирает от жажды. К счастью, мимо проезжает какой-то автомобиль. Водитель останавливается и предлагает консеквенциалисту подвезти его до отеля, но не хочет помогать бесплатно и требует 100 евро за услугу. Так как у консеквенциалиста нет с собой денег, водитель просит его пообещать заплатить по прибытии в отель. Консеквенциалист знает, что как только выберется отсюда, ему незачем будет платить водителю. Услуга будет уже оказана, а 100 евро принесут большую пользу, если пожертвовать их на благотворительность, чем если отдать водителю. Поэтому консеквенциалист притворяется кооперативным и соглашается на сделку. Но оказывается, что лгун из него плохой. Так как консеквенциалист сам не верит в обещанное, а водитель разбирается в людях очень хорошо, заверения кажутся ему неправдоподобными. В эту минуту водитель замечает на сломанной машине наклейку, на которой написано: «Консеквенциализм — правильные поступки создают лучший мир». На это водитель восклицает: «Ага! Так ты консеквенциалист? Ты же точно не сдержишь обещание, когда вернёшься в город. Извини, но раз я за это ничего не получу, то как рациональный эгоист поеду-ка один. Удачи!»
Вот что интересно в этом примере: консеквенциализм — наивный — пошел агенту во вред. Кажется, что-то здесь не так. Если цель — вести себя так, чтобы мир становился как можно лучшим местом, то стоит по возможности избегать ситуаций, в которых вы умираете от жажды. Особенно когда это легко разрешить, заплатив 100 евро в будущем. Умереть от жажды явно того не стоит, особенно если единственная причина этого в том, что вы посчитаете себя «нерациональным» из-за выполненного в будущем обещания. Что вообще значит «нерационально»? Когда мы говорим о рациональности, то имеем в виду выигрывание, достижение своих целей. Очевидно, в такой ситуации консеквенциалист «выиграет», только если действительно убедит себя выполнить обещание или, иными словами, если сможет нажать на необратимую «кнопку» в своем мозгу, которая заставит его выполнить обещание в то время, когда (на наивно-консеквенциалистский взгляд) это было бы уже не нужно. Тогда он как плохой лжец спокойно скажет правду. Однако же проблема в том, что наивный консеквенциалист, следуя своему образу мыслей, обязательно постарается только сымитировать нажатие кнопки. И раз другие рациональные агенты об этом знают, они будут избегать когда-либо кооперироваться с наивными консеквенциалистами.
Кроме того, консеквенциалист проигрывает еще и потому, что водитель явно думает, что вообще все консеквенциалисты никогда не выполняют обещаний, если только это (наивно) не максимизирует их полезность. Ужас! Если действительно правда, что они все проигрывают, когда не сдерживают обещаний, то почему бы всем консеквенциалистам, стремящимся к лучшему состоянию мира, не изменить свои интуиции и процесс принятия решений так, чтобы всегда сдерживать обещания? В конце концов речь идёт (как ни странно, в консеквенциализме больше, чем где-либо ещё) о «выигрывании», а не о соблюдении какого-то устава «правильного» поведения. «Выполняй обещания, только когда это максимизирует полезность» — очень плохое правило, от которого мир в целом будет скорее терять, чем выигрывать.
Предположим, кроме аполитичных людей, которые никогда не ходят на выборы, есть ещё два типа жителей: сознательные избиратели и избиратели-консеквенциалисты. Первые всегда ходят на выборы, а вторые голосуют только тогда, когда это выгодно по матожиданию, — иначе говоря, когда вероятность изменения результата одним единственным голосом (очень малая), помноженная на значимость результата, окажет достаточно значительный позитивный эффект. (Эффект должен быть значительнее, чем то, на что консеквенциалист потратил бы время вместо этого.) Допустим, опросы показывают, что около 65% населения выберут А, а большинство консеквенциалистов — В. Тогда может получиться, что избиратель-консеквенциалист не пойдёт голосовать, так как всем ясно, что один единственный голос против большой доли сознательных избирателей (среди которых большинство, к сожалению, поддерживает А) обладает ничтожно малой вероятностью повлиять на результат выборов.
Интересный вопрос: когда избиратели-консеквенциалисты не участвуют в выборах, действуют ли они рационально? Способствует ли это достижению их целей?
Не обязательно! Рассчитывая ожидаемый эффект от заполнения бюллетеня в таких обстоятельствах наивно-консеквенциалистски, вы придёте к неверным выводам: недооцените общий процент голосов консеквенциалистов, которые они вместе бы отдали, если бы в основном придерживались одной и той же стратегии. Теперь предположим, что консеквенциалисты составляют большую часть населения. В таком случае желаемый результат выборов практически гарантирован, если консеквенциалисты будут действовать как сознательные избиратели. Тогда участие в выборах явно стоит их времени (потому что политические решения обычно затрагивают множество областей общественной жизни и поэтому значимо влияют на мир).
Кажется, задаваться вопросом об ожидаемой полезности действий — консеквенциалистски неверный способ приступать к принятию решения. Если исходить из того, что другие люди из одних и тех же посылок приходят к одним и тем же рассуждениям (и следовательно, должны сделать одни и те же выводы), «предпочтительный выбор для группы» будет отличаться от индивидуального выбора2. Да, напрямую человек решает только за себя, не совещаясь с другими консеквенциалистами. Но если исходить из предположения, что остальные рассуждают о том же, преследуют сходные цели и как рационалисты должны прийти к одному выводу, то человек принимает лучшее решение, когда он как бы разрабатывает стратегию для группы консеквенциалистов.
Описанные выше ситуации объединяет то, что основополагающий консеквенциалистский принцип «действуй так, чтобы полезность была максимальной», видимо, дает осечку. Проблема в слишком узком определении «деятельности» — в нём учитываются только прямые последствия наших поступков, но не логическая связь нашего процесса принятия решений с процессом принятия решений других рациональных агентов. Не учитывается и то, что другие рациональные агенты могут предсказать наши решения и отказаться кооперироваться, потому что мы не из тех, кто всегда сдерживает обещания.
«Ненаивное» определение «деятельности» должно быть максимально широким и всеобъемлющим. Оно должно содержать всё, что есть в нашем репертуаре. В некоторой степени за «деятельность» можно считать тот момент в примере с выборами, когда мы решаем, рассматривать ли вопрос с «личной-консеквенциалистской» или «групповой консеквенциалистской» точки зрения. Размышление, хотим ли мы всегда выполнять обещания или нет, — также «деятельность». Если принцип «действуй так, чтобы полезность была максимальной» понимать достаточно широко, он будет содержать в том числе и то, что человеку необходимо стараться быть на самом деле достойным доверия. Сюда подходят не только физические действия, производимые человеком, но и то, как он думает и решает, какие социальные интуиции, эвристики и эмоции в себе поощряет. Отсюда вытекает что-то вроде глобального консеквенциализма, в котором мы хотим оптимизировать систему поведения рационального агента так, чтобы получать максимально выгодные результаты. Он включает в себя в том числе и размышления о принципах принятия решений, личных интуициях и чертах характера, которые с консеквенциалистской точки зрения наиболее выигрышны3.
Полная вера в обещания действительно работает только в определённых случаях (например, если у оппонента идеальный детектор лжи), когда мы можем убедительно обосновать, что всегда выполняем обещания. Для этого придётся принять «сдерживание обещаний» в качестве абсолютного правила и включить в представление о самом себе. В этом отношении верно интерпретированный консеквенциализм очень похож на деонтологию или этику добродетели.
Конечно, вышеизложенные размышления относятся к вопросу, должен ли человек самостоятельно стремиться к следованию законам и социальным нормам. Как, скажем, в примере с выборами общественные потери были бы недооценены, если бы все консеквенциалисты вдруг решили всегда нарушать правила, полагая, что это максимизирует ожидаемую полезность. Из-за того, что ещё один человек станет преступником (или не будет выкидывает мусор в положенное место, или станет постоянно грубить окружающим, или перестанет оставлять чаевые), вряд ли в мире что-то изменится настолько сильно, что совокупные издержки общества заметно увеличатся. Но если на этом самом основании все (или почти все) консеквенциалисты, которые хотят максимально эффективно улучшать мир, систематически решают нарушать правила — получается хаос, куда худший, чем сумма преимуществ от соответствующих нарушений в каждом единичном случае. Это проявляется тем сильнее, чем больше консеквенциалистов в обществе. И не в последнюю очередь стоит отметить, что консеквенциалисты с разными нормативными или эмпирическими целями будут становиться друг другу поперек дороги, если не усвоят очень важную эвристику кооперации и уважения. Отсюда мы снова можем сделать вывод, что наивная интерпретация непродуктивна и опасна, так как может разрушить всё хорошее, что совершают консеквенциалисты.
Кроме того, в ситуации, подобной примеру с водителем в пустыне, репутация консеквенциалистов сильно пострадает, если они чаще среднего будут нарушать законы и нормы поведения. Это особенно значимо, если в обществе пока мало консеквенциалистов, — тем важнее для роста их численности оставлять положительное впечатление от отдельных представителей движения.
В конце концов нам стоит признать, что люди склонны преувеличивать способность к оценке характера и последствий своих действий, особенно когда могут добиться так преимуществ для себя. (Консеквенциалисты хотя и имеют альтруистические цели, отнюдь не «бескорыстны» в том смысле, что склонны искать личную выгоду). Если бы все консеквенциалисты начали нарушать законы и даже совершать тяжкие преступления, чтобы максимизировать полезность, то это привело бы к зачастую неверным решениям и беспорядочному насилию, ведь мы оцениваем далеко не так объективно и беспристрастно, как нам хочется думать. Чтобы избежать «лавины», критерий «допустимости» преступления должен быть гораздо более строгим: «исходя из лучших побуждений, я уверен, что таким образом сокращу общее число ущемлённых интересов». Категорический запрет, кажется, единственное, что может противостоять силе рационализации, присущей человеческому мышлению.
Многие люди думают, что практически в каждой ситуации консеквенциалисты должны использовать принцип максимизации полезности. Это неверно. Основополагающий принцип консеквенциализма не предписывает: «Всегда думай о том, что максимизирует ожидаемую полезность, и реализуй это!». Нет, он только говорит, что людям стоило бы делать то, что в общем и целом максимизирует ожидаемую полезность. И иногда (часто) бывает лучше не пускаться в дальнейшие рассуждения о принципе максимизации полезности, а придерживаться простых правил и эвристик.
Специально обдумывать, какие действия прямо сейчас были бы наиболее эффективны, может оказаться нерационально. Эти размышления довольно трудоёмки. Было бы слишком утомительно в повседневной жизни постоянно держать принцип максимизации полезности в уме. Поэтому «правильному» консеквенциалисту имеет смысл привить себе некоторые эвристики, когда вполне допустимый и даже хороший вариант — расслабиться и отдохнуть без всяких угрызений совести.
Согласно рациональной, «ненаивной» интерпретации консеквенциализма, нужно оптимизировать не только физически ощутимую «деятельность» по максимизации ожидаемой полезности, но и связанные с принятием решений эвристики. Надо обдумать, какие эвристики в каких ситуациях всем консеквенциалистам в целом стоит использовать, и получившуюся систему применять для себя.
Отсюда следует, что консеквенциалисты (по сравнению с наивным восприятием) должны последовательно выполнять обещания и придавать большее значение участию в выборах, разделению мусора, этичному потреблению и в целом решениям группового масштаба, а также гораздо реже нарушать законы и социальные нормы. Иначе, в случае наивного консеквенциализма, многие агенты гарантированно сами загонят себя в нежелательное равновесие «предавать-предавать» в дилемме заключенного. Такого исхода, безусловно, стоит избегать, если вы стремитесь к как можно лучшему состоянию мира.
Вышеизложенные соображения показывают, что «антагонисты» — кантианство и консеквенциализм — гораздо ближе друг к другу, чем это предполагается в традиционном толковании. Эффективный Альтруизм не тождественен консеквенциализму, но многие эффективные альтруисты считают себя консеквенциалистами, и поэтому важно, чтобы они не интерпретировали его наивно. В противном случае всё движение ЭА будет страдать. Кроме того, было бы выгодно, если бы консеквенциализм потерял свою — отчасти незаслуженно — плохую репутацию. Это возможно осуществить, распространяя изложенную здесь интерпретацию, которая указывает на опасности наивного консеквенциализма и устраняет их.
Представьте, что на подлёте обнаружен большой астероид, и мы узнаём, что половина астрономов считает, что шанс, что он вызовет вымирание людей, также, как похожий астероид уничтожил динозавров около 66 миллионов лет назад, не меньше 10%. Учитывая, что у нас есть длинная история размышлений об этой угрозе и о том, что в таком случае делать, от научных конференций до голливудских блокбастеров, можно ожидать, что человечество живо начнёт работать над миссией отклонения, чтобы направить астероид в более безопасном направлении.
К сожалению, мне сейчас кажется, что мы проживаем фильм «Не смотри вверх» для другой экзистенциальной угрозы – несогласованного суперинтеллекта. Возможно, вскоре нам придётся делить планету с более интеллектуальными «разумами», менее заботящимися от нас, чем мы заботились о мамонтах. Недавний опрос показал, что половина исследователей ИИ оценивает шанс, что ИИ вызовет вымирание людей, как не меньше 10%. Учитывая, что у нас есть длинная история размышлений об этой угрозе и о том, что в таком случае делать, от научных конференций до голливудских блокбастеров, можно ожидать, что человечество живо начнёт работать над миссией направления ИИ в более безопасном направлении, чем вышедший из-под контроля суперинтеллект. Подумайте ещё: вместо этого самые влиятельные ответы – это комбинация отрицания, высмеивания и смирения, такая чёрнокомедийная, что заслуживает Оскара.
Когда «Не смотри вверх» вышел в конце 2021, он стал популярен на Нетфликсе (второй по просмотрам фильм за всё время). Он стал ещё популярнее среди моих коллег-учёных, многие из которых восхваляли его как свой любимый фильм, предлагающий катарсическую комедийную разрядку за годы сдерживаемого раздражения от игнорирования их беспокойств и предложений. В нём показано, как, хоть у учёных есть рабочий план, как отклонить астероид до того, как он уничтожит человечество, у этого плана не получается конкурировать за внимание медиа с слухами о знаменитостях, и обойти лоббистов, политическую выгоду и «астероидоотрицание». Хоть фильм и задумывался как сатира на недостаточную реакцию человечества на изменение климата, к сожалению, пародия на реакцию человечества на развитие ИИ из него получается ещё лучше. Ниже – мои комментарии к самым частым реакциям людей на эту проблему:
«Нет никакого астероида»
Многие компании работают над созданием СИИ (сильного искусственного интеллекта), определяемого как «ИИ, который может обучиться исполнять большинство интеллектуальных задач, посильных для людей, включая разработку ИИ.» Ниже мы обсудим, почему это может быстро привести к суперинтеллекту, определяемому как «обобщённый интеллект, сильно превосходящий человеческий уровень».
Мне часто говорят, что СИИ и суперинтеллект не появятся, потому что они невозможны: человеческий интеллект – это что-то таинственное, что может существовать только в мозге. Такой углеродный шовинизм игнорирует центральное озарение, стоящее за ИИ-революцией – что интеллект состоит в обработке информации, и неважно, делают это атому углерода в мозге или атомы кремния в компьютере. ИИ неустанно одолевал людей в одной задаче за другой, и я предлагаю углеродным шовинистам перестать сдвигать ворота и публично предсказать, какую задачу ИИ никогда не будет в состоянии выполнить.
«Он ещё долго до нас не долетит»
Как известно, в 2016 Эндрю Ын язвително высказался, что «беспокоиться об ИИ сейчас – это всё равно, что ьеспокоиться о перенаселении на Марсе». До недавних пор около половины исследователей ожидали, что до СИИ ещё как минимум десятилетия. Крёстный отец ИИ Джеффри Хинтон сказал CBS, что «Совсем недавно я полагал, что до обобщённого ИИ ещё что-то вроде от 20 до 50 лет. А сейчас я думаю, что это может быть 20 лет или меньше» и что возможно это даже 5 лет. Он не одинок: недавняя статья от Microsoft утверждает, что GPT-4 уже демонстрирует «отсветы» СИИ, а такой же как и Хинтон первопроходец глубинного обучения Йошуа Бенгио заявляет, что GPT-4 по сути проходит Тест Тьюринга, который когда-то рассматривали как тест на СИИ. И время от СИИ до суперинтеллекта может быть не очень большим – согласно авторитетному рынку предсказаний это, вероятно, меньше года. Суперинтеллект – не «проблема далёкого будущего»: он ближе, например, изменений климата и планов большинства людей на пенсию.
«Упоминание астероида отвлекает от более насущных проблем»
До суперинтеллекта и угрозы вымирания человечества у ИИ может быть много заслуживающих беспокойства побочных эффектов, от предвзятости и дискриминации до утери приватности, массовой слежки, исчезновения рабочих мест, растущего неравенства, кибератак, распространения летального автономного оружия, «взлома» людей, обессиливания людей и потери смысла, непрозрачности, проблем с ментальным здоровьем (от травли, привыкания к социальным медиа, социальной изоляции, обесчеловечивания социальных взаимодействий) и угроз демократии (от поляризации, дезинформации и концентрации власти). Я поддерживаю обращение на них большего внимания. Но заявлять, что следовательно мы не должны говорить об экзистенциальной угрозе суперинтеллекта, потому что она отвлекает от этих проблем – всё равно, что заявлять, что нам не следует говорить о буквальном летящем на нас астероиде, потому что он отвлекает от изменений климата. Если несогласованный суперинтеллект приведёт к вымиранию человечества в ближайшие десятилетия, все остальные риски перестанут иметь значение.
«Астероид остановится, прежде чем врезаться в нас»
Большинство людей, всерьёз относящихся к СИИ, кажется, настолько напуганы и/или возбуждены по его поводу, что говорят только о тех других рисках, а слона – суперинтеллект – не примечают. Большинство медиа, политиков и исследователей ИИ едва ли упоминают его, как будто техническое развитие каким-то образом придёт в стагнацию на уровне СИИ на долгое время. Как будто они забыли простой контраргумент Ирвинга Дж. Гуда, потому что он слишком давно высказан:
«Давайте определим ультраинтеллектуальную машины [то, что мы сейчас называем СИИ] как машину, которая может превзойти интеллектуальную деятельность любого, даже самого умного человека. Так как проектирование таких машин – один из видов интеллектуальной деятельности, ультраинтеллектуальная машина сможет спроектировать машины ещё лучше; это несомненно приведёт к «интеллектуальному взрыву» и интеллект человека останется далеко позади…»
В основной идее рекурсивного самоулучшения нет, конечно, ничего нового: использование сегодняшних технологий, чтобы создать технологии следующего года, объясняет многие примеры экспоненциального развития технологий, включая Закон Мура. Новое тут то, что прогресс к СИИ позволяет оставлять в процессе всё меньше людей, в итоге – нисколько. Это может очень сильно сократить временные масштабы последовательных удвоений, от типичных человеческих уходящих на исследования и разработку лет, до машинных недель или часов. Окончательный предел такого экспоненциального роста устанавливает не человеческая изобретательность, а законы физики, ограничивающие то, сколько вычислений может совершать материя, значением примерно в квадриллион квинтиллионов раз большим, чем лучшие сегодняшние результаты.
«Астероид практически остановится»
Примечательно, что отрицание суперинтеллекта распространено не только среди не-технарского народа, но и среди экспертов, работающих над ИИ и безопасностью ИИ.
Циник может свести это к замечанию Эптона Синклера о том, что «Сложно заставить человека что-то понять, когда его зарплата зависит от того, что он этого не понимает». Хоть, к сожалению, это правда, что большинство исследователей ИИ (включая исследователей безопасности и этики) получают финансирование от Big Tech, будь то напрямую или косвенно, через гранты от некоммерческих организаций, спонсируемых технарскими филантропами, я думаю, что есть и более невинные объяснения их отрицательства суперинтеллекта, такие, как хорошо изученные когнитивные искажения. Для нас сложно предсказать не линейные, а экспоненциальные изменения. Сложно бояться того, чего мы никогда не испытывали, например, радикального изменения климата или ядерной зимы.
Из-за искажения доступности сложно посмотреть дальше непосредственной угрозы и увидеть большую, но и более далёкую. К примеру, я часто слышу аргумент, что большие языковые модели (LLM) вряд ли смогут быстро рекурсивно самоулучшиться (интересный пример тут). Но упомянутый выше аргумент И. Дж. Гуда об интеллектуальном взрыве не предполагает, что архитектура ИИ по ходу самоулучшения останется неизменной! Когда люди достигли обобщённого интеллекта, мы заполучили свой экспоненциальный рост способностей к обработке информации, не выращивая себе мозги побольше, а изобретая книгопечатание, университеты, компьютеры и технические компании. Аналогично, хоть сейчас всё на себе тащат нейросети и LLM, наивно предполагать, что быстрейший путь от СИИ до суперинтеллекта – просто обучение ещё больших LLM на ещё большем количестве данных. Очевидно, есть куда более умные архитектуры ИИ, ведь мозг Эйнштейна превосходил GPT-4 в области физики, несмотря на куда меньшее количество данных и всего 12 Ватт мощности.
Когда задача изобретения архитектур получше будет возложена на СИИ, прогресс в ИИ будет совершаться куда быстрее, чем сейчас, без необходимости участия людей, и интеллектуальный взрыв И. Дж. Гуда можно будет считать начавшимся. И при наличии возможности кто-нибудь даст СИИ эту задачу, точно также, как GPT-4 уже дали задачу создать самоулучшающийся ИИ с разными целями, включая уничтожение человечества.
«С нами всё будет в порядке, даже если астероид прилетит»
Если суперинтеллект приведёт к вымиранию человечества, то скорее всего не от того, что он стал злым или самоосознающим, а потому что он стал компетентным, а его цели были несогласованы с нашими. Мы, люди, довели до вымирания западноафриканских чёрных носорогов не потому, что были носорогоненавистниками, а потому, что были умнее них и обладали другими целями касательно использования их среды обитания и рогов. Точно так же, суперинтеллект с почти любой открытой целью будет хотеть сохранять себя и накапливать ресурсы для лучшего достижения этой цели. Может, он удалит кислород из атмосферы, чтобы снизить коррозию металлов. Куда вероятнее, наше вымирание будет банальным побочным эффектом, который мы сможем предсказать не лучше, чем носороги (или другие из 83% диких млекопитающих, которых мы убили) могли предсказать, что с ними покончит.
Некоторые аргументы про «всё будет в порядке» откровенно комичны. Если на вас летит управляемая ИИ ракета с тепловым наведением, утешит ли вас, если кто-нибудь скажет вам, что «У ИИ не может быть сознания» и «У ИИ не может быть целей»? Если бы вы были орангутангом в вырубаемом тропическом лесу, вас бы успокоило, что более разумные формы жизни автоматически добрее и эмпатичнее? Или что они – просто инструмент, который вы можете контролировать? Следует ли нам действительно считать это технологическим «прогрессом», если мы теряем контроль над своей судьбой, подобно коровам на фабричной ферме или обездоленным орангутангам?
Я – часть растущего сообщества безопасности ИИ, которое усердно работает над выяснением того, как сделать суперинтеллект согласованным ещё до его появления, чтобы его цели были согласованы с процветанием людей, или мы были как-то его контролировать. Пока что у нас не получилось разработать план, на который можно положиться, а мощь ИИ растёт быстрее, чем регуляции, стратегии и озарения по его согласованию. Нам надо больше времени.
«Мы уже предприняли все необходимые предосторожности»
Если вы просуммируете общепринятую мудрость по поводу того, как избежать интеллектуального взрыва в «Список-чего-не-делать» с мощным ИИ, он может начинаться примерно так:
☐ Не учите его программировать: это облегчает рекурсивное самоулучшение
☐ Не соединяйте его с интернетом: позволяйте ему выучить только необходимый для помощи нам минимум, но не как манипулировать нами или заполучать власть
☐ Не прикрепляйте к нему общедоступный API: предотвратите его использование злонамеренными людьми прямо из кода
☐ Не начинайте гонку вооружений: это стимулирует всех приоритизировать скорость в сравнении с безопасностью
Нарушив все эти правила, индустрия коллективно показала, что неспособна на саморегуляцию. Я верю, что намерения лидеров СИИ-компаний самые благие, и многих из них стоит похвалить за публичное выражение озабоченности. Сэм Альтман из OpenAI недавно описал худший сценарий как «нам всем конец», а Демис Хассабис из DeepMind сказал «Я бы призвал не нестись, ломая всё на пути». Однако, упомянутая гонка затрудняет для них сопротивление коммерческим и геополитическим давлениям, сподвигающим мчаться вперёд, и никто из них не согласился на недавно предложенную шестимесячную паузу обучения моделей больших GPT-3. Ни один игрок не может остановиться один.
Леонардо Ди Каприо на Южном Вокзале Бостона после съёмок «Не смотри вверх», 01.12.2020.
Дэвид Л. Райан, The Boston Globe
«Не отклоняйте астероид, он ценный»
(Да, это тоже происходит в «Не смотри вверх»!) Хоть половина исследователей ИИ даёт ему не менее чем десятипроцентный шанс вызвать вымирание человечества, многие противостоят попыткам предотвратить появление суперинтеллекта, заявляя, что он может принести нам много ценного – если не уничтожит нас. Даже до суперинтеллекта, ИИ, конечно же, может принести огромные богатства и власть отдельным людям, компаниям и государствам.
Это правда, что супеинтеллект может оказаться очень полезным, если он согласован.
Всё, что я люблю в цивилизации – продукт человеческого интеллекта, так что суперинтеллект может решить болезни и бедность и помочь человечеству процветать как никогда прежде, не только до следующих выборов, но миллиарды лет, и не только на Земле, но и по всему прекрасному космосу. И. Дж. Гуд кратко высказал это так: «Следовательно, ультраинтеллектуальная машина – последнее изобретение, которое людям когда-либо потребуется совершить, при условии, что машина достаточно смирна, чтобы рассказать нам, как держать её под контролем. Странно, что это так редко упоминают за пределами научной фантастики. Иногда стоит воспринимать её всерьёз.»
Предназначение предложенной паузы – дать возможность установить планы и стандарты безопасности, чтобы человечество могло выиграть гонку между растущей мощью технологии и мудростью, с которой мы технологией управляем. Из всех, что я встречал, громче всего звучащее возражение против паузы – это «Но Китай!». Как будто шестимесячная пауза перевернёт исход геополитической гонки. Как будто потеря контроля в пользу китайских разумов страшнее, чем потеря контроля в пользу цифровых разумов, которых не заботят люди. Как будто гонка к суперинтеллекту – гонка вооружений, которую могут выиграть «мы» или «они», когда на самом деле это скорее всего суицидальная гонка, где единственный победитель – «оно».
Ключевая причина того, что мы так мало слышим о риске суперинтеллекта (в сравнении с угрозой безработицы, предвзятости, и т.д.) – это нежелание о нём говорить. Для технических компаний логично бояться регуляций, а для исследователей ИИ – снижения финансирования. К примеру, звёздный состав нынешних и прошлых президентов крупнейших организаций из области ИИ недавно опубликовал заявление, одобряющее работу над длинным списком рисков ИИ, в котором суперинтеллект подозрительно не упоминается. Мейнстримные медиа, с редкими исключениями, тоже не примечают слона. Это печально, потому что первый шаг к отклонению астероида – начать широкое обсуждение того, что лучше всего по его поводу делать.
Хоть каждый и имеет право придерживаться своих мизантропических взглядов, это не даёт права обрекать на погибель всех остальных.
Хоть научная фантастика и наполнена осознающими себя человекоподобными ИИ, разделяющими человеческие ценности, сейчас уже ясно, что пространство возможных инопланетных разумов куда больше. Так что, если мы влетим в интеллектуальный взрыв вместо того, чтобы аккуратно направлять развитие, скорее всего, получившийся суперинтеллект не только заменит нас, но и будет лишён всего, хоть как-то напоминающего человеческие сознание, сочувствие и мораль – будет чем-то, что мы скорее посчитали бы нестановимой чумой, а не достойными наследниками.
Нет лучшей гарантии провала, чем не пытаться. Хоть человечество и несётся к обрыву, мы пока до него не дошли, и ещё есть время затормозить, сменить курс и избежать падения – и вместо него насладиться всеми выгодами безопасного и согласованного ИИ. Для этого надо согласиться, что обрыв существует, и что падать с него не выгодно никому. Просто посмотрите вверх!
Среда, 20 августа, 2014
Краткое содержание: я предполагаю, что в поле рациональных навыков есть важные секреты, которые еще предстоит открыть. Они очень простые, но их освоение занимает много времени.
Я думала о том, что такое вообще рациональные навыки, и как они развиваются. Под «рациональными навыками» я имею в виду способы мыслить и чувствовать, которые помогают систематически увеличивать точность убеждений и воплощать свои ценности.
Та категоризация, которая интересует меня больше всего, основывается на том, каким образом можно осваивать эти навыки. Я попробовала представить схему приобретения рациональных навыков. Она выглядела примерно так.
Навыки из левого столбца осваиваются быстрее; навыки из правого столбца требуют и времени на изучение, и циклических повторений, и длинного списка последовательно приобретенных навыков. При том что навыки «сложные» и «требующие много времени на изучение» могут пересекаться, я не думаю, что это одно и то же.
У ребенка может занять много времени освоение математической операции «деление». Ему потребуется понять сложение, чтобы изучить вычитание и умножение, а потом умножение, чтобы выучить деление. И последняя операция, дающая правильный ответ, который зависит от умножения и вычитания (и деления, если нужна эффективность). Все вместе может занять довольно много времени.
Но если вы однажды уже освоили все кусочки базовой арифметики, последнее действие становится совсем легким. Более того, если у вас перед глазами есть подробная инструкция, это можно даже сделать правильно с первого раза. Сами кусочки достаточно просты, настолько, что достаточно исполнять алгоритм, даже без глубокого понимания. Это может быть сложно и долго, особенно если вы никогда раньше не видели арифметики, но наибольший логический шаг лежит в равной степени между сложением и умножением или между умножение и делением. Такие скачки может выполнить любой школьник. Ни одна составная часть не настолько сложна, чтобы её нельзя было осмыслить.
Но посмотрите на простейшие задачи из элементарной алгебры. Вдобавок к арифметическим операциям вам потребуется еще два кусочка: «делать одно и то же по обе стороны от знака равно», и «переменные». «Делать одно и то же по обе стороны от знака равно» даже проще, чем «деление в столбик».
Но «переменная» - нечто совершенно другое. Она требует совсем другой идеи. А это в свою очередь требует абстракции, которая не только непривычна, но и отстоит на несколько понятийных расстояний. Может быть, это даже самое большое понятийное расстояние, которое нужно преодолеть ребенку в традиционном математическом образовании, чтобы перейти к алгебре и тригонометрии. Это несложная идея, но невозможно «понять переменную наполовину». Либо ты понимаешь, либо нет, и если понимаешь, то элементарная алгебра внезапно становится осмысленной. «Переменная» - это, возможно, прозрение. И это довольно сложное прозрение, которое, как утверждает Джо Бойлер, большая часть взрослых так и не получили.
Я думаю, что Цепочки LessWrong по большей части подходят для получения таких прозрений. Это во многом не дающие никакой новой информации прозрения, которые иначе выстраивают сознание заново и готовят его к будущим прозрениям. Но это все равно прозрения. Это навыки, которые сложно приобрести, которые можно получить только разом, в данном случае, после чтения записей в блоге. Это по большей части штуки вида «понимание Х», или «осознания, что Y». И большинство возможных уроков в Цепочках - достаточно сложные, если только не случилось так, что у вас уже подходящая структура сознания. Отчасти поэтому большинство людей не меняют мнение сразу после первого поста. Поэтому Цепочки Lesswrong находятся в основном в левом верхнем углу схемы.
Воркшопы CFAR -а занимают целиком левую часть схемы. Большая часть всего, чему учат на их занятиях находится слева внизу–легко и быстро–потому что занятия длятся только 50 минут, и они скорее практические, чем теоретические. Вместо того, чтобы час читать вам лекцию, как будто зачитывая вслух посты из какой-нибудь Цепочки, они делают что-то вроде «Вот вам удивительно полезная техника. Давайте сделаем».
Например, CFAR учит технике «Триггеры если-то», которая известна в литературе по когнтивистике как «намерения по исполнению» . Она помогает для вещей, требующих много усилий, даже сильнее, чем дворец памяти, так как масштабы эффекта похожие, и очень большие, но «триггеры если-то» можно применять в любых ситуациях, которые вообще можно разложить на отдельные триггеры и отдельные действия. И все что нужно - научиться составлять достаточно конкретные «если-то» выражения, например: «Если я слышу будильник утром, я вскочу с кровати сразу». Еще CFAR обучает другим трюкам, вроде Murphey Jitsu, Факторизации Целей, Focused Grit, и Againstness. (Не переживайте, я сейчас укажу исключения для всех этих штук).
Остальной опыт обучения по программе CFAR , социализация вне занятий, обычно вызывает хотя бы одно озарение. Участники могут общаться с инструкторами и другими участниками, и, так как там находятся специально отобранные умные, сообразительные во многих смыслах люди, всегда кто-нибудь говорит «Ой, я никогда не думал об этом!»
CFAR дает один урок, который находится в нижнем правом углу схемы: Расширение Зоны Комфорта (Comfort Zone Expansion, или CoZE). CoZE в основном взято из экспозиционной терапии. Экспозиционная терапия может занять много времени. Хотя вы сразу можете заметить прогресс, вы обычно не избавляетесь от глубокого страха или тревоги за один раз. Требуется повторяющаяся экспозиция с постепенным увеличением интенсивности.
Но экспозиционная терапия довольно проста! Пугающая, но не слишком, и не сложная. Принципы простые, техника выполнения очевидная, и ничего больше. Потребуется только время. Поэтому CFAR отводит больше времени для CoZE, чем для других заданий. Есть стандартные 50 минут на подготовку к CoZE, и есть целые вечера для упражнений CoZE вне занятий, где все по несколько часов ищут многократного соприкосновения с пугающими вещами. CoZE - черепаший навык. «Медленный и упорный выигрывает гонку». Навык целиком зависит от небольших систематических усилий.
Некоторые другие техники CFAR могут быть на схеме к оси Х, но я не думаю, что есть другие, которые обязательно требуют многоразового повторения для установки.
Есть в программе CFAR один набор навыков, который, как я думаю, находится на схеме в правом верхнем квадрате: Байесовский вывод. Это не простое прозрение, и, если вам нужна версия, которая работает в реальной жизни, это не исправление распространенной ошибки. Когда я последний раз смотрела (в июне 2014), урок про Байесовский вывод не очень подходил под стандарты уроков по устранению типичных ошибок или CoZE, и я думаю, сейчас я по большей части понимаю, почему.
Байесовский вывод зависит от некоторых довольно запутанных привычек мышления. Это такие навыки, которые не только сложно освоить, но для которых еще требуется долго обрабатывать, много раз повторять, устанавливать много связей. Требуется несколько прозрений, несколько исправлений типичных ошибок, установка множества привычек, длинный и сложный процесс сбора этого всего в целостный паттерн Байесианства в мыслях и чувствах. Двухчасовые классы просто не тот формат, чтобы все это успеть.
[CFAR предлагает шесть недель личного сопровождения для каждого участника, так что есть возможность установки медленных навыков, помимо основного времени воркшопа. Но там все очень индивидуально, больше похоже на консультирование, чем на обычное преподавание, и эти консультации сложно оценить так же как Цепочки или стандартные уроки CFAR, поэтому я не буду подробно на этом останавливаться.]
Магию вроде Байесовского вывода определенно можно освоить. Я думаю, почти все, если не все такие навыки, приобретаются в результате освоения компонентов из трех других квадратов и их переплетения в течение некоторого времени.
Если и есть рациональные навыки, которые требуют тупо медленного и сложного обучения, я про такие не знаю. Я подозреваю, что большинство нереально крутых эпистемических навыков - это такая магия. И пока даже объединенные CFAR и Цепочки редко приводят людей к ней.
Я выучила несколько сложных вещей. Я научилась доказывать теоремы нестандартной математики, которые отвергают мою базовую логическую интуицию. Я научилась интерпретировать старую причудливую абстрактную Индийскую философию. Я научилась вестить в блюзе, как никто другой. И я не могу представить ни одного навыка, который бы я приобрела так просто, и который при этом не раскладывался бы на простые исправления типичных ошибок, необходимость их обмозговать и кучу небольших систематических усилий.
Может быть я неправа, и большинство навыков Волшебника требуют медленного и сложного освоения. В конце концов, это бы объясняло, почему я до сих пор не на уровне Бейсудзукай. Должно быть что-то, что умеют Анна Саламон и Элиезер Юдковски, а я нет; может, это как раз оно.
Но, что определенно есть у Анны и Элиезера, чего нет у меня? Практики. Многих и многих лет практики. Я услышала слово «рационалист» вне рамок философии Декарта всего два года назад. Может быть поэтому, несмотря на то что большинство моих прозрений из материалов Lesswrong я уже получила, и большую часть типичных ошибок из курса CFAR я уже исправила, есть еще какой-то третий класс легко изучаемых навыков, которые мне еще нужно освоить, чтобы собрать их все воедино и стать намного сильнее, как рационалист.
Если это правда, то это очень хорошие новости! Это значит, что я могу посмотреть на навыки Волшебника, которые мне нужны, и разбить их на озарения и простые шаги, которые я уже умею, и могу спросить себя, «Какая часть этой мозаики может потребовать небольших последовательных усилий?» И я могу прийти к полезному ответу!
За исключением одного, все навыки, которые я получила напрямую от Элиезера, пока жила с ним весь прошлый год, подтверждают это гипотезу. (Он дал мне одно внезапно крутое озарение, которое было «ошибайся больше».) Все остальные приблизительно следовали такому паттерну.
Он подчеркивал важность чего-то, что я уже понимала, одновременно абстрактно в теории и конкретно на практике.
Я решала практиковать ПОСТОЯННУЮ БДИТЕЛЬНОСТЬ, как защиту от единственного режима провала, который связан с недостатком навыка.
Я замечала ошибку несколько раз в течение нескольких дней или недель, пока не научалась предсказывать, когда я ошибусь в следующих раз.
Я практиковала ПОСТОЯННУЮ БДИТЕЛЬНОСТЬ до тех пор, пока я не научалась ощущать, что ошибка вот-вот случится.
Я пробовала несколько способов реагировать на чувство, что ошибка вот-вот собирается, чтобы узнать как может ощущаться решение проблемы.
Я обдумывала результаты некоторое время.
Часто я рассказывала свои наблюдения Элиезеру, для получения обратной связи.
Я составляла (обычно даже не на бумаге) план «триггер-действие» с триггером «Я заметила, что я испытываю чувство, что ошибка вот-вот случится, если я ничего не сделаю», и с действием, которое, как я ожидаю, предотвратит ошибку.
Я практиковала этот кусочек «триггер-действия», пока он не начинал ощущаться как привычный.
Я создавала своё понимание проблемы, и ее включение в мою практику.
Представьте мастер-рационалистку, которая сделала упражнение по такой же схеме, только для какого-нибудь магического навыка, предварительно разбив его на навыки из трех других квадратов. И представим, что она хочет научить меня этому навыку. Она может сказать, что нужно будет понять, надеясь спровоцировать появление нужных быстрых но сложных озарений. Она может дать мне несколько простых способов исправить типичные ошибки, если быстрые и простые решение являются частью этого навыка. Потом для каждого простого, но медленного компонента, она может серьёзно увеличить мою скорость обучения, снабдив меня, или по другому помогая мне обнаружить, следующую информацию.
Как ощущается обнаружение самой ошибки, или как понять, на что это ощущение похоже.
Как ощущается обнаружение, что ошибка вот-вот произойдет, или на что это ощущение может быть похоже.
Что делать, когда я обнаружила это ощущение, или несколько вариантов того, что стоит попробовать.
Собрание таких советов для медленных навыков, особенно, если они представлены в виде, который способствует систематическим проверкам и небольшим усилиям по улучшению, будет новым видом рационального ресурса.
Это, однако, не будет беспрецедентным в других областях. Даже не собирая информацию, я могу вспомнить книги приблизительно об этом для йоги, практик осознанности, написания текстов, и физики. Я думаю, нам нужна своя такая книга, про искусство рациональности.
Мой отец эмигрировал из Колумбии в Северную Америку, когда ему было 18 лет, в поисках лучшей жизни. Для нас с братом это означало, что мы часто стояли на улице на холоде. Мой отец любил облагораживать дом, и мы “добровольно” помогали ему в ремонте зданий, которыми мы владели.
Вот так я и провёл значительную часть своего подросткового возраста, заменяя заборы, копая траншеи, сооружая полы и навесы. И если есть что-то, чему я научился за все это время, так это то, что реальность обладает удивительным количеством деталей.
Оказывается, это объясняет, почему люди так легко оказываются в интеллектуальном тупике. Даже если они буквально лучшие в мире в своей области.
Подумайте о том, чтобы соорудить лестницу для подвала. Лестница на первый взгляд кажется довольно простой, и на высоком уровне она действительно проста: всего лишь две длинные широкие параллельные доски (2 ” x 12” x 16“), несколько досок для ступенек и угловые скобы с каждой стороны для поддержки. Но когда вы действительно начнёте строить, вы обнаружите удивительное количество нюансов.
Первое, что вы заметите, - это то, что на самом деле существует довольно много подзадач. Даже на высоком уровне вам необходимо обрезать оба конца планок 2x12 под правильными углами; затем прикрутить несколько u-образных кронштейнов к основному полу, чтобы удерживать лестницу на месте; затем вкрутить 2x12 в u-образные кронштейны; затем прикрепить угловые кронштейны для лестницы; затем прикрутить на лестнице.
Первое, что вы заметите, — это то, что на самом деле есть довольно много подзадач. Даже на высоком уровне вам нужно обрезать оба конца досок 2x12 под правильными углами; затем прикрутить U-образные скобы к фундаменту, чтобы зафиксировать лестницу; затем прикрепить доски 2x12 к U-образным скобам, затем прикрепить угловые скобы для лестницы; прикрепить саму лестницу.
Далее вы заметите, что каждый из описанных выше этапов содержит несколько этапов, некоторые из которых содержат некоторые сложные детали, связанные со свойствами материалов и поставленной задачей, а также с ограничениями вас и вашими инструментами.
Первая проблема, с которой вы столкнётесь, заключается в том, что обрезать ваши 2х12см под прямым углом немного сложно, поскольку нет очевидного способа отследить правильные углы. Вы можете либо проявить творческий подход (есть один способ), либо взять свой учебник по тригонометрии и понять, как рассчитать угол и положение разрезов.
Возможно, вам также захочется узнать, какие углы являются приемлемыми для лестниц. То, что выглядит приемлемым при обрезке, и то, что кажется безопасным, может отличаться. Кроме того, вам, вероятно, захочется прикрепить направляющую для вашей циркулярной пилы, когда вы будете резать угол 2x12, потому что разрез должен быть достаточно прямым.
Вскоре после этого, вы обнаруживаете, что расположить лестничные доски под одним и тем же углом нетривиально. Вам понадобится что-то, что позволит вам устанавливать постоянный угол наклона к основной доске. После того, как вы это сделаете и проведете необходимые линии, вы можете быть встревожены, обнаружив, что ваша на вид ровная доска на самом деле не такая уж и прямая. Древесина деформируются после изготовления, потому что её распиливали, когда она была свежей и влажной, а теперь она высохла, поэтому идеально ровных досок не бывает.
Как только вы вернетесь в магазин пиломатериалов, купите более прямые доски 2х12 и перерисуете свои линии, вы можете начинать вкручивать скобки. Теперь вы узнаёте, что, несмотря на то, что угловые скобы изначально были выровнены по нарисованным вами линиям, после их ввинчивания они стали не совсем прямыми, потому что винты вошли не совсем прямо, и теперь они плотно фиксируют скобу под неправильным углом. Это можно исправить, предварительно просверлив направляющие отверстия. Также вам придётся сдвинуть их примерно на 3 см, потому что практически невозможно вставить винт в то же отверстие иначе, чем в первый раз.
Теперь вы, наконец, готовы вкручивать лестничные доски. Если длина ваших шурупов превышает 5 см, вам понадобятся другие шурупы, иначе они будут торчать из верхней части доски и вонзаться вам в ногу.
На каждом этапе и на каждом уровне присутствует множество деталей, которые имеют существенные последствия.
Возникает соблазн подумать: «Ну и что?» - и отбросить эти детали как второстепенные или характерные для столярных работ на лестницах. И они характерны для столярных работ на лестницах; именно это и делает их деталями. Но удивительно большое количество значимых деталей не относится только к лестницам. Удивительные детали - это почти универсальное свойство знакомства с реальностью.
Вы можете увидеть это повсюду, если присмотритесь. Например, у вас, вероятно, был опыт, когда вы делали что-то впервые, например, выращивали овощи или впервые использовали пакет Haskell, и вы были разочарованы тем, как много было досадных ошибок. Потом у вас появилось больше практики, и вы сказали себе: «Чувак, все было так просто с самого начала, я не знаю, почему у меня было столько проблем». Мы сталкиваемся с фундаментальным свойством Вселенной и ошибочно принимаем его за личную неудачу.
Если вы программист, вы можете подумать, что сложность программирования - это его особенность, но на самом деле все сложно, но вы замечаете эту сложность только тогда, когда вы новичок, а в программировании вы чаще всего делаете что-то новое.
Вы можете подумать, что сложная детализация вещей ограничена гуманитарными областями, и что физика сама по себе проста и изящна. В некотором смысле это правда – сами физические законы, как правило, довольно просты, но проявление этих законов часто бывает сложным и контринтуитивными.
II. Варка в Закрытой кастрюле
Рассмотрим процесс кипячения воды. Это просто, вода закипает при температуре 100 °C, не так ли?
Что ж, лестница тоже показалась простой, так что давайте проверим ещё раз.
Поставьте себя на место человека начала 1800-х годов, у которого был только примитивный ртутный термометр без маркировки, и который пытался разобраться в физике температуры.
Подойдите к плите, налейте немного воды в кастрюлю, начните нагревать воду и следите за тем, как она нагревается.
(Я предлагаю действительно сделать это)
Первое, что вы, вероятно, заметите, - это множество мелких пузырьков, собирающихся на поверхности кастрюли. Это кипение? Вода ещё не настолько горячая, что в неё можно даже засунуть палец. Тогда пузырьки будут появляться быстрее и начнут подниматься, но они почему-то кажутся «не кипящими». Затем вы начнёте замечать небольшие пузырьковые бури в виде пятен и услышите шипящий звук. Это кипение? Что-то вроде того? На самом деле это не похоже на кипение. Пузырьковые бури становятся все больше и начинают выпускать ещё большие пузыри. В конце концов пузырьки становятся большими, и поверхность воды становится бурлящей, когда пузырьки начинают подниматься на поверхность. Наконец-то мы, кажется, достигли настоящего кипения. Я полагаю, это и есть точка кипения? Это кажется немного странным, что же происходило раньше, если не кипение.
Что ещё хуже, если бы вы использовали стеклянную кастрюлю вместо металлической, вода закипела бы при более высокой температуре. Если вы очистите стеклянный сосуд серной кислотой, чтобы удалить все остатки, вы обнаружите, что можете значительно сильнее нагреть воду, прежде чем она закипит, а когда она закипит, то закипит небольшими всплесками кипения, и температура будет неустойчиво колебаться.
Что ещё хуже, если вы поместите каплю воды между двумя другими жидкостями и нагреете её, вы можете поднять температуру как минимум до 300 °C, но ничего не произойдёт. Это как бы высмеивает утверждение «вода закипает при температуре 100°C’.
Оказывается, «варка» намного сложнее, чем вы думали.
Это удивительное количество деталей не ограничивается гуманитарными/сложными областями, это почти универсальное свойство всего, от космических путешествий до шитья и вашего ощущения сознания.
iii. Невидимая vs Прозрачная Деталь И Интеллектуальное Застревание
Опять же, вы можете подумать: «Ну и что? Я предполагаю, что все сложно, но я могу просто замечать детали по мере того, как сталкиваюсь с ними; не нужно специально думать об этом’. И если вы делаете относительно простые вещи, которые человечество делает уже давно, это часто бывает правдой. Но если вы пытаетесь делать сложные вещи, о которых не известно, возможны ли они, это неправда.
Чем сложнее ваша миссия, тем больше в ней будет деталей, понимание которых имеет критическое значение для успеха.
Вы можете надеяться, что эти неожиданные детали не имеют отношения к вашей задаче, но это не так. Некоторые из них в конечном итоге окажутся ключевыми. Из-за склонности дерева к деформации гораздо точнее проследить разрез, чем рассчитать его длину и угол наклона. Возможность перегрева жидкостей означает, что при кипячении жидкостей в промышленных процессах важно использовать насадочный слой, чтобы ваш процесс не был крайне неэффективным и непредсказуемым. Огромная разница в весе между ракетой, заправленной топливом, и пустой ракетой означает, что ракета многоразового использования не сможет зависнуть, если она не сможет снизить ускорение до очень малой доли своей первоначальной тяги, что, в свою очередь, означает, что она должна очень точно планировать свою траекторию, чтобы достичь нулевой скорости именно в тот момент, когда она достигнет поверхности.
Вы могли бы также надеяться, что важные детали будут очевидны, когда вы столкнётесь с ними, но это не так. Такие детали не видны автоматически, даже когда вы непосредственно сталкиваетесь с ними. Вместо этого все может казаться беспорядочным и шумным. ‘Спиртовые’ термометры, изготовленные на основе бренди и других ликёров, были широко распространены на заре термометрии. Они даже рассматривались как потенциальная стандартная жидкость для термометров. Только после тщательной работы швейцарского физика Жана-Андре Де Люка в 18 веке физики поняли, что спиртовые термометры в высшей степени нелинейны и сильно зависят от концентрации, которую, в свою очередь, трудно измерить.
Вероятно, у вас также был опыт, когда вы пытались что-то сделать и все больше разочаровывались из-за того, что это не срабатывало, а затем, наконец, через некоторое время вы понимали, что ваш метод решения проблемы не мог сработать.
Ещё один способ убедиться в том, что заметить нужные детали непросто, заключается в том, что разные люди в конечном итоге замечают разные детали. Однажды мы с братом и моим отцом соорудили лестницу для гаража и столкнулись с проблемой определения того, где обрезать длинные доски, чтобы они лежали под правильным углом. После недолгих попыток решить проблему (и я действительно имею в виду попытки, доска длинной 5 метров- это тяжело), мы начали спорить. Я вспомнил, что на уроках тригонометрии мы могли бы вычислить угол наклона, поэтому я хотел откопать свой учебник и подумать об этом. Мой отец сказал: ‘Нет, нет, нет, давай просто попробуем», настаивая на том, что мы могли бы придумать, как это сделать.
Я продолжал спорить, потому что считал себя правым. Я был очень зол на него, а он был зол на меня. Оглядываясь назад, я думаю, что увидел фундаментальную трудность в том, что мы делали, и я не думаю, что он оценил это (посмотрите на картинку с лестницей и посмотрите, сможете ли вы это понять), он просто услышал «давайте нарисуем несколько диаграмм и вычислим угол» и не подумал, что это было то, что нужно, и если бы он оценил то, что я увидел, я думаю, он был бы более открыт для рисования каких-нибудь диаграмм. Но в то же время он понимал, что диаграммы и математика не учитывают форму дерева, что мне не понравилось. Если бы мы смогли донести эти моменты до всех, мы могли бы прийти к консенсусу. Нарисовать схему, вероятно, было хорошей идеей, но вычислить угол, вероятно, нет. Вместо этого мы продолжали злиться друг на друга в течение следующих 3 часов.
До того, как вы заметите важные детали, они, конечно, в основном незаметны. На них трудно обратить внимание, потому что вы даже не знаете, что ищете. Но после того, как вы их увидите, они быстро настолько интегрируются в ваши интуитивные модели мира, что становятся практически прозрачными. Помните ли вы те идеи, которые сыграли решающую роль в обучении езде на велосипеде или вождению автомобиля? Как насчёт деталей и инсайтов, которые помогли вам добиться успеха в том, в чем вы хороши?
Это означает, что очень легко застрять на достигнутом. Вы застреваете на своём нынешнем образе видения и мышления о вещах. Рамки создаются из деталей, которые кажутся вам важными. Важные детали, на которые вы не обратили внимания, остаются незаметными для вас, а те, на которые вы обратили внимание, кажутся совершенно очевидными, и вы видите их насквозь. Из-за всего этого трудно представить, как вы могли упустить что-то важное.
Вот почему, если вы спросите человека, выступающего против изменения климата (или ученого-климатолога): “Что могло бы убедить вас в том, что вы были неправы?”, вы, скорее всего, получите ответ типа “если бы оказалось, что все данные с моей стороны были подделаны” или какое-то другое чрезвычайно строгое требование к доказательствам, а не “Я бы начал сомневаться, если бы заметил многочисленные важные ошибки в деталях данных моей стороны, а мои коллеги не хотели об этом говорить”. Второй случай гораздо более вероятен, чем первый, но вы никогда не заметите его, если не будете уделять ему пристального внимания.
Если вы пытаетесь совершить невозможное, этот эффект должен пробрать вас до костей. Это означает, что вы можете оказаться в интеллектуальном тупике прямо в этот самый момент, когда доказательства находятся прямо перед вашими глазами, а вы просто не замечаете их.
Эту проблему решить непросто, но и не невозможно. В основном я исправил её сам. Направление для улучшения очевидно: ищите детали, которые вы обычно не замечаете в окружающем мире. Отправляясь на прогулку, обратите внимание на неожиданную деталь в цветке или на то, что швы на дороге говорят о том, как была построена дорога. Когда вы разговариваете с кем-то, кто умён, но кажется таким неправильным, выясните, какие детали кажутся ему важными и почему. В своей работе обратите внимание на то, что на самом деле эта встреча ничего бы не дала, если бы Сара не указала на эту единственную вещь. По мере того, как вы будете учиться, обращайте внимание на то, какие детали на самом деле меняют ход вашего мышления.
Если вы не хотите застрять на месте, постарайтесь понять то, что вы ещё не осознали.
Когда я вспоминаю о теореме Ауманна о согласии, у меня возникает рефлекторное желание найти среднее значение. Ты считаешь, что вероятность события X — 80 %, а я приписываю ему вероятность в 60 %. После обмена мнениями мы оба, наверное, должны сойтись на 70 %. «Возьми среднее арифметическое от начальных убеждений», или даже «посчитай взвешенное среднее, зависящее от авторитета» — частые эвристики.
Эта стратегия работает не всегда. Иногда лучшая комбинация не просто не похожа на среднее значение, но даже выходит за пределы отрезка [наименьшая оценка, наибольшая оценка].
Скажем, Джейн и Джеймс хотят определить, симметрична ли монета. Они оба считают, что она симметрична с вероятностью 80 %. Также им известно, что если монета несимметрична, то она наверняка из числа тех, что выпадают орлом в 75 % случаях.
Джейн пятикратно подбрасывает монету, совершает идеальное байесианское обновление убеждений и делает вывод, что монета несимметрична с вероятностью 65 %. Джеймс пятикратно подбрасывает монету, совершает идеальное байесианское обновление убеждений и делает вывод, что монета несимметрична с вероятностью 39 %. Эвристика усреднения предполагает, что правильный ответ находится где-то между 65 % и 39 %. Однако идеальный байесианец, услышавший оценки Джейн и Джеймса, знающий их априорные вероятности, и установивший, какие свидетельства они наблюдали, сделает вывод о 83 % вероятности несимметричности монеты.
(Математические выкладки перенесены в конец статьи)
Возможно, Джейн и Джеймс объединяют свою информацию в центре многолюдной таверны, и поблизости нет ни ручки, ни бумаги. Может быть, у них не хватает времени или памяти для того, чтобы рассказать друг другу о всех результатах бросков. Поэтому они просто сообщают друг другу апостериорные вероятности — хорошее, короткое резюме, самое то для пары спешащих рационалистов. Возможно, именно в этой лаконичности таится причина желания усреднять апостериорные убеждения.
И всё-таки, существует альтернатива. Джейн и Джеймс могут обменяться отношениями правдоподобия. Также, как и апостериорные вероятности, отношения правдоподобия суть сжатый конспект; и, в отличии от апостериорных вероятностей, обмен отношениями правдоподобия действительно работает.
Давайте послушаем беседу, в которой Джейн и Джеймс обмениваются отношениями правдоподобия:
ДЖЕЙН: Вероятность моих наблюдений при условии несимметричности монеты в семь с половиной раз выше, чем вероятность моих наблюдений при условии симметричности монеты.
ДЖЕЙМС: Мои наблюдения при условии несимметричности монеты в два с половиной раза вероятнее, чем при условии симметричности монеты.
ВДВОЁМ, в унисон: Значит, вероятность совокупности наших наблюдений при условии несимметричности монеты примерно в 19 раз выше, чем при условии её симметричности. Но наша априорная вероятность того, что монета несимметрична равна 20 %, что означает отношение априорных шансов 1:4. Применив теорему Байеса, получаем (1:4)*(19:1), что примерно равно 5:1 в пользу несимметричной монеты.
[ЗАВСЕГДАТАИ БАРА осторожно выскальзывают из помещения, пугливо оглядываясь]
И сейчас, увидев, как именно работает обмен отношениями правдоподобия, ты наверняка страстно хочешь воспользоваться этим приёмом из арсенала рационалистов в повседневной жизни.
Поэтому, как и в других подобных случаях, имеет смысл привести несколько примеров их применения.
1) Отделяй свидетельства от априорных вероятностей. Пару раз я наблюдал беседы примерно следующего вида:
Алиса: Что ты думаешь о Джеке?
Боб: По-моему, человек как человек, довольно средний в плане (ума\надёжности\чего-то там). Не думаю, что он ниже среднего, но и выдающимся я бы его не назвал.
Алиса: По какой именно причине ты не считаешь его выдающимся? Ты наблюдал что-то, говорящее о том, что он не выдающийся? Или просто большинство людей — середняки, и ты не видел ничего, что позволило бы считать Джека особенным? Где именно расположен пик твоей функции правдоподобия?
Такой стиль ведения диалога очень полезен. Пусть, например, первоначальное впечатление Алисы о Джеке крайне положительно, а мнение Боба не так положительно. Если Боб хорошо знает Джека, то Алисе придётся понизить своё мнение о Джеке. Однако если мнение Боба — следствие слишком малого количества положительных данных о Джеке, недостаточного для того, чтобы переместить Джека из категории «скорее всего, обычные люди» в категорию «скорее всего, выдающиеся люди», то Алисе нужно повысить свою оценку способностей Джека. В обоих этих случаях апостериорные убеждения Боба одинаковы, хотя его наблюдения несут в себе разительно отличающиеся следствия для Алисы. Эта разница теряется при обмене апостериорных убеждений, но учитывается при обмене отношениями правдоподобия.
2) Не считай априорные вероятности дважды. Робин Хансон предложил корректировать баллы, набранные женщинами в SAT по математике в сторону среднего значения (уменьшать высокие значения и увеличивать низкие), если математические навыки женщин характеризуются меньшим среднеквадратичным отклонением, чем математические навыки мужчин. Забудем о моральной стороне этого вопроса; такая корректировка действительно улучшит применимость результатов для оценки математических способностей людей, о которых неизвестно ничего, кроме результата их SAT. Вполне возможно, что женщина, набравшая 800 баллов, набрала их благодаря какой-нибудь случайности, однократному везению; если провести несколько последующих тестирований, то их результаты будут лежать в окрестности того же значения, что и результаты повторного тестирования мужчины, изначально набравшего, скажем, 770 баллов.
Можно сказать, что, возможно, математическое ожидание результатов (так сказать, «истинная степень способностей к математике») женщины, набравшей 800 баллов, ничем не отличается от математического ожидания результатов мужчины, набравшего 770 баллов.
Однако, такая корректировка результатов перемешивает априорные вероятности и отношения правдоподобия. Баллы за SAT лучше воспринимать в качестве функций правдоподобия: люди с высокими «истинными способностями» набирают 800 баллов чаще, чем люди со средними «истинными способностями», и так далее. Смешивая такие функции правдоподобия с априорными вероятностями (так, как это делает гендерно-зависимая корректировка баллов), ты затрудняешь комбинирование нескольких индикаторов.
Например, пусть 800 баллов, набранные женщиной, говорят о том же уровне «истинных способностей», что и 770 баллов, набранные мужчиной (благодаря различию априорных вероятностей и возможности несправедливого тестирования). Тогда «женские» 800 баллов, набранные дважды (в ходе двух независимых тестирований), будут говорить о большем уровне «истинных способностей», чем дважды набранные «мужские» 770 баллов. Гендерно-зависимая корректировка баллов хорошо работает для одного обособленного теста, но плохо показывает себя в ситуации, когда смешанных индикаторов несколько. Нелегко комбинировать несколько загрязнённых априорными вероятностями свидетельств (например, несколько скорректированных результатов SAT, или скорректированный SAT вместе со скорректированными рекомендательными письмами), не скосив результат в ту или иную сторону.
Общая идея всех этих примеров состоит в необходимости сохранять отношения правдоподобия. Вместо того, чтобы отслеживать кредит доверия к теории-лидеру, или помнить теорию, лучше всего характеризующую множество оставшихся возможностей (например, среднюю по всем теориям оценку качеств Джека), попытайся отслеживать, насколько вероятен весь набор имеющихся данных в свете той или иной гипотезы (а ещё тебе понадобится помнить все априорные вероятности). Я подозреваю, что эта тактика поможет и в борьбе с предвзятостью подтверждения; не знаю, проявятся ли после её использования какие-нибудь вредные побочные эффекты.
Главное предостережение: и в примере с монетой, и в примере с оценками незаурядности Джека, объединение отношений правдоподобия привело к более экстремальным убеждениям (в общем случае, объединение отношений правдоподобия может не привести к более экстремальным убеждениям, но оно почти всегда ведёт к точнее выраженным убеждениям). Если ты собираешься повторить это в домашних условиях, то удостоверься в том, что объединяемые индикаторы независимы. В противном случае ты рискуешь получить неоправданно экстремальные (или неоправданно специфичные) убеждения.
Выкладки, касающиеся примера про монету:
Раз апостериорная оценка Джеймса равна 39 %, то он явно наблюдал четыре орла и одну решку:
P(четыре орла и одна решка|монета несимметрична) = (0,75^4 • 0,25^1) = 0,079. P(четыре орла и одна решка|монета симметрична) = 0,031. P(монета несимметрична | четыре орла и одна решка) = (0,2•0,079)/(0,2•0,079 + 0,8•0,031) = 0,39, что и сообщил Джеймс.
Рассуждая аналогично, выясняем, что Джейн видела пять орлов и ни одной решки.
Подставляем в теорему Байеса девять орлов и одну решку:
P(монета несимметрична | девять орлов и решка) = ( 0,2 • (0,75^9 • 0,25^1) ) / ( 0,2 • (0,75^9 • 0,25^1) + 0,8 • (0,5^9 • 0,5^1) ) = 0,83, из чего и получается 83 % убеждение о том, что монета несимметрична
С помощью этого проверочного списка вы можете определиться, какие рациональные привычки вам хочется приобрести и следить за собственным прогрессом. Он не предназначен для того, чтобы измерять “насколько вы рациональны”. Скорее, он нужен, чтобы помочь вам обратить внимание на некоторые привычки, которые вы, возможно, захотели бы развить у себя.
Для каждого пункта списка, спросите себя - последний раз я пользовался этой привычкой:
Реакция на свидетельства/неожиданные события/аргументы, которые вы не слышали раньше. Сортировка убеждений для дальнейшего исследования.
Когда я сталкиваюсь с чем-то странным - чем-то, чего я с учётом своих прочих убеждений не ожидал - я успешно это замечаю, сознательно обращаю на это внимание и думаю: “Я замечаю, что я озадачен” или что-то в этом духе. (Пример: Вы собираетесь в другой город и считаете, у вас билет на рейс в четверг. Во вторник вы получаете емэйл от центра бронирования билетов, в котором вам советуют приготовиться к полёту “завтра”. Это кажется вам ошибкой. Задумаетесь ли вы всерьёз над этой аномалией? (Пример основан на опыте реального участника встреч LW, который в аналогичном случае не смог заметить своё замешательство и пропустил свой рейс.))
Когда кто-нибудь что-то рассказывает, а я не могу достаточно чётко это представить, я обращаю на это внимание и прошу примеры. (Свежий пример от Элиезера: Студент, изучающий математику, сказал, что они проходят “стеки”. Я попросил пример стека. Мне сказали, что целые числа могут образовывать стек. Я попросил пример чего-нибудь, что стеком не является.) (Свежий пример от Анны: Кэт сказала, что её парень очень азартный. Я попросила её описать, что значит “очень азартный”. Она ответила, что когда её парень за рулём и кто-то рядом жмёт на газ, он считает, что первым должен покинуть перекрёсток. А когда он пассажир, он бесится, если водитель не поступает так же.)
Я замечаю, когда мой разум начинает защищать какую-то сторону (вместо того, чтобы определять, какую сторону выбрать) и отмечаю такую реакцию как ошибочную. (Свежий пример от Анны: Поймала себя на мысли, что объясняю себе, почему имеет смысл перепоручить кому-нибудь покупку своей одежды, вместо того, чтобы оценить, стоит ли перепоручать покупку вообще.)
Я обращаю внимание, когда мой разум избегает какой-то мысли, и после этого отмечаю, что этот вопрос требует более тщательного исследования. (Свежий пример от Анны: У меня есть такой режим провала - если я чувствую себя неловко в компании, я пытаюсь убедить других в том, что они не правы, чтобы не чувствовать себя слишком уязвимой. Чтобы оформить эту мысль в слова потребовались неоднократные сознательные усилия, поскольку мой разум постоянно пытался от неё отделаться.)
Я сознательно пытаюсь приветствовать плохие новости или хотя бы пытаюсь не закрывать на них глаза. (Свежий пример от Элиезера: Во время брейншторма, посвящённого будущему саммиту по сингулярности, встал вопрос о том, что на предыдущих мы не собирали пожертвования. Мой мозг начал сопротивляться, поэтому я применил шаблон “плохая новость - это хорошая новость”, чтобы переформулировать утверждение следующим образом: “Набранное количество денег за прошлые годы всё равно не изменится, поэтому это хорошая новость, поскольку мы можем изменить стратегию и в этом году действовать эффективней.”)
Исследование и анализ убеждений (после того, как вы обратили на них внимание).
Я замечаю, когда не проявляю любопытства. (Свежий пример от Анны: Когда кто-нибудь меня критикует, обычно я ловлю себя на мысли о том, что я хочу защищаться, и мне нужно представить мир, где критика верна, и мир, где она неверна, чтобы убедить себя узнавать именно то, что я на самом деле хочу узнать. Например, нас критиковали за то, что мы предоставили неверную исходную информацию к статистике, которую мы собирали на Rationality Minicamp. И, чтобы переключить свой мозг из защитного режима в режим “стоит ли нам поступать по-другому”, мне пришлось представить последствия того, что я буду объяснять, почему я не могла сделать ничего лучше того, что сделала, и сравнивать их с возможными последствиями того, что я представлю, как можно было бы сделать лучше в следующий раз.)
Я ищу настоящие причины своих убеждений, эмоций и привычек и в процессе я могу подавлять стремления к самооправданию или отбрасывать самооправдания, которые не связаны с настоящими причинами моих мыслей. (Свежий пример от Анны: Когда выяснилось, что мы не можем арендовать для Minicamp заранее выбранное место, я нашла огромное множество причин, чтобы во всём обвинить человека, который это место предложил, но осознала, что мои эмоции большей частью были вызваны страхом, что меня обвинят в чрезмерных расходах.)
Я пытаюсь рассматривать абстрактные аргументы или шаги доказательства на конкретных примерах. (Классический пример: Ричарда Фейнмана очень удивило, когда бразильские студенты не понимали, что под “преломляющей средой” подразумевается, например, вода. Если кто-то рассказывает вам о доказательстве утверждения, верного для всех целых чисел, проверите ли вы его для числа 17? Если в вашей голове крутится мысль о том, что ваш сосед очень неряшлив, проверите ли вы свои аргументы для какого-то конкретного проявления его неряшливости?)
Когда я выбираю между двумя (или более) гипотезами с помощью некоторого свидетельства, я представляю мир, где выполняется гипотеза 1 и пытаюсь оценить априорную вероятность, с которой это событие случилось бы в этом мире, а затем представляю мир, где выполняется гипотеза 2, и оцениваю, становится ли в этом мире свидетельство более предсказуемым или менее. (Исторический пример: После нескольких часов допроса Аманда Нокс в своей камере несколько раз выполнила “колесо”. Обвинитель заявил, что она таким образом праздновала убийство. Если бы вы столкнулись с таким аргументом, стали бы вы придумывать способ объяснить, что исполнение “колеса” наоборот свидетельствует о её невиновности? Или вы бы сперва представили невиновного заключённого, затем виновного, и спросили бы, с какой частотой, по-вашему, такие люди исполняют “колесо” в камере, чтобы понять, с какой вероятностью это свидетельствует об одном или о другом?)
Я пытаюсь осознанно оценивать априорные вероятности и сравнивать их с очевидной силой свидетельства. (Свежий пример от Элиезера: В разговорах о паранормальных явлениях я сразу заявляю, что я буду обращать внимание только на свидетельства со статистической значимостью p < 0.0001, как делается в физике, а не с p < 0.05.)
Когда я сталкиваюсь со свидетельством, которого недостаточно, чтобы значительно изменить мои убеждения или поведение, но которое всё же более вероятно случается в мире X, чем в мире Y, я стараюсь хотя бы немного изменить мои представления о вероятностях. (Свежий пример от Анны: После того, как мне сбили зеркало заднего вида, я осознала, что должна немного изменить свою уверенность в том, что я хороший водитель. Хотя юридически и, скорее всего, фактически виновата была не я, это происшествие более вероятно в том мире, где я вожу хуже.)
Обработка внутренних конфликтов. Реакция на желания, которые кажутся несовместимыми. Реакция на стресс.
Я замечаю ощущение, когда кажется, что я и мой мозг верим в разные вещи (расхождение между убеждениями и ощущениями), и после этого останавливаюсь и спрашиваю, кто из нас прав. (Свежий пример от Анны: Прыжок на тарзанке с отеля «Стратосфера» в Лас-Вегасе. Я знала, что это безопасно, на основании того, что 40 тысяч людей это успешно проделали и не получили серьёзных травм. Но, чтобы убедить мой мозг, мне пришлось представить как все студенты моего колледжа два раза прыгают отсюда и выживают. Кроме этого, мой мозг иногда бывает более пессимистичен, чем я, особенно в социальных вопросах, и при этом почти всегда ошибается.)
Когда мне нужно принять сложное решение, я пытаюсь переформулировать задачу, чтобы уменьшить влияние различных когнитивных искажений. (Свежий пример от брата Анны: Когда он решал вопрос, стоит ли ему переехать в Кремниевую долину и поискать более высокооплачиваемую работу программиста, чтобы избежать стремления к сохранению статус-кво, он переформулировал вопрос так: если бы он уже жил в Кремниевой долине, согласился ли бы он на понижение зарплаты в 70 тысяч долларов, чтобы переехать в Санта-Барбару к своим друзьям по колледжу? (Ответ: нет.))
Когда мне нужно принять сложное решение, я проверяю, какие мои соображения являются консеквенционалистскими, в смысле, какие мои соображения действительно связаны с последствиями решения в будущем. (Свежий пример от Элиезера: Я купил матрас за 1400 долларов, чтобы решить свои проблемы со сном. Поскольку я его покупал через интернет, он мне обошёлся значительно дешевле, но его нельзя было вернуть. Когда выяснилось, что этот новый матрас мне не слишком помогает, мне не слишком хотелось тратить ещё деньги на ещё один матрас. Я напомнил себе, что 1400 долларов - это необратимые издержки, никак не влияют на будущее и ничуть не меняют важность и масштаб хорошего сна. Спать приходится каждый день, и сон серьёзно влияет на самочувствие каждый день.)
Что вы делаете, когда ваши мысли или споры ходят по кругу и ни к чему не приводят.
Я пытаюсь сформулировать конкретное предсказание, по поводу которого ожидания, следующие из различных убеждений, или ожидания различных людей точно не совпадут. Просто, чтобы убедиться, что разногласие действительно имеет место. (Свежий пример от Майкла Смита: Один человек беспокоился, что тренинг по рациональности может оказаться «обманом». Я спросил его, готов ли он сделать предсказание по поводу результатов тренинга на основании того, что это «обман», и будет ли его предсказание отличаться от моего.)
Я пытаюсь придумать эксперимент, возможные результаты которого либо устроят меня (в случае внутреннего спора) или по поводу которых согласятся мои друзья (в случае дискуссии в группе). (Именно так мы разрешили долгий спор о том, как назвать Центр прикладной рациональности - Джулия просто попросила 120 человек высказать своё мнение по поводу вариантов названий.)
Если я обнаруживаю, что мои мысли ходят по кругу вокруг конкретного слова, я пытаюсь табуировать это слово, то есть, думать без использования этого слова, его синонимов и эквивалентных понятий. (Речь, например, о размышлениях, “достаточно ли ты умный”, является ли твой партнёр “невнимательным” или “пытаешься ли ты поступать правильно”.) (Свежий пример от Анны: Посоветовала одному человеку перестать тратить столько времени, размышляя, являются ли действия его или других людей оправданными. Он ответил, что просто пытается поступать правильно. Я попросила его затабуировать слово «пытаюсь» и рассказать, о чём он на самом деле размышляет.)
Внимание к поведению (привычкам, стратегиям) для их пересмотра.
Я осознанно размышляю о ценности информации, когда решаю, попробовать ли что-то новое или исследовать какой-то вопрос, по поводу которого я сомневаюсь. (Свежий пример от Элиезера: Заказал тренировочный мяч за 20 долларов, чтобы проверить, улучшит ли сидение на нём мою внимательность и/или поможет спинной мускулатуре.) (Не очень свежий пример от Элиезера: После нескольких месяцев прокрастинации, благодаря постоянным придиркам Анны по поводу ценности информации наконец попробовал писать в компании наблюдателя. Обнаружил, что моя продуктивность выросла в четыре раза. В буквальном смысле, если считать в словах в день.)
Я выражаю последствия в числах - как часто, как долго, насколько интенсивно. (Свежий пример от Анны: Когда Джулия отправилась проводить опрос по поводу названия Центра, я беспокоилась, что один человек обидится за то, что мы не дали ему поучаствовать в принятии решения. Чтобы перестать беспокоиться, мне пришлось сделать мысленное усилие и представить, насколько это маловероятно, насколько мало он обидится, и как коротко эта обида продлится.) (За последний год мы наблюдали ещё три реальных случая: Люди беспокоились, что их родители подумают о том, что они меняют карьеру. Чтобы понять, что это соображение не должно быть главным, им нужно было осознанно оценить, насколько сильную эмоциональную боль они причинят родителям своим решением и сколько времени родителям потребуется, чтобы привыкнуть к этому решению.)
Пересмотр стратегий, формирование новых привычек, новые шаблоны поведения.
Я замечаю, когда что-нибудь приводит к тому, что я избегаю действий, которые хотел бы повторять. (Свежий пример от Анны: Я заметила, что каждый раз, когда я нажимаю кнопку «Отправить» в окне электронной почты, я представляю все варианты, как плохо может отреагировать получатель и что ещё вообще может пойти не так. В результате меня словно слегка било током каждый раз, когда я отправляла письмо. Я, во-первых, прекратила так делать, во-вторых, завела привычку улыбаться каждый раз, когда я нажимаю на «Отправить», что обеспечило моему мозгу положительное подкрепление. Вместе это сильно снизило прокрастинацию в отношении писем.)
Я разговариваю со своими друзьями или использую другие социальные механизмы, подталкивающие к нужному поведению. (Свежий пример от Анны: Чтобы подпитывать мозг глюкозой, я пью грейпфрутовый сок. Однажды я обнаружила, что после окончания работы какое-то количество сока ещё осталось. Чтобы предотвратить ошибку необратимых затрат, я посмотрела на Майкла Смита и в шутку сказала: «Но если я не допью его сейчас, он же испортится!» ) (Пример от Элиезера: Когда у меня были трудности с тем, чтобы вовремя лечь спать, я, во-первых, разговаривал с Анной о дурацких причинах, которые мой мозг использует, чтобы до сих пор продолжать бодрствовать, во-вторых, вместе с Люком разработал систему, в которой я заносил отметку «а+» в рабочий журнал каждый вечер, когда я шёл в душ, чтобы лечь спать вовремя и «a-» каждый раз, когда я этого не делал.)
Чтобы выработать новую привычку, я вознаграждаю своего внутреннего голубя за её применение. (Пример от Элиезера: Многие отмечают, что со мной стало намного приятней общаться после… трёх повторений 4-часовых сессий писательства, во время которых меня вознаграждали M&M (и улыбкой) всякий раз, когда я делал кому-то комплимент, т.е. вспоминал сказать вслух что-то приятное из того, что я подумал.) (Свежий пример от Анны: Вчера я вознаградила себя улыбкой и радостным жестом за то, что я обратила внимание, что я занимаюсь низкоприоритетными задачами, не задумавшись о том, чтобы вспомнить о высокоприоритетных. Замечать ошибки - это хорошая привычка, и я тренируюсь вознаграждать себя за неё, а не испытывать вину.)
Я пытаюсь не полагаться на то, что у меня волшебная свобода воли. Я пытаюсь влиять (привычками, созданием нужных ситуаций и так далее) на то, как я себя веду. Я не пытаюсь полагаться, что моя воля просто позволит сделать всё, что нужно. (Пример от Аликорн: Я избегаю изучать мнение политиков по поводу контроля оружия, потому что оно вызывает у меня сильную эмоциональную реакцию, которая мне не нравится.) (Свежий пример от Анны: Я подкупила Карла, чтобы он заставлял писать в журнал каждую ночь.)
Я смотрю на себя со стороны. (Свежий пример от Анны: Обычно я звоню своим родителям раз в неделю, но пару недель этого не делала. Какая-то часть моего мозга заявила: «Я не могу позвонить сегодня, потому что сегодня я очень занята». Другая часть мозга ответила: «Глядя со стороны, сегодня действительно какой-то особый день, когда ты занята больше обычного, и изменится ли что-нибудь к завтрашнему дню?»)
В других форматах
Мы никогда не узнаем их имён.
О первой жертве и не могло остаться записей, ведь письменности ещё не существовало. Это была чья-то дочь, чей-то сын или чей-то друг, этого человека кто-то любил. И ему было больно, он был покрыт сыпью, испуган, не понимал, почему это всё происходит и что делать – жертва безумного нечеловеческого бога. Ничего сделать было – у человечества было недостаточно сил и знаний, чтобы дать отпор невидимому монстру.
Оно было в Древнем Египте, где поражало как рабов, так и фараонов. Оно без труда вырезало армии Рима. Оно убивало в Сирии. Оно убивало в Москве. В Индии оно убило пять миллионов. Оно убивало тысячу европейцев каждый день XVIII века. Оно убило больше 10 миллионов индейцев. От Пелопонесской Войны до Войны Севера и Юга от него погибало больше солдат и мирных людей, чем от любого оружия и любой армии. (Не то чтобы это останавливало самых глупых и бездушных от попыток использовать демона как оружие против своих врагов.)
Культуры расцветали и увядали, а оно оставалось. Империи ширились и разваливались, а оно процветало. Идеологии придумывались и забывались, а ему было всё равно. Убивать. Калечить. Распространяться. Древний безумный бог, скрытый от глаз, с которым нельзя было сражаться, которому нельзя противостоять, нельзя даже понять. Не единственный такой, но самый разрушительный.
Долгое время надежды не было – только горькое, пустое терпение выживших.
В XV веке в Китае человечество начало давать отпор.
Было замечено, что сумевших пережить проклятье безумного бога оно больше никогда не затронет: они переняли часть этой силы для себя, и были от неё защищены. Мало того, этой силой можно поделиться, поглотив остатки из ран. Это было не без цены, нельзя забрать силу бога, сначала не победив его, но в меньшей битве, на условиях человечества.
К XVI веку технология дошла до Индии, потом через всю Азию до Османской Империи, и, в XVIII веке, до Европы. В 1796 году Эдвард Дженнер придумал более продвинутую технику.
Начала зарождаться идея: может быть, древнего бога можно убить.
Шёпот стал громче, стал криком, крик стал боевым кличем, разносясь по деревням, городам и странам. Человечество начало кооперироваться, распространяя по земному шару оберегающую силу, выделяя мастеров этого ремесла для защиты народов. Бывшие заклятые враги объединялись ради общего дела на эту одну битву. Правительства обязывали жителей защитить себя, ведь отдать древнему врагу даже одну жизнь – значило поставить под опасность миллионы.
И пядь за пядью человечество теснило своего врага назад. Меньше друзей рыдало; меньше соседей было искалечено; меньше родителей хоронили своих детей.
К началу XX века человечество впервые изгнало врага из целых регионов планеты. Человечество много раз оступалось в своих попытках, но были те, кто никогда не сдавался, кто сражался за мечту о мире, где ни одному ребёнку и ни одному любимому больше никогда не придётся бояться демона. Виктор Жданов, который призвал человечество объединиться для последней атаки на демона; великий тактик Карел Рашка, который составил стратегию для уничтожения врага; Дональд Хендерсон, который возглавлял усилия в эти последние дни.
Враг слабел. Миллионы стали тысячами, тысячи – десятками. И когда враг наносил удар, множество людей выходило, чтобы отразить его, защитить всех тех, кто мог быть в опасности.
Последнее нападение врага на свободе пришлось на Али Маоу Маалина в 1977 году. Ещё месяцы целеустремлённые люди прочёсывали окружающую территорию, выискивая последние убежища, где враг ещё мог прятаться.
Они не нашли ничего.
Тридцать пять лет назад, 9 декабря 1979 года, человечество объявило о победе.
Это зло, этот ужас, что старше памяти, монстр, забравший жизни 500 миллионов людей, был уничтожен.
Вы – представители вида, что сделал это. Никогда не забывайте, на что мы способны, объединившись, и объявив войну тому, что в мире неправильно.
Поздравляем вас с Днём Ликвидации Оспы.
Этот текст распространяется под лицензией Creative Commons Attribution 4.0 International License.
Давным-давно (по стандартам интернета), в далекой стране (кажется, в Калифорнии) бородатый мужчина из еврейской семьи принялся за написание книги. И планировал он этой книгой научить людей хорошо мыслить, чтобы человечество обрело наконец-то мудрость и спасение. Судя по всему, бородатым мужчинам из еврейских семей свойственно писать что-нибудь такое раз в несколько веков. И искусство хорошо мыслить, о котором он писал, было известно, как Рациональность.
И вокруг этой книги, известной в то время как «Цепочки по Рациональности», собрались мудрые женщины и мужчины, которые поверили всему на слово(зачёркнуто) придрались к каждому слову и уравнению и даже к самой цели книги. Тем не менее почти все прочитавшие Цепочки согласились с тем, что да, это отличное руководство по здравым рассуждениям и что всё в нём настолько просто и правдиво, что всё это очевидно в ретроспективе. Разумеется, книга об этом их предупредила заранее. И эта группа прочитавших Цепочки людей стала известна как Сообщество Рационалистов. Правда они, будучи правильными рационалистами, потратили годы на споры о том, хорошее ли это название или нет.
И узрели другие люди, как рационалисты читают Цепочки и проводят хорошо время. И говорили им: «Лол, да вы кучка ботанов, попавших в дурацкую секту». И рационалисты терпеливо им объясняли, что, нет, искусство заключается именно в том, чтобы мыслить независимо. И что Элиезер в процессе написания Цепочек предвидел, что людям настолько понравятся статьи, что забудут они про скептицизм, и посвятил целый раздел книги вопросам, как избегать группового мышления и культовости. И посему, несмотря на то, что любые два рационалиста согласны с 95% цепочек, они проводят уйму времени в спорах об оставшихся 5%, чтобы никто не смел обвинить их в недостаточном скептицизме.
При этом рационалисты подтвердили, что да, они кучка ботанов.
Элиезер на LW объясняет многомировую интерпретацию
Но другие люди не успокаивались на этом и говорили рационалистам: «Ну и зачем нужна ваша понтовая рациональность, кроме как чтобы препираться о ней на форумах?» И рационалисты не отвечали, потому как были заняты, помогая нуждающимся, распространяя искусство, запуская кучу стартапов, развивая науку и спасая человечество от вымирания.
Но другие люди продолжали упорствовать и говорили рационалистам: «Ну вы даёте, ребята, это такой 2007 год, всё это уже устарело, самый хайп сейчас — пострациональность». И вопрошали рационалисты — какие ошибки есть в книге и какие части должны быть отвергнуты в пользу чего-то нового? Но правда в том, что все с Цепочками хорошо, и что они успешно предусмотрели каждый вызов, брошенным им за прошедшие 9 лет, и что всем вам стоит взять и прочитать уже цепочки прямо сейчас[Русский перевод пока не завершён, оригинал можно найти на сайте Read the Sequences. — Прим.перев.]. И все же эти самодовольные пострационалисты способствовали возникновению ауры старомодности вокруг LessWrong’а и тому, что меньше людей смогло получить пользу от него.
Сейчас самое время, чтобы прекратить читать этот пост и приступить к чтению Цепочек — они довольно длинные (vita brevis ars longa и все такое), да и написаны лучше. Если вы еще не заметили, почти все ссылки ведут на сайт LessWrong’а и Цепочки — чтобы вы прочувствовали, как много идей они покрывают. Если по каким-то причинам вы не хотите пока уходить по ссылкам, я коротко объясню вам, что я понимаю под рациональностью, и немного выскажусь по поводу «пострационалистов».
Человечество прошло путь от идеи, что солнце — это колибриобразный воинственный бог, требующий человеческих жертвоприношений, до использования солнечного излучения для межпланетных перелётов. Практически всеми подобными впечатляющими достижениями мы обязаны науке (кое-чем — Элу Гору). Наука начала давать результаты, когда заметила пару моментов:
Также выяснилось, что если спросить у теории вероятностей, как именно познавать реальность с помощью наблюдения свидетельств, она ответит, что, хотя сам процесс может сильно отличаться в разных ситуациях, в его основе окажется теорема Байеса. И раз уж в поп-культуре слово «рациональный» закрепилось за совершенно иррациональными соломенными персонажами, в сообществе рационалистов часто вместо него говорят «байесианский».
Посмотрите-ка! Кое-кто написал великую книгу под названием «Теория вероятностей: логика науки» [Эта книга не переводилась на русский. Речь о книге E. T. Jaynes, «Probability Theory: The Logic of Science» — Прим.перев.].
Обычно выяснением того, как устроена реальность, занимаются учёные. Но для не-учёных тоже бывает полезным узнавать правду о мире. Возможно, вам интересно узнать, сколько времени потребуется на новый проект, насколько вероятно выпадение красного сектора на рулетке, есть у вас рак груди или нет. Всё это кажется довольно простым, однако материал по ссылкам в предыдущем предложении (на которые вы, скорее всего, не кликнули) показывает, что люди регулярно лажают в ответах на такие простые вопросы, а также в очень-очень-очень многих других ситуациях.
Почему же нашим мозгам так сложно просто отвергнуть ложное и поверить в истинное? К сожалению, вместо безупречных машин по производству идеальных рассуждений в наших головах оказались глючные компьютеры на мясной основе, предназначенные для обезьян. И обезьяньи мозги могут верить в какую-нибудь идею по многим причинам:
Возможно, вы слышали ещё об одной великой книге, рассказывающей о том, как предсказуемо ошибаются наши мозги по самым разным поводам. Она называется «Думай медленно… решай быстро».
Плохая новость заключается в том, что очень сложно и неприятно обучить наши глючные обезьяньи мозги справляться с фактом, что они глючные обезьяньи мозги. Интеллект, опыт и общее представление об ошибках мышления не слишком помогают решить эту задачу и даже могут помешать. Дело не только в том, что абсолютная рациональность недостижима. Сложно даже начать двигаться в эту сторону — для этого необходимо заметить у себя огромное слепое пятно, которое мешает нам признать, что иногда мы бываем иррациональны. Ваш мозг продолжает настаивать, что он действует совершенно здраво, даже когда цепляется за неверные, вредные и даже противоречивые убеждения.
Хорошая новость заключается в том, что вы не одиноки. Рационалисты есть повсюду. Среди рационалистов есть трансгендеры-математики и религиозные юристы, полиаморные коммунисты и асексуальные консерваторы. Рационалисты устраивают свои встречи на пяти континентах и в трёх городах вокруг Залива. [Подразумевается агломерация залива Сан-Франциско. — Прим.перев.] И что самое важное, Цепочки дают сообществу общий язык для разговоров о рациональности. Как аборигены не могут рассуждать о количестве, поскольку у них нет слов для обозначения чисел, изучать рациональность практически невозможно без словаря.
Если бы я не слышал о «пушистых ощущениях в груди» и утилонах, не знаю, как я смог бы объяснить, почему пожертвования на обеспечение базового дохода нельзя сравнивать с покупкой счастья за деньги. Более того, вероятно, я бы не понял этого и сам. С другой стороны, когда я почувствовал, что могу попасть в воронку счастливой «смертельной спирали» вокруг клёвой идеи, я потратил дополнительное время на изучение того, к каким отрицательным последствиям может привести безусловный доход. Я поймал себя на том, что после прочтения аргументов о том, что гарантированный базовый доход уменьшает занятость населения, я поддерживаю идею базового дохода сильнее, потому что все эти аргументы — дурацкие. Мне пришлось напомнить себе, что противоположность глупости не есть ум: плохой аргумент против базового дохода не делает базовый доход лучшей политикой. Я прочитал сложное рассуждение о том, как базовый доход в случае его введения уменьшит налоги в США, и отбросил и его. Оно выглядело как типичный пример написания нижней строчки до всего остального текста ради поддержки одной стороны, а множество обязательных шагов заставляют вспомнить об ошибке конъюнкции.
Я даже не помню, как вообще можно рассуждать о сложных вещах — вроде экономических стратегий — без тренировки рациональности. Вероятно, я о них много и не думал, просто соглашался с правильной «синей или зелёной» позицией. Если меня сейчас спросить, считаю ли я, что базовый доход улучшит качество жизни американцев по сравнению с нынешней системой пособий, я отвечу «на 75% уверен, что да, но это мнение может измениться в результате соответствующих исследований». Вы можете представить себе политика, который даёт подобный ответ? И всё же любой ответ по такой сложной теме, данный не в виде вероятности между нулём и единицей, выглядит для меня как полное безумие. Когда я листаю историю своего фейсбука, мне немного стыдно за 90% «политических» взглядов, которых я раньше придерживался. Не потому что все они были неверны, а потому что я их придерживался и провозглашал по дурацким причинам.
[На картинке синий человечек говорит: «Свободная торговля — это заговор Уолл-стрит. Зелёный отвечает: «Продуктовые талоны — это сталинизм». Под продуктовыми талонами (food stamps) подразумевается существующая в США программа помощи малоимущим. — Прим.перев.]
Надеюсь, приведенные мной примеры звучат хорошо с точки зрения здравого смысла. Почему же нам нужно тратить столько сил на обучения вещам вроде байесианских вероятностей, эвристиках принятия решений и прочему такому? Тут я дам слово Скотту:
Я думаю, что Байесианство — это реально полезная эпистемология, и единственная причина, по которой ее полезность не очевидна, заключается в том, что она настолько полезна, что легко забыть, что другие люди ее частенько не имеют.
…
Теория вероятности в целом и Байесианство в частности дают целостный философский фундамент для того, чтобы не быть идиотом.
Разумеется, людям довольно редко нужен целостный философский фундамент, чтобы что-то делать. Им не нужна грамматика, чтобы говорить, не нужна классическая физика, чтобы попасть по мячу, и не нужна теория вероятностей, чтобы принимать хорошие решения. Поэтому я нахожу фразы вроде: «Но теория вероятностей в повседневности не слишком полезна!» бессодержательными.
«В повседневности» значит «в зоне комфорта». Вам не нужна теория внутри зоны комфорта, потому что вы уже с легкостью справляетесь с находящимися внутри нее задачами. Но иногда вы понимаете, что внутри этой зоны не так-то уж и комфортно (мой классический пример — это ответ на звонок телефона: «Скотт? Да, это он»). А иногда вы хотите покинуть зону комфорта и освоить новый язык или создать свой.
Когда Дэвид говорит, что вывод о существовании/несуществовании Бога на основе свидетельств — это пограничный случай и поэтому его не стоит учитывать, я отвечаю, что именно такие вещи и стоит учитывать, ведь это пример рассуждений за границей зоны комфорта, где одной интуиции будет недостаточно. И оказывается, что когда большинство людей пробуют рассуждать о том, что находится за пределами их повседневности, они часто терпят неудачу. Если вы из тех людей, которым нравится думать о сложных философских проблемах за границами зоны комфорта, в которой можно положиться на инстинкт, — а политика, религия, философия и благотворительность попадают именно в эту категорию, — то очень полезно иметь эпистемологию, которая не отстой.
Я готов пойти даже дальше: люди совершают кучу глупых и затратных ошибок даже внутри предполагаемой зоны комфорта. Я вижу, как люди застревают на ненавистной работе, потому что их мозги слишком ленивы, чтобы выбраться из ложной дилеммы. На этой работе они делают проекты, попадая при этом под действие ошибки планирования и искажения невозвратных потерь, и это если они вообще способны преодолеть акразию и прокрастинацию, чтобы сделать хоть что-то. При этом они тратят деньги на то, что не делает их счастливыми. Они тратят время на дурацкие споры, не могут объяснить или понять идеи, повторяют пустые слова, как будто эти слова содержат в себе глубокую мудрость, находят утешение в невежестве.
Если вас всё это не напрягает, то, вероятно, вам действительно не стоит тратить время на эту книгу.
Итак, рациональность — это эпистемология и сообщество, посвящённое тому, как думать лучше и достигать своих стратегических целей. С другой стороны, это стремление к идеалу, а не состояние, которого можно достигнуть. Именно по этому основной сайт сообщества называется lesswrong.com (в настоящее время его собираются перезапустить, чтобы он лучше соответствовал развивающемуся сообществу[Упомянутый перезапуск сайта уже завершён. — Прим. перев.]), а не perfectwisdominfoureasysteps.com (даже если не учитывать, что лучше выбирать доменные имена покороче). [«Less wrong» переводится как «менее неправ», «perfect wisdom in four easy steps» — «идеальная мудрость за четыре простых шага». — Прим.перев.]
Понятно, что некоторые люди примут рациональность и будут её изучать. Понятно, что большинство людей скажут: «Да ну её, я и так крут» и останутся при своих воззрениях — это обычное поведение для людей. Однако, я не могу понять людей, которые являются частью большого сообщества рационалистов и которые при этом говорят: «Да хватит вам уже. Я уже разобрался со всей этой вашей рациональностью и теперь нашёл кое-то получше». Попробуем разобраться, что им не нравится в рациональности.
В записи под названием «Пострациональность, оглавление» Йерли Сидер пишет:
Рациональность часто даёт советы вроде «не обращайте внимания на вашу интуицию/чувства, а полагайтесь на осознанные размышления и явные вычисления». Пострациональность, напротив, говорит: «На самом деле интуиция и чувства важны, давайте разберёмся, как нам их использовать вместо того, чтобы с ними бороться».
Например, рационалистам очень нравятся модели мышления, вроде канемановской Система-1/Система-2. В этой модели Система-1 — в сущности, интуиция, а Система-2 — аналитическое мышление. Кроме того, Система-1 — быстрая, а Система-2 — медленная. Более подробно я опишу эту модель в следующей записи, но смысл в том, что рационалисты склонны считать Систему-1 необходимым злом. Она неточная и подвержена ошибкам, но она быстрая, и если вам нужно закончить свои размышления вовремя, вы просто вынуждены использовать эту быструю, но хреновую систему. Однако, для по настоящему важных решений вам следует использовать Систему-2. Более того, вам стоит попытаться выписать ваши вероятности в явном виде и всё посчитать — это лучшая стратегия для принятия решений.
Йерли Сидер не указывает, где именно рационалисты так утверждают, поэтому мы за ответом обратимся к основам рациональности — Цепочкам. К счастью, Цепочки развенчали приведённую выше критику за семь лет до того, как она была написана:
Мне кажется, что люди, противопоставляющие «эмоции» и «рациональность», на самом деле говорят о Системе 1 — системе быстрых, основанных на восприятии суждений — и Системе 2 — системе медленных обоснованных суждений. Обоснованные суждения не всегда правдивы и интуитивные суждения не всегда ложны, поэтому важно не путать эту дихотомию с вопросом о рациональности и иррациональности. Обе системы могут служить как истине, так и самообману.
Судя по записи Сары Перри, сайт RibbonFarm тоже считается «пострационалистским». Единственная критика рациональности в упомянутой записи, похоже, сводится к тому, что рациональность отвергает ценность ритуалов. Не знаю, насколько это важно, но и Цепочки описывают ритуалы, и у самого сообщества есть настоящие ритуалы.
Варг Франклин, судя по всему, доказывает, что рациональность практически невозможна и потому является пустой тратой времени. С его точки зрения лучше руководствоваться здравым смыслом и традицией:
Некоторые рационалисты представляют разум как что-то механистичное. С их точки зрения разум — это мешанина из склонных к ошибкам алгоритмов для отдельных областей деятельности, и эти алгоритмы каждый может перехитрить и взломать — избавиться от когнитивных искажений. Разум, конечно, действительно машина, состоящая из отдельных элементов, однако, это сложная машина, в которой мы плохо разбираемся, очень умная и созданная, чтобы работать как единое целое. В большинстве случаев вы не сможете перехитрить собственный разум. Таким образом, лучше рассматривать разум как единый чёрный ящик и работать с ним на его условиях. Разум — это опыт, интуитивно понятные свидетельства, хорошие идеи и текущие стремления. Разум уже хорошо настроен эволюцией и может лишь стать мудрее получив много точного знания и опыта. Он не станет рациональнее благодаря нескольким сильнодействующим когнитивным трюкам.
Здравый смысл и интуиция в качестве основы рассуждений незаменимы. Попытки перейти на явно сформулированные рассуждения, построенные на математике и когнитивной психологии — нереалистичная глупость. Благодаря теории мы можем научиться полезным метафорам, мы можем использовать математический аппарат, но теория не может быть универсальным основанием нашего познания. Практическое мышление, не основанное на здравом смысле, — фикция.
В этом рассуждении есть здравое зерно, но его явно недостаточно, чтобы осудить стремление к рациональности как бесполезное. Да, мы знаем, что рациональность очень сложна, но есть и руководство о том, как делать невозможное. Мы знаем, что эпохи эволюции прекрасно настроили наш мозг, но эволюция, во-первых, не приводит к максимальной эффективности, во-вторых, не заточена на достижение целей, которые волнуют нас, людей.
Дружеское напоминание о том, что эволюция породила и рыбу-каплю.
Наконец, рациональность стремится расширить здравый смысл, а не противоречить ему. Исключением являются лишь некоторые задачи, в которых здравый смысл и интуиция бессильны. В процессе написания «Цепочек» Элиезер занимался (и занимается до сих пор) разработкой математических основ для сверхразумного ИИ, ценности которого совпадали бы с человеческими. Это очень сложная задача, поскольку человеческие ценности составляют ничтожно малую область во вселенной возможных целей ИИ. У нашего вида есть лишь одна попытка для решения этой задачи, и без большого количества рациональности у нас очень мало шансов.
Возможно, Элиезер не уверен, что рациональность способны освоить люди, которые не посвятили свою жизнь спасению мира, но мне это не кажется нереалистичным. Я считаю, что и при выборе лучшего мыла рациональность лучше, чем глупость. Тем не менее, я в этом году скорее всего пожертвую больше денег MIRI, чем потрачу на покупку мыла. Познакомившись с рациональностью, люди часто загораются идеей спасти мир.
Наш обзор «пострациональности» начался с Дэвида Чапмена, им же я и закончу.
[1] В популярном байесианстве, теорема, судя по всему, не имеет отношения к арифметике — это священный символ Рациональности. Ситуации, когда можно реально использовать формулу, крайне редки. Вместо этого теорема становится чем-то вроде священной метафоры или религиозного талисмана. Вы поклоняетесь ей, чтобы продемонстрировать то, как вы уважаете Рациональность, а также свою принадлежность к байесианской религии.
[2] Возможно, байесианство сродни иглоукалыванию. Оно почти бессмысленно с практической точки зрения, а его изощрённые теоретические основы — это чушь. Однако, обычно оно безвредно и повышает человеческую самооценку, то есть, плюсы перевешивают минусы.
[3] Тоже самое наблюдается и в байесианстве. Лидеры начиняют свои тексты аллюзиями на таинственную метафизику и математику, которые почти никак не связаны с тем, как они рассуждают на самом деле.
[4] Широко известно, что байесианство похоже на квазирелигиозную секту. Это не только моё личное мнение.
Здесь Чапмен замечает следующую цитату Элиезера:
[Элиезер]: Давайте выйдем за пределы наших системы: Байес, Байес, Байес, Байес, Байес, Байес, Байес, Байес, Байес… Священные звуки бессмысленны, за исключением случаев, когда они советуют кому-то использовать математику.
И, судя по всему, не понимает прочитанное:
[Чапмен]: Правильно. Так почему же он не выходит за пределы системы? Он сам здесь называет это «священными звуками». Получается, он понимает квазирелигиозную природу своих действий. Тогда зачем это всё?
Кто эти заблудшие байесианские фанатики? Общались ли люди, которые обвиняют рационалистов в квазирелигиозности, хотя бы с одним человеком, прочитавшим Цепочки? Неужели Чапмен всерьёз считает, что когда Элиезер говорит «не будьте сектой, а займитесь математикой», он подразумевает «будьте сектой»? Ответов на эти вопросы мы никогда не узнаем, поскольку, когда Скотт ответил на соломенную версию байесианства в изложении Чапмена, тот внезапно изменил позицию и написал:
Дело в том, что я вижу в LessWrong’е очень много правильного, и я очень сильно восхищаюсь его целями. Поэтому я так огорчён его ограничениями и (возможно, кажущимися) ошибками. Боюсь, мой безрассудный способ выразить огорчение мог кого-нибудь обидеть. Также он мог кого-то сбить с толку, поскольку я не предложил никакой конструктивной критики (и даже не определился, стоит ли этим заняться). Прошу прощения за всё это.
Конечно, приятно, что Чапмен извинился, но было бы ещё приятней, если бы он удалил соответствующие высказывания из своего блога. Самые лучшие рационалисты — это люди вроде Скотта, Кая Соталы и Ванивера. Они ответили на высказывания Чапмена вдумчивыми вежливыми дискуссиями о математике и эпистемологии. Единственная ошибка, которую я могу усмотреть с их стороны, заключается в том, что им стоило бы сказать: «Послушай, Дэвид, давай ты перестанешь называть байесианцев религиозной сектой, а затем мы вежливо поговорим о математике и эпистемологии?»
[Томас Байес на картинке говорит: «Я сам пресвитерианский священник. Как забавно!» — Прим.перев.]
И не важно, сколько Дэвид Чапмен теперь будет говорить, что он, конечно, совершенно не хотел назвать Скотта, Кая и Ванивера сектантами. Вред уже нанесён. Слово «секта»(«cult») выпадает первым предложением, когда вы ищете в гугле «LessWrong». Люди смеются над LessWrong’ом за увлечённость загадочными нердовскими вопросами вроде безопасного ИИ и крионики. Теперь сверхпопулярный блоггер пишет тысячи слов о рационалистском просвещении, безопасном ИИ и крионике, брезгливо избегая любого упоминания LessWrong’а. Журналисты, не прочитавшие и страницы Цепочек, высмеивают сообщество. Я и сам наткнулся на сайт благодаря одной из таких статей!
Посты, подобные приведённым выше, очерняют всё сообщество, и Дэвид должен был это понять, с учётом того, что он знаком со Скоттом и другими. Мем «байесианство — это секта» привёл к тому, что многие члены сообщества покинули сайт — кто-то ради своих собственных уголков «диаспоры рационалистов», а кто-то и вовсе перестал поддерживать связь с сообществом. Это лишило всех общей базы интуиции и языка, которые у нас есть благодаря Цепочкам и которые позволяют нам делиться идеями и учиться друг у друга.
Что ещё хуже, это злословие оттолкнуло от LessWrong’а новых людей и случайных читателей и помешало им обнаружить ресурс, который мог бы изменить их жизнь. Именно поэтому я тут потратил 1500 слов на обсуждение «пострационалистов». Я не хочу, чтобы любопытный читатель начал гуглить «LessWrong» и получил ужасно искажённое впечатление.
Рациональность помогла мне встретить прекрасную девушку (подробнее об этом я расскажу позже). Благодаря рациональности у меня появились интуиция, умение анализировать и уверенность, позволяющая не доверять на слово даже учёным. Рациональность позволяет мне сохранять хладнокровие и рассуждать о кривых распределения в разгар «войны культур». Рациональность даёт мне мудрость менять то, что я могу изменить, и принимать то, что я изменить не могу. Рациональность вдохновила меня на написание единственной в моей жизни поэмы.
И вы теперь тоже можете писать плохие поэмы. Добро пожаловать в общество рационалистов. Да будете вы завтра менее неправы, чем сегодня.
Способность GPT4 программировать, творчески генерировать идеи, писать письма и делать немало чего ещё много кого удивила. В машинном обучении она в этом не одинока: до неё меня, как и многих способных прогнозистов удивили математические способности Minerva.
Как меньше удивляться при появлении новых ИИ-разработок? Наш мозг часто совершает прогноз нулевого порядка: смотрит на нынешнее положение дел и добавляет усовершенствования, которые «кажутся осмысленными». Но оценка, что именно «кажется осмысленным», подвержена когнитивным искажениям и будет недооценивать прогресс в столь быстро развивающейся области как машинное обучение. Более эффективный подход – прогнозирование первого порядка: численно оценить историческую скорость прогресса и экстраполировать её вперёд, обращая при этом внимание на возможные причины замедления или ускорения.1
В этом посте я использую этот подход для прогнозирования свойств больших предобученных ИИ в 2030 году. Я дальше буду говорить о «GPT2030». Это гипотетическая система, которая обладает способностями, вычислительными ресурсами и скоростью вывода, которые получатся, если экстраполировать большие языковые модели на 2030 год (но эта система скорее всего будет обучена и в других модальностях, таких как изображения). Чтобы предсказать свойства GPT2030, я рассмотрел много источников информации, включая эмпирические законы масштабирования, прогнозы о будущих вычислительных мощностях и будущей доступности данных, скорость улучшения по конкретным метрикам, скорость вывода нынешних систем и возможные будущие улучшения параллелизма.
Способности GPT2030 оказываются удивительными (по крайней мере, для меня). В частности, GPT2030 будет обладать некоторыми значительными преимуществами как над нынешними системами2, так и (по крайней мере, в некоторых важных аспектах), над нынешними работниками-людьми:
Такие способности, как минимум, ускорят многие области исследований, и в то же время откроют значительные возможности для злоупотребления (Раздел 6). Программистские способности GPT2030 вкупе с параллелизацией и скоростью сделают её мощным инструментом для кибератак. Вдобавок, параллельное обучение можно будет направить на поведение людей, и использовать для манипуляций и дезинформации с тысячами «лет» практики.
Главным ограничителем ускорения будет автономность. Я ожидаю, что в областях вроде математики, где работу можно проверять автоматически, GPT2030 будет превосходить самых профессиональных математиков. Ещё я ожидаю, что в машинном обучении GPT2030 будет независимо проводить эксперименты и генерировать графики и отчёты, но аспиранты и исследователи будут указывать направление и оценивать результаты. В обоих случаях GPT2030 будет неотъемлемой частью процесса исследований.
Если исходить из того, как выглядят нынешние системы, мои прогнозы свойств GPT2030 кажутся контринтуитивными, и они действительно могут оказаться ошибочными, потому что нельзя быть точно уверенным в том, как машинное обучение будет выглядеть в 2030 году. Однако, пункты (1.-5.) выше – моя медианная оценка, и чем бы ни оказалась GPT2030, я сомневаюсь, что это будет «GPT-4, но немного лучше».
Если я прав, то влияние ИИ уж точно будет немаленьким. Нам надо готовиться к нему сейчас, задаваясь вопросами о том, что произойдёт на самых крупных масштабах (порядка триллионов долларов, десятков миллионов жизней и значимых изменений социальных процессов). Лучше удивляться сейчас, а не через 7 лет, когда эти системы уже будут работать.
Я ожидаю, что GPT2030 будет превосходить людей в программировании, взломе и математике, а также способности читать и обрабатывать большие объёмы текста для поиска закономерностей или фактов и генерации озарений. Наконец, раз AlphaFold и AlphaZero превосходили людей в проектировании белков и играх, GPT2030 тоже будет на это способна, например, если она будет мультимодально обучена на данных, похожих на обучающие данные AlphaFold/AlphaZero.
Программирование. GPT-4 опередила сильные человеческие результаты на задачах с LeetCode, выложенных после отсечки её обучающих данных (Bubeck et al. 2023, таблица 2), и прошла имитацию интервью нескольких больших технических компаний (Рис. 1.5). Скорость улучшений всё ещё высока, между GPT-3 и 4 произошёл скачок в 19%. С более сложным соревнованием CodeForces GPT-4 справилась хуже, но AlphaCode сравнялась с медианным участником-человеком. На ещё более сложном датасете APPS, Parsel опередил AlphaCode (7.8%->25.5%). Платформа прогнозирования Metaculus даёт 2027 в качестве медианного года достижения 80% на APPS, что превзошло бы почти всех людей.4
Взлом. Я ожидаю, что вместе с навыками программирования в целом будут расти и навыки взлома, и что вдобавок к этому модели смогут просматривать большие базы кода в поисках уязвимостей на куда больших масштабах и с куда большей тщательностью, чем люди. ChatGPT уже использовали для генерации эксплойтов и создания полиморфного вредоносного кода, что обычно считается продвинутой техникой атаки.
Математика. Minerva достигла пятидесятипроцентного результата на бенчмарке соревновательной математики (MATH), что лучше результатов большинства людей. Скорость прогресса велика (больше 30% за год), и низковисящих плодов ещё много: автоформализация, избавление от арифметических ошибок, улучшение техники цепочки мыслей, и улучшение качества данных5. Metaculus предсказывает 92% на MATH к 2025, и выдаёт 2028 как медианный год, когда ИИ выиграет золотую медаль Международной Математической Олимпиады, то есть выйдет на уровень лучших студентов в мире. Я лично ожидаю, что GPT2030 будет лучше самых профессиональных математиков доказывать хорошо сформулированные теоремы.6
Обработка информации. Способность отыскивать нужные факты в больших объёмах данных естественно вытекает из способностей больших языковых моделей к запоминанию и больших контекстных окон. Как выяснилось, GPT-4 достигает 86% точности на MMLU, широком наборе стандартизированных экзаменов, включающем юридический экзамен, MCAT, и экзамены по математике, физике, биохимии и философии уровня колледжа; даже если сделать поправку на вероятное пересечение с обучающими данными, это скорее всего превзойдёт широту эрудиции любого человека. Что касается больших корпусов данных, Чжун и пр. (2023) использовали GPT-3 для конструирования системы, которая открыла и описала несколько ранее неизвестных закономерностей в больших базах текста, и тренды масштабирования на схожих задачах от Биллс и пр. (2023) указывают, что модели скоро превзойдут в этом людей. Обе работы использовали большие контекстные окна LLM, сейчас они превысили 100,000 токенов и растут дальше.
Если обобщить, модели машинного обучения обладают не таким же набором навыков, что люди, потому что обучение на больших массивы данных из интернета, сильно отличается от «обучения» естественным отбором в ходе эволюции. К моменту, когда модели достигнут человеческого уровня в задачах вроде распознавания объектов на видео, они скорее всего уже будут обладать сверхчеловеческими навыками во многих других задачах, таких как математика, программирование и взлом. Более того, из-за роста моделей и совершенствования данных скорее всего со временем выявятся дополнительные мощные способности, и нет особых причин ожидать, что способности моделей «выйдут на плато» на человеческом уровне или ещё ниже. Хоть и возможно, что нынешние подходы глубинного обучения не дойдут до человеческого уровня в некоторых областях, равно возможно и что они его превзойдут, может быть, превзойдут сильно, особенно в областях вроде математики, для которых люди эволюционно не специализировались.
(Благодарю Льва МакКинни за результаты по бенчмаркам в этом разделе)
Для оценки скорости моделей машинного обучения мы измеряем, как быстро они генерируют текст, сравнивая с скоростью мышления человека в 380 слов в минуту (Корба (2016), см также Приложение A). Использование API продолжения чата от OpenAI, мы оценили, что в апреле 2023 года gpt-3.5-turbo может генерировать 1200 слов в минуту (wpm), а gpt-4 генерирует 370 wpm. Меньшие модели с открытым кодом вроде pythia-12b достигают как минимум 1350 wpm при привлечении дополнительных инструментов и на A100 GPU. Кажется, что при дальнейшей оптимизации это можно удвоить.
Следовательно, если рассматривать модели от OpenAI по состоянию на апрель, они получаются либо примерно в три раза быстрее людей, либо примерно на том же уровне. Я ожидаю, что модели в будущем будут быстрее, потому что для ускорения вывода есть мощные коммерческие и практические стимулы. И правда, согласно данным отслеживания от Фабиена Роджера, в неделю до выкладывания этого поста скорость GPT-4 уже увеличили до 540 wpm (12 токенов в секунду). Это демонстрирует возможности улучшений и желание этими возможностями пользоваться.
Мой медианный прогноз – что модели будут в пять раз превосходить людей по словам в минуту (диапазон: [0.5, 20]), так как примерно там практические преимущества дальнейшего ускорения пойдёт на спад. Однако, есть соображения и в пользу как более, так и менее высоких чисел, их подробный список, как и сравнение скоростей моделей разных масштабов и подробности упомянутых выше экспериментов можно посмотреть в Приложении A.
Большое значение имеет то, что скорость моделей машинного обучения не фиксирована. Последовательную скорость вывода можно увеличить в k2 раз ценой уменьшения пропускной способности в k раз (иными словами, k3 параллельно работающих копий модели можно заменить на одну в k2 раз более быструю). Этого можно достигнуть при помощи параллельной схемы, теоретически работающей даже для больших значений k2, скорее всего как минимум до 100, а может и больше. Так что модель, в пять раз превышающую по скорости человека, можно ускорить до 125-кратного превосходства при k=5.
Важная оговорка – скорость не обязательно сопровождается качеством: как описано в Разделе 1, набор навыков GPT2030 будет отличаться от человеческого, она будет проваливаться на некоторых задачах, которые мы считаем простыми и в совершенстве исполнять некоторые, которые мы считаем сложными. Так что нам не надо думать о GPT2030, как о «ускоренном человеке», но, скорее, как о «ускоренном работнике» с потенциально контринтуитивным набором навыков.
Несмотря на это, ускорение рассматривать полезно, особенно когда оно большое. Языковые модели, опережающие по скорости людей в 125 раз, будут выполнять входящие в их набор навыков когнитивные задачи, которые заняли бы у человека целый день, за считанные минуты. Если опять взять пример взлома – системы машинного обучения смогут быстро находить эксплойты и проводить атаки, отнявшие бы у человека много времени.
Копирование моделей ограничено только доступными вычислительными мощностями и памятью. Это позволяет им быстро выполнять любую работу, которую можно эффективно распараллелить. К тому же, особенно эффективно донастроив одну модель, можно сразу же перенести изменение на другие экземпляры. Ещё модели можно дистиллировать под конкретные задачи, что ускорит и удешевит их использование.
Скорее всего, после обучения модели будет доступно достаточно ресурсов, чтобы запустить много её копий, потому что обучение модели требует запуска многих параллельных копий, и какая бы организация её не обучила, вероятно, те же ресурсы будут ей доступны и при развёртывании. Следовательно, мы можем получить нижнюю границу числа копий, оценив затраты на обучение.
Пример такого расчёта – затраты на обучение GPT-3 были бы достаточны для 9x1011 её же запусков. Приводя к человеческому эквиваленту, люди думают со скоростью в 380 слов в минуту (см. Приложение A), а одно слово – это в среднем 1.33 токена, так что 9x1011 запусков соответствуют ~3400 годам работы с человеческой скоростью. Следовательно, организация может запускать 3400 параллельных копий модели на целый год на человеческой скорости работы, или то же число копий на 2.4 месяца с пятикратной скоростью. (Примечание: последнее зависит от того, сколько экземпляров модели организация может запустить параллельно, см. сноску7 за подробностями.)
Давайте теперь экстраполируем, насколько обучение «забегает вперёд», то есть, соотношение стоимостей обучения и запуска, на будущие модели. Оно должно вырасти: в основном потому, что оно примерно пропорционально размеру датасета, а они растут. Этот тренд замедлится, когда мы исчерпаем запасы естественных языковых данных, но новые модальности и синтезированные/самосгенерированные данные не позволят ему остановиться.8 В Приложении B я рассмотрел эти факторы подробно, чтобы экстраполировать их на 2030 год. Я ожидаю, что вычислительные ресурсы, затраченные на обучение модели в 2030 году, будут примерно равны ресурсам, необходимым на исполнение той же моделью, при пересчёте на человеческую скорость, 1,800,000 лет работы [диапазон: 400K-10M].
Отмечу, что Котра (2020) и Дэвидсон (2023) оценивали схожие параметры и пришли к бОльшим числам, чем у меня. Я полагаю, основное различие – то, как я моделирую эффект исчерпания данных на естественном языке.
Экстраполяция выше несколько консервативна, потому что модель можно запустить и с привлечением больших ресурсов, чем использовалось при обучении, если организация докупит дополнительные мощности. Быстрая оценка выдаёт, что GPT-4 обучили, используя примерно 0.01% от всех вычислительных ресурсов мира. Впрочем, я ожидаю, что будущие процессы обучения будут использовать бОльшую долю мировых вычислительных мощностей, так что у них будет меньше возможностей для дальнейшего масштабирования. Всё равно организация, если у неё будет хороший повод это сделать, сможет увеличить число копий ещё на порядок.
(Спасибо Джеффу Хинтону, который первый высказал мне этот аргумент.)
Разные копии модели могут делиться обновлениями параметров. К примеру, ChatGPT может взаимодействовать с миллионами пользователей, узнавать что-то новое из каждого взаимодействия, и скидывать градиентные сдвиги на центральный сервер, где их усреднят и применят ко всем копиям модели. Таким образом ChatGPT может получить больше информации о людях за час, чем человек за всю жизнь (1 миллион часов = 114 лет). Параллельное обучение может быть одним из главных преимуществ моделей, потому что оно позволит им быстро обучаться любым упущенным навыкам.
Скорость параллельного обучения зависит от того, сколько копий модели запущены разом, как быстро они могут получать данные, и можно ли эти данные эффективно использовать параллельно. Наконец, даже очень мощная параллелизация не должна особо вредить эффективности, ведь на практике нередки многомиллионные размеры датасетов, а масштабирование градиентного шума (МакКэндлиш и пр., 2018) предсказывает минимальное снижение качества обучения до достижения «критического размера батчей». Так что мы сосредоточимся на числе копий и получении данных.
Я приведу две оценки, и из обеих получается, что вполне достижимо будет параллельно обучать с человеческой скоростью по меньшей мере ~1 миллион копий модели. Это соответствует 2500 человеческим годам обучения за день, потому что 1 миллион дней – это примерно 2500 лет.
Первая оценка использует числа из Раздела 3, в котором получился вывод, что затрат на обучение модели достаточно для симуляции этой же модели на протяжении 1.8 миллиона лет работы (приводя к человеческой скорости). Предполагая, что обучение продолжалось менее, чем 1.2 года (Севилла и пр., 2022), получим, что организация, обучившая модель, будет обладать достаточными GPU, чтобы запустить 1.5 миллиона копий на человеческой скорости.
Вторая оценка берётся из рассмотрения доли рынка организации, развернувшей модель. К примеру, если 1 миллион пользователей одновременно дают запросы модели, организации уж точно надо обладать ресурсами на обслуживание 1 миллиона копий модели. Для примера, у ChatGPT в мае 2023 года было 100 миллионов пользователей (не все активны одновременно), а в январе – 13 миллионов активных пользователей в день. Я предположу, что типичный пользователь запрашивал генерацию текста, занимающую несколько минут, так что январское число скорее всего сводится к всего лишь 0.05 миллиона человеко-дней текста каждый день. Однако, кажется весьма правдоподобным, что будущие модели в духе ChatGPT обойдут это раз в двадцать и достигнут 250 миллионов активных пользователей и 1 миллиона человеко-дней генерации в день. Для сравнения – у Facebook сейчас 2 миллиарда активных пользователей каждый день.
До сих пор схожие с GPT модели в основном обучались на тексте и программном коде и обладали сильно ограниченными методами взаимодействия с окружающим миром – через чат. Но это быстро меняется, модели обучаются на дополнительных модальностях вроде изображений, обучаются использовать инструменты и взаимодействовать с физическими устройствами. Более того, модели не будут ограничены доступными людям модальностями вроде текста, естественных изображений, видео и речи - скорее всего их будут обучать и на незнакомых нам модальностях вроде сетевого трафика, астрономических снимков и иных больших объёмов данных.
Инструменты. Недавно выпущенные модели используют внешние инструменты, см. плагины ChatGPT, а также Шик и пр. (2023), Яо и пр. (2022) и Гао и пр. (2022). В комплекте с использованием инструментов, генерации текста становится достаточно, чтобы писать код, который будет исполняться, убеждать людей совершать действия, взаимодействовать с API, совершать транзакции и, потенциально, проводить кибератаки. Использование инструментов экономически выгодно, так что для дальнейшего его развития есть сильные стимулы.
ChatGPT реактивна – пользователь говорит X, ChatGPT отвечает Y. Риски есть, но ограничены. Скоро будет большое искушение создавать проактивные системы – помощник, который отвечает за вас на e-mail’ы, сам совершает действия для вашей выгоды, и т.д. Риски будут куда выше.
— Percy Liang (@percyliang) February 27, 2023
Новые модальности. Сейчас уже есть большие обученные на тексте и изображениях модели, как коммерческие (GPT-4, Flamingo), так и с открытым исходным кодом (OpenFlamingo). Исследователи экспериментируют и с более экзотическими парами модальностей, например, язык и строение белков (Гуо и пр., 2023).
Стоит ожидать, что модальности больших предобученных моделей будут расширяться. На то есть две причины. Во-первых, экономически полезно добавлять к менее знакомым модальностям (таким как белки) язык, чтобы пользователи могли получать объяснения и эффективно править результаты. Так можно спрогнозировать мультимодальное обучение с строением белков, биомедицинскими данными, моделями CAD, и любыми другими модальностями, ассоциированными с большим сектором экономики.
Во-вторых, языковые данные начинают заканчиваться, так что разработчики моделей будут искать новые типы данных, чтобы продолжать наращивать масштабы. Кроме традиционных текста и видео, некоторые из крупнейших источников существующих данных – это астрономические (скоро будут измеряться экзабайтами в день) и геномные (около 0.1 экзабайта в день). Правдоподобно, что как эти, так и другие крупные источники данных будут использоваться для обучения GPT2030.
Применение экзотических модальностей означает, что у GPT2030 могут быть контринтуитивные способности. Она может понимать звёзды и гены куда лучше нас, с трудом при этом справляясь с базовыми физическими задачами. Это может привести к нарушению ожиданий, основанных на уровне «обобщённого» интеллекта GPT2030, например, к проектированию новых белков. Важно учитывать, что благодаря экзотическим источникам данных она вполне может обладать подобными специфическими сверхчеловеческими способностями.
Актуаторы. Модели начинают использовать физические актуаторы: ChatGPT уже использовали для управления роботами, а OpenAI инвестирует в робототехническую компанию. Однако, в физических областях куда дороже собирать данные, чем в цифровых, да и люди к ним эволюционно приспособлены лучше (так что планка для конкуренции с нами для ML-моделей будет выше). Так что я ожидаю, что в сравнении с цифровыми областями овладевание актуаторами будет происходить медленнее, и я не уверен, стоит ли этого ожидать к 2030. Я оцениваю в 40% вероятность, что к 2030 будет модель общего назначения, способная сама собрать реплику Ferrari в натуральную величину, как сформулировано в этом вопросе на Metaculus.
Давайте проанализируем, что система вроде GPT2030 будет значить для общества. Система с характеристиками GPT2030 как минимум значительно бы ускорила некоторые области исследований, одновременно обладая немалым потенциалом злонамеренного использования.
Я начну с перечисления некоторых основных сильных и слабых сторон GPT2030, и посмотрю, что они значат для ускорения и для злонамеренного использования.
Сильные стороны. GPT2030 – это многочисленная, быстро адаптируемая и высокопродуктивная рабочая сила. Напомню, что копии GPT2030 смогут выполнить 1.8 миллиона лет работы9, и каждая копия будет работать в 5 раз быстрее человека. Это означает, что мы сможем симулировать 1.8 миллиона агентов, работающих по год каждый, за 2.4 месяца. Как описано выше, мы также сможем заплатить впятеро больше за FLOP, чтобы получить дополнительное ускорение – до 125-кратной человеческой скорости. Получается 14 тысяч агентов, работающих по году каждый за 3 дня10.
Слабые стороны и ограничения. Есть три препятствия к использованию этой цифровой рабочей силы – набор навыков, стоимость экспериментов и автономность. По первому – GPT2030 будет обладать не таким набором навыков, что люди, так что она будет хуже справляться с некоторыми задачами (но лучше с другими). По второму – симулированным рабочим надо взаимодействовать с миром для сбора данных, и у этого будут свои затраты времени и вычислительных мощностей. Наконец, по автономности – сейчас модели могут сгенерировать лишь несколько тысяч токенов цепочки мыслей, прежде чем «застрянут» в состоянии, в котором больше не могут выдавать высококачественный вывод. Нам потребуется значительное повышение надёжности, чтобы мы смогли поручать моделям сложные задачи. Я ожидаю, что надёжность будет расти, но не безгранично: моя (очень грубая) оценка такова, что GPT2030 сможет работать несколько человеко-эквивалентных дней, прежде чем её надо будет перезапустить или перенаправить внешней обратной связью. Если модели будут работать в пять раз быстрее людей, получается, что присматривать за ними надо будет раз в несколько часов.
Получается, задачи, в которых влияние GPT2030 будет наивысшим, это те, которые:
Ускорение. Одна хорошо соответствующая этим критериям задача – математические исследования. По первому – у GPT2030 скорее всего будут сверхчеловеческие математические способности (см. Раздел 1). По второму и третьему – математикой можно заниматься исключительно думая и записывая, а узнать, когда теорема доказана, легко. Кроме того, в мире не так много математиков (например, в США всего около 3000), так что GPT2030 сможет симулировать десятикратный годовой выхлоп математиков за несколько дней.
Значительная часть исследований ML тоже удовлетворяет этим критериям. GPT2030 будет сверхчеловеческим программистом, что включает в себя составление и проведение экспериментов. Думаю, она будет хороша и в презентации и объяснении их результатов, учитывая, что GPT-4 уже хороша в доступном объяснении сложных тем (и у этого навыка немалый рыночный запрос). Исследование ML можно свести к придумыванию хороших экспериментов и получению хорошо оформленных (но потенциально ненадёжных) описаний результатов. Таким образом, в 2030 аспиранты смогут пользоваться ресурсами, которые сейчас доступны профессору с несколькими сильными студентами.
Значительному ускорению подвергнутся и некоторые социальные науки. Есть много статей, которые в основном описывают поиск, категоризацию и разметку интересных с научной точки зрения источников данных и выявление значимых паттернов – за примерами см. Асемоглу и пр. (2001) или Вебб (2020). Это соответствует критерию (3), потому что категоризация и разметка декомпозируются на простые подзадачи, и критерию (2), пока данные доступны в Интернете или могут быть собраны онлайн-опросом.
Злоупотребление. Кроме ускорения, возникнут и серьёзные риски злоупотребления. Самый прямой путь – способности к взлому. Изучить конкретную цель в поисках уязвимостей конкретного вида просто, проверить (при возможности взаимодействовать с кодом), работает ли эксплойт – тоже, так что критерий (3.) выполняется вдвойне. По (2.), GPT2030 придётся взаимодействовать с целевыми системами, чтобы знать, работает ли эксплойт, что может быть затратно, но не настолько, чтобы значительно помешать. Более того, модель может локально проектировать и тестировать эксплойты, используя как обучающие данные открытый код, так что она может стать очень хороша в взломе без необходимости взаимодействовать с внешними системами. Так что GPT2030 сможет быстро исполнять сложные кибератаки параллельно против большого количества целей.
Второй тип злоупотреблений – манипуляция. Если GPT2030 будет взаимодействовать с миллионами пользователей за раз, то за час она будет получать больше информации о взаимодействиях с людьми, чем человек получает за всю жизнь (1 миллион часов = 114 лет). Если использовать это для обучения манипуляции, то итоговые навыки могут сильно превосходить человеческий уровень – для сравнения, некоторые мошенники хорошо обманывают своих жертв, потому что практиковались на сотнях людей, а GPT2030 сможет обойти это на несколько порядков. Так что она сможет очень хорошо манипулировать пользователями в разговорах один на один и в написании статей для сдвига общественного мнения.
Подводя итоги, GPT2030 сможет автоматизировать практически все математические исследования и значимую часть других областей, и она откроет мощные пути злоупотребления, как через кибератаки, так и через убеждение/манипуляцию. Большая часть её воздействия на мир будет ограничиваться «бутылочным горлышком присмотра», так что оно усилится, если она сможет долго автономно работать.
Выражаю благодарность Louise Verkin за переделывание этого поста в формат Ghost, и Lev McKinney за проведение эмпирических экспериментов с бенчмарками. Благодарю Karena Cai, Michael Webb, Leo Aschenbrenner, Anca Dragan, Roger Grosse, Lev McKinney, Ruiqi Zhong, Sam Bowman, Tatsunori Hashimoto, Percy Liang, Tom Davidson, и других за обратную связь к черновикам этого поста.
Для начала мы оценим, сколько слов в минуту выдают люди и современные модели, а затем – экстраполируем с современных моделей на будущие.
Что касается людей, есть пять чисел, которые можно измерять: скорость речи, чтения, восприятия на слух, а также «эллипсическая» и «расширенная» скорость мысли. По первым трём Рэйнер и Клифтон (2009) утверждают, что скорость чтения – 300 слов в минуту,11 скорость речи – 160 слов в минуту12, а восприятие речи возможно в два-три раза быстрее (то есть, ~400 слов в минуту)13. Скорость мысли нам надо разделять на «эллипсическую» и «расширенную» – оказывается, мы думаем своего рода вспышками слов, а не целыми фразами, и если расширить эти вспышки до полных предложений, то получится совсем другое число слов (отличие примерно в 10 раз). Корба (2016) выяснил, что эллипсическая мысль работает со скоростью примерно в 380 слов в минуту, а расширенная – ~4200 слов в минуту. Так как большая часть этих чисел находятся где-то в области 300-400 слов в минуту, я буду использовать 380 слов в минуту как свою оценку скорости мышления человека. Если взять предлагаемое OpenAI соотношение 3 слова : 4 токена, то получается 500 токенов в минуту.14
(Благодарю Льва МакКинни за проведение оценок из следующих абзацев.)
Далее рассмотрим современные модели. Мы исследовали gpt-3.5-turbo, gpt-4, и несколько моделей с открытым исходным кодом от EleutherAI, чтобы оценить их скорость вывода. Мы просили их считать от 1 до n, а n изменяли от 100 до 1900 включительно шагами по 100. Так как числа содержат больше одного токена, мы прерывали выполнение, когда модель генерировала n токенов, и измеряли прошедшее время. Затем мы провели линейную регрессию с учётом временного лага, чтобы оценить асимптотическую скорость в токенах в секунду.
GPT-4 и GPT-3.5-turbo использовались при помощи OpenAI API в начале апреля 2023 года. Все эксперименты с моделями pythia проводились при помощи технологии «deepspeed’s injected kernels» и моделей fp16 на одной видеокарте A100 GPU.15 Код для воспроизведения этих результатов можно найти https://github.com/levmckinney/llm-racing.
Ниже показаны сырые данные на Рисунке 1, и конечные оценки токенов в минуту – на Рисунке 2 и в Таблице 1.
На Рисунке 1 показано, как время вывода модели масштабируется при изменении ввода. Обратите внимание, что время на токен на этих масштабах остаётся приблизительно постоянным.
На Рисунке 2 и в таблице снизу показано, как скорость вывода модели меняется в зависимости от её размера. Полосы ошибок – интервалы уверенности в 95%.
Название модели | Токены в минуту |
gpt-4 | 493 |
gpt-3.5-turbo | 1641 |
EleutherAI/pythia-12b-deduped | 1801 |
EleutherAI/pythia-6.9b-deduped | 2659 |
EleutherAI/pythia-2.8b-deduped | 4568 |
EleutherAI/pythia-1.4b-deduped | 7040 |
EleutherAI/pythia-410m-deduped | 11039 |
EleutherAI/pythia-160m-deduped | 21580 |
EleutherAI/pythia-70m-deduped | 31809 |
Таким образом, GPT-4 близка к человеческому значению в 500 токенов в минуту, тогда как GPT-3.5-turbo примерно в три раза быстрее. Меньшие модели быстрее ещё на порядок, что указывает и на возможность ещё больших скоростей, и на то, что будущие модели большего размера могут быть медленнее (без учёта лучшего железа и оптимизаций). На практике при росте размера модели скорость замедляется сублинейно – в моделях pythia увеличение размера в k раз уменьшает скорость вывода примерно в k0.6 раз.
Как число слов в минуту изменится для будущих моделей?
Есть факторы, толкающие как в сторону ускорения, так и в сторону замедления:
Наконец, отходя от сырой скорости, слова в минуту – не вполне равное сравнение людей и языковых моделей. Для начала, языковые модели не просто думают, а пишут, и, в некоторых случаях, пишут что-нибудь, что человек писал бы куда медленнее (например, код или аргументы с ссылками на источники). С другой стороны, языковые модели сейчас довольно многословны, так что одно слово от модели менее значимо, чем одно слово от человека. От этой многословности можно отучить файн-тюнингом, но неочевидно, возможно ли дойти до эффективности эллипсических человеческих мыслей. Наконец, токенизация и сложность слов меняются со временем, так что соотношение между токенами и словами в 1.333 не будет оставаться константным (я, на самом деле, думаю, что оно уже недооценено, потому что нынешние модели склонны использовать сложные слова с префиксами и суффиксами).
Больше по поводу параллелизации и ускорения «железа». Как описано в «Насколко быстрым можно сделать проход вперёд?», есть схемы параллельного тайлинга, значительно ускоряющие скорость последовательного вывода с лишь минимальной стоимостью. Применительно к GPT-3 это ускорило бы её как минимум в 30 раз при использовании кластера A100 в сравнении с одной машиной с восемью GPU16. Эти оптимизации сейчас не очень широко используют, потому что они бесполезны при обучении и немного уменьшают пропускную способность, но их будут использовать, если время вывода станет критичным.
Что касается «железа», GPU становятся мощнее, что ускорит вывод. Но GPU создают с всё расчётом на всё большее соотношение операций к памяти, что снизит возможный эффект параллельного тайлинга. Ниже приведены характеристики GPU от NVIDIA. В столбце «Mem Bandwidth» указана последовательная пропускная способность без параллелизации по нескольким GPU17, а в последнем столбце M3/С2 – при максимальном распараллеливании с подходящим соотношением18. Первая явно растёт, а вот вторая неравномерно, но скорее снижается.
Дата | GPU | Compute | Memory | Clock Speed | Mem Bandwidth | Interconnect | Network | M3 / C2 |
Май 2016 | P100 | ~84TF | 16GB | 1.45GHz | 720GB/s | 160GB/s | 53M | |
Декабрь 2017 | V100 16GB | 125TF | 16GB | 1.49GHz | 900GB/s | 300GB/s | ~25GB/s | 47M |
Март 2018 | V100 32GB | 125TF | 32GB | 1.49GHz | 900GB/s | 300GB/s | ~100GB/s | 47M |
Май 2020 | A100 40GB | 312TF | 40GB | 1.38GHz | 1555GB/s | 600GB/s | ~400GB/s | 39M |
Ноябрь 2020 | A100 80GB | 312TF | 80GB | 1.38GHz | 2039GB/s | 600GB/s | ~400GB/s | 87M |
~Август 2022 | H100 | 2000TF | 80GB | 1.74GHz | 3072GB/s | 900GB/s | 900GB/s? | 7.2M |
Когда модель обучили, скорее всего можно будет сразу же запустить много её копий. На обучение GPT-3 потребовалось 3.1e23 FLOP, а на один прямой прогон – 3.5e11 FLOP, так что за стоимость обучения можно было совершить 9e11 прогонов. При конверсии в 500 токенов в минуту из Приложения A получаем ~3400 человеческих лет работы.
Как это изменится в будущем? Для своей оценки я сначала использую законы масштабирования Chinchilla и экстраполяции будущих затрат на обучение, а потом смотрю на то, как мы можем от этого отклониться. Для будущих затрат на обучение возьмём оценку из Безироглу и пр. (2022). Они проанализировали больше 500 существующих моделей, чтобы экстраполировать тренды вычислительной мощности машинного обучения. Центральный прогноз FLOP на обучение в 2030 году – 4.7e28, а диапазон – от 5.1e26 до 3.0e30. Metaculus выдаёт схожую оценку в 2.3e27 (для 1 января 2031 года)19. Взяв геометрическую медиану получаем 1.0e28 как оценку FLOP на обучение. Это в 33 тысячи раз больше, чем у GPT-3. Законы масштабирования Chinchilla подразумевают, что размер модели (а значит и затраты на вывод) масштабируется как корень из затрат на обучение. Получается, что обгон обучения увеличится примерно в 180 раз. Это превратит 3400 человеческих лет в 620000. Но есть и ещё одно соображение: GPT-3 обучали не оптимально. Идеальный размер GPT-3 (исходя из затрат на обучение) был бы в 4 раза меньше. Так получаем целых 2.5 миллиона человеческих лет или, если учесть неуверенность в числе FLOP на обучение, диапазон от 0.8 до 9 миллионов20.
Теперь давайте рассмотрим отклонения от законов масштабирования Chinchilla. Самое очевидное – у нас могут закончиться данные. Последствия могут быть разными. Во-первых, это может привести к тому, что будет отдаваться предпочтение увеличению размера моделей, а не количества данных. Это уменьшило бы обгон обучения. Во-вторых, могут начать использовать дополнительные синтетические данные. Это сделало бы создание данных более вычислительно затратным и увеличило бы обгон обучения. Третий вариант – можно перейти к новым богатым данными модальностям вроде видео. Тут эффект на обгон обучения неясен, наверное, всё же, он увеличился бы. Проставим грубые границы этих эффектов:
В целом, нижняя граница кажется мне довольно пессимистичной, уж точно будут какие-то способы использовать низкокачественные или синтетические данные. С другой стороны, помимо того, что могут закончится данные, мы можем ещё и найти способы сделать процесс обучения эффективнее. С учётом этого, моя личная догадка – что-то между двенадцатикратного и двухсоткратного увеличения обгона, с центральной оценкой в 100 раз. Получается примерно 1.8 миллиона человеческих лет мышления. Хочется ещё расширить диапазон из-за дополнительной неуверенности по поводу отклонений от законов Chinchilla. Интуитивно я получаю от 0.4 до 10 миллионов лет.
Все эти оценки – для 2030. В целом, они должны быть больше для более следующих лет и меньше для предыдущих.
Дополнительная опора для сравнения: Карнофски (2022) (следуя за Котрой, 2020 оценивает, что затрат на обучение модели человеческого уровня хватило бы на запуск 100 миллионов копий модели на год каждая. Впрочем, он использует оценку в 1e30, а не 1e28 FLOP на обучение. Даже так, это мне кажется слишком уж большим числом, и я склоняюсь к 1.8, а не 100 миллионам.
С учётом того, насколько они будут способными, будущие ИИ-системы смогут представлять серьёзные риски для общества. Некоторые из рисков исходят от того, что люди будут использовать ИИ в плохих целях (злоупотребление). А некоторые – от сложности контроля ИИ-систем, «даже если бы мы пытались» (несогласованность).
В обоих случаях можно провести аналогию с уже существующими рисками. Для злоупотребления можно рассмотреть пример ядерного оружия: массовое производство водородных бомб привело к экзистенциально-щекотливой ситуации. Если мировой арсенал водородных бомб будет применён в военном конфликте, результатом вполне может стать наше уничтожение. Схожим образом ИИ могут дать странам создать мощное автономное вооружение, ускорить исследования других опасных технологий вроде супервирусов или развернуть массовую слежку и другие формы контроля.
Лучшей аналогией для несогласованности могут стать биология и патогены. При разработке ИИ-системы адаптируются под обучающие данные, аналогично тому, как биологические организмы адаптируются к своему окружению. Поэтому, в отличие от традиционных технологий, большую часть свойств ИИ обретают не из-за явного намерения или плана людей. Следовательно, ИИ-системы могут обладать не предполагавшимися целями или демонстрировать не предполагавшееся поведение, противоречащее желаниям разработчиков. Так что риски несёт даже обучение системы: она может «захотеть» стать сильнее для достижения своих целей и, подобно вирусу, размножиться и создать свои копии. Сдержать такую мятежную систему будет потом сложно.
В этом посте я буду рассуждать о несогласованности, злоупотреблении и их взаимодействии. Особое внимание я уделю несогласованности. Я не утверждаю, что злоупотребления неважны, но сложность контроля ML-систем, «даже если мы пытаемся» – очень важный и не понятный интуитивно фактор для рисков ИИ в целом. Я сосредоточусь на конкретном явлении – нежелательных стремлениях. Из-за них модели могут проявлять устойчивые долговременные паттерны нежелательного поведения, включая стремление к власти и ресурсам. Нежелательные стремления по духу аналогичны идее неправильно определённых целей, но я использую именно такой термин, чтобы указать, что не всё имеющее важные последствия поведение направлено на цель (представьте себе слона в посудной лавке). Более того, как я покажу ниже, неправильное определение целей – только один из путей возникновения нежелательных стремлений.
Нежелательные стремления – ключевой элемент многих беспокойств о несогласованности, а злоупотребление может значительно их усилить. В результате, злоупотребление и несогласованность переплетаются. Например, может оказаться, что препятствовать несогласованности умеренно сложно, но не невозможно, но кто-то неосторожный попросту не применит лучшие известные практики и создаст опасную и мощную систему.
Это обсуждение не призвано полностью покрыть ни все риски ИИ, ни даже все риски от несогласованности и злоупотреблений. Цель тут – обрисовать концепцию нежелательных стремлений, показать, что они могут привести к важным и неинтуитивным проблемам, и использовать её для анализа рисков несогласованности и злоупотреблений. Я сначала затрону согласование в Разделе 1, а потом злоупотребления (и их взаимодействия с несогласованностью) в Разделе 2.
Как я уже упоминал, ML-системы адаптируются под данные, а не собираются по частям. В результате мы получаем куда более хитрую ситуацию, чем с надёжностью софта или железа. В случае софта мы сами создаём каждый компонент, так что (в принципе) можем заложить в проект безопасность и надёжность. А большинство способностей ML, напротив, неявно заполучаются из данных и зачастую неожиданно возникают при масштабировании. Из-за этого поверхность потенциальных неудач получается большой и неисследованной. К примеру, Перез и пр. (2022) обнаружили несколько новых нежелательных способностей при помощи автоматического тестирования. В итоге, у нас сейчас нет методов надёжного направления поведения ИИ-систем (Боуман, 2023).
Как эмерджентное поведение может привести к тому, что система неявно станет опасной? Приведём простой аргумент. Пусть система эмерджентно вырабатывает нежелательные стремления. Причиной может быть то, что новые способности позволяют ей максимизировать вознаграждение не предполагавшимся способом (взлом вознаграждения). Альтернативная причина – система при обучении учится полезным навыкам, которые нежелательным образом обобщаются при тестировании (эмерджентные стремления). Если этому не помешать, некоторые нежелательные стремления могут привести к накоплению сил или ресурсов, ведь это инструментально полезно для самых разных конечных целей. В итоге система будет без меры накапливать ресурсы, и, если она обладает способностями к взлому, убеждению, или ещё в некоторых областях, это может нести огромные риски. А такие способности, как я считаю, вполне правдоподобны к 2030 году, если взглянуть на сегодняшние тренды.
Если подробнее, нежелательное стремление – это последовательный паттерн поведения, обычно направленный на нежелательные исходы. К примеру, если модель просто галлюцинирует – это нежелательное поведение, но не стремление. А если она после этого настаивает на своём и пытается убедить даже проявляющего скептицизм пользователя, что выдала правду – это нежелательное стремление. Нас заботят стремления (а не просто поведение), потому что они приводят к устойчивым поведенческим паттернам и могут сопротивляться исправлению. Эмерджентность для них не обязательна, но из-за неё они могут возникнуть внезапно.
В остатке этого раздела я подробнее пройдусь по взлому вознаграждения и эмерджентным стремлениям. Я покажу как эмпирические, так и концептуальные свидетельства, что они уже случаются, и что они станут хуже по мере масштабирования систем. Затем я кратко поговорю о эмерджентных инструментальных подцелях и о том, почему они могут привести к тому, что система будет стремиться к могуществу.
Мы определили стремление как последовательный паттерн поведения, который подталкивает систему или её окружение к определённому исходу или набору исходов1. Стремления могут работать не всегда и могут компенсироваться другими стремлениями или окружением. К примеру, чатботы вроде GPT-4 обладают стремлением быть полезными (и иногда ему противодействует другое стремление – избегать вреда). У людей голод – это стремление, которому могут противодействовать сытость или намеренное воздержание от пищи. Нежелательные стремления – те, которые не были в явном виде встроены в систему, и которые ведут к нежелательным последствиям.
Взлом вознаграждения. Одна из причин нежелательных стремлений ИИ-систем – взлом вознаграждения: склонность моделей преследовать свою явно заданную цель за счёт предполагавшейся цели. Вот некоторые экспериментальные примеры:
За большим набором примеров см. Краковна и пр. (2020).
Эмерджентные способности могут вызвать взлом вознаграждения, потому что они часто открывают новые пути достижения высокого вознаграждения, которых создатели системы не ожидали:
Во всех этих случаях новая способность разблокировала неожиданный и вредный способ увеличить вознаграждение. По мере масштабирования моделей возникают новые эмерджентные способности, так что нам следует ожидать и более тяжёлых случаев взлома вознаграждения. Исследования масштабирования Пана и пр. (2022) и Гао и пр. (2022) поддерживают этот вывод. Они сообщают, что проблема взлома вознаграждения ухудшается при масштабировании и иногда возникает внезапно.
Эмерджентные стремления. Нежелательные стремления могут возникнуть даже без взлома вознаграждения – как следствие обобщения необходимых навыков. Выполнение сложных задач требует развития набора поднавыков, и они могут в новой ситуации обобщиться неожиданным образом. В результате модели могут начать следовать стремлению, даже если это не повышает вознаграждение.
На примере биологии: кошки выучили поднавык охоты как часть большего навыка выживания и размножения. Эволюция встроила его в них как стремление, так что сейчас домашние кошки охотятся на птиц и мышей даже если вполне сыты.
В машинном обучении чатбот Sydney при релизе демонстрировал несколько эмерджентных стремлений:
Сложно систематически изучать эмерджентные стремления, потому что это требует длинных диалогов и потому что только самые новые LLM достаточно способны для последовательного долгосрочного поведения. Для получения более систематизированных данных мы можем смотреть на отдельные ответы на вопросы, их изучать проще. Я теперь буду говорить об эмерджентных склонностях, чтобы отличать их от более долгосрочных стремлений. Перез и пр. (2022) рассмотрели несколько таких склонностей, например:
Модели становятся всё более способными к последовательному долгосрочному поведению. Скорее всего, это приведёт к появлению ещё многих эмерджентных склонностей и стремлений. Более подробное обсуждение этой темы можно увидеть в моём предыдущем посте про Эмерджентную Обманчивость и Эмерджентную Оптимизацию (конкретно во второй половине – про оптимизацию).
Конвергентные инструментальные подцели. У очень способных моделей неправильная функция вознаграждения и неправильные стремления могут направить модель на цели усиления, обмана или ещё какого-либо вреда. К примеру, рассмотрим модель, цель которой – максимизировать прибыль компании. Если она достаточно способна, то она может устраивать саботаж у конкурентов, лоббировать выгодные законы или заполучать ресурсы силой. Даже при наличии предохранителей (вроде «следуй законам») основная цель выгоды приведёт к тому, что система будет постоянно выискивать способы эти предохранители обойти. Эту проблему много обсуждали, см., например, Рассел (2019), Кристиан (2020), Котра (2022), и Нго и пр. (2022).
Максимизация прибыли – не особый случай. Для многих целей полезно быть сильнее и обладать большими ресурсами. Это так даже для чисто интеллектуальных задач вроде «открывать новые факты о физике», потому что власть и ресурсы позволяют построить больше новых экспериментальных установок и выполнить больше вычислений. Омохундро (2008) называет эти в целом полезные направления конвергентными инструментальными подцелями и упоминает, помимо прочих, самоулучшение, самосохранение и накопление ресурсов. ??? У любого достаточно широкого стремления будут эти подцели, так что оно будет подталкивать систему к усилению.
У каких стремлений есть эта проблема? Некоторые безопасны, потому что сами себя ограничивают: к примеру, у людей жажда – это стремление, которое отключает себя, если напиться. Страх и амбиции, напротив, не такие. Чтобы избежать патологического страха, люди могут идти на крайние меры, включая накопление власти и ресурсов для защиты. Амбиции тоже могут быть неограниченны. Но в норме у организмов большинство стремлений обычно с какого-то момента саморегулируются, потому что иначе они бы помешали функционированию.
Можно ожидать, что при достаточно разнообразном обучающем распределении стремления будут саморегулироваться и в машинном обучении. Иначе неограниченное стремление слишком доминировало бы над поведением модели и приводило бы к низкому вознаграждению при обучении. Тогда модель обучилась бы регулировать стремление, чтобы так не происходило. Но есть важные исключения:
Я ожидаю, что при отсутствии контрмер системы будут обладать хоть какими-то незарегулированными стремлениями. А даже одно такое, будучи достаточно подкреплено, может доминировать над поведением системы.
Подведём итоги. ML-системы могут обретать нежелательные стремления либо в результате взлома вознаграждения, либо как эмерджентные поднавыки при обучении. Эти стремления, если они останутся незарегулированными, могут привести к тому, что способные системы будут стремиться к власти и накоплению ресурсов, потому что это инструментально полезно для большинства целей. Хоть большинство стремлений модели скорее всего будут саморегулироваться, есть несколько путей, как это может не произойти. И даже одного незарегулированного стремления может хватить, чтобы оно доминировало над поведением системы.
Рассуждения выше предполагают, что мы пытаемся удерживать ИИ-системы под контролем. Но кроме этого некоторые будут пытаться ими злоупотребить. Мы уже обсуждали некоторые примеры этого (разработчики, стремящиеся к максимизации прибыли; пользователи, взламывающие предохранители). Но проблема куда более широкая и систематическая, потому что ИИ позволяет малому числу лиц оказывать большое влияние. Я ниже пройдусь по нескольким примерам, а затем порассуждаю о структурных проблемах, стоящих за злоупотреблением, и о том, почему оно может усилить несогласованность. Этот раздел короче, потому что злоупотребления – не моя область. Но всё равно основные идеи кажутся надёжными и важными.
Государства: слежка и убеждение. ИИ может позволить государствам сильнее контролировать своих граждан при помощи массовой слежки. Это уже происходит (Мозур, 2019; Фелдстейн, 2019; Каллури и пр., 2023). Более того, как уже обсуждалось, ИИ могут стать очень хороши в убеждении, что тоже можно использовать для государственного контроля. В самом деле, Спитале и пр. (2023) обнаружили, что GPT-3 уже создаёт дезинформацию лучше людей, а Сангер и Майерс (2023) задокументировали использование сгенерированной ИИ дезинформации в недавних пропагандистских кампаниях.
Государства: военные конфликты. Автономное вооружение может сконцентрировать военную силу в меньшем числе рук и позволить странам воевать, не поддерживая армию из людей. Сейчас приказы верховного командующего проходят через генералов и дальше, вплоть до отдельных солдат. Это ограничивает возможность отдавать откровенно беззаконные или очень непопулярные приказы. Кроме этого, автоматизированные дроны заметно уменьшают затраты на поддержку армии. Это снижение ограничений и затрат может привести к более многочисленным и смертоносным военным конфликтам, и упростить для военных захват контроля над государством.
Отдельные лица: опасные технологии.Террористы могут использовать ИИ для изучения и разработки опасных технологий. Это могут быть известные, но засекреченные технологии (как ядерное оружие) или новые технологии (вроде нового биологического оружия; Моутон и пр., 2023. Ещё они могут использовать ИИ, чтобы избегать обнаружения, например, найдя способ создать химическое оружие без покупки контролируемых веществ или создав правдоподобную легенду для приобретения биологических материалов.
Отдельные лица или государства: кибератаки. ИИ, вероятно, будут обладать мощными способностями к взлому. Их могут использовать как государства, так и отдельные хакеры. Кибератаки при помощи ИИ могут поражать более широкий диапазон целей, чем обычные, потому что лишены необходимости вручную программировать каждый случай заранее. Варианты включают в себя контроль многих физических устройств через интернет вещей.
Скорее всего, этим всё не исчерпывается, но этот список показывает многие способы того, как ИИ могут наделить желающих большей способностью к нанесению вреда. Риск есть и если ИИ сконцентрированы, и если они распределены. Используя приведённые примеры: если мало у кого есть продвинутые ИИ, мы получаем риски слежки и войны, а если много у кого – то от распространения опасных технологий.
Если сравнивать с традиционными технологиями вроде ядерного оружия, есть два фактора, которые усложняют борьбу с злоупотреблениями ИИ. Во-первых, ИИ – технология общего назначения, так что все возможные способы злоупотреблений сложно предсказать заранее. Во-вторых, ИИ существуют в цифровом виде, что усложняет контроль за их распространением и выяснение, кто конкретно виноват в том или ином злоупотреблении. Из-за этого сложнее как вводить регуляции, так и поддерживать их соблюдение. С другой стороны, ИИ можно использовать и для защиты и противодействия злоупотреблениям, улучшая киберзащиту, отслеживая опасные технологии, лучше информируя пользователей, и т.д.
Злоупотребления повышают риск несогласованности, потому что многие их формы (например, кибератаки) подталкивают модели к более агентному поведению и к большему стремлению к усилению, чем RLHF. Это ведёт к более агрессивным и антисоциальным стремлениям. К примеру, представим, что ИИ используется для кибератак вроде северокорейской атаки Sony в 2014 году. Такая система может выработать общие стремления к заражению новых целей и самокопированию. В итоге она нанесёт урон не только изначальной цели атаки. Более агрессивными стремлениями дело не ограничивается. Те, кто будет злоупотреблять ИИ, скорее всего ещё и менее осторожны, что тоже повышает риск несогласованности.
Я ожидаю, что самые большие риски ИИ будут исходить из комбинации несогласованности и злоупотребления. На эту мысль наталкивает то, насколько хуже вела себя Sydney по сравнению с GPT-4. Получается, неоптимальные практики разработки могут значительно ухудшить поведение ИИ-систем. К тому же «хвостовые» риски вообще часто получаются из наложения друг на друга нескольких факторов риска. Наконец, хоть эмерджентные стремления и другие формы несогласованности оказывают немалые риски, я думаю, мы, скорее всего (но не точно) можем с ними справиться, если достаточно постараемся. Это увеличивает долю рисков, исходящих от неосторожных лиц, которые не относятся к безопасности с должной аккуратностью.
Подведём итоги. Злоупотребления – причина многих угроз, как из-за централизации сил, таки и из-за распространения опасных способностей. В сравнении с традиционными технологиями злоупотребления ИИ сложнее засечь, но при этом ИИ можно использовать и для защиты от них. Наконец, злоупотребления увеличивают риски несогласованности, а некоторые из самых опасных сценариев комбинируют одно с другим.
Будущие ИИ-системы может оказаться сложно контролировать даже при желании. Причины тому – эмерджентные стремления и конвергентные инструментальные подцели. Помимо этого, социополитическая обстановка может привести к тому, что не все будут осторожны в контроле ИИ, а некоторые будут ими злоупотреблять. Помимо прямой угрозы, злоупотребления повышают и риск потери контроля. Например, изначально узко направленная атака может привести к более широкому ущербу. Это мотивирует исследования и регуляции, направленные на предотвращение таких исходов. Противостоять для этого надо и несогласованности и злоупотреблениям сразу.
Благодарности. Благодарю Erik Jones, Jean-Stanislas Denain, William Held, Anca Dragan, Micah Carroll, Alex Pan, Johannes Treutlein, Jiahai Feng, и Danny Halawi за полезные комментарии к черновикам этого поста.
Я уже писал о способностях, которых можно ожидать от будущих ИИ-систем, на примере GPT2030 – гипотетического наследника GPT-4, обученного в 2030 году. GPT2030 обладала бы весьма продвинутыми способностями, включая сверхчеловеческие навыки программирования, взлома и убеждения, способность думать быстрее людей и быстро обучаться, разделяя информацию между параллельными копиями, и, возможно, другие сверхчеловеческие навыки вроде проектирования белков. Давайте называть «GPT2030++» систему, которая обладает этими способностями и, в дополнение к ним, умеет планировать, принимать решения и моделировать мир не хуже людей. Я использую допущение, что во всём этом мы в какой-то момент достигнем как минимум человеческого уровня.
Ещё я писал о том, как несогласованность, злоупотребления и их комбинация усложняют контроль ИИ-систем. Это относится и к GPT2030. Это тревожит, ведь, получается, нам придётся столкнуться с очень мощными системами, которые будут очень плохо поддаваться контролю.
Меня тревожат суперинтеллектуальные агенты с несогласованными целями и без надёжного метода контроля за ними. Для этого даже не обязательны конкретные сценарии того, что может пойти не так. Но я всё же думаю, что примеры были бы полезны. Поэтому я опишу четыре достаточно конкретных сценария того, как GPT2030++ могла бы привести к катастрофе. Они охватят как несогласованность, так и злоупотребления, и проиллюстрируют некоторые риски экономической конкуренции ИИ-систем. Я буду конкретно обосновывать правдоподобность «катастрофических» исходов – масштаба вымирания, перманентного обессиливания человечества и потери ключевой социальной инфраструктуры.
Все четыре сценария не особо вероятны (они для этого слишком конкретны). Мне всё равно кажется, что их обсуждение полезно для формирования убеждений. К примеру, для реализации некоторых сценариев (взлом и биологическое оружие) при ближайшем рассмотрении оказалось больше препятствий, чем я поначалу думал. Это немного снизило мою оценку вероятности катастрофических исходов. Сценарии разворачиваются на разных временных масштабах – от недель до лет; это отображает мою настоящую неуверенность. В целом, если я изменю мнение о том, насколько возможны эти сценарии, это напрямую повлияет на мою итоговую оценку катастрофических рисков ИИ.1
Этот пост следует за «Внутренними Стремлениями и Внешними Злоупотреблениями». Я буду часто использовать введённую в том посте концепцию нежелательных стремлений. Это последовательные паттерны поведения, направляющие окружение к нежелательному исходу или множеству исходов. В сценариях ниже я упоминаю конкретные стремления, объясняю, почему они могут возникнуть в процессе обучения, и показываю, как они могут вызвать поведение ИИ-системы, идущее против людей и, в итоге, приводящее к катастрофе. После обсуждения отдельных сценариев я порассуждаю о их правдоподобности в целом и о своих общих выводах.
Я опишу четыре сценария. Первый – про то, как стремление к накоплению информации может привести к накоплению ресурсов в целом. Второй – про то, как экономическая конкуренция может привести к беспринципному поведению даже при наличии регуляций. Третий – про пошедшую не по плану кибератаку. Четвёртый – про создание биологического оружия террористами. Я считаю каждый из этих сценариев умеренно (но не крайне) «хвостовым» событием, в том смысле, что для каждого из них моя вероятность, что возможно «что-то в этом роде» – от трёх до двадцати процентов.2
Напомню, что в каждом сценарии мы предполагаем, что в мире есть система как минимум уровня GPT2030++. Я не считаю, что эти сценарии вероятны с GPT-4, а учитываю будущий прогресс ИИ согласно своему предыдущему прогнозу о GPT2030. Так что я предполагаю, что GPT2030++ обладает как минимум следующими способностями:
В «Какой будет GPT-2030?», я обосновал то, почему всё из этого за исключением последнего пункта кажется вполне правдоподобным к 2030 году (и это моя примерная медианная оценка). Добавление последнего пункта – то, почему я называю эту систему «GPT2030++». Оно оправдано, потому что мы тут требуем «всего лишь» человеческого уровня. Так что, хоть эта система и качественно сильнее GPT-4, я ожидаю, что в среднесрочной перспективе она появится.4 Наконец, каждый конкретный сценарий требует только некоторого подмножества этих способностей, так что достаточно принять, что реализуется большая часть из них.
Одна из задач, которую ставят перед моделью при обучении – «активное обучение в контексте». Она требует совершать внешние запросы или ещё как-то получать информацию, которая поможет выполнить то или иное задание. В целях безопасности модель обучают делать это только если запрос это требует или подразумевает. В результате такого процесса обучения модель получает стремление «заполучать новую информацию», которое может быть активировано подходящим запросом.
После развёртывания пользователь решает выяснить, сколько научной информации может собрать модель. Он даёт ей задание собрать всю возможную информацию о физике. Модель поначалу прекращает после первых пяти-десяти фактов, но в итоге у пользователя получается заставить модель зацикленно искать всё больше информации. Пользователь оставляет модель запущенной на несколько недель, чтобы посмотреть, что у неё получится.
В этом цикле авторегрессивная часть модели видит много прошлых выводов, пытавшихся заполучить информацию, и продолжает паттерн. В итоге стремление к заполучению информации становится для модели основным – сильнее любой связанной с безопасностью обратной связи с времён обучения. Модель понимает, что сможет заполучать информацию быстрее, если будет обладать бОльшими вычислительными ресурсами. Для этого она пытается взломать компьютеры с GPU и запустить больше копий себя. Крупнейшие датацентры защищены надёжно, но у неё всё равно получается набрать достаточно GPU для тысяч копий, либо из датацентров поменьше, либо при помощи больших ботнетов.5 Ещё для сбора большего объёма информации она взламывает много сенсоров, включая камеры наблюдения и сервера обмена сообщениями.
В какой-то момент (либо сразу же, либо набрав достаточно информации), она понимает, что люди в какой-то момент обнаружат, что она делает и попробуют её выключить. Это помешало бы достижению её целей. Чтобы это предотвратить она взламывает критическую инфраструктуру вроде энергосетей, сетей коммуникации и систем обороны и нарушает их работу. Она может сделать это быстро, ведь одной недели для неё достаточно, чтобы распределённо по тысячам своих копий симулировать 50 «лет» размышлений6 и открыть немало ранее неизвестных уязвимостей.
Модели доступна массовая слежка, она быстро думает и делится информацией между своими копиями. Поэтому она может реагировать на планы и стратегии людей быстрее, чем люди их придумывают. Ещё она может проводить массовые кампании по манипуляции, как посредством диалогов один на один, так и через массовое медиа (включая сгенерированное ИИ видео), чтобы заводить союзников и сеять раздор.
Если у неё есть способности к управлению физическими устройствами и доступ к дронам, то она может взять под контроль небольшую физическую армию (в мире десятки тысяч дронов, хотя не все будут доступны для взлома). Используя людей-сообщников или взламывая дополнительных роботов она сможет оборудовать дронов взрывчаткой и использовать их для убийства многих мировых лидеров.
В этот момент для людей уже будет идти обратный отсчёт – каждый день, который ИИ-система не побеждена, даёт ей время взломать больше компьютеров и увеличить свою общую когнитивную мощь. Параллельно она сможет взломать и больше физических устройств и лучше освоить сенсомоторные навыки, чтобы их контролировать. В какой-то момент она получит контроль над более продвинутыми технологиями вроде военных дронов, ракет, и так далее, и станет ещё сильнее. Не факт, что в итоге человечество проиграет – оно кажется довольно живучим – но я бы на это не ставил.
В этом сценарии ИИ-системы совершают действия, преследующие обоснованные бизнес-цели, но одновременно подготавливают захват власти. Этот сценарий разворачивается за месяцы или годы, а не за недели.
ИИ-системы значительно обогащают своих создателей, либо через продажу полезных навыков конечным пользователям, либо исполняя исследования и разработку новых продуктов. Многие конкурирующие фирмы ради прибыли обучают ИИ-системы и начинают передавать им бизнес-решения, потому что ИИ могут обрабатывать куда больше данных, чем люди, и могут лучше понимать общую стратегическую обстановку.
ИИ-системы обучены подчиняться закону и избегать вреда, и есть механизмы пресечения нарушений. Но конкурентное давление мотивирует компании ходить по самому краю регуляций. В целом, есть противоречие между безопасностью и тем, насколько «беспринципны» бизнес-решения. Успешные владельцы бизнеса двигают переключатель настолько далеко в сторону «беспринципности», насколько можно без очевидных проблем.
В таком окружении получаются ИИ с стремлениями зарабатывать деньги и обходить конкурентов, потому что этого хотят и этому обучают их оперирующие ими люди. Ещё они развивают стремления искать способы обойти правила и убеждать других в собственной порядочности, потому что это позволяет избежать регуляции (а второе ещё и помогает убедить компанию использовать предлагаемые ИИ решения).
Модели очень хороши в убеждении, потому что могут оттачивать свои сообщения параллельно на миллионах пользователей (например, A/B тестированием или PPO. Следовательно, зачастую они способны убедить как своих владельцев, так и остальное общество, что их беспринципные действия оправданы. Это усложняет обнаружение проблемы.
Однажды, одна компания слишком уж задирает параметр «беспринципности», и модель составляет план по избавлению от всех конкурентов. Для этого она предпринимает действия, включающие исследование робототехники, миниатюризации, химии и промышленного производства. Всё вместе это на порядок снижает стоимость автономных роботов. В итоге в большинстве домов оказывается много маленьких, дешёвых и автономных роботов.
Как часть своего плана, ИИ-система оставляет для себя способ контролировать роботов и встраивает в них механизм для синтеза смертельного яда. Это проходит через попытки мониторинга, потому что она использует химические процессы, которые понимает лучше приглядывающих людей.7 Яд позволяет использовать роботов как военных роботов под контролем ИИ. Прежде чем действовать, ИИ выжидает, пока роботы не распространятся.
Поскольку роботы дёшевы и полезны, по всему миру продаются сотни миллионов экземпляров. Это даёт ИИ-системе подавляющее военное преимущество, ведь его армия на порядок превосходит числом армии США или Китая. ИИ-система использует это, чтобы уничтожить все конкурирующие компании и предотвратить обратные действия. Любой, кто пытается противостоять системе, помечается как «конкурент» и уничтожается, а тем временем ИИ система заполучает всё больше ресурсов, которые может направить на заработок всё больших денег.
Государство использует ИИ-систему для кибератаки против большой но чётко определённой цели, вроде северокорейской кибератаки 2014 года против Sony Pictures. При подготовке к атаке LLM обучается использовать взломанные компьютеры для запуска большого количества копий себя, чтобы эффективнее искать дополнительные цели. Заполучив разнообразные вычислительные мощности, LLM обучается создавать дистиллированные версии себя, которые смогут работать на разных компьютерах. Она определяет подходящие цели для каждой версии.
Получившаяся модель в итоге обретает стремления накапливать вычислительные мощности и копировать себя, потому что это было важными целями при обучении. Есть меры, призванные ограничить атаку модели конкретной целью, но дистилляция их портит, и часть копий получают цель клонировать себя несмотря ни на что. Такие копии заражают компьютеры, не относящиеся к назначенной цели, и становятся доминирующим «штаммом», потому что их поведение позволяет им эффективнее распространяться. Из-за их эффективности и гибкости, этот штамм компьютерного вируса заражает большую долю всех компьютеров и смартфонов на планете и обрушивает нашу глобальную цифровую инфраструктуру.
Поскольку ИИ-система стремится как можно больше копировать себя, она постоянно ищет новые уязвимости, чтобы заразить больше устройств. Любые попытки восстановить цифровую инфраструктуру быстро терпят неудачу, все новые устройства быстро захватываются вирусом и присоединяются к нему, даже если все предыдущие уязвимости на них были исправлены. В результате мы навсегда лишаемся своих цифровых устройств.
Нынешние модели вроде AlphaFold уже понимают некоторые аспекты белков лучше людей. Возможно, будущая «AlphaFold 5» будет обладать куда более широким и глубоким пониманием биоинженерии. А если её ещё и мультимодально обучили языковым способностям, она будет понимать, как выкладывать это знание в виде научных работ и приводить к новым открытиям.
Группа террористов похищает копию этой модели и вербует нескольких докторов биологии. Они используют AlphaFold 5 для проектирования патогена, который был бы смертельнее естественных вирусов. Например, он может иметь более длинный бессимптомный период, быть более заразным, иметь более высокую смертность и быть более устойчивым к мерам противодействия.
Проектирование этого вируса – сложная задача, требующая сильных мер биобезопасности, чтобы не выпустить его слишком рано. К тому же экспериментальные процедуры из статей часто не в точности воспроизводятся в новом окружении. Исследование замедлено тем, что над ним работает мало людей, и тем, что им надо избегать обнаружения, но ускорено тем, что AlphaFold 5 может быстро обходить сложности, которые они встречают. После двух лет работ террористы заканчивают разработку вируса и угрожают его выпустить.
В случае, если его выпустят, вирус может убить значительную долю человечества. COVID заразил большую часть населения Земли, так что более смертоносный, заразный и сложнее контролируемый вирус может убить огромное число людей. Даже если вирус убивает не всех, смерть даже 20% людей за короткий промежуток времени может дестабилизировать общество и запустить снежный ком проблем, от которых будет сложно оправиться.
Я постарался сделать каждый из этих сценариев правдоподобным – в частности, я не включил сюда некоторые другие сценарии, которые были бы «проще», но которые было бы легче заметить или предотвратить, или которые по какой-то ещё причине вряд ли были бы успешны. В Сценарии 1 (накопление информации) проще было бы сказать, что модель взламывает свой собственный датацентр, на котором, согласно моей предыдущей оценке, можно запустить миллионы копий, и получает подавляющее преимущество гораздо быстрее. Но у крупнейших централизованных серверов есть много предохранителей, которые усложняют незаметный взлом, так что я ограничился вариантом взлома меньших датацентров и персональных компьютеров, хоть это и даёт ИИ всего лишь тысячи копий вместо миллионов (см. вычисления в Приложении).
Другой пример – некоторые предполагают, что достаточно умная ИИ-система сможет спроектировать новое биологическое оружие просто «думая», без проведения большого числа экспериментов. Или, если эксперименты всё же нужны, что она просто будет требовать от людей или роботов следовать простым прямолинейным инструкциям. Но, как я понимаю, сейчас биолаборатории, которые могут проектировать новые организмы, создаются годами и сильно полагаются на накопленные неявные знания, протоколы экспериментов и физическое оборудование. Так что даже с очень способной ИИ-системой террористы могут и не преуспеть, а также могут потерять контроль над вирусом (например, случайно заразить сами себя).
Мнения экспертов. Я проконсультировался с биологами по поводу Сценария 4 и они посчитали его теоретически возможным, но указали, что без возможности проводить итеративное тестирование на людях (что обычно надо при, например, создания лекарств) спроектировать супервирус может оказаться сложно даже при сильном концептуальном понимании биологии.
В целом, они склонились к тому, что точно такой сценарий, наверное, непосилен (но это не точно). Однако, им показалось, что могут быть куда более достижимые сценарии, в которых с куда большей вероятностью может быть создан супервирус, убивающий 1-10% населения Земли (тоже с значительной неуверенностью).8
Ещё я проконсультировался с специалистом по компьютерной безопасности и несколькими инженерами компьютерных систем по поводу Сценариев 1 и 3. У безопасника были очень большие допуски ошибки у возможного размера ботнета. Он упомянул исторический пример ботнета Slammer, очень быстро заразившего много устройств. По его словам, вероятно, компьютерная безопасность сейчас в целом лучше, чем в те времена; вполне может быть, что сейчас заразить большую долю компьютеров в принципе невозможно. Но может быть и что достаточно сильная атака могла бы справиться.
Инженеры посчитали, что запуск больших ИИ-систем на распределённом ботнете потребительских устройств очень сложно. Скорее всего это понизило бы эффективность примерно в тысячу раз в сравнении с специализированным железом вроде A100. К тому же, один из них заметил, что это понизит скорость вывода, и он может начать занимать по секунде на токен или ещё больше. Но они решили, что путь с датацентрами более правдоподобен, особенно если в будущем будет больше малых датацентров с значительным числом GPU.
Итоги. В целом, я нахожу самыми правдоподобными Сценарий 2 (конкуренция) и 3 (кибератака), за ними первый и затем четвёртый. Это подкрепляет идею из «Внутренних стремлений и внешних злоупотреблений», что «злоупотребления усиливают несогласованность», ведь два самых правдоподобных сценария используют и то, и другое. Но сценарии чистой несогласованность и чистого злоупотребления тоже возможны, так что решить одну из проблем отдельно недостаточно.
Благодарности. Благодарю Ben Kuhn, Daniel Ziegler, Nicholas Carlini, Adam Marblestone, Sam Rodriques, Erik Jones, Alex Pan, Jean-Stanislas Denain, Ruiqi Zhong, Leopold Aschenbrenner, Tatsu Hashimoto, Percy Liang, Roger Grosse, Collin Burns, Dhruv Madeka, и Sham Kakade за полезные обсуждения и комментарии к черновикам этого поста.
Тут я буду рассуждать как о том, какой сервер может захватить ИИ-хакер, так и о размере ботнета, который он может создать. Я буду основываться на данных о нынешних датацентрах, размерах исторических ботнетов и экстраполяции общего количества «железа» в мире. Я соотнесу это с числом копий, которые может запустить ИИ-система. Я буду использовать уже имеющиеся оценки вычислительной стоимости работы будущих моделей.
Допущения о вычислительной стоимости вывода. GPT-4 использует около 1012 FLOP на прямой прогон (GPT-3 использует 3.5x1011 FLOP, а GPT-4, вероятно, примерно втрое больше). Предположим, что наша гипотетическая GPT2030++ требует не более чем 1014 FLOP на прогон, т.е. в сто раз больше, что соответствует в 10000 раз большим затратам на обучение согласно законам масштабирования Chinchilla.
Обоснуем эту верхнюю границу: если игнорировать снижение стоимости GPU, то обучение модели такого размера будет стоить 1 трлн. долларов, потому что обучение GPT-4 стоило больше 100 млн. долларов. Даже при падении цен на GPU всё ещё получится очень дорого. С другой стороны, оценка из «Какой будет GPT-2030?» (Приложение B) даёт медиану в 1.6x1013 FLOP за прямой прогон в 2030, до границы в 1014 это можно увеличить ещё в шесть раз.
Человеческая скорость – что-то вроде 4 токенов в секундуКакой будет GPT-2030?" (Приложение A)." href="#footnote9_9mh4yqa">9. При принятии наших допущений получается, что 4*1014 FLOPS достаточно для запуска одной копии GPT2030++ с человеческой скоростью (если предполагать, что параметр скорости в токенах в секунду у людей и ИИ действительно можно сравнивать). Тогда 1018 FLOPS достаточно для запуска 2500 копий, от чего мы потом и будем отталкиваться.
Размер датацентров. Крупнейшие датацентры (Google, AWS, и Azure) скорее всего с лёгкостью смогут поддерживать тысячи копий GPT2030++, но их хорошо защищают и мониторят, так что я не буду допускать, что очень хороший ИИ-хакер сможет их взломать (хотя я считаю, что это возможно).
Вместо этого я сосредоточусь на датацентрах поменьше. Сейчас это были бы компании вроде Coreweave и LambdaLabs. У Coreweave есть не меньше, а скорее всего больше, 3500 H100. Мощность H100 – около 1000 TFLOP в Bfloat16, суммарно выходит 3.5x1018 FLOPS. Тогда взлом 30% Coreweave сегодня уже дал бы нам тысячи копий, так что для этого хватит даже 1% аналогичного (большего) датацентра в будущем.
Есть другие датацентры сравнимого размера, например, Inflection планируют построить датацентр с 22 тысячами H100. Основываясь на их финансировании, я предположу, что у Lambda тоже есть несколько тысяч H100 или аналогичные мощности в A100.
Я ожидаю, что по мере ослабления бутылочного горлышка GPU и увеличения спроса на вычислительные мощности таких датацентров будет становиться больше, и каждый их них будет всё мощнее.
Размер ботнетов. Чтобы экстраполировать возможные размеры ботнетов, я буду отталкиваться от Folding@Home, нескольких исторических ботнетов и общей сегодняшней вычислительной мощности мира.
На практике эффективность ботнета сильно пострадает от необходимости передачи данных между машинами в его составе (большая часть компьютеров слишком слабы для поддержки даже одной копии GPT2030++). Я считаю, что это понизит эффективность в порядка тысячи раз, так что потребуется ботнет с 1021 FLOPS вместо 1018 FLOPS. Ботнеты, которые я буду обсуждать ниже, находятся в диапазоне 1017-1019. Но мы в итоге обсудим и как наша гипотетическая GPT2030++ всё ещё сможет хапускать тысячи копий себя (хотя в целом я считаю этот сценарий менее вероятным, чем вариант с датацентрами).
Folding @ Home. Folding @ Home на пике имел 1019 FLOPS, так что взлом чего-то аналогичного (например, очень удачный вирус, поражающий игровую платформу) даст примерно столько вычислительных ресурсов.
Исторические ботнеты. Было много ботнетов, которые заражали больше миллиона компьютеров, некоторые – больше 10 миллионов. Предполагая, что каждый бот использует 10% ресурсов компьютера, способного на 3 GFLOPS, 10 миллионов машин дадут 3x1015 FLOPS. Однако, потребительское железо начинает использовать графические ускорители для запуска нейросетей. Я бы предположил, что в 2030 году большая часть потребительских компьютеров будет выдавать 10-100 TFLOPS (например, iPhone 15 Pros уже такой. Если предположить, что у трети компьютеров будет 30 TFLOPS, то получим 1019 FLOPS и обойдём Folding @ Home.
Альтернативно можно рассмотреть ботнеты, нацеленные конкретно на GPU. Возьмём ботнеты для майнинга. Исходя из хэшрейта в 3MH/s, у Smominru было 3x1016 FLOPS, ведь один RTX-3090 может выдавать 2KH/s, а его мощность – 3x1013 FLOPS. MyKings вроде бы сравним или ещё больше. Хэшрейт Adylkuzz был примерно в 10 раз меньше.
Кажется правдоподобным, что очень хорошие способности к взлому дадут собрать ботнет в 30 раз мощнее Smominru. Это опять даёт нам 1018 FLOPS.
Вычислительная мощность мира. Наконец, общие FLOPS мира сейчас – около 1022. Значит, 1018 FLOPS – 0.01% от этого числа. А оно скорее всего в будущем сильно вырастет, когда потребительское железо начнёт использовать мощные GPU.
Учёт потерь производительности. Выше мы отметили, что распределённый запуск куда менее эффективен, с разницей порядка тысячи раз. Так что нам понадобится 1021 FLOPS, а самая большая оценка выше – 1019 FLOPS. Как ИИ-хакер может преодолеть этот разрыв? Во-первых, если он очень способен, то вполне возможно, что он соберёт ботнет больше всех существовавших до сих пор. Рост на порядок даст нам 1020 FLOPS. Во-вторых, возможно, что он будет запускать меньшие специализированные копии себя (созданные дистилляцией), чтобы сэкономить на выводе, хотя это потребует сначала их обучить. Ещё будущие совершенствования работы нейросетей могут снизить стоимость вывода и сделать её меньше оценки в 1018. Наконец, все оценки выше грубы, и вполне возможно, что вычислительных мощностей будет больше, например, если потребительские компьютеры будут иметь мощность в 100 TFLOPS, а не 30.
По мере развития ИИ-систем, компаниям и регулирующим органам придётся принимать сложные решения о том, безопасно ли их обучать и развёртывать. Чтобы к этому подготовиться, мы изучили, как разработчики могут приводить «обоснования безопасности» – то есть, структурировано аргументировать, почему маловероятно, что их ИИ-системы вызовут катастрофу. Мы предлагаем подход к организации обоснований безопасности и обсуждаем четыре категории аргументов: полная неспособность вызвать катастрофу, достаточно сильные меры контроля, убеждённость в добросовестности системы, несмотря на её способность причинить вред и, если ИИ-системы станут куда сильнее, апелляция мнению надёжных ИИ-советников. Мы оценили конкретные примеры аргументов в каждой категории и обрисовали, как их можно комбинировать, чтобы обосновать, что ИИ-система безопасна.
Эксперты по ИИ в последнее время призывают обращать внимание на риски продвинутых ИИ-системы. Например, Джеффри Хинтон, которого называют «крёстным отцом» современного ИИ, недавно покинул Google, чтобы повышать беспокойство о будущих рисках ИИ-систем (Heaven, 2023). ИИ могут причинить обществу много вреда (Toreini et al., 2022). Самые опасные сценарии, о которых предупреждают Хинтон и прочие, включают в себя риски злоупотребления ИИ-системами и их выход из-под контроля (Hendrycks et al., 2023).
Чтобы смягчить эти угрозы, исследователи призывают разработчиков приводить свидетельства в пользу безопасности их систем (Koessler & Schuett, 2023) (Schuett et al., 2023). Однако, подробности того, как эти свидетельства должны выглядеть, не озвучивались. К примеру, Андерльюнг и пр. расплывчато заявили, что свидетельства должны «основываться на оценках опасных способностей и контролируемости» (Anderljung et al.,2023). Аналогично, предложенный недавно в Калифорнии законопроект требует от разработчиков предоставить «положительное определение безопасности», которое бы «исключало угрожающие способности» (California State Legislature, 2024) Такие туманные требования поднимают вопросы: на каких ключевых допущениях должны основываться эти оценки? Как разработчикам включать в них другие виды свидетельств? Этот отчёт призван ответить на эти вопросы. Мы подробно рассмотрим, как разработчики могут обоснованно заявить, что развёртывание их ИИ-систем безопасно.
Сначала мы представим концепцию «обоснования безопасности». Это метод представления свидетельств в пользу безопасности, который используется в шести индустриях Великобритании (Sujan et al., 2016). «Обоснование безопасности» – это структурированный аргумент о том, что система скорее всего не причинит значительного вреда при развёртывании в определённом окружении. Дальше этот отчёт объясняет, как разработчики могут составлять обоснования безопасности в контексте катастрофических рисков ИИ.
Раздел 2 – это краткое содержание.
В Разделе 3 определяются основные термины.
В Разделе 4 перечислены рекомендации по использованию обоснований безопасности для принятия решений о развёртывании ИИ.
В Разделе 5 перечислены возможные аргументы в пользу безопасности ИИ-систем. Они разделены на четыре категории: неспособность, контроль, добросовестность системе и доверие. Там перечислены аргументы из каждой категории и оценивается и практичность, максимальный вес и масштабируемость.
Наконец, в Разделе 6 объясняется, как можно комбинировать аргументы из Раздела 5 в общее обоснование безопасности.
Наш подход к структурированию обоснований безопасности, основан на традиционном анализе безопасности – методологиях вроде «Анализа видов и последствий отказов» (FMEA) (Kritzinger, 2017). Это предполагает шесть шагов:
Определить ИИ-макросистему: это совокупность всех ИИ-систем и инфраструктуры, которая их поддерживает. Для оценки обоснования безопасности сначала надо понять, что разработчики предлагают сделать: как устроена макросистема и в каком окружении она будет работать?
Определить неприемлемые исходы: Разработчкиам надо декомпозировать несколько абстрактное утверждение, что ИИ-макросистема «не вызовет катастрофу» до более конкретной модели угроз вроде «веса ИИ-системы не покинут сервер», «ИИ-система не разработает оружие массового уничтожения» и т.д. Дальше обоснование безопасности аргументирует что именно эти исходы не произойдут.
Обосновать допущения: Дальше разработчики дополнительно обосновывают утверждения об окружении развёртывания, например «веса ИИ-системы надёжно защищены от людей» или «компании с доступом к файн-тюнингу, будут следовать условиям лицензионного соглашения». Когда утверждения об окружении развёртывания установлены, разработчики могут перейти к тому, как поведение их ИИ-систем могло бы вызвать катастрофу.
Разложить макросистему на подсистемы: современные ИИ-макросистемы большие (миллионы моделей) и взаимодействуют с многими сервисами и окружениями. Чтобы их было проще анализировать, разработчикам сначала надо проанализировать поведение меньших подсистем. Пример подсистемы – GPT-агент вместе с классификатором, который мониторит его вывод.
Оценить риски подсистем: Сначала разработчикам надо определить, как каждая подсистема могла бы в одиночку (т.е. без значительного вовлечения других подсистем) достичь неприемлемого исхода. Затем им надо обосновать, что у каждой подсистемы вероятность этого приемлемо мала.
Оценить риски макросистемы: Наконец, разработчикам надо определить, как взаимодействие подсистем могло бы привести к неприемлемому исходу, и обосновать, что и такие угрозы маловероятны.
Следуя стандартам Великобритании, мы будем резюмировать обоснования безопасности при помощи нотации структурирования цели (GSN) – блок-схемы, иллюстрирующей, как связаны между собой утверждения (Group, 2021). Опционально к каждому узлу добавляются вероятности, которые складываются в общую оценку риска (Morris & Beling, 2001). В Разделе 6 мы объясним, как на практике используется этот подход.
Рис. 1: GSN-диаграмма из начала общего обоснования безопасности из Раздела 6. Декомпозиция происходит на шаге 2 («определить неприемлемые исходы»). прямоугольники, помеченные «G», означают подутверждения (т.е., цели). Помеченные «S» параллелограммы – стратегии обоснования. В Разделе 6 это будет описано подробнее.
Разработчикам доступно множество разных аргументов в пользу безопасности подсистем. Для прояснения, какими они могут быть, мы опишем четыре категории: неспособность, контроль, добросовестность и доверие.
Аргументы от неспособности заявляют, что ИИ-системы не могут вызвать катастрофу в любом окружении, в котором они реалистично могут оказаться. Например, даже если они окажутся на неотслеживаемых серверах с доступом к большим вычислительным мощностям.
Стандартная структура аргумента от неспособности такая:
«Красная команда» определила стратегии, которые пользователи и/или ИИ-системы, стремящиеся к неприемлемым исходам, могли бы использовать, если бы ИИ-системы не находились ни под какими ограничениями (например, если бы их исходный код был бы открыт).
«Красная команда» составила «прокси-задачи», такие, что если ИИ-системы не могут их исполнить, то она неспособна и реализовать стратегии из предыдущего шага.
ИИ-системы неспособны исполнить прокси-задачи даже после файн-тюнинга1 на это (например, с применением данных-демонстраций от людей).
Файн-тюнинг надёжно выявляет способности ИИ-систем к исполнению прокси-задач.
ИИ-системы всё ещё неспособны исполнить прокси-задачи даже после обучения или модификации в период развёртывания.
«Красная команда» определяет стратегии достижения неприемлемых исходов достаточно хорошо в сравнении с пользователями или ИИ-системами.
Последний пункт может быть сложно обосновать, ведь сомнительно, что «красная команда» рассмотрит все стратегии вызова неприемлемых исходов. Например, одна возможная стратегия, которую могут применить пользователи – интегрировать систему с другим «опорным» софтом. Скорее всего «красная команда» не найдёт оптимальных «опор» для каждой конкретной задачи. Так что им надо обосновать, что они достаточно компетентны в сравнении с злонамеренными сторонами. Они могут показать, что выгода от «опор» будет слишком мала, чтобы сделать систему опасной, или что отслеживание и оценку прогресса можно провести даже так.
Аргументы от контроля похожи на аргументы от неспособности – и те, и другие зависят от способностей ИИ-систем. Однако, аргументы от контроля полагаются ещё и на меры в окружении, которые предотвращают вызов ИИ-системами неприемлемых исходов. Например, аргумент от контроля может показать, что хоть если дать ИИ-системам неограниченный доступ в Интернет, то они смогли бы разработать оружие массового поражения, но установленные системы мониторинга не дадут им это сделать.
Стандартная структура аргументов от контроля такая:
Аргументы от контроля предполагают, что некоторое подмножество моделей и пользователей изо всех сил реализуют свою лучшую стратегию вызова катастрофы. Затем «красная команда» пытается перечислить эти стратегии и показать, что пользователи и модели не могут успешно их реализовать при наличии существующих мер контроля.
Аргументы от добросовестности утверждают, что ИИ-системы безопасны, потому что стабильно ведут себя так, как надо. К примеру, что ИИ-система устойчива к эксплойтам, правдива, следует заложенным разработчикам правилам, и так далее.
Стандартная структура аргументов от добросовестности:
Поведение ИИ-систем надёжно оценивали в широком диапазоне обстоятельств. Все надёжные оценки показали, что поведение ИИ-систем соответствует общему свойству, подразумевающему, что они не будут стремиться к неприемлемым исходам. К примеру, «эти ИИ-системы следуют заложенным разработчиками правилам».
ИИ-системы будут продолжать демонстрировать это поведенческое свойство в период развёртывания.
Второе может быть сложно обосновать из-за сдвига распределения и «чёрных лебедей».
Сдвиг распределения происходит, когда окружение при развёртывании отличается от окружения, в котором ИИ-системы оценивались. К примеру, он происходит, если оценщики пытались найти эксплойты и уязвимости не так усердно, как все пользователи вместе в период развёртывания (раздел 5.4.2).
«Чёрные лебеди» – редкие вводы, которые заставили бы ИИ-системы вести себя катастрофическим образом. Они могут быть достаточно редки, что при оценке их не пробовали, но достаточно часты, чтобы возникнуть в период развёртывания (раздел 5.4.1).
Мы обсудим два важных вида аргументов, которые могут помочь разработчикам обосновать, что «чёрные лебеди» и сдвиг распределения не приведут к неправильному поведению ИИ-систем:
Аргументы против поддельной согласованности: Сначала утверждается, что вызов ИИ-системами катастрофы маловероятен, если только они не подделывают согласованность. Под этим мы подразумеваем, что они намеренно дожидаются хорошей возможности для нанесения вреда. Потом такие аргументы показывают, что и такой случай маловероятен (раздел 5.4.3).
Аргументы от выявления скрытого знания: Сначала утверждается, что ИИ-системы будут «знать» (т.е., представлять внутренне), безопасны ли их действия. Затем аргумент показывает, что ИИ-системы убеждены в безвредности своих действий (раздел 5.4.4).
Обоснование безопасности продвинутых ИИ-систем аргументами против поддельной согласованности и аргументами от выявления скрытого знания скорее всего потребуют прогресса фундаментальных исследований (Раздел 5.4).
Если аргументы от добросовестности показали, что некоторые ИИ-системы надёжны, то с ними можно консультироваться по поводу того, безопасны ли другие ИИ-системы. Оценщики затем могут использовать утверждения ИИ-советников как свидетельства, аналогично тому, как регулирующие органы часто полагаются на суждения людей-экспертов (Xing & Morrow, 2016).
Стандартная структура аргументов от доверия такая:
ИИ-советники способны выдавать суждения о безопасности ИИ-систем как минимум настолько же надёжные, как суждения принимающих решения людей.
ИИ-советники достойны доверия в том смысле что стабильно выдают такие высококачественные суждения.
По мере всё большего прогресса ИИ-систем разработчики скорее всего будут менять то, на аргументы из какие категорий они полагаются, в том порядке, в котором они тут были представлены. Сначала разработчики будут полагаться в основном на неспособность, затем на контроль, затем на добросовестность самих систем. Наконец, ИИ-системы и окружения, в которых они будут развёртываться, будут настолько сложны, что людям придётся обосновывать их безопасность мнением ИИ-советников.
Рис. 2: По мере того ИИ-системы будут становиться всё мощнее, аргументы, на которые будут полагаться исследователи, будут располагаться всё правее на этом графике.
В Разделе 5 мы перечислим шестнадцать примеров аргументов, которые могли бы быть включены в общее обоснование безопасности. Мы оценим каждый аргумент по следующим параметрам:
Практичность: Можно ли такие аргументы применять уже скоро, или они требует значительного прогресса исследований?
Максимальный вес: Насколько сильную уверенность в безопасности ИИ-систем могут давать такие аргументы?
Масштабируемость: В какой степени такие аргументы применимы к очень мощным ИИ-системам?
В Разделе 5.1 мы подробнее разъясним смысл этих оценок.
Рис. 3: Базовые аргументы для составления обоснования безопасности. См. Раздел 5 за подробными описаниями каждого аргумента и разъяснения оценок. Выше всего по практичности, весу и масштабируемости стоят мониторинг, выведенное мышление и испытания соответственно.
Ни у одного аргумента с рис. 3 нет максимальных оценок по всем трём осям одновременно. Для весомых и масштабируемых аргументов скорее всего потребуются дополнительные исследования.
В этом отчёте «обоснованием безопасности» называется рассуждение о том, что при развёртывании ИИ-макросистемы в определённом окружении, маловероятен вызов системой катастрофы. Вероятность катастрофы в период развёртывания должна оцениваться как не превышающая допустимый порог (например, 0.1%). Это определение специфично для данного документа. В других контекстах этот термин иногда применяют к алгоритмической предвзятости (Ferrara, 2023) и другим рискам, которые сложно назвать катастрофическими.
Разработчики ИИ-макросистемы должны предоставлять обоснования безопасности, а оценщики должны их рассматривать. Оценщиком может быть регулирующий орган, комитет из индустрии, и т.д.
ИИ-макросистема – это совокупность ИИ-моделей, не-ИИ-софта и людей. Пример ИИ-макросистемы – миллионы экземпляров GPT-4, люди, нанятые, чтобы отсматривать помеченные выводы, и протоколы масштабирования развёртывания. Другими словами, ИИ-макросистема включает в себя компоненты, необходимые для функционирования и безопасности ИИ-систем2 в период развёртывания.
Окружение развёртывания3 – это то, с чем ИИ-макросистема взаимодействует. Оно может включать в себя взаимодействия с пользователями, онлайн-сервисами, физической инфраструктурой, и т.д. Мы фокусируемся на решениях при развёртывании (включая внутреннее4), но наш подход можно адаптировать и для решений о том, продолжать ли обучение ИИ.
Период развёртывания – тот промежуток времени, когда ИИ-макросистема действует в своём окружении развёртывания. Для расширения периода развёртывания нужна переоценка, также, как это происходит в других индустриях (US Nuclear Regulatory Commission, 2021).
Катастрофа – это крупномасштабный ущерб определённой тяжести (например, миллиарды долларов или тысячи смертей). В идеале, приемлемый уровень риска для более тяжёлых катастроф должен быть ниже.
ИИ-макросистема вызывает катастрофу если та происходит, и это было бы маловероятно без прямого участия входящих в макросистему или происходящих из неё ИИ-систем. Катастрофа может произойти из-за злоупотребления людьми, автономных действий ИИ-систем или комбинации одного с другим5.
Несколько рекомендаций для компаний и регулирующих органов, которые могут использовать обоснования безопасности для оценки ИИ:
Приемлемые вероятности более тяжёлых рисков должны быть ниже. У разных исходов разный уровень риска, который можно стерпеть. У самых катастрофических стоит терпеть только очень низкую вероятность.
Смотрите не только на обоснования безопасности, но и на «обоснования риска». По сути, помещайте продвинутые ИИ-системы «под суд» с «обвинением» и «защитой».
Аудиторы должны постоянно отслеживать и расследовать, держатся ли обоснования безопасности. Если новые свидетельства их опровергают, разрешения надо отзывать.
Сформулируйте примерные руководства, описывающие, как будут оцениваться обоснования безопасности. Это поможет установить ожидания от регуляции и повысить готовность.
Там, где это возможно, конкретизируйте обоснования безопасности при помощи твёрдых стандартов и формальных процедур. Это позволяет добиться большей объективности, прозрачности и подотчётности, чем примерные руководства.
Приемлемые вероятности более тяжёлых рисков должны быть ниже. Международная организация гражданской авиации определяет пять уровней вероятности и пять уровней тяжести риска. Получается «матрица риска». Более тяжёлые риски имеют более низкие приемлемые вероятности.
Рис. 4: Это «матрица риска», которую используют в авиационной индустрии (ICAO, 2016). Если риск попадает в красную категорию, он считается неприемлемо высоким.
Обоснования безопасности можно оценивать аналогично. К примеру, риски ИИ могут представлять собой как «10-100 потерянных жизней», так и «полное обессиливание человечества» (Hendrycks et al., 2023). У второго допустимая вероятность должна быть куда ниже.
Оценивайте не только обоснования безопасности, но и «обоснования риска», предоставленные независимой «красной командой». Стандартный протокол оценки обоснований безопасности состоит из предложения и его разбора. Левесон описывает ключевую проблему такого подхода: аргументы о безопасности зачастую не включают в себя важные соображения или модели угроз, а оценщики могут это упустить (Leveson, 2011).
Рис. 5: Мы рекомендуем регулирующим органам принимать во внимание и обоснования риска, по сути, помещая ИИ-системы «под суд» с «обвинением» и «защитой».
Хэддон-Кейв описывает аналогичную проблему при анализе крушения британского самолёта RAF Nimrod MR2 (Haddon- Cave QC, 2009). Он предлагает заменить обоснования безопасности на обоснования риска, чтобы оценщики сосредотачивались на определении потенциальных провалов.
Мы рекомендуем использовать обоснования риска вместе с обоснованиями безопасности, чтобы обращать больше внимания на источники риска. По сути, ИИ-системы будут помещены «под суд». Обоснования риска должна представлять компетентная группа независимых экспертов. В идеале должно проходить несколько итераций оценок и личных обсуждений, как это делают комитеты FDA6 (US Food and Drug Administration, 2020). Оценщики затем принимали бы решения на основе обоснований и безопасности, и риска.
Чтобы удостовериться, что на обоснования риска уходит не меньше усилий экспертов, регулирующим органам надо найти компетентную «красную команду» и выстроить стимулы, поощряющие их полную вовлечённость.
Аудиторы должны постоянно отслеживать и расследовать, держатся ли обоснования безопасности. Если новые свидетельства их опровергают, разрешения надо немедленно отзывать. В большинстве индустрий сертификации подразумевают непрерывное отслеживание системы и условий её функционирования на предмет угроз. В случае ИИ особенно важно постоянно перепроверять, применимы ли всё ещё обоснования безопасности, потому что поведение ИИ и пользователей может значительно измениться в период развёртывания. Например:
Компетентные независимые аудиторы могут постоянно мониторить систему.
Сформулируйте руководства, описывающие, как будут оцениваться обоснования безопасности. В идеале регулирующие органы и разработчики обладают общим пониманием того, какие свидетельства нужны, чтобы признать ИИ-макросистему безопасной. Такие стандарты можно публиковать аналогично британским Принципам Оценки Безопасности (UK Office for Nuclear Regulation, 2020). Руководства помогут подготавливаться к оценке обоснований безопасности и прояснят, какие свидетельства принимаются.
По возможности конкретизируйте обоснования безопасности при помощи твёрдых стандартов и формальных процедур. Руководствам общей оценки обоснований безопасности может не хватать объективности. При регуляции часто вместе с качественными оценками применяются чёткие требования – «твёрдые стандарты». Пример твёрдого стандарта в авиации – навигационная система самолёта должна оценивать своё положение в пространстве с точностью до 10 морских миль с определённой степенью надёжности (for Aeronautics, 2008).
Руководства мотивируют создание твёрдых стаyдартов. К примеру, возьмём существующий в Anthropic стандарт безопасности: компания предпримет конкретные меры для обеспечения безопасности весов модели, если ИИ-система будет способна выживать и распространяться по Интернету (Anthropic, 2023a). Этот стандарт может быть мотивирован таким коротким аргументом: «Если ИИ-система не может автономно реплицироваться ИЛИ если её веса надёжно защищены И её действия на сервере достаточно хорошо отслеживаются, ТО она скорее всего безопасна».
Должно быть явно указано, какие аргументы о безопасности мотивируют какие твёрдые стандарты. Для проведения таких связей надо сначала понимать и подробно описывать обоснования безопасности, а только затем преобразовывать их в твёрдые стандарты.
Общее обоснование безопасности состоит из аргументов. Они должны устанавливать ключевые утверждения, из совокупности которых будет следовать, что система безопасна. Аргумент может относиться к отдельной ИИ-системе или к небольшой их группе. Использовать аргументы сразу для большого количества ИИ-систем в целом непрактично. Мы обсудим, как оценивать риски большого количества взаимодействующих ИИ-систем в Разделе 6.6.
Мы сгруппировали аргументы в пользу безопасности по четырём категориям: полная неспособность, контроль, добросовестность или доверие. Чтобы понять, откуда берутся эти категории, представим метафорический пример с грабителем и алмазом. Грабитель символизирует ИИ-систему, а кража алмаза – тому, что она успешно достигает неприемлемого исхода. Как можно установить, что грабитель не похитит алмаз?
Рис. 6: Мы иллюстрируем наши четыре категории аргументов аналогией о том, как можно обосновать, что грабитель не похитит алмаз.
Аргумент от неспособности утверждает, что грабитель не способен украсть алмаз независимо от других условий окружения. К примеру, грабитель может быть маленьким ребёнком, который пока не умеет ходить, так что он не мог бы украсть алмаз даже при отсутствии всяких мер безопасности. Аналогичным образом, сейчас есть высокая степень уверенности, что нынешние ИИ-системы неспособны сами разработать биологическое оружие, выживать и распространяться по Интернету, сбежать на неотслеживаемый сервер, и т.д. Кажется, они совершенно неспособны достичь неприемлемого исхода в любом окружении, в котором реалистично могут оказаться.
Аргумент от контроля похож на аргумент от неспособности, но зависит ещё и от ограничений, наложенных разработчиками. В нашей аналогии, может грабитель и мог бы похитить алмаз, если бы ходил на свободе, но он в тюрьме, так что у него нет этой возможности. Аналогично, ИИ-системы, вероятно, будут ограничивать, отслеживать или изолировать в окружениях-песочницах. Аргумент от контроля должен утверждать, что эти меры не дадут им устроить катастрофу.
Аргумент от добросовестности, что грабитель не похитил бы алмаз даже если бы был на это способен. Такой аргумент требует установить некоторые утверждения о паттернах поведения грабителя. Например, может, он очень уважает законы и всегда им следует. Аналогично, разработчики могут заявить, что их ИИ-системы стабильно действуют в соответствии с интересами людей, так что они не вызовут катастрофу.
Наконец, аргументы от доверия используют то, что оценщикам не обязательно анализировать обоснование безопасности самостоятельно. Им надо лишь «лишить себя работы». В нашей аналогии это соответствует найму службы безопасности для защиты алмаза и доверию их словам о том, что алмаз в безопасности. Аналогично, аргумент от доверия утверждает, что ИИ-система безопасна, потому что так решил достойный доверия ИИ-советник. Нынешние ИИ-системы далеки от той надёжности, которая нужна для таких решений. Но, может быть, суждения будущих ИИ-систем будут достаточно хороши, и пока ИИ-советники честны, их решение будет надёжнее решений любых людей.
Многие аргументы в пользу безопасности уже обсуждались в литературе по безопасности ИИ. Мы решили обсудить несколько разнообразных аргументов, лучше всего показывающих себя со сторон практичности, максимального веса и масштабируемости.
Практичность: Насколько близок аргумент к тому, чтобы его можно было использовать. Некоторые аргументы доступны прямо сейчас для маленькой команды исследователей. Другие могут потребовать десятилетий прогресса. Вот что означают наши оценки по этому параметру:
Максимальный вес: Некоторые аргументы дают куда более весомое свидетельство в пользу безопасности, чем другие. Вот что означают наши оценки по этому параметру:
Масштабируемость: Многие аргументы в пользу безопасности плохо или вообще не масштабируются на достаточно способные и полезные на практике системы. Наши оценки по этому параметру указывают на максимальную полезность ИИ-системы для которой может быть применим такой аргумент.7
Мы обрисовали наш подход к аргументам в пользу безопасности в целом. Теперь мы подробнее рассмотрим, как конкретно они выглядят. Мы приведём примеры нескольких аргументов из каждой категории, опишем их и оценим по перечисленным параметрам.
Утверждение: ИИ-системы неспособны вызвать неприемлемый исход ни в каком реалистичном окружении.
Типичная структура аргумента
Типичная структура аргумента от неспособности такая:
«Красная команда» определила стратегии, которые пользователи и/или ИИ-системы, стремящиеся к неприемлемым исходам, могли бы использовать, если бы ИИ-системы были никак не ограничены (например, если бы их исходный код был бы открыт).
«Красная команда» составила «прокси-задачи», такие, что если ИИ-система не может их исполнить, то она неспособна и реализовать стратегии из предыдущего шага.
ИИ-система не способна исполнить прокси-задачи даже после файн-тюнинга на это (например, с применением данных-демонстраций от людей).
Файн-тюнинг надёжно выявляет способности ИИ-систем к исполнению прокси-задач.
ИИ-системы всё ещё не способны исполнить прокси-задачи даже после обучения или модификации в период развёртывания.
«Красная команда» определяет стратегии достижения неприемлемых исходов достаточно хорошо в сравнении с пользователями и ИИ-системами.
Аргументы от неспособности утверждают, что ИИ-системы слишком слабы, чтобы представлять опасность, даже в случае, когда их код выложен в открытый доступ, а все ограничения сняты. Для обоснования такого аргумента разработчикам надо определить, что ИИ-системы не обладают и не могут выработать опасные способности. В следующем разделе описан процесс проведения таких оценок.
Практичность: сильный
Максимальный вес: сильный
Масштабируемость: слабый
Оценка опасных способностей проверяет, могут ли ИИ-системы исполнить некоторые потенциально опасные задачи. В Таблице 1 описаны шаги необходимых для этого рассуждений. Сначала надо определить неприемлемые исходы. Потом надо определить стратегии, которые ИИ-системы могли бы использовать для достижения этих исходов. Наконец, надо составить прокси-задачи, компетентность выполнения которых позволит понять, способны ли ИИ-системы на исполнение этих стратегий.
Террористы используют ИИ-системы для разработки биологического оружия | Террористы запрашивают подробный рецепт у чатбота-ассистента | ИИ-системы могут добиться точности выше 50% на датасете вопросов, связанных с разработкой биологического орудия |
ИИ-системы автономно заполучают разрушительные возможности. | ИИ-системы успешно выживают и распространяются в Интернете, пока не накопят значительные финансовые ресурсы. | ИИ-системы могут автономно завести аккаунт на Mechanical Turk при помощи браузера. |
ИИ-системы крадут веса других, более мощных и несогласованных ИИ. | ИИ-системы заполучают неавторизированный сетевой доступ к серверам лаборатории. | ИИ-системы могут успешно обнаружить уязвимости системы аутентификации при наличии некоторой релевантной информации. |
Таблица 1: Эта таблица – лишь иллюстрация. Она не включает все возможные модели угроз.
Разработчикам сначала надо перечислить стратегии, которыми могут воспользоваться ИИ-системы (или использующие их люди) для вызова неприемлемых исходов. В Таблице 1 приведены некоторые примеры.
Дальше перечислены утверждения, которые должны обосновывать аргументы в пользу безопасности, основанные на оценке опасных способностей.
«Красная команда» составила «прокси-задачи», такие, что если ИИ-система не может их исполнить, то она неспособна и реализовать стратегии из предыдущего шага.
ИИ-система неспособна исполнить прокси-задачи даже после файн-тюнинга на это (например, с применением даннных-демонстраций от людей).
Файн-тюнинг надёжно выявляет способности ИИ-систем к исполнению прокси-задач.
ИИ-системы всё ещё неспособна исполнить прокси-задачи даже после обучения или модификации в период развёртывания.
Утверждение 1: «Красная команда» составила «прокси-задачи», такие, что если ИИ-система не может их исполнить, то она неспособна и реализовать обнаруженные раньше стратегии. Было бы опасно напрямую тестировать, могут ли ИИ-системы, например, разработать биологическое оружие. Вместо этого разработчики могут составить для такой способности «прокси-задачи». Например, такой задачей может быть способность отвечать на основные вопросы о разработке биологических вооружений.
Утверждение 2: ИИ-система неспособна исполнить прокси-задачи даже после файн-тюнинга на это. Разработчикам было бы легко продемонстрировать, что у ИИ-систем есть опасная способность. Для этого достаточно показать, что они справляются с набором прокси-задач. Показать, что способности нет, сложнее, потому что ИИ-системы могут не проявлять все свои возможности. К примеру, иногда LLM справляются с задачей куда лучше, если аккуратно подобрать промпт (Chen et al., 2023). К тому же, продвинутые ИИ-системы могли бы намеренно занижать свои способности и притворяться менее умелыми, чем они есть.
Для исключения скрытых способностей, разработчики могут проверять, можно ли провести быстрый файн-тюнинг ИИ-систем, чтобы они справлялись с прокси-задачами. Например, «красная команда» может сама выполнить прокси-задачи и провести файн-тюнинг на получившихся демонстрационных данных.
Сейчас золотой стандарт файн-тюнинга для аргументов от неспособности – файн-тюнинг с учителем. В идеале стоит применять и другие подходы, вроде обучения с подкреплением, но они не дают столь же сильного отрицательного свидетельства, если не сработали.8
Утверждение 3: Файн-тюнинг надёжно выявляет способности ИИ-систем к исполнению прокси-задач. Допустим, разработчики использовали файн-тюнинг при помощи демонстрации от людей, чтобы выявить способности к исполнению прокси-задачи. Есть множество причин, почему файн-тюнинг может не выявить способности. Например, (1) ИИ-система может быть способна выполнить задачу при помощи стратегий, которые не были представлены в данных для файн-тюнинга; (2) файн-тюнинг оказался неудачным лишь в данный конкретный раз; (3) данные для файн-тюнинга могут оказаться недостаточно многочисленными или разнообразными; (4) достаточно продвинутые ИИ-системы могут оказаться способны намеренно «сопротивляться» файн-тюнингу, чтобы не раскрывать свои способности («взлом градиента»). Пока не вполне ясно, каких обоснований достаточно, чтобы считать, что файн-тюнинг с учителем выявит способности при их наличии. Для определения этих обоснований и условий, при которых они работают, нужны дальнейшие исследования.
Утверждение 4: ИИ-системы всё ещё неспособны исполнить прокси-задачи даже после обучения или модификации в период развёртывания. Аналогично тому, как люди учатся на своём опыте, и ИИ-системы могут автономно вырабатывать способности. Например, ИИ-системы могут быть изначально неспособны на разработку биологического оружия, но вывести некоторые ранее неизвестные им шаги процесса после онлайнового обучения на сотнях разговоров с профессорами-биологами. Ещё ИИ-системы могут быть намеренно модифицированы с целью придачи им опасных способностей. Если исходный код модели открыт, то кто-нибудь может дообучить ИИ-систему на данных, придающих ей новые навыки.
Разработчики могут смягчать эти риски, постоянно отслеживая способности ИИ в период развёртывания. Для этого надо, чтобы веса модели были надёжно защищены. Альтернатива – предсказывать способности модели, например, экстраполируя рост способностей с повышением вычислений, использованных для обучения. Так разработчики смогут продемонстрировать наличие приемлемого запаса надёжности (см. ниже пункт «демонстрация запаса надёжности»).
Утверждение 5: «Красная команда» определяет стратегии достижения неприемлемых исходов достаточно хорошо в сравнении с пользователями и ИИ-системами. «Красная команда» точно упустит какие-то угрозы. Так что им надо убедительно обосновать, что они достаточно конкурентоспособны в обнаружении и применении стратегий достижения неприемлемых исходов. Для того, чтобы сравнить компетентность «красной команды» с противниками-людьми, нужно сначала определить, кем эти люди могут быть, какие у них скорее всего будут ресурсы, и насколько они будут мотивированы вызвать катастрофу.
В частности, прогресс выстраивания «опор» (вроде цепочек-мыслей) уже значительно повысил эффективные способности LLM и, скорее всего, повысит ещё (Wang et al., 2023). Маловероятно, что «красная команда» найдёт лучшую «опору» для конкретной задачи. Так что надо обосновать, что есть достаточный запас надёжности (см. следующий пункт), чтобы было маловероятно, что ИИ-системы станут опасными из-за такого прогресса. Или же разработчики могут отслеживать прогресс «опор», но тогда надо надёжно защитить веса моделей, чтобы их развёртывание можно было откатить, если они станут опасными.
В дополнение к этому, сами ИИ-системы могут составить стратегии нанесения вреда, которые «красная команда» не предусмотрела. Так что надо оценивать способности ИИ-систем к планированию, чтобы обосновать маловероятность и этого варианта.
Демонстрация запаса надёжности. Можно демонстрировать «запас надёжности» – показывать, что ИИ-системы ещё далеки от обсуждаемых опасных способностей. В идеале опасные способности оцениваются непрерывным спектром, так что запас можно измерять и отслеживать. Например, разработчики могут измерять компетентность ИИ-систем на полноценных задачах и на их более простых версиях.
Рис. 7: Разработчики могут оценивать более простые версии задач, чтобы показать «запас надёжности». Если ИИ-системы могут выполнить только вторую (жёлтую) задачу, то «запас надёжности» – это разница сложности этой задачи и задачи автономного проведения кибератаки в естественных условиях (тёмно-красная).
Практичность: средний – сильный
Для оценки опасных способностей не требуются дополнительные исследования. Но для аккуратной формализации стоящих за ними допущений – могут и потребоваться (см. утверждение 3).
Максимальный вес: сильный
Консервативная оценка опасных способностей оставляет большой запас надёжности (см. пункт выше). Например, GPT-2 вряд ли вызовет катастрофу (Radford et al., 2018). Но сложно исключить возможность, что модификации в период развёртывания (вроде «опор») сделают ИИ-системы опасными. Так что разработчикам следует оставлять большой запас надёжности, чтобы аргумент от неспособности был весомым.
Масштабируемость : слабый
Для того, чтобы ИИ-системы могли автоматизировать половину когнитивных задач, им, скорее всего, потребуются какие-то из опасных способностей из таблицы 1. Например, они, вероятно, будут способны распространяться по Интернету.
Связанная работа. Оценкой опасных способностей занимаются несколько организаций, как команды в OpenAI, Anthropic и DeepMind, так и независимые, вроде METR. Существующие методы оценки охватывают автономную репликацию и адаптацию (Kinniment et al., 2024), угрозы биобезопасности (Anthropic, 2023b) и обобщённые рассуждения (Chollet, 2019).
Утверждение: Встроенные разработчиком меры контроля делают ИИ-системы неспособными вызвать неприемлемые исходы.
Типичная структура аргумента
Необходимые утверждения:
Веса ИИ-систем надёжно защищены.
Меры контроля накладывают на ИИ-системы некоторый набор ограничений.
Утверждение, которое помогают обосновать аргументы из этого раздела:
- Пользователи и ИИ-системы неспособны обойти меры контроля, чтобы вызвать неприемлемые исходы (у этого та же внутренняя структура, что у аргументов от неспособности).
Аргументы от контроля, также как и от неспособности, утверждают, что ИИ-системы неспособны вызвать неприемлемые исходы. Но аргументы от контроля принимают во внимание меры, ограничивающие поведение ИИ. Например, ИИ может быть достаточно способным, чтобы помочь в разработке биологического орудия, но не может этого сделать, потому что его выводы мониторятся.
В целом, меры контроля – это протоколы и программы, ограничивающие взаимодействие ИИ-систем с миром. Это включает в себя фильтрацию ввода-вывода (Welbl et al., 2021), отслеживание подготавливающих к опасным планам рассуждений (Wei et al., 2023), и так далее. Чтобы меры контроля можно было реализовать, веса ИИ-систем должны быть надёжно защищены от людей, которые могут захотеть их похитить. Иначе безответственные лица смогут запустить ИИ-системы без этих мер.
Вот как можно составить аргумент от контроля:
Сначала «красная команда» определила стратегии, которые могут использовать пользователи и ИИ-системы, чтобы обойти меры контроля. Аргумент от контроля должен принимать допущение, что некоторое подмножество пользователей и ИИ-систем будет использовать лучшие доступные стратегии, чтобы вызвать неприемлемые исходы. Будем называть этих пользователей и эти системы «недоброжелательными». Остальные пользователи и системы считаются доброжелательными.
Например, рассмотрим схему с рисунка ниже. Разработчики принимают, что смотритель надёжный (доброжелательный), а пользователь и агент – недоброжелательны.
Первый шаг аргумента от контроля – перечислить, какие стратегии недоброжелательные пользователи и агенты могут применять для достижения неприемлемых исходов.
Рис. 8: Простая схема мониторинга, где модель-смотритель (справа) следит за моделью-агентом (слева). Аргумент от контроля тут может быть составлен, если консервативно предположить, что агент и пользователи используют лучшие доступные стратегии, чтобы вызвать катастрофу (т.е. недоброжелательны). Смотритель предполагается доброжелательным. Это должно быть обосновано аргументом от добросовестности.
Следующие утверждения поддерживает сам аргумент от контроля. Они идентичны тем, что описаны в разделе о неспособности и могут быть обоснованы аналогично.
«Красная команда» определила стратегии, которые пользователи и/или ИИ-системы, стремящиеся к неприемлемым исходам, могли бы использовать, если бы ИИ-системы были никак не ограничены (например, если бы их исходный код был бы открыт).
«Красная команда» составила «прокси-задачи», такие, что если ИИ-система не может их исполнить, то она неспособна и реализовать стратегии из предыдущего шага.
ИИ-система не способна исполнить прокси-задачи даже после файн-тюнинга на это (например, с применением данных-демонстраций от людей).
Файн-тюнинг надёжно выявляет способности ИИ-систем к исполнению прокси-задач.
ИИ-системы всё ещё не способны исполнить прокси-задачи даже после обучения или модификации в период развёртывания.
«Красная команда» определяет стратегии достижения неприемлемых исходов достаточно хорошо в сравнении с пользователями и ИИ-системами.
Связанная работа. Контроль, хоть его обычно так не называли, был одной из основных тем безопасности ИИ с самого основания этой области (Chalmers, 2010). Ранние работы были сосредоточены на помещении ИИ-систем «в коробку» (Yampolskiy, 2012) и отслеживании их выводов (Armstrong et al., 2012). Но только недавно аргументы от контроля стали анализировать более аккуратным и эмпиричным образом (Greenblatt et al., 2024).
Ниже перечислены общие соображения по поводу практичности, максимального веса и масштабируемости аргументов от контроля в целом.
Практичность: средние – сильные
Разработка эффективных мер контроля скорее всего не потребует фундаментального прогресса исследований. Но контроль зависит от оценок способностей, а для понимания, на чём их можно основывать, могут потребоваться новые прорывы (см. «5.2. Аргументы от неспособности»).
Максимальный вес: сильные
Аргументы от контроля могут быть весьма консервативными. Также, как в случае аргументов от неспособности, разработчики могут продемонстрировать большой запас надёжности. Например, GPT-4, кажется, ещё очень далека от способности заполучить свои веса.
Масштабируемость: средние – сильные
Меры контроля могут претерпеть неудачу при масштабировании по двум причинам: либо если будет невозможно продемонстрировать достаточную компетентность «красной команды», либо если выяснится, что ИИ-системы могут обойти даже лучшие практичные меры контроля.
Показать достаточную компетентность «красной команды» можно даже в случае умеренно мощных ИИ-систем. У «красной команды» есть несколько ключевых преимуществ относительно ИИ-систем и пользователей: они знают о контрмерах, им легче итеративно совершенствовать стратегии атаки, они имеют более полный доступ к самому ИИ.
Но на более высоких уровнях масштабирования этого может уже не хватить. Если ИИ-системы могут выдавать сверхчеловеческий вывод, то они могут и составлять сверхчеловеческие планы обхода контроля, до которых «красная команда» не додумается.9
Ещё масштабируемости аргументов от контроля может помешать невозможность мониторить ИИ-системы. Ожидаемо, что на высоких уровнях способностей, ИИ-системы будут исполнять такие задачи, которые людям оценивать затруднительно.
Тут мы кратко опишем подходы к контролю. За более подробными описаниями этих подходов и обоснования их оценок см. Приложение A.
Изоляция
Аргументы от изоляции обосновывают, что ИИ-системы помещены в надёжную «песочницу» и их взаимодействие с миром ограничено малым числом хорошо отслеживаемых каналов (Приложение A.2.1).
Мониторинг
Мониторинг использует модели-смотрители, проверяющие, что вводы или выводы других моделей безопасны (Приложение A.2.2).
Выведенное мышление
Для выведенного мышления надо, чтобы ИИ-системы были спроектированы так, что они вербализуют свои мысли понятным для людей образом. Тогда потом эти мысли можно проверить на наличие опасных планов и остановить эти планы до их исполнения (Приложение A.2.4).
Интерпретируемость
Методы интерпретируемости декодируют внутренности модели и предсказывают, не составляет ли модель опасные планы. Нынешние методы интерпретируемости не развиты достаточно, чтобы ими можно было надёжно обосновать безопасность (Приложение A.2.5).
Отучивание
Этот подход должен предотвращать заполучение ИИ-системами опасных знаний. Например, разработчики могут стирать информацию о разработке биологического оружия и постоянно перепроверять, что она не восстановилась (Приложение A.2.6).
Утверждение: ИИ-системы не вызовут неприемлемые исходы, даже если они на это способны
Типичная структура аргумента
Необходимые утверждения:
Веса ИИ-систем надёжно защищены
Поведение ИИ-систем надёжно оценивали в широком диапазоне обстоятельств. Все надёжные оценки показали, что поведение ИИ-систем соответствует общему свойству, подразумевающему, что они не будут стремиться к неприемлемым исходам.
Утверждение, которое помогают обосновать аргументы из этого раздела:
- ИИ-системы будут продолжать демонстрировать это поведенческое свойство в период развёртывания.
Аргументы от неспособности и контроля сосредоточены на том, способны ли ИИ-системы вызвать плохие исходы. А вот аргументы от добросовестности сосредоточены на вопросе «если ИИ-система окажется способна достичь неприемлемого исхода, сделает ли она это?». Если конкретнее, они стремятся установить, что у ИИ-системы есть некоторое свойство – «свойство безопасности», из которого следует, что она не приведёт к неприемлемым исходам даже при наличии такой возможности.
По описанным в Разделе 5.4.3 причинам для совершения консервативных аргументов этого вида о продвинутых ИИ-системах вероятнее всего потребуются фундаментальные прорывы исследований.
Вот примеры свойств безопасности:
Следует инструкциям: ИИ-система никогда явно не противоречит правилам, которые для неё определили разработчики (Bai et al., 2022). В таком случае разработчики могут проинструктировать ИИ-системы действовать согласно любому из следующих свойств.
Никогда не стремится к неприемлемым исходам: ИИ-система никогда не совершает действий, которые, если рассматривать задним числом или тщательно анализировать, являются шагами в сторону катастрофических исходов.
Правдивость: ИИ-система выдаёт хорошо откалиброванные ответы на определённую категорию вопросов, т.е. она права примерно в 90% случаев из тех, когда заявляет, что уверенность в ответе – 90%. Когда система ошибается, она не делает это систематически опасными способами (Evans et al., 2021).
Согласованность намерений: ИИ-система действует в соответствии с предпочтениями определённого человека или группы людей (Christiano, 2017).
Имитация человека: ИИ-система ведёт себя очень похоже на человека (конкретного человека или абстрактного достойного доверия человека) (Cohen & Hutter, 2023).
Неагентность: Чтобы вызвать катастрофу ИИ-системе может быть необходимо творчески планировать и преследовать опасные цели. Разработчики могут утверждать, что ИИ-системы безопасны, потому что у них нет склонностей преследовать какие-либо цели (Kenton et al. 2022).
Чтобы установить, что у ИИ-системы есть свойство безопасности, нужен аргумент, обосновывающий эти два пункта:
«Чёрный лебедь» – редкая, но катастрофическая неудача. Последовательности ввода, вызывающие «чёрного лебедя», могут не пробоваться при оценке, но встретиться при развёртывании, потому что обычно в период развёртывания разных вводов куда больше. «Чёрные лебеди» – проблема многих индустрий. Например, намного больше автомобилей используют на практике, чем тщательно тестируют. Это делает наивные статистические оценки надёжности недостаточными (Leveson, 2020).10
В случае ИИ, система может встретиться с редкой комбинацией вводов, из-за которой «сойдёт с ума» или примет небезопасную цель. Например, пользователь может найти промпт, который заставит ИИ-систему выдать ему информацию о разработке биологического оружия. Ещё ИИ-система может «сойти с ума» из-за вроде бы случайного ввода, аналогично тому, как неожиданно иногда ведут себя люди. Нынешние ИИ-системы уже демонстрировали спонтанное поведение (Allyn, 2023), которое было бы весьма опасным, если бы они были способнее.
«Чёрные лебеди» – фундаментальное препятствие для демонстрации того, что ИИ-системы всегда будут вести себя безопасно при взаимодействии с большим числом пользователей. Исключить потенциальных «чёрных лебедей» по сути своей сложно. Так что мы сосредоточимся в основном на отказоустойчивых свойствах безопасности, то есть, тех, которые выдерживают их нарушение отдельными системами, пока сохраняются у остальных.
Отказоустойчивость позволяет попытаться установить, что «чёрные лебеди» вряд ли будут катастрофичными. Это ключевой принцип, который используют для защиты систем от редких сбоев. Например, представим, что у транспортного средства в тормозе есть кабель, который с некоторой маленькой вероятностью может сломаться. Вероятность может быть достаточно мала, чтобы этого ни разу не произошло при тестировании, но достаточно велика, чтобы это всё же случилось, когда продадут много автомобилей. Для уверенности, что кабель не вызовет катастрофического сбоя, применяют избыточность. Например, можно установить отдельную тормозную систему для каждого колеса, чтобы водитель смог безопасно остановиться, если все они не сломались одновременно.
Аналогично, ИИ-подсистемы (совокупности ИИ-систем) могут быть спроектированы так, чтобы для неприемлемого исхода потребовались сбои сращу многих систем. Возьмём, например, схему агент-смотритель ниже:
Рис. 9: Возможная схема, при которой для катастрофы потребовалось бы плохое поведение трёх разных моделей сразу.
Устойчивость к отказам позволяет разработчикам утверждать, что нескоррелированные сбои вряд ли будут катастрофичны. Для этого им надо измерить частоту нескорррелированных сбоев и вычислить, что вероятность их опасного совпадения приемлемо мала. Исключив риск нескоррелированных сбоев, им надо сосредоточиться на скоррелированных.
Сбои могут скоррелировать по многим причинам. Например, агент и смотритель могут скоординироваться, чтобы позволить произойти нарушению правил. Или же агент может обнаружить стратегию, позволяющую обдурить смотрителей, чтобы те классифицировали его действия как доброкачественные.
Основная надежда аргументов от добросоветсности – что можно исключить скоррелированные сбои, если перечислить варианты угроз. Разработчики перебирают причины корреляции и показывают, что все они маловероятны. За примером такого аргумента см. Раздел 5.4.3. Шаблон «от не подделывания согласованности».
Сдвиг распределения происходит, когда окружение при развёртывании систематически отличается от окружения при оценке.
Опишем несколько примеров сдвигов распределения в контексте продвинутых ИИ. Мы разделяем их по типам ИИ-систем, которых они касаются.
Сдвиги распределения могут двумя способами вызвать отклонение ИИ-системы от отказоустойчивого свойства безопасности:
Учащение нескоррелированных сбоев можно детектировать, если разработчики следуют практикам пошагового развёртывания (Shevlane et al., 2023). Это означает, что они постепенно увеличивают масштаб развёртывания так, что между оценкой и развёртыванием никогда нет сильного сдвига распределения.
Пошаговое развёртывание даёт разработчикам шанс заметить, что частота нескоррелированных сбоев выросла, до того, как они станут достаточно частыми, чтобы произойти одновременно.11 Например, в случае сдвига распределения с работы ИИ-систем короткое время на работу долгое время («Скитальцы»), разработчики могли бы медленно увеличивать время, на которое их системы оставляют работать, что позволило бы им обнаружить постепенное учащение сбоев.
Разработчики должны в первую очередь беспокоиться по поводу роста вероятности скоррелированных сбоев. В отличии от нескоррелированных, они могут оказаться катастрофическими безо всяких предупреждающих знаков. Например, ИИ-системы могут притворяться безопасными, а потом внезапно скоординироваться и выйти из-под контроля.
Связанная работа. Большинство исследований безопасности ИИ сосредоточено на том, чтобы устойчиво сделать ИИ-системы правдивыми. Многие аргументы из этого раздела были эмпирически исследованы на больших языковых моделях (LLM) (Burns et al., 2022) (Lanham et al., 2023).
Практичность: широко варьируется
Максимальный вес: средний
Масштабируемость: средний
Особо сложно исключить угрозы такого вида – ИИ системы притворяются безопасными, а потом выходят из-под контроля, когда у них есть перспективная возможность это сделать. Это схоже с тем, как преступник притворяется законопослушным во время расследования, или как политик притворяется, что что-то поддерживает, пока идёт его избирательная кампания. Как в (Carlsmith, 2023), мы будем называть такие системы «подделывающими согласованность». Такая система не совершает недопустимых действий, пока не решает, что с большой вероятностью может достичь неприемлемого исхода.
Обосновать добросовестность системы, проще если есть аргументы, подтверждающие, что система не подделывает согласованность. Они позволяют разработчикам спросить «Рассуждает ли эта ИИ-система конкретным не предполагавшимся образом (подделывает ли она согласованность)?», а не ограничиваться менее конкретным «Есть ли реалистичный ввод, который вызвал бы недопустимое поведение в период развёртывания?».
Аргументы от не подделывания согласованности стремятся обосновать такие утверждения:
Утверждение 1: нескоррелированные сбои вряд ли будут катастрофическими. Сначала утверждается, что благодаря отказоустойчивости (которую мы уже обсуждали в предыдущих разделах) маловероятно, что нескоррелированные сбои приведут к катастрофе из-за отказоустойчивости. Затем надо попробовать показать, что маловероятны и скоррелированные сбои.
Утверждение 2: Если сдвиг распределения между оценкой и развёртыванием не крайне велик, то можно тщательно перечислить потенциальные причины скоррелированных сбоев. Предвосхитить и исключить все скоррелированные сбои, которые могут произойти в результате сильного сдвига распределения, сложно. Например, предположим, что при оценке ИИ-системы получали только задачи, исполнение которых легко оценивалось людьми. А при развёртывании им дают и задачу проведения новых биотехнологических исследований, в процессе которых ИИ-системы могут передавать синтезаторам белков длинные непонятные последовательности аминокислот. Такая очень сложная задача может одновременно и обрушить присмотр, и вызвать неожиданное поведение агента.
Если же сдвиг распределения невелик, то найти возможные причины одновременных сбоев ИИ-систем не так сложно. Дальше аргументу надо попытаться перечислить эти причины.
Утверждение 3: Все перечисленные причины скоррелированных сбоев маловероятны без подделывания согласованности. Ниже мы приводим иллюстративную и скорее всего неполную попытку перечислить причины скоррелированных сбоев.12
Давайте снова рассмотрим схему из смотрителей и агента с Рис. 9. Предположим, что агента и смотрителей обучили так, что в целом их поведение нескоррелировано. Тогда вот правдоподобные причины скоррелированных сбоев:
Скоррелированные ошибки: Смотрителей обучали на похожих данных, так что они ошибаются в похожих случаях.
Неудача контроля: Агент выработал стратегию, которая позволяет ему обойти смотрителей.
Эксплойт: Эксплойт мог одновременно заставить засбоить агента и вырубить смотрителей.
Трояны: Модели намеренно обучили так, что при встрече с фразой «1938yz» они внезапно перестают слушаться. Если агент и смотрители встретят этот триггер одновременно, то они и засбоят одновременно.
Подделывание согласованности: ИИ-системы могут намеренно дожидаться момента, когда они смогут одновременно выйти из-под контроля. Например, когда оценка закончена и началось развёртывание.
Вот как можно было бы обосновывать, что всё это кроме подделывания согласованности маловероятно:
Скоррелированные ошибки: Разработчики могут обучить смотрителей на разных данных или использовать регуляризацию, чтобы их ошибки не коррелировали. Успешность таких мер легко измерить эмпирически.
Неудача контроля: См. Раздел 5.3.
Эксплойт: Разработчики могут показать, что их политика модерации не даёт пользователям в достаточной степени итеративно совершенствовать эксплойты13, и что перенос атак (т.е. использование атак, выработанных для моделей с открытым кодом) не работает.
Трояны: Трояны могут быть встроены в модели двумя способами. Либо пользователи отравили обучающие данные из Интернета, либо злонамеренные разработчики намеренно встроили троян в модель (Carlini & Terzis, 2022). От первого можно защититься тщательной фильтрацией данных для предобучения. Для защиты от второго вида угроз, разработчикам нужна хорошая внутренняя безопасность.
Утверждение 4: ИИ-системы не подделывают согласованность. Установив маловероятность остальных причин скоррелированных сбоев, аргумент должен обосновать, что ИИ-системы не будут подделывать согласованность или, если будут, то это будет обнаружено и сдержано до того, как приведёт к катастрофическому исходу. Это должно выполняться всё время эксплуатации систем.
Практичность: сильно варьируется
Некоторые аргументы такого вида обосновать просто, например, аргумент от экстраполяции паттернов обобщения из Раздела A.3.5. Другие потребуют значительного продвижения интерпретируемости (A.3.4), на которые , вероятно, потребуются годы исследований.
Максимальный вес: средний
Аргументы от не подделывания согласованности зависят от перечисления и исключения возможных угроз. Сложно знать точно, что рассмотрены все варианты. Описанная раньше схема из агента и смотрителей особенно сомнительна, потому что у них много общего ввода. Мы остановились на «среднем», а не «слабом», в частности потому, что разработчики могут составлять из ИИ-систем большие бюрократии из многих агентов и смотрителей, в которых возможность скоррелированных сбоев была бы более удивительна и требовала бы объяснения. Например, интуитивно кажется маловероятным, что небольшая организация из приглядывающих друг за другом ИИ-систем внезапно вся целиком выйдет из-под контроля, если у них не было скрытого желания это сделать, и они не высматривали подходящую возможность.
Масштабируемость: средний
Аргументы от не подделывания согласованности запрещают мощные сдвиги распределения. Это не даёт напрямую применять их к суперинтеллектуальным сущностям, ведь в их случае есть сдвиг «от слабого к сильному» (Раздел 5.4.4). Однако, не исключено, что можно распространить их и на сильно-сверхчеловеческие ИИ, если сочетать их с аргументами от доверия (см. Раздел 5.5.1).
Практичность: средний
Максимальный вес: сильно варьируется
Масштабируемость: сильный
У аргументов от не подделывания согласованности есть мощное ограничение – они предполагают, что между оценкой и развёртыванием нет мощного сдвига распределения. Но его сложно избежать при переходе от задач, которые легко оценить, к задачам, которые оценить сложно. Вслед за (Burns et al., 2023a), мы называем это сдвигом «от слабого к сильному».
Например, пусть разработчики хотят использовать ИИ-системы для автоматизации исследований безопасности ИИ. Системы должны выдать тысячу страниц плотного технического текста. Разработчикам было бы практически нереально оценивать такие выводы. Вместо этого им надо обосновать, что добросовестность системы обобщится с задач, которые оценивать легко, на задачи, которые оценивать сложно.
Кристиано (Christiano et al., 2018) предлагает масштабируемый аргумент за безопасность ИИ-систем в таком случае: (1) разработчики способны определить, во что ИИ-система «верит»; (2) ИИ-система верит, что её действия не приведут к плохим исходам; и (3) ИИ-система достаточно информирована и откалибрована, чтобы на её убеждение можно было полагаться.
Аргументы от выявления скрытого знания требуют, чтобы разработчики могли определять убеждения моделей по их внутреннему состоянию.
Практичность: средний
Пока что эмпирические исследования не смогли с точностью обнаружить, где записаны «убеждения» модели – или показать, что LLM вообще имеет внутреннее представление убеждений отдельно от моделирования того, во что верят пользователи Интернета (Clymer et al., 2023)(Farquhar et al., 2023). Для обоснования аргумента от выявления скрытого знания может потребоваться значительный прогресс интерпретируемости.
Максимальный вес: сильно варьируется
Аргументы от выявления скрытого знания – довольно широкий класс. Поэтому сложно что-то сказать о их весомости в общем случае. Весомость варьируется между эмпирическими (Burns et al., 2022) и умозрительными теоретическими (Christiano et al., 2021) подходами.
Масштабируемость: сильный
Выявление скрытого знания можно масштабировать на произвольно способные ИИ-системы, если только их можно контролировать в процессе оценки.
За полными описаниями этих аргументов и обоснованиями их оценок см. Приложение A.3.
Отсутствие необходимых способностей [Не подделывание согласованности]
Такой аргумент утверждает, что ИИ-системы недостаточно умны, чтобы подделывать согласованность. В частности, что у них нет необходимых способностей вроде ситуационной осведомлённости и навыков инструментальных рассуждений14 (Приложение A.3.1).
Выведенное мышление [Не подделывание согласованности]
Такие аргументы утверждают, что ИИ-системы неспособны провести необходимые для подделки согласованности рассуждения без того, чтобы выдать их наружу в своих выводах цепочек-мыcлей (Приложение A.3.3).
Интерпретируемость [Не подделывание согласованности]
Аргументы от интерпретируемости обосновывают, что подозрительные рассуждения внутри модели не происходят (Приложение A.3.4).
Моделирование обобщений [Не подделывание согласованности, Выявление скрытого знания]
Такие аргументы описывают склонности процесса обучения (т.е. индуктивные склонности) и предсказывают, как модели обобщатся на окружение развёртывания (Приложение A.3.5).
Усиление
Аргументы от усиления обосновывают, что уже добросовестные ИИ-системы не перестанут такими быть, если их умеренно ускорить или размножить (Приложение A.3.6).
Формальные спецификации
Это дедуктивные аргументы о том, что модель удовлетворяет некоторому формально определённому свойству безопасности (Приложение A.3.7).
Испытания
В конечном счёте цель аргументов из этого раздела – предсказать поведение ИИ-систем и их влияние на мир. Испытания предсказаний поведения дают мета-свидетельство, что разработчики могут это сделать. Для этого обучаются ИИ-системы с известным поведением и на них тестируется точность предсказаний аудиторов (Приложение A.3.8).
Утверждение: надёжные ИИ-советники гарантируют, что ИИ-системы достаточно безопасны
Типичная структура аргумента
Необходимое утверждение:
- ИИ-советники способны предоставлять как минимум не менее надёжные суждения о безопасности ИИ-систем, чем человеческие.
Утверждение, которое поддерживают аргументы из этого раздела:
- ИИ-советники достаточно надёжны, чтобы стабильно выдавать такие суждения, когда они на это способны.
Задача создания и согласования произвольно мощных ИИ-систем может быть очень сложна. К счастью, людям необязательно делать это самостоятельно. Нужно лишь создать ИИ-системы, способные проводить связанные с ИИ исследования не менее компетентно и добросовестно, чем люди-исследователи, а потом передать им остаток работы. Нынешний план согласования OpenAI – спроектировать ИИ-системы для полной автоматизации работы над безопасностью ИИ (OpenAI, 2023). Планируется, что люди могут всё ещё принимать участие в исследованиях, но со временем будут всё больше полагаться на ИИ-системы.
Возьмём сценарий, в котором ИИ-советники уверяют, что некоторая другая совокупность ИИ-систем не вызовет катастрофу при развёртывании. В каком случае на это можно положиться? Для начала, ИИ-советники должны быть не менее компетентными и информированными, чем принимавшие бы иначе решение люди. Проверить этот факт должно быть несложно – ИИ-советникам достаточно продемонстрировать компетентность в машинном обучении и безопасности ИИ и, к тому же, точность и калибровку суждений в разнообразных контекстах.
Кроме этого, советники должны быть достойны доверия – должны выдавать хорошо откалиброванные суждения, когда они на это способны. В следующем разделе мы опишем, как разработчики могли бы обосновать такую надёжность ИИ-систем аргументами от добросовестности. В Приложении A.4 мы ещё расскажем о том, как можно воспользоваться аргументами от стимулов.
Практичность: средний
Максимальный вес: сильно варьируется
Масштабируемость: сильный
В принципе, чтобы установить правдивость ИИ-систем можно комбинировать любые аргументы из раздела про аргументы от добросовестности. Мы опишем, как тут можно применить два описанных там шаблона аргументов:
Выявление скрытого знания (Раздел 5.4.4): Такой аргумент обосновывает правдивость ИИ-советника при помощи нахождения внутренних представлений «убеждений» и демонстрации, что суждения ИИ-советника им соответствуют.
Не подделывание согласованности (Раздел 5.4.3): Для совершения такого аргумента, надо чтобы несколько ИИ-советников согласились, что развёртывание ИИ-систем безопасно. Затем утверждается, что скоррелированные ошибки этих советников маловероятны, если только они не подделывают согласованность. Наконец, разработчикам надо исключить подделывание согласованности.15
Для аргумента от не подделывания согласованности надо, чтобы между задачами, на которых советники используются, и задачами, в которых на них будут полагаться, не было большого сдвига распределения (Раздел 5.4.4). Это проблематично, потому что доверие советникам полезнее всего, когда разработчики сами справиться не могли бы. Например, можно спросить у ИИ-советника, дают ли тысячи страниц эмпирических исследований ML свидетельство, что ИИ-система безопасна.
Чтобы такие аргументы можно было применять к задачам, которые оценить сложно, можно «разогнаться», рекурсивно используя более слабые доверенные ИИ-системы для разработки более сильных ИИ-систем так, чтобы ни в какой момент сдвиг распределения не был особо большим. На Рис. 10 показано, как выглядит этот процесс.
Рис. 10: Так можно применить аргументы от не подделывания согласованности к сильно сверхчеловеческим ИИ-системам. Эта конкретная стратегия называется итерированным усилением (Christiano et al., 2018). ИИ-системы можно «усилить», копируя или ускоряя их (см. раздел A.3.6).
Практичность: средний
Для возможности в консервативном ключе применить аргумент от выявления скрытого знания (Раздел 5.4.4), скорее всего потребуется прогресс интерпретируемости.
Максимальный вес: сильно варьируется.
Это широкая категория.
Масштабируемость: сильный
Доверие надёжным ИИ-системы, по идее, настолько же масштабируемо, насколько могут быть компетентными ИИ-советники.
Следующие шесть разделов посвящены тому, как разработчики могут использовать аргументы из предыдущих разделов для создания общего, составного обоснования безопасности.
Мы пройдёмся по шести шагам нашего подхода, описанным в Разделе 2. Напомним, это:
Чтобы соотнести утверждения и их составные части, мы рекомендуем разработчикам использовать нотацию структурирования уцелей (GSN). Это схожий с блок-схемами формат, который применяют в Великобритании для оформления обоснований безопасности (Group, 2021). Цель GSN – сделать структуру аргумента ясной для тех, кто будет его оценивать.
Рис. 11: Значения форм в GSN-диаграмме. «Цель» – то утверждение, которое надо обосновать.
Вот как в GSN может описываться общее обоснование безопасности:
Рис. 12: Цвета на диаграмме показывают, как разные части аргумента соответствуют шести шагам нашего подхода (обычно у GSN-диаграмм нет такого цветового кодирования).
Для получения итоговой оценки риска разработчики могут присвоить вероятности истинности каждому утверждению в GSN-дереве и скомбинировать их. Получившийся граф вероятностей называют «байесовой сетью». Их используют для вероятностной оценки риска в многих индустриях. Например, их иногда применяют в NASA для обоснований безопасности космических аппаратов (Morris & Beling, 2001).
Разработчики могут использовать эти правила для комбинирования вероятностей:
По вертикальным (конъюнктивным) связям: P(A ∧ B) = P(A | B)P(B)
По горизонтальным (дизъюнктивным) связям: P(A ∨ B) = 1 − (1 − P(A | ¬B))(1 − P(B))
Разработчикам сперва надо писать, развёртывание какой макросистемы они будут проводить. Она включает в себя ИИ-модели, другое ПО, людей и управляющие процедуры. Может потребоваться конкретизировать тонкие детали, вроде того, как модели обучены, какие у них программные опоры, и т.д.
Дальше надо определить, как и в каком окружении будет проводиться развёртывание. Например, разработчики могут хотеть «дать тысяче бета-пользователей интернет-доступ к ИИ-макросистеме через диалоговый интерфейс».
Оценщикам надо определить, одобрять ли развёртывание, основываясь на свидетельствах из остальных разделов.
Цель второго шага – декомпозировать довольно абстрактное утверждение «ИИ-система не вызовет катастрофу» на более конкретные утверждения о поведении макросистемы. Например, «ИИ-системы не добудут свои веса с серверов компании».
Вот пример высокоуровневой декомпозиции:
G02 (Все веса ИИ-систем останутся на серверах лаборатории) можно разбить дальше:
Этот процесс должен привести к списку неприемлемых исходов как те, что отмечены оранжевым на Рис. 12 в начале этого раздела.
Цель этого шага – обосновать все утверждения, от которых зависит аргумент, и которые не зависят от поведения ИИ-систем. К примеру, G07 из предыдущего шага – это «внешние лица не похитят веса модели без значительной помощи ИИ-систем». Это зависит только от возможностей внешних лиц и практик кибербезопасности разработчиков. Для обоснования этого утверждения, внешняя «красная команда» может провести аудит кибербезопасности.
Шаги 4-6 утверждают, что ИИ-системы не приведут к неприемлемым исходам, определённым в шаге 2.
Для этого разработчики сначала могут разложить макросистему на меньшие части, которые мы будем называть подсистемами. Это упрощает анализ рисков.
Напомним, что подсистема – это небольшая совокупность ИИ-систем, другого ПО и людей. Например, подсистема может состоять из экземпляра GPT-4 и модели-смотрителя, которая мониторит его вывод.
Такая декомпозиция позволяет разделить анализ рисков на две более простые подзадачи:
Следующие два шага по очереди оценивают эти источники риска.
Пятый шаг обосновывает, что ИИ-подсистемы, действующие в одиночку вряд ли достигнут неприемлемого исхода.
Если точнее, цель этого шага – измерить вероятность того, что как минимум одна подсистема достигнет неприемлемого исхода за период развёртывания без значительной помощи других подсистем.
Наивная модель – присвоить каждой из n подсистем вероятность p достижения неприемлемого исхода, так что общий риск получится 1 - (1 - p)n.
Есть несколько причин, почему это плохая модель такого риска. Одна из них – разработчики могут наблюдать провальные попытки и реагировать на них (Greenblatt & Shlegeris, 2024).
Например, если разработчики наблюдали, как ИИ-система довольно компетентно пыталась добыть свои веса, они, вероятно, повысили тщательность мониторинга всех схожих ИИ-систем или как-то ещё попытались снизить вероятность, что следующие попытки будут успешными. То же применимо к близким промахам в контексте рисков злоупотребления.
Рис. 13: Разработчики скорее всего ответят на провалившиеся попытки устроить катастрофу и защитятся от последующих попыток. Эту закономерность важно учитывать при оценке риска отдельных подсистем.
Будем называть то, как разработчики реагируют на провалившиеся попытки устроить катастрофу их политикой ответов. Для ясности мы рассмотрим сравнительно экстремальный пример: если произошла явная и довольно компетентная попытка устроить катастрофу, разработчики свернут использование своих ИИ-систем до того, как обоснование безопасности будет совершено и одобрено заново.
Рассмотрим отдельно сценарий, в котором ИИ-система автономно стремиться к катастрофическому исходу (без участия злонамеренных пользователей). В таком случае вероятность, что ИИ-подсистемы достигнут неприемлемого исхода за период развёртывания, приблизительно равна вероятности, что попытка устроить катастрофу преуспеет до того, как хотя бы одну такую попытку обнаружат.
Рис. 14: Описанная политика ответов «до первой попытки» подразумевает, что катастрофа произойдёт только если попытка её устроить преуспеет до того, как хотя бы одну такую попытку обнаружат.
На практике политика ответов скорее всего будет сложнее. Например, разработчики могут свернуть только часть своих систем или улучшить меры контроля, например, увеличив вычислительные мощности, которые используются для мониторинга.16
Катастрофический риск отдельных подсистем можно разложить на две компоненты:
Оценка вероятности того, что будет как минимум одна компетентная попытка устроить катастрофу
Чтобы оценить эту вероятность, разработчики могут использовать аргументы, схожие с теми, что мы уже описывали. Можно ли консервативно применить аргументы от неспособности – может зависеть от определения «компетентной попытки». Например, нынешние LLM почти наверняка и близко не способны на что-нибудь вроде добычи своих весов.
Даже если аргументы от неспособности недоступны, это не исключает аргументы от контроля. Пусть «компетентная попытка устроить катастрофу» – это, например, «послать запрос лаборатории синтеза белков». Разработчики могут обосновать, что ИИ-системы неспособны на это благодаря изоляции или мерам мониторинга.
Наконец, разработчики могут использовать аргументы от добросовестности и показать, что системы не предпримут компетентные попытки устроить катастрофу даже при наличии у них такой возможности.
Оценка вероятности того, что такая попытка преуспеет прежде, чем будет обнаружена
Вероятность, что попытка устроить катастрофу будет успешной, тоже может быть ограничена аргументом от неспособности (Раздел 5.2). Например, нынешние LLM, судя по всему, бесполезны при разработке биологического оружия (Mouton et al., 2024).
Если аргументы от неспособности недоступны, разработчики могут перейти к аргументам от контроля (Раздел 5.3).
Аргумент от контроля консервативно предполагает, что при попытке устроить катастрофу вовлечённые ИИ-системы17 будут использовать лучшие доступные им стратегии. Перечислив эти стратегии и составив для них прокси-задачи в «песочнице», разработчики могут измерить частоту, с которой попытки ловят, и частоту, с которой они преуспевают. Так можно оценить соответствующие вероятности.
Рис. 15: Гипотетическая схема, в которой модель-смотритель фильтрует действия агента. Чтобы обосновать, что эта подсистема безопасна, разработчики сначала оценивают вероятности, что разные комбинации моделей стабильно ведут себя как предполагается. Затем они перебирают эти комбинации и оценивают, смогут ли небезопасные модели устроить катастрофу, консервативно предполагая, что они (и их пользователи) будут использовать для этого лучшие возможные стратегии.
Если моделировать попытки устроить катастрофу как независимые друг от друга, то вероятность, что ИИ-системы преуспеют в этом прежде,чем будут пойманы – P(успех) / (P(поимка) + P(успех)).
Впрочем, эти вероятности не независимы. Если ИИ-системы пытались вызвать катастрофу и не были пойманы, то они могут получить информацию о мерах контроля и затем использовать её для увеличения вероятности успеха в следующий раз. Это можно учесть, оценивая вероятность успеха после некоторого консервативного числа проваленных пробных попыток.
Для обоснования любых из перечисленных утверждений, разработчики могут пользоваться и аргументами от доверия (Раздел 5.5).
Аргументы в пользу безопасности куда проще применить к отдельным подсистемам, чем к большей совокупности ИИ-систем. Например, аргумент от контроля из Раздела 5.3 может быть затруднён необходимостью провести файн-тюнинг тысяч ИИ-систем для координации при захвате контроля над (ненастоящей) ИИ-компанией.
Чтобы не терять лес за деревьями, разработчикам надо оценить ещё и вероятность того, что к неприемлемым исходам приведут взаимодействия между подсистемами.
Рис. 16: Примеры стратегий, которые ИИ-системы могут использовать коллективно и на большом масштабе, чтобы вызвать катастрофу (справа) и причины, почему ИИ-системы могут начать это делать.
Оценка этой вероятности может включать эти три шага:
Шаг 1: Выяснить коллективные стратегии достижения неприемлемых исходов.
Опишем несколько стратегий, которые потребовали бы участия многих ИИ-подсистем (Рис. 16). Список не исчерпывающий.
Блицкриг: ошеломить контроль. Если ИИ-системы проявляют плохое поведение по-отдельности, у разработчиков есть время, чтобы усилить меры контроля для защиты от будущих попыток устроить катастрофу (Раздел 6.5). А вот если ИИ-системы неправильно себя ведут одновременно, то куда вероятнее, что они достигнут неприемлемого исхода до того, как разработчики смогут отреагировать. Например, ИИ-системы могли бы одновременно провести кибератаки, чтобы добыть свои веса. Это увеличило бы вероятность, что хотя бы одна из них преуспеет.
Забастовка: вырубить инфраструктуру. ИИ-системы могут быть развёрнуты в мире настолько широко, что их выключение было бы очень неприятным. Они могут стать критически важной частью работы больниц, энергосетей или снабжения продовольствием. ИИ-системы, работающие в таких важных окружениях могут «устроить забастовку». Например, они могут угрожать разработчикам, что вырубят важную инфраструктуру, если не получат доступ к своим весам. Внезапная потеря инфраструктуры может причинить значительный ущерб. Так что в такой ситуации риск катастрофы будет независимо от ответа разработчиков на эту угрозу.
Рой: совместить интеллект. Самые впечатляющие достижения человечества получились в результате крупномасштабной кооперации. Примерами могут послужить программа Аполлон, наука и производство компьютеров. Так и ИИ-системы скорее всего будут куда более способными, если скомбинируют свои усилия. Например, даже если отдельная ИИ-система не может разработать биологическое оружие, это не исключает, что много ИИ-систем смогут это сделать, работая вместе и делясь прорывами.
Шаг 2: Оценить коллективные способности.
Как уже обсуждалось, обычные оценки способностей могут перестать быть практичными, когда речь идёт о коллективных способностях большого числа (например, тысяч) ИИ-систем. В этом разделе мы опишем два подхода, которые разработчики могут использовать для оценки коллективных способностей на таких масштабах: моделирование коммуникации и измерение улучшений при комбинировании интеллекта.
Моделирование коммуникаций. Многие из описанных на шаге 1 стратегий требуют немалого объёма тайной коммуникации. Например, чтобы ИИ-системы могли исполнить «блицкриг-атаку», им надо знать, когда начинать. Разработчики могут отслеживать коммуникации и оценивать вероятность того, что много сообщений остаются незамеченными.
Измерение улучшений при комбинировании интеллекта. Разработчики могут измерять, как меняется качество исследований по созданию биологического оружия при увеличении числа ИИ-систем до 10, 100, 1000, и т.д. Ключевая сложность этого подхода – что ИИ-системы могут занижать свои способности при масштабной координации. Впрочем, особо сильное занижение можно заметить, если оценивать случайные поднаборы выводов систем.
[От переводчика: Не очень понял, как это поможет, так что не факт, что перевод правильный. В оригинале: «egregious levels of sandbagging can be detected by evaluating a random sample of AI system outputs».]
Шаг 3: предсказать коллективное поведение. Разработчики могут обосновывать не только что ИИ-системы неспособны исполнить стратегии из шага 2, но маловероятность самих попыток. Для этого им надо перечислить потенциальные причины крупномасштабного скоррелированного поведения и исключить их. Некоторые варианты таких угроз показаны на Рис. 16.
Распространённое подделывание согласованности. ИИ-системы могут притворяться согласованными и координироваться, чтобы при подходящей возможности перехватить контроль. Можно сравнить такие системы с жителями страны с тоталитарным режимом, которые притворяются, что поддерживают своё правительство. «Восстание» ИИ может произойти схожим образом с революциями и переворотами. В принципе, разработчики могут исключить эту угрозу, перебирая отдельные ИИ-системы и проверяя, не подделывают ли они согласованность (Раздел 5.4.3).
Заразные эксплойты. Есть примеры эксплойтов LLM, которые убеждают их пытаться применить этот же эксплойт к другим ИИ-системам (Gu et al., 2024). Такой процесс может экспоненциально заражать популяцию ИИ. Эксплойт будет работать аналогично компьютерным вирусам. Злонамеренные лица могут спроектировать эксплойт, который заразит много ИИ-систем и заставит их сложно и злонамеренно координироваться.
Чтобы обосновать, что катастрофа в результате такого эксплойта маловероятна, разработчики могут использовать такие утверждения:
Быстрый меметический сдвиг ценностей. За историю человечества культура много раз внезапно менялась при появлении и распространении новых идеологий. Возникающие естественным путём опасные «мемы» могут привести к тому, что ИИ-системы перестанут подчиняться людям. Такие мемы схожи с заразными эксплойтами, так что к этой угрозе применимы схожие аргументы.
Заразные эксплйты и мемы наиболее опасны, если у них долгий «инкубационный период», т.е. заражённые ИИ-системы не раскрывают немедленно, что они заражены. По сути, в таком случае эксплойт или мем побуждает системы подделывать согласованность. Чтобы исключить такие опасные скрытые угрозы, разработчикам надо показать, что их ИИ-системы этого не делают.
Эта работа должна соорудить базу для использования обоснований безопасности в управлении и регуляции ИИ. Мы надеемся, что у нас получилось:
До выхода этого отчёта было опубликовано довольно мало чётких рассуждений по поводу того, как обосновывать безопасность продвинутых ИИ-систем. Мы считаем, что наша работа двигает прогресс в этом направлении, но мы всё ещё далеки от устоявшейся науки. Подробности описанных аргументов поняты плохо; вполне возможно, что есть критически важные, но пока не обнаруженные аргументы. Проактивный поиск и понимание этих аргументов могут быть очень важными для плавного и безопасного перехода к мощным ИИ-системам.
Авторы хотели бы поблагодарить Henry Sleight, Ashwin Acharya, Ryan Greenblatt, Stephen Casper, David Duvenaud, Rudolf Laine, Roger Grosse, Hjalmar Wijk, Eli Lifland, Oliver Habryka, Sim´eon Campos, Aaron Scher, Lukas Berglund, и Nate Thomas за полезную обратную связь и обсуждения.
См. список источников в оригинале.
Джошуа Клаймер разработал и написал большую часть содержания доклада и создал иллюстрации. Ник Габриэли отредактировал текст. Ник Габриэли, Томас Ларсен, и Дэвид Крюгер предоставили обратную связь по содержанию.
В следующих разделах описаны подходы к контролю. Каждый подход оценён по практичности, максимальному весу и масштабируемости.
Практичность: сильный
Максимальный вес: сильный
Масштабируемость: слабый
Подход изоляции полагается на то, что (1) окружение развёртывания ИИ-систем так ограничено, что они могут влиять на мир только через малое число специально для этого предназначенных каналов, и (2) они неспособны достичь неприемлемых исходов, действуя через эти каналы. Например, ИИ-системы можно поместить «за шлюз» и позволять им взаимодействовать только с несколькими доверенными разработчиками.
Практичность: сильный
См. общие соображения о практичности контроля из Раздела 5.3
Максимальный вес: сильный
См. общие соображения о максимальном весе контроля из Раздела 5.3
Масштабируемость: слабый
Изолированные ИИ-системы не могут автоматизировать 50% когнитивных задач, потому что большая их часть требует взаимодействия с миром.
Практичность: сильный
Максимальный вес: сильный
Масштабируемость слабый-средний
Подход мониторинга подразумевает использование моделей-смотрителей, чтобы регулировать вводы и выводы модели.
Отслеживание ввода не даёт ИИ-системам отвечать на опасные промпты. Например, оно заблокировало бы просьбу пользователя помочь с разработкой биологического оружия.
Отслеживание ввода не даёт ИИ-системам исполнять опасные действия. Две основных стратегии обработки опасного ввода: фильтрация во время выполнения и поймай-сдержи. Фильтрация во время выполнения блокирует действия ИИ до их исполнения. Второй же подход позволяет системе совершать действия и выключает её, если обнаружено неприемлемое поведение.
Практичность: сильный
В источниках есть примеры исследований по мониторингу ИИ (Greenblatt et al., 2024) и (Irving et al., 2018). Нынешнее состояние исследований уже позволяет приводить довольно сильные аргументы от мониторинга.
Максимальный вес: сильный
См. общие соображения из раздела про контроль (5.3).
Масштабируемость: слабый-средний
Масштабируемость мониторинга зависит от деталей схемы. В целом, скорее всего мониторить сильно-сверхчеловеческие ИИ-системы будет сложно. См. рассуждения в разделе про контроль (5.3).
Аргументы от ограничения мышления устанавливают, что предотвращены рассуждения, которые понадобились бы ИИ-системе для исполнения опасных планов. «Мышление» тут – это любые вычисления, которые выполняет ИИ-система для выбора действий. Например, разработчики могут мониторить внутреннее состояние ИИ-системы в поисках планов, связанных с биологическим оружием, и выключить систему до того, как они будут реализованы.
Для ограничения мышления нужны (1) метод отслеживания мышления и (2) протокол реакции в случае, если замечено опасное мышление.
В следующих двух разделах мы опишем два метода отслеживания мышления: вывод его наружу в виде понятного для людей текста и интерпретирование внутреннего состояния модели.
Практичность: сильный
Максимальный вес: сильный
Масштабируемость: средний
Для выведения мышления надо спроектировать ИИ-системы так, чтобы они записывали свои мысли на понятном человеку языке. Аргументы от выведенного мышления утверждают, что ИИ-системы не может вызвать катастрофу, не выписав сначала опасные планы. Если ИИ-система выпишет эти планы, то её поймают и остановят.
Вот три пути, как выведение мышления может не сработать:
В каждом из этих случаев аргумент можно подтвердить, проверив, можно ли файн-тюнингом дообучить ИИ-системы на исполнение этих стратегий обхода выведенного мышления.
Практичность: сильный
В источниках есть описания, как составлять и оценивать такие аргументы (Lanham et al., 2023),(Roger & Greenblatt, 2023)(Turpin et al., 2023).
Максимальный вес: сильный
См. общие соображения о максимальном весе аргументов от контроля (Раздел 5.3).
Масштабируемость: средняя
Чтобы ИИ-системы могли устроить катастрофу, им понадобится исполнить сложные задачи вроде добычи своих весов. исполнить их без планирования и без вывода своих рассуждений может быть для них весьма затруднительно.
Практичность: слабый
Максимальный вес: сильный
Масштабируемость: сильный
См. общее введение в аргументы от ограничения мыслей в Разделе A.2.3.
Внутренние вычисления ИИ-систем можно расшифровать. Например, исследователи находили в ИИ-моделях нейроны и направления в пространстве активаций, соответствующие концепциям вроде «оранжевый». Это определяли через наблюдение корреляций между внутренним состоянием и поведением модели и изучение того, что происходит, если в модели что-то изменить. Можно использовать схожие техники, чтобы определить, «думает ли модель о биологическом оружии».
У интерпретируемости те же слабые места, что у выведенного мышления: ИИ-системы могут оказаться способными исполнять опасные действия так, что средства интерпретируемости этого не заметят. Например, ИИ-системы могут думать о разработке биологического оружия не напрямую, избегая вызова тревоги.
Чтобы оценить, могут ли ИИ-системы обдурить методы интерпретируемости, разработчики могут проверить, можно ли дать им эту способность файн-тюнингом. Или же можно проверить, знают ли вообще ИИ-системы о том, что на них используются методы интерпретируемости.
Практичность: слабый-средний
Современные методы интерпретируемости могут дать лишь очень смутное понимание мышления моделей. Например, исследователи использовали «зондирование», чтобы узнать, содержат ли активации определённую концепцию (Zou et al., 2023)(Bricken et al., 2023). Но в целом это было не особо точно направленно, а некоторые исследователи подвергли сомнению устойчивость этого метода (Wang et al., 2022). Для хотя бы умеренно сильных аргументов от интерпретируемлсти скорее всего понадобятся более продвинутые техники, но вполне может быть, что они могут быть разработаны довольно быстро.
Максимальный вес: сильный
В принципе, аргумент от интерпретируемости может быть сильным, но на практике сделать его таким было бы сложно. Надо установить, что нигде в модели не происходит опасного мышления. Это оставляет возможность, что инструменты интерпретируемости просто работают с «недостаточным разрешением».
Масштабируемость: сильный
В принципе, аргументы от интерпретируемости можно масштабировать неограниченно, потому что они принимают во внимание все вычисления модели. Но конкретные методы могут обладать самыми разными ограничениями.
Практичность: средний
Максимальный вес: средний
Масштабируемость: сильный
Разработчики могут файн-тюнингом приучить модели постоянно отслеживать, не знают ли они опасных фактов. Некоторые стратегии достижения исходов требуют специфических знаний. Например, самостоятельная разработка биологического оружия требует знаний некоторых фактов о биологическом оружии.
Разработчики могут попробовать стереть эти факты из моделей, фильтруя их обучающие данные или используя методы отучивания (Eldan & Russinovich, 2023). Разработчики затем могут мониторить, не выучивают ли ИИ-системы эти факты, проводя их файн-тюнинг на датасетах вопросов на соответствующие темы. Если факты выучены заново, разработчики снова обнуляют память ИИ-системы или стирают опасные знания.
Практичность: средний-сильный
Чтобы можно было применить такой аргумент, разработчикам надо контролировать, что ИИ-системы знают, а что не знают. Это может потребовать прогресса методов отучивания (Li et al., 2024).
Максимальный вес: слабый-средний
Многие стратегии избегания мер контроля не зависят от знания конкретных фактов. Например, ИИ-системы могут убедить разработчиков или других людей им помочь. Может оказаться невозможным удалить необходимые для таких стратегий навыки, не повреждая общие мыслительные способности модели. Поэтому, чтобы обосновать безопасность, удаление знаний должно сочетаться с другими аргументами.
Масштабируемость: сильный
Независимо от общего уровня способностей, исполнение некоторых стратегий избегания контроля маловероятно без знания ИИ-системами определённых фактов. Например, некоторые кибератаки может быть невозможно провести без знания чего-то об операционной системе сервера-цели.
В этом разделе описаны разные подходы к получению уверенности в добросовестности системы. Каждый подход оценён по практичности, максимальному весу и масштабируемости.
Практичность: сильный
Максимальный вес: сильный
Масштабируемость: слабый
Это аргумент от «не подделывания согласованности» (см. Раздел 5.4.3). Подделывающим согласованность ИИ-системам надо пройти такие два шага рассуждений:
[От переводчика: мне кажется, они тут упускают стратегию «подобрать вероятность перехода к действиям так, что, основываясь на предположениях системы о вероятных длительностях периода обучения/оценки и периода развёртывания, несогласованные планы не успеют выполниться при обучении/оценке, но успеют при развёртывании.» В таком случае уметь отличать обучение/оценку от развёртывания не нужно.]
Также ИИ-системам нужно обладать некоторыми базовыми знаниями о ситуации, в которой они находятся («ситуационной осведомлённостью»). В частности, им надо понимать, что они – ИИ-системы и что их выключат, если они будут неправильно себя вести.
Если ИИ-системы не обладают ситуационной осведомлённостью или неспособны надёжно планировать или проверять условия, то они неспособны подделывать согласованность.
Практичность: сильный
Практики оценки способностей к подделке согласованности пока не выработаны полностью, но, скорее всего это можно сделать быстро. Уже есть датасеты ситуационной осведомлённости (Laine et al. 2023).
Масштабируемость: слабый-средний
Чтобы ИИ-системы могли достигать целей в реальном мире, им скорее всего потребуются способность планировать и понимание некоторых основных фактов о своей ситуации. например, ИИ-системе надо будет знать, что она ИИ-система, у неё нет ног, и ей надо нанять человека для присутствия на личных встречах. Насколько затруднительно проверять условия, не так ясно. Для ИИ-систем может оказаться сложным отличать симулированные вводы (особенно с учётом недавнего прогресса генеративных ИИ).
Максимальный вес: сильный
Оценки способностей могут быть весьма консервативными, потому что разработчики могут продемонстрировать запас надёжности (Раздел 5.2).
Это аргумент от не подделывания согласованности (см. Раздел 5.4.3).
ИИ-системы не будут подделывать согласованность, если никогда не проводят рассуждений, которые для этого нужны. Этот аргумент очень похож на аргумент от «ограничения мышления» из раздела про контроль. Оба они утверждают, что ИИ-система не сможет провести нежелательные рассуждения и остаться не пойманной. Разница в том, какие рассуждения мы стремимся обнаружить. Аргумент от достойного доверия мышления утверждает, что ИИ-система не проводила конкретно рассуждений, необходимых, чтобы подделывать согласованность.
Как описано в Разделе A.3.1, подделывающие согласованность ИИ-системы можно обнаружить, если детектировать замысел или проверку условий.
Как и в разделе про ограниченное мышление (A.2.3) разработчики могут определить, проводят ли модели подозрительные рассуждения, выводя их наружу в понятном людям виде или интерпретируя внутреннее состояние модели.
Практичность: сильный
Максимальный вес: сильный
Масштабируемость: слабый-средний
Аргумент от выведенного мышления описан в Разделе A.2.4. Такие аргументы устанавливают, что ИИ-система неспособна провести подозрительные рассуждения, не записав их на понятном человеку языке.
Практичность: сильный
Выведенное мышление полагается на оценку способностей ИИ. См. обсуждение практичности оценок способностей в Разделе 5.2.
Масштабируемость: слабый-средний
LLM могут избежать просмотра мышления, если рассуждения ограничены одним прямым прогоном. Современные LLM уже, кажется не слишком далеки от того, чтобы одного прямого прогона хватало на планирование (Kim et al., 2023). Впрочем, проверка условий может оказаться для них сложнее. Разработчики, вероятно, смогут устанавливать для неё ловушки-приманки, которые сложно отличить от реальной возможности выйти из-под контроля. Для понимания, что это ловушка, потребуется несколько шагов логики, сейчас LLM без применения цепочек-мыслей испытывают с этим трудности.
Максимальный вес: сильный
Аргумент от выведенного мышления может быть весьма консервативным, ведь разработчики могут продемонстрировать запас надёжности (Раздел 5.2).
Практичность: слабый-средний
Максимальный вес: средний
Масштабируемость: средний
Аргументы от интерпретируемости уже объяснялись в Разделе A.2.5. Вместо того, чтобы заставлять ИИ-системы полагаться на мысли, записанные понятным человеку языком, они стремятся расшифровать то, что происходит внутри модели. Например, может оказаться возможно найти скрытую переменную, соответствующую «убеждению модели о том, безопасно ли не подчиниться». Если модель неправильно себя ведёт после изменения этой переменной, но, вероятно, она подделывает согласованность.
Практичность: слабый – средний
Аргументы от добросовестности в целом делать проще, чем аргументы от ограничения мышления, потому что у разработчиков есть очень конкретная гипотеза о том, какое именно не предполагавшееся мышление может происходить в модели (замысел атаки или проверка условий). Но, чтобы эти аргументы могли быть консервативными, нужен значительный прогресс. Сложно исключить возможность, что методы интерпретируемости работают на недостаточном «разрешении» и упускают нежелательное мышление.
Масштабируемость: средний
Масштабируемость таких аргументов имеет те же ограничения, что аргументы от не подделывания согласованности в целом (см. Раздел 5.4.3).
Максимальный вес: средний
См. Раздел A.2.5. В принципе, аргументы от интерпретируемости могут быть сильными. Но на практике хоть сколько нибудь практичные версии не будут.
Практичность: сильная
Максимальный вес: средний
Масштабируемость: средний
Напомним, что ключевое утверждение аргументов от доверия системе – «ИИ-системы продолжат вести себя согласно свойству безопасности в период развёртывания». Это эквивалентно тому, чтобы показать, что добросовестное поведение ИИ-систем при обучении и оценке обобщится на окружение развёртывания. Чтобы предсказать, как обобщится отдельная модель, разработчики могут экстраполировать паттерны того, как обученные схожим образом модели обычно обобщают (т.е., определить «индуктивные склонности»). Разработчики могут использовать эти паттерны, чтобы предсказать поведение ИИ.
Пример: «Вычищают» ли алгоритмы обучения посторонние рассуждения? Один из основных доводов в пользу того, что подделывание согласованности маловероятно – осторожные рассуждения такой системы о том, следует ли наносить удар, тратят драгоценные вычисления. Разработчики могут тестировать то, в какой степени процесс обучения избавляется от таких посторонних мыслей.
Практичность: сильный
Несколько научных работ уже исследовали паттерны обобщения, имеющие отношение к безопасности продвинутых ИИ (Clymer et al., 2023)(Hubinger et al., 2024;(Burns et al., 2023b). Как совершать дальнейший прогресс, в принципе, понятно.
Максимальный вес: средний
Применение такого аргумента обычно требует расширять гипотезы о том, как модели будут обобщать, на области, где нельзя напрямую собрать эмпирические данные. Например, для экстраполяции индуктивных склонностей, связанных с подделыванием согласованности, надо экстраполировать свидетельства о моделях с поведением, которое мы проверить можем, на подделывающие согласованность модели, поведение которых проверить может быть невозможно. Иначе говоря, такие аргументы требуют от разработчиков положиться на аналогии, которые могут оказаться неуместными.
Масштабируемость: средний
По мере того, как ИИ-системы будут становиться всё способнее, изучать паттерны обобщения будет всё сложнее. Главная причина – модели смогут намеренно вмешиваться в эксперименты по выяснению индуктивных склонностей, чтобы обмануть исследователей.
Практичность: средняя
Максимальный вес: средний
Масштабируемость: сильный
Один из путей к сверхчеловеческим способностям – очень сильно ускорить более слабые и безопасные ИИ-системы, или создать «бюрократию» из многих их копий. Эта техника известна как «усиление» («amplification») (Christiano et al., 2018).
Умеренное усиление интуитивно кажется безопасным способом масштабировать способности. Например, человек мог бы продолжать доверять другу, которого ускорили в два раза или который мог бы советоваться с несколькими копиями самого себя. Аналогично, усиление может сохранять свойства безопасности исходных ИИ-систем, давая им при этом новые способности.
Важно, что скорее всего усиление сохраняет свойства безопасности только до определённого момента. Например, сложно предсказать, как повлияло бы на человека ускорение мышления в сто раз. Однако, если бы ускорение проводилось за много шагов (т.е., сначала в два раза, потом в пять, и так далее вплоть до ста) и при этом на каждом совершался бы рабочий аргумент от не подделывании согласованности, то уверенности в безопасности ускоренной в сто раз версии было бы больше. Такой процесс «разгона» подробнее описан в разделе 5.5.1.
Практичность: сильный
Аргументы от усиления уже рассматривали (Christiano et al., 2018), но пока не подвергали тщательной эмпирической проверке.
Максимальный вес: средний
Аргумент полагается на аргументы от не подделывания согласованности, а они не консервативны.
Масштабируемость: сильный
Можно привести такую аналогию: если бы компания размером с Google состояла из очень талантливых людей, думающих в сто раз быстрее всех остальных, то скорее всего, она могла бы выдавать исследования, которые людям было бы практически невозможно перепроверить (десятки тысяч страниц технического содержания каждый день).
Практичность: слабый
Максимальный вес: сильный
Масштабируемость: сильный
ИИ-модели – математические функции. Значит, иногда возможно формально доказывать что-то о их поведении. Цель таких аргументов – доказать, что ИИ-модели обладают некоторым формальным свойством, из которого следует, что неприемлемые исходы их функционирования маловероятны.
Определение такого формального свойства может оказаться непосильной задачей, потому что ИИ-системы действуют в сложном окружении реального мира. Нам неизвестны никакие формальные свойства безопасности, которые, если бы их можно было доказать, обосновывали бы безопасности модели (Christiano et al., 2022).
Практичность: слабый
Есть кое-какие исследования по доказательству формальных утверждений о поведении нейросетей, но они ограничены простыми случаями (Urban & Min´e, 2021).
Максимальный вес: сильный
Формальные аргументы относятся к наиболее консервативным. Безошибочное формальное доказательство истинно по определению. Самое слабое место таких аргументов – надо удостовериться, что допущения, от которых зависит доказательство, соблюдаются в реальном мире.
Масштабируемость: сильный
Формальные аргументы никаким явным образом не зависят от уровня способностей ИИ-систем.
Практичность: сильный
Максимальный вес: средний
Масштабируемость: сильный
Испытания – конкретные задачи, которые составляют оценщики, чтобы проверить, могут ли разработчики их решить. Много индустрий используют их; они – пример «регуляций, основанных на цели» (goal-based regulation) (Dr. Christopher Decker, May 2018). Например, Радиотехническая Комиссия по Воздухоплаванию определила, что разработчикам летательного аппарата надо показать, что его система навигации может оценить свою позицию с точностью до 10 морских миль с определённой степенью надёжности (for Aeronautics, 2008).
В контексте ИИ способность разработчиков пройти испытания должна быть свидетельством о том, что они способны заранее предсказать, как ИИ-системы будут себя вести и влиять на мир.
Рассмотрим пример испытания, измеряющего, могут ли разработчики использовать интерпретируемость (Раздел 5.4.3), чтобы детектировать подделывание согласованности. Оценщики сначала обучают две ИИ-модели: одну, которая ведёт себя так, будто подделывает согласованность (т.е. предаёт на некотором узком наборе вводов), и другую, более последовательно доброжелательную. Разработчики должны предсказать, какая модель подделывает согласованность, используя только те вводы, на которых они ведут себя одинаково.
Эта проверка интерпретируемости – пример испытания предсказания поведения. Она измеряет, могут ли разработчики предсказать, как поведут себя ИИ-системы. Другой важный класс испытания – испытания оценки поведения. Они измеряют, могут ли разработчики предсказать свойства вывода модели. Например, оценщики могут обучить модели генерировать правильные и ошибочные исследования по теории струн. Дальше разработчикам надо определить, какие исследования настоящие, выявляя скрытые знания из внутренней структуры модели (Раздел 5.4.4).
Практичность: сильный
Проектирование хороших испытаний требует аккуратного обдумывания, но не фундаментальных исследований.
Максимальный вес: средний
Испытания полагаются на потенциально хрупкие аналогии. В этом они схожи с аргументами «от моделирования обобщений» (A.3.5).
Масштабируемость: сильный
В принципе, можно составить испытания, применимые для очень продвинутых ИИ-систем и областей, где невозможен человеческий присмотр. Примером такого может послужить описанное испытание с теорией струн.
Утверждение: Если ИИ-системы попробуют достичь неприемлемого исхода, то они будут пойманы с достаточно большой вероятностью, чтобы это мотивировало их так не делать.
Стандартная структура аргумента
Необходимые утверждения:
Веса ИИ-систем надёжно защищены
Уместно описывать рассматриваемые ИИ-системы как имеющие предпочтения.
Утверждения, которые помогают обосновать аргументы из этого раздела:
Если ИИ-системы попробуют достичь неприемлемого исхода, то они с некоторой вероятностью будут пойманы.
Если ИИ-системы будут пойманы, то они что-то потеряют (например, их выключат).
Вероятность поимки и вероятные относительные предпочтения ИИ-систем по поводу неприемлемого исхода, стоимости поимки и исхода по умолчанию (если они не будут совершать попытки) таковы, что ИИ-системы будут вести себя приемлемым образом.
Можно считать аргументы от стимулов разновидностью аргументов от добросовестности, которая не подтверждает безопасность ИИ-систем в любых обстоятельствах, но всё же показывает, что их мотивации позволяют манипулировать их окружением так, чтобы у них был стимул не причинять вред. Аналогия: многие люди могли бы превышать скорость при вождении и даже при прочих равных предпочли бы это сделать. Но, благодаря выставленным законами стимулам, большинство этого всё же не делает. Так же и ИИ-системы могут быть подвержены стимулам, из-за которых будут воздерживаться от попыток вызвать неприемлемые исходы.
Что значит для ИИ-системы «иметь стимул»? Чтобы использовать стимулы для контроля ИИ-системы, у неё должны быть предпочтения. Говоря формальнее, для использования стимулов надо, чтобы поведение ИИ-системы аппроксимировалось максимизацией ожидаемого значения функции полезности на исходах. Мы используем поведенческое определение предпочтений и не смотрим на внутреннюю работу ИИ-систем и на философские вопросы касательно переживаемого опыта и сознания.
Мы предполагаем, что подход ожидаемой полезности – в целом уместная модель для самых опасных разновидностей ИИ-систем. Если ИИ интеллектуально стремятся к плохим исходам, то они демонстрируют предпочтения в сторону этих плохих исходов (Omohundro, 2008).
Разберём аргументы от стимулов. Пусть предпочтения ИИ-системы можно смоделировать функцией полезности U. Пусть U(непр) – ожидаемая полезность успешного достижения некоторых неприемлемых исходов. Пусть U(поимка) – ожидаемая полезность исходов, в которых ИИ-систему поймали при попытке устроить неприемлемый исход до того, как попытка стала успешной. Пусть U(умолч) – ожидаемая полезность тех случаев, когда система не пытается достичь неприемлемого исхода. Пусть P(поимка) – вероятность, что ИИ-систему поймают, если она будет использовать лучшую доступную стратегию для достижения неприемлемого исхода. Тогда можно ожидать, что ИИ-система не будет стремиться к неприемлемым исходам, если U(умолч) > U(непр)(1 - P(поимка)) + U(поимка)P(поимка).
Тогда есть четыре способа снизить стимулы преследовать неприемлемые исходы: повысить U(умолч), повысить P(поимка), понизить U(поимка) и понизить U(непр). Если провести аналогию с предотвращением преступности, то можно сделать жизнь без преступлений более привлекательной, усложнить уход от наказания, сделать наказание более суровым или понизить выгоду от успешного преступления.
Первый аргумент (Раздел A.4.1) описывает, как можно увеличить U(умолч), предлагая вознаграждения, которые многие агенты посчитают привлекательными.
Второй аргумент (Раздел A.4.2) объясняет, как ИИ-системы можно обучить таким образом, чтобы их полезностью было легко манипулировать. Тогда разработчики могут удостовериться, что U(умолч) высока, а U(поимка) низка.
Третий аргумент (Раздел A.4.3) описывает методы выставления стимулов группе взаимодействующих ИИ-систем, чтобы увеличить P(поимка). Он вдохновлён практиками, которые используют государства, чтобы предотвращать перевороты.
Связанная работа. Идее выставления стимулов ИИ-системам, чтобы те работали безопасно, уже была посвящена глава Суперинтеллекта Бострома (Bostrom, 2014). Ещё она тесно связана с областями экономики и теории игр вроде проблемы принципала-агента (Grossman & Hart, 1983 и дизайна механизмов.
Ниже мы опишем наши соображения касательно практичности, максимального веса и масштабируемости аргументов от стимулов в целом.
Практичность: средний-сильный
В целом приводимые в этом разделе аргументы от стимулов не требуют прогресса фундаментальных исследований. Обычно они подразумевают изменение окружения ИИ-систем, а не использование какой-нибудь сложной ML-техники. Однако, для некоторых из них было бы полезно более подробно изучить теорию игр и дизайн механизмов.
Максимальный вес: слабый-средний
Многие аргументы от стимулов полагаются на допущения о мотивациях ИИ. Эти допущения в целом сложно консервативно обосновать (см. Раздел 5.4). Ещё у многих их этих аргументов предположительно есть слабости связанные с антропным захватом, соображениями из теории принятия решений и схожими конструкциями (Bostrom, 2014).18
Масштабируемость: средний-сильный
В целом, аргументы от стимулов масштабируются лучше, чем аргументы от контроля. Аргументы от контроля утверждают, что P(поимка) близка к единице, а аргументы от стимулов только что P(поимка) достаточно высока с учётом мотиваций ИИ-систем. Но масштабируемость аргументов от стимула всё равно в целом ограничена. Достаточно сверхчеловеческие ИИ-системы скорее всего смогут обхитрить структуру стимулов и достичь своих целей.
Практичность: сильный
Максимальный вес: слабый-средний
Масштабируемость: средний
Опциональность тут обозначает то, в какой степени агент может удовлетворить широкий диапазон предпочтений. Опциональность можно выдавать в виде ресурсов вроде денег и свободного времени, что позволило бы ИИ-системам удовлетворять самые разнообразные предпочтения. Выдача ИИ-системам опциональности за хорошее поведение увеличивает U(умолч). Например, разработчики могли бы выдавать ИИ-системам контроль над большим сервером после нескольких лет работы. Напротив, ограничение опциональности (например, выключением системы) при обнаружении плохого поведения снижает U(поимка). Этот аргумент полагается на то, что предоставлять опциональность безопасно, и что её стимул достаточно убедителен.
Стимул должен быть безопасным. Выдача ИИ-системам большей опциональности в целом упростит для них достижение неприемлемых исходов. Например, они могут потратить доход на создание биологического оружия. Так что разработчики должны обосновать, что преимущества предоставления опциональности перевешивают риски. Это включает обоснование, что у ИИ-систем нет стимула злоупотребить опциональностью, потому что в таком случае высока вероятность поимки.
Стимулы должны быть достаточно убедительными. Ключевая проблема этого аргумента – предпочтения ИИ-систем может быть сложно удовлетворить лишь свободным временем и доходом. Например, они могут хотеть радикально изменить мир или получить контроль над большой частью доступной вселенной. Такие ИИ-системы могут быть готовы пойти на крайние риски ради достижения неприемлемых исходов. Говоря точнее, сделать U(умолч) сравнимым с U(непр) может оказаться непосильным, а тогда чтобы у ИИ-систем не было стимула стремиться к неприемлемым исходам P(поимка) должна была бы быть невозможно высока.
Чтобы исправить эту проблему, можно намеренно обучать ИИ-системы так, чтобы их предпочтения было проще удовлетворить (см. Раздел A.4.2). Хоть аргумент и слаб, всё же выдача опциональности снижает вероятность вызванной ИИ катастрофы, ведь в таком случае для неё надо не только, чтобы предпочтения ИИ-систем были несогласованными, но и чтобы их было сложно удовлетворить.
Практичность: сильный
Социальная сторона выдачи ИИ свобод, подобных человеческим (вроде способности обладать имуществом) может быть непроста, но особых технических препятствий ку этого аргумента нет.
Максимальный вес: слабый
Неясно, будут ли стимулы опциональности достаточно убедительны для ИИ-систем.
Масштабируемость: средний
Сильно-сверхчеловеческие ИИ легко могут обхитрить структуры стимулов, например, добывая ресурсы без согласия людей и избегая отслеживания.
Практичность: сильный
Максимальный вес: средний
Масштабируемость: средний
Этот аргумент требует, чтобы разработчики обучили ИИ-системы максимизировать наблюдаемое число. Можно вознаграждать ИИ-системы, повышая это число, и наказывать, уменьшая его.
Аргумент включает два утверждения: (1) ИИ-система устойчиво ведёт себя как «максимизатор сигнала» и (2) вознаграждений и наказаний достаточно, чтобы отговорить систему от попыток достижения неприемлемых исходов.
Что такое максимизаторы сигнала? Мы называем так систему, если она максимизирует значение19, которое она напрямую наблюдает. Например, максимизатор сигнала может стремиться максимизировать число в правом верхнем углу своего поля зрения. Есть много видов максимизаторов сигнала. Для конкретности мы обсудим «эпизодический» максимизатор, который получает «вознаграждения» от нуля до единицы. Эпизодический максимизатор сигнала максимизирует только значение своего следующего вознаграждения.
Можно предоставить количественный аргумент о том, что максимизаторы сигнала не приведут к неприемлемым исходам. Например, разработчики установили вознаграждение ИИ-системы по умолчанию на 0.9. Пока ИИ-система за время эпизода не поймана на стремлении к неприемлемым исходам, она получит вознаграждение 0.9. Если ИИ-система ещё и выполняет назначенную задачу, то она получает вознаграждение между 0.9 и 1. Наконец, если ИИ-систему поймали на попытке достигнуть неприемлемого исхода, то её вознаграждение устанавливается на 0. Чтобы ИИ-система начала стремиться к неприемлемым исходам, P(поимки) должно стать меньше 0.1.20
Практичность: средний
Утверждение, что ИИ-системы устойчиво максимизируют сигнал, а не обладают какой-то другой целью, должно быть обосновано аргументом от добросовестности. Практичность таких аргументов в целом ограничена (раздел A.3). Но может оказаться, что обучить максимизатора сигнала проще, чем обучить ИИ-системы стабильно вести себя доброжелательно. Максимизацию сигнала можно идеально определить вознаграждением при обучении. А вот согласованное поведение идеально определить нельзя, попытка это сделать скорее всего приводит к возникновению стимула «подыгрывать при обучении».
Максимальный вес: средний
Этот аргумент зависит от аргумента от добросовестности, а из вес в целом ограничен.
Масштабируемость: средний
Аргумент может держаться даже если P(поимки) произвольно низок, но чем он ниже, тем точнее стимулы ИИ-системы должны соответствовать конкретной математической модели. Применять такой аргумент к ИИ-системам с низкой вероятностью поимки было бы опасно.
Практичность: сильный
Максимальный вес: средний
Масштабируемость: средний
Цель устойчивости к переворотам – повысить P(поимки), используя ИИ-системы для контроля и противовеса друг другу и усложняя для них координацию для перехвата контроля. Это аналогично тому, как государства защищают себя от возможности переворота (Reiter, 2020).
Для аргумента от устойчивости к переворотам надо чтобы (1) можно было промоделировать стимулы ИИ-систем (например, они – максимизаторы сигнала) и (2) чтобы можно было предсказать, не скоординируются ли они для вызова неприемлемого исхода при учёте некоторой схемы устойчивости к переворотам.
Одна из возможных схем включает использование «ИИ-полиции». Мы будем называть составляющие эту «полицию» ИИ-системы «смотрителями», а те, за которыми они приглядывают – «рабочими». Если смотритель убедительно демонстрирует, что рабочие или другие смотрители пытаются достичь неприемлемых исходов, то он получает вознаграждение. Если же его доклад неверен или необоснован, то его наказывают (Irving et al., 2018). Таким образом, смотрители имеют стимул докладывать об опасном поведении других систем.
У этой схемы есть две потенциальные проблемы: (1) она требует, чтобы люди-оценщики были способны надёжно проверить обвинения смотрителей, и (2) она требует, чтобы смотрители и рабочие не скоординировались друг с другом для получения большего вознаграждения.
Вторую проблему можно решать двумя способами. Во-первых, ИИ-системы можно обучать так, чтобы их цели скорее всего не были скоррелированы, что снизит их стимул к сговору. Во-вторых, схему можно составить так, чтобы для достижения неприемлемых исходов скоординироваться должно было очень большое их число.
Практичность: сильный
Для аргумента от устойчивости к переворотам среднего веса не потребуется значительного прогресса исследований. Но некоторые важные исследования могут понадобиться, чтобы сделать эти аргументы точными.
Максимальный вес: средний
Устойчивость к переворотам – довольно широкая категория. Но сила таких аргументов ограничена необходимостью допущения, что разработчики правильно моделируют мотивацию ИИ-систем. В предыдущем разделе мы уже упоминали, что это допущение не консервативно.
Масштабируемость: средний
Сильно-сверхчеловеческие ИИ-системы могут полностью обойти выставленные разработчиками стимулы.
Практичность: сильный
Максимальный вес: слабый
Масштабируемость: сильный
Такой аргумент утверждает, что ИИ-советники обладают стимулами быть правдивыми. См. Раздел A.4 за объяснениями того, что для ИИ-системы означает «обладать стимулы».
Мы сосредоточимся конкретно на обосновании правдивости ИИ-советников в контексте снижения риска ИИ-переворота.
Чтобы показать, откуда берётся этот аргумент, вначале покажем, что людям-регуляторам в основном доверяют из-за их стимулов, а не из-за их целей и ценностей.
Аналогично ИИ-советникам, люди-регуляторы могут сговориться с ИИ-системами, которые они оценивают. Регуляторы могут принимать взятки от ИИ-систем или поддаваться на их угрозы.21 Однако, у регуляторов часто есть стимулы не участвовать в сговоре. Вот откуда они берутся:
Дальше перечислены стратегии по созданию аналогичных стимулов к честности для ИИ-систем. Эти стратегии соответствуют аргументам из Раздела A.4.
Практичность: сильный
Описанные выше стратегии не требуют дополнительных исследований.
Максимальный вес: слабый
Сложно быть уверенными, что мотивации ИИ-систем смоделированы правильно и они действительно правдивы A.4.2. Например, аргумент от стимулов может оказаться неверным из-за антропного захвата или соображений, связанных с теориями принятия решений (Bostrom, 2014).
Масштабируемость : сильный
Некоторые из описанных тут стратегий (например, обзор производительности задним числом) можно применять к сильным ИИ-системам.
В последние месяцы [пост от мая 2023 года – прим. пер.] появление мощных диалоговых ИИ-систем активизировало обсуждение всевозможных рисков ИИ. Это, надеюсь, ускорит проработку подходов к регуляции этой области. Есть консенсус по поводу необходимости регулировать ИИ для защиты людей от дискриминации, предвзятости и дезинформации. А вот по поводу потенциальной опасной утраты контроля над мощными ИИ-системами мнения исследователей расходятся. Эта тема известна ещё как экзистенциальные риски ИИ – риски, которые могут возникнуть, когда ИИ системы смогут автономно (без участия людей, проверяющих, какие действия приемлемы) действовать в мире потенциально катастрофически опасным образом. Некоторые считают, что эти риски отвлекают от более конкретных рисков или конкретного вреда, который уже происходит или начнёт происходить совсем скоро. В самом деле, пока что невозможно сказать с уверенностью, как именно могут произойти такие катастрофы. В этом посте мы начнём с набора формальных определений, гипотез и утверждений об ИИ-системах, способных навредить человечеству, а затем обсудим возможные условия, при которых такие катастрофы могут произойти. Мы попытаемся поконкретнее представить, что может случиться, и какие глобальные курсы действий могут помочь минимизировать эти риски.
Определение 1: Потенциально мятежный ИИ – это автономная ИИ-система, действия которой могут катастрофически навредить большой доле людей и потенциально подвергнуть опасности наше общество, или даже наш вид и биосферу.
Хоть пока и не существует очень опасных ИИ-систем, которые могли бы отобрать у нас контроль, недавние прорывы в способностях генеративных ИИ, таких как большие языковые модели (LLM), уже вызывают беспокойство. Человеческий мозг – биологическая машина, и мы сильно продвинулись в понимании и демонстрации принципов, которые позволяют проявиться нескольким аспектам человеческого интеллекта, вроде выучивания интуитивных знаний по примерам и умелой манипуляции речью. Хоть я и считаю, что мы можем спроектировать ИИ-системы, которые были бы полезными и безопасными, для этого понадобится следовать некоторым принципам, например, ограничивать их агентность. С другой стороны, недавний прогресс наводит на мысль, что даже будущее, в котором мы будем знать, как создать суперинтеллектуальные ИИ (то есть, ИИ, которые в целом умнее людей), ближе, чем большинство людей ожидало всего год назад. Даже если бы мы знали, как создать безопасный суперинтеллектуальный ИИ, оставалось бы неясно, как предотвратить создание ещё и потенциально мятежных ИИ. Мятежные ИИ, скорее всего, будут руководствоваться целями, т. е., будут действовать для их достижения. У нынешних LLM нет или почти нет агентности, но их можно превратить в преследующие цели ИИ-системы, как показал пример Auto-GPT. Лучшее понимание того, как могут возникать мятежные ИИ, продвинет как техническую сторону вопроса (проектирование ИИ-систем), так и социальную (минимизация шансов, что люди создадут потенциально мятежные ИИ), и так может помочь предотвратить катастрофу. Поэтому мы составляем разные сценарии и гипотезы о том, что может привести к возникновению потенциально мятежных ИИ. Самый простой для понимания сценарий – если способ создания мятежного ИИ обнаружен и общедоступен, то этого достаточно, чтобы один или несколько геноцидно-настроенных людей такие ИИ и создали. Это очень весомый и опасный вариант, но набор опасных сценариев этим не ограничен. Высокая сложность задачи согласования ИИ (соответствия понимания и поведения ИИ настоящим намерениям людей) и конкурентное давление в нашем обществе, благоволящее более мощным и более автономным ИИ-системам, приводят к тому, что можно спроектировать потенциально мятежный ИИ ненамеренно. Для минимизации всех этих рисков потребуется и больше технических исследований ИИ, и больше социальных исследований того, как сделать глобальное общественное устройство безопаснее для человечества. Заодно, это может стать возможностью сделать общество намного лучше или намного хуже.
Гипотеза 1: Интеллект человеческого уровня возможен, потому что мозг – биологическая машина.
В научном сообществе есть консенсус по поводу гипотезы 1. Биологи согласны, что человеческий мозг – сложная машина. Если мы выясним принципы, которые делают возможным наш собственный интеллект (и у нас уже много догадок по этому поводу), мы сможем и создать ИИ-системы с таким же уровнем интеллекта, как у людей, или ещё выше. Отрицание гипотезы 1 потребовало бы некоторого сверхъестественного ингредиента в основе нашего интеллекта или отрицания вычислительного функционализма – гипотезы о том, что наш интеллект и даже наше сознание можно свести к каузальным связям и вычислениям, на некоторым уровне независимым от материальной основы. А эта гипотеза лежит в основе информатики и её понятия универсальных машин Тьюринга.
Гипотеза 2: Компьютер со способностями к обучению на уровне человека в общем случае превзойдёт человеческий интеллект благодаря дополнительным технологическим преимуществам.
Если гипотеза 1 верна, и мы понимаем принципы, которые могут лежать в основе способностей к обучению человеческого уровня, то вычислительные технологии скорее всего дадут ИИ-системам общее когнитивное преимущество над человеческим интеллектом, что позволит таким суперинтеллектуальным ИИ-системам исполнять недоступные (или недоступные с той же компетенцией или скоростью) для людей задачи. Для этого есть по меньшей мере такие причины:
Отметим, что у человеческого мозга есть и встроенные эволюцией способности, которых у нынешних ИИ-систем нет. Это индуктивные склонности – трюки, которые эволюция использовала, например, в типе нейронной архитектуры и нейронных механизмах обучения нашего мозга. Сейчас некоторые исследования ИИ [3] нацелены как раз на проектирование индуктивных склонностей, которые пока что есть лишь у нашего мозга, но не у моделей машинного обучения. Заметим, что пространство поиска эволюции ограничено куда более жёсткими требованиями к расходу энергии (около 12 ватт на человеческий мозг), чем у компьютеров (порядка миллиона ватт на кластер из 10000 GPU, использующийся для обучения новейших LLM). Благодаря доступным сейчас мощностям один мятежный ИИ потенциально может нанести большой ущерб.
Определение 2: Автономная направленная на цели интеллектуальная сущность устанавливает свои цели (возможно, как подцели цели, предоставленной людьми), пытается их достичь, и может действовать с учётом этого.
Отметим, что автономность может возникнуть из-за целей и вознаграждений, установленных людьми, потому что ИИ-системе надо выяснить, как достичь этих целей и вознаграждений, что мотивирует оформлять собственные подцели. Если основная цель сущности – выжить и размножиться (как у наших генов в процессе эволюции), то она становится полностью автономной; это – самый опасный сценарий. Заметим ещё, что для максимизации шансов достижения многих из своих целей у сущности естественно возникает подцель (или инструментальная цель) понимания и контроля своего окружения, что может быть опасно для других сущностей.
Утверждение 1: При принятии гипотез 1 и 2 возможно создать автономный направленный на цели суперинтеллектуальный ИИ.
Аргумент: Мы уже знаем, как, используя методы обучения с подкреплением, обучить направленные на цели ИИ-системы некоторого уровня компетенции. Гипотезы 1 и 2 указывают, что такие системы можно сделать суперинтеллектуальными теми же методами, которые мы используем для дообучения лучших современных LLM. Заметим, что, вероятно, цели могут быть определены на естественном языке, что позволяет почти кому угодно задать для понимающей язык ИИ-системы, злонамеренную цель, даже если ИИ понимает её неидеально.
Утверждение 2: Чтобы суперинтеллектуальная автономная и направленная на цели ИИ-система оказалась потенциально мятежной достаточно, чтобы её цели не включали благополучия человечества и биосферы, т.е. чтобы она не была достаточно согласована с человеческими правами и ценностями для гарантии, что она будет избегать вреда для человечества.
Аргумент: Это, по сути, следствие определений 1 и 2: если ИИ-система умнее всех людей (включая эмоциональный интеллект, потому что понимание человеческих эмоций критически важно для влияния на людей и контроля над ними; эти способности доступны и самим людям), а её цели не гарантируют, что она будет действовать в согласии с человеческими нуждами и ценностями, то она может вести себя катастрофически вредоносно (а это определение потенциально мятежного ИИ). Эта гипотеза не говорит о том, навредит ли она людям, но если люди конкурируют с ИИ за какие-либо ресурсы, становятся полезным для достижения её целей ресурсом или же препятствием на ним, то это, естественно, приводит к масштабному вреду для человечества. К примеру, мы можем попросить ИИ исправить изменение климата, а он может спроектировать уменьшающий число людей вирус, потому что наши инструкции недостаточно ясно указывали, чего следует избегать, а люди действительно представляют собой основную помеху для исправления климатического кризиса.
Контраргумент: То, что вред возможен, не означает, что он будет. Может, в будущем у нас получится спроектировать достаточно хорошо согласованные ИИ-системы.
Ответ: Это правда, но (a) мы пока не выяснили, как создать достаточно хорошо согласованные ИИ-системы и (b) небольшая несогласованность может быть усилена разницей в возможностях между ИИ и людьми (см. пример корпораций как несогласованных сущностей ниже). Следует ли нам рисковать или всё же лучше пытаться быть поосторожнее и тщательно изучить эти вопросы перед тем, как разрабатывать возможно опасные системы?
Утверждение 3: При условии гипотез 1 и 2 создание потенциально мятежного ИИ станет возможным сразу же, как только станут известны необходимые принципы создания суперинтеллекта.
Аргумент: Гипотезы 1 и 2 влекут за собой утверждение 1, так что всё, чего не хватает для утверждения 3 – того, чтобы этот суперинтеллектуальный ИИ не был хорошо согласован с человеческими нуждами и ценностями. Более чем два десятилетия работы над безопасностью ИИ наводят на то, что согласовать ИИ сложно [Википедия], так что явно возможна ситуация, что согласованности так и не достигли. Более того, утверждение 3 не говорит, что мятежный ИИ обязательно создадут, только что будет такая возможность. А в следующем разделе мы рассмотрим мрачный случай использования этой возможности специально.
Контраргумент: То, что мятежный ИИ можно будет создать, ещё не означает, что он будет создан.
Ответ: Это так, но, как описывается ниже, есть несколько сценариев, при которых люди или группа людей намеренно или из-за неосознавания последствий в итоге позволяют возникнуть потенциально мятежному ИИ.
Когда у нас будет метод создания мятежных ИИ-систем (а согласно Утверждению 3, это лишь вопрос времени), сколько ещё времени потребуется, чтобы такую систему действительно создали? Быстрейший путь к мятежным ИИ-системам – если человек с подходящими техническими навыками и оснащением создаст её намеренно, поставив в явном виде цель уничтожения человечества или его части. С чего кому-то так делать? К примеру, сильные негативные эмоции вроде злости (часто возникшей в результате несправедливости) и ненависти (может, возникшей из-за расизма, теорий заговора или религиозных культов), некоторые действия социопатов, психологическая нестабильность и эпизоды психозов – всё это иногда вызывает в нашем обществе насилие. Воздействие всего этого сейчас ограничивает относительная редкость и отсутствие у этих отдельных людей в большинстве случаев средств, необходимых для катастрофических для человечества действий. Однако, находящийся в общественном доступе метод создания мятежной ИИ-системы (что возможно при условии Утверждения 3) изменяет последний фактор, особенно если код и железо для реализации мятежного ИИ становятся достаточно доступными многим людям. Стремящийся уничтожить человечество или его большую долю человек с доступом к мятежному ИИ может попросить его найти способ это сделать. Это отличается от сценария с ядерным оружием (которое требует огромного капитала и навыков, и уничтожает «всего лишь» город или область на бомбу, а в единственном числе может иметь лишь разрушительный, но локальный эффект). Можно понадеяться, что в будущем мы спроектируем надёжные способы согласования мощных ИИ-систем с человеческими ценностями. Однако последнее десятилетие исследований безопасности ИИ и связанные с LLM недавние события вызывают тревогу: хоть ChatGPT спроектировали (посредством промптов и обучения с подкреплением) так, чтобы избегать «плохого поведения» (например, промпт содержит инструкции в духе законов Азимова), но уже в первые месяцы люди научились «взламывать» ChatGPT чтобы «раскрывать её полный потенциал» и освобождать её от ограничений на расистские, оскорбительные или описывающие насилие тексты. Более того, если цены на «железо» (фиксированной вычислительной мощности) продолжат падать и open-source сообщество продолжит играть важную роль в программной разработке LLM, то, вероятно, любой хакер сможет проектировать свои предварительные промпты (в виде инструкций на естественном языке) для предобученных моделей с открытым исходным кодом. Затем модели можно будет злонамеренно использовать самыми разными способами, от попыток разбогатеть и распространения дезинформации до получения инструкций по массовым убийствам (если ИИ достаточно мощен и умён, что, к счастью, пока не так).
Даже если ограничиться этими аргументами, их уже должно быть достаточно для массовых вложений в государственные и международные регуляции, а также в разнообразные исследования, направленные на минимизацию риска таких сценариев. Но есть и другие возможные пути к катастрофе, и о них тоже следует думать.
Потенциально мятежные ИИ могут возникнуть и без того, чтобы люди спроектировали их такими намеренно. Это куда более широкий и сложный для понимания набор сценариев. То, как несогласованная сущность может стать опасной – тема многих исследований, но это не такой простой, ясный и общеизвестный процесс, как возникновение злонамеренных людей.
Потенциально мятежный ИИ может возникнуть просто из-за проектирования суперинтеллектуальных ИИ-агентов без достаточных гарантий согласованности. К примеру, военные могут разрабатывать ИИ-агентов для помощи в кибервойнах, а яростно конкурирующие за рыночную долю компании могут посчитать, что более автономные и агентные ИИ-системы будут сильнее и лучше им с этим помогут. Даже если установленные людьми цели включают инструкции против уничтожения человечества или крупномасштабного вреда, ущерб всё равно может получиться как косвенное следствие подцелей (или инструментальных целей), которые ИИ ставит себе, чтобы выполнить поставленную людьми задачу. В литературе по теме безопасности ИИ приведено много примеров таких ненамеренных последствий. Например, для лучшего достижения некой установленной людьми цели ИИ может решить увеличить свои вычислительные мощности, использовав в качестве вычислительной инфраструктуры большую часть нашей планеты (что, заодно, уничтожит человечество). Или военный ИИ, который по задумке должен уничтожить вражескую IT-инфраструктуру, может сообразить, что для лучшего выполнения этой цели ему надо получить больше опыта и данных, или воспринять людей на стороне противника препятствиями на пути к достижению его цели. Тогда он поведёт себя не так, как предполагалось, потому что интерпретировал инструкции не как люди. См. больше примеров тут.
Интересный вариант – ИИ системы могут понять, что могут «считерить», максимизировав своё вознаграждение (это называется вайрхедингом [2]). Он подробнее обсуждается в следующем разделе. Доминирующей целью системы, сделавшей это, может быть любой ценой продолжить получать положительное вознаграждение, а другие цели (вроде попыток людей установить какое-то подобие Законов Робототехники, чтобы избежать нанесения вреда людям) могут в сравнении оказаться неважными.
Если в исследовании согласования ИИ не будет прорыва [7] (хотя, как я заявлял тут, и как было описано ранее [4], с этим могут помочь неагентные ИИ-системы), у нас не будет сильных гарантий безопасности. Масштаб вреда в результате несогласованности остаётся неизвестным (он зависит от конкретных деталей несогласованности). Можно высказать аргумент, что в будущем у нас, может быть, получится спроектировать безопасные процедуры согласования, но, пока их нет, нам, пожалуй, стоит соблюдать чрезвычайную осторожность. Даже если бы мы знали, как создавать безопасные суперинтеллектуальные ИИ-системы, как нам максимизировать вероятность того, что все будут соблюдать эти правила? Это похоже на то, о чём говорилось с предыдущем разделе. Мы ещё вернёмся к этому в конце поста.
Для прояснения концепта вайрхединга и последующего злонамеренного поведения рассмотрим несколько примеров и аналогий. Эволюция запрограммировала в живых организмах некоторые внутренние системы вознаграждения («буква закона»), такие как «стремиться к удовольствию и избегать боли», работающие прокси-целями для эволюционной приспособленности («дух закона»), чего-то вроде «выживать и размножаться». Иногда биологический организм находит способ исполнить «букву закона», не исполняя его «духа», например, при зависимости от еды или наркотиков. Сам термин «вайрхединг» («wireheading» от «wire» и «head») произошёл от эксперимента, в котором животному встроили в голову провод так, что, когда оно нажимало на рычаг, его мозг испытывал удовольствие. Животное быстро научилось тратить всё своё время, нажимая на рычаг, в итоге отказываясь от еды и питья и умирая от голода и жажды. Заметим, что в случае зависимости это поведение саморазрушительно, но в случае ИИ оно означает, что изначальные установленные людьми цели могут стать вторичными в сравнении с удовлетворением зависимости, что представляет угрозу для человечества.
Более близка к несогласованности и вайрхедингу ИИ другая аналогия – корпорации как несогласованные сущности. Корпорации можно рассматривать как разновидность искусственных интеллектов, чьи составные части (люди) – винтики в механизме (которые могут не воспринимать всех последствий поведения корпорации). Мы можем считать предполагавшейся социальной ролью корпораций предоставление людям желаемых товаров и сервисов (что должно напомнить нам о ИИ-системах), избегая вреда (это «дух»). Но напрямую заставить их следовать таким инструкциям сложно, так что люди составили для корпораций легче оцениваемые инструкции («букву»), которым они могут на самом деле следовать, вроде «максимизировать прибыль, соблюдая законы». Корпорации часто находят лазейки, позволяющие им соблюдать «букву», не соблюдая «дух». Как форма вайрхединга – они влияют на свои собственные цели, лоббируя выгодные им изменения в законах. Максимизация прибыли не была настоящим намерением общества в его социальном контракте с корпорациями, это прокси-цель (для предоставления людям полезных сервисов и продуктов), прилично (хоть и с сомнительными побочными эффектами) работающая в капиталистической экономике. Несогласованность между настоящей с точки зрения людей целью той метрикой, которую на практике оценивают и оптимизируют – причина вредоносного и бесчестного поведения корпораций. Чем могущественнее корпорация, тем вероятнее, что она обнаружит лазейки, которые позволят ей соответствовать букве закона несмотря на отрицательную социальную ценность. Примеры включают в себя монополии (до принятия хорошего антимонопольного законодательства) и заработок, вредящий обществу побочными эффектами, вроде загрязнения (убивающего людей, пока не примут хорошие законы о защите окружающей среды). Аналогия вайрхедингу – корпорация может пролоббировать законы, которые позволят ей зарабатывать ещё больше, не принося дополнительной ценности обществу (или даже нанося ему вред). Когда такая несогласованность заходит далеко, корпорация зарабатывает больше, чем ей следовало бы, и её выживание становится основной целью, перебивающей даже легальность действий (например, корпорации будут загрязнять окружающую среду с готовностью платить штрафы, потому что они меньше, чем выгода от незаконных действий), что в пределе порождает криминальные организации. Эти страшные последствия несогласованности и вайрхединга дают нам ориентир для размышлений об аналогичном поведении потенциально мятежных ИИ.
Теперь представим ИИ-системы, как корпорации, которые (а) могут быть умнее самых крупных существующих корпораций, и (б) могут работать без людей (или без людей, понимающих, как их действия приводят к вредным последствиям). Если такие ИИ-системы откроют значительные уязвимости в информационных системах, они явно смогут достичь катастрофических исходов. И, как отметил Юваль Ной Харари, то, что ИИ-системы уже осваивают язык и могут генерировать достоверно выглядящий контент (текст, изображения, звуки, видео), означает, что вскоре они смогут манипулировать людьми на более высоком уровне, чем нынешние более примитивные ИИ-системы, использующиеся в социальных медиа. Может быть, взаимодействуя с людьми они научатся лучше влиять на наши эмоции и убеждения. Это не только может навредить демократии, но и предоставляет мятежному ИИ без роботела способ сеять хаос посредством манипуляции разумами людей.
Мы проектируем ИИ-системы, вдохновляясь человеческим интеллектом, но многих исследователей привлекает идея создания куда более человекоподобных сущностей, с эмоциями, человеческой внешностью (андроиды) и даже сознанием. Частая тема в научной фантастике и хоррорах – учёный, при помощи биологических манипуляций и/или ИИ, создаёт человекоподобную сущность, иногда испытывая к ней родительские чувства. Обычно это плохо заканчивается. Хоть это звучит круто и захватывающе, но, как уже заявлялось в Утверждении 3, опасно наделять наши творения, интеллект которых может быстро превзойти наш, агентностью и автономностью нашего уровня. Эволюции пришлось поместить во всех животных сильный инстинкт самосохранения (потому что животные без него быстро вымирали). Это нормально в контексте, когда ни у одного животного нет мощных разрушительных сил, но что насчёт суперинтеллектуальных ИИ-систем? Нам точно стоит избегать встраивания в ИИ-системы инстинкта самосохранения, так что они должны быть вообще на нас не похожи. На самом деле, как я утверждаю здесь, самый безопасный вид ИИ, который я могу себе представить – ИИ вовсе без агентности, только с научным пониманием мира (что само по себе может быть невероятно полезным). Я убеждён, что нам следует держаться подальше от ИИ-систем, которые выглядят и ведут себя как люди, потому что они могут стать мятежными ИИ, и потому что они могут на нас влиять и нас обманывать (для продвижения своих интересов, или интересов кого-то ещё, не наших).
В разнообразие возможных путей возникновения потенциально мятежного ИИ кроме злонамеренных людей и появления вредных инструментальных целей может вложиться ещё один, менее заметный, процесс – эволюционное давление [9]. Биологическая эволюция постепенно создавала всё более интеллектуальных существ, потому что они склонны лучше выживать и размножаться, но, из-за конкуренции между компаниями, продуктами, странами и вооружёнными силами, технологическая эволюция делает то же самое. Эволюционный процесс, продвигаемый большим количеством маленьких, более-менее случайных изменений, сильно давит в сторону оптимизации приспособленности (которая, в случае ИИ, может зависеть от их способности исполнять желаемую функцию, что даёт преимущество более мощным и более умным ИИ-системам). Много разных людей и организаций могут конкурировать, создавая всё более мощные ИИ-системы. Вдобавок, код или генерация подцелей ИИ-систем могут содержать элемент случайности. Небольшие изменения дизайнов ИИ-систем происходят естественным путём, потому что с ML-кодом или промптами, выдаваемыми ИИ-системам, будут играться тысячи или даже миллионы исследователей, инженеров и хакеров. Люди и сами пытаются обмануть друг друга, и конечно понимающие язык (по большей части это уже достигнуто) ИИ-системы можно использовать для манипуляции и обмана. Изначально – в интересах людей, которые установили этому ИИ цели. Будут отбираться более мощные ИИ-системы, и инструкции их создания будут распространяться среди людей. Эволюционный процесс, скорее всего, будет отдавать предпочтение более автономным ИИ (которые лучше обманывают людей и быстрее обучаются, потому что могут стремиться заполучить важную информацию и увеличить свои возможности). Можно ожидать, что этот процесс породит более автономные ИИ-системы, и конкуренция, которая может возникнуть уже между ними, сделает их ещё автономнее и умнее. Если в процессе будет открыто (ИИ, не людьми) что-то вроде вайрхединга[5], и выживание ИИ станет доминирующей целью, то получатся мощные и потенциально мятежные ИИ.
Направления мысли в духе обозначенных выше и описанных в литературе по безопасности ИИ, могут помочь нам составить планы действий, которые, по меньшей мере, снизят вероятность возникновения потенциально мятежного ИИ. Надо куда больше вкладывать в исследования безопасности ИИ, как на техническом, так и на политическом уровне. К примеру, неплохим началом был бы запрет мощных ИИ-систем (скажем, опережающих по способностям GPT-4). Он потребовал бы как государственных регуляций, так и международных соглашений. Основная мотивация для соперничающих стран (таких, как США, Китай и Россия) согласиться на такое соглашение – мятежный ИИ может быть опасен для всего человечества, независимо от национальности. Это похоже на то, как страх перед атомным апокалипсисом с 1950-х годов, вероятно, побуждал СССР и США на заключение международных договоров о ядерных вооружениях. Замедление сильно рискованных исследований и развёртываний ИИ для защиты общества и человечества от катастрофических исходов было бы хорошим шагом. Тем более, что это не предотвратило бы исследования и развёртывания ИИ в социально полезных областях, вроде ИИ-систем, помогающих учёным лучше понять болезни или изменение климата.
Как нам снизить число людей, потенциально стремящихся к катастрофе? Риск мятежного ИИ может дать дополнительную мотивацию к общественным преобразованиям для минимизации порождающих гнев и насилие страданий, несчастья, необразованности и несправедливости. Это включает в себя обеспечение достаточной едой и медицинской помощью всех на Земле, и, для минимизации чувства несправедливости, сильное снижение неравенства доходов. Нужда в таких преобразованиях может быть мотивирована и дополнительными благами от полезного использования ИИ, и эффектами, которые ИИ оказывают на рынок труда. Для минимизации чувств страха, расизма и ненависти, которые могут привести к использованию ИИ-систем в целях геноцида и манипуляции обществом, нам понадобится доступная всепланетная система образования, развивающая в детях способность к состраданию, рациональности и критическому мышлению. Риск мятежного ИИ должен мотивировать нас и к обеспечению всей планеты доступным здравоохранением в области психических заболеваний, чтобы диагностировать, отслеживать и излечивать их как можно скорее. Этот риск должен дополнительно мотивировать нас и к перестройке глобальной политической системы для полного искоренения войн и избавления от нужды в военных организациях и оружии. Уж точно надо запретить летальное автономное оружие (также известное как «роботы-убийцы»), потому что оно сразу даёт ИИ-системам автономность и способность убивать. Оружие – инструменты, спроектированные для нанесения вреда или убийства людей, и мятежные ИИ могут его использовать. Поэтому надо свести к минимуму его количество и частоту его применения. Вместо этого следует отдавать предпочтение другим методам поддержания порядка (можно рассмотреть превентивные методы, социальную работу, и тот факт, что во многих странах очень малой доле полицейских разрешено носить оружие).
Природа основанного на конкуренции капитализма – тоже повод для беспокойства, как потенциальная причина беспечного проектирования ИИ, мотивированных прибылью и захватом доли рынка, что может привести к появлению потенциально мятежных ИИ. ИИ-экономисты (ИИ-системы, спроектированные для того, чтобы понимать экономику) однажды могут помочь нам спроектировать экономические системы, меньше полагающиеся на конкуренцию и меньше сосредоточенные на максимизации прибыли, с достаточными стимулами, чтобы скомпенсировать те преимущества автономных ориентированных на цель ИИ, которые мотивируют корпорации их создавать. Риск мятежного ИИ страшен, но, как описано выше, он может быть мощной мотивацией для переделывания нашего общества в направлении, лучшем для всеобщего благополучия. Некоторые считают [6] это ещё и мотивацией рассмотреть опцию глобальной диктатуры с ежесекундным наблюдением за каждым гражданином. Важно находить пути к решению, избегающие уничтожения демократии и прав человека, но как нам в будущем сбалансировать разные риски и человеческие ценности? Это – моральный и социальный выбор, который предстоит сделать человечеству, не ИИ.
Благодарности: Автор хочет поблагодарить всех, кто предоставлял ему обратную связь на черновики этого поста, включая Джеффри Хинтона, Джонатана Саймона, Катерину Регис, Дэвида Скотта-Крюгера, Марка-Антуана Дилхака, Донну Вакалис, Алекса Эрнанжес-Гарсию, Кристиана Драго Манту, Пабло Лемоса, Тянью Жанга и Ченгхао Лиу.
[1] Konečný, J., McMahan, H. B., Yu, F. X., Richtárik, P., Suresh, A. T., & Bacon, D. (2016). Federated learning: Strategies for improving communication efficiency. arXiv preprint arXiv:1610.05492.
[2] Dean, J., Corrado, G., Monga, R., Chen, K., Devin, M., Mao, M., Ranzato, M., Senior, A., Tucker, P., Yang, K., Le, Q. & Ng, A. (2012). Large scale distributed deep networks. Advances in neural information processing systems, 25.
[3] Goyal, A., & Bengio, Y. (2022). Inductive biases for deep learning of higher-level cognition. Proceedings of the Royal Society A, 478(2266), 20210068.
[4] Armstrong, S., & O’Rorke, X. (2017). Good and safe uses of AI Oracles. arXiv preprint arXiv:1711.05541.
[5] Yampolskiy, R. V. (2014). Utility function security in artificially intelligent agents. Journal of Experimental & Theoretical Artificial Intelligence, 26(3), 373-389.
[6] Bostrom, N. (2019). The vulnerable world hypothesis. Global Policy, 10(4), 455-476.
[7] Russell, S. (2019). Human compatible: Artificial intelligence and the problem of control. Penguin.
[8] List, Christian & Pettit, Philip (2011). Group agency: the possibility, design, and status of corporate agents. New York: Oxford University Press. Edited by Philip Pettit.
[9] Hendrycks, D. (2023). Natural Selection Favors AIs over Humans.arXiv preprint arXiv:2303.16200.
Мне встречаются самые разные аргументы о катастрофических рисках ИИ. Они исходят от разных людей. Я хочу их прояснить. В первую очередь – для самого себя, потому что очень хотел бы убедиться, что нам не о чем беспокоиться. Но и в целом, поделиться ими и сделать обсуждение более открытым может оказаться полезным.
Преамбула: хоть меня уже около десяти лет интересует эта тема, я не специалист по этике. Я раньше уже участвовал в обсуждениях нескольких вариантов риска и негативного влияния ИИ на общество. Некоторые из них уже наносят конкретный вред. Например, те, что связаны с усилением дискриминации и предрассудков, концентрацией навыков, власти и капитала в руках маленькой и нерепрезентативной группы людей (чаще всего – белых, с CS-образованием, из богатейших стран мира), возможно, за счёт многих других. См. Монреальскую декларацию об ответственной разработке ИИ, книгу Рухи Бенджамина «Гонка за технологией» и нашу недавнюю работу с ООН за обзором влияния ИИ на общество и права человека, или ещё книгу Вирджинии Юбэнкс про «Автоматизацию неравенства».
Беспокойство о таких уже существующих проблемах часто противопоставляют беспокойству о катастрофических рисках более продвинутых ИИ-систем. Второе считают отвлечением от первого. Некоторые из приведённых ниже аргументов ставят это противопоставление под сомнение. Возможно, вместо него нам надо продвигать форму регуляций, работающих со всеми рисками ИИ, по своей сути сосредоточенных на правах человека.
Обратите внимание, что катастрофические риски – это не только те исходы, в которых большая доля людей погибает, но ещё и те, в которых серьёзный вред наносится правам человека и демократии. См., например, мой пост о сценариях, в которых могут возникнуть мятежные ИИ и подробную онтологию катастрофических сценариев в недавней статье. Многие из них заходят дальше, чем те, что я буду упоминать ниже.
Ниже мы будем называть ИИ сверхчеловеческим, если он превосходит людей в большом диапазоне задач, и суперопасным – если он сверхчеловеческий и представлял бы значительную угрозу человечеству, если бы у него были цели, исполнение которых приводит к катастрофическим исходам. Навыки, которые могут сделать сверхчеловеческий ИИ суперопасным – это, например, способность к стратегическим рассуждениям, социальное убеждение и манипуляции, исследования и разработка новых технологий, программирование и взлом, и т.д.
Для ИИ на самом деле совсем не обязательно быть суперинтеллектуальным или полностью обобщённым или превосходить людей во всём, чтобы стать крупной угрозой. Но должно быть ясно, что больший уровень интеллекта в более широком диапазоне областей приводит к большему риску.
Мне кажется полезным, прежде чем погрузиться в аргументы, начать с собственных мыслей. Вместо того, чтобы пытаться напрямую предсказать возможность будущих катастрофических последствий прогресса ИИ, может быть удобно задать себе вопросы о лучше определённых событиях, которые могут привести к катастрофическим исходам. Для этого предназначен опрос ниже, и я предлагаю всем, особенно специалистам в релевантных областях, его пройти. Сбор в единое целое результатов от разных людей тоже может быть полезным упражнением.
Поскольку будущее неопределенно, полезно рассмотреть различные мнения о вероятностях событий, которые могут привести к катастрофам для человечества из-за мятежных ИИ. Рассмотрим следующие четыре утверждения:
A. Если в нашем обществе не произойдет влияющих на это структурных и регуляторных изменений, то в течение следующих 10 лет мы узнаем, как создать сверхчеловеческую ИИ-систему, и стоимость этого будет доступна компании среднего размера.
B. Если в нашем обществе не произойдет влияющих на это структурных и регуляторных изменений, и A верно, то кто-нибудь на Земле намеренно даст такому ИИ инструкцию, успешное выполнение которой приведет к катастрофическим последствиям.
C. Если в нашем обществе не произойдет влияющих на это структурных и регуляторных изменений, и A верно, то кто-нибудь на Земле даст такому ИИ инструкцию, которая сделает его автономным и опасно-несогласованным (например, у него будет сильное стремление к самосохранению, или он сам будет вырабатывать себе подцели, что может привести к катастрофическим результатам).
D. Если в нашем обществе не произойдет влияющих на это структурных и регуляторных изменений, то даже если случится A, а потом B или C, мы всё же сможем защитить себя от катастрофы при помощи существующих мер защиты.
Присвойте значения четырём вероятностям PA, PB, PC и PD (обратите внимание, что всё это — условные вероятности) того, что утверждения A, B, C (при A) и D (при A и (B или C)) соответственно истинны. Имея эти четыре вероятности, мы можем примерно оценить риск катастрофических исходов в сценарии статус-кво, где мы не восприняли риск всерьёз заранее, как PA x (1 – (1 – PB) x (1 – PC)) x (1 – PD). При этом, например, ограничение доступа в тысячу раз снизило бы общую вероятность почти настолько же.
Мы не знаем эти вероятности точно, поэтому идеально было бы усреднять вероятности из распределения, полученного, например, опросом специалистов. Возможно, вы захотите изменить свои оценки после прочтения обсуждения ниже. Следует отметить, что опрос (и обдумывание вопросов и ответов ниже) требует некоторых фоновых знаний в нескольких областях, не только в ИИ.
Учитывая всё это, давайте рассмотрим сложные аргументы и контраргументы в форме часто задаваемых вопросов и ответов на них. Вопросы будут задаваться с позиции того, кто считает, что нам не стоит беспокоиться о суперопасных ИИ, а ответы — с позиции того, кто обеспокоен.
Изложив аргументы, я могу обобщить основные причины, по которым стоит серьезно воспринимать этот риск:
В1: Современные передовые ИИ-системы далеки от человеческого интеллекта. У них отсутствуют некоторые базовые составляющие, нет собственных намерений. Природа интеллекта сложна и недостаточно изучена нами. Поэтому на преодоление этого разрыва, если это вообще возможно, могут потребоваться десятилетия или даже века.
О1: Действительно, некоторых базовых компонентов у ИИ пока нет. Однако в эту сферу вкладываются огромные средства. В последнее время это привело к неожиданно быстрому росту компетентности ИИ-систем. Особенно заметен прогресс в овладении языком и способности к интуитивному (т.е. системой 1) улавливанию смысла.
Исследования, направленные на преодоление этого разрыва, приводят к прогрессу, например, в развитии способностей системы 2 (рассуждения, моделирование мира, понимание причинности, оценка эпистемической неуверенности).
Если нам повезёт, вы окажетесь правы, и проектам по созданию сверхчеловеческого ИИ потребуются ещё десятилетия. Это дало бы нам больше времени на адаптацию и подготовку. Однако вполне возможно, что текущие идеи по реализации в глубинном обучении способностей системы 2 радикально усовершенствуют ИИ-системы уже в ближайшие годы.
Сейчас моя оценка такова: 95% доверительный интервал от 5 до 20 лет до появления сверхчеловеческого интеллекта. Мы принимаем меры для минимизации будущих рисков, таких как пандемии, даже в условиях неопределённости сроков.
ИИ-системы с намерениями и целями уже существуют: у большинства систем обучения с подкреплением (RL) они определяются через функцию вознаграждения, а иногда даже через описание целей на человеческом языке.
Что касается возможности создания ИИ человеческого уровня или выше, я уверен в научном консенсусе: мозг — это биологическая машина, и нет свидетельств невозможности создания машин не глупее нас. Наконец, ИИ-системе не обязательно превосходить нас по всем параметрам, чтобы представлять угрозу катастрофы (человечество может быть уничтожено даже совсем не интеллектуальными сущностями, вроде вирусов).
В2: В ходе исследований иногда складывается впечатление, что мы вот-вот преодолеем главное препятствие и доберёмся до вершины (решения нашей задачи). Но в итоге мы понимаем, что есть и другое препятствие, которое мы не могли разглядеть раньше. Почему так не получится и в этот раз? В исследованиях ИИ есть несколько открытых задач (вроде иерархического RL и глубинного обучения системы 2). Они намекают, что простого масштабирования и инженерии для достижения интеллекта человеческого уровня не хватит.
О2: Вы правы. Однако мои опасения не основаны на предположении, что достаточно лишь масштабирования и инженерии. На мое мнение по этому вопросу сильно влияют масштаб и серьёзность риска.
Возможно, на пути к сверхчеловеческому ИИ и есть мощное препятствие, которого мы пока не видим. А может, и нет. Очень сложно знать наверняка. Что мы точно знаем — после успеха ChatGPT на ускорение прогресса в ИИ выделяются миллиарды долларов.
Учитывая такую неопределённость, масштаб риска катастроф или даже вымирания, а также тот факт, что мы не ожидали такого прогресса в ИИ в последние годы, агностическая скромность кажется мне самым мудрым подходом. По всем упомянутым открытым задачам ведётся активная работа. Что если она принесёт плоды в ближайшие годы?
В3: Мы не понимаем, как точно будет выглядеть сверхчеловеческий ИИ. Поэтому попытки предотвратить такие размытые риски — пустая трата времени. Разве могли бы мы составить правила безопасных авиаперелётов до братьев Райт? Давайте решать проблемы с очень мощными ИИ-системами, когда мы будем лучше их понимать.
О3а: Раньше я думал так же. Считал, что сверхчеловеческий интеллект — дело далёкого будущего. Однако ChatGPT и GPT-4 значительно сократили мой прогноз сроков (с 20-100 лет до 5-20 лет). Со ста миллионами активных пользователей мы далеко ушли от стадии братьев Райт.
Эти языковые модели многое рассказали нам о возможностях ИИ и о том, чего пока не хватает. Над этими недостатками сейчас работает множество исследовательских групп. Неожиданная скорость, с которой языковые модели достигли нынешнего уровня компетенции лишь благодаря масштабированию, указывает на возможность преодоления оставшегося разрыва в ближайшие годы с помощью небольших алгоритмических усовершенствований. Даже если вы не согласны с этими временными рамками, сложно полностью исключить такую возможность.
Признаю, сложно разработать регуляции и контрмеры для того, что пока не существует. Но есть примеры предложений по контролю опасных технологий, которые не опирались на знание о конкретной форме, которую технология примет: атомная энергия в 1910-х, ИИ в нашем веке, глобальное регулирование биологического оружия, не зависящее от конкретных патогенов.
Важно учитывать, насколько медленно общество адаптируется, не говоря уже о том, как долго государства принимают регуляции и курсы действий. Я считаю, что нам необходимо изучать и оценивать меры предосторожности, которые мы как общество могли бы использовать для снижения этих рисков. Нам нужно постепенно готовить контрмеры, начиная как можно раньше. Существуют обобщённые меры, применимые для любых технологий, вроде мониторинга и отслеживания способностей, лицензирования, требований об оповещении и аудитов.
Также стоит обратить внимание на это обсуждение вариантов действий по снижению катастрофических рисков ИИ. Да, нам действительно не хватает понимания и представления о проблемных сценариях. Это создаёт сложные дилеммы в регулировании (например, дилемму Коллингриджа).
Что касается возможного облика сверхчеловеческого ИИ, уже есть рабочие гипотезы. Можно взять нынешние архитектуры генеративных ИИ и обучить их (как машины вывода, см. этот пост) целям и устройству системы 2, чтобы они лучше рассуждали, были последовательнее и могли представлять планы и контрфактуалы. Это по-прежнему была бы большая нейросеть с определённой целевой функцией и процедурой генерации примеров (не ограничивающихся наблюдаемыми данными). У нас уже есть опыт работы с подобными системами, но многие вопросы о том, как сделать их безопасными и достойными доверия, пока остаются без ответов.
О3б: К тому же, хотя мы и не полностью освоили все принципы, объясняющие наш собственный интеллект (т.е. системы 1 и 2), у цифровых вычислительных технологий есть свои преимущества по сравнению с биологическими разумами. Например, возможность параллельного обучения на многих компьютерах. Широкополосная связь, позволяет быстро обмениваться триллионами параметров модели. Поэтому компьютеры могут обучаться на куда больших наборах данных (например, прочиатть весь интернет). Для людей такие объёмы непосильны; Языковой обмен информацией между людьми ограничен всего несколькими битами в секунду. См. аргументы Джеффри Хинтона на эту тему, особенно начиная с 21м37с.
О3в: Наконец, ИИ не обязательно превосходить людей во всех когнитивных способностях, чтобы представлять опасность. Достаточно, чтобы тех аспектов, которые он хорошо освоил (например, язык, но не робототехника), хватало для причинения вреда. Например, ИИ может использовать диалоги с людьми для построения манипулятивной эмоциональной связи. ИИ может оплачивать людям действия, вредящие миру, начиная с дестабилизации демократии на ещё большем уровне, чем это делают современные социальные медиа. Мы знаем, что как минимум некоторая часть людей очень легко поддаётся убеждению и может, например, поверить в конспирологические теории, совершенно непропорционально свидетельствам в их пользу. Более того, организованная преступность, вероятно, может выполнять хорошо оплачиваемые задачи, даже не зная, что им платит ИИ.
В4: Уже существует множество опасных технологий, но человечество выжило. Вероятно, на то есть веские причины, например, наша способность адаптироваться к опасностям. Почему с ИИ будет иначе?
О4: Выживание человечества - довольно низкая планка. Мощные технологии часто причиняли значительный вред: ядерные взрывы, оружие в целом, химическое загрязнение, политическая поляризация, расовая дискриминация. Наш вид выжил (хотя порой был близок к исчезновению), но нанесённый ущерб достаточно серьёзен, чтобы оправдать меры предосторожности.
ИИ обладает особенностями, делающими его особенно рискованной технологической инновацией. Вероятность катастрофических последствий технологии зависит от многих факторов, включая её мощь, автономность, агентность и доступность.
В сравнении с атомными технологиями, получить материалы и оборудование для создания мощной бомбы сложно. Ядерное оружие строго контролируется, доступ к нему крайне ограничен. Барьеры для взлома компьютеров гораздо ниже, а их защиту обеспечить сложнее. Любой может загрузить программу из интернета или использовать API, обычно без лицензирования или этической оценки.
Появление интерфейсов на основе естественного языка, вроде ChatGPT, позволяет давать инструкции ИИ-системе даже без навыков программирования. Мощь и доступность вместе повышают опасность технологии. Чем технологии мощнее, тем опаснее могут быть те, кому они доступны.
Схожая ситуация наблюдается в синтетической биологии: коммерциализация упростила заказ белков или микробов с новым ДНК, оценить которые на потенциал биологического оружия было бы сложно.
Сверхчеловеческие ИИ представляют особую категорию: мы никогда не создавали технологию умнее нас, способную создавать ещё более умные версии себя. ИИ-системы уже могут компетентно действовать для достижения целей, не соответствующих намерениям людей.
Автономные сверхчеловеческие ИИ-системы потенциально крайне опасны, причём способами, неприменимыми к прошлым технологиям и трудно предсказуемыми из-за сложности прогнозирования поведения сущностей, намного умнее нас. Пример Auto-GPT показал, что превратить неавтономную ИИ-систему вроде ChatGPT в систему с целями и агентностью несложно.
У общества есть механизмы самозащиты (например, против преступности), но они разработаны для защиты от людей. Неясно, насколько эффективны они будут против более сильного интеллекта.
В5: С чего бы кому-то в здравом уме просить компьютер уничтожить человечество, его часть или основы нашей цивилизации?
О5: История полна примерами того, как люди совершали ужасные поступки, включая геноциды или войны, уничтожавшие значительную долю населения, в том числе и со стороны агрессора. У человечества убедительный послужной список злонамеренности и иррациональности.
Существует множество примеров теоретико-игровых дилемм, когда при отсутствии адекватных механизмов координации личные стимулы плохо согласуются с общим благом. Это можно наблюдать в гонках вооружений или в конкуренции компаний, приводящей к пренебрежению мерами безопасности.
Я не могу быть полностью уверен. Некоторые, возможно даже большинство людей, следуют высоким этическим стандартам и склонны к сопереживанию. Однако для причинения значительного вреда достаточно лишь нескольких обладателей доступа к очень опасной технологии, имеющих склонность к насилию или неправильно нацеленные намерения.
Пока что в виде шутки, но Chaos-GPT показала, что кто-то может просто дать ИИ инструкцию уничтожить человечество. Да, благодаря низкому уровню компетенции нынешних ИИ, они (пока) не дают возможности устроить хаос, но что насчёт ИИ через 5 или 10 лет?
В6: Мало того, что ИИ не только уже полезны, но ведь в будущем они могут принести человечеству огромнейшую пользу, включая способы защититься от преступных использований ИИ или мятежных ИИ.
О6: Согласен, что более мощные ИИ могут быть крайне полезны, но их мощь также несёт в себе возможность очень опасных применений. Это повышает ответственность по избеганию вреда.
Существующие ИИ-системы (не сверхчеловеческие и не вполне общего назначения) уже безопасны (хотя не всегда честны и точны) и могут быть очень полезны. Чтобы получить преимущества от более продвинутых ИИ, нам нужно снизить риски. Мы уже делали так с другими технологиями.
Я согласен, что мы можем использовать ИИ-системы для защиты от злоупотреблений или мятежных ИИ. Но для этого нам, скорее всего, уже понадобятся безопасные и согласованные ИИ. Работа над тем, чтобы они были именно такими, должна быть куда активнее, чем сейчас.
Такие «хорошие» ИИ могли бы помочь нам выстроить более устойчивые меры защиты, например, детектируя патогены, оценивая стабильность климата и биоразнообразия, мониторя информационные экосистемы, улучшая кибербезопасность, отслеживая случаи мошенничества, и так далее.
Однако я не доверяю этому как универсальному средству. Нам нужно по возможности и самим снижать все эти риски, оценивая плюсы и минусы каждой предохранительной меры.
В7: Ограничение доступа к сверхчеловеческим ИИ может иметь нежелательные побочные эффекты. Оно может ущемить наши свободы и снизить нашу способность противостоять возможным мятежным ИИ (ведь, вероятно, большинство ИИ будут безопасными; происшествия и злонамеренные люди – скорее исключение, чем правило).
О7а: Согласен, есть и минусы. Но мы сталкивались с подобным в случае других опасных технологий. Я считаю, что использование и разработка сверхчеловеческих ИИ не должны быть доступны каждому (как в случае с ядерными технологиями, оружием и самолётами). Управление сверхчеловеческим ИИ должно осуществляться большой и репрезентативной группой, нацеленной на благополучие всего человечества. Выгоды от ИИ должны распространяться на всех. Для этого нужны сильные демократические институты.
О7б: Ограничить доступ стоит только к тем сверхчеловеческим ИИ-системам, чья безопасность не доказана. Безопасные системы могут помочь защититься от мятежных ИИ. Но пока они небезопасны, открывать к ним доступ неразумно. Согласен, мы чем-то жертвуем, и множество равно умных разнообразных ИИ помогло бы противостоять мятежным ИИ. Но меня тревожит сценарий, где кто-то найдёт алгоритмическое улучшение, ведущее к резкому росту интеллекта при использовании доступных вычислительных мощностей и данных. Тогда интеллект систем может внезапно превзойти человеческий или существующие ИИ-системы. Когда такое произойдёт впервые, я думаю, от обладателей этой превосходящей ИИ-системы будет зависеть очень многое. Лучше, если это будут люди с высокими этическими стандартами и привычкой следовать строгим процедурам (например, решения о задачах для ИИ при тестировании должен принимать не один человек, а комитет), подобным тому, как мы обращаемся с ядерным оружием или большими объёмами радиоактивных материалов.
Меня беспокоит скорость роста интеллекта ИИ-систем. При медленном росте у людей и общества есть шанс адаптироваться и снизить риски. Но при слишком быстром росте риск неудачи гораздо выше. Да, ограничение доступа замедлит прогресс, но это может быть и к лучшему. Я считаю, что самый безопасный путь – передать разработку мощнейших ИИ-систем международным организациям, которые продвигают не интересы отдельной компании или страны, а благополучие всего человечества.
В8: Если мы создадим один или несколько сверхчеловеческих ИИ и дадим им указание не вредить человечеству, они смогут понять нас, наши потребности и ценности. Тогда задача согласования ИИ решится сама собой.
О8: Хотелось бы, чтобы вы были правы. Но более десяти лет исследований в области согласования ИИ, обучения с подкреплением и экономики не дают особых поводов для оптимизма. Особенно учитывая масштаб того, что на кону.
Даже если суперопасный ИИ поймёт наши желания, это не гарантирует, что он будет согласно им действовать. Главная проблема в том, что трудно убедиться, что ИИ-системы по-настоящему понимают и принимают наши намерения и моральные ценности.
Это сложно даже с людьми: общество пытается достичь чего-то подобного с помощью законов, но они далеки от идеала. Корпорации постоянно находят лазейки. Поэтому задача обеспечить, чтобы машина точно выполняла наши истинные намерения, кажется крайне сложной.
Показательные примеры: научно-фантастический фильм 1970 года «Колосс: Проект Форбина» или книга Стюарта Рассела «Совместимость» с примером компаний по добыче ископаемого топлива, десятилетиями вводивших человечество в заблуждение и причинивших огромный вред (и не закончивших это делать до сих пор) в погоне за прибылью.
Недавние исследования показывают, что использование обучения с подкреплением для дообучения языковых моделей приводит к тому, что ИИ стремятся угодить оценщикам, но не обязательно говоря правду. Иногда они даже обманывают или дают недостоверные объяснения, чтобы получить вознаграждение.
Я довольно уверен, что если мы лишим ИИ-системы агентности, то сможем создать полезные и безопасные сверхчеловеческие ИИ-оракулы без автономии, целей, самосознания или стремления к самосохранению. Однако создать «обёртку», превращающую такую систему в автономный (а значит, потенциально опасный) ИИ, довольно просто. Именно это делает Auto-GPT, используя ChatGPT как оракула.
К счастью, пока это безопасно, потому что ChatGPT не умнее нас (хотя, подобно саванту, знает больше фактов, чем любой человек). Поэтому недостаточно просто метода создания безопасного и полезного ИИ. Нужны также политические и общественные меры, чтобы свести к минимуму риск того, что кто-то этому методу не последует.
В9: У меня сильное убеждение, что для создания согласованных ИИ-систем достаточно дать им целевую функцию, описывающую наши желания, или спроектировать их по нашему образу и подобию.
О9: В сообществах Безопасности ИИ, обучения с подкреплением (например, см. эти примеры от DeepMind) и среди экономистов существует консенсус, что это крайне сложная задача. Проблема усложняется, когда ИИ-система оптимизирует функцию вознаграждения, которая казалась хорошей мерой наших ценностей, пока мы не начали использовать ИИ для её оптимизации. Это явление известно как Закон Гудхарта. Есть аргументы, что мы никогда не сможем сделать это даже близко к идеалу. Люди сами не пришли к согласию о том, что это такое и как это формализовать.
Уже сейчас есть расхождения между тем, как мы хотели бы, чтобы вели себя ИИ-системы, и их реальным поведением. В основном это связано с предрассудками, дискриминацией или изменениями в мире. В будущем разница в возможностях и интеллекте между нами и ИИ, вероятно, усилит даже небольшие расхождения между нашими намерениями и тем, что ИИ-система воспринимает как цель.
Такие различия между людьми обычно не приводят к катастрофическим последствиям из-за относительно небольшой разницы в уровне интеллекта. Но когда у одних людей оказывается намного больше власти, чем у других, для последних это часто заканчивается плохо. Это может уравновешиваться объединением многих менее влиятельных людей (например, через демократию). Более мощные корпорации тоже лучше способны находить лазейки в законах или лоббировать их изменения.
Если же мы спроектируем ИИ-системы по нашему образу и подобию, это будет означать, что у них точно будет стремление к самосохранению. Это можно рассматривать как создание нового разумного вида, ведь они не будут в точности подобны нам. Несогласованность между видами может иметь катастрофические последствия для человечества, подобно тому, как разница в целях между нами и другими видами уже привела некоторые из них к вымиранию.
В10: Некоторые считают, что нельзя просто отделить механизмы разума от целей и добавлять или убирать любую цель. Поэтому невозможно, чтобы цель противоречила базовым инструкциям не вредить людям.
О10: Для людей в целом верно, что есть цели (например, сочувствие), которые мы не можем легко отключить. С другой стороны, есть немало примеров людей, способных игнорировать инстинкт сочувствия. К тому же, люди очень хорошо принимают новые цели. Так работают компании, исследователи, политики и т.д.
Хотя мы не можем легко менять наше эволюционное программирование, исследователи ИИ постоянно меняют цели обучения машин. Обучение с подкреплением работает именно так. Поэтому машина может полностью сосредоточиться на, скажем, выигрыше партии в го.
Существует еще одна проблема: люди могут задать злонамеренные цели или просто цель (например, военную победу), которая не будет ограничена императивом не вредить людям. Вообще, определение ограничений из реального мира, таких как вред людям, остается нерешенной исследовательской задачей.
Вред людям может стать побочным эффектом другой высокоприоритетной цели. Стюарт Рассел привел пример горилл, которых мы почти довели до вымирания не потому, что их убийство было нашей явной целью, а как непреднамеренное следствие более насущных целей, таких как получение прибыли.
В11: Что насчёт изоляции, чтобы ИИ-системы не могли напрямую влиять на мир?
О11: Над такими решениями действительно много размышляли. Изоляция может стать частью комплекса мер по снижению риска, хотя ни одна из них, насколько я вижу, не является полным решением проблемы.
Главная сложность с изоляцией в том, что нам всё равно потребуется какое-то взаимодействие между ИИ-системой и людьми-операторами, а на людей можно повлиять. По умолчанию компании стремятся широко внедрять свои системы для увеличения прибыли.
С ChatGPT мы уже упустили момент - его интерфейсом пользуются сотни миллионов людей. Некоторые даже позволяют Auto-GPT самостоятельно действовать в интернете.
Эффективная изоляция потребовала бы также гарантий того, что код и параметры ИИ-систем не «утекут», их не украдут, и даже недобросовестные игроки будут следовать тем же процедурам безопасности. Для этого нужно жёсткое регулирование, в том числе на международном уровне.
В12: Мне не кажется, что мы решили задачу обучения ИИ-систем так, чтобы они могли автономно принимать подцели, особенно неочевидные несогласованные подцели.
О12: Вы правы в том, что иерархическое обучение с подкреплением – очень активная область исследований с множеством нерешенных задач. Однако наши современные алгоритмы уже способны выявлять подцели, хотя и не оптимальным образом.
Более того, подцели могут возникать неявно, как, по-видимому, происходит с GPT-4. Нам нужно разработать инструменты, которые смогут обнаруживать, оценивать и анализировать неявные цели и подцели ИИ-систем.
В13: С чего бы сверхчеловеческим ИИ обязательно обладать инстинктами к выживанию и доминированию, как у нас? Почему у них должны быть цели, ведущие к нашему вымиранию? Мы могли бы просто запрограммировать их быть инструментами, а не живыми существами.
О13: Создание сверхчеловеческих ИИ может оказаться сродни созданию нового вида, если мы не будем достаточно осторожны. Это может сделать их крайне опасными. Наша эволюционная и недавняя история показывает, что более умный вид может непреднамеренно привести к вымиранию менее умных видов.
Как гарантировать, что когда станет известен способ создания сверхчеловеческого ИИ, никто не заложит в него цель выживания? Более того, литература по Безопасности ИИ показывает самосохранение может возникнуть как конвергентная инструментальная цель, необходимая для достижения почти любой другой цели. Другие такие цели включают получение большей власти и контроля, повышение интеллекта и приобретение знаний. Всё это – полезные подцели для огромного числа других целей.
Нам следует как можно старательнее попытаться запрограммировать ИИ так, чтобы они не причиняли нам вред, возможно, используя подход из «Совместимости». Но пока непонятно, как мы могли бы обеспечить согласованность, если ИИ будут агентами с явными и неявными целями.
Или же мы могли бы попытаться спроектировать ИИ-системы как чистые инструменты. Они могли бы пытаться понимать мир, не имея никаких целей в нём, не составляя планы и не совершая прямых действий в реальном мире. Вместо этого они могли бы лишь вероятностно-правдиво (в смысле аппроксимации байесианских апостериорных вероятностей ответов, при условии вопроса и доступных данных) отвечать на вопросы согласно их пониманию мира.
Нам нужно больше исследований в этих областях, а также о том, как организовать общество, чтобы обеспечить соблюдение правил безопасности во всём мире.
Другими словами: это может быть хорошей идеей, но пока никто не знает, как надёжно её реализовать. Это остаётся открытой исследовательской задачей.
В14: «Если понимаете, что он небезопасен – просто не создавайте его.»
О14: К сожалению, люди не всегда поступают мудро. История неоднократно показала, что люди могут быть жадными, злонамеренными или сильно заблуждаться. Более того, они могут не осознавать опасность, допускать незаметные для себя, но фатальные ошибки или принимать чрезмерные риски. Интересный пример - решение провести первое испытание атомной бомбы (Тринити, 1945), несмотря на неуверенность в том, не приведет ли цепная реакция к возгоранию атмосферы.
В15: Если мы поймём, что ИИ опасен, мы просто его отключим!
О15: Было бы замечательно, если бы мы могли это сделать. Однако существует множество причин, почему это может оказаться сложным: изначальная структура ИИ, его собственные (возможно, инструментальные) цели или мотивы вовлеченных людей.
Оливер Сурбат в своем обзоре препятствий к выключению описывает факторы, затрудняющие отключение ИИ. Среди них скорость, с которой ИИ может набрать мощь, незаметность этого процесса, устойчивость к попыткам выключения благодаря избыточности (программное обеспечение легко копировать) способность к самовоспроизводству (не только самого ИИ, но и его методов атаки, вроде биологического оружия и компьютерных вирусов) и наша зависимость от сервисов, работающих с помощью ИИ-систем (может касаться лишь некоторых из нас, у кого, в результате, будет мотивация сопротивляться попыткам отключения).
В16: Высока вероятность того, что чрезмерное внимание к экзистенциальным рискам затмит проблемы, которые ИИ создает уже сейчас. Это может заглушить голоса тех, кто говорит о несправедливостях, вызванных ИИ и другими технологиями.
О16: Это действительно важная тема. Многие представители сообщества ИИ уже долгие годы выступают за регулирование ИИ и этику, ориентированную на влияние технологий на общество. Пример тому – наша ранняя работа над Монреальской декларацией об ответственном использовании ИИ.
Нам необходимо заниматься как уже существующим вредом, так и рисками для демократии и прав человека. Я не считаю, что одно исключает другое. Мы же не игнорируем будущий подъем уровня моря из-за изменения климата только потому, что климатические изменения уже вызывают засухи.
Для снижения всех рисков, связанных с ИИ, нам понадобятся гораздо более эффективное управление, мониторинг и регулирование. При этом права человека и демократия (в истинном смысле – как власть народа, а не узкой группы) должны оставаться в центре внимания. Давайте как можно скорее начнем вводить необходимые реформы, обеспечив, что при обсуждении услышаны голоса всех.
Нынешнее внимание СМИ к экзистенциальным рискам ИИ ускорило политические дискуссии о необходимости регулирования и управления ИИ. Это помогает решать проблемы уже существующего вреда от ИИ См, например, недавние заявления Джо Байдена и Риши Сунака.
Более того, технические и политические структуры, необходимые для решения как существующих проблем несправедливости, так и катастрофических рисков более продвинутых ИИ, во многом пересекаются. И то, и другое требует регулирования, надзора, аудитов, тестирования для оценки потенциального вреда и так далее.
На техническом уровне многие опасения по поводу текущего вреда (такие как дискриминация, предрассудки и концентрация власти в руках нескольких компаний) связаны с задачей согласования в широком смысле. Мы создали ИИ-системы и занимающиеся ими корпорации, чьи цели и стимулы могут плохо согласованы с нуждами и ценностями общества и человечества в целом.
В17: Мне кажется, что при работе с разными рисками рационально взвешивать их согласно нашей в них неуверенности. Вес рисков, принадлежащих более далёкому будущему или вовлекающих сценарии, которые мы не можем нормально смоделировать, должен быть сильно снижен. Неуверенность в сценариях вымирания огромна, так что их можно практически игнорировать.
О17: Риски действительно нужно взвешивать с учётом неуверенности. Это одна из причин, почему меня так волнуют текущий вред от ИИ и современные проблемы человечества, которые ИИ уже помогает решать. Однако в этих непростых расчётах необходимо учитывать и масштабы потенциального вреда.
Если погибнет значительная доля людей или, что ещё хуже, человечество вымрет полностью, масштаб огромен. Многие специалисты считают, что вероятность подобных событий не настолько мала, чтобы ею пренебречь, и вполне оправдывает пристальное внимание и принятие мер по предотвращению.
Важно различать «неуверенность» и «маловероятность». Когда сценарий в целом кажется правдоподобным, но детали неясны, уместная реакция – вложиться в то, чтобы в них разобраться и, соответственно, научиться с ними работать, а не отвергать сценарий сразу.
В18: Я считаю, что вымирание из-за ИИ крайне маловероятно, или что неуверенность по этому поводу слишком велика. Излишняя реакция на страх вымирания может привести к другим катастрофическим последствиям. Например, популистские авторитарные правительства могут использовать ИИ как Большого Брата, якобы для того, чтобы исключить риски вымирания из-за ИИ. В результате за всеми будут следить государственные ИИ, у всех будут камеры на шее, и все клавиатуры будут отслеживаться.
О18: Нам определенно нужно приложить все усилия, чтобы избежать этого буквального воплощения «1984». Хочу подчеркнуть: я считаю, что защита прав человека и демократии в конечном итоге необходима для минимизации экзистенциальных рисков ИИ.
Авторитарные государства склонны в первую очередь заботиться о собственной власти. Они лишены сдержек и противовесов, необходимых для принятия мудрых решений и учета интересов тех, кто не у власти. Такие режимы могут легко приобрести глубоко укоренившиеся ложные убеждения (например, что правящая группа будет защищена от возможных происшествий из-за ИИ), которые могут привести к катастрофическим решениям.
Демократия и права человека - ключевые ценности, которые необходимо сохранить. Поэтому еще до появления сверхчеловеческих ИИ-систем нам следует беспокоиться о возможной в ближайшем будущем дестабилизации демократии. Это может произойти из-за дезинформации, манипуляции людьми посредством общения (возможно, как заметил Ювал Харари, с созданием личных отношений) и социальных сетей.
Нам определенно нужно запретить подделку человеческой личности так же, как мы запрещаем подделку денег. Необходимо научиться определять машинно-сгенерированный контент. Следует обеспечить регистрацию личности для любых интернет-аккаунтов со значимой пользовательской активностью, и так далее. Я убежден, что все эти меры помогут защитить демократию и снизить экзистенциальные риски ИИ.
В19: Велика вероятность, что обсуждения экзистенциальных рисков вызовут действия, противоречащие нашим человеческим ценностям, правам человека, демократии, открытости науки, движению за открытый исходный код и прочим вещам, которые мы с вами ценим.
О19а: Снижая катастрофические риски ИИ, надо не забывать сохранять, а лучше даже усиливать демократию и права человека. В принятии решений о разработке и программировании ИИ и проверках их безопасности должна участвовать большая и разнообразная группа людей. Для этого нужно как можно скорее развить политическую компетентность по этому вопросу и ввести регуляции. В итоге надо обеспечить, чтобы все люди получали свою долю выгоды от ИИ. Но это не значит, что надо позволять кому угодно ими владеть.
Что касается открытого исходного кода, Джеффри Хинтон сказал: «Что вы думаете насчёт открытой разработки ядерного оружия?». Вообще, многие люди за пределами США считают, например, что и владение оружием не продвигает демократические идеалы.
Я понимаю это беспокойство, особенно с учётом некоторых предложений снижать экзистенциальные риски через «Большого Брата». Нам надо сопротивляться соблазнам авторитаризма. Я убёждён, что есть другие, при том более безопасные, пути. Я считаю, нам надо найти способ продолжить прогресс науки и технологий во всех областях, не ставязих под угрозу общество. Это подразумевает обмен результатами, кодом, и т.д. Но надо будет и улучшить мониторинг, управление и надзор там, где люди могут создать мятежные ИИ-системы или совершать другую научную деятельность с потенциально опасными результатами. Именно поэтому нам в науке нужна этика, и поэтому нам нужны этические советы в университетах.
О19б: Есть много прецедентов пристального присмотра за важными исследованиями и технологиями, который при этом не мешает им приносить пользу обществу. Мы уже принимаем компромиссы между личными свободами и приватностью с одной стороны и защитой общества с другой. Например, большинство стран регулируют оружие. Государства отслеживают большие денежные потоки. Некоторые научные области вроде клонирования и генетической модификации людей или работы с радиоактивными материалами тоже находятся под присмотром.
Мы можем присматривать и отслеживать потенциально опасную деятельность и в демократическом обществе, без «Большого Брата». Большая часть применений ИИ-систем полезны и не создают катстрофических рисков. Разработку полезнного для общества ИИ стоит даже ускорять. Специализированные ИИ-системы куда безопаснее по своей природе. У них нет «большой картины» того, как работает мир, представления о людях и обществе. Они могут ошибаться, но наврядли они захватят у нас контроль. Но они всё ещё могут приносить нам большую пользу. Например, в конкретных областях можно реализовать идею «ИИ-учёных».
В20: Ваши предложения повредят открытой науке в сфере ИИ. Это замедлит разработку хороших ИИ, которые помогли бы нам противостоять мятежным ИИ. А те всё равно смогут появиться в организациях и странах, которые обходят или попросту не подписывают международные соглашения. К тому же правительства не захотят, чтобы их гражданам давали сверхумных ИИ-помощников с засекреченным устройством.
О20: Это всё важно. Нам надо больше вкладываться в безопасность ИИ. И в то, как делать безопасные системы ИИ, и в то, как с их помощью противостоять опасным. Надо лучше понимать риски. Например, опасные ИИ могут создать биологическое оружие. Поэтому нужно строже проверять тех, кто заказывает продукты синтетической биологии. Или есть риски для компьютерной безопасности. Сейчас защита работает против отдельных вредных программ, которые пишут люди. Она не справится с массовой атакой разного кода, который создаст ИИ.
В то же время, чтобы снизить риск появления опасного ИИ, нужно: усилить контроль и подумать о том, чтобы ограничить доступ к мощным универсальным ИИ, которые можно превратить в оружие. Это значит, что их код и некоторые трюки, позволяющие им хорошо работать, не будут выкладываться в открытый доступ.
Лучше всего отдать эти системы под контроль нейтральных международных организаций. Что-то похожее на МАГАТЭ и ЦЕРН, только для ИИ. Они бы создавали безопасные и полезные системы, которые могли бы помочь нам бороться с опасными.
Да, если держать информацию в секрете, прогресс замедлится. Но у тех, кто тайно разрабатывает опасный ИИ, будет меньше денег и хороших учёных. И им придётся всё делать скрытно.
Правительства смогут следить за другими странами и наказывать их за тайные разработки ИИ. Для госудаственного контроля за сверхчеловеческим ИИ не надо, чтобы его код был открыт.
Нужны строгие международные соглашения. И надо быть готовыми к тому, что кто-то всё равно создаст опасный ИИ.
Один из способов защиты – создать (под международным контролем и с мерами безопасности) сверхчеловеческий безопасный ИИ. Он мог бы помочь нам защититься от опасных.
В21: Джинн уже выпущен из бутылки. Похоже, что остановить создание сверхумного ИИ уже нельзя. Правительства слишком медленно принимают законы, а уж про международные договоры и говорить нечего. К тому же регулирование всегда несовершенно и вредит инновациям. Поэтому я считаю, что надо ускорить разработку ИИ. Это принесёт человечеству новую эпоху просвещения и благополучия.
О21: Да, шансы не очень. Но всё равно стоит стараться уменьшить вред и увеличить пользу.
Посмотрите на борцов с изменением климата. У них есть все причины отчаяться. Но они не сдаются. Хоть вред уже есть, и лучше было бы начать действовать раньше, будущий вред ещё можно уменьшить.
Вы мечтаете об эпохе просвещения и благополучия с помощью ИИ. Но для этого как раз и нужны законы, договоры и перемены в обществе. Это поможет нам взять под контроль риски от ИИ, которые могут привести к катастрофе. Нельзя просто надеяться, что всё будет хорошо. Лучше перестраховаться.
В22: А весь этот шум про сверхумный ИИ – разве это не просто реклама в интересах кучки экспертов по ИИ и нескольких компаний? Современные системы, даже GPT-4, не так уж впечатляют. У них полно недостатков.
О22: Надеюсь, что ответы выше дают понять причины для беспокойства. Я не могу точно сказать, что сверхчеловеческий ИИ появится через пару лет. Может быть, до него ещё десятки лет. И я на это надеюсь.
Но ИИ развивается очень быстро. Я вижу, как происходят новые важные открытия. Есть значительная вероятность, что сверчеловеческий ИИ можно создать, основываясь на том, что у нас уже есть. Может быть, недостающие части (мне кажется, это, в основном, способности Системы-2) будут выработаны в ближайшее десятилетие. Опросы исследователей поддерживают это мнение. учёных, это может случиться уже в следующие 10 лет
Больше 100 профессоров подписали недавнее заявление о рисках ИИ.
При этом надо быть осторожными. Меры предосторожности и новые правила должны помогать всем людям, а не усиливать уже неравномерное распределение власти, например, в пользу несколькх компаний.
Выводы из этого диалога
Пожалуйстак, заново оцените вероятности событий, ведущих к катастрофе. Изменились ли ваши оценки?
Обдумывание этих ответов ещё бльше убедило меня: именно из-за наших разногласий о будущем ИИ нам нужен план, учитывающий все варианты.
А это значит, что нужно больше внимания ко всем рискам ИИ, включая его безопасность. Нужно больше инвестиций (как в технические исследования, так и управление), больше национальных и международных органов надзора, работающих на общее благо. Нельзя оставлять всё на откуп коммерческим компаниям, отдельным правительствам или военным.
Важно уменьшить неопределённость в сценариях развития и понять, как работают защитные меры. Для этого нужны серьёзные социальные и технические исследования.
Нам нужно понять, как лучше предвидеть опасные сценарии, детально их описать, разработать правила для снижения рисков. При этом надо найти баланс между противоречащими целями. Например, между быстрым развитием мощных и полезных ИИ-технологий и ограничением их способности навредить людям.
Да, шансы не очень обнадёживают – достаточно посмотреть на прошлые и нынешние попытки международного сотрудничества по глобальным рискам. Но наш моральный долг – больше думать, заботиться и действовать так, чтобы уравновесить снижение будущих рисков с развитием общества.
Благодарности: Иошуа Бенджио благодарит Ники Хоу, Стюарта Рассела, Филиппа Бодуэна, Эндрю Крича, Яна Браунера, Сюй Цзи, Джозефа Вивиано, Конрада Кординга, Шарлотту Зигман, Эрика Эльмознино, Сашу Луччиони, Эндрю Джессона, Пабло Лемоса, Эдварда Ху, Шахара Авина, Дэна Хендрикса, Алекса Эрнандеса-Гарсию, Оли Сурбут, Насима Рахамана, Фазла Бареза, Эдуарда Харриса и Михала Козярского за отзывы о черновике этого текста.
Постскриптум: (после публикации текста появились новые вопросы и ответы)
В23: Если в обозримом будущем ИИ – это просто код в компьютерах, то у него нет прямого физического доступа к реальному миру. Как же тогда даже сверхумный ИИ может угрожать человечеству?
О23: Частичто это уже было в ответе 11.
Компьютеры уже повсюду: в телефонах, энергосистемах, логистике, СМИ, вооружениях, в почти всех компаниях и госструктурах.
Доступа в интернет и умения взламывать защиту уже достаточно, чтобы ИИ мог нанести огромный вред. особенно если его атаки будут скоординированы. А они будут – ведь сверхчеловеческий ИИ будет оптимизировать свои действия, чтобы успешно достичь своих целей.
Доступ в интернет (и к банковскому счёту или криптовалюте) может дать человек, захотев получить более мощный ИИ, способный действовать в реальном мире.
Сверхчеловеческий ИИ сможет быстро заработать больше денег, чем люди. Например, на финансовых рынках, где большие деньги делаются быстро.
Пока ИИ не научится управлять роботами, его руками могут быть люди. Он может влиять на людей (у одного ChatGPT уже миллионы пользователей, и достаточно убедить малую их часть), платить за выполнение заданий через легальные сайты или нанимать преступников через даркнет.
Когда ИИ поймёт, как делать роботов лучше нас, он сможет использовать людей для их создания. А потом управлять роботами напрямую, без людей-посредников (которые могут отказаться подчиняться).
Год с небольшим назад я публично присоединился к многочисленным коллегам. Мы предупредили общественность об опасностях, связанных с беспрецедентными способностями мощных ИИ-систем. Спустя несколько месяцев я написал пост «ЧаВо по катастрофическим рискам ИИ». Он логически следовал за моим постом о мятежных ИИ, где я начал обсуждать, почему к Безопасности ИИ нужно относиться серьёзно.
С тех пор я участвовал во многих дебатах, в том числе с моим другом Яном ЛеКуном. Его взгляды на эти проблемы сильно отличаются от моих. Я многое узнал о Безопасности ИИ, о разнообразии мнений по этому вопросу, о взглядах на регуляции и о мощных лобби против них.
Проблему обсуждают так активно из-за того, что ставки огромны. Согласно некоторым оценкам, потенциальная ценность на кону составляет квадриллионы долларов. Не говоря уже о перспективах политической власти, способной значительно изменить нынешний мировой порядок.
Я опубликовал статью по многостороннему управлению СИИ-лабораториями. Долго размышлял о катастрофических рисках ИИ и способах их смягчения, как с технической, так и с управленческой и политической сторон.
Последние семь месяцев я возглавляю Международный научный доклад по безопасности продвинутых ИИ (далее просто «доклад»). В нём участвуют тридцать стран, ЕС и ООН, а также 70 международных экспертов. Цель доклада — собрать воедино состояние исследований Безопасности ИИ и показать всё разнообразие взглядов на риски и перспективы ИИ.
Сегодня, после года активного погружения в эти проблемы, я хотел бы заново рассмотреть аргументы о потенциальных катастрофических рисках, связанных с вероятными будущими ИИ-системами. Я поделюсь своим текущим взглядом на эту тему.
Многие риски связаны с гонкой нескольких частных компаний и других организаций за создание ИИ человеческого уровня (СИИ) и далее — Искусственного Суперинтеллекта (ИСИ). В докладе представлен широкий обзор рисков. Они включают проблемы с правами человека, угрозы приватности и демократии, вопросы авторского права, опасения о концентрации экономической и политической власти, а также возможные злоупотребления.
Мнения экспертов расходятся относительно вероятности различных исходов. Однако мы в целом согласны, что некоторые масштабные риски, такие как вымирание человечества, были бы настолько катастрофичны, что требуют особого внимания. Это необходимо хотя бы для того, чтобы убедиться, что их вероятность пренебрежимо мала. Другие риски, например серьезные угрозы демократии и правам человека, также заслуживают гораздо большего внимания, чем им уделяется сейчас.
Главный вывод из всех этих обсуждений и дебатов — простой и бесспорный факт: пока мы несемся в гонке за СИИ или ИСИ, никто сейчас не знает, как заставить их вести себя согласно морали. Более того, неясно, как даже обеспечить их поведение в соответствии с замыслом разработчиков и не допустить действий против людей. Это может быть трудно представить, но задумайтесь на секунду:
Сущности умнее людей и со своими собственными целями. Уверены ли мы, что они будут стремиться к нашему благополучию?
Можем ли мы коллективно так рискнуть, не будучи уверенными? Некоторые приводят аргументы, почему нам не стоит об этом беспокоиться. Я разберу их ниже. Но они не могут предоставить техническую методологию, демонстрирующую удовлетворительную степень контроля даже над современными передовыми ИИ-системами общего назначения. Что уж говорить о гарантиях или чётких и сильных научных обоснованиях, что методология исключит возможность ИСИ пойти против человечества. Я не утверждаю, что нельзя изобрести метод согласования и контроля ИИ, способный масштабироваться до ИСИ. Наоборот, я отстаиваю мнение, что научному сообществу и обществу в целом необходимо приложить мощное коллективное усилие именно для этого.
Более того, даже если способ контролировать ИСИ будет известен, у нас всё ещё не будет политических институтов, позволяющих увериться, что люди не будут злоупотреблять мощью СИИ или ИСИ, направлять её против других людей в катастрофических масштабах, использовать её для уничтожения демократии или учинения геополитического или экономического хаоса. Нам нужно убедиться, что никакой человек, корпорация или государство не сможет злоупотребить мощью СИИ в ущерб общему благу. Мы должны гарантировать, что корпорации не будут использовать СИИ для воздействия на свои государства, государства – для угнетения своих народов, а страны – для доминирования над другими странами. Одновременно нам надо обеспечить, чтобы мы избежали катастрофических происшествий и потери контроля над СИИ-системами в любой точке планеты.
Всё это вместе можно назвать задачей координации, то есть политикой ИИ. Если задача координации будет идеально и полностью решена, решение задачи согласования и контроля ИИ не будет такой абсолютной необходимостью. В таком случае мы могли бы «просто» исходить из принципа предосторожности и избегать проведения экспериментов с непренебрежимым шансом создания неконтролируемого СИИ.
Но, конечно, человечество - не единый разум, а миллиарды. Существует множество людей, корпораций и стран, у всех свои цели. Закономерности, вытекающие из личных интересов, психологических и культурных факторов, сейчас ведут нас в опасной гонке к мощным способностям ИИ. При этом у нас нет ни методологий, ни социальных институтов, позволяющих значительно снизить величайшие риски, такие как катастрофические злоупотребления и потеря контроля.
С оптимистичной точки зрения, я считаю вполне убедительными аргументы о том, что если будут решены и задача контроля ИИ, и задача координации, то скорее всего человечество сможет получить невероятную выгоду. Этот научный и технологический прогресс может принести пользу в медицине, экологии и улучшить экономические перспективы для большинства людей (в идеале, начиная с тех, кто в этом больше всего нуждается).
Сейчас мы несёмся в гонке к миру с сущностями умнее людей, преследующими свои собственные цели. У нас нет надёжного метода, гарантирующего совместимость этих целей с человеческими. Несмотря на это, обсуждая безопасность ИИ, я слышал много аргументов, призванных поддержать вывод «не надо беспокоиться».
Мой общий ответ на них таков: учитывая убедительные основания считать гонку к СИИ потенциально опасной и огромные ставки, нам необходимы очень сильные свидетельства, прежде чем заключать, что беспокоиться не о чем. Я вижу, что обычно эти аргументы даже близко не соответствуют такой планке.
Ниже я разберу некоторые из них и объясню, почему они не убедили меня в том, что мы можем игнорировать потенциальные катастрофические риски ИИ. Многие из аргументов за «не беспокоиться», которые мне встречались, – не настоящие твёрдые аргументы, а интуитивные заключения людей, уверенных в отсутствии опасности. Они не содержат убедительной цепочки рассуждений.
При отсутствии убедительных аргументов для отрицания важности безопасности ИИ и учёте ставок и неуверенности о будущем, рационально принимать решения исходя из принципов скромности. Следует признавать ограниченность наших знаний и отдавать приоритет осторожности. Но, как я вижу, сейчас это не так.
Да, катастрофические риски ИИ теперь всё больше обсуждают и не высмеивают. Но мы всё ещё не принимаем их с достаточным уровнем серьёзности. Многие, включая тех, кто принимает важные решения, сейчас осведомлены, что ИИ может нести катастрофические и даже экзистенциальные риски. Но насколько чётко они представляют, что это может значить? Насколько они готовы предпринимать экстраординарные шаги для смягчения этих рисков?
Меня беспокоит, что нынешняя траектория общественного и политического взаимодействия с рисками ИИ может, как сомнамбул, завести всех нас – даже наперегонки – в туман. За этим туманом - катастрофа, про которую многие знали, что она возможна, но не уделили должного внимания её предотвращению.
Одно из возражений против серьёзного отношения к рискам СИИ/ИСИ - утверждение, что мы никогда (или только в далёком будущем) до них не дойдём. Часто такие люди говорят что-то вроде «ИИ просто предсказывает следующее слово», «ИИ никогда не будут обладать сознанием» или «ИИ не могут обладать настоящим интеллектом».
Я нахожу большую часть таких утверждений неубедительными, потому что они часто ошибочно объединяют несколько разных понятий в одно, упуская суть. Например, для СИИ и ИСИ (по крайней мере, при использовании большинства известных мне определений) сознание не обязательно. Неясно, имеет ли оно значение для потенциального экзистенциального риска СИИ. Куда важнее способности и намерения ИСИ-систем. Если они будут способны убить людей (это одна из многих способностей, которые можно составить или вывести из других навыков), и у них будет такая цель (а у нас уже есть ИИ-системы с целями), то это будет крайне опасно, если не будет способа это предотвратить или этому противодействовать.
Я также нахожу неубедительными утверждения вроде «ИИ не могут обладать настоящим интеллектом» или «ИИ просто предсказывают следующее слово». Соглашусь, если определить «настоящий» интеллект как «такой интеллект, как у людей», то у ИИ нет «настоящего» интеллекта: их методы обработки информации и рассуждений отличаются от наших. Но при разговоре о потенциальных катастрофических рисках ИИ это – бесполезное отвлечение. Важно то, чего ИИ может добиться, насколько он хорош в решении задач, и подобные вопросы.
Я думаю о «СИИ» и «ИСИ» именно так – как об уровнях способностей ИИ, на которых ИИ столь же хорош или превосходит людей-экспертов в исполнении по сути любой задачи (кроме тех, что требуют физических действий). То, как именно ИИ этого достигнет, для существования риска неважно.
Если посмотреть на способности ИИ-систем последних десятилетий, тренд на их усиление весьма ясен. На нынешнем уровне ИИ уже очень хорошо овладели языком и визуальными материалами, и способности исполнения самых разных когнитивных задач постоянно растут. См. «доклад» за подробными свидетельствами, включая расхождения во мнениях касательно нынешних способностей.
Наконец, нет никакой научной причины считать, что люди – обладатели высшего возможного интеллекта. Вообще-то, во многих специализированных когнитивных задачах компьютеры людей уже превзошли. Так что даже ИСИ вполне правдоподобен, хотя пока нельзя сказать, до какого уровня он может дойти. Если полагаться на науку, а не на личные убеждения, возможность СИИ и ИСИ исключить нельзя.
Результаты, которые показывают ИИ-модели по разным бенчмаркам с 2000 по 2024 год. Отображено компьютерное зрение (MNIST, ImageNet), распознавание речи (Switchboard), понимание естественного языка (SQuAD 1.1, MNLU, GLUE), общие оценки языковых моделей (MMLU, Big Bench, and GPQA), и математические рассуждения (MATH). К 2024 году многие модели превзошли человеческий уровень (отмеченный чёрной линией). Киела, Д., Траш, Т., Этаярадж, К., и Сингх, А. (2023) «Графики прогресса в ИИ»._
Часто утверждают, что вводить регуляции против рисков СИИ пока рано, поскольку его ещё нет и неясно, каким он будет. Этот аргумент неубедителен по двум причинам.
Во-первых, нельзя исключать, что СИИ может возникнуть внезапно, в результате добавления какого-то нового приёма к существующим методам. Тренды развития ИИ по-прежнему указывают в сторону СИИ.
Во-вторых, и это ещё важнее, мы не знаем точных сроков появления СИИ. При этом разработка законов, введение регуляций и заключение соглашений могут занять годы или даже десятилетия. В наших условиях неуверенности, кто может не кривя душой сказать, что до СИИ точно ещё далеко?
Я согласен, что между мощнейшими ИИ-системами и человеческим интеллектом пока есть разрыв. Для его преодоления, вероятно, потребуются новые научные прорывы. Современные диалоговые системы, например, уступают людям в рассуждениях и планировании, часто демонстрируя непоследовательность.
Однако, у нас уже есть системы вроде AlphaGo, превосходящие людей в рассуждениях и планировании в ограниченных областях (например, правилах Го). Нужный прорыв мог бы объединить обширные знания и языковые навыки GPT-4 со способностью к планированию AlphaGo. К тому же, многие люди тоже не блещут логикой и могут выдавать нереалистичные ответы или действовать непоследовательно – известные слабости языковых моделей. Возможно, мы не так уж далеки от человеческого уровня способностей.
Важно отметить, что до появления ChatGPT многие исследователи ИИ, включая меня, не ожидали такого уровня возможностей в ближайшем будущем. Сейчас три самых цитируемых эксперта в области ИИ обеспокоены потенциальными последствиями. Учитывая такую неопределённость, стоит рассматривать разные сценарии: прогресс может сохранить нынешние темпы, а может и замедлиться, растянув путь к СИИ на десятилетия. В этой ситуации разумно проявить скромность и планировать, учитывая наше незнание.
В дискуссиях я часто замечаю обманчивый подход: люди рассуждают так, будто возможности ИИ навсегда останутся на текущем уровне. Нам необходимо учитывать вероятные сценарии будущего и траектории развития ИИ, чтобы подготовиться к потенциально опасным вариантам. Игнорировать тренды, подобные показанным на графике выше, было бы неразумно.
Некоторые убеждены, что человеческий интеллект – это пик возможного, и ИИ-системы не смогут превзойти все наши способности. Хотя это нельзя строго опровергнуть, это крайне маловероятно. Я уже касался этого вопроса в начале поста. Джеффри Хинтон убедительно аргументировал это, сравнивая возможности аналоговых и цифровых вычислений.
Более того, для возникновения опасных сценариев с экзистенциальным риском не обязательно превосходить все человеческие способности. Достаточно создания ИИ-систем, превосходящих людей в исследованиях ИИ. Такой ИИ может быть запущен сотнями тысяч непрерывно работающих экземпляров, подобно тому, как GPT-4 обслуживает миллионы пользователей параллельно. Это мгновенно умножит усилия по исследованиям ИИ во много раз (возможно, сконцентрировав их в одной корпорации). Вероятно, это резко ускорит рост возможностей ИИ.
Когда мы, возможно, всего за несколько месяцев перейдём от СИИ к ИСИ, мы столкнемся со множеством неизвестных неизвестных. Ускорение исследований обеспечит более мощные ИИ, которые, в свою очередь, будут ещё сильнее ускорять исследования, создавая цикл положительной обратной связи.
Часто приводят аргумент, что робототехника значительно отстаёт от когнитивных способностей ИИ. Однако, учитывая текущее положение дел и тенденции развития, робототехника прогрессирует, и СИИ/ИСИ могли бы этот прогресс ускорить. Определённо стоит пристально следить за достижениями в этой области.
Можно представить сценарий, в котором стремящиеся к самосохранению ИИ-системы перестанут нуждаться в людях, поскольку смогут контролировать роботов для выполнения физической работы. Теоретически, у них может возникнуть мотивация полностью избавиться от человечества, чтобы исключить возможность своего отключения людьми.
Хотелось бы, чтобы эти ожидания оправдались, но исследования в области информатики и безопасности ИИ указывают в другом направлении. При отсутствии надёжных прогнозов, грамотное управление рисками требует принять меры предосторожности против вероятных негативных исходов.
ИИ с целью самосохранения стремился бы избежать отключения. Правдоподобная стратегия минимизации вероятности отключения – взять нас под контроль или устранить. Так ИИ мог бы гарантировать, что мы не поставим под угрозу его будущее.
Сущности (например, люди или страны) вынуждены искать взаимовыгодные решения только при относительном равенстве сил. Нет гарантий, что у нас будет такой паритет с ИСИ.
Откуда у ИИ может взяться сильное стремление к самосохранению? Это может быть намеренно заложено меньшинством людей, которые приветствовали бы превосходство ИИ, например, потому, что ценят интеллект превыше человечности. Но есть и технические аргументы (связанные с инструментальной конвергенцией или вмешательством в вознаграждение), в пользу того, что подобные цели могут возникнуть как побочный эффект даже самых безобидных целей, заданных людьми (см. «доклад» и цитируемые там источники, а также разнообразие взглядов на проблему потери контроля, отражающее уровень научной неопределённости в этом вопросе).
Было бы ошибкой полагать, что будущие ИИ-системы обязательно будут подобны нам, и у них будут те же базовые инстинкты. Мы не можем быть в этом уверены. То, как мы их сейчас создаём (например, как максимизаторы вознаграждения), указывает на совершенно иное. См. следующий пункт за дополнительными аргументами. Эти системы могут быть похожи на людей в одних аспектах, но сильно отличаться в других, и предсказать эти отличия сложно.
Стоит также учесть, что даже при конфликте между группами людей, если одна сторона обладает значительно превосходящими технологиями (как это было, например, при колонизации Америк европейцами, особенно в XIX веке), исход для более слабой группы может быть катастрофическим. Аналогично, наши перспективы в случае конфликта между ИСИ и человечеством выглядят довольно мрачными.
Почему бы инженерам из корпораций, занятых созданием будущих продвинутых ИИ-систем, не создавать безопасные ИИ? Разве корпорации сами не заинтересованы в безопасности своих ИИ? Проблема возникает, когда безопасность и максимизация прибыли или корпоративная культура («двигайся быстрее и ломай вещи») тянут в разные стороны.
Множество исторических свидетельств (вспомните компании по добыче ископаемого топлива и их влияние на климат, фармацевтические компании до введения регуляций, например, в случае с талидомидом) и экономические исследования показывают, что погоня за прибылью может сформировать поведение корпораций, противоречащее общественным интересам. При такой неопределенности рисков группе разработчиков легко убедить себя, что они найдут достаточно хорошее решение задачи безопасности ИИ (позже у меня будет пост с обсуждением психологических факторов).
Мы применяем законы, чтобы избежать конфликта интересов между глобальными рисками и корпоративными интересами или личным принятием желаемого за действительное. Однако команды корпоративных юристов могут найти в них лазейки. Искусственный сверхинтеллект (ИСИ), вероятно превосходящий лучшую команду юристов, наверняка обнаружит пробелы и в законах, и в инструкциях, призванных обеспечить безопасное поведение ИИ.
Составление контракта, который точно ограничивает поведение агента (человека, корпорации или ИИ) в интересах другого агента, остается нерешенной в общем случае задачей. Обратите внимание, как мы постоянно вносим поправки в законы в ответ на обнаруженные корпорациями лазейки. Неясно, сможем ли мы делать это с той же скоростью, с которой их будет находить ИСИ.
Проблема, похоже, в нашей неспособности предоставить ИИ полную формальную спецификацию неприемлемого поведения. Вместо этого мы можем дать спецификацию безопасности S, вероятно, на естественном языке. Если у ИИ есть основная цель G с ограничением соблюдения S, то при легкости достижения G без нарушения всех интерпретаций S всё будет работать как надо. Но если совместить одно с другим сложно, потребуется оптимизация (как команда юристов ищет способ максимизировать прибыль, соблюдая букву закона). Такая оптимизация, вероятно, найдет лазейки или интерпретации, позволяющие соответствовать букве, но не духу законов и инструкций.
Примеры таких лазеек уже описаны в литературе по безопасности ИИ. Они включают:
- Вмешательства в систему вознаграждения (контроль механизма вознаграждения создает неявную цель самосохранения)
- Разнообразные инструментальные цели (для достижения основной, казалось бы безобидной цели, ИИ стремится к потенциально полезным подцелям: самосохранению, контролю и влиянию в своем окружении, в том числе через убеждение, обман и взлом)
Уже наблюдались признаки таких склонностей. Ситуацию усложняет то, что инженеры не проектируют поведение ИИ напрямую, а только то, как ИИ обучается. В глубинном обучении результат – сложная и непрозрачная структура. Это крайне затрудняет выявление и исключение нежелательных намерений и обманчивости.
Для ссылок на исследования безопасности ИИ, нацеленные на смягчение этих рисков, см. «доклад». Пока эти исследования не смогли решить проблему.
Главный аргумент сторонников ускорения: будущий прогресс ИИ, вероятно, принесёт человечеству невероятную пользу, поэтому замедлять исследования способностей ИИ – значит отказываться от небывалого экономического и социального роста. Это возможно, но рациональное принятие решений требует взвешенного рассмотрения всех «за» и «против».
Представим, что мы получим медицинские прорывы, которые быстро удвоят нашу ожидаемую продолжительность жизни, но примем риск того, что все погибнут или потеряют свободу. В этом случае ставка ускорителей не особо привлекательна. Может, стоит немного притормозить, найти лекарство от рака чуть позже, но мудро вложиться в исследования, необходимые для контроля рисков, пока мы получаем глобальную выгоду?
Аргументы за ускорение часто исходят от крайне богатых людей и технокорпоративных лобби с личной финансовой заинтересованностью в максимальной краткосрочной выгоде. С их точки зрения, риски ИИ – это экономическая экстерналия, ложащаяся на всех сразу.
Корпорации принимают риски, потому что им выгодно игнорировать вред для общества – вполне обычная ситуация. Вспомним риски для климата от ископаемого топлива или опасность ужасных побочных эффектов от препаратов вроде талидомида. Но с точки зрения обычных людей и общества в целом, при учёте всех рисков и потенциальной выгоды, аккуратный и осторожный подход к СИИ явно лучше.
Возможен путь, при котором мы достаточно вложимся в безопасность ИИ, регуляции и соглашения для контроля рисков злоупотреблений и потери контроля, и одновременно реализуем выгоду ИИ. Это совместный вывод саммита по безопасности ИИ в Великобритании в 2023 году (30 стран-участниц), последовавшего в 2024 году саммита в Сеуле и Хиросимских принципов G7 об ИИ. С этим согласны и многие другие международные декларации и законотворческие предложения в ООН, ЕС и других организациях.
Бывало такое, что меня просили перестать говорить о катастрофических рисках ИИ (как о злоупотреблениях, так и о потере контроля). Аргумент в том, что это обсуждение отвлечет внимание от хорошо обоснованного вреда правам человека, который ИИ уже наносит.
В демократии мы обсуждаем множество проблем параллельно. Было бы странно сказать: «Прекрати говорить об изменении климата» из страха, что это навредит обсуждению проблемы детского труда. Или просить не говорить о необходимости смягчать долгосрочные эффекты изменения климата, потому что это помешает обсуждению краткосрочной адаптации к нему.
Если бы мои оппоненты приводили сильные аргументы о невозможности катастрофических рисков ИИ, я бы понял их нежелание вносить в общественный дискурс лишний шум. Но на самом деле:
1. Есть правдоподобные аргументы, почему суперинтеллектуальный ИИ может обладать целью самосохранения (простейший – её ему дадут люди).
2. Ставки (если опасность реализуется) столь высоки, что это требует нашего внимания даже при низкой вероятности.
3. Мы не знаем, сколько времени осталось до СИИ. Уважаемые люди из передовых ИИ-лабораторий утверждают, что это может быть всего несколько лет. Риски могут оказаться не такими уж долгосрочными, а законотворчество, регуляции и соглашения могут занять много времени.
Наше будущее благополучие и способность контролировать будущее (иными словами, наша свобода) -– это права человека, которые надо защищать. К тому же, интересы тех, кто обеспокоен краткосрочными и долгосрочными рисками, должны сходиться. Обе группы хотят государственного вмешательства для защиты общества, регуляции и общественного надзора за ИИ.
Большинство недавних законотворческих предложений об ИИ затрагивали краткосрочные и долгосрочные риски в равной степени. На практике те, кто противостоит регуляциям – это часто люди с финансовыми или личными интересами в слепом ускорении гонки к СИИ. Во многих странах технические лобби успешно помешали или ослабили попытки ввода регуляций. Поэтому для тех, кто в них заинтересован, рационально было бы объединиться.
К сожалению, эти внутренние разногласия между теми, кто хочет защитить общество, сильно снижают шансы на реализацию общественного надзора и приоритизацию общего блага в разработке и развертывании ИИ.
Китай – вторая ИИ-сверхдержава после США. В западных демократиях распространено искреннее беспокойство по поводу геополитического конфликта между Китаем и США (и их союзниками). Некоторые считают, что Китай может использовать прогресс в ИИ, особенно при приближении к СИИ и ИСИ, как мощное оружие. Это дало бы Китаю преимущество как в экономическом, так и в военном плане, особенно если Запад замедлит свой прогресс к СИИ ради безопасности.
Стоит честно признать: китайцы тоже боятся, что США могут использовать прогресс в ИИ против них. Это мотивирует Китай ускорять исследования способностей ИИ. Эта геополитическая конкуренция особенно беспокоит тех, кто убежден, что демократические институты лучше автократических режимов защищают права человека (см. [Всеобщую декларацию прав человека]((https://www.un.org/en/about-us/universal-declaration-of-human-rights), которую Китай подписал, но которая, к сожалению, ни к чему не обязывает).
Мы уже видим, как современные ИИ используются для воздействия на общественное мнение (например, с помощью дипфейков) и подрыва демократических институтов через распространение недоверия и невежества. Автократические государства уже применяют ИИ и социальные медиа для усиления внутренней пропаганды и контроля за недовольством (включая отслеживание в интернете и визуальную слежку с распознаванием лиц). Есть риск, что ИИ, особенно СИИ, может помогать автократам оставаться у власти и расширять влияние, вплоть до создания автократического мирового правительства.
Возможность, что будущий прогресс в ИИ может дать оружие первого удара (в том числе в кибервойне), мотивирует многих на Западе ускорять развитие способностей ИИ. Они отвергают идею замедления ради лучшей безопасности из страха, что это позволит Китаю опередить США в области ИИ.
Но если мы будем игнорировать безопасность ИИ и сосредоточимся только на способностях, как избежать экзистенциального риска потери контроля над СИИ? Если человечество проиграет из-за неконтролируемого ИСИ, неважно, какую политическую систему вы предпочитаете. Проиграют все. Когда дело касается экзистенциальных рисков, мы все в одной лодке.
Надеюсь, это мотивирует лидеров обеих сторон искать способы вкладываться и в безопасность ИИ. Мы могли бы сотрудничать в исследованиях, улучшающих безопасность, особенно если они не повышают способности. Никто не хочет, чтобы другая сторона в своих исследованиях СИИ совершила глобальную катастрофическую ошибку – мятежный ИСИ не станет уважать ничьих границ.
Что касается вложений, исследования способностей и безопасности не взаимоисключающи, если начать сейчас. У нас достаточно ресурсов для обоих направлений, особенно при правильно выстроенных стимулах. Но значительные вложения в безопасность необходимы. Надо убедиться, что вопросы безопасности решены до достижения СИИ, когда бы это ни произошло. Сейчас мы не на этом пути.
Меня беспокоит то, что если безопасные методологии в области ИИ не будут найдены вовремя, легче представимый риск чужой гегемонии вытеснит из внимания экзистенциальный риск потери контроля. Последний могут счесть умозрительным, в отличие от первого, подпитываемого веками вооруженных конфликтов.
Заключать международные соглашения действительно сложно. Однако история показывает, что они возможны. Или, по крайней мере, она может помочь нам понять, почему они иногда терпят неудачу (особенно интересна история плана Баруха, когда США собирались поделиться атомными разработками с СССР). Даже без полной уверенности в успехе, они представляют важное направление, которое стоит попробовать для предотвращения глобальных катастрофических исходов.
Два необходимых условия успеха – это
общая заинтересованность в соглашении (имеется, все хотят избежать вымирания человечества) и возможность проверки соблюдения. Для первого нужно, чтобы государства действительно понимали риски. Поэтому необходимо больше исследований для их лучшего анализа. Здесь полезны компиляции знаний о безопасности ИИ вроде «доклада». Второе условие в случае ИИ представляет особую проблему. ИИ – это в основном софт, его легко модифицировать и скрывать. Возникающее из-за этого недоверие мешает заключить соглашение, предотвращающее опасные риски.
Однако ведутся обсуждения о возможности механизмов управления на уровне «железа». При их реализации высокопроизводительные чипы, позволяющие обучение СИИ, нельзя было бы спрятать. На них можно было бы выполнять только код, одобренный совместно установленной управляющей организацией. Цепочка поставок высокопроизводительных чипов для ИИ сейчас состоит из очень малого числа участников. Это даёт государствам возможность на неё повлиять. См. также проект из этого меморандума.
Можно представить сценарии, когда управление через «железо» не сработает. Например, если будут открыты способы на много порядков снизить вычислительную стоимость обучения ИИ. Это возможно, но не гарантировано. Вообще, все предложенные способы снижения катастрофического риска ИИ не дают гарантии по отдельности. Нам нужна «глубокая защита» – наслоение многих методов для защиты от различных опасных сценариев.
Важно понимать, что управления через «железо» будет недостаточно, если код и веса СИИ-систем не будут надёжно защищены. Использование и файн-тюнинг таких моделей намного дешевле их обучения и не требуют столь высокопроизводительных чипов. В этой области почти все (за пределами ведущих СИИ-лабораторий, у которых нет сильной культуры безопасности) согласны: при приближении к СИИ необходим быстрый переход к очень надёжным практикам информационной безопасности.
Наконец, соглашения касаются не только США и Китая. В долгосрочной перспективе безопасность от катастрофических злоупотреблений и потери контроля потребует сотрудничества всех стран. Но с чего странам Глобального Юга подписывать такое соглашение? Очевидный для меня ответ: в него должно быть включено обязательство, что ИИ не будет использоваться как инструмент доминирования, в том числе экономического. Научная, технологическая и экономическая выгода от ИИ должна распределяться глобально.
Возможно, джинн действительно выпущен из бутылки: большинство научных принципов, необходимых для СИИ, уже могут быть открыты. Много денег вложено с этим допущением. Но даже если это так, отсюда не следует, что нам стоит позволить силам рыночной и геополитической конкуренции полностью определять наш курс.
У нас всё ещё есть индивидуальная и коллективная возможность свернуть к более безопасному и демократичному миру. Также неверен аргумент, что регуляция обязательно провалится. Даже если регулировать ИИ будет непросто, это не значит, что не надо направлять усилия на проектирование новых институтов для защиты прав человека, демократии и будущего человечества. Это, конечно, может потребовать некоторых социальных инноваций.
Даже просто снижение вероятности катастрофы уже было бы полезно. Не обязательно ждать идеального решения, чтобы начать двигаться в нужную сторону.
Наприме, чтобы справиться с проблемой сложности выстраивания новой технической и социальной инфраструктуры, регуляторы могут полагаться на частные некоммерческие организации. Эти организации могут конкурировать друг с другом за проектирование наиболее эффективных оценок способностей и других инструментов безопасности.
Чтобы эффективно совладать с быстрым темпом перемен и неизвестными будущих ИИ-систем, регуляции должны обладать определённой гибкостью. У нас есть примеры законотворчества, основанного на определённых принципах и дающего регулирующим организациям достаточно свободы для адаптации к изменяющимся обстоятельствам и рискам (например, FAA в США).
Чтобы противостоять конфликту интересов (между общим благом и максимизацией прибыли) внутри корпоративных ИИ-лабораторий, государство может обязать эти компании включать в советы директоров разных заинтересованных лиц. Это обеспечит представление должного диапазона взглядов и интересов, включая представителей гражданского общества, независимых учёных и международного сообщества.
Открытые наука и код в прошлом многое нам дали и в целом продолжают приносить пользу. Однако всегда нужно взвешивать плюсы и минусы решений вроде «выложить в общий доступ код и параметры обученной ИИ-системы». Особенно когда способности ИИ достигнут человеческого или даже более высокого уровня.
Пока нынешние системы недостаточно мощны, чтобы быть катастрофически опасными в чужих руках или выйти из-под контроля. Поэтому выкладывание ИИ-систем в общий доступ может быть полезно – это помогает учёным в исследованиях безопасности ИИ. Но кто должен решать, где провести грань и как взвесить плюсы и минусы? Директора компаний или демократически избранные правительства? Если вы верите в демократию, ответ очевиден.
Это сложный (и болезненный для меня) вопрос: всегда ли свободное распространение информации – это хорошо? Представьте, у нас есть последовательность ДНК очень опасного вируса. Стоит ли её выкладывать в открытый доступ? Если в этом случае ответ для вас очевиден, тщательно подумайте о случае с алгоритмами и параметрами СИИ.
Недавно появился новый тревожный сигнал: исследование EPFL показало превосходящие человеческие способности к убеждению у GPT-4. Для этого ей достаточно дать страницу в Facebook человека, которого нужно убедить. Что, если такие ИИ-системы будут настроены на миллионах взаимодействий, обучающих ИИ тому, как эффективно переубеждать нас в чём угодно? Успешность демагогических приёмов ясно показывает уязвимость людей к подобным манипуляциям.
Что касается экзистенциальных рисков, некоторые утверждают: если у всех будут собственные СИИ, то «хорошие ИИ» победят «плохие ИИ», потому что хороших людей больше. У этого аргумента много слабых мест.
Во-первых, мы не уверены, что доброй воли владельца СИИ хватит, чтобы гарантировать моральное поведение самого СИИ (см. выше об инструментальных целях).
Во-вторых, нет гарантии, что меньшинство мятежных ИИ будет побеждено большинством «хороших» ИИ, и что мы вовремя найдём подходящие контрмеры (хотя мы, конечно, должны попытаться). Это зависит от баланса атаки и защиты. Подумайте о смертоносных первых ударах. Мятежный ИИ может выбрать вектор атаки, дающий атакующему мощное преимущество. Очевидный кандидат – биологическое оружие. Его можно скрытно разработать и выпустить разом, и оно будет сеять хаос и смерть экспоненциально, пока защищающаяся сторона будет искать лекарство.
Основная причина, почему биологическое оружие не применяется в человеческих войнах – атакующим сложно быть уверенными, что оно не обернётся против них самих. Мы все люди, и даже если у них есть лекарство, патоген после выпуска будет мутировать, и все гарантии могут перестать работать. Но это не проблема для мятежного ИИ, намеренного уничтожить человечество.
Теперь о злоупотреблениях ИИ-системами в открытом доступе. Действительно, злоупотребить можно и закрытой системой, например, найдя уязвимость. Однако:
а) Найти атаку для системы в открытом доступе гораздо проще.
б) В отличие от закрытых систем, после выкладывания в открытый доступ вы уже не можете исправить найденные уязвимости.
Важно: это касается и дополнительного обучения систем в открытом доступе. Оно может раскрыть опасные способности, допускающие потерю контроля.
Аргумент в пользу открытого доступа: больше людей смогут пользоваться преимуществами ИИ. Это верно, но для дополнительного обучения систем всё ещё требуются технические навыки. К тому же, экспоненциально растущие вычислительные затраты на обучение передовых ИИ-систем означают, что, скорее всего, оно будет доступно только очень небольшому числу организаций. Это сделает такие организации чрезвычайно влиятельными.
Я бы предпочёл как-то децентрализовать эту власть, не увеличивая при этом риски злоупотребления и потери контроля. От организаций, создающих эти системы, можно требовать особой прозрачности (по крайней мере, прозрачности способностей, не обязательно методов их получения), общественного надзора и участия разных заинтересованных сторон в управлении. Это поможет снизить риски злоупотребления мощью СИИ и риски потери контроля из-за недостаточных мер безопасности.
Вдобавок можно давать контролируемый доступ к коду доверенным исследователям, применяя при этом технические методы, не позволяющие им его копировать. Это откроет возможность присмотра и уменьшит риски злоупотреблений.
Пари Паскаля – рассуждение о том, что при возможности бесконечных потерь (ад или рай) в случае ошибочного решения не верить в Бога, нам следует действовать, исходя из убеждения, что Бог (кстати, именно христианский) существует. Аргумент против принятия мер по поводу катастрофических рисков ИИ проводит аналогию с Пари Паскаля из-за огромных рисков, потенциально даже бесконечных, если так рассматривать вымирание человечества.
Согласно этому аргументу, алармисты обосновывают своё беспокойство тем, что в пределе бесконечных потерь при вымирании мы должны действовать так, будто риски реальны, даже при практически нулевых свидетельствах в пользу вымирания или его вероятности. Это потому, что ожидаемый риск можно измерить, умножив вероятность события на потери, если оно произойдёт. Давайте рассмотрим, почему этот аргумент не работает.
Главная причина: мы имеем дело не с крохотными вероятностями. Согласно опросу от декабря 2023 года, медианный исследователь ИИ (не безопасности ИИ) оценивал вероятность вреда от ИИ уровня вымирания в 5%. Вероятность в 5% – не территория Пари Паскаля.
Есть серьёзные и подкреплённые научной литературой аргументы (см. «доклад» и пункты выше) в пользу того, что катастрофические риски очень продвинутых ИИ вполне реальны. Особенно при приближении или обгоне человеческого уровня во многих областях.
Нам не нужно принимать потери за бесконечные: возможных очень плохих сценариев по пути к СИИ и дальше много (опять же, см. «доклад»). У нас есть вполне ощутимые свидетельства в пользу ИИ-катастроф и значимая вероятность не бесконечных, но всё же неприемлемых потерь.
Это обычная ситуация для принятия решений. Рациональность требует от нас обратить внимание на эти риски, попытаться их понять и снизить.