Исследовательские задачи по согласованию

Ричард Нго

Сейчас, когда пытаешься научиться лучше думать о согласовании, сложно понять, где начать. Поэтому ниже я перечислил пару десятков упражнений, которые, как мне кажется, могут помочь. Они подразумевают уровень фоновых знаний, приблизительно эквивалентный тому, что покрыто учебным планом технического потока курса основ безопасности СИИ. Они сильно варьируются по сложности – от стандартных знаний в области машинного обучения до открытых исследовательских задач. Я выдал им рейтинг сложности звёздочками от * до *** (отмечу: это не связано с временем на выполнение – многие требуют сначала прочитать статьи, а уже потом решать). Однако, я сам не решал их все, так что рейтинги могут значительно ошибаться.

Я склонялся к включению упражнений, которые казались мне интересными и связанными с согласованием даже когда не был уверен в их ценности; так что, работая над ними, стоит держать в голове вопрос «действительно ли это полезно? Почему или почему нет?» как мета-упражнение. Вероятно, этот пост будет обновляться с удалением наименее полезных упражнений и добавлением новых.
Буду признателен за:

  1. Комментарии о том, какие упражнения показались наиболее или наименее полезными.
  2. Ответы на упражнения
  3. Больше упражнений! Идеальные упражнения – задачи в стиле охоты на нёрдов, быстро и конкретно формулируемые, но ведущие к интересным глубинам при исследовании.

Обучение с подкреплением

  1. * Посмотри на примеры механизмов человеческой обратной связи, обсуждённых в статье про рациональный относительно награды неявный выбор. Подумай о других видах человеческой обратной связи. Каково множество выбора? Какова функция обоснования?
    1. * Эта статья от Anthropic представляет технику под названием «дистилляция контекста». Опиши это в терминах подхода рационального относительно награды неявного выбора.
    2. * Оцени пропускную способность передачи информации через разные виды человеческой обратной связи. Опиши грубую модель того, как это может измениться по ходу обучения. Для контраста, сколько информации передаётся через выбор программируемой функции вознаграждения? (Рассмотри и случай, когда агенту дана точная функция вознаграждения, и когда он учится из наблюдений.)
  2. * Посмотри на примеры искажений, обсуждённых в изучении предпочтений ограниченных агентов. Укажи ещё одно искажение, похожим образом воздействующее на человеческий процесс принятия решений. Опиши ситуацию-пример, в которой человек с этим искажением может принять неверное решение. Сформулируй алгоритм, выводящий истинные предпочтения этого человека.
    1. Некоторые ответы здесь.
  3. ** С учётом того, что людям можно приписать любые ценности, почему обучение с подкреплением вообще работает на практике?
  4. ** Объясни, почему кооперативное обратное обучение с подкреплением не решает проблему согласования.
    1. Ответ здесь.

Агентность

  1. ** В этой статье исследователи придумали тест для определения того, совершает ли рекуррентная сеть планирование: наблюдение за тем, улучшается ли качество работы, если дать сети больше времени «подумать» перед действием. В статье про AlphaGo исследователи сравнили работу их алгоритма MCTS+нейросеть и работу нейросети отдельно. Подумай, какой ещё тест можно провести, чтобы получить свидетельство о том, в какой степени некая нейросеть совершает внутреннее планирование.
  2. * Рассмотри HCH, попытку формализовать «человеческое просвещённое суждение». Почему реализация HCH может быть несогласованной? Какие допущения необходимы, чтобы это предотвратить?
    1. *** В позднейшем посте Пол определяет более сильную версию HCH, «улучшающую выразительность HCH с точки зрения теории сложности. Старая версия могла вычислять в EXPTIME, а новая – любую разрешимую функцию.» Попробуй вывести новую версию HCH с такими свойствами.
    2. Ответ тут
  3. * Спроси OpenAI API о том, какие шаги он бы предпринял, чтобы исполнить некий долгосрочный план. Работа в группах: придумайте задачу, про которую вы ожидаете, что для неё сложно придумать хороший план, а потом посмотрите, кто сможет составить затравку, приводящую к лучшему плану от API.
    1. * Некоторые шаги плана, сгенерированного API, могут быть и выполнены API – например, шаг, требующий написать стихотворение на заданную тему. Какую сложнейшую задачу вы сможете найти, для которой API сможет не только составить план, но и выполнить каждый из его шагов?
  4. ** Перл заявляет, что нейросети, обученные на размеченных или саморазмеченных данных не могут научиться рассуждать об обоснованиях и гипотетических фактах (смотри этот пост для объяснения разделения). Какой сильнейший контраргумент против его позиции?

Обучение с подкреплением (RL)

  1. ** Как обучение с учителем на максимизирующих награду траекториях связано (математически) с градиентом стратегий с редкими бинарными наградами?
  2. ** Какие теории принятия решений представлены в разных алгоритмах RL?
    1. Некоторые ответы здесь.
  3. ** Что может заставить RL-агента выучить стратегию, жертвующую награду в текущем эпизоде ради большей награды в следующем эпизоде?
    1. Некоторые ответы в разделе 7 тут.
  4. * Игры с самим собой в игре с нулевой суммой для двух игроков сходятся к оптимальной стратегии (с учётом некоторых допущений о классе моделей). В других играх это не так – почему?
  5. ** Оцени эту статью (Вознаграждения Достаточно). Действительны ли их аргументы?
    1. ** После этого: представь птицу, практикующую пение, слушающую собственную песню и выполняющую RL с правилом «чем лучше звучит звук, тем выше вознаграждение». Но птица ещё и решает, как распределять время между практикой пения, сбором припасов и т.д. И чем она хуже звучит, тем важнее ей практиковаться! Так что на самом деле хочется иметь правило «чем хуже звук, тем выше награда за практику пения». Как бы ты разрешил этот конфликт?
    2. Некоторые ответы здесь.
  6. * Почему поведенчески клонированная стратегия хорошо справляется, будучи запущенной на малом наборе шагов, но плохо на более длинной серии? Как это можно исправить?
    1. Некоторые ответы здесь.
  7. ** Если агент глубокого q-обучения обучен в окружении, где некоторые действия ведут к большому отрицательному вознаграждению, он никогда не прекратит пытаться их выполнять (стратегия иногда будет выбирать эти действия даже не при случайном изучении из-за эпсилон-исследования). Почему это происходит? Как это предотвратить?
    1. Некоторые ответы здесь.
  8. ** RL-агенты стали способны исполнять компетентное поведение на всё более длинных эпизодах. Какие возникают сложности при попытке измерить улучшения длительности их компетентных действий? Какие метрики наиболее полезны?
    1. Тот же вопрос, но для эффективности выборки вместо длины эпизодов.
    2. Некоторые ответы здесь.

Нейросети

  1. * Рассмотрим эту статью про модульность нейросетей. Оцени их метрику кластеризации, какие другие метрики можно использовать вместо неё?
  2. ** Рассмотрим следующее предложение по согласованию: нейросеть с двумя головами вывода, одна выбирает действие, а вторая предсказывает долговременные последствия этих действий. Предположим, что мы обучили вторую максимизировать оцениваемое людьми качество предсказания. Какие различия мы можем ожидать у обратного распространения ошибки через всю сеть и только через голову предсказания? Какие затруднения возникнут, если мы постараемся обучить голову предсказания с помощью RL? Какие у этого могут быть преимущества?
  3. ** “Взлом градиента” – гипотетическое явление, при котором модель выбирает свои действия частично на основе наблюдений своих собственных параметров, изменяя то, как они обновляются. Работает ли механизм взлома градиента, описанный в приложенном посте? Если нет, работают ли какая-нибудь его вариация?
    1. Некоторые ответы здесь.
  4. * Прочитай составленный Якобом Стайнхардтом список примеров эмерджентных сдвигов в машинном обучении. Можешь ли ты придумать какие-нибудь ещё? Что насчёт сдвигов, которые ты ожидаешь в ближайшем будущем?
  5. ** Как бы могла выглядеть ложность гипотезы схем?
  6. * Эта статья обсуждает метрику «эффективно переданных данных». Какие её ограничения? Какие есть альтернативные способы измерить передачу данных?

Теория согласования

  1. * Рассмотрим расширение обучения с подкреплением на случай, когда вознаграждение может зависеть от параметров модели. Почему классические доказательства сходимости больше не работают?
    1. *** Есть ли ограничивающие допущения, которые могут привести к интересным теоретическим результатам?
  2. ** Одно из беспокойств по поводу предложений обучения с использованием функций оценивания, напрямую зависящих от параметров, состоит в том, что если мы обучим нейросеть избегать некой конкретной разновидности мышления, то такое мышление может просто распределиться по сети таким способом, который мы не можем засечь. Опиши игрушечный пример когнитивной черты, которую мы сейчас можем автоматически обнаружить. Придумай эксперимент, показывающий, научилась ли нейросеть после обучения для удаления этой черты реализовывать эквивалентную черту менее легко детектируемым способом.
  3. *** Перевыведи некоторые доказательства из следующих статей. Для b) и c) объясни, какие сделаны допущения об оптимальности вовлечённых агентов, и как они на практике могут не соблюдаться:
    1. Поиск Власти Конвергентно Инструментален в MDP
    2. Безопасность ИИ через дебаты (см. ещё доказательства эффектов добавления перекрёстного осмотра)
    3. Предложения согласования и классы сложности (и это продолжение)
    4. Некоторые ответы здесь.
  4. *** Составь предложение для приза ELK (замечу, что это требует ознакомления с очень длинным отчётом ELK).
  5. ** Предположим, что мы обучили модель через поведенческое клонирование человека, но человек начинал с другими априорными знаниями о модели (либо большими, либо меньшими). Как это может привести к несогласованному поведению модели?
    1. Некоторые ответы здесь.

Основания агентов

  1. * Теория игр с открытым кодом
  2. ** Теоремы выбора
  3. ** Упражнения с неподвижной точкой
  4. *** Задача 5 и 10

Эволюция и экономика

  1. * В старом исследовании насекомых разделили на несколько групп, каждая из которых жила отдельно, и проводили искусственный отбор в пользу меньших групп, в попытке узнать, эволюционируют ли они добровольное ограничение размножения. Предскажи результаты исследования.
    1. Некоторые ответы здесь. Действовало ли описанное в посте искажение на твои ожидания?
  2. ** Как можно объяснить, почему так мало видов животных – гермафродиты, если учитывать, что возможность вынашивания детей каждым представителем вида могла бы потенциально удвоить количество детей в следующем поколении?
    1. Некоторые ответы здесь.
  3. * Прочитай этот пост про эволюцию к вымиранию. Математически продемонстрируй, что факторы нарушения сегрегации действительно могут заставить вид эволюционировать к вымиранию.
  4. * Оцени модель эволюции альтруизма Флетчера и Дебели.
    1. Используй модель, чтобы показать, как эффект зелёной бороды может привести к эволюции (некоторой разновидности) альтруизма.
  5. Почему у большинства видов рождается примерно одинаковое количество мужских и женских особей?
    1. Некоторые ответы здесь.
  6. * Сравнение ВВП в разное время требует упоминания стандартной потребительской корзины. Какие сложности могут из-за этого возникать при непосредственном использовании сравнения ВВП?
    1. Некоторые ответы здесь.
  7. ** Оцени модель взрывного экономического роста Рудмана.
  8. * В кооперативной теории игр «ядро» – это множество всех распределений выигрыша агентам, такое, что никакое подмножество агентов не может сформировать коалицию для улучшения своего выигрыша. К примеру, рассмотрим группу из N шахтёров, нашедших большие слитки золота. Предположим, что два шахтёра могут перетащить один слиток, так что выигрыш любой коалиции S – это floor(|S|/2). Если N чётно, то ядро состоит из единственного распределения выигрыша, при котором каждый шахтёр получает ½. Если N нечётно, то ядро пусто (потому что оставшийся без пары шахтёр всегда может сделать лучшее предложение какому-нибудь из остальных). Найди ядра следующих игр:
    1. Игра с 2001 игроком: 1000 из них имеют по одному левому ботинку, 1001 – по одному правому. Пара из левого и правого ботинка может быть продана за $10.
    2. У Мистера A и Мистера B есть по три перчатки. Любые две перчатки составляют пару, которую можно продать за $5.
    3. Ответы здесь.
  9. * Как коалиции должны решать, как разделить полученный выигрыш? Концепция Вектора Шепли даёт один ответ. Убедись, что вектор Шепли имеет свойства линейности, «null player» и «stand-alone test», описанные в статье.

Некоторые важные концепты машинного обучения

Это не столько упражнения, сколько указатели на открытые вопросы на самом краю глубинного обучения.

  1. Законы масштабирования
    1. Почему они выглядят так, как выглядят?
    2. Некоторые ответы здесь and здесь
  2. Запоминание в нейросетях
  3. Двойной спуск
  4. Гипотеза лотерейного билета
  5. Игры с структурой волчка
  6. Масштаб градиентного спуска (см. ещё здесь)
  7. Запросы на исследования от OpenAI
  8. Запросы на исследования от OpenAI 2

Разное

  1. * Заполни свои оценки модели сроков Котры. Кажется ли она тебе осмысленной; изменил бы ты её как-нибудь?
  2. * Попробуй сыграть в реализацию Дебатов от OpenAI.
  3. ** Найди важный концепт в согласовании, который на настоящий момент не очень хорошо объяснён; напиши объяснение получше.
Перевод: 
Максим Выменец
Оцените качество перевода: 
Голосов пока нет