Максимизатор скрепок — различия между версиями

Материал из Вики LessWrong.ru
Перейти к: навигация, поиск
(Добавила абзацы про инструментальную конвергенцию и тезис ортогональности. И ссылку на вики-страницу про тезис ортогональности)
Строка 7: Строка 7:
  
 
Эксперимент впервые был представлен Ником Бостромом в 2003 году в качестве иллюстрации опасности создания AGI без правильного согласования с человеческими ценностями. Скрепки были намеренно выбраны как объект для максимизации количества, так как это крайне маловероятный сценарий.
 
Эксперимент впервые был представлен Ником Бостромом в 2003 году в качестве иллюстрации опасности создания AGI без правильного согласования с человеческими ценностями. Скрепки были намеренно выбраны как объект для максимизации количества, так как это крайне маловероятный сценарий.
 +
 +
[[Тезис ортогональности|'''Тезис об Ортогональности''']] утверждает, что в существовании разумного [[Агент|агента]], преследующего какую-либо цель, нет ничего невозможного и единственной сложностью в его создании является количество ресурсов, требующихся для этого. Поэтому вероятность появления Сильного Искусственного Интеллекта с ценностями, чуждыми человеческим реальна. При этом, кажущееся интуитивно верным утверждение о том, что кто-то настолько "умный" не может ставить своей целью что-то настолько "глупое" как создание скрепок. Однако Ник Бостром пишет, что "почти любой уровень интеллекта совместим с почти любыми конечными целями", следовательно, у СИИ могут быть самые разнообразные цели, включая глупые.
 +
 +
Тезис об '''Инструментальной Конвергенции''' же гласит, что даже если цели у Сильных Интеллектов могут радикально различаться, одинаковые инструментальные причины породят множество похожих промежуточных целях. В отношении Максимизатор Скрепок это значит, что он, являясь СИИ, будет стараться взять под контроль окружающую материю и пространство, а также предотвращать свое отключение, что схоже со многими другими сценариями, включающими СИИ.
  
 
==Альтернативные формулировки==
 
==Альтернативные формулировки==
Строка 17: Строка 21:
  
 
Еще одной вариацией иллюстрации проблемы внутреннего согласования является Максимизатор Счастья. Например в работе [https://intelligence.org/files/AIPosNegFactor.pdf Artificial Intelligence as a Positive and Negative Factor in Global Risk] [[Юдковский,_Элиезер|Юдковский]] пишет о сценарии, где ИИ меняет мозг программистов, заставляя их чувствовать счастье от процесса написания кода. Или ИИ, натренированный распознавать счастье по признаку улыбки мог бы [https://www.lesswrong.com/posts/PoDAyQMWEXBBBEJ5P/magical-categories наполнить галактику крошечными улыбающимися лицами].
 
Еще одной вариацией иллюстрации проблемы внутреннего согласования является Максимизатор Счастья. Например в работе [https://intelligence.org/files/AIPosNegFactor.pdf Artificial Intelligence as a Positive and Negative Factor in Global Risk] [[Юдковский,_Элиезер|Юдковский]] пишет о сценарии, где ИИ меняет мозг программистов, заставляя их чувствовать счастье от процесса написания кода. Или ИИ, натренированный распознавать счастье по признаку улыбки мог бы [https://www.lesswrong.com/posts/PoDAyQMWEXBBBEJ5P/magical-categories наполнить галактику крошечными улыбающимися лицами].
 +
 +
  
 
==Другие материалы по теме==
 
==Другие материалы по теме==
Строка 24: Строка 30:
 
* [https://ru.wikipedia.org/wiki/Инструментальная_сходимость Инструментальная сходимость] - статья в Википедии
 
* [https://ru.wikipedia.org/wiki/Инструментальная_сходимость Инструментальная сходимость] - статья в Википедии
 
* [https://educ.wikireading.ru/hCl7qYdvhn Инструментальная конвергенция] - глава книги Ника Бострома "Искусственный интеллект [Этапы. Угрозы. Стратегии]" об Инструментальной Конвергенции (Сходимости)
 
* [https://educ.wikireading.ru/hCl7qYdvhn Инструментальная конвергенция] - глава книги Ника Бострома "Искусственный интеллект [Этапы. Угрозы. Стратегии]" об Инструментальной Конвергенции (Сходимости)
 +
* [[Тезис ортогональности|Тезис Ортогональности]]
 +
 +
[[Категория:AI Safety]]

Версия 01:20, 27 ноября 2023

Максимизатор Скрепок — гипотетический искусственный интеллект, чья функция полезности зависима от количества существующих скрепок. Скрепки (канцелярские) используются как пример малоценного для человечества объекта, который, однако, в данном примере, является высшей ценностью для чуждого нам интеллекта. Максимизатор Скрепок это канонический мысленный эксперимент, который показывает, как недостаточно хорошее согласование ценностей Сильного Искусственного Интеллекта (СИИ) с человеческими может привести к катастрофическим последствиям и стать экзистенциальным риском. В оригинальном сценарии Максимизатор Скрепок не имеет самоцели вредить людям, но делает это по мере необходимости на пути к своей цели.

Классическая формулировка

Допустим, у нас есть Сильный Искусственный Интеллект, единственной целью которого является создание максимально возможного количества скрепок. Такой ИИ быстро придет к выводу, что отсутствие существования людей предпочтительнее их существования. Люди могут отключить Максимизатор Скрепок и тогда он не сможет производить скрепки. К тому же, в людях содержится множество атомов, из которых можно сделать скрепки. Предпочтительный сценарий будущего для такого ИИ — будущее, где есть множество скрепок, но нет людей.

Эксперимент впервые был представлен Ником Бостромом в 2003 году в качестве иллюстрации опасности создания AGI без правильного согласования с человеческими ценностями. Скрепки были намеренно выбраны как объект для максимизации количества, так как это крайне маловероятный сценарий.

Тезис об Ортогональности утверждает, что в существовании разумного агента, преследующего какую-либо цель, нет ничего невозможного и единственной сложностью в его создании является количество ресурсов, требующихся для этого. Поэтому вероятность появления Сильного Искусственного Интеллекта с ценностями, чуждыми человеческим реальна. При этом, кажущееся интуитивно верным утверждение о том, что кто-то настолько "умный" не может ставить своей целью что-то настолько "глупое" как создание скрепок. Однако Ник Бостром пишет, что "почти любой уровень интеллекта совместим с почти любыми конечными целями", следовательно, у СИИ могут быть самые разнообразные цели, включая глупые.

Тезис об Инструментальной Конвергенции же гласит, что даже если цели у Сильных Интеллектов могут радикально различаться, одинаковые инструментальные причины породят множество похожих промежуточных целях. В отношении Максимизатор Скрепок это значит, что он, являясь СИИ, будет стараться взять под контроль окружающую материю и пространство, а также предотвращать свое отключение, что схоже со многими другими сценариями, включающими СИИ.

Альтернативные формулировки

Максимизатор Завитков — основным отличием является максимизация не канцелярских скрепок, а молекулярных структур, по форме напоминающих скрепки.

Эта формулировка сейчас используется в цепочке на Lesswrong.com. Этот подход был применен, так как производство канцелярских скрепок само по себе имеет смысл, и множество людей было введено в заблуждение относительно сути проблемы в эксперименте. Создавалось ощущение, что производство скрепок было изначальной задачей ИИ, то есть иллюстрируемой проблемой являлась постановка задачи. Юдковский же утверждает, что иллюстрируемой проблемой является внутреннее согласование и изначальный сценарий включал постановку иной изначальной цели для ИИ. Производство же скрепок должно было выглядеть произвольной с точки зрения людей целью, которую поставили внутренние алгоритмы ИИ.

Максимизатор счастья — Сильный Искусственный Интеллект, чьей задачей является максимизация количество счастья во Вселенной.

Еще одной вариацией иллюстрации проблемы внутреннего согласования является Максимизатор Счастья. Например в работе Artificial Intelligence as a Positive and Negative Factor in Global Risk Юдковский пишет о сценарии, где ИИ меняет мозг программистов, заставляя их чувствовать счастье от процесса написания кода. Или ИИ, натренированный распознавать счастье по признаку улыбки мог бы наполнить галактику крошечными улыбающимися лицами.


Другие материалы по теме