Вы здесь

Главные вкладки

Безопасность СИИ с чистого листа. Введение

Ричард Нго

1.Безопасность СИИ с чистого листа

Это первая из шести частей доклада, под названием «Безопасность СИИ с чистого листа», в котором я попытался собрать воедино как можно более полные и убедительные аргументы, почему разработка СИИ может представлять экзистенциальную угрозу. Причина доклада – моя неудовлетворённость существующими аргументами о потенциальных рисках СИИ. Более ранние работы становятся менее актуальными в контексте современного машинного обучения; более недавние работы разрозненны и кратки. Изначально я хотел лишь пересказывать аргументы других людей, но, в процессе написания доклада, он становился всё больше представляющим мои собственные взгляды, и менее представляющим чьи-то ещё. Так что хоть он и покрывает стандартные идеи, я думаю, что он и предоставляет новый подход рассуждений о СИИ – не принимающий какие-то предшествующие заявления как данность, но пытающийся выработать их с чистого листа.

Несмотря на это, ширина темы, которую я пытаюсь рассмотреть, означает, что я включил много лишь торопливо обрисованных аргументов, и, несомненно, некоторое количество ошибок. Я надеюсь, что продолжу полировать этот доклад, и приветствую помощь и обратную связь. Я также благодарен многим людям, уже высказавшим обратную связь и поддержку. Я планирую перепостить некоторые самые полезные комментарии на Alignment Forum, если получу разрешение. Я выложил доклад шестью частями; первая и последняя – короткие обрамляющие, а четыре посередине соответствуют четырём предпосылкам нижеизложенного аргумента.

Безопасность СИИ с чистого листа

Ключевое беспокойство, мотивирующее технические исследования безопасности СИИ – то, что мы можем создать искусственных автономных интеллектуальных агентов, которые будут гораздо умнее людей, и которые будут преследовать цели, конфликтующие с нашими собственными. Человеческий интеллект позволяет нам координировать сложные общественные структуры и создавать продвинутые технологии, и таким образом контролировать мир в куда большей степени, чем любой другой вид. Но ИИ однажды станут способнее нас во всех типах деятельности, которыми мы обеспечиваем и сохраняем этот контроль. Если они не захотят нам подчиняться, человечество может стать лишь вторым по могуществу «видом» и потерять возможность создавать достойное ценное будущее.

Я называю это аргументом «второго вида»; я думаю, что это правдоподобный аргумент, который нужно воспринимать очень серьёзно1 Однако изложенная выше версия полагается на несколько нечётких концепций и соображений. В этом докладе я покажу настолько детальное, насколько смогу, изложение аргумента второго вида, подсвечивая аспекты, по поводу которых я всё ещё в замешательстве. В частности, я буду защищать версию аргумента второго вида, заявляющую, что, без согласованного усилия по предотвращению этого, есть значительный шанс, что:

Мы создадим ИИ куда умнее людей (т.е. суперинтеллектуальные).
Эти ИИ будут автономными агентами, преследующими высокомасштабные цели.
Эти цели будут несогласованы с нашими; то есть, они будут направлены на нежелательные по нашим стандартам исходы и будут противоречить нашим целям.
Разработка таких ИИ приведёт к тому, что они получат контроль над будущим человечества.

Хоть я и использую много примеров из современного глубокого обучения, этот доклад так же относится и к ИИ, разработанным с использованием совершенно иных моделей, обучающих алгоритмов, оптимизаторов или режимов обучения, отличающихся от тех, что мы используем сегодня. Однако, многие аргументы больше не будут актуальны, если поле ИИ перестанет быть сосредоточено на машинном обучении. Я также часто сравниваю разработку ИИ с эволюцией человеческого интеллекта; хоть они и не полностью аналогичны, люди – это лучший пример, который у нас есть, для мыслей об обобщённых ИИ.

1. В своей недавней книге «Совместимость. Как контролировать искусственный интеллект» Стюарт Рассел также называет это «проблемой гориллы».

Перевод:

Максим Выменец

Ссылка на оригинал:

AGI safety from first principles: Introduction

Оцените качество перевода:

Короткая ссылка сюда: lesswrong.ru/1169