Вот два разных пути, как ИИ может оказаться недружественным:
(Выскажу очевидное: пожалуйста, не пытайтесь заставить свой ИИ стремиться к «счастью». Вы в долгосрочной перспективе скорее хотите что-то вроде CEV, а в краткосрочной я очень рекомендую целиться пониже, в поворотное действие.)
В обоих случаях, ИИ (во время обучения) ведёт себя похоже на то, как если бы он пытался сделать людей счастливыми. ИИ, описанный в (1) недружественный, потому что оптимизирует неправильный концепт «счастья», который соответствует вашему, пока ИИ слаб, но расходится с ним в разных крайних случаях, которые важны, когда ИИ силён. А ИИ, описанный в (2) на самом деле вообще никогда не пытался стремиться к счастью. Он следует некоторой смеси целей, которые лишь коррелировали с целью обучения, балансировали друг друга примерно там, где вам было надо, но развёртывание (и последующий рост способностей) этот баланс нарушило.
Замечу, что этот список «того, что может пойти не так, когда при обучении кажется, будто ИИ оптимизирует счастье» не исчерпывающий! (Например, представьте ИИ, который стремиться к чему-то совсем другому, но знает, что вы его выключите, если он не будет выглядеть так, будто он оптимизирует счастье. Или ИИ, чьи цели сильно меняются по мере того, как он рефлексирует и самомодифицируется.)
(Эти пункты даже не вполне взаимоисключающие! Вы можете получить оба сразу, например, ИИ, который тратит большую часть ресурсов вселенной на заполучение памяти и энергии для совсем левых целей, а маленькую часть – на обдолбанные оболочки людей.)
Решения этих двух проблем довольно различны. Чтобы разрешить проблемы из (1), вам надо выяснить, как заставить представление понятия «счастья» в ИИ соответствовать тому понятию, которое вы надеялись передать даже в крайних экстремальных случаях, к которым он получит доступ после развёртывания (когда ему надо будет стать достаточно мощным, чтобы осилить некоторое поворотное действие, которое вы осилить не можете, так что он должен быть и достаточно способным, чтобы получить доступ к экстремальным крайним случаям, к которым у вас доступа нет).
Чтобы разрешить проблему из (2), вам надо выяснить, как заставить ИИ ценить конкретное понятие, а не запутанную кучу, которая, так уж получилось, во время обучения хорошо балансируется у вашей цели («счастья»).
Я подчёркиваю это разделение, потому что мне кажется, что многие либо их неуместно склеивают, либо одну из них не замечают. Например, мне кажется, что в “Задаче согласования с точки зрения глубинного обучения” они собраны вместе под названием «неправильное обобщение целей» (goal misgeneralization).
(Я думаю, термин «неправильное обобщение» тут вводит в заблуждение применительно к любой из двух проблем, впрочем, к (2) он подходит ещё хуже, чем к (1). Приматы не «неправильно обобщают» понятие «совокупной генетической приспособленности», становясь умнее и изобретая презервативы. У них на самом деле изначально не было этого понятия, чтобы его неправильно обобщать. А те обрывки понятия, которые были, не были тем, что приматы оптимизировали.)
(Другими словами: не было такого, чтобы приматы оптимизировали приспособленность к своему окружению, а потом, обнаружив себя в другом окружении с вредной вкусной едой и презервативами, «неправильно обобщили». «Согласованное» поведение во время «обучения» сломалось в более широком контексте «развёртывания», но не потому, что приматы нашли какой-то странный способ расширить существующее понятие «совокупной генетической приспособленности» на более широкую область. Их оптимизация просто изначально не было соединена с внутренним представлением «совокупной генетической приспособленности».)
Меня тревожит, что смешав эти проблемы вместе становится куда легче ими легкомысленно пренебречь. Например, я встречал многих людей, которые считали, что проблема (1) – это «проблема навыков»: уж точно, если ИИ будет умнее, он будет знать, что мы имели в виду под «сделай людей счастливыми». (Вдвойне, если первые трансформативные ИИ будут основаны на языковых моделях! Ведь GPT-4 уже сейчас может вам объяснить, почему накачивать изолированных людей опиатами – не должно считаться как «счастье».)
И да: ИИ, достаточно способный, чтобы быть трансформативным, почти точно будет достаточно способным, чтобы выяснить, что люди имеют в виду под «счастьем», и что обдалбывание всего человечества, вероятно, не подходит. Но, как и всегда, проблема в том, чтобы ИИ было не наплевать. Сложность не в том, чтобы у где-то у него внутри него было какое-то понимание, что люди имеют в виду под «счастьем».1 Проблема в том, чтобы то, к чему ИИ стремится было этим понятием.
В принципе, вполне возможно вознаграждать ИИ, когда он делает людей счастливыми, отдельно научить что-то наблюдать мир и выяснять, что люди имеют в виду под «счастьем», и получить в итоге, что выученное-как-цель-оптимизации понятие окажется совершенно иным (в крайних случаях) от явного понимания ИИ того, что люди имеют в виду под «счастьем».
Да, это возможно даже несмотря на то, что вы в обоих случаях использовали слово «счастье».
(И это ещё допуская, что не будет проблем, описанных в (2). Скорее всего по умолчанию у ИИ не будет одного чистенького понятия альтернативного-«счастья», к которому он будет стремиться вместо «счастья». Вероятнее тысяча осколков желаний или что-то в этом роде.)
И меня несколько беспокоит, что если мы не обозначим явно различия этих проблем, то люди будут смотреть на весь кластер и говорить «а, это просто недостаток навыков; уж конечно, когда ИИ научится лучше понимать наши человеческие концепты, это её решит» или что-то в этом роде.
(Мне кажется, что это уже происходит по мере того, как люди приходят к вполне верному пониманию, что LLM, скорее всего, неплохо овладеют многими человеческими понятиями.)