Я не понимаю, чего вы так зациклились на этом старкрафтовском боте. Старкрафтовский бот не пишет текстов.
Возвращаясь же к теме ботом сгенерированных текстов, мне сейчас не найти ссылку, но была статья, где мужик разбирал примеры текстов, и находил в них ошибки вида: в одном месте текст говорит о происходившем вчера, в другом месте ссылаясь на те же события, он говорит о них будто они происходили в понедельник, который был три дня назад.
То есть на данный момент, это не такая проблема, достаточно, читая текст, уделять внимание деталям и выискивать такие мелкие несоответствия. Это не так просто, как может показаться: мне допустим было сложно вылавливать эти вещи, потому что в контексте приведённых текстов мой мозг отбрасывал эти детали как несущественные, то есть я не замечал сами детали, и уж тем более не мог их соотнести друг с другом и заметить противоречия. Но это дело привычки, можно научить себя обращать внимание на мелочи.
Но это временно. Если посмотреть на текущие достижения AI с точки зрения психологии, то можно увидеть два плюс-минус независимых процесса развития AI. Во-первых, это развитие восприятия -- в первую очередь в зрительной и слуховой модальности. Нейросетки всё лучше и лучше обрабатывают кучу пикселей, делая на основании них выводы о наличии каких-то объектов и о том, что объекты обладают какими-то свойствами. Второй процесс -- это всё более и более продвинутые потомки Eliza, которые жонглируют словами получая грамматически выверенный бред. Этот их бред со временем становится всё лучше и лучше, его всё сложнее идентифицировать как бред.
Но фишка в том, что эти два процесса сойдутся рано или поздно. Когда искуственное восприятие начнёт идентифицировать в пикселях не только объекты, но и действия, оно будет видеть в пикселях не только существительные, но и глаголы. И вот тут, внезапно, у AI появятся две модели ситуации: словесная и визуальная. Был такой дядька -- Веккер, -- нам на психфаке все мозги им проели на первом курсе, потому что профессор читавшая общую психологию была его ученицей, а мужик, прежде чем свалить в Германию в 90-х, в общем нехило так мозгами подумал о том, как работают мозги. Ну так вот, он утверждал, что для того, чтобы мышление работало, необходимо наличие как минимум двух моделей реальности. Я не совсем уверен, что это так уж необходимо-необходимо, но я вижу как это реально может помочь.
Когда у меня есть две модели для одного явления, я могу в рамках одной модели генерировать предсказания, а потом эти предсказания отображать в другую модель, и в этой другой модели они могут либо превратиться в полнейшую нелепицу, либо подтвердиться. Нелепица -- это гораздо более интересно, потому что это открывает просторы для подстраивания моделей и отображения между ними. Например, "яблоко упало с Ньютона на яблоню" -- в грамматической модели это вполне себе законная фраза. Но если мы возьмём визуальную модель реальности и попытаемся представить себе это, то... что? У Ньютона на голове лежало яблоко, рядом с Ньютоном лежала срубленная яблоня, и яблоко скатилось с головы Ньютона на яблоню? Как-то очень маловероятно, и более того, если мы этот плод воображения, порождённый фразой, попробуем обратно преобразовать в слова (построить прообраз, то есть множество фраз, которые описывают ситуацию), то в этом прообразе результат "яблоко упало с Ньютона на яблоню" -- крайне маловероятный, скорее мы получим что-то типа "яблоко скатилось с головы Ньютона и упало на бревно". Или может быть Ньютон в бессознательном состоянии лежал на крыше, у него на груди лежало яблоко, очередной толчок землетрясения скинул яблоко, оно скатилось с Ньютона на крышу, прокатилось по крыше и упало на яблоню? Но в этой ситуации вероятнее было бы услышать что-нибудь в стиле, "яблоко скатилось с Ньютона, прогрохотало по крыше и упало на яблоню". Как-то так выходит, что наша фантазия не может сочинить ситуацию, описание которой не будет с большой вероятностью содержать глагола "скатилось". Тут у меня уже вылезло новое предсказание о звуке яблока, катящегося по крыше, и мне кажется странным, что этот звук не упомянут в исходной фразе. Может Ньютон лежит на самом краю крыши, и вот-вот свалитс сам? Да и вообще эта исходная фраза подразумевает какую-то пассивность Ньютона, то есть его неспособность повлиять на события: то ли он балансировал яблоко на голове и не справился, то ли он в бессознательном состоянии был, то ли ещё что-то происходило, что он потерял контроль и поэтому яблоко обрело субъектность и свободу воли. Но это мы начинаем видеть, когда начинаем попытки визуализировать фразу -- мы строим одну воображаемую визуализацию за другой, потом сравниваем их и ищем в них общее. Чуете, да? Мы выходим на новый уровень абстракции, мы переселяемся в пространство, в котором мы оперируем не яблоками и Ньютонами, а различными интерпретациями фразы, и эти интерпретации имеют свойства типа "визуальное представление ситуации", "текстуальное представление ситуации", "вероятность данного текстуального представления для данной ситуации" и тп. И это становится возможным только тогда, когда у нас есть хотя бы два способа описать ситуацию -- в данном случае это 1) психический образ в зрительной и слуховой модальностях; 2) текстовое описание.
Всё это приводит к тому, что мы, услышав фразу "яблоко упало с Ньютона на яблоню" начинаем подозревать подвох -- это может быть шутка юмора, или упущенные нами детали контекста (архивное видео падения яблока на Ньютона было проиграно задом-наперёд?), мы начинаем оглядываться, задавать вопросы, и пытаться устранить несоответствия между моделями либо фикся представление конкретной ситуации в рамках моделей, либо фикся сами модели, либо фикся правила отображения из модели в модель. Мы получаем возможность сравнивать модели. Не только конкретные ситуации, но теории их описывающие. Мы можем сравнить ньютоновскую гравитацию с гравитацией Эйнштейна и увидеть сходства и различия. Или их обе мы можем сравнить со своей интуицией.
И как-то так получается, что какой бы конкретный процесс мышления/познания реальности мы не разбирали, всегда в нём фигурируют две модели реальности, вступающие таким образом в противоречие. Может быть вступающие в противоречие в смысле вероятностной логики.
Я это к тому, что когда искусственное восприятие с искусственным речевым центром сойдутся, когда компьютер научится описывать видео словами и генерировать видео по текстовому рассказу, случится следующий взрыв AI. Получится ли в результате general intelligence или нет -- сложно сказать, может быть мы вновь увидим, что психика человека сложнее, чем мы думали и не хватает чего-то ещё. Но в любом случае, мы получим тексты, которые будут содержать в себе гораздо меньше логических неувязок.