小説ジェネレータ「小説家になろう」
きみは今、投稿小説Webサイトを開き、ひとつの小説を読んでいる。
投稿小説のように見せかけているが、このサイトにある小説はすべて (この小説も含む)、コンピュータによって自動生成されたものだ。
コンピュータといっても、きみのパソコンの数億倍の処理能力をもつ、ちょっとしたスーパーコンピュータだ。
きみの背丈を超えるくらいの棚、そこに大判の本のような電子回路基板がたくさん挿されている。その基板一枚が1台の高性能コンピュータである。ひとつの棚には64台のコンピュータが挿されている。このような棚が 256個並んで、空調や非常電源を完備したデータセンターに置かれている。
初期バージョンでは、小説生成ソフトウェアの仕組みは単純だった。
形態素解析・多重マルコフ連鎖・遺伝的アルゴリズムだ。
生成の元となるデータは、人間が書いた文章である。
1992年、高エネルギー加速器研究機構が日本初のWebサイトを設置した。それから数十年にわたり、多数の人間がブログやSNSに文章を書き込んできた。日本語の文章だけでも、その総量は数ゼタバイトにのぼる。
これら人間が書いた文章を、形態素解析する。
文章を単語で区切り、品詞を見分ける処理だ。
この小説自動生成システムでは特に、あるN個の単語が続いたあと、どんな単語がどんな確率で出現するか、という表を作る。
この表を使って、多重マルコフ連鎖によって文章を自動生成する。
乱数を発生し、形態素解析で作った確率の表に当てはめて、単語を並べていく。
そして遺伝的アルゴリズム。
最適なパラメータを求めるために、生物の自然淘汰を模した処理を行う。
小説生成のパラメータを生物個体とみなし、この個体が書いた小説の評価ポイントとブックマーク数によって、評価関数の値を求める。この値が低い個体は死滅し、値が高い個体は生き残る。生き残った個体どうしで子孫を作る。子孫は親のパラメータを合成して作られる。生き残りと子孫は、次の世代の小説を生成する。
これを繰り返す。
世代を経るごとにパラメータが洗練され、良い小説ができるはずだ。
しかし、以上のしくみがうまくいったのは、ごく短い期間だけだった。
似たような内容の、似たような文体の小説ばかりが生成されるようになったのだ。
似たような内容になるのは、遺伝的アルゴリズムゆえの問題だ。
高い評価を得たパラメータは、多くの子孫を残す。しかし高評価がつく作品はひと握りだ。ほんの数体の親パラメータから大量の子孫が生まれ、コンピュータのメモリを埋め尽くす。似たようなパラメータ遺伝子は、似たような小説を生成する。
遺伝子多様性が失われ、異世界転生・ファンタジー/VRMMO・チート・ハーレム、という小説ばかりになった。
似たような文体という問題は、誰かが書いた文章を元にしているのが原因だ。元データの単語出現確率を使うので、どうしても、元の文章に似た文体になる。
開発者たちは問題を解決しようと試行錯誤した。
遺伝的アルゴリズムに突然変異の概念を導入した。進化が停滞せず、しかも遺伝子異常で絶滅しない、最適な突然変異確率を求めた。
パターン認識によって元データをジャンル分類した。読書嗜好パラメータを追加し、この個体はこんなジャンルの文章を多く読んできた、という偏りを持たせた。これによって個体ごとに文体スタイルにバリエーションが出る。
この改造は一定期間の成功を収めたが、また読者は飽きた。
改良する。飽きられる。改良する。飽きられる。
これが何度も繰り返された。
数年前にハードウェアのアップグレードがあり、そのとき小説生成プロセスにも大幅な変更があった。
多重マルコフ連鎖は廃止され、もっと複雑な手法が採用された。
人間の脳をシミュレーションするのだ。
100億個のニューロンで構成されたネットワーク、シナプス間の神経伝達物質濃度を、ソフトウェアでモデル化する。
最新のハードウェアでは、このような脳を数万個も動かし、遺伝的アルゴリズムを適用できる。
シミュレートされた脳に対して、視覚や聴覚などの感覚信号を入力する。
感覚信号は架空のものだ。アーカイブ上のデータをもとに、21世紀初頭の生活を再現した。その生活の中で受けるであろう感覚信号を作り出し、脳に与える。
よって、シミュレートされた脳はこう信じ込んでいる。
自分は21世紀初頭に生きている人間だ。日常生活しつつ気が向いたら小説を書き、それを小説投稿Webサイトにアップロードしている。…と。
そのひとつがきみだ。
きみという脳シミュレーションプロセスは、評価ポイントを稼ぎ、生き残ることができるだろうか。