11/16

【第11章】日本語データセット

　LLMの学習が収束しない。解決策は意外なところから現れた。

「英語ではなく、生成AIの活用が遅れた国の言語の情報だけ使えばいいのではないか？」

「そうか。その手があったか！」

　そうすれば、人間の生み出した生の多様性を含んだデータセットが利用できる。だが、そう都合の良い言語があるだろうか。生成AIではなく、人間が生み出した生の言葉で、しかもあらゆるジャンルの情報がデータになっていることが条件だ。

　諒一には思い当たる節があった。日本では生成AIの利活用がなかなか立ち上がらなかったことを。そして、インターネット黎明期から日記やブログ、匿名掲示板としてあらゆるジャンルの情報がネットにアップされていたことを。

　早速日本語に限定したデータセットが構築され、新たなボランティアが募られた。

　続く10日でLLMの学習は見事に完了した。

　人類AI－異星の知性が人類とコミュニケーションするために必要な言語、知識、思考が詰め込まれたAIが完成した。パラメータ数520B。科学技術、軍事、疾患といった、人類の弱点を知らせかねない情報を徹底的にフィルタして学習された、雄弁で、しかし余計なことはしゃべらない人類史上初の電子全権大使だ。

　人類AIを彼らにどう届けるかが問題だった。

　推論エンジンは前回同様に紙に印刷する。アルファベットで記述、印刷したプログラムを理解しエミュレートできることは判明している。

「だが、パラメータファイルはそうはいかない」

　諒一らのチームは頭を抱えた。

　膨大な数値の羅列をまさか紙に印刷して渡すわけにもいかない。

「一体何百トンになることやら」

　議論の結果、複数のメディアで送り付けることになった。

「ケリー、パラメータファイルをDVDに焼いてくれ。暗号化は無し、彼らが読みやすいようにシンプルに片面１層で」

「トーマスのチームはLTOテープを頼む。もちろん非圧縮だ」

　ディスクの表面に物理的に情報を刻む光ディスクや、端から順に磁気シグナルを読み出すテープメディアなら、高度の技術を有する彼らなら読み出し装置がなくとも情報を取り出せるだろう。

　だが、本当にこれらの情報を読み取り、生成AIとして再構成できるだろうか。

　諒一は不安をイベッタに漏らした。

「人間は、言葉が通じない相手は、自分より知性が劣っていると考えがちなの」

　異文化コミュニケーションの専門家としての回答だ。

「大丈夫。きっと彼らにとっては、古文書を読み解くようなものよ」

　メディアが揃った。

　人類AIの引き渡しには不測の事態が生じる可能性がある。諒一は現地で指揮を執ることとなった。

　アリエスに向けての出発間際、娘の絵里からメッセージが届いた。

「パパ頑張って。お土産はエイリアンの超技術で」

　本気とも冗談ともつかないメッセージだったが、今の諒一にとってはこれ以上ない心強い励ましだった。