点と線が繋がっていく――
第1話から40日前――
では、実際にどうやってつぶやきを自動的に作り出すというのか。
簡単だ。あらかじめ考えておけば良い。
ベーシックなものといえばアイサツだ。
「こんにちはー」
に大して普通「こんばんわー」なんて返す人などいない。
「こんにちは」に対しては「こんにちは」なのだ。
いわゆるお約束だ。
とりあえず鈴木太郎は思いつくパターンをがんがん投入していった。
だが、それでは足りない。
だが、それだけではつぶやくパターンの数が限られてしまう。
というか、それだったら普通に会話書いた方が鈴木太郎的には楽である。
そんな会話を書くためには電波を受信しないとやってられない。
それに、何日かそんな思いついた会話を繰り返していれば履歴からそれがコンピュータであることは簡単に見破られてしまうだろう。
それは到底人らしい行いとはいえない。健康で文化的な最低限度の生活を行っているようにさえ見えないことだろう。
ならば、大量のパターンを用意するにはどうすれば良いか?
そう、例えば将棋で言うところの棋譜にあたるものがないのだろうか?
かつてプロの棋士に負け続けたコンピュータ様ははるか太古の昔から人間が打ち続けた棋譜を大量に蓄積し、分析することによってあるいは勝てるところまで成長したという。
そう、知識の蓄積は力になる、たとえそれがどのようなものであっても。
ふと、鈴木太郎はついっ――ととぼやかして書かねば――たーを動かしている画面の横を見ると目に留まるものがあった。
そう、タイムラインだ。
タイムラインとは、世界中のつぶやきを集積したものである。
世界のつぶやきが1つのデータの流れとしてみることができる。
タイムラインに流れるその膨大なデータはいわゆるビックデータといって良いだろう。
ビックデータ。
大きなデータ群だ。
それをいかに活用するかがチューリングテストを行う人の腕にかかっている。
だからまず鈴木太郎は、そのなかから日本語のつぶやきから抽出をかけた。
文字が日本語であるかどうかはその文字がUnicodeBlockを使えばどの分類に含まれるかをみればわかる。UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS が漢字、UnicodeBlock.KATAKANAがカタカナ、そして UnicodeBlock.HIRAGANA がひらがなである。
そうして抽出して得られたデータは検索ツール≪なます≫を使い字句解析する。
――予断だがこれらの人工知能用に創られたツールというのは動物や植物の名前を取るものが多い。たとえばOSではペンギン、e-lispを使用する鳥、第六世代第三層ネットワークプロトコルを制御するカメ。面白いところでは病的折衷主義ガラクタ出力装置であるラクダなどというのもあったか。大いに謎である。
さらに鈴木太郎は字句解析したものをコンパイラ=コンパイラを使って構文解析を実行し、パターンの類型の自動化を行っていく。コンパイラ=コンパイラはJava○○だ。早くJava8に対応して欲しい。
これに話題となるキーワードをつっこめば今流行のつぶやきができる。
たとえば、
「今日は日本の総理大臣が暗殺された日だよー」
といった言葉に対してあらかじめパターンとして
「ふぇぇー。%sって何ー」
という言葉を用意しておき、
「総理大臣」という言葉に反応させて、
「ふぇぇー。総理大臣って何ー」
などと答えさせることや、「暗殺」言葉に反応させて、
「うわ、暗殺って怖いー」
などと答えさせることができる。
だが、それによって作られる文章は大抵の場合、めちゃくちゃだ。
たとえば、
「今日は日本の総理大臣が暗殺された日だよー」
といった言葉に対して、
「うわー。%sってめっちゃええじゃん」
という言葉を選んでしまうと、
「うわー。暗殺ってめっちゃええじゃん」
などというとんちんかんな受け答えができあがってしまう。
それもそうだろう。コンピュータに感情なんてないのだから。
だけれどもそのコンピュータのメッセージを読んだ人間は違う。
コンピュータが言葉を理解しているわけではないが、それなりの構文でそれなりに喋れば人は相手を想像し、こうであろうと感情を勝手に理解させる技法だ。
会話を真に理解していなくとも、意味があるように見せてしまえば相手が勝手に類推して理解をしてくれる。
だから変な受け答えに対しても、
「今日は日本の総理大臣が暗殺された日だよー」
「うわー。暗殺ってめっちゃええじゃん」←これが回答だ。
「いや、よくないだろ」
などと文章が淀みなく続いていく。
それがチューリングテストの中の一つ、人工”無”能と呼ばれる分野である。




