可愛い女の子が出現したら何を話せば良いのか?
第1話から31日前――
前話から2時間後――
そして話す言葉の内容も重要だ。
目標としているのは某人気小説家サイトのヒロインで、喋れば人気が恋の滝登りがごとく昇竜拳する女の子なのである。
ここは某人気小説サイトのデータから推論をするべきだろう。
まずは某人気小説投稿サイトが公開しているAPIを用い、鈴木太郎は使用する文字の頻度を調べた。
文字ランキング(78196638字)
の (2905542字/78196638字)
い (2904097字/78196638字)
た (2159566字/78196638字)
な (2109579字/78196638字)
て (2098643字/78196638字)
に (2076034字/78196638字)
は (1820601字/78196638字)
る (1756778字/78196638字)
し (1751364字/78196638字)
っ (1663108字/78196638字)
と (1640303字/78196638字)
が (1622710字/78196638字)
か (1622625字/78196638字)
を (1586499字/78196638字)
で (1402094字/78196638字)
う (1279683字/78196638字)
だ (1186773字/78196638字)
ら (1132636字/78196638字)
れ (1107416字/78196638字)
も (1003850字/78196638字)
しかし、あまり意味はなさそうだ。
並べると「のいたなてにはるしっとがかをでうだられも」となる。
何言っているのかさっぱり分からない。
読み取れるのは「――へ」を除く「てにをは」が上位に来ていることくらいか。「た」「だ」は文末だろう。なんで「い」が多いのかはさっぱり分からない。
字句解析、構文解析よりは意味がないことはわかっているが、だからといって無視するわけにもいかず、誤差程度の低評価値として評価関数には組み込んでおこう。
さて、文字では有意な意味は得られなかったが、であるならば単語であればどうだろう。
単語ランキング(2字以上)
自分 (53873回/6092887回)
言葉 (39755回/6092887回)
彼女 (34928回/6092887回)
出来 (34164回/6092887回)
魔法 (30005回/6092887回)
世界 (29321回/6092887回)
二人 (26383回/6092887回)
人間 (23957回/6092887回)
本当 (22985回/6092887回)
部屋 (22864回/6092887回)
相手 (21257回/6092887回)
魔力 (21227回/6092887回)
場所 (20425回/6092887回)
時間 (19377回/6092887回)
魔物 (19001回/6092887回)
必要 (18469回/6092887回)
大丈夫 (17044回/6092887回)
存在 (16784回/6092887回)
表情 (16394回/6092887回)
様子 (16387回/6092887回)
ここはやはり某人気小説家サイトである。魔法とか中二な言動が多いが、人気小説としてのし上がっていくには積極的に使って生きたい単語として評価関数には組み込んでいこうと鈴木太郎は心に誓った。
しかしこれ、まとめるとどうなるのだろうか。
「自分の小説内のチートという言葉一つでいーちゃんという彼女が出来た鈴木太郎は、まるで魔法のような2次元の世界でGMと九藤鳴子という二人の人間を本当に部屋に拉致監禁した。鈴木太郎の相手となる彼女らは魔力で時間と場所を固定されている。魔物のように襲い掛かる鈴木太郎に、『このシチュエーションって必要?』とあきれ顔の表情の九藤鳴子であったが、GMは『大丈夫です。このネタの存在意義は意味不明なシュール系だから』との言葉に、あきらめの表情で観念した様子であった」
鈴木太郎の電波系妄想はとどまるところを知らなかった。
やっぱり意味が分からない。
最後は漢字等の使用比率であろうか。
鈴木太郎は某人気小説投稿サイトが公開しているAPIを使いさくさくと調べていく。
人気の小説であれば含有比率もそれなりのものなのであろう。
調べたところ漢字の含有比率は26%程度であることが分かった。
漢字等比率
ひらがな=52% (48643229文字/93106962文字)
カタカナ=*7% (7061158文字/93106962文字)
漢字 =24% (22492251文字/93106962文字)
英数字 =*0% (218292文字/93106962文字)
スペース=15% (14692032文字/93106962文字)
インターネットで調べたところによれば約3割であったことからそれよりも6ポイントほど低い。
それはより読みやすくした結果であるのであろう。
鈴木太郎はその他さまざまな要素を人工無能の評価関数として学習、そして調教を図っていくことにした。
さらに機転の利いた受け答えをさせるには過去の情報が必要だが、そちらはフリップフロップ回路のように情報がループするような機構の記憶をニューラルネットワーク上の数値で持たせることで対応した。
「アウトプットの自動生成はあたりまえとして、全体的にインプットも自動生成、学習もさらに自動でしていく方向にすると面白いか。そうなるといろんなことに関心を持たせてさらなる飛躍ができることも可能になるに違いない」
鈴木太郎は、いーちゃんがある程度会話ができるようになった段階で、読み込ませるデータや出力の形式などを徐々に拡大させていった。




