息遣いを理解しはじめたAI達

　2020年2月22日。

　猫の日ということでネットで動画を漁っていた筆者は"とある動画"にて衝撃を受ける。

　動画ランキングでもトップに躍り出ていた存在は「猫なんて見ている場合じゃない」とハッキリ言い切れる久々のブレイクスルーとの出会いであった。

　NEUTRINO（歌声合成エンジン）関連の動画である。

　では、このSNS界隈でも一部話題沸騰の恐ろしい存在について、やはりその衝撃度合いからどうしても小エッセイ気味に綴りたくなったので自身の過去の回想録もかねて書いてみることにしよう。

　NEUTRINOとは何かといえば、一言で表すなら音声ライブラリに対して自己学習するプログラムを活用し、学習の果てに人間の歌声をラーニングさせた上で機械音声にて本物の人間とも錯覚しうるクオリティの歌声ライブラリとして成立させ、ソフトウェアとして集約させてたもの……と言えばいいのだろうか。（筆者はこの手の機械音声分野に関しては無知にも程があるので間違ってる可能性あり）

　そしてこの学習プログラムには最近巷でブームとなっているニューラルネットワークが活用されており、ソフトウェア上においても音声データを作成する上で活用されているという。

　ニューラルネットワークというのは簡単に言ってしまえば近年の脳の仕組みを解析していく上で解明されていった人間の脳の仕様を数値化しようとした試みで、その数値化された数式をプログラムとして書き起こしたもの。

　ここ最近は一部大企業（ソフトバンクやアップル、グーグル等）がご熱心であるが、2010年代中盤頃から学習精度の向上が著しく、犯罪防止などのために国外では実際活用されはじめている。

　それこそ近年の学習型AIは"犯罪を起こす直前の人間の顔"というのを、これまで記録されてきた防犯カメラの映像やら何やら数億パターンから読み取って学習した末に犯罪係数というものを冗談抜きで数値化できる段階にまで至っている。

　犯罪抑止の上でこういったAIが活用されるのは、主に前科持ちに対してであるとの事だが、北京市内などでは実際にすでに試験運用が始まっていてディストピアやSF小説もビックリな世界になってきていたりするわけだ。

　日本国内でも実は凶悪犯罪の警察捜査に試験的に運用されているという話もあるものの、詳細は公開されていない。

　テレビ番組などで多少触れられる程度である。

　筆者が関与する分野で公開されているのは、商標審査において試験段階ながらAIにて審査を行わせ、商標審査官の負担を減らそうとする経産省の試みぐらいであろうか。

　一部特許関係雑誌で結果が公表されているが、現時点における経産省が某メーカーとともに作り上げたAIの精度は適切な審査となる割合は6割強で、3割弱ほどは査定を下してはならないものを登録査定扱いとするものであるとの事。

　中国などで活用されている特許・意匠・商標に関してのAIによる審査においての精度は4割強とされることを考えると、AIの精度自体は高い方であると言える。（ただし、あちらの公開データは結構前のもので現時点でどれほどの完成度なのかは一切公開されていないことに注意を要する）

　例えば、とりあえず全部AIに一度チェックさせた上で人間が二重チェックすれば、現段階でも商標審査の速度を大幅に速めることは可能というのが経産省による結論であり、精度は今後正確性を9割程度まで引き上げていく予定であるようだ。

　ミスを起こすのは本当に小さなヒューマンエラーに近いような程度であるらしく、むしろ"人間的"なミスを犯すところにニューロンネットワークの恐ろしさがあるとえる。

　こういった実績を出し始めたものと同様のニューラルネットワークを用いたことでどうなったかというと……

　全く音楽に無頓着の者に聴かせたならば冗談抜きで「人と誤認しかねない」領域に入った機械音声による歌声を大変な苦労要することなく作れるようになったということ。

　それも、早ければ1時間程もあれば、素人でもそこそこ以上のクオリティのものが作れるのである。

　本件において一番驚くべきことが１つ。

　それは歌声として精製できる音声ライブラリの基が「音楽用」ではない事。

　使われているデータの素ともいうべき音声データは元来までは「歌声」には適さないとされてきた「日本語読み上げ用」のものである。（正確には基となったデータを音楽用に魔改造したというのが正しいようだが、詳細は後述する）

　早い話が「音楽用」の音声ライブラリは2月22日を境に「日本語読み上げ用」の音声ライブラリに並ばれることとなってしまったわけだ。

　いや、正直言えばSNSでこの手の技術者や大学教授らが専門家が指摘するように「音楽用」というのはもともと日本語の発音が難しく、

　そいつを人間に近づける調整は容易ではなく専門性すら要求されたことから、「高度な専門性」というものなく手軽に人間並みの歌声を作れるようになったというのは、ブレイクスルー以外のなにものでもない。

　今後「音楽用」の音声ライブラリは状況次第では駆逐されうる。

　そんな状況がにわかに生じ始めた事に個人的には様々な思いが交錯していたりする。

　ここで説明しておきたいのが「音楽用」の音声ライブラリを人に近づけることは現状では不可能なのかといえば「違う」ということだ。（こ(・)こ(・)は(・)重(・)要(・)。SNS内で一部荒れている原因もここに尽きる）

　音楽用の機械音声を利用したソフトウェアが出て数年。

　この界隈を賑わせた「初音ミク」登場以降、不気味の谷を越えた人間音声に近づける試みは各所で行われてきた。

　その結果の１つの集大成としてVOCALOID音声ライブラリにおいては「ぼかりす」といった今回のソフトウェアと類似する技術でより人間に近づけるソフトウェアが存在しているわけだが……

　その「ぼかりす」が登場してしばらくした後、今回と同様の衝撃を受けた領域とほぼ並んでいる歌動画は10年以上前にはすでに出てきており、それが筆者がこの手の技術で衝撃を初めて受けた存在だったりする。

　ニコニコ動画上にて「ぼかんないんです＞＜」なる技術にて公開されている一連の動画群がある。

　この中でも2010年に投稿されたVOCALOID「めぐっぽいど」を利用した「浜崎あゆみ」のカバー曲は「21世紀に入って10年。機械音声もこれほどの領域まできていたのか……」――などと感動を禁じ得ないものであった。

　思えば今回の技術に通じる要素はこの時既に出ていたし、確立されていたのだ。

　機械音声を人間に近づける方法。

　それは「いかに息遣いを再現するのか」――であった。

　従来までに存在した音楽用の機械音声を合成するソフトウェアというのは、人間が常日頃歌う際に絶対に必要とする息継ぎというものが存在しない。

　この結果、すさまじい高速歌唱は可能ではあったものの……

　まあ現物を聴いたことが人ならすぐわかるだろうけど、明らかに「人」ではない何かが人っぽく歌おうとしているものであった。

　その一方でネット掲示板でも盛り上がりを見せた「ぼかんないんです＞＜」ならびに「ぼかりす」の双方は、人間の音声データを徹底的再現しようと試み、時にはデジタルエフェクトまでかけて近づけようとしたものである。

　デジタルエフェクトを併用している理由は簡単で、VOCALOIDでは再現できない領域の音声に人間らしいエフェクトを料理でいうスパイスとして追加する必要性があったため。

　「ぼかりす」の場合はこういった一連の味付けを利用し、「人間を模倣」したサンプリングデータによって誰でも簡単に人間に近い歌声を再現できうるもの……であったわけである一方、

　「ぼかんないんです＞＜」を筆頭とした、とある動画サイトにて「魂実装済」などと付けられる極めて人間に近い歌を披露する動画群というのは、その大半が「手打ちで周波数等を弄って人間に徹底的」に近づけるものであり……

　真面目な話、１つ仕上げるのに数ヶ月を要するような苦労と専門性を必要としたものであったのである。

　ゆえに「並んでいる」ないし「超えている」と称される動画もあるし、ソフトウェア的にもそれだけの力はあるわけだが……

　NEUTRINOというのはニューロンネットワークを利用して自己学習して自分なりに「人間らしさ」というものをあらかじめ学習した状態にて、与えられた曲に対して回答を「これまでにないほどに自然な形で自動的に」示す事ができるという部分が特筆に価するのである。

　それはもはや「ぼかりす」ですらそのまま活用するのでは不可能だった「息遣い」をも再現可能とした模倣となっているのであった。

　その上で従来は1日じゃ100%終わらない作業を簡略化することが可能。

　半日もあればそこそこの腕のある製作者が、ミリオン再生級の存在を作り出すことができる。

　これが革命的なのだ。

　SNSで説明を見る限りでは、従来までの「音楽用」音声ライブラリでは同様の事を施そうにもできないことがわかっている。

　原因はニューロンネットワークにて学習させる際に「こいつ日本語できねえ」と考えて、限界には挑戦するがあきらめてしまう点にあるようだ。

　同様の試みを試したが上手くいかなかったという報告は過去のログを確認する限り存在する。

　まあ筆者が認識する限りにおいては、以前より「音声読み上げソフト」の方が可能性はあったんじゃないかとは思っていたが……やはりそうだったのかといった所である。

　音楽用の音声ライブラリは歌声の模倣を重視しすぎて子音などの読み上げを極めて苦手としていた。

　そもそも彼女らは「日本語のイントネーション」を知らない。

　限界まで近づけて再現する必要性があるのも、「曲」として存在してきた音声データを基に人間のサンプリングデータを重ね合わせたのでは「歌声」しか知らず、文字通り「歌う」ことしかできないものとなっている。

　そのため、「あいうえお」などは得意な一方で、「なにぬねの」あたりの読み上げは基となるデータの影響も大きく、再現する際にボヤけすぎていてきちんと聞き取れない。

　この点が近づけようとして完璧に近づけない原因ではないかという予測は立てていた上で、SNSや掲示板などで個人的に実際に語り合ったりしたこともあった。（素人の立場で）

　ちょうど、VOICEROIDの動画が出始めた頃なので3年から4年ほど前の話であろうか。

　その頃から個人的には、にわかに予感を感じていたのである。

　もっと以前の頃から今日の結果へと結びつく雰囲気があったためだ。

　音声読み上げソフト自体を歌わせる試みは結構以前より存在した。

　古くは2009年。

　もはや11年前にもなる昔には200万再生以上しているような動画が存在する通り。

　（気になる方は「ゆっくり　アンインストール」とでも検索してもらいたい）

　こういった読み上げソフトを歌わせる試みは、作り手からすれば「音階に合わせて読ませればいいだけ」――であるので、専門性は多少必要なれど音楽用よりかは作る上で重労働を必要としないし、そもそも重労働をさせるだけの冗長性も無い。

　この頃の認識というのはこんな感じであったが、動画を見た筆者は「こちらの方が聞き取りやすいな」――とは素直に感じていた。

　そこにVOICEROIDが出てきて、それらを歌わせるような動画が出てからさらに認識が少し変わってくる。

　VOICEROIDというのは今回の技術にも結びつく重要なソフトウェア。

　株式会社エーアイの音声合成ソフトウェアを基にして個人向けとして販売しているもので、従来の読み上げソフトと比較して安価ながらも従来以上に日本語読みを得意としたソフトウェアである。

　ちなみに筆者も一連の読み上げソフトは購入していたりするが、普段何をしているかというと「航空エンジニア」など一連のエッセイや小説を読み上げている仕事に徹している。

　動画を作成して動画配信サイトに出したりするような仕事は与えられていない。

　彼女ないし彼らに与えられているのは、悲しいながらも誤字脱字が多く、何度推敲しても見落とす文章ミスを探り出す役目である。

　同音異語でミスったりすることも多いが、実はいまさらながら補足すると今回のエッセイも含めてどの作品も音声データが裏に存在したりするわけだ。

　需要皆無なので公開すらしていないが、全て「関西弁だったり標準語だったり」で読み上げたものが存在する。

　これらの特徴の１つとしてよく言われるのは「適切」な日本語を読める事。

　従来までのソフトウェアが不得意であった子音の部分に関しても大幅に改善し、人間がしゃべっているほどとまでは行かないが、その領域に近づかせることが可能となった。

　この音声合成ソフトを作る上では「人間の声」そのものを収録し、さらに特定言語に対する音声パターンも記録した上で活用している。

　音声パターンデータが多ければ多いほうが人間らしい発音が可能となっているわけだが、当初「死ね」だったり「クソが」みたいな汚い声は収録されていなかったので不得意であったところ、VOICEROID2になってから収録されたようでこういった発声も違和感なくできるようになった。

　このソフトウェアを構成する上でもっとも重要なのは人間自体の「素」の声を形作る音声サンプリングデータと、パターンデータの２つ。

　素の音声サンプリングデータはその音声そのものの「声色」を作るために必要で、様々な「音階」の声を収録して作り上げていく。

　音声パターンデータはこの手の機械音声が苦手とする微妙な子音やイントネーションのため。

　これらを組み合わせる事で本ソフトウェアはyoutubeでもそれなりの規模の勢力を築くぐらい各所で目にするゲーム実況動画の解説役などとして活用されるほどの人気を博す結果となっているが……

　一連のVOICEROIDを用いた「歌うVOICEROID動画」というのは、違和感こそあれどその聞き取りやすさに定評があり、ここからさらに何か一歩踏み込めるのではないかという話は1年だか2年前ぐらいから盛り上がりを見せている。

　NEUTRINOというのは、まさにその流れの延長線上にて登場したものである。

　しかし、その作り方や内部構成はどうやら「従来のコンポーネント」を殆ど用いていないものであるらしい。

　前述したパターンデータは一切用いていないというのである。

　当初、筆者を含めた多くの人間がコメントを寄せているように「さすが日本語のパターンデータが多数あると歌声の再現度もすごいな」――などと感想を述べていたが……

　作り手の解説を見る限り、この手のパターンデータは一切用いていないことが判明した。

　本ソフトウェアが「音声合成エンジン」といわれるゆえんはこのため。

　製造方法は製作者の話を簡単にまとめる限り下記のようになっている。

　妙な説明になっているかもしれないし間違っているかもしれないが、わかりやすく説明するために例を挙げて想像を膨らませるような記述にて記すことにするが……

　まずここに東北きりたんを用意しよう。

　今これを呼んでいる読者はそれぞれ自分の頭の中にデフォルメされた絵でも想像してほしい。

　彼女の脳内には２つの存在がある。

　１つは「声色」を確定するためのサンプリングデータ。

　もう１つは「日本語」をしゃべらせるために必要なパターンデータである。

　製作者が試みたのは、まずここから「日本語」をしゃべらせるために必要なパターンデータをぶっこ抜く。

　すると彼女は「あー」とか「うー」とか「えー」とかしか喋れない体になるだろう。

　乳幼児まで幼児化してしまうわけだ。

　そんな日本語を忘れてしまった彼女には学習装置を取り付ける。

　これがニューロンネットワークを活用した存在で、外部からデータを拾ってきて学習し、彼女の頭の中に知能を備え付けるためのもの。

　この学習装置に対し「本人の中の人」たるサンプリングデータの基となった人間が「VOICEROIDになりきってカバーした曲」を中心に、人間の歌のデータを学習させていく。

　特に重要なのが「サンプリングデータの基となった声優本人が歌唱したデータ」であり、取り付けられた学習装置は「声の主の歌い方」というものを学習し、パターンデータを蓄積していくわけだ。

　今回のNEUTRINO作成の上では、学習させすぎると「個性」とか「雰囲気」というのが失われる現時点でのニュートリノネットワークAIの限界を想定し、快活なアイドル系の歌を中心に50曲ほどを活用して何度も学習を繰り返したのだという。

　その結果、彼女は日本語を読む能力を失ったが「日本語で歌を歌う」能力を新たに獲得したのであった。

　これこそがNEUTRINOに関わるAI学習の方法だというのだ。

　同時に彼女は学習の末に自己学習で「息遣い」というものを手に入れ、サンプリングデータだけで「息遣い」というものを再現できるようになったのであった。

　従来までは必要とされてきたサウンドエフェクト等は、NEUTRINOにおいてはあくまでサンプリングデータを活用してそれっぽく再現しているだけなのだという。

　もともと読み上げ用ソフトだけにその手のデータも豊富ではあったとの事だが、それだけでここまで化けるとなると恐ろしいものだ。

　ただ、この学習の結果、彼女は「まるで人間のような」弱点を抱えることとなった。

　それは下記に記したもの。

　・息遣いを手に入れた結果、学習基となる歌手達以上に長い間隔で発声することが出来ない。

　・学習基となるデータでは早口言葉等が無かったので調整無しに早口で喋ることが出来ない。

　・学習させたのが「快活な曲」ばかりだったので暗い曲を歌うことが出来ない。（歌わせても明るく歌いだす）

　・抑揚の激しさで人間に近づけているので、抑揚の少ない曲だと機械音声であることを隠すことが出来ない。

　世に完璧は存在しないなれど、「得意なジャンル」「得意な曲調」というものが存在しているのである。

　学習型AIを利用したソフトウェアには荒い画像を学習AI独自の手法でもって高画質化する画像解析ソフトなるものがあったりするが……そのソフトウェアがことごとくイケメン化させたりするのと同様の現象が生じているわけだ。（みんな二重で整った顔になってしまう例のアレ）

　手打ちであればどんなジャンルでも対応可能な「音楽用」と比較するとこの部分では明確に劣る。

　筆者も試しにやってみたが、ぼくらのOPのアンインストールなんかは17歳ぐらいの明るいJKがアニメの内容も原作も知らずに元気に歌っているような感じとなってしまっていた。

　動画サイトでは「フリージア」などのやや暗い印象のある曲を明るく歌ってしまう動画が投稿されているが、まさに上記現象が発生していた状態である。

　また、ヤマトや999などの男向けの歌も得意ではない。

　この手の曲も試してみたが違和感がすごいのでキーを上げるか何かで対応しないといけない。

　これはあくまで筆者の推測だが、学習時に用いたのは「90年代のアイドル系」ではないかと思う。

　ゆえに90年代系の曲はかなり得意。

　るろうに剣心のOPだとか、ブレンパワードのOPだとか、テッカマンブレードOP2だとか、シャーマンキングOP2といった抑揚の強く、もともとのキーが高い曲への適応能力はきわめて高い。

　「夏祭」なんかも相当得意。

　一方で同一曲でも部分部分で得意と不得意が顕著に現れる例もある。

　テッカマンブレード2のOPなんかはサビで化けるし、浜崎あゆみのProgressなんかもサビから化ける。

　ようは「キーが高い」「抑揚が激しい」タイプに極めて強いのだ。

　これが元々のサンプリングデータの影響もあってのことなのかわからないが、ともかくそういう傾向が極めて強いことがわかった。

　ゆえに例えば同じ歌手でも坂本真綾なんかはデビューからしばらくの奴は得意だけど最近のは不得意な感じ。

　SPEEDなんかは全般的に得意であるが（My graduation等)、一方でモーニング娘は不得意であるなど、いろいろ試したくなる特徴を有している。

　曲調とエンジンの相性が合う場合は殆ど調整は不要。

　その状態で「ほぼ人間」な歌声を披露してくれる。

　……なんともすごい時代になったものだ。

　筆者がこの手の技術を最初に聞いたのはフィフスエレメントの歌唱シーンの時だったが、その頃はまだ歌詞なんてまともに付けられずに声そのものの調整だけであった。

　あの頃と比較すると別次元の領域である。

　しかしまあ、なんというか作り方が「どこぞの戦闘機アニメ」に出てくるAIバーチャルアイドルそのものなのが恐ろしい。

　あれは主人公の気にかけていた女性を学習データの基としていた部分があったが、最終的には感情まで学習して一悶着起こすという内容。

　果たしてAIは恋愛まで学習できるのか。

　SF映画内においてはHAL9000などを筆頭に歌うAIは出てくる一方、人間を理解する描写がない。

　22世紀までに現れるのは果たしてドラえもんやK.I.T.T.なのか、それともHAL9000やシャロン・アップルなのか。

　本ソフトの展望も含めて、ニューロンネットワーク系AIが2020年代における期待の星であろう分野なのは間違いないのが今回の件でよくわかった。

「夏祭」なんかはすごい事になってるので検索してみていただければ。