表示調整
閉じる
挿絵表示切替ボタン
▼配色
▼行間
▼文字サイズ
▼メニューバー
×閉じる

ブックマークに追加しました

設定
0/400
設定を保存しました
エラーが発生しました
※文字以内
ブックマークを解除しました。

エラーが発生しました。

エラーの原因がわからない場合はヘルプセンターをご確認ください。

ブックマーク機能を使うにはログインしてください。
9/18

第9話 音声でお話することだって

 さて、相変わらず仕事もそれ以外も結構忙しいのですが、そんな中でもChatGPT APIを使ってとあるものを作っていました。何かというと、それは「音声でChatGPTと対話できるチャットシステム」です。


挿絵(By みてみん)


 上のスクリーンショットは一見文字で対話しているように見えるのですが、私が音声で入力したものを文字に変換してChatGPT APIに送信し、ChatGPT APIが返してきた返答をテキストから音声合成するソフトウェアで音声にしてしゃべらせています。ちなみに、なろうは動画を当然ながら貼れないので「みてみん」で撮ったスクショを貼ったわけですが、せっかくなので実際に音声でやりとりしている様子はYouTube https://youtu.be/vfH9RAHRQBc にアップロードしておきました。私の声は動画に入らないようにしましたが、実際に試すときは当然そこも入っています。


 音声チャットシステムの試作品を作ってみての感想なのですが、やはり実際に声にした内容にAIが声で反応してくれるのはとても新鮮で、思わず色々AIのキャラを作り込んでしまいました。


 AI(設定的には名前は「あい」でまんまです)が「久野先輩」と呼んでいますが、これはChatGPT APIに最初に叩き込む「ChatGPTに演じてもらう設定」ですね。あいは女子大生で、「久野せんぱい」と「あい」は先輩後輩の関係という設定になっています(笑)。


 あと、丁寧語だと素のChatGPT人格と区別がつきにくくなる気がしたので「タメ口」とか口癖は「だよね」「そうだよね」とかいう風な設定も組み込んでいます。


 AlexaやGoogle Assistantは人間と自然言語を通して簡単な対話くらいならできるわけですが、ChatGPTは比較にならないくらい「自然で流暢な」返答を返して来ます。テキストを音声起こしするソフトに対してはベタにAPIが返したテキストを渡しているので抑揚があんまりなく自然ではないですが、この辺りを改善すればより自然な音声チャットシステムができそうです。


 キャラ設定もAPIを呼ぶ側が自在に作れるわけですから、スマホアプリとしいて、まさにChatGPT APIを使った「AIキャラと音声で対話できるアプリ」なんてのも近い内に出てきそうです。私がアプリを作るのなら、キャラの性格設定やユーザとの関係性、職業や年齢なんかも幅広く選択できるようにして……なんてことをつい考えてしまったりもしました。


 現在の開発版には搭載していないのですが、ChatGPTに対して「返答とともに感情を{"幸せ":0-100, "悲しみ":0-100, "喜び":0-100, "泣き": 0-100}という形で出力してください」みたいな設定を組み込むと、応答時の「あい」の感情パラメータが何故か表示されるので、これを音声起こしソフトに食わせることで「疲れた」と回答すると「あい」が悲しそうな声で応答するみたいなことも実現できました。


 この「感情」パラメータを出力する手法はブログでとある方が書いてらしたのですが、感謝の言葉をかけると「幸せ」や「喜び」パラメータが増えるし、辛い感情を打ち明けると悲しみが増したりするのが凄いところです。もちろん、あくまで擬似的なものではあるのですが、少なくとも感情パラメータの変化の仕方は妥当だと思えるもので、相変わらずChatGPTの機能の凄まじさを実感するばかりです。


 ちなみに、プログラマー関係の方に実装を簡単に説明すると、


1. JavaのサウンドAPIを使って、マイクからユーザ(私)の声を取り込んで音声ファイル(.wav)を生成

2. OpenAIのWhisper APIを使って、1.の.wavファイルからテキストを抽出

3. 抽出したテキストをChatGPT APIに渡して、回答をテキストで受け取る

4. 受け取ったテキストをVOICEPEAK(有料)のテキスト音声起こしソフトに渡して、音声ファイル(.wav)を生成

5. 生成された.wavファイルを再生

6. 1.に戻る


 という感じになっています。コード行数としてもたかだか400行かそこらでしょうか。それでこれだけ面白い試作品ができるのですから、大したものです。


 今回はChatGPT APIを使った応用としてどんなものが考えられるかを伝えるお話にしてみましたが、いかがだったでしょうか?


 ところで、来週にはChatGPTに搭載されているGPT-3.5というモデルの次期バージョンであるGPT-4.0が出るらしいという噂が出ていまして、色々な意味で楽しみです。リーク情報によると、GPT-4.0は「マルチモーダルLLM」の一種らしくて、言語だけでなく画像や動画、音声も扱える(画像や動画についての質問や会話ができる)のだとか。リーク情報らしきものが本当かは来週にならないとわからないのですが、もし本当なら最近論文として出たものについてもっと先にOpenAI(あるいはMicrosoft)が「使える」レベルで実装してたことになるわけで、凄い話になりそうです。

評価をするにはログインしてください。
この作品をシェア
Twitter LINEで送る
ブックマークに追加
ブックマーク機能を使うにはログインしてください。
― 新着の感想 ―
[一言] 色んな人のサンプルで、最初に「あなたはxxです」という設定が入っていたのですが、これは多分公式からのサンプルなんでしょうね。APIでRoleがパラメータとして独立していた、というのがなにかう…
[一言] 更新ありがとうございます。 正直理解が追い付いていないのですが…… ユーザが音声で語りかけると、ChatGPTが音声で“その都度”返答するということでしょうか? そこまで行くと既に人工人格…
感想一覧
+注意+

特に記載なき場合、掲載されている作品はすべてフィクションであり実在の人物・団体等とは一切関係ありません。
特に記載なき場合、掲載されている作品の著作権は作者にあります(一部作品除く)。
作者以外の方による作品の引用を超える無断転載は禁止しており、行った場合、著作権法の違反となります。

この作品はリンクフリーです。ご自由にリンク(紹介)してください。
この作品はスマートフォン対応です。スマートフォンかパソコンかを自動で判別し、適切なページを表示します。

↑ページトップへ