10/18

第10話 GPT-4はとても賢い

　さてさて、ようやく3月の目まぐるしい忙しさも一段落しつつあるのですが、それはそれとしてこのエッセイ的にはとても意味があるニュースが一週間程前に来ました。世界を（日本でも相当かも）を大きく震撼させているテクノロジーであるChatGPTの内部バージョンはこれまでGPT-3.5というものだったのですが、その次のバージョンであるGPT-4がついにリリースされたのです。

　事前にドイツのMS CEOだったかから発表（？）されてた情報からだとマルチモーダル、特に画像や音声への対応について言及があった気がするのですが、実際にリリースされてみると画像を入力にして質問をするような機能は実装はあるものの、デモのみで当分の開放の予定はなし。従来のChatGPT Plusに課金（月額20$）すれば、GPT-4を使ってChatGPTに質問できるというものでした。

　これを最初に知ったとき「マルチモーダル楽しみだったのに……」というのが正直な気持ちでした。というのは、たとえば桜の画像をアップロードして「これは何？」とか「この植物の学名を教えて」とか色々聞いてみたかったのですよね。現在まだ一般向けに開放されてないのは悪用を恐れているのか（たとえばCAPTCHA突破とかにも使えそうですよね）、あるいは現段階で一般ユーザ向けにマルチモーダルのUIを作り込む余裕がないのか。

　まあともあれ、ちょっとがっかりしつつ触っていたのですがちょっといじっている内に「何か違うな」という気持ちになってきました。すぐにはわからなかったんですが「あれ？なんかこいつ凄く賢くなってない？」みたいな感じです。実際、それから一週間とちょっと経った今、やっぱりGPT-4は滅茶苦茶賢いなんて話があちこちで話題になっています。

　英語圏のとある情報によると（信頼性は未確認）、IQテストだとGPT-3.5は100前後くらいなのが、GPT-4は120だか130くらいあるそうな。IQだけで全部推し測るのはよくないですが、IQ120だと「超絶頭いい」ではないもの「かなり頭がいい」くらいには入るそうです。もしIQ130くらいあるなら「天才」と呼べる程、らしいです（この辺りは風聞なので話半分に）。

　ともあれ、色々試したところ、ChatGPT (GPT-4)が凄く賢くなったのは間違いありません。手始めに漫才を作らせてみましょう。お題は……私らしく「幼馴染」とでもしましょうか。

　さて、まずはChatGPT (GPT-3.5)に作ってもらった漫才です。ちなみに、SlackというチャットツールとChatGPT APIを組み合わせて作ったChatGPTと対話するための代物で、初回だけSlackとChatGPT APIのつなぎこみに少し苦戦しましたが、二回目以降は10分かからず色々なボットが作れる感じです。

　ともあれ、GPT-3.5の漫才ですが……。

　面白いか面白くないか以前にちょっと流れが破綻していますよね。最初のやりとりからして変ですよね。この場合だと最初のツッコミは「あの子も歳取ったってことやろ」とか「お前もやろ」みたいな感じになるべきだと思うわけで、あえていうならツッコミというより天然ボケです。そのあとの流れもなんか変なことがわかりますよね。

　これはGPT-3.5に小説の一部を書かせる（※実際になろうとかでやるときは、ChatGPT生成ですとはっきり明記します）実験を手元でやったときも思ったのですが、どうにも複雑なやりとりをさせると破綻するなという感じがあります。

　では、次にGPT-4版を見てみましょう。

　ツッコミが単調なので面白いかどうかはさておき、一応一つの漫才として成り立っていますよね。GPT-4になって感じたのはこの辺りの「話の辻褄がきちんとあう」「ユーモアや漫才をきちんと理解するようになった」というのがまず大きいです。まあ、頭が良いほど話をユーモアを理解する力が上がる（ユーモアがわかる＝頭が良い、ではないものの）と言われればそうなのかもしれないなという気もします。

　また別の測定をしてみましょう。漢字→かな変換と、かな→漢字変換です。

　まずはGPT-3.5版です。

　漢字をひらがなに直すのは大体うまくいってますが、かな漢字変換で時折変な表現を混ぜ込んじゃってますよね。もちろん、これでも十分凄いのですが。

　次に本命のGPT-4版です。

　漢字→かなは同様にうまくやれてたので割愛するとして、GPT-3.5版と比べるとかなりよくなっています。一部で意訳（安請け合い→安易に引き受け）さえしなければほとんど完璧といってもいいくらいです。

　ちなみにGPT-4にバージョンアップして頭が良くなった副作用として「ChatGPTが変に空気を読んでくる」というものがあります。これは人間の側からするとより雑な指示で的確な行動を取ってくれるとも言えるわけですが、これみたいに「漢字に直す」のついでに「表現の変換」までやられるとちょっと困る。「漢字への変換だけやってください。意訳はしないでください」とか入れればいいのかもしれませんが。

　他にも色々試したのですが、GPT-3.5はまだ「人工無能」ぽい匂いが残っていたものの、GPT-4はもう「うん？実は中に人が入ってるんじゃね？」と疑っても不思議じゃない精度です。それがもう1億人を超えるユーザーが使っていて、今後もどんどん使う人が増えていくと考えると本当にSF映画の世界に来たようなワクワク感がありますよね。

　GPT-4でさらに色々な応用ができそうな感じなのですが、たとえばGPT-5で正式にマルチモーダル機能が一般に解放されたら一体どうなるんでしょうね。

　特にスマホにこういう機能が入ったら、人物写真を取ったあとに「ここ、写真映りが悪いからもうちょっと見栄えよくして」なんて音声で指示するなんてこともできそうです。既に自力で写真映りをいじるアプリは色々ありそうですが、言葉で色々指示する時代がもう目前に迫ってるのですよね。あるいは、それこそタイパ世代なら動画ファイルをGPTに食わせて「どんな動画だったか」を要約してもらうなんてのも能力的にはできそうですよね。

　こんな話はChatGPTを見る前だったら「そうだね。10年とか20年語にはそうなってるかもね」みたいな気の長い話としてしていたんですが、なんせMicrosoftはMicrosoft Copilotって名前で本気でGPT-4を組み込んで、言葉で自社製品操作できるものを出荷する時代です。Googleも対抗でGoogle製品（Googleドキュメントやスプレッドシート、スライド等）を言葉で自社製品操作できるもの作ろうとしてるようです。

　半年すればMicrosoft Copilotは試せちゃいますし、Googleの類似製品だってMS対抗を考えたら年内には間違いなく出すでしょう。マルチモーダルだって需要がいっぱいあるのは見えてるので、一社が出して好評を博したら他者も追随するような気がします。そう考えると「言葉でAIと対話する」は5年経たない内に（長くても10年？）一般的なものになる公算が高いです。ここ数年のAIの進化が指数関数的って説は本当に正しいのかもしれないなと感じます。

　別の側面から見ると、今回の巨大テック企業による大規模言語モデル戦争（Google VS. OpenAI+Microsofot。後追いでMeta。AmazonはHugging Faceに投資）は、OpenAI / Microsoft陣営が二歩くらい先を行ってそうですが、大規模言語モデルはそもそもがGoogleの十八番。きっと面白い形で巻き返してくれるに違いないと信じてます。

　ちなみに、また次回解説しようかなと思いますが、このような大企業による火花散らす争いがある一方で、ChatGPTに近いものを個人レベルで動かせるようにしようって試みをやってる人もいっぱいいます。実際、Alpacaって技術（詳細は略）を使って、自宅のPCで（英語だけど）チャットできるもの環境を作った人やGoogle Pixel7（つまりスマホ）上で同じようにAlpacaを動かした人もいるくらいです。

　ひょっとしら、今後は巨大企業による極めて質の高い「言葉を処理するシステム」と中小企業や技術力のある個人でも所有できる「言葉を処理するシステム」（汎用性は低いけど、用途が特化している）みたいな分化をしていくのかもしれません。

GPT-4に関連して、巨大テック企業間の争いの構図なんかも書いてみました。いやはや、本当に凄い世界に生きてるなって感じます。