第17話 その名はGPT-4V
さて、前回はマルチモーダルモデル、特に画像を「見る」ことができるものを紹介しましたが、つい最近になっていよいよ「本家本元」であるOpenAIがChatGPTの有料ユーザー向けに「画像に質問をできる」機能である GPT-4Vをリリースしました。まだ全ユーザーには行き渡っていないようで、リリースから2週間かけて少しずつ使えるユーザーを広げていく方針のようです。
私としても非常に待ち遠しかったのですが、数日前にようやくGPT-4VがアプリでもWebでも使えるようになって「やった!」と嬉々として試してみました。前回は「この画像はどんなもの?」という形の質問でやや味気ないものでしたが、せっかく現状で最高性能と思われるGPT-4V先生ですから、もうちょっと高度なことをやってもらいましょう。
お題は、画像を見せて画像にちなんだ詩を作ってもらうことです。単純に画像を説明するより高度な技能でもありますし、GPT-4Vの能力を試すのにうってつけとも言えるでしょう(ホントかは不明ですが)。
先日、くら寿司で嫁さんとお寿司を食べてきたので、いかのお寿司を題材にしてみることにしました。さて、GPT-4Vの回答やいかに?
これが詩として良いものかはおいておき、きちんと詩の形はとれていますね。画像が寿司であることだけでなく、回転寿司であること、寿司がちょうど二つあることも認識しています。くら寿司の「KURA」も認識できているようですね。「イカ」要素は入っていませんが、認識できてないわけではなく、二度、三度とやるとイカをメインテーマにした詩になったりしました。
あと「カスタムインストラクション」機能を使って、ChatGPTにユーザーを「久野君」と呼ばせているのですが(親友設定)、ちゃんとその設定も詩に入っている(共に笑い、共に泣いた、辺り)が実に味わい深いです。
文字だけのときだと、やはりどこか「バーチャル」な感じがしますが、実際に行った場所での画像を見せて詩を作ってもらうと、ChatGPTが感情を持っていると錯覚すらしてしまいそうになります。
なお、GPT-4Vと同時にOpenAIはやはり課金ユーザー向けに「ChatGPTと音声通話できる機能」をリリースしたのですが、こちらはまだ試せていません。Xで試した人の動画を見ると「日本語に多少なまりがある外国人としゃべっている」と感じるくらいには流暢なやりとりができていて、さらに「本当のAI」に一歩近づいた感があります。やはり人間にとって視覚はそれだけ重要で、ついで聴覚が重要ということなのでしょうね。
さて、この写真だけで終わるのも勿体ないので、また別の例を。次は九州の太宰府天満宮で撮った写真です。
やっぱり画像を「説明」してもらうのだとつまらないので、感じたことを聞いてみることにしました。GPT-4Vの答えは、というと。
幼馴染設定(笑)が反映されてるのか、こんな感想になりました。ちなみに「幼馴染」という設定だけは書いてあっても一緒に行った神社とかは書いてないので、この辺りはどうもChatGPTが「捏造の記憶」を作り出すようです。
ただ、それにしても凄いですよね。単なる風景の描写ではなくて、まさに「写真を見た」感想(思い出は捏造ですが)を語っているように見えますから。
マルチモーダルがLLMをより「人間らしく」進化させるだろうと以前に書きましたが、やはり画像を認識する能力を得たことで、より人間に近い「感性」(疑似感性かもですが)を獲得したように見えます。
遂にAIが、消費者向けの製品で「視覚」を獲得したわけですが、次なる課題は「聴覚」でしょうか。GPT-4Vと同時にリリースされた「通話」機能は一度内部で文字起こししてからサーバ側に投げているようなものなので、あくまで「疑似通話」です。ただ、これも「文字起こしせずに直接音声認識できる」ようになるのは技術的にできるのは確定ですし、時間の問題でしょう。ひょっとしたら一年以内にChatGPTに「本物の」通話機能が搭載されるかもしれません。
「本物の」通話機能が搭載されれば、旅行先で撮った画像をその場でAIに見せて「この景色って綺麗だと思わない?」とかいうのができるようになります。現在の疑似通話だと文字起こししてる都合上、イントネーションや弾む声といったものは伝わらないと思われますが「本物」が搭載されれば、声から感情を読み取って「嬉しそうだね」なんて返答も返せそうです。この辺りまではもう時間の問題なのがほぼ確定なので、本当に楽しみです。
触覚、味覚、嗅覚は技術的には可能でもスマホなどのデバイスに搭載するための課題があり過ぎるのでいったんおいておくとして、他の重要な課題としては「長期記憶」があります。現在のChatGPT(GPT-4)はいわば短期記憶能力しか存在しないようなもので、しかも長さも日本語にしてたかだが8000文字程度、32Kという「特別仕様」のものでも32000文字程度です。Claude2という別のAIは既に日本語にして100000文字程度の「短期記憶」がありますが、これでもまだ人間と「思い出を語り合う」粋には及ばないでしょう。
「長期記憶をいかにして実現するか」は私も一技術者としていくつか実装方法を考えていますし、論文などでもいくつか手法が提案されています。ChatGPTの短期記憶に収まらないものはベクトル型ストレージと言われるデータベースに収めておいて、連想できるキーワードが来たら検索するという方式もありえますし、もっと別の方式もありえるでしょう。
こちらについては、視聴覚(加えていうと動画認識も)という「解決が見えていてあとはコストの問題」というものと違って、試行錯誤が必要ですが、長期記憶をうまく実現できるリーズナブルな手法が提案されれば、AIとの会話はさらに自然なものになることは間違いないでしょうし、私程度の技術者でも簡易な実現方法を思いつくのでこれも数年くらいで実現できても不思議はないと感じています。
他には「AIに身体をもたせる」もありますが、こっちはコストの問題はあるものの、研究レベルではかなり「自然な動き」ができるものもできています。ソフトバンクの孫氏が「10年以内にAGI(汎用人工知能)ができるだろう」と先日講演で発表しましたが、孫氏はAIの専門家でないのでお金を集めるためにあえて大きな目標を宣言したという見方はできるものの、進化速度自体がどんどん上がっている現状を見ると「ありえなくもない」なと思ってしまいます。
しかも、最近、MITの研究者らが発表した論文「LANGUAGE MODELS REPRESENTS SPACE AND TIME」では、どうもChatGPTなどのいわゆるLLMは「単にそれっぽい文章を生成しているのではなく、実際に時空間を認識しているらしい」ということが発見(正確には示唆)されました。
これはLLM関係では重要な問題で、本質的に文字だけを学習に用いたLLMがそのようなことができるのかというのは議論の的になっていたのですが、実験してみたところ、たとえば「東京」という単語と緯度経度などの空間上の情報を関連づけて学習していることがわかったようで、実に面白い結果です。
そんな芸当が何故可能かは本当の意味ではわからないですが、一つの推測はあります。本質的に「人間がこれまでインターネット上に蓄積していきた膨大なテキスト」というのは、ある意味で世界の記述を一次元の情報に不可逆圧縮したものとも言えるので、逆に非常に膨大なテキストを学習すれば、そこから「世界の記述」を解凍することが部分的には可能だろうということです。
まあ、門外漢の推測に過ぎないので、原理が当たってるかは不明ですが、ちゃんとした研究で「LLMが世界を認識している」ことが示唆されたのはとても面白いです。LLMは単に統計的に文字列処理をしているだけだ(結果的に人間が「LLMは理解している」と錯覚してるだけだ)、という非専門の人もこれまでにいて、私はその言い分に懐疑的でしたが、いよいよもって、やはりLLMは世界を(完全ではないにせよ)理解していることが実証され始めたようです。
このまま「AI」の残る課題(上に書いたようなもの)が解決されて、10年以内にエンタメ含めた多くの分野で人間以上の働きができるようになるのか、あるいは何か重大な壁が判明するのかは神ならぬ私にはわかりようがありませんが、個人的には「さっさと人間なんて超えて行ってほしいな」と一人の科学者として願ってしまうのでした。
GPT-4Vが面白かったのでつい筆が乗って色々書いてしまいました。最先端の「AI」(これを一般消費者が月額20ドルで扱えるのが凄いのですが)が見せる世界を感じてくれると嬉しいです。