第16話 画像を見ることだってできる
さて、前の更新からだいぶ間が空きましたね。その間も大規模言語モデル界隈は毎週、下手したら毎日のように新しいニュースが舞い込んできていてニュースをキャッチアップするだけで精一杯という有様です。
ChatGPTも最近では書店に「ChatGPTコーナー」ができて、雨後の筍のように使い方を解説した本が出版されているようで、着々と生成AIが世の中に広がっていく下地はできているように思います。この手の動きに対しては日本政府も珍しくガイドライン策定なども含めて素早い動きをしていますしね。
さて、今回は「マルチモーダル言語モデル」と呼ばれるものについて紹介したいと思います。Multimodal Large Language ModelだからMLLMという略称……というわけでもなく、これらも同様に既存の略称であるLLM(大規模言語モデル)と呼ばれています。
この「マルチモーダル」というのを凄くわかりやすく言えば、AIに視覚や聴覚などの「感覚」をもたせる仕組みだと言えばわかりやすいでしょう。ChatGPTは比喩的にいえば「ことばの世界」しか知らない故に凄く「耳年増」とも言えるわけですが、マルチモーダルのモデルによって写真に映っている人物や物事について答えることができるようになるのです。
このマルチモーダル言語モデルですが、既にMicrosoftがリリースしているBing AIに組み込まれています。論より証拠ということで早速試してみましょう。
・長い黒髪
・白いブラウス
・女の子
・肩にかかる髪
などおおよその特徴は掴めていますね。背景が淡いピンク色というのがちょっと微妙ですが、なかなかの結果です。
別の画像を使って質問してみましょう。今度は私が欧州某国に行ったときの写真です。
まず凄いのは看板の文字の「BONGENIE」を読み取れているところですね(ちなみにスイスのフランス語圏にある街の看板なので、英語ではなくフランス語の読み取りで正しいはずです)。
・大きな窓
・デパートやショッピングセンターのよう
・空は青く、天気が良い
などの特徴もうまく読み取れています。「木々と人々が歩いている通り」はいま一歩ですが、それでもなかなかのものと言えるでしょう。
さて、次は趣向を変えてオープンソースのマルチモーダル言語モデルであるLLaVAを使ってみましょう。そこそこお値段の張る(中古価格で10万円くらい)のグラフィックボードが必要ですが、自宅でマルチモーダルの言語モデルを動かすことができるのです。
CAPTCHAに書かれた文字はTd4evaなので「T4EVA」は惜しいですがなかなか良い線行ってますね。こんな凄いシステムが自宅の、それも個人が所有できるPCで動くんですから凄い時代が来たもんです。ちなみにBing AIにCAPTCHAの読み取りを依頼したら拒否されましたが、おそらくはセキュリティの問題を考えて、そういう質問に対しては答えないように「調教」されているのでしょう。
ちなみにここ数ヶ月でGoogleも猛追を見せていますが、それ以上にOSSとして公開された大規模言語モデルをベースにした発展が急速に進んでいます。今回動かしたLLaVAなんかも(元はMeta社が提供していたモデルがあるにせよ)有志が作り込んで公開したからこそです。
さらについ数週間前の出来事ですが、3D-LLMという、三次元空間を認識できる言語モデルまで公開されました。もうここまで行くと「言語」に収まらない気がしてしまうのですが(^^: このまま「AIの感覚」を拡張していけば、今のChatGPTではまだ手が届かない「創造性」でも手にすることができてしまいそうです。
というわけで相変わらずワクワクする生成AI界隈のお話でした。