表示調整
閉じる
挿絵表示切替ボタン
▼配色
▼行間
▼文字サイズ
▼メニューバー
×閉じる

ブックマークに追加しました

設定
0/400
設定を保存しました
エラーが発生しました
※文字以内
ブックマークを解除しました。

エラーが発生しました。

エラーの原因がわからない場合はヘルプセンターをご確認ください。

ブックマーク機能を使うにはログインしてください。
16/18

第16話 画像を見ることだってできる

さて、前の更新からだいぶ間が空きましたね。その間も大規模言語モデル界隈は毎週、下手したら毎日のように新しいニュースが舞い込んできていてニュースをキャッチアップするだけで精一杯という有様です。


 ChatGPTも最近では書店に「ChatGPTコーナー」ができて、雨後の筍のように使い方を解説した本が出版されているようで、着々と生成AIが世の中に広がっていく下地はできているように思います。この手の動きに対しては日本政府も珍しくガイドライン策定なども含めて素早い動きをしていますしね。


 さて、今回は「マルチモーダル言語モデル」と呼ばれるものについて紹介したいと思います。Multimodal Large Language ModelだからMLLMという略称……というわけでもなく、これらも同様に既存の略称であるLLM(大規模言語モデル)と呼ばれています。


この「マルチモーダル」というのを凄くわかりやすく言えば、AIに視覚や聴覚などの「感覚」をもたせる仕組みだと言えばわかりやすいでしょう。ChatGPTは比喩的にいえば「ことばの世界」しか知らない故に凄く「耳年増」とも言えるわけですが、マルチモーダルのモデルによって写真に映っている人物や物事について答えることができるようになるのです。


 このマルチモーダル言語モデルですが、既にMicrosoftがリリースしているBing AIに組み込まれています。論より証拠ということで早速試してみましょう。


挿絵(By みてみん)


・長い黒髪

・白いブラウス

・女の子

・肩にかかる髪


 などおおよその特徴は掴めていますね。背景が淡いピンク色というのがちょっと微妙ですが、なかなかの結果です。


 別の画像を使って質問してみましょう。今度は私が欧州某国に行ったときの写真です。


挿絵(By みてみん)


 まず凄いのは看板の文字の「BONGENIE」を読み取れているところですね(ちなみにスイスのフランス語圏にある街の看板なので、英語ではなくフランス語の読み取りで正しいはずです)。


・大きな窓

・デパートやショッピングセンターのよう

・空は青く、天気が良い


 などの特徴もうまく読み取れています。「木々と人々が歩いている通り」はいま一歩ですが、それでもなかなかのものと言えるでしょう。


 さて、次は趣向を変えてオープンソースのマルチモーダル言語モデルであるLLaVAを使ってみましょう。そこそこお値段の張る(中古価格で10万円くらい)のグラフィックボードが必要ですが、自宅でマルチモーダルの言語モデルを動かすことができるのです。


挿絵(By みてみん)


 CAPTCHAに書かれた文字はTd4evaなので「T4EVA」は惜しいですがなかなか良い線行ってますね。こんな凄いシステムが自宅の、それも個人が所有できるPCで動くんですから凄い時代が来たもんです。ちなみにBing AIにCAPTCHAの読み取りを依頼したら拒否されましたが、おそらくはセキュリティの問題を考えて、そういう質問に対しては答えないように「調教」されているのでしょう。


 ちなみにここ数ヶ月でGoogleも猛追を見せていますが、それ以上にOSSオープンソースソフトウェアとして公開された大規模言語モデルをベースにした発展が急速に進んでいます。今回動かしたLLaVAなんかも(元はMeta社が提供していたモデルがあるにせよ)有志が作り込んで公開したからこそです。


 さらについ数週間前の出来事ですが、3D-LLMという、三次元空間を認識できる言語モデルまで公開されました。もうここまで行くと「言語」に収まらない気がしてしまうのですが(^^: このまま「AIの感覚」を拡張していけば、今のChatGPTではまだ手が届かない「創造性」でも手にすることができてしまいそうです。


 というわけで相変わらずワクワクする生成AI界隈のお話でした。

評価をするにはログインしてください。
この作品をシェア
Twitter LINEで送る
ブックマークに追加
ブックマーク機能を使うにはログインしてください。
― 新着の感想 ―
[一言] 相変わらずすごい進歩ですね。一年でこれですから。 フォローアップするだけでも大変な労力が必要そうですね。お疲れ様です。 画像の認識がちゃんとできるようになるのであれば、画像生成->認識でタ…
感想一覧
+注意+

特に記載なき場合、掲載されている作品はすべてフィクションであり実在の人物・団体等とは一切関係ありません。
特に記載なき場合、掲載されている作品の著作権は作者にあります(一部作品除く)。
作者以外の方による作品の引用を超える無断転載は禁止しており、行った場合、著作権法の違反となります。

この作品はリンクフリーです。ご自由にリンク(紹介)してください。
この作品はスマートフォン対応です。スマートフォンかパソコンかを自動で判別し、適切なページを表示します。

↑ページトップへ