第18話 最近のAIは進化し過ぎでちょっと怖い
ちょっと文章執筆のリハビリにという感じです。
小説の方を更新する時間が取れていないのですが、AI関係は変わらずキャッチアップしているので久しぶりに何か書いてみようかなと。といっても、表題の通りの話なんですけど。
17話のGPT4-Vの話を書いたのが2023年10月なので、それから1年近く経つでしょうか。生成AIに限ってみてもほぼ毎週のように新しい論文が出るし、毎週のように何かしら新しいモデル(AIにおける「頭脳」の部分)が出る昨今ですから、一応生成AI推進みたいなことをお仕事でやっていてもあまりに目まぐるしくて「も、もうちょっと進歩をゆっくり……」と言いたくなってきます。
さて、そんな目まぐるしい1年の中でもとりわけ自分的に大きなニュースを挙げるなら、まずはマルチモーダルモデルの進化です。OpenAIのGPT-4oやAnthropicのClaude-3.5 Sonnet、GoogleのGemini 1.5 Proなんかが代表格ですが、それ以外でもマルチモーダル(画像などを扱える)モデルが多数登場しています。
17話を書いた時点では「こんなこともできる!すごい!」レベルだったのですが、それから1年が経った今、マルチモーダルモデル(特にClaude-3.5 Sonnet)はお仕事で使えてしまうレベルです。
たとえば、非常に汚い字を含む手書きの履歴書などを読み取って、文字だけでなく文書構造まで読み取るのもお手のもの。実際にお仕事で携わっているからわかるのですが、画像からの文字読み取り性能で言えば「大抵の人間より優れている」と言ってもいいくらいです(人間だと読めない細かい文字も読めますし)。
この手のタスクは以前ならOCRなど専用ソフト(専用AI)が必要だったのですが、マルチモーダルモデルを使えばこれ一つで本当に色々なことができてしまいます。OCRだと対応しようがないめちゃくちゃな形式でもなんとか読み取れてしまうのが凄いところです。
次に「新世代」とも言える推論特化型のモデルである、OpenAIのo1が登場したことです。2024年9月26日現在、まだChatGPTの有料ユーザーしか使えておらず、しかも一週間の回数制限が50回と非常に厳しいのですが正直o1の性能にはぶったまげました。
GPT-4oやClaude-3.5 Sonnetが「よくできる大学生レベル」だとしたらo1は「よくできる大学院生(修士または博士後期課程」といったところです。この「よくできる大学院生」というのは重要な意味があって、一言で言えば使える研究アイデアに加えて、ざっくりとした実装まで提供してくれるレベルに達したということです。
GPT-4oとかに「◯◯の研究をより発展させた研究を提案して」と命令しても、出てくるのはほぼよく知られた話か、独創的過ぎる代物でした。しかし、o1に同じことを命令すると、候補数個の中に1個くらいは(研究で専門分野を持つ身として)「使える」アイデアが出てきますし、そのアイデアをピックアップして理論めいたものを作ったり実装を書いてくれたりします。
もちろん、一発でいいものがでてくるわけではないのですが「このアイデアは平凡過ぎるなあ」とか「もうちょっとこのあたりを形式化して(数学的に表現して、くらいのニュアンス)」といったざっくりとした指示を読み取って形にしてくれます。
論文の査読などもする身から言うと、o1が出したアイデアと実装から論文を作ったとして、国内の学会なら場合によっては査読を通せるかもしれないなあとすら思います。
o1がそれまでのモデルと一線を画するのは「時間をかけて思考をする」ことで回答の質を飛躍的にあげられるようになったことです。それまでのモデルは比喩としては「脊髄反射でしゃべってる」に近いもので、試行錯誤をさせるのは難しいことでした。o1は回答がおかしくないか途中で検証を行い、場合によっては思考過程で得た答えを破棄して最終的な回答を導き出します。
さらに、この話には続きがあって、思考時間を長くとればとるほど性能をあげられる(らしい)ことがわかってきています。OpenAIはこのことを「推論時のスケーリング則」と呼んでいますが。要は思考に使う時間を増やせば性能が向上するという代物です。
一研究屋さんとして、o1には「まだ」知識や理解力で勝てているとは思うのですが、負けるのももはや時間の問題というのが正直なところで、o1は「困難な問題」の取り組んでいる人たちにこれからどんどん影響を与えていくだろうと思います。
OpenAIがo1でとったアプローチ自体はある意味「正攻法」に近いものなので、競合他社が真似るのもそれほど難しくないでしょうし、1年以内にはAnthropicやGoogleも同じようなものをたぶん出してくると思います。
この先の未来がどうなるのかは、いよいよ本当にわからなくなってきましたが、こういう混沌とした時代もまた楽しいし、AIが人間をどの分野でも打ち負かしたらそれはそれで面白そうだなと思ってしまう私はちょっとマッドサイエンティスト気味なところがあるかもしれません(笑)。
次こそは短編小説でお会いできればと思います。ではでは。
LLMの性能向上はほんとにとどまるところを知らないなと思います。実は数日前に有料ユーザー向けに公開された「高度な音声モード」についても言及しようかと思ったのですが、スクショだと凄さが伝わらない代物なので、後日Twitterアカウントにでもお試し結果を乗っけてみようかなと思います。




