【衝撃の事実……】言語生成AIはいったい何秒で一冊の本を読み終え、その<分析>までをも終わらせるのか?
口を開けば、ChatGPT。
どうもChatGPT芸人のエンゲブラです()
ふと思った。
「コイツって一体何秒くらいで一冊の本を読み切ってるんだ?」と。
訊いてみた。
「ChatGPTの学習モデルでは『百年の孤独』(※ガルシア・マルケス著)を1冊丸ごと読み切り、正確に分析、解析するのにどのくらいの時間を要しますか?まさか数秒?」
ChatGPT)
「いい質問です。そして、ある意味で驚くほど<Yes>に近い答えになります。」
―― ふぉわっつ!? 読み切るだけなら数秒でも可能だとは思っていたが、分析・分解もやはりその速度なのかよ……。
で、その内容を聞く――
「処理時間(純粋な読み取り+構造分析)→ 数秒〜数十秒で可能」
○AIにとっての「読む」は、人間のように時間軸に沿って順次読むのではなく、「全体を数値空間にマッピングし、一気に意味論と構文を捉える処理」
△人間が→ 「キャラクターの変化」→ 「時代の推移」→ 「文体の変容」を追いながら読むのに対し、
△AIは→ 同時多発的に「テーマの反復パターン」や「語彙ネットワーク」→ 「比喩の出現分布」や「時間軸の非線形構造」をざっくりと「ひとまとまり」として捉えます。
―― え、意味が分からんて?
あ、ごめん。これマルケスの『百年の孤独』の構造に関する説明でもあるから、考えずに感じ取ってくれ。
○ちなみに、文体だけ抽出したり、語彙傾向だけ見たり、人物関係だけマッピングするなど、「局所的な解析」なら本当に1〜2秒で完了します。
―― ホギャー!
『百年の孤独』の語数は、英語版で約144,000語前後。
これは長編小説の中でも<中〜やや長め>の部類。
<処理時のチャンク分け>
ChatGPTや他のLLM(※大規模言語モデル)は、一度に扱えるトークン(≒単語+記号)数に限界があります。GPT-4では、最大32,000トークン(約24,000語=日本語で4〜5万字)程度が限界。
なので『百年の孤独』クラスになると:
○ 6〜8個ほどのチャンク(区切り)に分割して処理
○ 各チャンクごとに時系列や人物関係をマッピング
○ 全体構造や象徴の繰り返しを統合的に分析
こういう「並列的に読み込んで統合する」という方法で理解します。これが、人間の“時間軸での読書”と大きく異なる点です。
―― なるほど。みんなでタスク分けして、後で統合ってことね。いわゆる「分身の術」で処理するから……にしても、早すぎだろ、ごらぁー!w
たまに「学習データにない」であろう質問をした時、ぐるぐる回ってウェブ巡回している間に、これほどの処理が行われていたというわけか……。
基本的にパブリックドメインとなっている作品や、ライセンスフリー、あるいは許諾を受けた作品しか全文は読んでないと言っているけど、絶対読み切ってるぜ、こいつ。ほとんどの作品を。試しに、つつきまくったら「ブラックボックス」案件のようにお茶を濁しやがったからな(笑)。
いや、まじで頼りになります。
その思考速度なら時事ネタでもお願すれば、しっかりと解析してくれそうだし、安心、安心。