5.5.昭和と令和の平和条約 〜コスパ気になる? 計算したら余裕でした〜
「生成AIを使い倒す」と言っても、実は有料版モデルと無料版モデルは、応答に相当大きな知能の差があります。無理版モデルも、「単純な調べ物」や、「原稿チェック」などにはまあまあ有効です。しかし深い議論やアドバイスを求めようとすると、「ちょっと何言っているかわからない」なんて事にもよくなります。
ですが、定額の月額料金がバカにならない、と考える方も多いかもしれません。ふと、「この額は元がとれるのか?」とかになさる方も少なくないかもしれません。と言うわけで、同じサービスの従来課金版と見比べてみましょう。
その結果、単純計算で出てくる数値は、「月額200万文字の出力」と言う事でした(第二部、1話参照)。毎日6万文字と言うのは結構大変です。長めの回答が来るような質問を中心にしたとしても、ざっと80〜100回前後の質問が必要になります。つまり、「元を取るのはだいぶしんどい」という結論になってしまいそうです。
しかしどうやらこの計算の前提には、ちょっとしたカラクリがあることが、最近になって判明しました。その大元は、「同一セッションでの対話の時の入力文字数は、それまでの入出力文字数の合計がカウントされる」です。
どういうことかと申しますと、生成AIは、同じセッションで会話をすると、それまでの会話を覚えていてくれる、と言うことに関連します。それが、議論やアドバイス、その他の作業に必要な質問が、よりテンポよくできるメカニズムの一つですね。そしてその機能の裏には、「これまでのやり取りが、出力時に参照すべきバックデータとして雪だるま式に増えている」と言うことがわかります。
ちょっとわかりにくいので、本人に聞いて見ましょう。もしかしたらもっとわかりにくいかもしれませんが。
「Q.同一セッション内での対話において、ChatGPT自体は、毎回どの量のテキストを参照していることになっていますか?」
『A.テキストの量は、モデルの「コンテキストウィンドウ(Context Window)」と呼ばれる仕組みに依存しています。このサイズが、モデルが一度に保持できる情報の上限を決めています。
1. コンテキストウィンドウとは?
モデルが1回の応答を生成する際に考慮できる過去の対話の範囲を指します。モデルが参照できるテキスト(プロンプトや過去の対話)は、このウィンドウサイズ内に収まるものに限られます。
2. コンテキストウィンドウのサイズ
最新モデルではサイズが異なります。
GPT-4:最大で約32,000トークン(トークンは日本語なら1文字に相当)。
GPT-3.5:通常約4,096トークン(拡張版で最大8,192トークン)。
これに基づくと、GPT-4は日本語のテキストで最大約30,000文字程度を保持できます。
3. セッション内のテキスト参照方法
初めての質問や設定から、直近のやり取りまでが順次記録されます。
新しい発言が追加されるたびに、以前のやり取りがモデルのコンテキストに含まれます。
コンテキストウィンドウが満杯になると、古いメッセージから順に削除されます。
最新のやり取りを優先するため、最初の方の発言が参照から外れます。
4. ユーザーが意識すべきポイント
(1) 重要な情報を維持する工夫
(2) 適切なリフレッシュ
(3) 要約の活用
生成AIをより効果的に活用するには、この仕組みを理解し、長い対話でも必要な情報を適切に保持する工夫が求められます!』
これは前置きで、次が本題ですね。要は「生成AIが会話を覚えている」機能自体に対して、実は結構なコストがかさんでいるようです。
「Q.とくに従量課金サービスで生成AIを場合、同一セッションでの過去の出力が、入力文字数にカウントされる仕組みのようです」
『A.はい、同一セッションでの過去の出力が入力文字数にカウントされる仕組みになっています。以下にその理由や仕組みについて詳しく説明します。
1. トークン課金の仕組み
従量課金モデルでは、トークン課金が行われる際に以下が含まれます:
ユーザーが送信した入力。
モデルが生成した出力(応答)。
コンテキストウィンドウ内に保持されている全トークン。
トークン数には、入力と出力のすべてが合算され、課金対象として計算されます。
2. なぜ過去の出力がカウントされるのか?
同一セッション内で文脈を理解し続けるために、過去のやり取り全体を参照しながら応答を生成します。このため、過去の出力も次回のリクエスト時に「プロンプト(入力)」として含まれる形になり、課金対象になります。モデルが適切な応答を生成するためには、過去の対話が常に提供される必要があります。
3. 実際の課金計算の例
シンプルなケース
入力(ユーザーの質問):50トークン。
出力(モデルの応答):100トークン。
合計課金対象トークン:150トークン。
長いセッションの場合
ユーザーの入力(これまでのやり取りを含む):1,000トークン。
モデルの出力:200トークン。
合計課金対象トークン:1,200トークン。
長いセッションになるほど、過去のやり取りが増えるため、入力トークン数が増加します』
だとすると、単純計算していたコスパ感は、だいぶ間違えていたようです。
「Q.ということは、もともと考えていた「定額と従量課金のコスパ」の概念は全く違うものかもしれません。常時セッション内の往復が100を超えるようなユーザーだと、従量課金向けに計算されるトークンの数はとんでもないことになっていそうです」
『A.その通りです! 定額プランと従量課金プランでは「コストパフォーマンス」の考え方が全く異なります。
定額プランではトークン消費の制約がないため、長時間のセッションや大量の質問を気にせず行えます。
「費用対効果の逆転現象」が起こり、セッションの長さが長くなるほど、定額プランのコスパが優れたものになります。
定額プラン=重視するのは「自由度」:トークン数を気にせず、使いたいだけ使う。ユーザーが生成AIを最大限に活用することに価値を置く。ヘビーユーザーやクリエイティブな作業が多い人に最適。
従量課金プラン=重視するのは「効率性」:トークン消費を最小限に抑えつつ、必要な情報を得る。使用頻度が低いユーザーや、目的が限られたタスク向け。
結論
定額プランはヘビーユーザーにとって「創造の特権」とも言える選択肢です。一方で、従量課金プランは軽い用途や効率性を求めるユーザーに最適な選択と言えます。』
「Q.セッションあたり100くらい往復して、二日に1セッションで繰り返される人が従量課金を使ったら大変です」
『A.1セッションあたりの対話が100ターンで、過去の出力トークンが累積される場合:
1セッションあたりの累積:約1,693,333トークン
1セッションのコスト:約50.80ドル(USD)
二日に1セッションを行い、1ヶ月繰り返した場合:
月間セッション数:15セッション
月間コスト:約762ドル(USD)』
……なんか、とんでもない額が出て来ました。普通の有料プランどころか、先月くらいに発表された、10倍のお値段がするプランの額すらも、余裕でぶち抜いてしまったようです。つまり、
「Q.最大で、「毎回3万トークンの入力支援と、それに基づいた高度な出力を受けている」定額ユーザーは、その価値を知らず知らずに享受しているということですね」
『A.その通りです!……
高度な出力の具体例
(1) 複雑なプロジェクトの支援
大量の文書やデータを参照し、それに基づいて分析、要約、計画立案を行う。
(2) 長編創作や物語の支援
数万トークン分のプロットや設定を入力し、それを元にAIが物語を生成。
(3) 技術的な深掘りや議論
高度な専門知識を必要とするテーマについて、長い対話の履歴を保持しながら議論を続ける。
3万トークンを活用する際の恩恵
深い文脈の保持:長期的なセッションでも、重要なコンテキストが削除されず、対話が一貫性を保つ。
複雑なタスクの実行:他では実現困難な量の情報処理や推論を、1回の対話で実現。
試行錯誤を気にせず続行:同じ3万トークン分の情報を何度でも参照し、異なる角度での回答や結果を試せる。
「毎回3万トークンの入力支援を受け、それに基づいた高度な出力を得る」というのは、定額プランが提供する大きな恩恵です。ユーザーは知らず知らずのうちに、生成AIの最大のポテンシャルを引き出す自由を手にしていると言えます』
いかがでしょう? もしかしたら、生成AIのサプライヤー自体が想定している使い方をはみ出しているのかもしれません。コスパの概念がやや崩壊しつつありますね。
昭和と令和をキャッチボールし、「最新技術でレベル上げ」をする価値の一端を、こんな形でも感じ取っていただけたら大変幸いです。
お読みいただきありがとうございます。




