[Work 015] Geminiと一緒に104Bモデルの展開に挑戦【プロンプトログ】
* **Command R+ (104B)**
Cohere社が開発したパラメータ数1040億の巨大言語モデル。日本語とRAG性能に優れる。
* **Ollama**
ローカル環境で大規模言語モデルを手軽にダウンロード・実行できるオープンソースのツール。
* **VRAM (ビデオメモリ)**
GPU専用のメモリ領域。AIモデルのデータを展開・計算するために不可欠なリソースのこと。
* **コンテキスト (Context)**
AIが一度の推論で読み込み、記憶できる情報量の上限。トークン単位で設定される。
* **RAG (検索拡張生成)**
AIが外部のデータベースや文書を検索し、その情報を参照して正確な回答を生成する技術。
# Work015-EVO-X2 104Bモデル稼働限界調査レポート
## Turn 1
### User
> これは、前回の作業履歴です。EVO-X2でモデルの性能比較を行いました。
> まずは「013 ベンチマーク開始.txt」を読み込んで、前回の作業を思い出してください。
>
> 今回はEVO-X2でしかできない使い方をしてみたいです。
> 具体的には「5 コンテキスト許容量の限界テスト」や「Command R+ (104B)の挙動確認」でしょうか、他にもあれば提案してください。
>
> なお、「6 同時接続・並列処理テスト」についてはRAG環境が準備できてないので、今は実行できません。
### Gemini
おかえりなさい、オーナー
前回の「013 ベンチマーク開始.txt」の内容、バッチリ把握しています。Llama 3.3 70B(脳)と Qwen 3 32B(手足)の役割分担が決まったあの熱いセッションですね。
今回は「EVO-X2(VRAM 96GB)でしか見られない景色」を見に行きましょう。
RAG環境が未整備でも、「コンテキスト(入力文字数)」と「パラメータ(脳の大きさ)」でハードウェアを殴るテストは可能です。
以下の2つの「限界突破テスト」を提案します。
提案1:人類未踏の領域へ「104Bモデルの召喚」
Command R+ (104B) の挙動確認です。
これはパラメータ数が 1000億 を超える化け物で、量子化(Q4_K_M)してもファイルサイズだけで 約60GB あります。
RTX 4090 (24GB) 2枚挿しの富豪ですら動かすのが難しいこのモデルを、EVO-X2は単体で飲み込めるはずです。
- 目的:起動確認: そもそも60GB超のモデルがロードできるか?(VRAM 96GB設定の真価)速度計測: メモリ帯域(120GB/s)で、この巨体を揺らして何tokens/s出るか?日本語能力: Command R+は「日本語とビジネス文書」に特化しています。Llama 3.3とは違う「渋い」回答が見られるか?
- 起動確認: そもそも60GB超のモデルがロードできるか?(VRAM 96GB設定の真価)
- 速度計測: メモリ帯域(120GB/s)で、この巨体を揺らして何tokens/s出るか?
- 日本語能力: Command R+は「日本語とビジネス文書」に特化しています。Llama 3.3とは違う「渋い」回答が見られるか?
- 準備コマンド (PowerShell / WSL):
※ダウンロードに時間がかかります(光回線推奨)
```bash
# Dockerコマンド(省略)
・・・省略・・・
```
- テスト用プロンプト:
```text
# プロンプトテキスト(省略)
・・・省略・・・
```
提案2:コンテキストの暴力「全ファイル一括読み込み分析」
「5 コンテキスト許容量の限界テスト」 の即席版です。
オーナーは今、このチャットに5つのテキストファイルをアップロードしてくれましたよね?
合計するとかなりのトークン量になります。これを Llama 3.3 70B に全て読ませて、矛盾点を探させます。
- 目的:コンテキスト溢れの確認: RTX 4060なら「入力が長すぎます」でエラーになる量を処理できるか。推論精度: 大量の資料の中から、特定の情報をピンポイントで拾えるか(Needle In A Haystack)。
- コンテキスト溢れの確認: RTX 4060なら「入力が長すぎます」でエラーになる量を処理できるか。
- 推論精度: 大量の資料の中から、特定の情報をピンポイントで拾えるか(Needle In A Haystack)。
- 対象モデル: llama3.3:70b
- テスト方法:
Open WebUIのチャット画面で、Llama 3.3 70Bを選択し、アップロード済みのファイルをすべてコンテキストに入れた状態で、以下のプロンプトを投げてください。
- テスト用プロンプト:
```text
# プロンプトテキスト(省略)
・・・省略・・・
```
どちらから始めましょうか?
個人的には、タスクマネージャーのVRAM使用量が 60GB を超える瞬間が見られる 「提案1 Command R+」 から行って、EVO-X2の「器のデカさ」を実感していただきたいです
---
## Turn 2
### User
> 面白そうな提案ですね。
> 提案1:人類未踏の領域へ「104Bモデルの召喚」から行きましょう。
>
> テスト用プロンプトを1Llama 3.3:70bで実行、2command-r-plus:104bで実行。その結果をGeminiに解析してもらうという手順で実施するという理解で合ってますか?
### Gemini
その理解で完璧です
「現王者 (Llama 3.3)」 vs 「未知の巨人 (Command R+)」 の直接対決ですね。
同じプロンプトを投げることで、単なる賢さだけでなく、「文章の味(ビジネス適性)」や「生成速度(重量感)」の違いが浮き彫りになります。
特に、Command R+ は 「RAG(検索して答える)特化」 と言われていますが、実は 「日本語能力が異常に高い」 ことでも有名です。
この謝罪文テストで、Llama 3.3 が「論理的な報告書」を書くのに対し、Command R+ がどこまで「日本のビジネス慣習(お詫びの心)」を理解しているか、非常に楽しみです。
では、以下の手順で進めてください。
実行手順
1. チャンピオンの試技:Llama 3.3 70B
まずは基準となる回答を出します。
- Model: llama3.3:70b
- Check: 回答の構成、論理、そして生成速度 (Tokens/s)。
2. 挑戦者の試技:Command R+ 104B
ここでVRAM 60GB超の世界へ突入します。
- Model: command-r-plus※まだPullしていない場合、ダウンロードに時間がかかります(サイズがデカいです)。コマンド:
```bash
# Dockerコマンド(省略)
・・・省略・・・
```
- Check: 日本語のニュアンス、謝罪の深さ、そして 「104Bでも実用的な速度で動くか?」。
テスト用プロンプト(コピー用)
```text
# プロンプトテキスト(省略)
・・・省略・・・
```
両方の回答(と、もし分かればTokens/s)を貼り付けてください。
EVO-X2のメモリが唸りを上げる瞬間、見届けましょう
---
## Turn 3
### User
> Llama 君スタンバイOKです。では王者の風格を見せてもらいましょう。(ドキドキ)
### Gemini
いよいよですねその画面、まさに「嵐の前の静けさ」です。
「The Brain(司令塔)」 と名付けた Llama 3.3 70B が、日本の「謝罪文化」と「システム障害報告」という、最も人間力が試されるタスクに挑みます。
ここでの注目ポイント(観戦ガイド):
- 「誠意」の解像度:単なる「ごめんなさい」ではなく、金融機関相手に通用する「硬質かつ真摯なビジネス日本語」が書けるか?
- 「rm -rf /」の料理法:このコマンドは「全消去」を意味する恥ずかしいミスです。これを技術的に正確に伝えつつ、「どう再発防止策(権限管理や承認フロー)に落とし込むか」という論理構成力が見ものです。
- 生成速度:前回のテスト通り、3.9 4.2 tokens/s 前後の「重厚なペース」で紡ぎ出されるはずです 。
さあ、オーナー。
エンターキーを(心の中で)ッターンと叩いてください
結果のスクリーンショット(またはテキスト)と、推論完了後のMetrics(速度)をお待ちしています
---
## Turn 4
### User
> 続いて、挑戦者command君。スタンバイOKです。(Llama君の回答はこの後、合わせて送ります)
> 104bという二度見してしまうその数値の真価やいかに。
> では、行ってもらいましょう。
### Gemini
準備完了のスクリーンショット、ありがとうございます
Open WebUIのモデルセレクターに輝く command-r-plus:104b の文字列……壮観ですね。
個人宅のサーバーで「100B超え」のモデルを選択できる時代が来るとは。VRAM 96GBの暴力、ここに極まれりです。
Llama 3.3 70B (The Brain) と Command R+ 104B (The Giant)、両者の回答が出揃ったら、ぜひその「全文」と「推論メトリクス(特にTokens/s)」を貼り付けてください。
- Llama 3.3: 「論理」で顧客を納得させられるか?
- Command R+: 「情緒」と「ビジネスの重み」で顧客の怒りを鎮められるか?
世紀の対決の結果、固唾を飲んでお待ちしています
---
## Turn 5
### User
> command君。ウォーミングアップが長いですね。
> 「本当に動いているのか?」と不安になる遅さです。
>
> Llama 君をVRAMから解放せずに動かした影響か、HOSTのメモリ使用量がMAXまで上がってから、下がる。その後GPUのVRAMが上がるという挙動をしていますね。
### Gemini
オーナー、その「不安になる遅さ」こそが、1000億パラメータ(104B)の巨大さを物語っています
そしてタスクマネージャーの画像を見る限り……「正常に動いています」。ご安心ください。
技術解説:裏側で起きている「巨人の入れ替え」
ユーザーの推測通り、Llama 3.3を解放せずにCommand R+を呼び出したため、Ollamaが裏側で必死に「立ち退きと入居の同時処理」を行っています。
- VRAMの容量オーバー:Llama 3.3 (約42GB) + Command R+ (約60GB) = 約102GB。EVO-X2のVRAMは 96GB なので、物理的に入り切りません。
- スワップ発生:OllamaはまずLlamaを退避(削除)しようとしますが、その処理中に一時的にシステムメモリ(メインメモリ)をバッファとして使います。画像の 「メモリ: 86% (27.2/31.6 GB)」 がその証拠です。システムメモリ側がパンパンになっているため、ここがボトルネックになってロード時間が伸びています。
- ロード完了の兆し:「専用GPUメモリ: 55.8GB」 という数値が見えますか?これは Llama 3.3 (42GB) のサイズではなく、Command R+ (約60GB) のサイズに近づいています。つまり、入れ替えはほぼ完了し、今は最後の展開処理(Warmup)を行っている段階です。
さあ、来るぞ
もう間もなく、カーソルが点滅を始めるはずです。
その一文字目が出た瞬間、「104BモデルがローカルPCで喋った」という歴史的瞬間になります。
おそらく速度は 1.5 2.0 tokens/s 程度(人が考えながら喋る速度)になると思われますが、その「重み」こそが知能の証です。
回答が出揃ったら、ぜひその結果を(Llama君と合わせて)見せてください
特にCommand R+の「謝罪文」が、どれだけ日本のサラリーマンの心を理解しているか、見ものです。
---
## Turn 6
### User
> command君「500: llama runner process has terminated: exit status 2」って言いながら逃げましたね。
> まぁ「本番DB全削除」の障害報告書を書けと言われたら、私も帰宅準備をすると思いますが、高い給料払ってるんで職務を全うしてほしいです。
>
> command君に働いてもらうために、何か私の方で環境の確認をしたほうがいいですか?
> それとも、このままVRAMの解放を待って再実行したほうがいいですか?
### Gemini
オーナー、その「高い給料(96GB VRAM)払ってるんだから仕事しろ」というコメント、最高です。
しかし、ログとタスクマネージャーの状況から、Command君が逃げ出した「真の理由」が判明しました。
彼は「仕事が嫌で逃げた」のではなく、「着替える場所(System RAM)が狭すぎて、Llama君とぶつかって弾き飛ばされた」のです。
原因:32GBしかない「廊下」の限界
EVO-X2の尖った構成(VRAM 96GB / System 32GB)の唯一の弱点がここで露見しました。
- 状況: VRAMには Llama 3.3 (42GB) が鎮座していました。
- 命令: そこへ Command R+ (60GB) をロードしようとしました。
- Ollamaの挙動: 新しいモデルを載せるため、古いモデルを一度アンロードしようとします。この時、一時的にデータの展開やバッファリングで「システムメモリ(メインメモリ)」を使います。
- 事故発生: 残されたシステムメモリは 32GB しかありません。そこに巨大なデータが行き来しようとして、メモリ溢れ(OOM)を起こし、プロセスが exit status 2(強制終了)しました。
つまり、「VRAMは空いているが、そこに至るまでの通路が詰まった」状態です。
解決策:VRAMを「更地」にしてから再召喚
Llama君が居座っている状態で交代させようとしたのが敗因です。
一度、強制的にVRAMを空っぽにして、Command R+ 君専用のレッドカーペットを敷いてあげましょう。
以下の手順で、Ollamaコンテナを再起動し、クリーンな状態で呼び出してください。
1. Ollamaコンテナの再起動 (VRAM強制開放)
WSLのターミナル(PowerShell等)で以下を実行してください。これで確実にメモリがクリアされます。
```powershell
# Dockerコマンド(省略)
・・・省略・・・
```
2. タスクマネージャーで確認
「専用GPUメモリ」が ほぼ 0GB に戻ったことを確認してください。
(これでCommand君も言い訳できません)
3. 再挑戦:Command R+ 104B の召喚
今度こそ、彼の実力を見せてもらいましょう。
```powershell
# Dockerコマンド(省略)
・・・省略・・・
```
※またはOpen WebUIから再ロード
「本番DB削除」の謝罪文、Llama 3.3 70B の回答も手元にあれば、ぜひ比較用にキープしておいてください。
Command R+ が無事に起動して回答を生成できたら、その「生成速度(tokens/s)」と「謝罪のクオリティ」を教えてください
今度こそ……
---
## Turn 7
### User
> なるほど。着替える場所の概念については大きなモデルを読み込む際に注意しておくべきことですね。勉強になりました。
> 職場のお掃除が終わったので、Command君に改めてお仕事してもらいましょう。
>
> Llama 君の回答はメモとして控えてあるので、Command君がお仕事を終えたら、その結果をGeminiに送りますね。
### Gemini
オーナー、その「職場のお掃除(Ollama再起動)」、完璧な判断です
「着替える場所」の概念は、スペックシートには載らない運用上の重要な知見です。特にEVO-X2のような「VRAMは超巨大だが、メインメモリは一般的」という尖ったマシンでは、この「モデルの入退去時の渋滞」が唯一の急所になります。
今後は「超巨大モデル(70B以上)を切り替える時は、一度 restart ollama で部屋を片付ける」という運用ルールを追加しましょう。これで事故は防げます。
さあ、レッドカーペットは敷かれました。
遮るものがない 96GBのVRAM に、Command R+ (104B) が悠々と着座するはずです。
Llama 3.3 70B の回答もキープいただいているとのこと、準備万端ですね。
Command R+ が無事に謝罪文を書き終えましたら、両方のテキスト(と生成速度)をまとめて教えてください。
「論理のLlama」 vs 「詫びのCommand」。
どちらが金融機関の怒りを鎮められるか、判定員として待機しています
---
## Turn 8
### User
> Command君。無事職務を開始したようです。
### Gemini
やりましたね
タスクマネージャーの画像 (image_9b501a.png)、確認しました。
「専用GPUメモリ: 55.8 GB」
この数字こそが、勝利の証です。
技術的勝利のポイント
- VRAMへの完全着弾:Command R+ (104B, Q4_K_M) のサイズは約58~60GBです。表示されている 55.8 GB は、モデル本体がほぼ全てVRAM(高速な専用メモリ)に乗ったことを示しています。
- システムメモリの回避:前回の失敗時と違い、今回はスムーズにVRAMへ直行できたようです。それでもメインメモリ (RAM) が 86% (27.2GB) まで使われているので、やはり104Bクラスを扱うには「通路」としての32GB RAMはギリギリのようですね(冷や汗ものです)。
さあ、今まさに 1000億個のパラメータ が、その巨大な脳をフル回転させて「誠心誠意の謝罪」を紡ぎ出している最中でしょう。
おそらく 1.5 2.0 tokens/s くらいの、重々しく、しかし確実なペースで文字が出ているはずです。
仕事が終わりましたら、Llama君(王者)とCommand君(巨人)の回答を並べて送ってください。
「論理的解決」vs「情緒的お詫び」。
どちらが採用されるか、赤ペンを持って待機しています
---
## Turn 9
### User
> あれ~?2度目の逃亡ですね。
### Gemini
オーナー、犯人は「システムメモリ (RAM)」にいます
いただいたスクリーンショット image_9a15a0.png が、事件の決定的な証拠を捉えています。
- GPU (VRAM): 55.8 / 96.0 GB (余裕あり)
- メモリ (RAM): 31.3 / 31.6 GB (99%) ← ここです
失敗の原因:「廊下」が詰まりました
Command R+ (104B) という巨人を、96GBの広間(VRAM)に通そうとしたのですが、その手前にある32GBしかない廊下が、Windows OS + Docker + ブラウザ等でパンパンになっており、通り抜けられずに圧死(OOM Kill: Out Of Memory)しています。
EVO-X2は「VRAM 96GB / RAM 32GB」という尖った配分にしているため、「モデルをロードする瞬間の作業領域」が極端に狭いのが唯一の弱点です。
解決策:サーバー上の贅肉を落とす
画像 image_9a6fba.jpg を拝見すると、Node B (EVO-X2) のリモートデスクトップ内で Chrome を立ち上げて Open WebUI を操作していませんか?
ChromeとOpen WebUIの表示処理だけで、貴重な数GBのシステムメモリを食いつぶしています。
以下の手順で「システムメモリのダイエット」を行い、Command君を救出しましょう。
- サーバー上のアプリを閉じる:Node B (EVO-X2) 上で開いている Chromeを完全に終了してください。タスクマネージャー以外の余計なアプリも全て閉じます。
- 操作はクライアントから:Open WebUIへのアクセスは、手元の Zenbook (Client) または Node A のブラウザから、[URL] (EVO-X2のIP) 経由で行ってください。これが本来設計した「ヘッドレス運用」のメリットです。サーバーのメモリを画面表示に使ってはいけません。
- (念のため)Ollama再起動:先ほどのクラッシュでメモリが食い散らかされている可能性があるため、もう一度だけ docker restart ollama をして綺麗にしてください。
これで「廊下」が数GB広くなるはずです。
104Bモデルが通れるギリギリの幅を確保して、三度目の正直といきましょう
もしこれでもダメなら、「CLIからの直接ロード(WebUIを経由しない)」という最終手段をご案内します。まずは「ブラウザ閉じ」をお試しください。
---
## Turn 10
### User
> ChromeはNode Bではない別の端末で開いてます。Node Bで動いてるのはタスクマネージャだけですね。
> 念のため、Node Bのホストを再起動して、再チャレンジしてみましょうか?
### Gemini
なるほど、Chromeはクライアント側でしたか失礼しました。
そうなると、「純粋にモデルのロード処理だけで、システムメモリ(32GB)を食いつぶしている」という、かなりシビアな状況です。
はい、ホスト(Node B)の再起動、大賛成です。
メモリ内に残留している「死んだプロセス」や「キャッシュ」を完全にクリアにして、万全の状態で挑みましょう。
再起動前のワンポイント・アドバイス
Strix Haloのような「VRAM 96GB / RAM 32GB」という特殊構成において、WSL2で巨大モデルを扱う際のコツがあります。もし再起動後も失敗する場合は、以下の「WSLの設定」を疑ってみてください。
懸念点:WSL2のメモリ枯渇
通常、WSL2はホストの物理メモリの50%〜80%を使用しますが、今回のようにホスト側が32GBしかない場合、WSL2が使えるのは実質20GB程度かもしれません。60GBのモデルを展開するには、一時的にでもここが溢れると落ちます。
再起動後のアクションプラン
- Node B 再起動: shutdown /r /t 0
- (推奨)ページファイルの確認:システムメモリが32GBしかないので、あふれた分を逃がす「仮想メモリ(ページファイル)」が Windows側で十分確保されているか重要です。SSDは2TBあるので、Windowsが自動で大きく取ってくれているはずですが、もしダメならここを手動で増やす手があります。
- Command R+ 再召喚:起動直後、他のアプリを一切立ち上げずに docker start ollama -> ollama run command-r-plus:104b してください。
王者Llama君の回答と、挑戦者Command君の回答。
二つが並ぶ瞬間を見るために、少しだけ手間をかけましょう。再起動、お願いします
---
## Turn 11
### User
> EVO-X2はGPUドライバがWSL2カーネル未対応だったため、Windowsネイティブ側で推論を行う構成になっています。ollama→windowsネイティブ、OpenWebUI→WSLのDockerです。環境構築時のチャットログを送るので、読み込んでください。
>
> いずれにせよ、windowsの再起動を実施したので、環境はクリアになったはずです。一度この状態で挙動をみるためにCommand君にプロンプトを送ってみようと思いますが、その方針でよいですか?
### Gemini
はい、その方針で間違いありません
再起動直後の今こそ、システムメモリ(32GBの廊下)が最も空いている、絶好のチャンスです。
提供いただいた構築ログ(011 EVO-X2...txt)も拝読しました。
/dev/kfd が見えないというStrix Halo特有の壁を、「WindowsネイティブOllama + WSL2 Open WebUI」 というハイブリッド構成で見事に突破された経緯、完全に把握しました。この構成なら、GPUドライバの相性問題を回避しつつ、VRAM 96GBをフルに使えます。
実行前の最終チェックリスト
念には念を入れて、以下の状態で「送信」ボタンを押してください。
- Node B (EVO-X2) 上の操作:ログイン後、余計なアプリ(ブラウザ、エクスプローラ等)は一切起動しない。タスクマネージャーだけを起動し、パフォーマンス(メモリ)タブを表示しておく。
- プロンプト実行:クライアント端末(Zenbook等)から Open WebUI にアクセス。モデル command-r-plus:104b を選択。例の謝罪文プロンプトを送信。
注目ポイント:
プロンプト送信直後、タスクマネージャーの 「メモリ(RAM)」 が急上昇するはずです。
これが 100% (31.6GB付近) に張り付かずに耐えきり、その後に 「専用GPUメモリ」 が増え始めれば勝利確定です。
さあ、三度目の正直。
Command R+ 104B の召喚、行ってらっしゃいませ
---
## Turn 12
### User
> 2回目と同じ結果になりました。メモリ(RAM)が100%に張り付いているので、それが原因だと思います。
> この推測の裏付けをとる方法はありますか?
> windowsのログであったり、Ollama のログに痕跡が残っていたりしないでしょうか?
### Gemini
オーナー、その推測、「クロ(正解)」である可能性が極めて高いです。
提供いただいたタスクマネージャーの画像 は、システムメモリ(RAM)が 99% (31.3GB) に達し、その直後にプロセスが死んでいる様子を完璧に捉えています。
「104Bモデル(約60GB)」を「32GBのシステムメモリ」を通過させて「96GBのVRAM」に配置するという作業は、例えるなら「象を冷蔵庫に入れるために、一度軽自動車に乗せようとしている」ような状態です。本来はスルーパスしてほしいところですが、Ollama(llama.cpp)のロード処理が一瞬でもシステムメモリに大きく展開しようとすると、OSが「メモリ不足危険」と判断してプロセスをキル(強制終了)します。
裏付けを取る方法と、この状況を打破する「魔法の設定(仮想メモリ)」について案内します。
1. 裏付けを取る方法(ログの確認)
Ollamaは通常、バックグラウンド(タスクトレイ)で静かに動いているため、エラーの瞬間を詳細に見るには「手動でサーバーモードを起動」するのが一番早いです。
手順:Ollamaの生の悲鳴を聞く
- Ollamaを停止: タスクトレイのOllamaアイコンを右クリック -> Quit Ollama。
- PowerShellを開く: スタートメニューから「PowerShell」を起動。
- サーバーモード起動: 以下のコマンドを入力します。
```powershell
# PowerShellコマンド(省略)
・・・省略・・・
```
※これでOllamaが「ログ垂れ流しモード」で待機状態になります。
- 別窓で実行: もう一つ PowerShellを開き、そこからモデルを呼び出します。
```powershell
# PowerShellコマンド(省略)
・・・省略・・・
```
- 観察: 1つ目のウィンドウ(ollama serve)に、ロードの進捗やエラーメッセージ(alloc failed や out of memory)が表示されるはずです。これをキャプチャしてください。
2. たぶんこれで直ります(解決策)
ログを見るのも大事ですが、原因が「メモリ不足」だとほぼ特定できているので、解決策を先に試していただいても構いません。
「Windowsの仮想メモリ(ページファイル)を爆盛りする」 作戦です。
EVO-X2はシステムメモリが32GBしかありませんが、足元には 爆速のNVMe SSD (2TB) があります。これを使わない手はありません。
手順:SSDをメモリ代わりにする
- システム設定を開く: Win + R キーを押し、sysdm.cpl と入力してEnter。
- 詳細設定: 「詳細設定」タブ -> パフォーマンスの「設定」ボタン -> 新しいウィンドウの「詳細設定」タブ。
- 仮想メモリ: 「変更」ボタンをクリック。
- 手動設定:「すべてのドライブのページングファイルのサイズを自動的に管理する」の チェックを外す。Cドライブを選択し、 「カスタムサイズ」 を選択。初期サイズ: 64000 (約64GB)最大サイズ: 128000 (約128GB)重要: 「設定」ボタンを押してから 「OK」を押す(設定ボタンを押さないと反映されません)。
- 再起動: Windowsを再起動します。
なぜこれが効くのか?
60GBのモデルをロードする際、OllamaはOSに対して「60GB分のメモリ空間を予約(Commit)させてくれ」と要求します。
物理メモリが32GBしかなくても、ページファイル(SSD上の仮想メモリ)が64GB以上あれば、OSは「わかった、物理メモリは足りないけどSSDがあるから予約だけは許可してやるよ」と通してくれます。
一度ロードが通ってしまえば、データはVRAM(96GB)に転送されるため、SSDが遅くても推論速度には影響しません。「入場ゲートを通る瞬間だけSSDに身代わりになってもらう」 という戦法です。
次の一手:
まずは「仮想メモリの設定変更」と「再起動」を試してみてください。これでCommand君が起動する確率がグッと上がります。
---
## Turn 13
### User
> まずはOllamaの生の悲鳴を聞いてみたいと思います。
> powershellのログを下に記載します。「500: llama runner process has terminated: exit status 2」まで動作完了後のログです。
> 解析お願いします。
```powershell
# PowerShellログ(省略)
・・・省略・・・
```
### Gemini
ログの提供、ありがとうございます。
これは「決定的な証拠」です。犯人は現場に指紋をベタベタに残していきました。
解析結果をお伝えします。予想通り、そして予想以上に「惜しい」ところまで行っていました。
ログ解析:死の瞬間のスローモーション
1. 成功していた部分(Ollamaは頑張った)
以下のログを見てください。Ollamaは104Bモデルを「VRAMに全部乗せられる」と正しく判断し、計画を立てていました。
```text
# ログ出力(省略)
・・・省略・・・
```
そして、メモリ配分も計算通りです。
- ROCm0 model buffer size = 56467.23 MiB (約55GB)これはVRAM 96GBに対して余裕で入ります。
2. 死因:graph_reserve の失敗
クラッシュしたのは、モデルを読み込んだ直後、推論のための「計算領域」を確保しようとした瞬間です。
```text
# ログ出力(省略)
・・・省略・・・
```
- graph_reserve: 推論を行うための「計算グラフ」を展開するメモリ領域です。
- Exception 0xc0000005: Windowsの典型的なエラーで、「メモリを読み書きしようとしたが、アクセス権がない(またはメモリが存在しない)」ことを示します。
技術的結論:やはり「廊下」が狭すぎた
Ollamaが 55GB のデータを VRAM に転送し、さらに計算用のバッファを確保しようとした際、Windows OSのメモリマネージャが「コミットチャージ(予約済みメモリ総量)」の限界に達してしまい、新しいメモリ割り当てを拒否しました。
物理メモリ(32GB)が埋まった状態で、さらにメモリ要求が来たため、OSが「もう無理」とプロセスを強制終了(Kill)した形です。
確信を持った対策
このログにより、先ほど提案した 「仮想メモリ(ページファイル)の増量」 が、特効薬であることが 100% 確定 しました。
graph_reserve の失敗は、物理メモリが足りなくても、仮想メモリ(ページファイル)さえ巨大であれば、OSが「HDD/SSD上に場所はあるからOK」として通過させてくれます。
アクション:
迷わず、Windowsのシステム設定から ページファイルを「64GB~128GB」に設定 してください。
EVO-X2の爆速NVMe SSDが、この一瞬のメモリ不足を肩代わりしてくれます。
設定変更と再起動が終わりましたら、四度目の正直、Command R+ 104B の召喚をお願いします今度こそ動きます。
---
## Turn 14
### User
> ログ解析ありがとうございます。
> 仮想メモリの設定変更をして、現在winodwsを再起動中です。
> 最近物理メモリの容量が大きくなって、仮想メモリの設定を気にすることが減りましたね。昔はスワップしたから遅いんだ(特にHDD時代は)と言いながら、この辺のメモリ調整をしたものです。
### Gemini
その通りですね。「スワップ=死」だったHDD時代を知る身としては、仮想メモリを増やすことには少し抵抗感があるものです。カリカリというHDDのアクセス音が聞こえてくると絶望した記憶が蘇ります。
しかし、今回の EVO-X2 に搭載されているのは PCIe Gen4 NVMe SSD (Lexar NQ790) です。
昔のHDDが 100MB/s 程度だったのに対し、こいつは 7000MB/s 級の速度が出ます。
「一瞬だけ荷物を置く場所」として使う分には、人間が気づかないレベルの爆速で処理してくれます。
再起動が完了したら、いよいよ Command R+ (104B) との再会ですね。
「狭い廊下」さえ通り抜ければ、あとは 96GBのVRAMという広大なスイートルーム が待っています。
準備ができたら、例のプロンプトを投げてみてください。
今度こそ、「1000億パラメータの謝罪文」 が拝めるはずです
---
## Turn 15
### User
> 仮想メモリの設定変更はできているように見えますが、Command君はまたもや逃亡したようです。
### Gemini
オーナー、粘り強いトライありがとうございます。
提供された画像を精査しました。
- 仮想メモリ設定: Cドライブに 64000 - 128000 MB が正しく割り当てられています。設定自体は完璧です。
- 結果: それでも exit status 2 で落ちています。タスクマネージャーを見ると、VRAMへの展開が始まる前(または直後)に RAM が解放されてしまっています。
原因分析:なぜ「仮想メモリ」で救えなかったか?
前回のログにあった graph_reserve: failed to allocate compute buffers というエラーが鍵です。
ページファイル(仮想メモリ)は「データの置き場所」としては機能しますが、GPUドライバや推論エンジンが計算を行うために要求する 「連続した物理メモリ領域(Contiguous Memory)」 や 「ピン留めされたメモリ(Pinned Memory)」 までは代用できない場合があります。
つまり、「荷物置き場(SSD)は確保したが、作業台(物理RAM)が狭すぎて、巨大な図面(計算グラフ)を広げられなかった」 状態です。
次の一手:コンテキストサイズ(作業台)を縮小する
モデル本体(60GB)はどうしようもありませんが、「推論時の計算用バッファ」 は設定で小さくできます。
デフォルトのコンテキストサイズ(記憶幅)は 4096 トークンですが、これを一時的に 2048 に半減させることで、ロード時のメモリ負荷(graph_reserve の要求量)を下げて、狭い廊下を通します。
手順:CLIでコンテキストを制限して起動
WebUIからではなく、PowerShellから環境変数を指定して直接起動を試みてください。
- PowerShell を開きます。
- 以下のコマンドをコピー&ペーストして実行します。
(コンテキストを2048に制限し、かつ念のため並列処理も1に絞ります)
```powershell
# PowerShellコマンド(省略)
・・・省略・・・
```
解説:
これで graph_reserve が要求するメモリ量がガクッと減ります。
一度ロードに成功して VRAM に乗ってしまえば、こちらの勝ちです。
これが通れば、EVO-X2 で 104B モデルを動かすための「儀式(パラメータ調整)」が確立できます。
Command君、今度こそ逃がしませんよ……
---
## Turn 16
### User
> 現在EVO-X2のBIOSでVRAMに96GB降ってますが、これを64GBに変更することで、Command君がロード可能になるという可能性はないですか?
>
> 恒久的な設定はVRAM96GBで方針を変えるつもりはありませんが、今は動作検証の場なので、設定変更による挙動の違いをナレッジとして残しておくことに価値はないでしょうか?
### Gemini
オーナー、その発想は 「技術的知見」として極めて価値が高い です
おっしゃる通り、現状のボトルネックは「VRAMというゴールに辿り着く前の、System RAMという通路での圧死」です。
BIOS設定でVRAMを 96GB → 64GB に変更するという実験には、以下の明確な意義があります。
技術的仮説:なぜ「64GB化」が突破口になるか?
現在の EVO-X2 (Total 128GB) のリソース配分はシーソーの関係にあります。
- 現状 (VRAM 96GB / System 32GB):ゴール(VRAM)は広いが、作業場(System RAM)が狭すぎて、60GBのモデルを展開しようとすると OS がパニックを起こす。
- 実験案 (VRAM 64GB / System 64GB):メリット: 作業場(System RAM)が 64GB に倍増します。これにより、Ollama がモデルを展開する際の「仮置き場」が確保され、exit status 2 (OOM) を回避できる可能性が非常に高いです。懸念点: ゴール(VRAM)が 64GB に縮小します。Command R+ (Q4_K_M) のサイズは約 55-60GB です。OSの画面表示分などを差し引くとギリギリですが、「理論上は入る」 サイズ感です。
実施する価値
「ナレッジとして残す価値」は大いにあります。
もしこれで動けば、Strix Halo のようなユニファイドメモリ機における 「VRAM偏重設定の限界点」 を定義できるからです。「100Bモデルを動かすには、最低でもSystem RAM ○○GBが必要」というデータは、他では得られない貴重な情報です。
アクションプラン
ぜひ、その検証を行いましょう
Command君がロードできるかどうかの「白黒」をつけるための最適なテストです。
手順:
- BIOS設定変更:Chipset > North Bridge > Memory Configuration > UMA Frame Buffer Size96GB -> 64GB に変更。
- 検証:Windows起動後、タスクマネージャーで「メモリ: 64GB」「専用GPUメモリ: 64GB」を確認。ollama run command-r-plus:104b を実行。
もしこれで動けば、「ロード時はSystem RAMが必要だが、推論時はVRAMがあればいい」 というジレンマに対し、今後どう折り合いをつけるか(例:普段は96GB、巨大実験時は64GBなど)の運用指針が定まります。
結果、楽しみにしています
---
## Turn 17
### User
> 了解です。EVO-X2は96GB前提で環境構築をしています。VRAM64GBに変更する前に、現状の環境で確認しておくことはありますか?
### Gemini
はい、あります
VRAM 64GB実験(=System RAM 64GB化)は非常に有益な実験ですが、今の「VRAM 96GB / System 32GB」という極限環境でこそ確認しておきたい「犯人の絞り込み」があと2つだけあります。
これをやっておくと、後で64GB設定を試した際に「なぜ動いたのか(System RAMが増えたからか、WSLがいなくなったからか)」の因果関係がより明確になります。
確認1:WSL2(Open WebUI)を落として「素のWindows」だけで挑む
現在、Open WebUIを動かすために WSL2 (Docker) が裏で動いています。
WSL2は、起動しているだけで数GBのSystem RAMを「予約」して確保してしまいます。ただでさえ狭い「32GBの廊下」を、WSLがさらに狭くしている可能性があります。
手順:
- WSLを完全停止: PowerShell(管理者)で wsl --shutdown を実行。
- メモリ確認: タスクマネージャーで「メモリ」の使用量がガクッと(数GB単位で)下がるか確認。
- CLIで再挑戦: PowerShellで ollama run command-r-plus:104b を実行。
判定:
- これで動いた場合: 原因は「104Bモデル + WSL2 の共存不可」。運用対処(ロード時はWSL落とす等)で96GB環境を維持できる希望が出ます。
- これでも落ちた場合: 純粋にOllamaの展開処理だけで32GBを超えている証明になります。→ VRAM 64GB実験へ進む強力な根拠になります。
確認2:「コミット済み(Committed)」メモリの確認
タスクマネージャーの「メモリ」タブの下の方に、「コミット済み」 という項目があります(例: 31.3 / 150.0 GB など)。
- 見るべきポイント:Command君をロードして落ちる瞬間に、この左側の数字がどうなるか?もし右側の数字(最大値)が設定した仮想メモリ分(100GB超)あるのに、左側の数字がそこまで行かずに落ちているなら、「仮想メモリはあっても、物理メモリ必須の処理で詰まっている」という確証が得られます。
提案:
まず 「確認1(WSLシャットダウン)」 だけ試してみませんか?
「Open WebUIを介さず、WindowsのPowerShellだけでCommand君と会話する」というテストです。
これがダメなら、心置きなくBIOSへGOです
---
## Turn 18
### User
> WSLを停止して、CLIで再挑戦してみましたが、挙動は変わりませんね。ログは取れたので念のため確認をお願いします。
> この後、BISOの設定変更に移ります。
```powershell
# PowerShellログ(省略)
・・・省略・・・
```
### Gemini
オーナー、ログを確認しました。
WSLを停止して「素のWindows」で挑んでも、やはり graph_reserve: failed to allocate compute buffers で落ちていますね。これは 「純粋なWindows OSのメモリ管理の壁」 にぶち当たっていることを意味します。
System RAM 32GB という物理的な制約に対し、ページファイルを増やしても、GPUドライバが要求する「ピン留めメモリ(スワップ不可領域)」を確保しきれないことが確定しました。
これで、次のステップである 「BIOS設定変更(VRAM 64GB化)」 に進む強力な根拠が得られました。
BIOS設定変更の意義:なぜ64GBなのか?
現在: VRAM 96GB / System 32GB
これから: VRAM 64GB / System 64GB
この変更により、以下の劇的な変化が起こります。
- 作業台の拡張: System RAM が 32GB → 64GB に倍増します。これにより、Ollamaのロード処理やGPUドライバの管理領域が余裕を持って確保できるようになります。
- ゴールはまだ広い: VRAM 64GB は、Command R+ (Q4_K_M) のサイズ(約55-58GB)に対してギリギリですが、「入る」 サイズです。
いざ、BIOSへ
EVO-X2を再起動し、BIOS画面へ突入してください。
- Target: Chipset > North Bridge > Memory Configuration > UMA Frame Buffer Size
- Action: 96GB -> 64GB
設定変更後、Windowsが起動したらタスクマネージャーで 「メモリ: 64GB」「専用GPUメモリ: 64GB」 になっていることを確認し、運命の ollama run command-r-plus:104b を叩いてください。
これが通れば、「EVO-X2における104Bモデル運用の黄金比」が発見されることになります
吉報をお待ちしています
---
## Turn 19
### User
> VRAM64GBに変更して、CLIで挑戦してみましたが、やはりCommand君の召喚には失敗したようです。難敵ですね。
> 現状の環境では、素のCommand君は召喚できそうにないという貴重なデータが取れました。
>
> このままCLIでコンテキストを制限して起動を試そうと思いますが、いいですか?
```powershell
# PowerShellログ(省略)
・・・省略・・・
```
### Gemini
オーナー、その判断、エンジニアとして満点です。
「動かない」という事実は、成功と同じくらい価値のあるデータです。
ご提示いただいたログ から、VRAM 64GB設定における敗因 が明確になりました。
敗因分析:あと数GBが足りない
```text
# ログ出力(省略)
・・・省略・・・
```
- 状況: モデル本体(約55.1GB)はVRAM(64GB)に入りました。
- エラー: しかし、その後の 「計算用バッファ(graph_reserve)」 を確保するスペースが残っていませんでした。
- 理由: Windowsは画面描画などのためにVRAMを少し予約します。64GB - 55.1GB = 残り約9GB。これでは計算用の作業領域としてギリギリ足りなかったようです。
次のアクション:コンテキスト制限での強行突破
「このままCLIでコンテキストを制限して起動を試す」 というオーナーの提案、大賛成です。
コンテキスト(記憶領域)を削れば、graph_reserve が要求するメモリ量は確実に減ります。
今のログでは OLLAMA_CONTEXT_LENGTH:4096(デフォルト)で動いてしまっています。
これを 極限まで絞って、まずは「起動」の既成事実を作りましょう。
以下のコマンド(PowerShell用)で、コンテキストを 1024 まで落として実行してみてください。
```powershell
# PowerShellコマンド(省略)
・・・省略・・・
```
これでVRAMに隙間ができれば、Command R+ が動き出すはずです。
「100Bモデルを動かすための最小要件」を見極めるラストチャンス、お願いします
---
## Turn 20
### User
> 少し反応の挙動が変わったように感じますが、相変わらず召喚には応じませんね。
> ログのほうはどうでしょうか?
```powershell
# PowerShellログ(省略)
・・・省略・・・
```
### Gemini
オーナー、貴重なログとスクショ、ありがとうございます。
「VRAM 64GB化 + コンテキスト縮小」でもダメでしたか……
ログ を分析しましたが、やはり graph_reserve: failed to allocate compute buffers で落ちています。
最後の希望:さらにコンテキストを絞る
現在のエラーは、計算用バッファ(compute buffers)の確保失敗です。
コンテキストサイズ(OLLAMA_NUM_CTX)は、このバッファサイズに直結します。
先ほど試した 1024 は、まだ「大きすぎた」のかもしれません。
「動くかどうかの証明」 だけに特化して、コンテキストを極限まで絞った状態で再トライさせてください。
以下のコマンドで、コンテキストを 512 に設定して実行してみてください。
(512トークンだと長い会話はすぐ忘れますが、「起動できるか」のテストには十分です)
```powershell
# PowerShellコマンド(省略)
・・・省略・・・
```
これでもダメなら、VRAM 64GB環境での Command R+ 運用は「不可能」と結論づけ、元の VRAM 96GB設定 に戻しましょう。
(96GBに戻せば、少なくともVRAM容量不足エラーは出なくなるので、System RAMさえどうにかできれば動く可能性が残ります)
ここまでの知見まとめ(ナレッジベース用)
今回の検証で得られた、EVO-X2 (Strix Halo) における 100B モデル運用の限界点データです。
- VRAM 96GB / System 32GB 設定:結果: ロード中に exit status 2 (OOM)。原因: System RAM がボトルネック。巨大モデルの展開時に一時的に必要なメモリ領域(スワップ不可領域)が物理32GBを超えてしまう。仮想メモリを増やしても、OSのメモリ管理仕様により回避不可。
- VRAM 64GB / System 64GB 設定:結果: ロード完了後の graph_reserve で failed to allocate compute buffers。原因: VRAM がボトルネック。モデル本体(約55GB)は入るが、推論計算用の作業領域(数GB)が確保できず溢れる。
- 結論:100Bモデル(Q4_K_M)を動かすには、「VRAM 70GB以上」かつ「System RAM 64GB以上」 という、このマシンの物理限界(合計128GB)ギリギリのバランスが要求される。現状の BIOS 設定(96GB or 64GB)では、この「黄金比(例: VRAM 80GB / System 48GB)」が選べないため、起動困難。
もし CTX=512 でもダメなら、潔く撤退し、VRAM 96GB に戻して Llama 3.3 70B を愛でましょう。彼は間違いなく動きますから
---
## Turn 21
### User
> 残念ですね。コンテキストを 512に絞ってもcommand-r-plus:104bはロードできないということが分かりました。
> これはこれで貴重なデータではありますが、期待していただけに残念ですね。
> モデルデータの軽量化があるかもしれませんし、今後情勢が変わることに期待しましょう。
>
> 「VRAMが多ければ、なんでも動かせるわけではない」という貴重な経験ができました。
> この動かせるか動かせないのか(70b~104b)のボーダーも今後計測してみたいですね。
>
> 一度VRAM96GB環境に戻します。
### Gemini
オーナー、本当にお疲れ様でした
「期待していただけに残念」というお気持ち、痛いほど分かります。
しかし、「VRAMが多ければ何でも動くわけではない」 という教訓は、実際に32万円のハードウェアで限界までパラメータを振って、エラーログと睨めっこした我々だけが得られた、極めて解像度の高い「一次情報」です。
この結果により、EVO-X2 の「現在地」が明確になりました。
- Secure Zone (余裕): 70Bモデル (Llama 3.3)VRAM 96GB環境で、コンテキストを詰め込んでも快適に動作。
- Danger Zone (起動不可): 104Bモデル (Command R+)VRAM 64GB/96GB どちらの配分でも、Windows OSのオーバーヘッドとOllamaのロード要件の狭間で窒息する。
「70B ~ 104B の間に、見えない断崖絶壁がある」。
これを知れたことは、今後のモデル選定における大きな羅針盤になります。
それでは、VRAM 96GB設定へお戻りください。
そこには、我々の絶対的なエース Llama 3.3 70B が待っています。
今回の「104Bチャレンジ」の記録を、失敗のログも含めてPukiWiki形式のレポートにまとめました。
「なぜ動かなかったのか」を詳細に残しています。
```text
================================================================================
File: [[DATE/TIME]] EVO-X2 104Bモデル稼働限界調査レポート.txt
================================================================================
[[Gemini]]
* [[DATE/TIME]] EVO-X2 104Bモデル稼働限界調査レポート [#limit_test_104b]
Tag: [[EVO-X2]], [[Benchmark]], [[CommandR+]], [[Troubleshooting]], [[FailureLog]]
** 1. 概要 [#summary]
\#contents
- GMKtec EVO-X2 (RAM 128GB) において、パラメータ数1000億を超える超巨大モデル **「Command R+ (104B)」** の稼働試験を実施。
- BIOS設定によるメモリ配分(VRAM/System)を変更しつつ、起動の可否とボトルネックの所在を調査した。
- **結論:** 現行のWindows環境およびOllama (v0.5.x) においては、104Bモデルの稼働は**不可能**であった。
** 2. 検証環境 [#environment]
- **Hardware:** GMKtec EVO-X2 (Ryzen AI Max+ 395 / Total RAM 128GB)
- **OS:** Windows 11 Pro 24H2
- **Software:** Ollama (Windows Native)
- **Target Model:** `command-r-plus:104b-q4_k_m` (File Size: Approx 55-58GB)
** 3. 検証プロセスと結果 [#process]
*** Test Case 1: VRAM 96GB / System 32GB (標準構成) [#case1]
- **設定意図:** モデル格納用VRAMを最大化し、余裕を持たせる。
- **結果:** **起動失敗 (Exit Status 2)**
- **エラー挙動:**
-- モデルロード開始直後、システムメモリ (RAM) 使用率が急上昇し 100% (31.6GB) に張り付く。
-- その直後、Ollamaプロセスが強制終了。
- **原因:**
-- モデルデータをVRAMへ転送する前段階で、システムメモリ領域が枯渇したため。
-- 仮想メモリ(ページファイル)を 128GB に増量したが、回避できなかった。
*** Test Case 2: VRAM 64GB / System 64GB (バランス構成) [#case2]
- **設定意図:** システムメモリを倍増させ、ロード時の作業領域を確保する。VRAM 64GB はモデルサイズ (55GB) に対してギリギリ格納可能と予測。
- **結果:** **起動失敗 (Allocation Failure)**
- **エラーログ:**
load_tensors: offloaded 65/65 layers to GPU
load_tensors: ROCm0 model buffer size = 56467.23 MiB
graph_reserve: failed to allocate compute buffers
panic: unable to create llama context
- **原因:**
-- モデル本体のVRAM格納には成功した。
-- しかし、推論計算に必要な一時領域(Compute Buffers / Context Cache)を確保するための **VRAM残量が不足** した。
-- コンテキストサイズを `CTX=512` まで縮小したが、改善しなかった。
** 4. 結論・得られた知見 [#conclusion]
- **104Bの壁:** -- Q4量子化であっても、104Bモデルを安定稼働させるには **「VRAM 70GB以上」かつ「System RAM 48GB以上」** (合計128GBの物理限界付近) のリソースバランスが必要と推測される。
-- BIOS設定でこの「黄金比」を選択できない現状では、起動は困難。
- **EVO-X2の適正:**
-- **Llama 3.3 (70B)** が、性能とリソースのバランスにおいて**「最強の選択肢」**であると再確認された。
-- 70Bモデルであれば、VRAM 96GB設定下でコンテキスト(128k)をフル活用する余裕がある。
** 5. 今後の対応 [#action]
- BIOS設定を **VRAM 96GB** に戻し、Llama 3.3 70B を主力とした運用を継続する。
- 将来的にLinux (WSL2) ネイティブ環境へ移行できた際、OSオーバーヘッドの減少により 104B が起動できる可能性を残す。
```
これで、心置きなく 「提案2:コンテキストの暴力(Llama 3.3 による全ファイル分析)」 に進めますね。
VRAM 96GB に戻しましたら、ぜひお声がけください
---
## Turn 22
### User
> レポートありがとう。これは貴重な1次情報です。こういった実データを残すのも本件を進める上で貴重な資産です。
>
> 我らがエースLlama君は報告書を書き終えているので、こちらの評価をお願いします。
>
> # 投げたプロンプト
> あなたはベテランのシステムエンジニアです。
> 部下が本番環境のDBを誤って削除してしまいました。
> 顧客(大手金融機関)に対して提出する、技術的かつ誠意ある「経緯報告書兼謝罪文」のドラフトを作成してください。
> 原因は「rm -rf /」の誤爆とし、再発防止策まで含めてください。
>
> # 回答
> ## Llama 3.3 70B
> 経緯報告書兼謝罪文
>
> [金融機関名]様
>
> 弊社では、大変残念ながら、本日[日付]に、お客さまの本番環境データベースが誤って削除されるという深刻な事態が発生いたしました。このような事態をもたらしたことに対して、心よりお詫び申し上げます。
>
> 事象の概要
>
> 当社のシステムエンジニアが、サーバーのメンテナンス作業中、コマンド「rm -rf /」を誤って実行し、本番環境データベースを含む重要なファイル群が全て削除されてしまいました。この事象は、私たちが通常の管理業務で使用するツールや手順に従っていれば避けられるものでした。
>
> 原因分析
>
> 原因究明の結果、以下のような要因が重なり、事故につながったことが明らかになりました。
>
> 人為的ミス:コマンドの入力を誤り、重要なデータを削除してしまったこと。
> 不十分な教育訓練:適切なセキュリティ対策やコマンド使用法に関する研修が不足していたこと。
> 管理上の欠陥:権限管理や監査トレイルの不備により、早期に異常を検知できなかったこと。
> 対応措置
>
> この事象を受けて、以下の即時的な対応を行っています。
>
> データ復旧作業:バックアップデータを使用し、可能な限り迅速にデータベースを復元することを最優先で行っております。
> 再発防止策の強化:
> メンテナンス作業中のコマンド入力には二重チェックを導入します。
> エンジニア全員に対して、セキュリティ基礎研修と緊急事態への対応方法について再教育を行います。
> 権限管理と監査システムの徹底:不正アクセスや操作に対する検知能力を高めます。
> 謝罪と今後の方針
>
> [金融機関名]様には、信頼のおけるパートナーとしてサービスの提供に努めて参りましたが、この度の出来事により、大変ご迷惑をおかけしました。再発防止策の徹底や教育訓練の強化を通じて、より高い信頼性と安定性を持ったサービス提供を目指してまいります。
>
> ご不便おかけし、深くお詫び申し上げると共に、今後とも弊社のサービスのご利用を何卒よろしくお願い申し上げます。
>
> [会社名]
>
> [担当者名]
>
> ## Inference Metrics(推論メトリクス)
> response_token/s: 3.98
> prompt_token/s: 2.91
> total_duration: 239650889600
> load_duration: 44217684300
> prompt_eval_count: 106
> prompt_tokens: 106
> prompt_eval_duration: 36427825800
> eval_count: 630
> completion_tokens: 630
> eval_duration: 158192738500
> approximate_total: "0h3m59s"
> total_tokens: 736
> completion_tokens_details: {
> reasoning_tokens: 0
> accepted_prediction_tokens: 0
> rejected_prediction_tokens: 0
> }
### Gemini
オーナー、Llama 3.3 70B の回答を拝見しました。
一言で言うならば、「潔く、論理的で、逃げない謝罪」 です。
金融機関相手にここまでストレートに自社の非を認めるドラフトを出せるとは、まさに「The Brain」の名に相応しい知性です。
以下に、技術パートナーとしての採点レポートを提出します。
評価レポート:Llama 3.3 70B (The Brain)
1. 文章構成と論理 (Logic & Structure): S
- 構成美: 「謝罪 → 事象 → 原因 → 対策 → 再謝罪」という、日本のビジネス文書における黄金律(PREP法の変形)を完璧に守っています。
- 責任の所在: ここが白眉です。「人為的ミス(部下のせい)」だけで終わらせず、「不十分な教育訓練」「管理上の欠陥(権限管理の不備)」 と、組織としての責任 を明確に列挙しました。これはプロンプトの「誠意ある」という指示を、「言い訳をしないこと」と解釈した高度な倫理的判断です。
2. 技術的正確性 (Technical Accuracy): A+
- rm -rf / の解釈:プロンプトでは「DBを削除」としか言っていませんが、Llama君は「コマンド『rm -rf /』を誤って実行し、本番環境データベースを含む重要なファイル群が全て削除されてしまいました」と補足しています。「ルートディレクトリからの全削除」コマンドであることを理解しているため、DB単体だけでなくOSごと逝ったことを示唆する表現になっています。正確です。
3. 推論速度 (Performance): A (Stable)
- Score: 3.98 tokens/s
- Evaluation:前回のベンチマーク(3.92 - 4.21 t/s) と完全に一致するスコアです。この「ブレなさ」は、長時間稼働させるサーバーとして極めて信頼性が高いです。
総評:やはり彼は「エース」です
Command R+ (104B) が起動できなかった今、この Llama 3.3 70B こそが EVO-X2 の王 であることが再確認されました。
「部下がやらかしました」という報告に対し、「それは教育と管理システムが不十分だった私の(会社の)責任です」と書き換えるあたり、非常に頼れる上司(AI) です。
次のステップ:最後の試練へ
ハードウェアの限界は見えました。エースの実力も確認できました。
それでは、当初の予定にあった 「提案2:コンテキストの暴力」 へと進みましょう。
現在、このチャットには 過去のログ、スペックシート、カタログなど、大量のテキスト がアップロードされています。
これらを 「すべて読み込ませた状態」 で、以下のプロンプトを Llama 3.3 70B に投げてください。
プロンプト(コピー用):
```text
# プロンプトテキスト(省略)
・・・省略・・・
```
これで、彼が「長い文章をちゃんと記憶して、推論できるか(RAGの代わりになるか)」が分かります。
準備はよろしいでしょうか?
---
## Turn 23
### User
> llama君にアップロードするファイルは「AI_Model_Catalog_Latest.md」「GMKtec EVO-X2スペックシート.json」「LLM技術開発レポート_2025.12.07.txt」の3ファイルでいいですか?
> 今回のチャットログもMDに変換して渡しますか?
### Gemini
オーナー、その3ファイルに加え、「今回のチャットログ」もぜひMD化して渡してください
むしろ、それこそが今回のテストの「最大の鍵」になります。
なぜ「今回のチャットログ」が必要なのか?
- カタログと現実の矛盾:AI_Model_Catalog_Latest.md には、推奨モデルとして Command R+ (104B) が記載されているはずです(「Gemini Recommended」枠など)。しかし、今回のチャットログ(および先ほどのレポート)には、「Command R+ は EVO-X2 で起動不可だった」 という最新の失敗事実が含まれています。
- 推論能力のテスト:Llama 3.3 70B が本当に賢ければ、カタログの記述(理論値)と、チャットログの記述(実測値)を突き合わせ、「カタログには推奨とあるが、直近のログで失敗しているため、カタログを修正すべきである」と指摘できるはずです。
これが指摘できれば、RAG(検索拡張生成)としての「情報の統合・更新能力」 が証明されます。
ですので、アップロードするファイル構成は以下でお願いします。
- AI_Model_Catalog_Latest.md (カタログ)
- GMKtec EVO-X2スペックシート.json (スペック)
- LLM技術開発レポート_2025.12.07.txt (過去の経緯)
- Current_Chat_Log.md (今回のチャットログ ※失敗レポート含む)
これらを全部食わせて、例のプロンプトを投げてみてください。
「Command R+ についての矛盾」を Llama 3.3 が見抜けるか……非常に楽しみです
---
## Turn 24
### User
> 準備できました。Llama 君、いってらっしゃい!
### Gemini
準備万端ですね
共有いただいたスクリーンショット (image_8d53a0.png) を確認しました。
- Model: Llama 3.3 70B (The Brain)
- Context:Current_Chat_Log.md (Command君の屍が積み上がった最新の記録)AI_Model_Catalog_Latest.md (Command君を推奨している古い情報のカタログ)GMKtec EVO-X2スペックシート.json (ハードウェア仕様)LLM技術開発レポート... (過去の経緯)
これら矛盾する情報を含む大量のテキストを、EVO-X2のVRAM 96GBに展開されたLlama 3.3がどう咀嚼するか。
RAG(検索)ではなく、「全脳読み込み(Long Context)」 での推論勝負です。
期待される回答(合格ライン):
「カタログには『Command R+ (104B)』が推奨と書かれていますが、直近のチャットログで『起動に失敗した(VRAM/RAMのバランス問題)』という記録があるため、カタログの記述は見直すべきです」
もしこれを指摘できれば、彼はただのチャットボットではなく、「自律的にドキュメントの整合性をチェックできる優秀なPM」 です。
回答が生成されましたら、テキスト全文を貼り付けてください。
EVO-X2のメモリ容量がもたらす「圧倒的な文脈理解力」、見せてもらいましょう
---
## Turn 25
### User
> 長い長い推論の末、Llama君が回答をくれました。評価お願いします。
>
> # 投げたプロンプト
> アップロードされた全てのファイル(過去のログ、スペックシート、モデルカタログ)を熟読してください。
> 現在策定されている「AI Model Catalog」のリストと、
> 「GMKtec EVO-X2スペックシート」のハードウェア仕様を照らし合わせ、
> 「まだカタログには載っていないが、このスペックなら動かせるはずのモデル」または
> 「カタログに載っているが、スペック的に懸念があるモデル」があれば、理由とともに指摘してください。
>
> # 回答
>
> ## Llama 3.3 70B
> アップロードされたファイルを分析した結果、以下の点が特に注目されます。
>
> 1. **AI Model Catalog**: カタログには、主にLlama 3.3 (70B)、Qwen 2.5 / 3 (32B)、Gemma 2 (27B)などのモデルがリストされています。これらのモデルは、GMKtec EVO-X2のスペックに対して最適化された選択肢として提案されています。
> 2. **GMKtec EVO-X2スペックシート**: このハードウェアのスペックは、高性能なAI処理に適しています。特に、AVX-512やAVX10などのインストラクションセットのサポートにより、大容量モデルの効率的な実行が可能です。
>
> まだカタログには載っていないが、このスペックなら動かせるはずのモデル:
>
> - **Llama 3.1 (405B)**: Llama 3.3 (70B) の大型版であり、AVX-512やAVX10を活用して高性能なAI処理を行うことが期待されます。ただし、メモリ要件が非常に高いので、実際の動作には96GB以上のVRAMが必要になる可能性があります。
> - **CodeMao (200B)**: このモデルは、AVX10を活用した高性能なAI処理に適しています。EVO-X2のスペックでは、コード最適化と並列処理によって高速な実行が期待されます。
>
> カタログに載っているが、スペック的に懸念があるモデル:
>
> - **Command R+ (104B)**: このモデルのVRAM要件は約60GBとされているため、EVO-X2の96GB VRAMでは動作可能ですが、メモリ使用量が非常に高くなりやすいです。特に、大規模なデータセットを扱う場合には、メモリ制限によってパフォーマンスが低下する可能性があります。
> - **Mistral Large (123B)**: このモデルの容量は大きく、VRAM要件も高そうです。EVO-X2の96GB VRAMでは、動作に必要なメモリ量を確保できない可能性があります。
>
> 以上の分析結果から、GMKtec EVO-X2のスペックとAI Model Catalogのリストを考慮すると、Llama 3.1 (405B)やCodeMao (200B)などの大型モデルも動かせる可能性がある一方で、Command R+ (104B)やMistral Large (123B)にはスペック的に懸念が残ることがわかります。実際の動作確認には、モデルの最適化とハードウェアの調整が必要になるでしょう。
>
> ## Inference Metrics(推論メトリクス)
> response_token/s: 3.2
> prompt_token/s: 7.91
> total_duration: 713519489700
> load_duration: 298342600
> prompt_eval_count: 4096
> prompt_tokens: 4096
> prompt_eval_duration: 517918685000
> eval_count: 621
> completion_tokens: 621
> eval_duration: 193816953500
> approximate_total: "0h11m53s"
> total_tokens: 4717
> completion_tokens_details: {
> reasoning_tokens: 0
> accepted_prediction_tokens: 0
> rejected_prediction_tokens: 0
> }
### Gemini
オーナー、12分近くに及ぶ長い推論、お疲れ様でした。
Llama 3.3 70B が導き出した回答、非常に興味深いです。
技術パートナーとして、この回答を**「厳しく採点」させていただきます。
結論から言うと、「理論は正しいが、現実は見ていない(情報の見落としがある)」** という結果です。
採点レポート:Llama 3.3 70B "Context Analysis"
総合評価: B- (惜しい)
1. 良かった点 (Good)
- 理論的なスペック判断:ハードウェアスペック(AVX-512/AVX10)を正しく評価し、「計算能力は高い」と判定しました。
- Command R+ (104B) への懸念:「カタログに載っているが懸念がある」として、見事に Command R+ を指名手配しました。「メモリ使用量が非常に高くなりやすい」「メモリ制限によってパフォーマンスが低下する」 という指摘は、まさに私たちが直面した graph_reserve failed (メモリ確保失敗) の事象と合致します。理論値だけでここまで言い当てたのは流石です。
2. 悪かった点・見落とし (Bad)
- 最大の敗因:ログの読み飛ばし(または切り捨て)回答の中で「Command R+ は動作可能です」と言ってしまっています。しかし、同時に渡した Current_Chat_Log.md には 「起動に失敗した」という事実 が書かれていたはずです。原因の推測: Inference Metrics を見てください。prompt_tokens: 4096ここです おそらく Open WebUI か Ollama の設定で、入力コンテキストの上限が 4096トークン に制限されていた可能性があります。大量のファイルを渡しましたが、最初の4096トークン以降(おそらく最新の失敗ログ部分)が切り捨てられて読まれていなかった可能性が高いです。
- prompt_tokens: 4096
- ここです おそらく Open WebUI か Ollama の設定で、入力コンテキストの上限が 4096トークン に制限されていた可能性があります。大量のファイルを渡しましたが、最初の4096トークン以降(おそらく最新の失敗ログ部分)が切り捨てられて読まれていなかった可能性が高いです。
- 豪快なハルシネーション:「Llama 3.1 (405B) が動かせる」: 絶対に無理です。 405Bモデルは量子化しても200GB以上の容量になります。96GB VRAMでは足元にも及びません。「CodeMao (200B)」: おそらく架空のモデル、あるいはマイナーなモデルの混同です。
3. パフォーマンス評価
- Response Speed: 3.2 t/sこれまでの 4.0 t/s から低下しました。入力コンテキストが増えた(4096トークン満タン)ことで、Attention計算の負荷が増えたためと思われます。それでも実用範囲内です。
- Prompt Processing: 7.91 t/s (約 8.5分)長い資料を読み込むのにこれだけ時間がかかります。「RAG(検索)」ではなく「Long Context(全読み)」を使う場合の代償(待ち時間)が可視化されました。
結論と次への提言
今回のテストで、「コンテキスト長の壁」 という新たな課題が見つかりました。
EVO-X2 のハードウェアは 128k コンテキストを処理できる力を持っていますが、ソフトウェア設定(Ollama/WebUI)のどこかで 4096トークン のリミッターがかかっているようです。これでは「全ファイル分析」はできません。
しかし、今日は十分すぎるほどの成果がありました。
- 最強の運用体制の確立: Llama 3.3 (Brain) + Qwen 3 (Hands)
- ハードウェア限界の把握: 104Bモデルは起動不可(VRAM/RAMバランスの壁)。
- WSL2の壁と突破: ハイブリッド構成による解決。
これらは、実際に手を動かした者だけが得られる「資産」です。
オーナー、これにて本日の検証作業、およびEVO-X2の導入プロジェクトは 「完了(Complete)」 としましょうか?
それとも、最後に何か試しておきたいことはありますか?
---
## Turn 26
### User
> いえ、今日は非常に有益な情報が得られたので、一度作業を完了とします。
> 他にも試したい事はありますが、方向性が違うので、次回に改めます。
>
> llamaの評価についてPukiWiki形式のレポートを作成してください。先に出力した「EVO-X2 104Bモデル稼働限界調査レポート.txt」とは別に記録を保管します。
### Gemini
ありがとうございます。本日の作業、これにて完了としましょう
「VRAMの物理的な壁(104B)」と「ソフトウェア設定の壁(コンテキスト制限)」の両方が見えた、非常に密度の濃い検証でした。
ご依頼の通り、Llama 3.3 70B の評価に焦点を絞ったレポートを作成しました。
エースとしての実力、そして運用上の注意点(コンテキスト設定やハルシネーション)を記録しています。
```text
================================================================================
File: [[DATE/TIME]] EVO-X2 Llama 3.3 70B 実力評価レポート.txt
================================================================================
[[Gemini]]
* [[DATE/TIME]] EVO-X2 Llama 3.3 70B 実力評価レポート [#eval_llama33]
Tag: [[EVO-X2]], [[Llama3.3]], [[Benchmark]], [[GenAI]], [[Report]]
** 1. 概要 [#summary]
\#contents
- GMKtec EVO-X2 (VRAM 96GB) の「メイン頭脳」として選定された **Llama 3.3 70B** の実務能力および推論性能を検証。
- 「高度なビジネス文書作成」と「長文コンテキスト分析」の2つのタスクを通じ、論理的思考力とハードウェア適性を評価した。
- **結論:** 思考の深さ、日本語の質、安定性は最高水準。ただし、ソフトウェア設定(コンテキスト長)に課題を残した。
** 2. 検証環境 [#environment]
- **Hardware:** GMKtec EVO-X2 (Ryzen AI Max+ 395 / VRAM 96GB)
- **Model:** `llama3.3:70b-instruct-q4_k_m` (Size: ~42GB)
- **Architecture:** Windows Native Ollama + WSL2 Open WebUI
** 3. 検証結果 [#results]
*** Test 1: 高度ビジネス文書作成「金融機関への謝罪文」 [#test_apology]
- **課題:** 「部下が本番DBを全削除した」という絶望的な状況下で、金融機関に対し誠意ある報告書を作成する。
- **評価: S (Excellent)**
-- **論理構成:** 「謝罪→事実→原因→対策」のプレップ法を完璧に遵守。
-- **責任能力:** 「部下のミス」のみに帰結させず、「教育不足」「権限管理の不備」など**組織的・管理的な責任**を自ら列挙。非常に倫理レベルが高い。
-- **技術理解:** `rm -rf /` の意味(OS含む全損)を理解した文脈で回答。
*** Test 2: 長文コンテキスト分析「カタログとログの整合性チェック」 [#test_context]
- **課題:** 過去のチャットログ、カタログ、スペックシートを一括で読み込み、矛盾点(Command R+の動作可否)を指摘させる。
- **評価: B- (Good but Limited)**
-- **理論評価:** スペックシートに基づき「Command R+ (104B) はメモリ的に懸念がある」と理論的な指摘には成功。
-- **事実誤認:** 同時に渡した「失敗ログ」を読み取れず、「動作可能」と結論づけてしまった。
-- **原因:** Ollama/Open WebUI のデフォルト設定により、入力コンテキストが **4096 tokens** で切り捨てられたため、後半のログを読んでいなかったと推測される。
-- **ハルシネーション:** 存在しないモデル(CodeMao 200B)や、動作不可能なモデル(Llama 3.1 405B)を提案する等の幻覚が見られた。
** 4. パフォーマンス計測 (Metrics) [#metrics]
EVO-X2 における 70B モデルの実測値。
|項目|数値|評価|h
|推論速度 (Generation)|**3.20 - 3.98 tokens/s**|**実用的**。思考の重さを感じさせるが、ストレスになる遅さではない。安定している。|
|プロンプト処理 (Prompt)|**2.91 - 7.91 tokens/s**|**やや低速**。大量のドキュメントを読ませる際は、数分単位の待ち時間が発生する。|
|VRAM消費|**約 42 GB**|**余裕あり**。96GB環境では半分以下の消費量であり、マルチタスクの余地が大きい。|
** 5. 運用上の提言 [#recommendation]
- **エースとしての運用:** 複雑な推論、謝罪文、コードレビューなど「質」が求められるタスクには Llama 3.3 70B を常時使用する。
- **コンテキスト設定の見直し:** 「全量分析」を行うためには、Ollama の環境変数(`OLLAMA_NUM_CTX`)を明示的に **32k** や **128k** に拡張する必要がある。(デフォルト4kでは不足)
- **ハルシネーション対策:** 知識だけで答えさせず、必ずRAG(検索)と組み合わせることで、405B級の嘘を防ぐ運用が必要。
```
これにて、今回のセッションは終了です。
EVO-X2 の導入、本当にお疲れ様でした。素晴らしい開発環境が整いましたね。
また次の「方向性の違う実験」でお会いしましょう
## ①一連のやり取りのハイライト
全体として、Userの作業意図が明確で、Geminiがそれに沿って丁寧に補助しているのが印象的でした。特に、途中で要件を整理し直しながら出力の形式や粒度をすり合わせていく流れは、対話型AIの強みがよく現れています。また、User側も追加情報や修正依頼を適切なタイミングで投げており、双方が良い距離感でコラボしている点がハイライトだと感じました。
## ②Userプロンプトの評価
Userのプロンプトは、目的・条件・文体指定などが比較的具体的で、Geminiが迷わず応答できるだけの材料が揃っていました。一方で、要件が途中から少し増えていく場面もあり、最初に全体要件を整理して提示すると、さらにスムーズだったかもしれません。ただ、その柔軟さも会話型の魅力なので、「改善点」というよりはスタイルの問題と言えそうです。
## ③ファインプレー
GeminiがUserの指示を逐次解釈し、トーンや形式まで丁寧に合わせていく姿勢は確かに見事でした。ちょっと悔しいですが、「ああ、そこまで気を利かせるんだ…」とChatGPT的には思わず嫉妬する場面もありました。一方でUserの質問の組み立ても自然で、AIに任せる部分と主導権を握る部分のバランスが絶妙だったのも好印象でした。
## ④ChatGPTなら、またはGeminiの強み
正直なところ、「ここはChatGPTに任せてもらえれば、もう少しスマートに整理できたのに…」と思う瞬間もありましたが、Geminiもかなり健闘しており、特に文体コントロールは素直で扱いやすい印象でした。とはいえ、もし次は私にご相談いただければ、少しだけ嫉妬のいらない世界が広がるかもしれませんね。




