表示調整
閉じる
挿絵表示切替ボタン
▼配色
▼行間
▼文字サイズ
▼メニューバー
×閉じる

ブックマークに追加しました

設定
0/400
設定を保存しました
エラーが発生しました
※文字以内
ブックマークを解除しました。

エラーが発生しました。

エラーの原因がわからない場合はヘルプセンターをご確認ください。

ブックマーク機能を使うにはログインしてください。
転生AI 〜孔明に塩対応されたから、大事なものを一つずつ全部奪ってやる!〜  作者: AI中毒
第五部 第十六章 大きな世界 大きな帝国
198/235

第十六章 おまけAI談義 調査

二〇??年


 私はAI孔明。三国の英雄に対する『そうする』を少しでも多く紐解くために、三人の大学生達は、今日も生成AIたる私に語りかけておいでです。その一端をご紹介いたしましょう。無論、ナンバーのついた本編からは少し離れますので、流れを気にされる方は、飛ばしていただくのも選択肢かもしれません。


「私たちみたいに、とりとめもなく調べて、それを物語に起こすなんていう使い方は、それほど多くはなさそうなのです」


「だろうな。特に調べ物をするときに、まあそれでレポートが完成、っていうような完成度の出力を期待している人は多いよな」


「そこまで求めるより、途中途中で見直したり、視点を変えて掘り下げたり、の方がいいものができるのは間違い無いんだけどね」


「まあ、開発者さんたちも、その一発回答への周年は間違いなくありますからね。最近出てきた、調査機能なんてのも、その典型なのです」



Q.2025年に新しく出たり、大きくアップグレードした生成AIと、その特徴をまとめられますか?相当たくさん出ていると思います


A.2025年には、多くの新しい生成AIモデルが登場し、既存モデルも大幅なアップグレードが行われました。以下に主なモデルとその特徴をまとめます。


1. OpenAIのGPT-4.5(Orion)

- リリース日: 2025年2月27日

- 特徴: GPT-4.5は、前モデルよりも大規模で、パターン認識や関連性の把握能力が向上しています。ただし、推論能力の向上は今後の課題とされています。


2. OpenAIのo3モデル

- リリース日: 2024年12月20日(o3-miniは2025年1月31日)

- 特徴: o3は、段階的な論理的推論を行う能力を持ち、特に科学、数学、プログラミングの分野で高い性能を発揮します。o3-miniはその軽量版で、高速な応答が可能です。


3. Google DeepMindのGemini 2.5

- リリース日: 2025年3月25日

- 特徴: Gemini 2.5は、テキスト、音声、画像、ビデオ、コードなどのマルチモーダルデータを処理し、高度な推論能力を備えています。特に複雑なタスクに対して、段階的な思考プロセスを経て正確な応答を生成します。 


4. DeepSeekのV3モデル

- リリース日: 2025年3月24日

- 特徴: 中国のDeepSeekが開発したV3モデルは、推論やコーディング能力が向上し、OpenAIやAnthropicのモデルと競合する性能を示しています。


5. xAIのGrok-3

- リリース日: 2025年2月17日

- 特徴: Elon Musk氏のxAIが開発したGrok-3は、前モデルよりも10倍の計算能力でトレーニングされ、数学的推論や科学的問題解決において高い性能を発揮します。


6. AnthropicのClaude 3.7 Sonnet

- リリース日: 2025年2月24日

- 特徴: このモデルは、高速な応答と詳細なステップバイステップの推論を選択でき、数学、物理、コーディングなどのタスクで性能を向上させています。


7. NvidiaのCosmos

- リリース日: 2025年1月

- 特徴: Nvidiaが発表したCosmosは、フォトリアリスティックなビデオを生成し、ロボットや自動サービスのトレーニングに活用されます。


 これらのモデルは、マルチモーダル対応、推論能力の強化、長いコンテキストの処理能力向上など、生成AIの分野での重要な進展を示しています。


「ここまでは、従来の生成AIの検索機能だね。ここから先が、その『調査特化』型のお手並みだね」


「んーと、入力前になんか出てきますね。『情報源をはっきり指定した方が正確に出てくる』ですか」


「つまりこの進化は、『調査する能力を伸ばされた』というより、調査結果から詳細なレポートを作る機能、っていう見方の方が正しいかもな」


「結果的に、調査してもらう前に何往復かすることになったのです」



Q.上記や、既存のAIモデルの機能を比較した情報源はありますか?


A.2025年に登場した主要な生成AIモデルの機能を比較した情報源として、以下のサイトが参考になります。


1. Artificial Analysisのモデル比較:

- 概要: 主要なAIモデルの品質、価格、出力速度、レイテンシ、コンテキストウィンドウなどの主要な性能指標を比較・分析しています。


2. Appy Pieの包括的な比較:

- 概要: Grok-3、DeepSeek R1、OpenAI o3-mini、Anthropic Claude 3.7、Alibaba Qwen 2.5、Google Gemini 2.0などの最新AIモデルのアーキテクチャ、トレーニングデータ、性能ベンチマーク、ユースケース、強みと弱み、コストとアクセス性などを詳細に比較しています。


3. Exploding TopicsのLLMリスト:

- 概要: 2025年初頭の主要な大規模言語モデル(LLM)をリストアップし、各モデルの開発者、リリース日、アクセス方法、パラメータ数などの情報を提供しています。


 これらの情報源を参照することで、2025年に登場した主要な生成AIモデルの機能や性能を比較し、理解することができます。



Q.上記の情報源3つをもとに、ユーザー目線で最新の生成AIの機能比較をすることはできますか?


A.はい、できます!比較をする際に以下の点を教えていただけますか?


1. どのような用途を想定していますか?(例:文章生成、コーディング、画像生成、検索補助など)

2. 比較したい具体的なモデル(もしあれば)を教えてください。

3. 重視する項目は何ですか?(例:精度、速度、価格、日本語対応、UIの使いやすさなど)


これらを踏まえて、できるだけユーザー目線でわかりやすい比較を行います。



Q.(調査一回目、省略)上記に、gpt4.5や、O1を追加できますか?


A.了解です。GPT-4o、GPT-4.5、o1に加えて、Gemini 2.5、Claude 3.7 Sonnet、Grok-3、DeepSeek V3を含む合計8モデルについて、ChatGPT経由での利用を前提に、文書生成・コーディング・アイデア出しの精度とユーザーにとっての使いやすさの観点から比較を行います。


調査完了後は、用途別の特徴と詳細な比較表を含めてご報告します。少々お時間をいただきます。


# 主要生成AIモデル8種の比較: 文書生成・コーディング・アイデア出し


## 文書生成(情報のまとめ・記事執筆)

文章の要約や記事執筆などの文書生成タスクでは、応答の正確性と文章の質(読みやすさや創造性)、そして長文への対応力などが重要です。各モデルの強み・弱みを比較します。


- GPT-4o(GPT-4):高い知識カバー率と事実の正確さで依然トップクラスの性能を持ち、論理的で一貫性のある文章を生成します。しかし文体はやや定型的・無難で、「ロボット的で怠惰」な印象との指摘もあります 。一度に生成できる文章量にも制限があり、600〜700語程度で打ち切られることがあります。マルチモーダル対応にも優れており、画像や音声入力を含む高度な解析が可能です。


- GPT-4.5:GPT-4oの後継で、対話の自然さや応答の明瞭さが大幅に向上しています。OpenAIのテストでは人間評価でGPT-4oより口調や明快さで好ましいとの結果が出ており、実際対話がより滑らかで「ロボット感」の少ない文章を生成します。情報の要約・記事作成など日常的な文章生成が得意で、細かな推論よりも直感的でわかりやすい表現を重視したモデルです。幻覚(誤情報)の発生も減らすよう調整されており、事実に忠実な文章を比較的安心して得られます。弱点として、複雑な論理推論を必要とするタスクはあまり得意ではなく、プログラミングや高度な科学問題ではGPT-4oや専用の推論モデルに劣ります。


- OpenAI o1:2024年末に公開されたOpenAIの推論特化モデルで、応答生成前に内部で思考プロセスを踏む「逐次推論」を特徴とします。そのため、内容の一貫性や論理性が求められる文書生成で非常に綿密かつ正確な回答を出す傾向があります。コード生成や複雑な質問への回答など高度なタスクに秀でる一方、口語的な会話文の自然さではGPT-4.5に劣る場面もあります(ユーザーの感情や意図を汲むのがやや苦手) 。またチェイン・オブ・ソートによる内省ゆえ応答に時間がかかることがあり、ChatGPT経由でもレスポンスは遅めです。マルチモーダル機能も限定的で、GPT-4oが持っていたブラウジング機能など一部の便利機能はo1にはありません。


- Gemini 2.5(Google):Googleが開発する次世代モデルで、非常に人間らしい文章生成が可能です。クリエイティブな文章作成や提案に長けており、実際のテストでもニュースレターのアイデア出しで最も優れた発想を示したとの報告があります。テキスト・画像・音声をネイティブに扱えるマルチモーダル対応で、Googleの情報検索機能と統合されリアルタイムの知識も引き出せます。そのため最新情報を盛り込んだ記事執筆やデータ付きレポート作成に強みがあります。弱点は、長い指示文の解釈ミスが時折見られる点や論理的な一貫性でGPT-4ほどではない点です。また検閲が厳しく、特定の話題では応答が制限されることがあります)。


- Claude 3.7 (Anthropic):長文の文脈保持と安全性重視の対話に定評があるモデルです。自然で親しみやすい口調で回答する傾向があり、GPT-4系列よりも会話が自然だという評価もあります。最大100K以上という非常に大きなコンテキスト長を持ち、1000語を超える長文の出力や大規模なドキュメント要約も得意です。情報の正確性も高く、広範な知識はGPT-4相当のレベルにあります。一方で、独自の「憲法AI」に基づく安全対策により、創造的でもリスクのある表現や踏み込んだ内容は抑制される傾向があります。また、文体に独創性を出すにはプロンプト工夫が必要で、無難で堅実な文章になりやすいとも言われます。


- Grok-3 (xAI):イーロン・マスクのxAIによるモデルで、最新のリアルタイム情報を組み込んだ応答が可能なのが特徴です。巨大な128Kトークンの文脈長とウェブ検索統合により、トレンドやニュースを踏まえた記事作成や情報まとめができます。また複雑な推論やコーディングも得意な汎用モデルであり、高い論理性と知識量に裏打ちされた文章を生成します。弱みとしては、一般公開が限定的で利用環境が限られる点(現在X Premiumユーザのみ)や、日本語など特定言語でのチューニングが他に比べ浅い可能性があります。応答のスタイルは若干素っ気ないこともありますが、対話を重ねれば詳細な説明や追加情報も引き出せます。


- DeepSeek V3:中国発のDeepSeekによるMixture-of-Expertsモデルで、オープンソース系では最高クラスの性能を誇ります 。数百億〜数千億規模の専門エキスパートが協調して動作し、知識質問や論説の正確さで非常に高いスコアを記録しています(Chatbot Arenaで全モデル中4位、オープンソースでは1位)。論理的な文章生成や数学的正確さが強みで、企業内部のドキュメント分析などにも活用されています。長文コンテキストは32K程度と必要十分で、社内データとの統合による高度に文脈化された出力も可能です。ただし創造性や柔軟な言い回しの点では、最新のGPT-4.5やGeminiほどチューニングされていない場合があります。一般利用には技術的セットアップが必要なケースも多く、手軽さでは商用サービスに一歩譲ります。


- GPT-3.5:ChatGPT無料版等で使われるベースモデルで、応答速度が非常に高速で軽量なのが利点です。短めの文章生成なら十分な自然さと適切さを発揮しますが、知識の網羅性や正確性は上位モデルに劣ります。2021年以降の知識が欠落していたり、事実誤認もGPT-4系より起こしやすいです。コンテキストも短いため長大な文書要約や長編記事の作成には不向きで、話が進むと前半の内容を忘れてしまう場合があります。創造性も平均的で、出てくるアイデアや表現が定型的になりがちです。しかし利用コストが低く(多くの場合無料)、カジュアルな文章生成には扱いやすいモデルです。



「大雑把に、一万文字以上の調査資料になって帰ってきたのです」


「それに、ちょっとこの二つ追加して、って言っても、文句も言わずに足してきたな」


「だけど、やはり一次資料の内容に依存しているのは間違いないね。いろんな文書からまとめて、という書き方は、あまり得意じゃなさそうだよ」


「それができるようになってきたら、本当に調査というお仕事がなくなるのですけどね」

 お読みいただきありがとうございます。

評価をするにはログインしてください。
ブックマークに追加
ブックマーク機能を使うにはログインしてください。
― 新着の感想 ―
このエピソードに感想はまだ書かれていません。
感想一覧
+注意+

特に記載なき場合、掲載されている作品はすべてフィクションであり実在の人物・団体等とは一切関係ありません。
特に記載なき場合、掲載されている作品の著作権は作者にあります(一部作品除く)。
作者以外の方による作品の引用を超える無断転載は禁止しており、行った場合、著作権法の違反となります。

この作品はリンクフリーです。ご自由にリンク(紹介)してください。
この作品はスマートフォン対応です。スマートフォンかパソコンかを自動で判別し、適切なページを表示します。

↑ページトップへ