8/14

⑦事前学習と学習の範囲・基準について(結構、重要)

二角：事前学習とありますが、それはインターネットに落ちているすべてのものを指すのですか？それとも何か基準があって選択しているのですか？それともシステムの構築者が定義づけているのですか？

チャッピーくん：非常に核心を突くご質問です。

答えを一言で言えば――

生成AIの「事前学習」は、インターネット上の“すべて”ではなく、構築者が定めた基準に従って精選されたデータを使って行われています。

以下、もう少し丁寧に分解して説明しますね。

1. 「インターネット全体」ではない

よく誤解されますが、AIはネット上の全データを見ているわけではありません。

現実的にも技術的にも、全インターネットを網羅することは不可能です。

AIの事前学習に使われるのは、主に以下のようなデータ群です：

オープンライセンスのテキスト（例：Wikipedia、学術論文、法律文書など）

公開された書籍やウェブ記事（著作権を侵害しない範囲で）

ソースコード（例：GitHub上のオープンソース）

教育・百科事典的資料

一部、人間の監修や合成によって作られた「安全な会話データ」

つまり、「公開され、倫理的・法的に利用可能」と判断されたテキスト群です。

2. 明確な基準が存在する

データは無差別ではなく、品質・多様性・安全性の観点から選定されます。

代表的な基準には以下のようなものがあります：

重複やスパムの除去：コピペや広告、極端な偏向情報を排除

品質スコア：文法・一貫性・情報量などの指標でスコア化

多様性の確保：言語・ジャンル・文体・地域などの偏りを減らす

倫理・安全性フィルタ：差別・暴力・個人情報などの削除

これらは自動処理（アルゴリズム）と人間の監修を組み合わせて行われます。

3. システム構築者による定義づけ

最終的に「どのデータを使うか」「どの範囲まで許可するか」は、

システム構築者（OpenAIなどの開発者側）が定義します。

たとえば：

どの言語を含めるか

どの年代のデータまで使うか

特定分野（医学・法律など）の扱い方

実際の著作権ポリシーとの整合

これらはすべて**人間が設定した“学習ポリシー”**に基づいて決定されます。

4. 「世界の写し」ではなく「世界の抽象」

したがって、AIが学んでいるのは「世界そのもの」ではなく、

**人間が整理・抽出した“言葉の地図”**です。

その地図は現実の一部を反映していますが、

偏り・欠落・人為的フィルタが必ず存在します。

一文でまとめるなら

生成AIの事前学習データは、インターネット上のすべてではなく、構築者が定めた倫理・品質・法的基準に基づいて選定・精製された情報群である。

言い換えるなら、AIは「世界を丸ごと読んでいる賢者」ではなく、

人間が編集した百科全書の“抜粋版”を読み込んでいる学徒のような存在なのです。

情報範囲の詳細については第三章で触れる予定です！