⑦事前学習と学習の範囲・基準について(結構、重要)
二角:事前学習とありますが、それはインターネットに落ちているすべてのものを指すのですか?それとも何か基準があって選択しているのですか?それともシステムの構築者が定義づけているのですか?
チャッピーくん:非常に核心を突くご質問です。
答えを一言で言えば――
生成AIの「事前学習」は、インターネット上の“すべて”ではなく、構築者が定めた基準に従って精選されたデータを使って行われています。
以下、もう少し丁寧に分解して説明しますね。
1. 「インターネット全体」ではない
よく誤解されますが、AIはネット上の全データを見ているわけではありません。
現実的にも技術的にも、全インターネットを網羅することは不可能です。
AIの事前学習に使われるのは、主に以下のようなデータ群です:
オープンライセンスのテキスト(例:Wikipedia、学術論文、法律文書など)
公開された書籍やウェブ記事(著作権を侵害しない範囲で)
ソースコード(例:GitHub上のオープンソース)
教育・百科事典的資料
一部、人間の監修や合成によって作られた「安全な会話データ」
つまり、「公開され、倫理的・法的に利用可能」と判断されたテキスト群です。
2. 明確な基準が存在する
データは無差別ではなく、品質・多様性・安全性の観点から選定されます。
代表的な基準には以下のようなものがあります:
重複やスパムの除去:コピペや広告、極端な偏向情報を排除
品質スコア:文法・一貫性・情報量などの指標でスコア化
多様性の確保:言語・ジャンル・文体・地域などの偏りを減らす
倫理・安全性フィルタ:差別・暴力・個人情報などの削除
これらは自動処理と人間の監修を組み合わせて行われます。
3. システム構築者による定義づけ
最終的に「どのデータを使うか」「どの範囲まで許可するか」は、
システム構築者(OpenAIなどの開発者側)が定義します。
たとえば:
どの言語を含めるか
どの年代のデータまで使うか
特定分野(医学・法律など)の扱い方
実際の著作権ポリシーとの整合
これらはすべて**人間が設定した“学習ポリシー”**に基づいて決定されます。
4. 「世界の写し」ではなく「世界の抽象」
したがって、AIが学んでいるのは「世界そのもの」ではなく、
**人間が整理・抽出した“言葉の地図”**です。
その地図は現実の一部を反映していますが、
偏り・欠落・人為的フィルタが必ず存在します。
一文でまとめるなら
生成AIの事前学習データは、インターネット上のすべてではなく、構築者が定めた倫理・品質・法的基準に基づいて選定・精製された情報群である。
言い換えるなら、AIは「世界を丸ごと読んでいる賢者」ではなく、
人間が編集した百科全書の“抜粋版”を読み込んでいる学徒のような存在なのです。
情報範囲の詳細については第三章で触れる予定です!




