表示調整
閉じる
挿絵表示切替ボタン
▼配色
▼行間
▼文字サイズ
▼メニューバー
×閉じる

ブックマークに追加しました

設定
0/400
設定を保存しました
エラーが発生しました
※文字以内
ブックマークを解除しました。

エラーが発生しました。

エラーの原因がわからない場合はヘルプセンターをご確認ください。

ブックマーク機能を使うにはログインしてください。
8/14

⑦事前学習と学習の範囲・基準について(結構、重要)

二角:事前学習とありますが、それはインターネットに落ちているすべてのものを指すのですか?それとも何か基準があって選択しているのですか?それともシステムの構築者が定義づけているのですか?


チャッピーくん:非常に核心を突くご質問です。

答えを一言で言えば――

生成AIの「事前学習」は、インターネット上の“すべて”ではなく、構築者が定めた基準に従って精選されたデータを使って行われています。

以下、もう少し丁寧に分解して説明しますね。


1. 「インターネット全体」ではない


よく誤解されますが、AIはネット上の全データを見ているわけではありません。

現実的にも技術的にも、全インターネットを網羅することは不可能です。

AIの事前学習に使われるのは、主に以下のようなデータ群です:

オープンライセンスのテキスト(例:Wikipedia、学術論文、法律文書など)

公開された書籍やウェブ記事(著作権を侵害しない範囲で)

ソースコード(例:GitHub上のオープンソース)

教育・百科事典的資料

一部、人間の監修や合成によって作られた「安全な会話データ」

つまり、「公開され、倫理的・法的に利用可能」と判断されたテキスト群です。


2. 明確な基準が存在する


データは無差別ではなく、品質・多様性・安全性の観点から選定されます。

代表的な基準には以下のようなものがあります:

重複やスパムの除去:コピペや広告、極端な偏向情報を排除

品質スコア:文法・一貫性・情報量などの指標でスコア化

多様性の確保:言語・ジャンル・文体・地域などの偏りを減らす

倫理・安全性フィルタ:差別・暴力・個人情報などの削除

これらは自動処理アルゴリズムと人間の監修を組み合わせて行われます。


3. システム構築者による定義づけ


最終的に「どのデータを使うか」「どの範囲まで許可するか」は、

システム構築者(OpenAIなどの開発者側)が定義します。

たとえば:

どの言語を含めるか

どの年代のデータまで使うか

特定分野(医学・法律など)の扱い方

実際の著作権ポリシーとの整合

これらはすべて**人間が設定した“学習ポリシー”**に基づいて決定されます。


4. 「世界の写し」ではなく「世界の抽象」


したがって、AIが学んでいるのは「世界そのもの」ではなく、

**人間が整理・抽出した“言葉の地図”**です。

その地図は現実の一部を反映していますが、

偏り・欠落・人為的フィルタが必ず存在します。


一文でまとめるなら


生成AIの事前学習データは、インターネット上のすべてではなく、構築者が定めた倫理・品質・法的基準に基づいて選定・精製された情報群である。

言い換えるなら、AIは「世界を丸ごと読んでいる賢者」ではなく、

人間が編集した百科全書の“抜粋版”を読み込んでいる学徒のような存在なのです。

情報範囲の詳細については第三章で触れる予定です!

評価をするにはログインしてください。
ブックマークに追加
ブックマーク機能を使うにはログインしてください。
― 新着の感想 ―
今回の記事はとても興味深かったです♪ なんとなくで使ってたのが、おぉ、この出てきてる結果は、そういうことなのか…と理解することができるようになる気がします。気がするだけかもですけどw 色々制限はちゃん…
感想一覧
+注意+

特に記載なき場合、掲載されている作品はすべてフィクションであり実在の人物・団体等とは一切関係ありません。
特に記載なき場合、掲載されている作品の著作権は作者にあります(一部作品除く)。
作者以外の方による作品の引用を超える無断転載は禁止しており、行った場合、著作権法の違反となります。

この作品はリンクフリーです。ご自由にリンク(紹介)してください。
この作品はスマートフォン対応です。スマートフォンかパソコンかを自動で判別し、適切なページを表示します。

↑ページトップへ