岡田先生の『筋肉的統計学』と、外れ値の正体
この物語はフィクションです。現実の学校現場とは全く関係ありません。ご一読ありがとうございます。
中間テストが終わり、職員室は採点と成績処理の熱気に包まれていました。そこへ、ジャージ姿の岡田先生が鼻息荒く飛び込んできました。
**岡田:**「中村先生! 鈴木先生! ちょっとこれを見てくれっす! 今年の2年B組、シャトルランの平均記録が去年の1.5倍に跳ね上がったんすよ! 俺の『マッスル・ブートキャンプ』の成果、統計的に証明されちゃったんじゃないすか!?」
岡田先生が突き出したのは、手書きの棒グラフ。確かに、去年に比べて記録の分布が大きく右側(高記録側)にシフトしています。
**中村:**「……岡田先生。その鼻息で私の答案用紙が飛ぶんですが。どれどれ……。鈴木先生、このデータの分散、どう見ます?」
**鈴木:**「……計算するまでもありません。分布が右に寄っているというより、特定の数名が**『外れ値』**として平均を強引に引き上げているだけです。特にこの、200回を超えている3名は……」
**中村:**「九条くんと、陸上部のエース、それに……あぁ、運動神経の塊の六条さんですか。岡田先生、統計学には**『平均値』**の他に**『中央値』**という概念があるのを知っていますか?」
**岡田:**「チュウオウチ……? 真ん中の値ってことっすか?」
**中村:**「そうです。極端なエリート(外れ値)に影響されやすい平均値に対し、中央値は集団の真ん中の実力を示します。計算し直してみると……ほら、中央値は去年とほぼ変わっていません。つまり、クラス全体の体力が上がったわけではなく、一部の天才が超人的な記録を出しただけです」
**岡田:**「ええっ!? じゃあ、俺の指導でみんながマッチョになったわけじゃないんすか……?」
**中村:**「さらに言えば、このデータの標準偏差が異常に小さい区間がありますね。……岡田先生、まさか計測中に何か言いましたか?」
**岡田:**「あ、いや……『最下位の3人は放課後、俺とスクワット1000回だ!』ってちょっと気合を入れただけっすよ」
**鈴木:**「……それが原因です。下位層が恐怖によって底上げされ、分布が不自然に圧縮されている。これは純粋な体力測定ではなく、**『生存本能の統計データ』**です」
**中村:**「数学を筋肉でねじ伏せようとするのはやめなさい。統計は正直ですよ。……さあ、岡田先生。この『恐怖のバイアス』を除去した真のデータを再集計してください。私はその間、コーヒーを飲んで『サボり』の期待値を計算していますから」
**岡田:**「ううっ、数学って厳しいっすね……。よし、次はスクワット中に微積分を解かせるメニューを考えるっす!」
**中村・鈴木:**「「それはやめてください(です)」」
演習問題
データの中に極端に大きかったり小さかったりする値(外れ値)がある場合、集団の真ん中の傾向を知るためにより適している指標は次のうちどれですか?
1. 平均値
2. 中央値
3. 最大値
4. 最小値
解説
平均値はすべての値を足して数で割るため、極端な値に引っ張られてしまいます。中央値はデータを順番に並べた時の真ん中の値なので、外れ値の影響を受けにくいのが特徴です。
**正解:2**




