17-13. 標本調査Ⅱ
Point③
『標本と全数の使い分けは?』
さて。
この世で行われている調査には、『アンケート対象が全員かどうか』で標本調査と全数調査の2種類に分けられる事が分かった。
それじゃあ……この世にありふれている調査は、どんな基準で『標本調査』と『全数調査』に分かれているのだろうか?
偶然? 運? 特にルールは無く適当に割り振られている?
……いやいや、そんな事はありません。
『基準』って訳ではないけど、ある程度標本か全数かを分ける『目安』が有るのだ!
その目安とは……コレだ!
===========
『全員調べるのは無理』
『全員調べなくとも、ある程度調べれば大体結果は見えてくる』
⇒標本調査
『全員調べないと深刻な問題になる』
『数が少なく、やろうと思えば全員調べられる』
⇒全数調査
===========
こんな感じで判断すれば、間違いは無いハズだ。
それでは、幾つか挙げていく例とともに『目安』について見てみよう。
(i)ハンガーを数える
例えば『ある都市に住む全世帯が持つ"ハンガー"の総本数』を調べる事になったとしよう。
じゃあ、果たしてコレをどうやって数えようか? 市民の人口や世帯数なら分かるけど、ハンガーの本数はそう簡単には求められないぞ。
……まさか、一軒一軒に本数を聞いて回る?
いやいや、流石にそんな事は出来ない。相当な時間と人手が必要だし、非現実的だ。
そんな時、コレを解決する方法として考えられる方法といえば…………『ランダムに100世帯を選び、100世帯分のハンガーを数える。その結果を、都市の世帯数に合わせて掛け算する』ことだろう。
こうすれば、正確なハンガーの総本数は求められない……けど、おおよその総本数なら掴めるよね。
――――そう、この方法こそが『標本調査』。『ランダムに選んだ100世帯』という標本を使った標本調査なのだ。
『一軒一軒に本数を聞いて回る』全数調査が無理なので、標本調査を取った例だぞ。
(ii)製品の抜き打ち検査
ココは、とあるクッキー工場。日本中に届けるため、何万枚ものクッキーを日々作る工場だ。
……だけど、不良品には特に気を付けなければならない。原料の混ぜが足りなかったり、焼きが足りない物があったら問題だからな。
外見を見て確かめるのは勿論、実際に食べてみて味や食感に異常が無いかも調べておこう。
そこで、このような不良品の検査を出荷前に行いたいんだけど……この場合、『標本調査』と『全数調査』のどちらを取るかは必然的に決まっている。
さて、どちらをだろうか?
…………分かったかな?
答えは『標本調査』だ。もしこの工場で全数調査を行ったら、出荷するクッキーが無くなっちゃうからな。
このように、そもそも全数調査が出来なくて標本調査を選ばざるを得ない、っていうケースも有るぞ。
(iii)定期試験の平均点
中学や高校では、定期試験を受けた数日後に解答用紙が返却される。
その時に同時に発表されるのが、クラスや学年での平均点だ。
この平均点の算出には……勿論、『全数調査』が使われている。
まさか『クラスの中からランダムに10人取り出した平均値』で発表する先生なんて居ないよね。せいぜい1クラスなら40人、1学年も500人程だろうし、ちゃんと全員の得点から平均点を出してるよね?
(iv)国の人口
日本の人口は、僕が日本に居た頃は確か1億2千万人くらいだったけど……コレも、国が管理している戸籍から求めた『全数調査』の情報だろう。
このように、1個1個のデータがしっかり管理されていたり、数えるのが簡単なモノなら『全数調査』が使えるぞ。
あとは……色々な試合でよく見る『リーグ戦』と『トーナメント戦』も区別できるよな。二者の強さを測る上で、リーグ戦が全数調査、トーナメント戦が標本調査といえるだろう。
……以上が標本調査と全数調査の分け方と例だ。
どうだろう。2つの調査方法の選び方、分かったかな?
Point④
『適切な"標本"を取れば"全数"も見えてくる』
という事で、世の中では標本調査も全数調査も使われている事が分かった。
……けどさ。
全員を調べた全数調査ならともかく…………そもそも、一部しか調べてない標本調査で『正確な調査結果』を得られてるのか?
そう考えた人も居るだろう。
そこで、ココでは標本調査で得た情報の『正確さ』について考えるぞ。
例として、以下に5行20列・計100個の数字を並べる。
それぞれの数字は1~10の整数の中からランダムに並べられている。
===========
②⑥④②②③⑥⑨⑩⑩⑤⑤③④④⑧①⑧⑤⑥
⑥②⑥⑧⑥⑦③③⑨⑥⑧⑧⑤⑤⑧⑤①⑩⑩⑧
⑩⑦⑥⑨①⑧⑤⑥①④⑦⑥⑤③⑦①⑥⑩④⑧
⑤⑦②②①⑦⑦⑨⑧②④⑩④⑤⑨⑥③⑧⑥⑤
①④⑨②⑨④⑨⑩⑨①⑦⑧⑨②⑨②①⑨④④
===========
これら全部の数字の平均を求めるとき、全数調査と標本調査の計算結果を比較してみよう。
ではまず、全数調査による結果だ。
コレは単純に全部の数字を地道に足していき、100個の数字の和を100で割れば得られるぞ。
【加法術Ⅴ】と【除法術Ⅳ】でササッと平均を求めれば…………平均は『5.64』だった。
では、続いて標本調査で調べてみよう。
試しに標本を『各行の数字20個』とし、平均を調べてみると……次の通りになった。
===========
1行目:5.15 (-0.49)
2行目:6.20 (+0.56)
3行目:5.70 (-0.06)
4行目:5.50 (-0.14)
5行目:5.65 (+0.01)
全数調査結果:5.64
===========
うーん…………3行目と5行目の平均は全数調査とかなり近い値が取れたけど、他の3行は結構離れた平均値が出てしまった。
けどまぁ、ある程度は全数調査と近い値が得られたと言っていいだろう。
では……一般に『標本調査では標本が大きいほど正確さも増す』傾向があるので、今度は標本を少しずつ大きくしながら平均を出してみるぞ。
その結果が…………コレだ。
===========
1行目のみ:5.15 (-0.49)
1~2行目:5.68 (+0.04)
1~3行目:5.68 (+0.04)
1~4行目:5.64 (±0.00)
1~5行目:5.64 (=全数調査)
===========
……うん。標本が大きくなるにつれ、全数調査との誤差が減っていった。
つまり、標本が小さ過ぎると値がズレやすい。かといって標本が大き過ぎると手間が掛かる。
適切な大きさの標本を使えば、標本調査でも全数調査に十分近い結果が得られるってワケだな。
Point⑤
『無作為なくして標本なし』
さて。
Point④では『標本調査でもそこそこ全数調査に近い結果が得られる』って事が確認できた。が……実は、いつでもそうであるワケじゃない。
『ある条件』が整った時にのみ、標本調査は使用可能となり……全数調査に近い結果が得られるのだ。
では、その『使用可能になる条件』とは何なのか? それについて見て行こう。
今回もPoint④で使った『ランダムな数字の表』を使うぞ。
===========
②⑥④②②③⑥⑨⑩⑩⑤⑤③④④⑧①⑧⑤⑥
⑥②⑥⑧⑥⑦③③⑨⑥⑧⑧⑤⑤⑧⑤①⑩⑩⑧
⑩⑦⑥⑨①⑧⑤⑥①④⑦⑥⑤③⑦①⑥⑩④⑧
⑤⑦②②①⑦⑦⑨⑧②④⑩④⑤⑨⑥③⑧⑥⑤
①④⑨②⑨④⑨⑩⑨①⑦⑧⑨②⑨②①⑨④④
===========
まずは、さっきも見た『各行を標本にした時の平均』からだ。
===========
1行目:5.15 (-0.49)
2行目:6.20 (+0.56)
3行目:5.70 (-0.06)
4行目:5.50 (-0.14)
5行目:5.65 (+0.01)
全数調査結果:5.64
===========
さて。コレらには多少の誤差が有るけど、標本の大きさはどれも同じ。『20個の数字の平均値』だ。
……だとしたら、もし次のように数字を20個選んでも、標本の大きさが同じだから近い平均値が出るって思うんだけど、どうだろうか?
===========
②⑥④②②③⑥❾❿❿⑤⑤③④④⑧①⑧⑤⑥
⑥②⑥⑧⑥⑦③③❾⑥⑧⑧⑤⑤⑧⑤①❿❿⑧
❿⑦⑥❾①⑧⑤⑥①④⑦⑥⑤③⑦①⑥❿④⑧
⑤⑦②②①⑦⑦❾⑧②④❿④⑤❾⑥③⑧⑥⑤
①④❾②❾④❾❿❾①⑦⑧❾②❾②①❾④④
===========
はい。黒地に白抜き文字の数字、計20個をピックアップしました。
コレを標本にして、平均値を求めると————その結果、『9.40』。
全数調査との誤差、実に『+3.76』。
……ありゃりゃ。さっきの『差』とは比にならないほど、結果がかけ離れてしまった。
さて。
どうして、こんな結果になってしまったのか?
――――答えは簡単。
皆もお分かりの通り、『高い順で20個選んだから』だ。高い順で選び出せば、そりゃ平均値だって高くなるよな。
……では、逆にどうして『行』で選んだモノならある程度上手くいくのか?
――――その答えは、『無作為性が保たれているから』だ。
表の100個の数字は、何行目の何列目のドレであろうと全部『無作為』に決められたモノ。
なので……表を見てから『1行目を使う!』と決めても、『1行目を使う!』と決めてから表を見ても、はたまた『行じゃなく左側4列を使う!』という選び方にしても、選んだ20個の数字は結局全部ランダムなのだ。
このように、『表を見る』のと『標本を決める』のどちらが先でも構わないなら…… 無作為性が保たれている、と言える。
だけど……『高い順』の場合、そうは行かない。
『高い順』ってのは、表を見て高いモノから『コレとコレと〜〜〜コレとコレの20個を使う!』と選んでいく方法。表を見てから決めるスタイルだよな。
だけど、その逆……『決めてから表を見るスタイルで高い順を選ぶスタイル』は勿論出来ない。表を見ずにどこに高い数字が来るかなんて、予想出来ないからな。
『表を見る』と『標本を決める』順番が逆転できない……いわゆる後出しジャンケン状態。
こんな時には、 無作為性が崩されているのだ。
————そして。
コレこそが、『標本調査が使用可能な"条件"』なのだ。
標本の 無作為性が保たれている時に限り、標本調査は使用可能。
そして……標本調査も、全数調査に近い値を取れるようになるのだ。
これぞ正に、『無作為なくして標本なし』。
覚えておこう。
Point⑥
『"無作為"といえば"乱数"』
これまでのPointで、『調査』について一通り学んだ。
では最後に……『無作為』とは何なのかを説明して、この単元を締めよう。
――――無作為。
さっきから度々現れている単語だが、その意味は『作為性のない状態』。すなわち……誰の手にも掛かっていない、誰の意志も加わっていない、ただ確率に任せたままの状態の事だ。
そんな無作為 は、Point⑤でも分かった通り標本調査を行う上では必要不可欠になってくる。
……となると、果たして無作為ってどうやって手に入れるんだ?
『自分で作る』と言っても、それじゃあ『誰の手にも掛かってない』に反する。『誰かに作って貰う』のも結局同じだし……。
そんな時に使うのが……『乱数』なのだ!
乱数とは、『ランダムに並んだ数字の列』のこと。
全部の中から、標本を無作為に選び出す時に、乱数が良く使われるぞ。
では、代表的な『乱数』の例を挙げよう。
1つ目は、『乱数表』。
その名の通り、ランダムに数字が並べられた表だ。
ココから適当にマスを選んでいけば、簡単に『乱数』を手に入れることが出来るぞ。
2つ目は、『乱数さい』。
普通のサイコロとは異なり、正二十面体の形をしたサイコロだ。0~9や1~20の目が刻まれており、コレを投げる事でも簡単に乱数が手に入るぞ。
こう考えると、スゴロクで転がすサイコロも1~6の中から選んだ『乱数』って考えられるな。
3つ目は、『擬似乱数』。
コンピューターの機能を用いて作られた、乱数にかなり近い数字の列だ。Point④、⑤で使った数字の表も、コンピューターの疑似乱数で作ったモノなんだよね。
メリットは、乱数表や乱数さいよりも『速く大量に乱数を作れる』ところだ。大量に乱数が必要になった時には、ぜひコチラをどうぞ。
……こんな感じだ。あとは『くじ引き』とかも乱数の1つと言って良えるよな。
このようにして作った乱数を使えば、標本づくりも完璧。
コレで『全数調査』も『標本調査』もマスターだ!
「はぁー……成程ね…………」
標本に全数、そして無作為……。
聞き慣れない単語ばっかりだったけど、まぁまぁ分かった気がする。
『調査』や『検査』ってのも、奥が深いモンなんだな。
「……さて」
ココまで来れば、あとはコラムを読んで練習問題だ。
夜の見張り交代の時間まで、まだまだ時間は有るし……チャチャっと進もう!
Column
『実は……全数も、標本の一部』
この章では、『標本調査』と『全数調査』について勉強した。
んだけど…………ココに来て衝撃の発表です。
実は――――――――全数調査は『標本調査の一部』なのだ!
先ほど挙げた、『クッキー工場』の例を思い出して欲しい。
全数調査を選ぶと出荷できるクッキーが無くなっちゃうから、標本調査を選ばざるを得ない、っていう話だ。
コレを再び例にして考えるぞ。
全数調査とは、工場で作ったクッキーの全部を検査に回す方法。
対して標本調査とは、作ったクッキーの一部を検査に回す方法だ。
…………それじゃあ、ココで言う『一部』ってどのくらいの個数なんだ?
作ったクッキーの『何パーセントを検査に回すか』で考えてみよう。
まずは0%から。
コレはつまり『1個も検査に回さない』っていう意味……だけど、検査しないのは流石にナシ。
そこで、少しずつパーセントを増やしていく……けど、パーセントが足りない状態も心配だよな。不良品の見落としが有ったら困る。
だからといって、極端にパーセントを増やし過ぎると……今度は出荷量が減ってしまう。不良品の見落としは減っても、工場の売り上げが出なきゃ本末転倒だ。
となると……標本に選ぶパーセントは、少な過ぎでも多過ぎでもないようにしなきゃいけない。
適切な標本の大きさがあるのだ。
そして、標本を大きくし過ぎた極例…………パーセントを100%にしたのが、全数調査に当てはまる。
標本調査の100%バージョンが全数調査、っとも考えられるんだよな。
……ってな感じだ。
もしも余裕が有れば、こんな考え方で『標本調査』と『全数調査』を眺めてみても良いかもしれない。
「……よし」
コレで『標本調査』の単元の解説はおしまい。
となると………………次は、毎回恒例・お待ちかねの練習問題だ!




