因果と相関とAIと
今回は因果と相関についてゆるーく考えてみよう。
少し複雑な内容なので区切りを多用して読みやすくしてみた。
まずは相関について。
相関は、大きく分けて次の2つがある。
一つは量的相関、もう一つは質的相関だ。
これは僕が勝手にそう分けているだけなので、もっと別の分け方があるかもしれない。
▲ ▽ ▲ ▽ ▲ ▽
量的相関とは、一般的に想定されるような相関だ。
すなわち、Aの増減に伴ってBも増減するという関係性。
たとえば、『その月の平均気温が1度上がるとガリョガリョくんアイスの売れ行きが100万円上がる』とか。
これは、反対にBが5倍大きくなるならAも5倍大きくなるだろうと言えるような関係性だ。
『今月はガリョガリョくんアイスの売れ行きが500万円多いと思ったら平均気温が5度上がってたぜ』とかね。
▲ ▽ ▲ ▽ ▲ ▽
次に質的相関だけど、これはたとえば、『いちごが売れると練乳が売れる』とかそういうやつ。
『練乳が売れてもいちごが売れるとは言えない』ってところが量的相関と違うところでね。
ときにひっくり返すと成立しなくなる(非対称性という)のが因果だという説明がなされることがあるんだけれど、そうとは限らないんだ。
みんながみんないちごに練乳をかけて食べるわけではないのでやっぱりこれも相関なのさ。
▲ ▽ ▲ ▽ ▲ ▽
因果もまた、大きく分けて2つある。
量的相関の中から因果性をある程度認めようとする量的因果と、本来の因果である質的因果この2つ。例のごとくこれは僕が勝手に分けているだけなので以下省略。
▲ ▽ ▲ ▽ ▲ ▽
まずは量的因果。
すなわち、量的相関から色々削ぎ落とされて導かれるものだ。
例えば、『タバコを吸うと肺がんになる確率が高くなる』とかそういうやつ。
こういうものは、単一の論文内で有意差を出した段階では単に相関を意味しているだけに過ぎない。
『ゲームをするとバカになる』とかそういうのあるでしょ? 『レジ袋を有料化すると海洋汚染が防げる』とかさ。
このエッセイを読んでる方は、その段階の情報を鵜呑みにしちゃ駄目だよ?
ここから例えばメタ分析にかけて、タバコ以外の要因、たとえば『肺がんになっていたのは実は工業地帯に住む人でした』みたいなものをふるいに掛けるのだ。
そうしてでたきた『ある程度の因果関係を認めるのが妥当だろう』というものが、量的相関から色々削ぎ落とされて導かれた量的因果だ。
やっぱり出てきた結論も相関関係ではあるんだけれど、一応こいつが因果関係でもあるということは確率と統計の範囲内において保証される。
まぁ、実のところそれを保証するメタ分析のようなものですら、欺けるんだけどね。
あんまり研究者がいないような分野では利権団体が単一の学派のスポンサーになったりしたりして論文を書かせてゴニョゴニョ。ほら、お薬業界とか、繊維業界とか。環境マフィアとか。いるでしょ? そういうの。
おっと、誰か来たようだ。
▲ ▽ ▲ ▽ ▲ ▽
もう一つは、質的因果。こっちは要するに量が関係ない、ほんとうの意味での因果だね。
たとえば、階段から足を踏み外した結果、すってんころりんと転びましたとかさ。
これ、逆は必ずしも成立しない。すってんころりんと転んだからといって、階段から足を踏み外したとは限らないのだ。
バナナの皮で滑ったかもしれないし、お風呂場で石鹸を踏んづけたかもしれない。
要するに、因果と質的相関は、AとBを入れ替えられない(対称性がない)。
▲ ▽ ▲ ▽ ▲ ▽
じゃあ、結局『因果と相関の見分け方ってなによ』っていうと、要するに他の場所に持っていっても成立するのが因果で、他の場所に持っていくと成立しなくなるのが相関だ。
例えば、『50~60代のコーヒーを好む人100人を調査したところ対照群と比べ10年後胃がんになった確率は1.25倍だった』という調査結果があったとして、『10代のコーヒーを好む人200人を調査したところ対照群と比べ胃がんになる確率に有意差は見られなかった』としたら、コーヒーと胃がんの関係は相関に過ぎない。
というか非相関の可能性すらあるw
もしかしたら、胃の中のピロリ菌の有無のせいかもしれないじゃん?
こんなとき、マスゴミはことさらに1.25倍だった! みたいなことをセンセーショナルに報道したりするんだよ。記者が無知なのか国民を馬鹿にしてるのかしらないが。
国民にまともに教育がなされてないと、みんながそれを信じてコーヒーが規制されることになる。
結構あるんだよ? こういうの。トリプトファン事件とかさ。
これが、何歳の群でも、たとえ20年後でも、いろいろ条件を変えて試してみて(メタ分析)、『どうも同じ結果が出るようだ』としたらそれは確率と統計の保証する範囲内で『因果』と言えるでしょう。
見せかけの相関なんてのもあるね。
おむつが売れるとビールが売れるとかそういうの。
直感的に明らかに非相関なんだけど、ビッグデータを拾ってみると相関してるように見えるもの。
相関するからといって普通は綺麗に関数の上に乗ったりしない。偏差や外れ値などを持つんだ。
因果の方も、相関から導かれたものは確率に依存する。
▲ ▽ ▲ ▽ ▲ ▽
そろそろタイムオーバーだし、考えることに飽きてきたのでまとめると、非相関と量的相関の間、量的相関と量的因果の間には確率的に不可分な連続性があって、それこそが未来予測を外れさせる原因になっているというのが僕の出した結論だ。
この先どんなAIができたとしても、現在の技術の延長線上にある限り100%未来予測できるなんてことはありえない。
もっとも、現状でもAIの計算結果が1(100%)になることはあり得る。あり得るのだが、その計算結果を人前にだせるなら、その人は不勉強だ。




