データと情報
関数電卓を用意して読んでもらうとわかりやすいかもしれません。
今どきになっても、「XXギガ・バイトというすさまじい『情報量』」」というような言い方を耳にすることがあります。まぁ、1Byteは8bitからなるというのが通例ですし、「情報の単位は1bit」ということは知られているために発生する言い方なのでしょう。実はそこが問題の根本にあります。という事を言ってもわかりにくいと思いますので、そこのあたりの説明をしてみようというのが、今回のエッセイです。
そのためには、「データの単位としての1bitと、情報の単位としての1bitは異なる」ということを言わなければなりません。これ、わかりにくいかもしれません。情報関連ではデータと情報(あるいは情報量)をわけて考えます。どういうことかわからないかもしれませんので、ちょっと脇道に逸れます。
いつ読んだのか、誰が書いたのか、どの本や雑誌で読んだのか、いずれも覚えていないのが残念ですが。データと情報と知識の簡単な説明はこういうものがあります:
* データ: 観測、計測した生のもの。大雑把には数値の並びなど。
* 情報: データから言えること。
* 知識: データや情報からわかること。
これを更に続ければ、「知恵とはデータや情報や知識についての知識である」と言えるかもしれません。大雑把な言い方をすれば、「知恵とはメタ知識」となるでしょう。
まぁ、そこまで行く必要もないので、データと情報に話を戻しましょう。
さて、事象Aと事象Bが起る可能性が50%ずつだったとします。確率としては、いずれも0.5というわけです。この場合において、例えば「事象Aが起きた」ことを伝えるのが情報です。この場合、2を底とする対数(log_2と書きます)によって、「事象Aが起きた」ことの情報は、-log_2(0.5) = 1となります。頭に-がついているのは、小数なので負の数が出てきますから、それを正の値にしてやるためだけです。
普通の電卓とかには2を底とする対数の計算はないかもしれません。その場合、常用対数(たぶんlogと記載されています)をlog_10と書き、それを使うと-log_10(x)/log_10(2)としてやると、底が2の対数に変換できます。自然対数、つまり底がeの場合をlog_eと書き(電卓だとlnと書かれているかも)、それを使うと-log_e(x)/log_e(2)としてやると、変換できます。
まぁ、ともかくこれは、起きる確率が0.5の2つの事象があった時に、どちらが起きたかを伝えると、そこで「1bitの情報」が伝わっているということです。
さて、では確率が0.5ずつではなかったとしたらどうなるでしょうか。事象Aの確率が0.6で、事象Bの確率が0.4だったとしましょう。この場合「事象Aが起きた」ことが伝わったことによる情報は、-log_2(0.6) = 0.74 となります。では「事象Bが起きた」ことが伝わったことによる情報はどうなるでしょうか? -log_2(0.4) = 1.32 となります。この0.74とか、1.32の単位はなんでしょうか。当然 "bit"です。つまり、ここで事象Aの場合には、0.74bitの情報があり、事象Bには1.32bitの情報があるということです。まぁ、起こりやすいということがわかっている事柄が起きたということが伝わっても、そのことによって伝わる情報は当然少ないということです。
ここで三つ、大切なことがあります。一つは、情報の単位もbitではあるが、"1", "2", "3" という整数になるとは限らないということです。そして二つめは、事前に「事象Aが起こる確率」や「事象Bが起こる確率」がわかっていないと、「情報の量」は「計算できない」ということです。計算の元になる値がわかっていないのですから、当然計算のしようがありません。最後に、「情報の量とは『誰にとっての情報の量』なのか」の話であるということです。
この最後の「誰にとっての」というところは、説明が必要かもしれません。事象Aが起きたにせよ、事象Bが起きたにせよ、それを伝える側はどうあがいても最低でも1bitの信号を送らなければなりません。0を送ったら事象Aが起きたとか、1を送ったら事象Bが起きたとかですね。ですが、上では小数の値が出ていました。ですから、明らかに「送る側にとって」の情報ではありません。送る側というのは、そういう人でもいいですし、あるいは事象そのものであってもかまいません。送る側でないとしたら、当然受け取る側の話になります。ここはデータ圧縮とかあるので、少し話を面倒にすることもできますが、今回はこういう性質を使っているということだけにしておきます。
確かに情報の単位は"bit"であって、これはデータの単位でもあります。しかし、データと情報は異なるものであるということを知っておいて損はないと思います。
次回は、たぶん右と左の話かな。