情報量

曖昧さ回避 この項目では、情報量(エントロピー)の概念の情報理論的側面について説明しています。熱力学的側面については「エントロピー」をご覧ください。
曖昧さ回避 データ量」とは異なります。
情報理論
情報量
通信路
単位
  • シャノン
  • ナット
  • ハートレー
その他
  • 漸近等分割性(英語版)
  • レート歪み理論(英語版)
カテゴリ カテゴリ

情報量(じょうほうりょう)やエントロピー: entropy)は、情報理論の概念で、あるできごと(事象)が起きた際、それがどれほど起こりにくいかを表す尺度である。ありふれたできごと(たとえば「風の音」)が起こったことを知ってもそれはたいした「情報」にはならないが、逆に珍しいできごと(たとえば「曲の演奏」)が起これば、それはより多くの「情報」を含んでいると考えられる。情報量はそのできごとが本質的にどの程度の情報を持つかの尺度であるとみなすこともできる。

なおここでいう「情報」とは、あくまでそのできごとの起こりにくさ(確率)だけによって決まる数学的な量でしかなく、個人・社会における有用性とは無関係である。たとえば「自分が宝くじに当たった」と「見知らぬAさんが宝くじに当たった」は、前者の方が有用な情報に見えるが、両者の情報量は全く同じである(宝くじが当たる確率は所与条件一定のもとでは誰でも同じであるため)。

自己情報量(自己エントロピー)と平均情報量(エントロピー)

それぞれのできごとの情報量だけでなく、それらのできごとの情報量の平均値も情報量と呼ぶ。両者を区別する場合には、前者を自己情報量自己エントロピーとも)、後者を平均情報量エントロピーとも)と呼ぶ。

自己情報量

事象 E {\displaystyle E} が起こる確率 P ( E ) {\displaystyle P(E)} とするとき、事象 E {\displaystyle E} が起こったことを知らされたとき受け取る自己情報量 I ( E ) {\displaystyle I(E)} は、以下で定義される:

I ( E ) = log 1 P ( E ) = log P ( E ) {\displaystyle I(E)=\log {\frac {1}{P(E)}}=-\log P(E)}

確率は 0 P ( E ) 1 {\displaystyle 0\leq P(E)\leq 1} なので自己情報量 I ( E ) {\displaystyle I(E)} は非負である。また対数の単調増加性により、起こりにくい事象(=生起確率が低い事象)の情報量ほど値が大きい。

対数として何を選んでも情報量の値が定数倍変わるだけなので本質的な差はない。慣習的に底に2を選ぶことが多い。底が2の場合、 1 / 2 n {\displaystyle 1/2^{n}} の確率で起こる事象の情報量は n {\displaystyle n} である。

直観的意味

整数 u {\displaystyle u} に対し、 u {\displaystyle u} の対数 log m u {\displaystyle \log _{m}u} m {\displaystyle m} 進法での u {\displaystyle u} の桁数にほぼ等しい値を表す。したがって、確率 1 / u {\displaystyle 1/u} で起こる事象の情報量は、ほぼ u {\displaystyle u} の桁数になる。

情報量の加法性

情報量は加法性を持つ。すなわち独立な事象AとBに対し、事象「AもBも起こる」の情報量は、Aの情報量とBの情報量の和である。これは以下で証明される。

I ( A , B ) = log P ( A , B ) = log ( P ( A ) P ( B ) ) = ( log P ( A ) + log P ( B ) ) = I ( A ) + I ( B ) {\displaystyle I(A,B)=-\log P(A,B)=-\log(P(A)\cdot P(B))=-(\log P(A)+\log P(B))=I(A)+I(B)}

例えば、52枚のトランプから無作為に1枚を取り出すという試行を考える。「取り出したカードはハートの4である」という事象の情報量は、前述の定義から log 52 であると分かる。ここで、「取り出したカードのスートはハートである」という事象と「取り出したカードの数字は4である」という事象の二つを考えると、前者の情報量は log 4、後者は log 13 である。この両者の和は log 4 + log 13 = log (4×13) = log 52 となり、「取り出したカードはハートの4である」という事象の情報量と等しい。これは「独立した情報の和が、全体の情報量と一致する」という直感的要請に合致する。

導出

情報量に対する直感的要請には「発生確率が低いほど大きく(単調減少性)」「確率に関して連続的に変化し(連続性)」「独立同時事象の情報量が周辺事象の情報量和に等しい(加法性)」の三条件が挙げられる。この3条件を満たす関数はコーシーの函数方程式を利用することで C log p {\displaystyle C\log p} と一意に求まる。よって情報量の定義は上記の3条件から一意に導出できる。典型的には対数の底を2としてp=1/2で1となるようにCを設定(C=-1)する。

平均情報量(エントロピー)

( Ω , F , P ) {\displaystyle (\Omega ,{\mathcal {F}},P)} 確率空間とする。全事象 Ω分割 A i {\displaystyle A_{i}} が与えられたとき[2]、各事象 A i Ω {\displaystyle A_{i}\in \Omega } の自己情報量 I ( A i ) {\displaystyle I(A_{i})} で定義した値

H ( P ) = A i Ω P ( A i )   I ( A i ) = A i Ω P ( A i ) log P ( A i ) {\displaystyle H(P)=\sum _{A_{i}\in \Omega }P(A_{i})\ I(A_{i})=-\sum _{A_{i}\in \Omega }P(A_{i})\log P(A_{i})}

確率測度 Pエントロピー H(P) と呼ぶ(平均情報量シャノン情報量情報論のエントロピーとも)。ただし、ここで P ( A i ) = 0 {\displaystyle P(A_{i})=0} のときは、 P ( A i ) log P ( A i ) = 0 {\displaystyle P(A_{i})\log P(A_{i})=0} とみなす。これは lim p 0 + p log p = 0 {\displaystyle \lim _{p\to 0+}{p\log p}=0} であることによる。

また、離散型確率変数 X確率分布 P に従う場合には、 Xエントロピー H(X) を自己情報量 I期待値によって定義する。すなわち、

H ( X ) = E P [ I ( X ) ] = x X f X ( x ) log f X ( x ) {\displaystyle H(X)=\mathbb {E} _{P}[I(X)]=-\sum _{x\in X}f_{X}(x)\log f_{X}(x)}

である[3]。ここで fXX確率質量関数である[4]

0 I ( ) {\displaystyle 0\leqq I(\cdot )} より、エントロピーは常に非負である。

確率変数 XY の組 (X, Y) も確率変数とみなせる。この確率変数の値の発生確率すなわち同時確率 P X , Y ( X , Y ) {\displaystyle P_{X,Y}(X,Y)} とすると、 (X, Y) のエントロピー H ( X , Y ) {\displaystyle H(X,Y)}

H ( X , Y ) = E P X , Y [ I ( X , Y ) ] = ( x , y ) ( X , Y ) P X , Y ( x , y ) log P X , Y ( x , y ) {\displaystyle H(X,Y)=\mathbb {E} _{P_{X,Y}}[I(X,Y)]=-\sum _{(x,y)\in (X,Y)}P_{X,Y}(x,y)\log P_{X,Y}(x,y)}

になる。これを結合エントロピーと呼ぶ。

(X, Y) が互いに独立な確率変数である場合には、 H ( X , Y ) {\displaystyle H(X,Y)} H ( X ) + H ( Y ) {\displaystyle H(X)+H(Y)} に一致する。すなわち、全体の情報量 H ( X , Y ) {\displaystyle H(X,Y)} は、それぞれの確率変数の情報量の和である。

しかし、 XY が互いに独立ではない場合は、 H ( X , Y ) {\displaystyle H(X,Y)} H ( X ) + H ( Y ) {\displaystyle H(X)+H(Y)} は一致せず、前者より後者の方が大きい値になる。両者の情報量の差を相互情報量と呼び、

I ( X , Y ) = H ( X ) + H ( Y ) H ( X , Y ) {\displaystyle I(X,Y)=H(X)+H(Y)-H(X,Y)}

で表す。相互情報量は常に非負の値になる。

事象B が生じているという条件下における事象A条件付き情報量 log Pr ( A B ) {\displaystyle -\log \Pr(A\mid B)} によって定める。確率変数 X が与えられたとき、事象「 X = x {\displaystyle X=x} 」の条件付き情報量 log Pr ( X = x B ) {\displaystyle -\log \Pr(X=x\mid B)} x に関する加重平均を条件付きエントロピーと言い、

H ( X B ) = E P X B [ I ( X B ) ] = x X Pr ( X = x B ) log Pr ( X = x B ) {\displaystyle H(X\mid B)=\mathbb {E} _{P_{X\mid B}}[I(X\mid B)]=-\sum _{x\in X}\Pr(X=x\mid B)\log \Pr(X=x\mid B)}

で表す。

さらに確率変数 Y が与えられたとき、事象「 Y = y {\displaystyle Y=y} 」が生じているという条件下における条件付きエントロピー H ( X Y = y ) {\displaystyle H(X\mid Y=y)} y に関する加重平均

H ( X Y ) = y Y Pr ( Y = y ) H ( X Y = y ) = x X , y Y Pr ( X = x , Y = y ) log Pr ( X = x Y = y ) {\displaystyle H(X\mid Y)=\sum _{y\in Y}\Pr(Y=y)H(X\mid Y=y)=-\sum _{x\in X,y\in Y}\Pr(X=x,Y=y)\log {\Pr(X=x\mid Y=y)}}

も、やはり条件付きエントロピーと呼ぶ。

エントロピーの基本的性質

  • 情報量は確率だけによって決まる。
  • 情報量は非負の値または無限大を取る。
  • nビットのビット列の空間(情報源)から(一様ランダムとは限らない方法で)ランダムにビット列を選んだときのエントロピーは、n以下になる。エントロピーがnになる必要十分条件は、ビット列が一様ランダムに選ばれることである。
  • 確率変数XとYが独立である必要十分条件は、 H ( X ) + H ( Y ) = H ( X , Y ) {\displaystyle H(X)+H(Y)=H(X,Y)} が成立することである。

コイン投げの例

あるコインを投げたときに表が出る確率を p {\displaystyle p} 、裏が出る確率を 1 p {\displaystyle 1-p} とする。このコインを投げたときに得られる平均情報量(エントロピー)は、

H ( X ) = p log p ( 1 p ) log ( 1 p ) {\displaystyle H(X)=-p\log {p}-(1-p)\log {(1-p)}}

である。

この関数 f ( p ) = p log p ( 1 p ) log ( 1 p ) {\displaystyle f(p)=-p\log {p}-(1-p)\log {(1-p)}} エントロピー関数と呼ぶ。

図を見ると分かるように、 p = 0 {\displaystyle p=0} p = 1 {\displaystyle p=1} では H はゼロである。つまり、コインを投げる前から裏または表が出ることが確実に分かっているときに得られる平均情報量は、ゼロである。 H が最大になるのは p = 1 / 2 {\displaystyle p=1/2} のときであり、一般にすべての事象(できごと)が等確率になるときにエントロピーが最大になる。

連続系のエントロピー

実数値を取る確率変数Xの確率密度関数をp(x)とするとき、Xのエントロピーを

h ( X ) = p ( x ) log p ( x ) d x {\displaystyle h(X)=-\int _{-\infty }^{\infty }p(x)\log p(x)dx}

によって定義する。

Xが有限集合に値を取る確率変数である場合には、Xのシャノン情報量 H ( X ) {\displaystyle H(X)} も定義できる。Xn通りの値を取るとき、 H ( X ) {\displaystyle H(X)} h ( X ) {\displaystyle h(X)} は、

h ( X ) = H ( U n ) H ( X ) {\displaystyle h(X)=H(U_{n})-H(X)}

を満たす。

ただし、ここで U n {\displaystyle U_{n}} n元集合上の一様分布とする(すなわち H ( U n ) = log n {\displaystyle H(U_{n})=\log n} )。

Renyiエントロピー

Ω {\displaystyle \Omega } を、台が有限集合である確率空間とする。P Ω {\displaystyle \Omega } 上の確率分布とし、 α {\displaystyle \alpha } を非負の実数とする。

α 1 {\displaystyle \alpha \neq 1} のとき、Pのdegee α {\displaystyle \alpha } Renyiエントロピー

H α ( P ) = log ( A Ω P ( A ) α ) 1 α {\displaystyle H_{\alpha }(P)={\frac {\log(\sum _{A\in \Omega }P(A)^{\alpha })}{1-\alpha }}}

によって定義する。 また、 α = 1 , {\displaystyle \alpha =1,\infty } の場合には、Renyiエントロピーを

{ H 1 ( P ) = lim α 1 H α ( P ) H ( P ) = lim α H α ( P ) {\displaystyle \left\{{\begin{array}{lll}H_{1}(P)&=\lim _{\alpha \to 1}&H_{\alpha }(P)\\H_{\infty }(P)&=\lim _{\alpha \to \infty }&H_{\alpha }(P)\end{array}}\right.}

によって定義する。

単にRenyiエントロピーと言った場合は H 2 ( P ) {\displaystyle H_{2}(P)} を意味することも多い。

さらに、確率変数Xが確率分布Pに従うとき、 H α ( X ) {\displaystyle H_{\alpha }(X)} H α ( X ) = H α ( P ) {\displaystyle H_{\alpha }(X)=H_{\alpha }(P)} によって定義する。

Renyiエントロピーは以下の性質を満たす:

  • H 0 ( P ) = log # Ω {\displaystyle H_{0}(P)=\log \#\Omega } が成立する。
  • H 1 ( P ) {\displaystyle H_{1}(P)} はシャノン情報量 H ( P ) = A Ω P ( A ) log P ( A ) {\displaystyle H(P)=-\sum _{A\in \Omega }P(A)\log P(A)} と一致する。
  • α {\displaystyle \alpha } が2以上の整数の場合には、 H α ( P ) = 1 1 α log Pr ( X 1 = = X α ) {\displaystyle H_{\alpha }(P)={\frac {1}{1-\alpha }}\log \Pr(X_{1}=\cdots =X_{\alpha })} が成立する。ここで、 X 1 , , X α {\displaystyle X_{1},\ldots ,X_{\alpha }} は確率分布 P {\displaystyle P} に従う独立同一分布であって、 Pr ( X 1 = = X α ) {\displaystyle \Pr(X_{1}=\cdots =X_{\alpha })} x 1 , , x α {\displaystyle x_{1},\ldots ,x_{\alpha }} をそれぞれ X 1 , , X α {\displaystyle X_{1},\ldots ,X_{\alpha }} に従って選んだときに x 1 = = x α {\displaystyle x_{1}=\cdots =x_{\alpha }} が成立する確率とする。
  • H ( P ) = min A Ω { log P ( A ) } {\displaystyle H_{\infty }(P)=\min _{A\in \Omega }\{-\log P(A)\}} が成立する。この H ( P ) {\displaystyle H_{\infty }(P)} minエントロピーともいう。

歴史

「エントロピー」の概念は1865年ルドルフ・クラウジウスがギリシャ語の「変換」を意味する言葉を語源として、熱力学における気体のある状態量として導入した。これは統計力学では微視的な状態数の対数に比例する量として表される。1929年にはレオ・シラードが、気体についての情報を観測者が獲得することと統計力学におけるエントロピーとの間に直接の関係があることを示し、現在 1 ビット(1 シャノン)と呼ぶ量が統計力学で k ln 2 に対応するという関係を導いていた[5]

現在の情報理論におけるエントロピーの直接の導入は1948年クロード・シャノンによるもので、その論文『通信の数学的理論』でエントロピーの概念を情報理論に応用した[6]。シャノン自身は熱統計力学でこの概念と関連する概念がすでに使われていることを知らずにこの定義に到達したが、その名称を考えていたとき同僚フォン・ノイマンが、熱統計力学のエントロピーに似ていることから示唆したもので、フォン・ノイマンは「統計エントロピーが何なのかを理解してる人は少ないから、議論になったら有利であろう」と語ったとされる[7][8]。しかしシャノンはフォン・ノイマンとの会話は認めつつその影響を否定している[9]

なお、シャノン以前にもラルフ・ハートレー1928年に、集合Aに対して log # A {\displaystyle \log \#A} という量を考察している(“ # A {\displaystyle \#A} ”はA元数)。 log # A {\displaystyle \log \#A} A上の一様分布のエントロピーに一致する。現在では、 log # A {\displaystyle \log \#A} Aハートレー・エントロピーと呼ぶ[10]

単位

情報量は本来無次元の量である。しかし、対数の底として何を用いたかによって値が異なるので,単位を付けて区別している。前述のように、情報量は確率の逆数の桁数の期待値なので、単位も桁数のそれを流用する。この為、対数の底として2、e、10を選んだときの情報量の単位は、それぞれビット(bit)、ナット(nat)、ディット(dit)である。

また、今のところ主流ではないものの、1997年に日本工業規格 JIS X 0016:1997(これは国際規格 ISO/IEC 2382-16:1996と一致している)は、これらの量を表す単位を別に定めている。

対数の底と単位
通常の単位 JISおよびISOが定めた単位 備考
2 ビット (bit) シャノン (shannon) lb, 二進対数
e=2.718… ナット (nat) ナット (nat) ln, 自然対数
10 ディット (dit) ハートレー (hartley) lg, 常用対数

単位「シャノン」、「ハートレー」の名称は、それぞれ情報量の概念を提案したクロード・シャノンラルフ・ハートレーにちなむ。

脚注

[脚注の使い方]
  1. ^ Gray, Robert M. (2013-03-14) (英語). Entropy and Information Theory. Springer Science & Business Media. ISBN 978-1-4757-3982-4. https://books.google.com/books?id=ZoTSBwAAQBAJ&pg=PA23&q=entropy+as+a+function+of+the+partition 
  2. ^ この分割は離散型確率変数の確率質量関数から誘導されることもある[1]
  3. ^ Cover, Thomas M.; Thomas, Joy A. (2012-11-28) (英語). Elements of Information Theory. John Wiley & Sons. ISBN 978-1-118-58577-1. https://books.google.com/books?id=VWq5GG6ycxMC&pg=PA14 
  4. ^ fX(x) P X ( x ) = P ( X = x ) = P ( { ω Ω X ( ω ) = x } ) {\displaystyle P_{X}(x)=P(X=x)=P(\{\omega \in \Omega \mid X(\omega )=x\})} と書くこともある。
  5. ^ Szilard, L. (1929) "Über die Entropieverminderung in einem Thermodynamischen System bei Eingriffen Intelligenter Wesen", Zeitschrift für Physik 53:840–856
  6. ^ Cover & Thomas 2006, Historical Notes.
  7. ^ 『ファインマン計算機科学』 p. 96 ファインマンによる脚注*8で、「言い伝えによれば」と断りのうえでこの説を紹介している。
  8. ^ 韓太舜、小林欣吾『情報と符号の数理』
  9. ^ CLAUDE E. SHANNON: An Interview Conducted by Robert Price, 28 July 1982
  10. ^ なお、JIS X 0016:1997 で定義される選択情報量(decision content)も同じ定義である。「互いに排反な事象から成る有限集合中の事象の数の対数。」

参考文献

  • Shannon entropy calculator (English)
  • A Mathematical Theory of Communication Shannon 1948 (English)
  • Cover, Thomas M.; Thomas, Joy A. (2006). Elements of information theory (Second ed.). John Wiley & Sons. ISBN 978-0-471-24195-9. MR2239987. https://books.google.com/books?id=VWq5GG6ycxMC 

関連項目

外部リンク

典拠管理データベース ウィキデータを編集
全般
  • FAST
国立図書館
  • スペイン
  • フランス
  • BnF data
  • ドイツ
  • イスラエル
  • アメリカ
  • 日本
  • チェコ
確率の歴史
確率の定義
客観確率
  • 統計的確率
  • 古典的確率
  • 公理的確率
主観確率
確率の拡張
基礎概念
モデル
確率変数
確率分布
関数
用語
確率の解釈
問題
法則・定理
測度論
確率微分方程式
確率過程
情報量
応用
数理ファイナンス
系統学
カテゴリ カテゴリ
可逆
エントロピー符号
辞書式(英語版)
その他
音声
理論
コーデック
画像
理論
手法
映像
理論
コーデック(英語版)
理論