情報幾何とFisher情報量

Fisher情報量は、微小に離れた二つの確率分布の距離を表す指標として、情報幾何で用いられます。それは、

 

「Fisher情報量が大きいとモデルは、より正確に確率分布が推定できる、つまり、異 なった確率分布同士がよりよく識別できる」

 

からです。つまり、二つのものがよりよく識別できるのであれば、より距離が離れていると思ってもよいではないか、ということです。このわかりやすい描像は、情報幾何の売りの一つです。

しかし、上記の「」内の主張は、細かく見ると色々と文句が付きます。

Fisher情報量は、統計学の普通の教科書だと、

     (局所不偏推定量の平均二乗誤差の最小値)=1/(Fisher情報量)

として出てきます。が、局所不偏性は不偏性の必要条件にすぎませんから、「達成可能」と言っても威張れるものでもありません。この下限を達成する不偏推定量のないモデルは、いくらでもあるのです。

では、本当は達成できない「下限」に相当するFisher 情報量に、なぜ冒頭のような中心的な意味が与えられるのでしょうか。

これは甘利本などを読んだ方には常識でしょうが、漸近論による意味付けを用います。つまり、データ数が沢山あって、漸近正規性が機能する状況になれば、「最適な」推定量の平均二乗誤差の下限がFisher情報量の逆数に比例する、というわけです。そして、最適な推定量は広く用いられている最尤推定量だというのですl

しかし、この「最適な」はなかなか曲者でして、Fisherの大雑把な「証明」ののち、様々な議論があって、モデルや推定量に一定の制限が必要であることが明らかになりました。このあたりは、それだけでモノグラフが書けるくらいに分厚い話で、これらの条件の必然性は、微妙といえば微妙です。(単なる一致性だけでは、下限が保証できないことは確かです。)やはり、漸近論の話にしますと、解析学的な難所がいちいち妨げになって、本質が曖昧になるきらいがあると思います。

そこで、以下では上とはやや異なる、Fisher情報量の意味づけを紹介したいと思います。それは、

 「統計量の期待値が、どの程度敏感にパラメータの変化を表すか」

という視点からFisher情報量を特徴づける考え方です。つまり、ある種の線形応答の係数として見る見方で、AmariNagaokaの本や、長岡さんの数理科学の古い記事に書かれています。最近物理で見る、speed limitとの関係なども、基本的にはこういう話だと思います。

また、局所不偏推定量を用いた議論も、本質的にはこの議論の変形であるように思います。局所不偏性条件の定義は

    「期待値の(パラメータによる)微分が1に等しい」

と言っており、この条件下で平均二乗誤差を最小化するのです。つまり、シグナルの強さを固定して揺らぎを最小化しましょう、と読めます。これは、上記の「敏感さ」の議論そのままです。通常の統計学の定義では、単に不偏性の簡便な必要条件とされ、意味がよくわからなかったのですが、こう思うと少しは意味がわかった気がします。

また、漸近論の話は結局のところ、局所不偏性の議論が近似的に正当化できますよ、というふうに読めると思います。もう随分と前になりますが、柴田先生と漸近論の数学的な仮定について話した時、「結局は漸近局所不偏を仮定に入れるのが明快でよい」とおっしゃられていました。実際、局所不偏推定量が与えられたら、それと同じ漸近的な分散をもつ一致推定量を簡単に構成できます。

以上は情報科学というか操作論的なFisher情報量の意味づけでした。一方、アファイン微分幾何の理論から導入するやり方があります。僕にはこれも、上記の「敏感さ」による意味づけと密接に関係しているように見えます。

念頭にあるのは野水、黒瀬、松添などのアプローチで、これはe接続を埋め込みを用いて導出する過程で、自然とFisher情報量が出てきてしまうというもので、最初見た時は魔術かと思いました。

大まかに言いますと、(m個の離散的な値をもつ確率変数の)確率分布の集合を \mathbb{R}^m内の曲面だと解釈するのです。そのやり方は、 {\rm log} p(i)i番目の座標の値にします。接続は、ユークリッド空間の普通の接続を「射影」して作ります。言い換えると、接ベクトルを対数微分と同一視し、並行移動は基本、対数微分をそのまま他の点に移動することで定義します。ただ、対数微分は期待値がゼロでないといけないので、期待値を引いて調整します。

上記の手続きのどこにFisher情報量はどこに出てくるかというと、射影をするときに捨てられる部分の大きさがFisher情報量に比例します。

 

以上、Fisher情報量の意味付けとして、

  1. 統計量の期待値がどれだけパラメータに鋭敏に反応するかの尺度
  2. モデルのユークリッド空間への埋め込みを考えたときの「曲がり具合」

という二通りの見方を紹介しました。前者は情報、後者は幾何学ですが、両者には関係があるように見えます。

今、真の確率分布をpだと思っているとき、それが本当かどうか、ある統計量の標本平均を見て判定したいとします。このテストの感度は上記の1を用いて議論できて、統計量としては対数微分を使うのがよい、ということになります。

そして、このテストの幾何的な描像は、2によって与えられます。つまり、ある分布pが真の分布だと信念をもっていたら、その点での接ベクトルを真の分布まで平行移動して「射影」し、残差があるかどうかを見る。この「平行移動」は実際のデータを当てはめてみることに相当し、「射影の残差」が対数微分の平均の変動に相当します。

つまり、情報論的に最適な埋め込みを考えると、自然とFisher情報量と双対接続が出てきてしまう、というわけです。