朱鷺の杜(IBIS)ブログ

情報論的学習理論(IBIS)に関する管理人の独断と偏見に満ちた意見

確率論ムズイ?

今年は節電のために、産総研は建物毎に輪番休暇を設けていて、今週は旧電総研のわれわれの建物がそれにあたっているので、休み中に確率に関するいくつかの読み物を読んだ。 今日はその感想を中心に書いてみる。
(と言いながら本の中身にほとんど触れていなかったので少しだけ追記)

機械学習において確率統計は中心的な役割を果たす学問であるが、「確率統計が難しい」という話はよく聞く。 私とてそんなに確率統計に強いという気はしないが、そこそここの業界にいるので確率とのつきあいも長い。 そこで私の経験から、確率統計の難しさについても触れてみたい。 ただし、始めに書いておくと、一概に難しいと言っても、その人のバックグラウンドによってその要因は千差万別なので、ここに書いてあることはほんの一面に過ぎないことは注意していただきたい。

さて、確率は今は中学2年生くらいで習うようだが、サイコロの目が1/6になるとか、公平なコインの確率が1/2になるとか、その辺でつまずくようには見えない。
サイコロで偶数の目が出る確率なんかはほとんど間違える子はいないと思う。

基本的には足して1になるばらばらの確率値があり、必要に応じてそれを足し合わせて必要なモノゴトの確率を算出する足し算の世界である。

全部地道に数えれば、そんなに複雑なことはない。

条件付き確率が入ってベイズの定理を使った計算になるとかけ算や割り算も入ってきて多少は複雑になるが、計算ルールはシンプルである。

だが試験問題などでは、偶数の目が出る確率なんていう単純な問題は出ることはない。 みんなできてしまうからだ。 そこで、どんどん状況を複雑にしていって、地道に数えるのが難しい問題が出てくる。 これが確率を難しいと思わせる第一の要因ではないだろうか。

これは確率が難しいと言うよりも、数え上げのやり方が難しいだけであろう。
確率が、順列や組み合わせという内容としばしばセットになっているのも曲者だ。

確率変数が連続の場合も、足し算が積分になるぐらいで、概念的にはそれほど難しくはないと思うが、積分計算も凝った問題がいくらでも作れるので計算は大変である。
これも確率自体のもつ難しさとは言えないだろう。

まあ普段そんなことを思っているのだが、
数学セミナー に4月からパズルデザイナーの岩沢宏和という人の連載「確率パズルの迷宮」を読んだ。

そこにはもうちょっと違う見方も書いてあった。

確率の値というのが、往々にして直観に反する、というのだ。
それゆえパラドックスと呼ばれるものも多い。
これは確かに難しいと思わせる要因の一つかも知れない。
しかし、人間の確率に関する直観なんて「錯視」みたいなもので、あまり当てにしないという態度は必要だろう。

さて、似たような内容で、やはり最近まで読んでいた本にちょっと手ごわい確率パズルというのがある。

数セミにしろこの確率パズルの本にしろ、目の覚めるようなトリックや不等式の証明を見ると、とてもこんなの自分でできそうもないという気がするが、それはやはり数え上げや積分が難しいのだと思う。

確率パズルの本の訳者あとがきに、「さいころ2個の単純な問題でも、問題によって目の出方の順番をかんがえなければならないのか、それは考えなくていいのか、判断がつきかねてよく悩みました。解説を見れば、それはそれで理解できます。でも、自分で考えているとき、これでいいはずだという確信がなかなか得られないというのが、訳者の確率という分野とのつきあいの現実でした。」とあり、まさに私も同じ気持ちである。
(なお、擁護のために付け加えると、この本は数え上げだけでなく、確率に関するいろいろな概念が合間に適宜解説されており、単なるパズルのためのパズル本ではなくなかなかよい本である。 最近入手したにもかかわらず1刷だったので、あまり売れてないかも知れないが、もっと売れても良いと思う。

追記: あと、この本のスタンスは、目の覚めるような方法も紹介するが、とにかく難しければ計算機シミュレーションしちゃえばいいじゃん、というものである。 これは開き直りのようでもあるが、現代的でもある。 ほとんどの微分方程式は解析的には解けないので数値的に解くというアプローチに似ている。 MCMC などはそのシミュレーション自身を工夫する話なので、またそれはそれで奥は深いのだが。)

こういう数え上げや不等式のトリックは情報理論やVC次元の理論なんかでは大活躍するものなので、理論研究者としてやっていくにはできれば身につけたいものではある。(自分ももっと勉強しなくてはと改めて思った)

ほかにも確率が難しいと感じるいくつかのポイントを挙げてみる。

よくあるのは、MCMCの説明などをしているときに分布収束なんかはわかりにくいポイントかもしれない。 サイコロの目のような「見た目」と、背後にある「確率分布」がなんとなく頭の中で混乱してしまうのである。

後はやはり、「確率論」と呼ばれる領域まで来るとやはり敷居が高くなってくるのは確かである。 集合論や測度論といった数学の基礎的な領域がガッツリと絡んでくるからである。 ただ、それも人によるようで、萩原さん@三重大など「測度論を勉強するまで確率がよくわからなかった」と言うほどの猛者もいる。

さらに、鈴木譲先生@阪大のブログにこんなエントリーがある。 非数学系の確率初心者にはびびる内容だろう。

蛇足になるが、今日image ML に流れた金谷先生@岡山大の投稿がまさに「確率統計を学ぶにあたって」というタイトルであった(ML以外にも twitter などに流布しているようなのでリンクは張らせていただいた。)

金谷先生によれば「確率現象は存在しない」という立場でスタートされている。

このこと自身について、私はあまり確率の難しさの要因とは思ってはいなかった。 現実世界に数学的な意味での点や直線は存在しない、という意味では数学というのはみなそういうものだからである。
そもそも現実世界の数学モデル化というのはなかなか難しいものであるが、それはモデル化一般にもつ難しさであって、確率に限った話ではない。

ただ、世の中が決定論的だと思うという性向をもつ人というのはかなり多いようである。
その辺りは認知科学なんかで議論されているようで、数セミの記事にも詳しいが、有名なモンティホール問題や三囚人問題については一時期かなり議論があったようである。

以前テレビでどこかのタレントが「確率天気予報なんてわけがわからない。雨は降るか降らないかのどちらかなんだから、30%雨が降るとかありえない」と言っていた。
その人も天気が確率モデルで扱われるというのは納得がいかないのかもしれない(あるいは確率変数と分布を混乱しているだけかも知れない)。

ただし、確率の意味とかの哲学的考察とか、ベイズと非ベイズとか、私にとってはなんか痴話喧嘩見てるみたいで、あまり確率の理解に役立ったという気はしないのだが、そんなことだから理解が浅いんだというお叱りを受けるかも知れない。

なお、確率については、やはりパズルを含めたいろいろな例から確率論を解説した確率論へようこそ (シュプリンガー)はしばらく前に読んだがなかなか面白い。

また、数え上げに確率的方法を使う手法を含め天書の証明が読み応えある本としてお薦めできる。
スポンサーサイト

勉強会に出て思ったこと

大きなイベントや書評だけで更新しているとほとんど更新できないので,ツイッターに書くような雑談ネタをこちらにも書いてみる.

8/4に鹿島さん@東大の企画された icml2011 の読み会 に参加した. スライド等上がっているので内容についてはそちらを参照.

いくつかの研究では,取って付けたような ad hoc な手法を付け加えて無理矢理実験でパフォーマンスを出そうとしている節のある研究がちらほら.

そんなの付け加えなくても十分面白い,というか,付け加えたことによってなんか論文の価値が下がっているような気がしてしまう.

実験ですぐにいい数字が出るような研究は「今」の技術であり,それはそれで有用だと思うが,逆に「未来」が感じられるような研究はすぐにパフォーマンスがでなくて普通だと思う.

だが,国際会議でもジャーナルでも「今」と「未来」を分けたりしていないので,「未来」の研究でも「今」風の対応を迫られてしまう.

機械学習が即効的に世の中の役に立つようになってから,その傾向が増したような気がする. パフォーマンスを出すためにはどうしても泥臭い技術をいろいろ組み合わせる必要がある. システム的な研究ではもろにそれをやるわけだが,みんながそれをやる必要もないだろう.

だいたい論文を読むときにも,そのコアとなる部分に面白さがあるわけで,余計なことをいろいろ付け加えて無駄に長くなった論文を読むのも無駄な労力だ.


というようなことを思ったのだが,それとは別に,「手法・数理」に愛があるか,「目的」に愛があるか,という二つの立場はやはりパフォーマンスに対して違った価値観を持っているような気がする.

例えば,機械学習の応用が著しい画像・音声・自然言語・バイオインフォなどの分野の研究者の人は,やはりその応用分野におけるパフォーマンスが出ることが一義的である.

それらの分野の人も理論的なものの重要性を認識している人は少なからずいるが,それはあくまでパフォーマンスを長期的に上げていくには理論的にしっかりしたものでないとだめだという認識からであり,手法の持つ数理が気持ちいいと思っているわけではないだろう.

一方,数理っぽい人は,この二つにこんな関係があったんだ,とか,式を計算していったらこんな美しい式が出てきた,とかを知ることに喜びを感じるのであって,それがどんな応用に使われるかについてさして関心はない.

もちろんこれらは両極端な例であって,実際は車の両輪の関係だからどちらが欠けてもだめだと思うが,機械学習が応用分野を広げるに従って少々数理っぽい人の居場所が狭くなってきたような気がする.
(というわけでまあ愚痴ってるだけって気もしてきた)



論文が長い,という話を上の方に書いたが,論文をもっと短くコンパクトに,できれば一つだけのネタで書いてもらいたいというのが読む方からの願望でもある. 

学位の要件として学術誌や国際会議論文をオーソリティとして使うという慣習が横行しているせいか,学位論文そのままのような長大な論文なんかも多い. 

また,似たようなネタで複数に分けていることもよくあり,それ自身は悪くないと思うが,違う論文であることをことさら強調するためにやたらといいわけがいろいろ入ったり,また同じようなイントロを何度も読む羽目になったりする.

本来レターというのはそういう目的に使われるはずであるが,例えば Neural Computation の letter は実質フルペーパーであり誰も規定のページ数なんか守ってない. 物理や数学なんかでは歴史が長いだけあってそのあたりわりとちゃんとしているような気がするが,情報系もそんな感じにならないのだろうか.

FC2Ad