朱鷺の杜(IBIS)ブログ

情報論的学習理論(IBIS)に関する管理人の独断と偏見に満ちた意見

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書く事で広告が消せます。

就職先としての産総研

いわゆる就活というのがいつから始まるのかよく知らないのですが,今日は産総研への就職についてのメモ.

産総研になってから,うちのグループも優秀な人材を採りたいとは思っているのですが,なかなか採れないという事態が続いています. これまでも非常に優秀な方がアプライされてきたにも関わらず結局採用できないということを繰り返してきたのでなんとかしたいという思いもあります.

うちがダメになっても,結局ほかに移って活躍されているようですのでそれはそれでいいのですが.


ちなみに公式な採用情報はこちらです: http://www.aist.go.jp/aist_j/humanres/index.html あまり情報はありませんね.

そもそも産総研とは: http://www.aist.go.jp/aist_j/information/index.html

歴史: http://www.aist.go.jp/aist_j/information/history/history.html にあるように経産省工業技術院にあった国立研究機関が独法化に伴って全部一緒になったものです.



再来年の採用についてはまだ始まっていませんが,年明けぐらいにぼちぼち公募が出ると思います.

以下に産総研の採用の流れをおおまかに書きます(守秘義務があるのであまり細かくは書けません).

産総研は大きな組織ですが,その中に部門やセンターというまとまり(ユニット)があります. まず,上から各ユニットの推薦枠というのが割り当てられ,それに従って公募資料を各ユニットが作成し,公募がかけられます.

通常はユニットごとの推薦枠は1~2人くらいのところに,何十人も応募があります.
そこで,各ユニットではその推薦者を決めるための予備選考を行います. 具体的には書類審査や予備面接ですが,細かいやり方はユニットごとに違います.

ユニットから推薦されれば採用となるわけではありません. 各ユニットから推薦された人全員に対して産総研全体の審査があります. ここでの倍率についてははっきりわかりませんが,かなり厳しいという話です.

特にこの最後の産総研全体での審査というのが大変で,異分野の人たちの中から勝ち残る必要があります. それで,新規採用の年齢がどんどん上がってしまい,ポスドクを渡り歩いて実績を重ねた人だけが採用されるという実態になってきました. 産総研もそのあたりは反省して,若い人を重視して採用するような重みをかけるようになり,多少は改善されているようです. 情報系が厳しいのは,インパクトファクタなんかで比べると論文勝負は難しいので,メディアへの露出とか別な意味で突出しているというのが有利に働いているという感じもしないでもないです(あくまで個人的な見解ですが).


なお,このやり方で行う採用のほとんどは「若手型任期付研究職員」という形です. これはいわゆるテニュアトラックということで,実績さえ積めば高い比率でパーマネント職員に移行できます.

それ以外に,「中堅型研究職員」といってグループリーダーなどを雇ったりするスキームや,任期付きでも特定のプロジェクトにひも付けされた「研究テーマ型任期付研究職員」というのもあります.

これらは正規職員ですが,それ以外にもポスドクとして,産総研の研究者が自分の研究費で雇用したり,学振 PD の受け入れ先という形での雇用もあります. これらの雇用については産総研全体での審査というのはなく,基本的に担当する研究者の裁量で審査されます.

産総研にはもう一つあまり知られていない採用方法があります. それは主に修士課程修了見込みの若い人を採用するという仕組みで,産総研が独自に行っている試験を受けて入る物です. 私が産総研の前身の一部である電総研に入ったときは修士を出て国家公務員試験を受けて入ったのですが,それに相当する物です. 実際,今年度から櫻井さん@山西研.東大出身がこの制度で産総研に入られました. 残念ながら私のグループではないところですが.


公募採用の場合,それほど就活対策的なものはなく,エビデンスをたくさん積んで,面接のときのプレゼン能力が高いというのが重要です(まあそれだけで振り分けられてしまうのは問題といえば問題ですが). なお,あらかじめポスドクで産総研にいて研究内容をよく知られているとか,研究者を訪問して自分を売り込むというのはそれなりに意味があるかもしれません. これはコネがどうこうという話ではなく,

・産総研でどのような人材を採りたいと思っているかの把握がしやすい

・自分の研究内容をバイアスなく見てもらえる(プラスのバイアスもマイナスのバイアスもなくなりますが^^)

・産総研が実際どんな研究所かがわかって自分との相性も計れる

というような意味です.



あとは,産総研に採用された後どうなるかという話もそれなりに興味があると思いますので書いておきます.
(いろいろあると思うのでより細かい点は直接聞いてもらえればお答えできると思います)

研究については部門によっても違いますが,私のところではほとんど何の制約もなく自分の意志に従って研究を進められます. 「産業」というのをそれほど意識する必要はありません(もちろん上からはいろいろな声が降ってきますがそれほど気にする必要はない). 教育の義務がない分大学より雑用が少ないとも言えます. 学生さんはその気になれば大学から実習生という形で受け入れられます.

給与については,多少の違いはあれ,国立大学や国家公務員と同じ(私学より少し安い?)レベルです.
給与規定は公開されている http://unit.aist.go.jp/comphq/comp-legal/ci/legal/kitei/pdf/kyuyo-s.pdf のでこれを見ればわかるはずですが,この規定から自分の給料がいくらになるか,今後いくらになるかを推計することは困難です.

評価は短期評価(毎年の実績を上司が評価して,結果はボーナスの一部に反映される)と長期評価(適当な年数が経過すると,上の級に上がる昇格の審査)があります.

研究所は大学の教授や准教授ように役職名というのが明確にあるわけではないので,わかりにくいですが,准教授が教授に上がったりするのが昇格です.


以下,機械学習系の研究者の場合の追加情報です.

考えられる部門・センター(原則的に部門はより基礎的で,センターは時限でプロジェクト的です):
・ヒューマンライフテクノロジー研究部門 http://unit.aist.go.jp/htri/ (私やしましまさんなどがいる部門・ライフサイエンス分野・前にいた脳神経情報研究部門はお取りつぶしになりました^^)
・知能システム研究部門 http://unit.aist.go.jp/is/ci/index_j.html (麻生英樹さんなどがいる部門・情報通信エレクトロニクス分野)
・情報技術研究部門 http://itri.aist-go.jp/ (音声の後藤さんや吉井さんがいる部門・情報通信エレクトロニクス分野)
・生命情報工学研究センター http://www.cbrc.jp (津田宏治さんがいるセンター・ライフサイエンス分野)
・サービス工学研究センター http://unit.aist.go.jp/cfsr/index.htm(本村さんが副部門長で新人の櫻井さんもこちら・情報通信エレクトロニクス分野)
・デジタルヒューマン工学研究センター http://www.dh.aist.go.jp/jp/(情報通信エレクトロニクス分野)
# ただし,よく組織改編が行われますので注意してください.

勤務地:上記部門やセンターの場合つくばかお台場です.どちらかによって住環境もかなり違いますが,つくばなら公務員宿舎に入れます.

というわけで優秀な若い方がどしどし産総研にアプライされることを期待しています!
(疑問点はわたしまでご連絡ください)



その他参考
なお,事務職員・計測標準研究職員についての情報はこちらです:りくなび: http://job.rikunabi.com/2012/company/top/r262410020/

IBIS2011の感想および...

奈良女子大で開催されたIBIS2011に参加しました.

@shima__shima: 朱鷺の杜Wikiからリンクしようと思ってるのだが,今年のIBISについて書いてくれてるブログがないょぉ? (゜◇゜)ガーン

とのことですのでみなさん書きましょう.

ただ,最近は twitter でツイートして満足してしまうことも多いので,それらをまとめて togetter すればいいかも
(ちなみに昨年のはこちら)

あと,しましまさんのまとめがしっかりしすぎているのでそれに追加することが特にないということもあります.

オーガナイズドセッションは非常によくオーガナイズされていて,どのセッションもすごく勉強になります.

一方,ポスターセッションはあまりにも盛り上がりすぎて時間が足りない感じでした.
会場の制約もあるので仕方ないですが,昔の合宿形式の時のようにエンドレスでやれるのが理想でしょうね. 現状だと,発表している人はほとんどほかの発表は聞きに行けない感じです. 私は自分の発表はそこそこにして他の人の発表を聞きに回りましたが.

ポスタープレビューは,ちょっとネタ的な発表をしたのですが,事前にツイートしたのが裏目に出て,みんなの期待度が異常に高まってしまい,ほとんど受けませんでした. しかしその後某社の方々が掛け合い漫才風プレゼンとか自虐的プレゼンなどヒートアップしたものをやっていただいたので,その火付け役にはなったかなと思っています.
(追記: ibis2011 のホームページにはまだ掲載されていないようなのでネタ部分だけ載せておきます)

自分は連名を含めて3件の発表をしましたが,いずれもディスカッショントラックで,まだまだ preliminary な内容なのでこれからブラッシュアップしていかねばという思いを新たにしました.




...と,投げやりな感想を書いた上で,本題(^^;)ですが...




「カーネル多変量解析」がおかげさまで11月4日付けで4刷になりました!!!



### IBISネタで釣っておいて自分の本の宣伝をするというあこぎな商法^^

前回の増刷から1年半以上経っており,増刷間隔も指数関数的に空いていて,次回増刷があるかどうか不透明ですが,いずれにせよこれまでのみなさまのご愛顧に感謝いたします.





多くの方にご指摘いただいた誤植もほぼ修正されています(難しいのは放置^^;;;).

...と思ったら重要な修正を忘れていました.

サポートページのアドレス,組織改編があって朱鷺の杜wiki内に移したのを忘れていました.うーむ,早速誤植情報更新しておかないと.

# なお,産総研はちょこちょこ組織改編しているんですが,なくなった部門のページは1年経つと自動的に消されるという方針なので,そういうところに大事なものを置いておいたのが間違いでした.


気を取り直して...

本を書くというのは,お金という意味では大したことなく,むしろみなさんからいろいろ感想やらフィードバックをもらえること自体が著者へのご褒美です. 今後ともよろしくお願いいたします.

科研費について

科研費について書こうと思っていたのだが,ここのところいろいろ発表準備とかで忙しかったので今頃になってしまった. 多くの組織ではすでに組織内締め切りが終わっていると思うので今年についてはあまり役に立たないかもしれないが来年以降の参考になるかもしれないと思いメモ.

科研費は大学や独法研究機関の研究者にとって研究費の大きな糧である. 昨今国からの交付金が毎年何%かずつ減っている状況では科研費なしに研究するのは難しい.

私は昨年度から2年間,「スタート支援」という枠の審査委員を務めさせていただいた.審査委員には厳しい守秘義務があり,公表されるまでは自分が審査委員であることも守秘義務の一つである.
現在は JSPS のホームページにも名簿が出ているのでこうやって書くことができるわけだが,当然ながら審査の詳細については守秘義務の範囲内でしか書けないのであらかじめご承知いただきたい.

JSPSの科研費審査に関するページ

なお,スタート支援は今締め切りを迎えている基盤などとは時期も性質も若干違うのでそのあたりもご注意を.


さて,大まかな審査の流れは上記のページに書いてあるように,一次審査(書面)と二次審査(合議)からなる.
スタート支援では同じ審査委員が務めるが,基盤などではそれぞれ別の委員が務める点が異なっている.

まず,書面審査だがこれが大変である. JSPS から大きな冊子が何冊も送られてくる. 分野や年によっても違うが一人がおよそ100件の審査書類を2週間程度の期間で審査する.
何をどう審査するかは上記のページの規定や手引きの pdf が参考になるが,各申請書類ごとに学術的意義とかいろいろな観点から点数付けし,最後に全体評点とコメントを付ける.
これが大変な作業で,かなり幅広い分野に及ぶので,自分のよく知らない分野の申請書類については web や本などでその分野の動向を調べる必要があるし,コメントも長所短所を詳しく書くように JSPS に指示されている.
さらに,総合得点については全体の評点がガウス分布状に均等に分布しないとシステムが受け付けてくれないという厳しさである.

というわけで,1件の審査にかなりの労力を要するので,2年目は NIPS のレビューも断るなど万全の体制で望んだのだが,そのうち1週間は海外出張で潰れるということになってしまい今年も大変だった.
これの合否が研究者の研究活動に大きな影響を与えるかと思うとそうそうおろそかな評価はできない.

さて,合議審査は書面審査の結果に基づいて1日缶詰になって審査委員のグループで協議を行う.応募数の割に採用できる数が極めて少ないので,特にボーダーライン付近の多数の申請書の中でどれを採用するかは分野が幅広いこともあり相当難しい. 最後の2-3件を決めるときはかなり長い時間をかけて熱い議論が戦わされる.

どんな申請が通りやすいかについて web で検索するといろいろ出てくるが,こればかりは審査委員や分野によってもかなり違うようなので一概には言うのは難しい(もちろん守秘義務があるのであまり書けないというのもあるが).
ただ,一般論として問題のないと思われる範囲でいくつかポイントを挙げておこう(私見もあるので責任は負いかねます.念のため).

・審査の手引きなどを読んで,何がどう審査されるのかを見て,それに沿って書かれているか見直す

・科研費では,高額の申請以外は研究終了後のレビューは(短い成果報告を出すだけで)ほとんどない. だから,申請者が本当にこのテーマでできるのかということを審査委員に納得させる必要がある. エビデンスもないのにあまり大風呂敷でもだめだし,かといってあまりトリビアルな研究でも評価が低くなる.

・申請書はできるだけたくさん埋まっている方がいいという話があるが,単純に引き伸ばしてだらだら長いのは逆効果な気もする.

・かなり細かい点まで審査する必要があるのでナナメ読みすることはあまりない. だから,キーワードを太字や下線などで過度に装飾してあると文章として読みにくいのでやり過ぎは逆効果かもしれない.

・審査はモノクロ印刷された紙ベースで行うのでカラーは使わない.

・予算の使用予定については科研費で支出することが必然であるというロジックが必要である. 科研費は配分してからはある程度自由に使える(ただし昨今はかなり使途がかなり厳しく制限されはじめている)ので,あまり曖昧だと本当にそれに使うのか,その必要があるのか疑念を抱かれかねない. 分野によっては旅費などあまり多額に積んであると嫌われることもあるようだが,情報系をはじめ理論系などでは旅費は主要な研究活動費だから正直に詳しく書いてあれば特に問題ないと思う.

また,科研費の分野ごとの採択数はその分野での応募数と応募額に比例する(これを単純に平均している所がどうかという話はあるが).正確な計算式は規定のp.42にある. これがあるため,いくつかの分野のメーリングリストでは分野全体に応募を促すようなメールが流れることがある. そもそも研究費不足が慢性的に起きているのでそんなことしなくてもみんな応募するとは思うが,一応知っておいたほうがよいだろう.

現状の審査システム自身いろいろ問題を含んでおり,合議審査の最後にもそれについて議論する時間があり,JSPS に要望がいろいろ出ているようなので,少しずつ改善はされていくと思う.
そもそも審査のオーバーヘッドが非常に高いので,研究者として最低限研究していくだけの低額の科研費についてはバラマキでもいいという意見も聞いたが,ある程度そのとおりだと思う(これは論文の査読制度についても同様).

あと,JSPS が提供しているのは MS word の書類だが,ずいぶん操作性が悪いようで,私が twitter でフォローしている TL では LaTeX の科研費マクロが好評なようだ.私も次回応募するときは LaTeX マクロで書こうと思う.

なお,科研費について検索すると科研費の審査委員の統計問題提起しているブログなども見つかりいろいろ考えさせられる.

確率論ムズイ?

今年は節電のために、産総研は建物毎に輪番休暇を設けていて、今週は旧電総研のわれわれの建物がそれにあたっているので、休み中に確率に関するいくつかの読み物を読んだ。 今日はその感想を中心に書いてみる。
(と言いながら本の中身にほとんど触れていなかったので少しだけ追記)

機械学習において確率統計は中心的な役割を果たす学問であるが、「確率統計が難しい」という話はよく聞く。 私とてそんなに確率統計に強いという気はしないが、そこそここの業界にいるので確率とのつきあいも長い。 そこで私の経験から、確率統計の難しさについても触れてみたい。 ただし、始めに書いておくと、一概に難しいと言っても、その人のバックグラウンドによってその要因は千差万別なので、ここに書いてあることはほんの一面に過ぎないことは注意していただきたい。

さて、確率は今は中学2年生くらいで習うようだが、サイコロの目が1/6になるとか、公平なコインの確率が1/2になるとか、その辺でつまずくようには見えない。
サイコロで偶数の目が出る確率なんかはほとんど間違える子はいないと思う。

基本的には足して1になるばらばらの確率値があり、必要に応じてそれを足し合わせて必要なモノゴトの確率を算出する足し算の世界である。

全部地道に数えれば、そんなに複雑なことはない。

条件付き確率が入ってベイズの定理を使った計算になるとかけ算や割り算も入ってきて多少は複雑になるが、計算ルールはシンプルである。

だが試験問題などでは、偶数の目が出る確率なんていう単純な問題は出ることはない。 みんなできてしまうからだ。 そこで、どんどん状況を複雑にしていって、地道に数えるのが難しい問題が出てくる。 これが確率を難しいと思わせる第一の要因ではないだろうか。

これは確率が難しいと言うよりも、数え上げのやり方が難しいだけであろう。
確率が、順列や組み合わせという内容としばしばセットになっているのも曲者だ。

確率変数が連続の場合も、足し算が積分になるぐらいで、概念的にはそれほど難しくはないと思うが、積分計算も凝った問題がいくらでも作れるので計算は大変である。
これも確率自体のもつ難しさとは言えないだろう。

まあ普段そんなことを思っているのだが、
数学セミナー に4月からパズルデザイナーの岩沢宏和という人の連載「確率パズルの迷宮」を読んだ。

そこにはもうちょっと違う見方も書いてあった。

確率の値というのが、往々にして直観に反する、というのだ。
それゆえパラドックスと呼ばれるものも多い。
これは確かに難しいと思わせる要因の一つかも知れない。
しかし、人間の確率に関する直観なんて「錯視」みたいなもので、あまり当てにしないという態度は必要だろう。

さて、似たような内容で、やはり最近まで読んでいた本にちょっと手ごわい確率パズルというのがある。

数セミにしろこの確率パズルの本にしろ、目の覚めるようなトリックや不等式の証明を見ると、とてもこんなの自分でできそうもないという気がするが、それはやはり数え上げや積分が難しいのだと思う。

確率パズルの本の訳者あとがきに、「さいころ2個の単純な問題でも、問題によって目の出方の順番をかんがえなければならないのか、それは考えなくていいのか、判断がつきかねてよく悩みました。解説を見れば、それはそれで理解できます。でも、自分で考えているとき、これでいいはずだという確信がなかなか得られないというのが、訳者の確率という分野とのつきあいの現実でした。」とあり、まさに私も同じ気持ちである。
(なお、擁護のために付け加えると、この本は数え上げだけでなく、確率に関するいろいろな概念が合間に適宜解説されており、単なるパズルのためのパズル本ではなくなかなかよい本である。 最近入手したにもかかわらず1刷だったので、あまり売れてないかも知れないが、もっと売れても良いと思う。

追記: あと、この本のスタンスは、目の覚めるような方法も紹介するが、とにかく難しければ計算機シミュレーションしちゃえばいいじゃん、というものである。 これは開き直りのようでもあるが、現代的でもある。 ほとんどの微分方程式は解析的には解けないので数値的に解くというアプローチに似ている。 MCMC などはそのシミュレーション自身を工夫する話なので、またそれはそれで奥は深いのだが。)

こういう数え上げや不等式のトリックは情報理論やVC次元の理論なんかでは大活躍するものなので、理論研究者としてやっていくにはできれば身につけたいものではある。(自分ももっと勉強しなくてはと改めて思った)

ほかにも確率が難しいと感じるいくつかのポイントを挙げてみる。

よくあるのは、MCMCの説明などをしているときに分布収束なんかはわかりにくいポイントかもしれない。 サイコロの目のような「見た目」と、背後にある「確率分布」がなんとなく頭の中で混乱してしまうのである。

後はやはり、「確率論」と呼ばれる領域まで来るとやはり敷居が高くなってくるのは確かである。 集合論や測度論といった数学の基礎的な領域がガッツリと絡んでくるからである。 ただ、それも人によるようで、萩原さん@三重大など「測度論を勉強するまで確率がよくわからなかった」と言うほどの猛者もいる。

さらに、鈴木譲先生@阪大のブログにこんなエントリーがある。 非数学系の確率初心者にはびびる内容だろう。

蛇足になるが、今日image ML に流れた金谷先生@岡山大の投稿がまさに「確率統計を学ぶにあたって」というタイトルであった(ML以外にも twitter などに流布しているようなのでリンクは張らせていただいた。)

金谷先生によれば「確率現象は存在しない」という立場でスタートされている。

このこと自身について、私はあまり確率の難しさの要因とは思ってはいなかった。 現実世界に数学的な意味での点や直線は存在しない、という意味では数学というのはみなそういうものだからである。
そもそも現実世界の数学モデル化というのはなかなか難しいものであるが、それはモデル化一般にもつ難しさであって、確率に限った話ではない。

ただ、世の中が決定論的だと思うという性向をもつ人というのはかなり多いようである。
その辺りは認知科学なんかで議論されているようで、数セミの記事にも詳しいが、有名なモンティホール問題や三囚人問題については一時期かなり議論があったようである。

以前テレビでどこかのタレントが「確率天気予報なんてわけがわからない。雨は降るか降らないかのどちらかなんだから、30%雨が降るとかありえない」と言っていた。
その人も天気が確率モデルで扱われるというのは納得がいかないのかもしれない(あるいは確率変数と分布を混乱しているだけかも知れない)。

ただし、確率の意味とかの哲学的考察とか、ベイズと非ベイズとか、私にとってはなんか痴話喧嘩見てるみたいで、あまり確率の理解に役立ったという気はしないのだが、そんなことだから理解が浅いんだというお叱りを受けるかも知れない。

なお、確率については、やはりパズルを含めたいろいろな例から確率論を解説した確率論へようこそ (シュプリンガー)はしばらく前に読んだがなかなか面白い。

また、数え上げに確率的方法を使う手法を含め天書の証明が読み応えある本としてお薦めできる。

勉強会に出て思ったこと

大きなイベントや書評だけで更新しているとほとんど更新できないので,ツイッターに書くような雑談ネタをこちらにも書いてみる.

8/4に鹿島さん@東大の企画された icml2011 の読み会 に参加した. スライド等上がっているので内容についてはそちらを参照.

いくつかの研究では,取って付けたような ad hoc な手法を付け加えて無理矢理実験でパフォーマンスを出そうとしている節のある研究がちらほら.

そんなの付け加えなくても十分面白い,というか,付け加えたことによってなんか論文の価値が下がっているような気がしてしまう.

実験ですぐにいい数字が出るような研究は「今」の技術であり,それはそれで有用だと思うが,逆に「未来」が感じられるような研究はすぐにパフォーマンスがでなくて普通だと思う.

だが,国際会議でもジャーナルでも「今」と「未来」を分けたりしていないので,「未来」の研究でも「今」風の対応を迫られてしまう.

機械学習が即効的に世の中の役に立つようになってから,その傾向が増したような気がする. パフォーマンスを出すためにはどうしても泥臭い技術をいろいろ組み合わせる必要がある. システム的な研究ではもろにそれをやるわけだが,みんながそれをやる必要もないだろう.

だいたい論文を読むときにも,そのコアとなる部分に面白さがあるわけで,余計なことをいろいろ付け加えて無駄に長くなった論文を読むのも無駄な労力だ.


というようなことを思ったのだが,それとは別に,「手法・数理」に愛があるか,「目的」に愛があるか,という二つの立場はやはりパフォーマンスに対して違った価値観を持っているような気がする.

例えば,機械学習の応用が著しい画像・音声・自然言語・バイオインフォなどの分野の研究者の人は,やはりその応用分野におけるパフォーマンスが出ることが一義的である.

それらの分野の人も理論的なものの重要性を認識している人は少なからずいるが,それはあくまでパフォーマンスを長期的に上げていくには理論的にしっかりしたものでないとだめだという認識からであり,手法の持つ数理が気持ちいいと思っているわけではないだろう.

一方,数理っぽい人は,この二つにこんな関係があったんだ,とか,式を計算していったらこんな美しい式が出てきた,とかを知ることに喜びを感じるのであって,それがどんな応用に使われるかについてさして関心はない.

もちろんこれらは両極端な例であって,実際は車の両輪の関係だからどちらが欠けてもだめだと思うが,機械学習が応用分野を広げるに従って少々数理っぽい人の居場所が狭くなってきたような気がする.
(というわけでまあ愚痴ってるだけって気もしてきた)



論文が長い,という話を上の方に書いたが,論文をもっと短くコンパクトに,できれば一つだけのネタで書いてもらいたいというのが読む方からの願望でもある. 

学位の要件として学術誌や国際会議論文をオーソリティとして使うという慣習が横行しているせいか,学位論文そのままのような長大な論文なんかも多い. 

また,似たようなネタで複数に分けていることもよくあり,それ自身は悪くないと思うが,違う論文であることをことさら強調するためにやたらといいわけがいろいろ入ったり,また同じようなイントロを何度も読む羽目になったりする.

本来レターというのはそういう目的に使われるはずであるが,例えば Neural Computation の letter は実質フルペーパーであり誰も規定のページ数なんか守ってない. 物理や数学なんかでは歴史が長いだけあってそのあたりわりとちゃんとしているような気がするが,情報系もそんな感じにならないのだろうか.

「予測にいかす統計モデリングの基本」

今日は今年の4月に講談社から発刊された「予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで」の感想です.

実は発刊されてすぐに,著者の樋口先生から献本頂いたのですが,なかなか通して読む時間がなく今頃になってやっと読み終わったという次第です.

一言で言うと,ベイズに基づく時系列解析についての本です.
中でも,樋口先生が造詣の深いパーティクルフィルタ(粒子フィルタ)とデータ同化を軸に,入門的な事項から実際にデータを扱う際のノウハウまで幅広く書かれています.

実はこの朱鷺の杜ブログで一時期アクセス解析をしていたことがあるのですが,そのときの検索ワードのトップは「パーティクルフィルタ」や「粒子フィルタ」で,それは以前に私が紹介した樋口先生の解説記事を紹介したものが検索に引っかかっているものと思われます.
まあそれだけパーティクルフィルタについて知りたいと思っている人が世の中には多いと言うことなのだと思いますが,今のところ日本語の本でパーティクルフィルタについて書かれたものはそれほど多くはありません.
(私の知っている範囲だと例えば「計算統計 2」の伊庭さんの解説,それから「ビショップ本下巻」にもちょっとだけ紹介されています. また,本書の巻末にも少し参考文献に触れてあります.)

私のところにもデータ解析の相談が舞い込むことが時々あるのですが,そのほとんどは時系列解析なので,こういう時系列解析の入門的&実践的な本は非常に有用だと思います.
時系列に関してはこのほか,強化学習なんかもあまり本がないですし,(時系列とは限りませんが)ノンパラベイズもいい本が出るといいですね.

さて,肝心の本書の中身ですが,易しいところからきっちり書いてあるのでほとんど前提知識はいりません. しかし,前書きにも書いてあるように,最初から一歩一歩積み上げる形で書かれているので「通読が必須」であり,「“つまみ食い”は難しい構成となって」いて,まさに教科書向きに書かれています.

私はあまり実際のデータ解析をやったことがないので,解説をかいてもあいまいになりがちなところも,樋口先生は長年の経験に基づいて断定的に小気味よく説明がされています. 例えばパラメータを最適化する際に「4次元程度までは直接法(メッシュに切って全探索)でやるべきである」というようなのは非常に実践的だなあと思いました.

(細かいところでは「フルベイズ」の説明のところで,パラメータの事後平均推定量をフルベイズと呼んでいるようなのですが,私はパラメータは推定しないのがフルベイズだと思っていました.まあこれは私の勘違いかもしれません.)

そして,最後の方の章に本書の最大の目玉であるデータ同化についての解説があります.個人的にはもっとページを割いてもらいたかったところですが,ページ数の制約などから仕方のないところでしょうか(巻末の参考文献を読めと言うことですね).シミュレーションと統計モデリングの融合という観点は非常に魅力的だと思うのですが,なんとなくシミュレーションが主で統計モデリングが従という感じがしてしまいます. 

まだ数回研究発表を聴講したりしただけなので理解が浅いのかもしれないのですが,シミュレーションが第0近似だとすると(シミュレーションの初期条件やパラメータを決めるのも統計モデルの一部かもしれませんが),その上に統計モデルでさらに精巧なシミュレーションモデルを立てるという感じにはならないのかなあという気がしました.

そもそもシミュレーション規模に比べてデータ数が少ないなど普通の統計的推論とはかなり状況が違うのかもしれませんし,囲みで書かれているように「工学 vs 理学」のようなスタンスの違いなども状況をふくざつにしているのかもしれません.

さて,ご存知の方も多いと思いますが,樋口先生は4月から統数研の所長に就任されています.非常にご多忙な中での執筆だったとことと推察しますが,樋口先生のような第一人者の方がこのように丁寧な本を書かれているというのはすばらしいと思います.

なお,樋口先生には以前にも「統計数理は隠された未来をあらわにする―ベイジアンモデリングによる実世界イノベーション」という本を献本頂いたのですが,これも関連が深い本なので簡単に紹介しておきます (Amazon の「合わせて買いたい」みたいですが^^;).

これは故・赤池先生の京都賞受賞記念シンポジウムの講演をまとめたもので,樋口先生(データ同化),石井信先生(ベイズフィルタ),照井伸彦先生(マーケティング),井元清哉先生(遺伝子ネットワーク),北川源四郎先生(AICとベイズ)という泣く子も黙るようなすごい先生方による第一線の研究の解説であり,非常に示唆に富んだ内容です. ただし,各記事は短いので行間をかなり埋めて読む必要があり,そういう意味では初学者には少しきついかもしれません.

以上,樋口先生関係の本の紹介でした. これらの本を読むとかなり頭がベイズっぽくなるので,これらの本を読んだら毒抜きに(?)ちょっと別の系統の本も読んでみるといいかもしれません.

会議もろもろ

普段は結構出不精な私だが,5月の ICASSP2011 (プラハ) という信号処理の国際会議にはじまり,6月にはヨーロッパのニューラルネットワークソサイエティが主催する ICANN2011 (ヘルシンキ),そしてその直後に続いた 第5回IBISML 研究会 + Latent Dynamics ワークショップ (東大) と立て続けに参加した.
# 余談だが,IBISML 研究会は通し番号で回数を記録していくようで,積み重ねを感じられる面白い試みかも.

本来は一つ一つの会議について詳細なレビュー記事を書く方が世の中のためになるかも知れないが,まだ時差ボケ気味なのと,不在にしていたツケがまわって猛烈に忙しいので,未整理だが雑談風にいろいろメモしたことなどを書いておく.

どの会議もそれぞれ特徴があり楽しめた. ICASSP は信号処理のデパート的な会議で参加者数も発表の幅広さも半端ではない. 特徴的だったのは(自分が出たセッションがそれだったこともあるが)圧縮センシングやスパースについての発表が目立っていたこと.

その一方 ICANN は非常にこじんまりとした会議だったが(最初は会場を発見するのも大変だった!),招待講演が非常に充実していて Hinton, Tennenbaum, Hyvarinen, John Shawe-Taylor などといった大御所たちの講演が聴けた. それ以外の部分のオーガナイズはかなりいい加減だったが,参加者が自助努力することによって手作り感を感じることができる部分もあった. そもそも国際会議は「社交場」というのも重要な役割であり,主催者側もその辺り割り切っている感じだった.

最後の IBISML + LD は帰国したばかりでかなり息切れしていたのだが,実は上記国際会議を含めた今回の一連の会議の中で LD の発表が一番面白かった. NIPS など超一流の国際会議ももちろん面白いのだが,いわゆる「完全な研究」しか通過しない状況のようなので,ああいう会議に出ると感じるのはいわゆるショーウィンドーの中の完成した宝石を鑑賞している気分になること. 研究者を宝石職人に例えれば,自分もあれぐらいの仕事をしないといけないという緊張感は感じるし,最新の技術などについての情報も得られるのは確かだが,隙のない研究が多く,自分の研究がインスパイアされるネタは意外に少ない(それだけの鑑賞力がないというだけかもしれないけど). 一方,workshop のような中で impromptu talk や lightening talk と言われる発表は採掘場での原石品評会といった雰囲気. まさに玉石混淆だが,自分ならどうやって磨いてやろうかというアイディアがいろいろ出てくるという楽しさは大きい.

さてそのほか,いろいろな会議に出てつらつら思ったこと.


その1. よいポスターの聞き方

よいポスター発表の仕方というのはよくあるが,よいポスター発表の聞き方というのはあまりない. ぼーっとしているとあっというまに時間が過ぎてしまうので私もよい聞き方というのを習得したいのだがなかなか難しい.

面白そうだと思っても,下手なポスターに捕まって延々と説明されるとほかのポスターを聞く時間がなくなってしまう. ポスターセッションの特に最初のころにはこの微妙な駆け引きが発表者と聴衆の間で繰り広げられる. よくやられる作戦は,ほかの人に説明しているのを聞いて探りを入れ,大丈夫そうだと思ってから本格的に聞くというパターンである. しかし,あまり躊躇していると大人気のポスターだといつまで待っても説明が聞けずじまいということもある.

最近はポスタープレビューというのも広まっているのでそういうのをちゃんと聞いたり,アブスト集でマメに予習するというのも大切かもしれない (不精者の私にはなかなか難しいけど).


その2. 腹八分目に医者いらず

オーラルでもポスターでも,よくある80-20の法則という観点で行くと,「80%の発表では,80%の聴衆が20%しか理解していない」ということがある (80とか20とかの数値はあくまでたとえだが). まあそれが悪いということではなく,発表する方も聞く方もあまり欲張りすぎないというのが大事で,本当に知りたければ細かいことは論文を読むというのが消化不良を起こさず楽しく会議に参加できるコツかなと(もちろん強靱な理解力を持っていて消化不良など起こさないという自信があれば何もいうことはないけど).


その3. 質問・コメント時間

会議に参加して難しいなと思うのは,質問・コメントの仕方である.
たいてい質問・コメント時間は非常に短いので,下手な質問はできないという抑制がかかる.参加人数が多い会議ではなおさらである. 現状では質問・コメントタイムは現状ではそれほど有効には働いていないのでなんとかすべきなのかもしれない.

とりあえずいくつかの質問・コメントの類型化をしてみた

・単純な質問
質問者が単純に理解できなくて質問するケース.上の80-20の法則でいくと,潜在的にはこういう質問をしたい人が多いはずなのだが,時間が限られている中で一番抑制がかかるのがこのタイプであろう (わからないところがわからないということも多いけど). それでもあえてこの質問ができるのは「中身はほとんど理解できていて,この分野の動向にも詳しいが,本質的なところで不明なところがある」というエキスパートのみである.

・敵対的コメント
ベイズと非ベイズのように,単に立場が違う人が自分の立場を正当化するためにするコメント. まあ聴衆としてはこういったバトルは見せ物としては面白いのだが,短時間ではとても解決しない泥沼的な状態に陥りがちである.

・指導的コメント
まだ発表や研究といったものに不慣れな学生さんに対して指導してあげるコメント. 下手をすると上の敵対的コメントのようになる場合もあり,また光る原石的なアイディアを既成の概念や価値観でつぶしてしまいかねないこともあり,非常に難しいと思うのだが,コメントとしてはやりやすいのでこれは幅をきかせている一つのタイプである. まあ実際重要だけどあまり適切なコメントも聞いたことがない. 自分でも無理だけど.

・自己アピール的コメント
自分のプレゼンスのためだけにエキスパートがするコメント. これは最初の単純な質問でエキスパートがする場合にも通じるのだが,多くの場合質問の形を取っていても質問者は答えを知っている,あるいはまともな答えがないことを知っているというタイプ. 限られた質問・コメント時間では,どうしてもこういうタイプの質問が中心となるし,若い人でも鋭い切り口でコメントすれば自分のプレゼンスを高めるのに利用できると思うので逆に利用してがんばってもらいたい.

・儀礼的質問・コメント
発表者にとって質問やコメントが出ないというのは寂しいことではある. 質問・コメントがなかったときに,つまらなかったからコメントがないのか,よくできたプレゼンで疑問点や反論が特にないということなのか区別がつかない. 後者の場合にそれを示すためにとってつけたような質問をすることがある. まあこれは毒でも薬でもないからいいのだが,今流で言えば「いいね!」ボタンを押すというようなやり方でもいいかもしれない.


会議によってはあらかじめ査読して議論のポイントも明確にしておくというやらせ?のような質問・コメントタイムもあるようだが,ある程度そういう前準備をするというのも建設的な議論をするためにはいいアイディアかも知れない.

IBISML研究会 2011/3

3月11日に東日本大震災が発生し,年度末に予定されていた 2010 年度第 4 回 IBISML 研究会も当初開催が危ぶまれましたが,大阪開催ということもあり幹事の方々のご尽力でなんとか予定通り開催されました.

まず,会に先立って樋口先生@統数研の合図に従って震災で被災された方々に対して出席者全員が起立して一分間の黙祷が捧げられました. 亡くなられた方に対して深く哀悼の意を表するとともに,避難を余儀なくされている方々を少しでも元気づけられるように,そして,研究分野として直接・間接さまざまな面から何か貢献できないかを考えていくという誓いを立てた時間でした. 幸いこの分野は特別な大型機器を使うわけではないので,その意味からも大きなブランクが空くこともなく研究が進められるという利点があります.

なお,この震災では産総研のつくばセンターも強い揺れに襲われ,建物などには少なからず被害が出ましたが,奇跡的に全職員大過なく無事でした. 当日はちょうど産総研で PRMU 研究会が開催されており,地震により急遽中断されましたが,交通が完全に遮断されたため,つくば駅近くのホテルのロビーなどで一夜を明かされた方もいたようです. このあたりは image-ML に投稿された玉木先生@広島大の報告
 [image 05410] PRMU3月11日研究会 被災報告 (2011/03/13)
に詳しいので,お近くに image-ML を購読されている方がいらっしゃったら是非読まれるとよいと思います.
とても生々しい様子が伝わります.

つくばでは(というか関東全体だと思いますが)なんとなく世の中に暗い雰囲気が漂っていて,気持ちも沈みがちだったのですが,久々にお会いしたいろいろな方とお話しできてかなり元気が出ました. 産総研では出張の原則自粛が勧告されていたのですが,思い切って参加してよかったです.

さて,IBISML に話を戻すと,幸い地震による発表キャンセルもなく,20数件の発表が滞りなく行われました.
投稿された分野も現在の機械学習のトレンドに沿って幅広く,いつも通り査読なしとは思えないほどレベルの高いものばかりでした. [開催プログラム]

キーワード的にざっと挙げてみると,
・(ノンパラ)ベイズ,確率場
・ランキング
・プライバシー保護
・劣モジュラ
・テンソル分解
・スパース (lasso など)
・カーネル関係いろいろ
・ネットワーク解析
この辺りの基本を押さえておけば,ほぼすべての講演が十分楽しめる感じでした.

グループとしていちばんまとまっている感じがしたのは杉山先生@東工大の周辺でやられている密度比推定関連の研究で,完成度の高い研究という感じでした.

個人的には最後の理論のセッションがやはりもっともおもしろかったセッションです.
渡辺一帆さんによるVBの汎化についてかなり一般的な形の式を導出されていました.
綾野さん@阪大と鈴木さん@東大はいずれも(ただし解いている問題設定は全然違いますが)ノンパラの min-max レートの漸近解析をされており,興味深い結果を出されていました. 鈴木さんの発表に対する田中利幸さんの質問が例によってむちゃくちゃ鋭かったのが記憶に残りました.

なお,私は藤木さんと共著に入れて頂いた「回帰大作戦」という,怪奇大作戦をもじった内容での発表でした.世の中を明るくするために途中随所にネタ的なスライドも仕込まれていましたが,時節柄爆笑で受けるという感じではありませんでした. 中身は至極まっとうで,回帰や測定誤差モデルの損失関数をロバスト化したときに大域最適解が満たす性質に関する数学的な証明で,まあ詳細は予稿集をよく読まないとなかなか理解するのは難しいかもしれません.(藤木さんは予稿の証明が汚いので別のところにちゃんとしたのを出すつもりだとのことでしたが)

今回の IBISML 研究会は 英語発表の LLLL, DMSS というワークショップと並列開催で,一部パラレルに進行していて目当ての講演が聴けなかったりなどの声もあったようです. この辺りはまだ初めてのことでこれからディスカッションしていろいろ改善していくことでしょう.

追記ですが,冒頭の樋口先生は4月より統数研の所長に,幹事補佐の持橋さんも統数研に移られ,統数研がますます熱いですね. 今後も IBISML 研究会に対してもいろいろなスキームでサポートがされていくようです.

研究会「説明変数に誤差のある回帰をめぐる話題」「仮想データ生成とその周辺」

新年あけましておめでとうございます,

# 注: 初回投稿時から午後の講演順に変更がありましたので修正します.

さて,一部MLには流しましたが,新年早々1/7 に統数研において標記の研究会があります.

端的に言えばふつう関数近似では出力にノイズを考えますが,入力にもノイズを乗せるとどうなるかという話で,統数研の伊庭さんとガウシアンプロセスのMCMCをやった話を通信学会の前回のIBIS特集号に出したので,その流れで企画されたものです

(なお今年度の特集号の締め切りも1月7日まで延期されましたので合わせて宣伝いたします 特集号URL)

甘利先生が目玉ですが,個々のトピックが非常に興味深いです.

個人的な問題としてはつくばからだと朝早いのと,お昼ごはんの調達をどうするかが悩ましいですが,ご興味のある方の積極的な御参加をお待ちしております.



統計数理研究所研究会のお知らせ

日時: 2011年 1月 7日(金)

場所: 統計数理研究所 3F 第5セミナー室 (D313/314)
東京都立川市(最寄り駅・多摩モノレール高松)

研究会URL: http://www.ism.ac.jp/~iba/ken2011Jan.htm

プログラム概要
午前の部
研究会 「説明変数に誤差のある回帰をめぐる話題」
10時~10時30分 伊庭 幸人 (統数研)
・・ 位相応答曲線の話やカーネル法との関連などについて (30分)
10時30分~11時 久保 拓弥 (北大地球環境)
・・ 生態学などでの最近の応用などについて (30分)
11時15分~12時15分 甘利 俊一(理研BSI)
・・ 説明変数誤差,セミパラなどについて (60分)

午後の部
研究会「仮想データ生成とその周辺: 逆像問題,サロゲーション,秘匿」
13時30分~13時45分 伊庭 幸人
・・ 趣旨説明 (15分)
13時45分~14時30分 坂野 鋭
・・ 文字認識系における逆像問題とその周辺 (45分)
14時30分~15時15分 津田 宏治
・・ グラフマイニングおよびそれに関連した逆像問題 (45分)
15時45分~16時30分 星野 伸明
・・ データ秘匿をめぐる話題 ( 45分)
16時30分~17時 伊庭 幸人
・・ マルチカノニカル法とレアイベント生成について (30分)
17時~17時45分 平田 祥人
・・ 非線形時系列解析におけるサロゲートデータ解析とその応用 (45分)

福水:カーネル法入門

IBIS2010でもチラシが配られていたのでご存じの方も多いと思いますが
福水健次:カーネル法入門-正定値カーネルによるデータ解析-(シリーズ多変量データの統計科学8)朝倉書店
が発刊されました.

タイトルを見れば分かる通り,私の岩波本のライバル本として位置づけられるわけですが,別に執筆業で食べているわけでもないですし,分野の発展としてはこういう本がどんどん日本人研究者によって出版されることは喜ばしいというわけで宣伝しておきます.
(わざわざブログで取り上げる理由としては,福水さんと親しいからとか,献本してもらったから,ということは全然...あります^^; ちなみにすでに持橋さんがブログで感想を書いておられます)

岩波本の出版時期はちょうど2年前のクリスマス商戦の時期でした. やはりカーネルというとケンタッキーにあやかってクリスマス商戦にぶつけるというのが作戦なのでしょうか(ということは全くないと思います^^;).

情報源は定かではないですが,某大学では科研費で「入門」と名のつく本を買うことはまかり成らん,という摩訶不思議な決まりがあるそうです. たぶん「まんがでわかる...」とかその手の初心者本を想定しての決まりだと思いますが,福水本はこの決まりに対して強烈なアンチテーゼと言えるほどの格調の高さがあります.

岩波本では初期の原稿で再生核ヒルベルト空間の導入が2章にあったのですが,初学者の便宜を考えて後回し(6章)にしました. 福水本ではその辺は割り切って2章にカーネルの理論の基礎事項をがっつりと持ってきています. 確かに最初に導入しておいた方が後の説明は楽になります. 例えが適切かどうか分かりませんが,ディズニーランドのアトラクションで言うと,岩波本が It's a small world 並のゆるさに対して,福水本はスペースマウンテンみたいなジェットコースター形式です. 最初に急な坂を登っておいて,あとはダッシュで下るイメージです. 

どちらがいいということはなくて,読者のバックグラウンドや好みに応じてどっちのアトラクションを選ぶかということだと思います. 岩波本の感想でも「6章から読んだ方がわかりやすかった」という方が(数学の得意な方が中心ですが)結構いらっしゃいます.
岩波本は数学的に難しい表現はできるだけ避けようとして,逆に表現があいまいになっているところが多数ありますが,その辺りは福水本はきっちりと漏れなく書いてあります.
岩波本の著者としては,岩波本でざっと全体を眺めてから,よりきっちりした記述を福水本で補う,といった使い分けをしていただければ幸いです.

岩波本のサポートページも中途半端な感じで放置してありますが,「福水本のここを参照」とか書いておけばいいような気がしてきました.

もちろんカーネルに関してより造詣の深い福水さんが岩波本より2年遅れで出しているわけですから,岩波本にない題材もかなり入っています. 以下その辺りをざっと書き出しておきます.

2章に関しては,岩波本では省いた複素数値カーネルについても書かれています.命題2.9にあるカーネルの連続線形汎関数を用いた定義は岩波本のサポートページでも少し触れていますが美しいですね. あと,岩波本では導入しなかった Sobolev 空間の導入(sec.2.2.3)は10章のスプラインとの関連を述べる上ではかなり重要で,岩波本ではこれを適当にごまかしています(岩波本p.171, sec.7.2(b)).

いわゆる多変量解析手法は3章と4章に短くまとめてありますが,実用上重要なものとして,sec.3.6 のグラム行列の低ランク近似があります.カーネル法は結構計算量が大きいので,インプリメントの際にも大いに参考になる部分です.(これについては鹿島さんらにお願いした信学会の招待論文にも詳しいです)

6章はカーネルの理論についてより詳しい話がいろいろと載っていますが,Hilbert-Schmidt 作用素については後の章で重要な概念なのでざっと理解しておくことが大切です.

そしてなんといっても福水本のハイライトは8章と9章にあります.福水さん自身がかなりの貢献をしている分野で,条件付き独立性についての数学的に厳密な扱いです.岩波本では p.82, sec.3.5(c) に約1ページでさらっと書いてあることをふくらませて,条件付き独立性検定・因果推論・(線形)次元削減などへの応用に発展させています.

あと,全体に研究の歴史や最新動向については岩波本では省略している部分で(私の不勉強ゆえですが),参考になるところが多いです.

一方,岩波本にあって福水本にない題材は少ないのですが,情報幾何絡みの話(岩波本 p.160, sec.6.3)はマニアックなものとして挙げておきます.

なお,前のブログエントリーで予告してあった統計数理の機械学習特集号 が発行されており,pdf もダウンロードできますが,福水さんも「正定値カーネルによるノンパラメトリック推論」というタイトルで研究詳解を書かれていますので福水本のサマリーとして参考になる部分も多いと思います.

次のページ

FC2Ad

FC2ブログ