朱鷺の杜(IBIS)ブログ

情報論的学習理論(IBIS)に関する管理人の独断と偏見に満ちた意見

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

近況報告(サイエンスzero・献本いただいた本など)

毎月一日にはたいてい丸亀製麺で釜揚げうどん半額を食べるので1か月の刻みはだいたい把握しているのですが,今年ももうあと2か月になってしまいました. 人工知能やら機械学習やら世の中動きが激しくて結構忙しいものの,あまり研究している気がしないので少し腰を落ち着けて研究に集中したいものです.

さて,いくつか近況報告や献本いただいた本の紹介(献本いただいた方々ありがとうございました):

まず1件目.
8月に科研費スパースモデリングがNHKサイエンスZEROに取り上げられました.
数学関係はテレビにするのが難しいのか,ガリレオっぽい演出があったり,一般視聴者向けの説明に苦労している感じでした.
私を含め計画班・公募班の一覧が一瞬映りましたが,多すぎて探すのが大変でしたね.
なお,ネットでの感想まとめはtogetterまとめnaverまとめにあります.

2件目.
予告ですが,産総研お台場で行われる人工知能セミナーで話します(11/24開催).
詳細はこちら. 申込制ですのでご興味のある方は是非.私の情報幾何の話は入門向けで知っている人には退屈かもしれないですが,園田さんの話は deep learning の理論としても非常に興味深いです.
なお,その次の日から IBIS2015 がつくば国際会議場(エポカル)で行われますのでそちらも合わせてどうぞ.

あとは献本いただいた本など.
情報幾何学の基礎 (数理情報科学シリーズ)
量子情報理論の研究で著名な藤原さんの書かれた情報幾何の本.甘利研時代は重なりはないのですが,大阪大学に兼任していた時期にお世話になりました.多様体のちゃんとした話から最後は量子情報幾何の話まで,数学的にちゃんとしていながら難しくなく学部レベルの大学生でも十分に理解できる内容になっていると思います.

岩波データサイエンス Vol.1
伊庭さんが何やら活動されているのは twitter など通じてうすうす知っていたのですが,献本いただいて少しその実態がわかりました.本のような雑誌のようなわりと軽く読める本です.円城塔氏の連載小説も載っていたりして雑誌といっても学術雑誌とはかなり趣は違います.そもそも月刊なのか季刊なのかもよくわからなかったのですが,サポートサイトの Q and A を見てやっと理解しました.
こんなところで宣伝するまでもなくバカ売れしているみたいで,発刊記念イベントなども行われたようです.
この業界盛り上がっていますね.次は自然言語処理関係だそうです.

深層学習: Deep Learning
3冊目は deep learning の本で,人工知能学会誌に連載されていたものを大幅修正加筆して出てきたものです.発売日は11月5日ですが,しましまさんから著者分を分けていただきました.ありがとうございます.しましまさんの気合の入りようからして,deep learning の定番書となることは間違いないでしょう.



最初にも書きましたが,個人的にはあまり忙しくなっても逆に頭が働かなくなるので,ちょっと引いたところで落ち着いて地道な問題を解くような研究をしていきたいと思っています.
スポンサーサイト

新年度

毎度のことですが,久々の更新です.すみません.

うちのグループでは久々の新人,兼村さんを迎えました.
それ以外にも,科研費新学術研究スパースモデリングのポスドクとして昨年末から来られている荒木さん,サバティカルで短期滞在中の福永さん,と若い人たちが増え,フレッシュな新年度となっています.
私も若い人たちから刺激を受けてまだまだ頑張っていきたいと思います.

さて,電子情報通信学会誌の今月の特集が「データを読み解く技術──ビッグデータ,e-サイエンス,潜在的ダイナミクス──」ということで,麻生さんが編集担当でそうそうたるメンバーが執筆しており一読の価値ありです.

あと,以前献本いただいた,弁当屋の統計技師の続編となるとある弁当屋の統計技師2も献本いただきました(もうかなり前になりますが).ありがとうございます.

今回は因子分析や分散分析というなかなか高度な話をラノベ風ストーリーにすることに挑戦しています.
ラノベで統計入門したい人ってそんなにいるのかなあとか思っていたのですが,Amazon のレビューがたくさんついているのを見て,私が知らないだけで結構需要が大きいということを知りました.

書こうと思っていて書き忘れたので追記:

フレッシュな人を増やす運動の一つです.
昨年度から東工大の知能システム専攻で連携教員をやっているのですが,当研究室での研究に興味のある方はお気軽にあかほまでご連絡ください.
すずかけ台とつくばが遠いので,ちょっと変則的な感じにはなってしまいますが,すずかけ台の方は渡辺澄夫先生のところに間借りする形になっており,できるだけ不便がないようにいろいろ工夫はしたいと思っています.

新年のご挨拶+応用数理ハンドブック+IBIS2013+ICDM2013

新年あけましておめでとうございます。
今年もよろしくお願いします。

だいぶ日数が空いてしまいましたが、秋から12月までいろいろと立て込んでいてブログを更新する余裕がありませんでした。
年も明けて少し気分も入れかわったところで、去年の話をいくつかまとめて報告。



まずは本の宣伝。

11月に応用数理ハンドブックという本が朝倉書店から出ました。
一項目2~4ページで解説する事典のような本です。
機械学習については東工大の杉山さんがとりまとめをされていて、私は「パターン認識」ということで2ページ書かせていただきました。
(最初4ページもOKだと思って4ページ書いたら出版社の人にダメって言われて泣く泣く2ページに縮めましたw)

朝倉書店のHPにある宣伝をコピペ

数値解析,行列・固有値問題の解法,計算の品質,微分方程式の数値解法,数式処理,最適化,ウェーブレット,カオス,複雑ネットワーク,神経回路と数理脳科学,可積分系,折紙工学,数理医学,数理政治学,数理設計,情報セキュリティ,数理ファイナンス,離散システム,弾性体力学の数理,破壊力学の数理,機械学習,流体力学,自動車産業と応用数理,計算幾何学,数論アルゴリズム,数理生物学,逆問題,などの30分野から260の重要な用語について2~4頁で解説したもの。


学習関連では神経回路と数理脳科学でも関連する話が書かれています。
大きい本なので値段もそれなりですが、応用から数理までわりとユニークなまとめ方をしていると思うので、関連する分野に興味のある方にはお勧めです。
研究とは関係ないのですが個人的には折紙工学がツボでした。

ネットには詳細な目次は出ていなくて、私が買った現物も職場にあるので明日にでも追記欄に関連する目次を載せておきます。(追記しました)



さて、次は11月に開催された IBIS2013について。
会議の詳細は神嶌さんが朱鷺の杜wikiにまとめているのでそちら(http://ibisforest.org/index.php?しましま/IBIS2013)を参照してください。
ここではあまり中身と関係なく独断的な感想のみ書きます。

まず去年に引き続き今年も東京に3日間通ってそれだけでかなり疲れました。
東工大(大岡山)だったのでまだ救われましたが、ふだん長時間通勤しなれていない身には結構つらかったです。
個人的にはその後も理研に3日通ったり、東工大すずかけ台に2週連続で朝一の電車で出かけたりなどが続き、それだけで年末のパワーを吸い取られてしまいました。
来年は地方開催のようなので少し楽になるかな?

全体的にはオーガナイズドセッションが充実していて、むしろ「ちょっと多過ぎでは?」と感じました(気合入りすぎ?)。
ビッグデータやディープラーニングといった今時の話題を散りばめて人もたくさん集まっていましたが、IBISの主役であるポスターセッションが場所も時間もオーガナイズドセッションに押され気味だったような気がします。
ただ、ポスタープレビューが復活したのはうれしかったです。ポスター会場が狭いのと、人気のあるポスターはなかなか話が聞けないのでとりあえずポスタープレビューで概要を聞いておくだけでも有用でした。

ビッグデータのパネルは「大御所そろえました!」って感じでしたが、もっと若い人たちに過激なことをしゃべってもらうというのもよかったのではないかと思いました。

あと、私は出ませんでしたがお金を取ってチュートリアルをやったのも新しい試みで、好評だったようです。一部の講義はマニアック過ぎという話も聞きましたが、まあそれはそれで IBIS らしくていいですね。



最後はアメリカのダラスで行われたICDM2013の報告。ICDMはデータマイニングの主要会議の一つで、私ははじめて参加したのですが、神嶌さんと連名でワークショップに出していたので勉強方々行ってきました。

ダラスはテキサス州ということでなんとなく漠然と温暖なところに行くイメージでしたがこれがとんでもないことに。
確かに会議の数日前までは最高気温26度前後という暑そうな気温でしたが、会議が始まるころにスノーストームが吹き荒れ、飛行機の便が乱れまくりました。 
私はサンフランシスコ経由で行ったのですが、幸いにも飛行機は少しの遅れで到着。
ところが、ダラスに着いてみると、町中が雪景色で、しかも氷点下で道路が凍結しまくり。
暖かい地方なので車もスタッドレスとか全くはいていないようで、タクシーもほとんど走っていない状態(鉄道なども全面アウト)。
かろうじて空港で知り合った ICDM 参加者の人と数少ないタクシーに乗り込んで行くも、立ち往生している車が続出で大渋滞。
通常30分程度で行くところが2時間半もかかってやっとホテルに到着しました。
後で聞いたところによると東大の山西先生など5時間以上かかったということもあったようです。

それで私の共著者の神嶌さんですが、ミネアポリス経由で来る予定が、ミネアポリスからの便は早々に欠航が決定。
ワークショップでの発表を翌日に控えていたので間に合うのかなあと思っていたら、なんと翌日も欠航に…
というわけで急きょ私が代理発表することに。
神嶌さんから資料をメールしてもらい、自分でも簡単な資料を作ってなんとか発表しました。
しかし、そもそもワークショップに間に合わない人たちが続出して、開始時間をずらしたりして、それでも invited talk がキャンセルになるなど大混乱でした。

一部始終のツイートを神嶌さんがまとめたのがこちら(http://togetter.com/li/600120)です。
なかなか臨場感あります。

町中は雪と氷で閉ざされていましたが、なんとか本会議には参加者もほぼ集まって、盛況な会議となりました。
ICDM本会議はアクセプト率が全体で2割程度とかなり厳しく、どの発表もレベルの高さを感じさせるものでした。
キーノートが「推薦システム」「ヘルスケアのプライバシー」「ネット広告」という、神嶌さんとかといっしょにやっている話に関連の深い話が多かったので面白かったです。



以下続きの追加部分に応用数理ハンドブック機械学習関連項目を追記しました. 【“新年のご挨拶+応用数理ハンドブック+IBIS2013+ICDM2013”の続きを読む】

地方大学の東京オフィス

科研費申請のシーズンです.
もう大学によっては締め切りを終えてるところも多いと思いますが,まだの方は以前書いたエントリーがもし参考になれば幸いです.
山中伸弥氏のノーベル賞授与が基礎研究に追い風に働くといいのですが,田中大臣の発言とか微妙に外しているところが気になるところです.

あと,国家公務員が東日本大震災関連で給与1割カットになったのを受けて,産総研や国立大学も軒並み給与一割カットされて暮らし向きは厳しくなりました(カット率や開始時期は大学によって異なりますが). ただでさえ安い給料がカットされて大変ですが,なんとか上向きになってくれることを祈っています.

ですが,今日のメインの話題はそういう話ではありません.

ここ最近,地方の大学の東京オフィスでミーティングという機会が何回かありました.
どんな大学が東京オフィスを持っているんだろうと興味を持ったのでまとめてみたいと思います.

京都大学 東京サテライト
品川にあるインターシティにあります. 空港や新幹線からアクセスがいいのが品川にある理由でしょうか.
卒業生など関係者が利用できるようです. わりと大き目の会議室がありました.

北陸先端大 東京サテライト
これも品川インターシティ. こちらもわりと大き目の会議室があります.

はこだて未来大 東京サテライト
秋葉原ダイビルにあります. ここはあまり広くはないです.

以上の3つが私が実際行ったことあるものです.
以下グーグルや伝聞で存在を知ったもの.

サピアタワー 大学フロア
東京駅にある東京オフィスの集合体
関西学院大学・甲南大学・事業創造大学院大学・新潟医療福祉大学・東北大学・北海道大学・関西大学・流通科学大学・産業能率大学・埼玉大学・東京大学・立命館
まあ東大とかは地方大学じゃないですけど.
キャンパスイノベーションセンター
田町にあるいろんな大学の東京オフィスの集合体
<国立大学>秋田大学・愛媛大学・大阪大学・鹿児島大学・熊本大学・静岡大学・上越教育大学・千葉大学・鳥取大学・新潟大学・広島大学・山形大学・山口大学・山梨大学・和歌山大学
<公立大学>高知工科大学
<大学院大学>奈良先端科学技術大学院大学
<私立大学>岡山理科大学・吉備国際大学・九州保健福祉大学・倉敷芸術科学大学・久留米大学・千葉科学大学・常磐大学
コラボ産学官プラザ
江戸川区船堀にある東京オフィス集合体
トップページにリストはありませんが,信州大学・富山大学・弘前大学・大分大学・長岡技術科学大学・福岡工業大学・長崎大学などの東京オフィスがあるようです.
九州大学 東京オフィス
有楽町
同志社大学 東京オフィス
東京駅
龍谷大学 東京オフィス
東京駅
松山大学 東京オフィス
新橋駅
近畿大学 東京事務所
四ツ谷駅
金沢大学 東京事務所
日本橋付近
神戸大学 東京オフィス
帝国劇場ビルというのがマニアック
愛知大学 東京事務所
霞ヶ関

ほかにもあるかも知れませんが,力尽きたので今日はこの辺で.

やはり東京に拠点があると何かと便利なんでしょうね.
こちら側からしても,わざわざ地方の大学に出かけなくても済むのは便利です.
ただ,地方に出かけておいしいものとか食べるのも楽しみなので一長一短といったところでしょうか.

Machine Learning that Matters (ICML2012) 読んで考えたこと

糞ネット弁慶ブログに表題の ICML2012 論文 "Machine Learning that Matters" が紹介されていて,「機械学習やってる人は皆読むべきだと思う.」と書いてあったので読んでみました. 英語はしんどいのでブログ内の日本語訳をベースにします.

全体としていろいろまっとうなことが書いてあるのですが,個人的には「こんな方向ばっかり進まれると辛いなー」というのが正直な感想なのでその路線で意見を述べてみます. まあ私が機械学習研究者を代表しているとも到底思えませんので,一個人のたわごとだと思って読んでいただければ幸いです.



さて,この論文の基本的な主張は,「機械学習と実世界の間には乖離があるからそれを埋めるような研究の進め方をするべきべきべき!」ということです. うちの職場でも,「基礎研究と応用の間の死の谷を乗り越えるために本格研究(←たぶん造語)しましょう」というキャッチフレーズでいろいろな政策が進められています.

入口から出口まで全部面倒を見ようという意味で研究のグローバリゼーションととらえることもできるし,視点としてはかなりマクロな感じになり,研究テーマはニーズ志向で,マネージメントはトップダウン的に行う必要があります.

でも,実際の研究はローカルで行われており,個性豊かな研究者が多様なベクトルを持って自発的に活動しているわけですから,ちゃんとミクロなところを見て,ボトムアップなシーズも大事にしないとうまくいかないと思います.

ちょっと抽象的になってきたので論文の論点に戻りましょう.

> 機械学習のための機械学習(要約: マッシュルームやアヤメの分類器を死ぬほど作って何の役に立ったの?)

機械学習には No free lunch theorem というのもあって,確かにベンチマークの問題は難しいです.
でも,機械学習のすばらしいアルゴリズムは,コミュニティの人たちのたくさんのひらめきと試行錯誤の数限りない反復の中から生まれてくるもので,それをいちいち実問題でやっていては,労力がいくらあっても足りない.というか,その労力をアイディアの創出に注いでほしいと思います.

逆に個人的には人工データで十分だと思っていますが,本論文の著者も認めているようなメリットもあるわけですから,「UCIレポジトリ限定チューニングアルゴリズム」とかでなければ(そんなのそもそもアクセプトされない),機械学習的価値観で書かれた論文で一向に構わないのではないかと思います.

>フォロースルーの欠如

本論文では「インパクト」という言葉を狭くとらえ過ぎているように思います.
実世界へのインパクトというと即効性のある近視眼的なものになりやすいし,今現在ではなんに使えるかわからないけどすごい!みたいなインパクトだって長期的には重要だと思います.

本論文では実世界的なインパクトがなければ
>意味が無い.
>研究と実世界とを紐付けるのはコミュニティが成熟する過程の一部である.
とまで言っていますが,それはそのコミュニティの役割によるでしょう.
コミュニティの役割は一つに決まっているものではありません.
逆に,同じ役割を果たすコミュニティは二つもいらないでしょう.

まあ ICML はどちらかというと実用志向と言われていて,NIPS が基礎志向なので
「みんな NIPS に毒されるな.目を覚ませ!」
っていうメッセージなのかもしれません.(NIPS も最近は変わってきてしまっているようですが)

>機械学習の外の世界と関われ

これも研究者による話だと思います.
いろいろ外に広げていくのが向いている人もいれば,中でがっつり頑張る人もいます.
両方の人材がそれぞれ重要だと思います.

あと,どちらかといえば外の世界で本当にインパクトがあれば,ICML なんかに出さずに Nature とかに出すとか,
儲かる話なら起業したりすればいいわけで,実際そうしている人たちもたくさんいるのではないでしょうか.
ICML はむしろ中でがっつり頑張っている人たちを支えてあげる大切な場だと思います.

> Machine Learning Impact Challenges

これはあまりどれも個人的に興味ないので特にコメントなしです.

>課題になってくること

ここに書いてあることは意外に?いい点をついている気がします.

>ジャーゴン

>feature extractionとかbias-variance trade-offとかensemble methodsとかcross validationとか
>low dimensional manifoldとかregularizationとかmutual informationとかkernel methodsとか
>専門用語使いすぎ.研究者だけでなく,統計学者にすら伝わらない.別の言い方を考えろ.

もともと機械学習みたいに統計・数学・物理・生物 etc. の融合領域では,用語の問題は常に問題になります.
同じものに別の名前がついていたり,同じ名前が別の意味につかわれたり日常茶飯事.
ただし,この問題は奥が深く容易ではないと思います.

>リスク

これは非常に重要な問題で,実応用をする場合にはネガティブな面も全部含めて責任を取る覚悟が必要だと思います. だから私は安易に「役に立つ研究」を標榜したくない気持ちです.

最初の方の話に戻りますが,「基礎と応用の間の死の谷」というのは必然的な面もあると思うのです.
基礎のところで十分に練られたものだけが応用にちょっとだけ出ていくというのがリスクの面からも健全で,そこをスルーにしてしまうと,何か事が起きた時に元から全部否定されてしまうということにもなりかねません.





というわけでいろいろ文句をつけましたが,実際,本論文の影響力に比べるとこのブログ記事は無限に小さいたわごとだなあと思うとちょっと無力感を感じたりして...

金環日食の画像処理

今日は落書きモードです.

前にも書いたように最近は私のところにもいろいろデータ解析の依頼が来ます.
それもたいてい,
「とりあえずたくさんデータ取ってみたんだけどなんか出ない?」
というようなのが多いです.

まあ機械学習は懐が深いので?そういういい加減なデータでもそこそこなんとかできるというのが売りだと思うのですが,解析者のスキルもそこそこ必要で,普段からの訓練が欠かせません.

それで金環日食です(無理矢理ですが).

とりあえずフィルタを望遠レンズにつけたカメラで撮影したのと,天体望遠鏡の太陽投影板を手作りして 投影面を撮影しました.

でも高級な自動ガイドの架台とか当然持っていないので,時間間隔も適当,写っている大きさや位置も適当.
データ解析のちょうどいい練習問題と思ってやってみました.
今回は画像処理が多いのですが,共同研究などを通じて鍛えられて?いるのでそこはなんとか.

まず,カメラ撮影の方は,とりあえずこんな画像がいっぱい
IMG_0035_1.jpg

幸い太陽はほとんど真円なので,
・エッジ抽出
・(外側の)円の抽出
・位置と大きさあわせ
という流れでできそうです.

今回用いたのは matlab の image processing + optimization toolbox ですが,R でも python でも OpenCV でも基本的にそれほど変わらないと思います.

問題はエッジ抽出と円の抽出のところでいくつかパラメータがあること.
エッジ抽出には canny filter というのを使ったのでそこにパラメータが一つ.
エッジ情報からの円の抽出は基本的に「いくつかのランダム点であてはめるというのを繰り返して,inlier ができるだけ大きくなるものを選ぶ」というRANSAC と呼ばれる手法を使いました.
さらに,今回は一番外側の円が欲しいので,内側の点の数とかも数えたりしています.
で,それらにもいくつかのパラメータ.

できればこの辺り全自動でいけば理想的ですが,なんといっても「なんちゃってデータ解析」なので,結果を見てパラメータを適当に変えられるようなインタラクティブなスクリプトを書いて半自動で抽出しました.

これを時間順に並べればアニメーションができます. ただし,撮影間隔も適当だったので,理想的には動的計画法かなんかでできるだけ等間隔のものを抜き出すプログラムとか作ってやるということも考えられましたが,ちょっと面倒だったので,適当な間隔に並んでいるのを抜き出して,あとは目の子で微調整.

で,できたアニメーションがこちら↓↓↓↓


(いろんなところに投稿したのでもう見飽きた方はごめんなさい_o_)

あと,撮影時刻と太陽の軌道計算を使って投影すればこんな図もできます↓↓↓
movement2.jpg



まあこれは比較的すぐにできたのですが,太陽投影板の方は苦労しました.
得られている画像はこんな画像
ixy20120521 101


研究でやっていたレンズのキャリブレーションとはちょっと違って,もっと原始的?なキャリブレーションが必要だったので,自分で一から計算して画像の補正法をプログラム. 基本的には楕円が真円に写るように傾き補正すればいいのですが.

・ピンホールカメラだと思って考えると,円をななめから見た像は楕円.というわけでまずは楕円の抽出.
・楕円の抽出はやはり RANSAC で,円の抽出をちょっと改変してOK
  ちなみに RANSAC の最適化規準を一般化したあてはめに関する論文は藤木さんらとの共同研究で何本か出ています.
・これが円に載っているような面をパラメタライズして方程式を立てると2変数の非線形方程式が出ます.
・まあ2変数ともコンパクトサポートなので,適当に解けばいいのですが,今回は matlab の最適化ルーチンに解かせました.
・その面が正面に見えるように透視射影を求め直して,image processing toolbox に渡してやると円に見える?像が得られます.

結果が下の画像
r-ixy20120521 101-r

なお,この問題を解くためにはカメラの焦点距離と画素のスケールが必要です. 焦点距離は35mm 換算とかで画像ファイルに数値が入っているので今回はそれを利用. ただし,35mm 換算って何?っていうほどの素人なのでその辺りググったりして画像のスケーリングなどを計算しました.

もしかするとこんなキャリブレーションはどこかにコードが落ちているかも知れませんが,まあお勉強ということで.



このプログラムは6月4日の部分月蝕と6月6日の金星太陽面通過でも活躍するはずだったのですが,月蝕も雲の向こうにかすかに見えただけだし,金星太陽面通過も完全に曇ってしまいました.
さすがの機械学習も,ないデータはいかんともしがたいです.
(えっとまあ機械学習と言えるほどすごいことはやっていませんけど)

というわけで,今年起きる金星蝕か,それ以降の日蝕・月蝕までお蔵入りです.
それまでに自分の書いたプログラムの使い方を覚えていられるかが非常に怪しいです.

さらに,今請け負っているいくつかのデータ解析に対するスキルが上がったかというと...これも怪しいです^^;

就職先としての産総研

いわゆる就活というのがいつから始まるのかよく知らないのですが,今日は産総研への就職についてのメモ.

産総研になってから,うちのグループも優秀な人材を採りたいとは思っているのですが,なかなか採れないという事態が続いています. これまでも非常に優秀な方がアプライされてきたにも関わらず結局採用できないということを繰り返してきたのでなんとかしたいという思いもあります.

うちがダメになっても,結局ほかに移って活躍されているようですのでそれはそれでいいのですが.


ちなみに公式な採用情報はこちらです: http://www.aist.go.jp/aist_j/humanres/index.html あまり情報はありませんね.

そもそも産総研とは: http://www.aist.go.jp/aist_j/information/index.html

歴史: http://www.aist.go.jp/aist_j/information/history/history.html にあるように経産省工業技術院にあった国立研究機関が独法化に伴って全部一緒になったものです.



再来年の採用についてはまだ始まっていませんが,年明けぐらいにぼちぼち公募が出ると思います.

以下に産総研の採用の流れをおおまかに書きます(守秘義務があるのであまり細かくは書けません).

産総研は大きな組織ですが,その中に部門やセンターというまとまり(ユニット)があります. まず,上から各ユニットの推薦枠というのが割り当てられ,それに従って公募資料を各ユニットが作成し,公募がかけられます.

通常はユニットごとの推薦枠は1~2人くらいのところに,何十人も応募があります.
そこで,各ユニットではその推薦者を決めるための予備選考を行います. 具体的には書類審査や予備面接ですが,細かいやり方はユニットごとに違います.

ユニットから推薦されれば採用となるわけではありません. 各ユニットから推薦された人全員に対して産総研全体の審査があります. ここでの倍率についてははっきりわかりませんが,かなり厳しいという話です.

特にこの最後の産総研全体での審査というのが大変で,異分野の人たちの中から勝ち残る必要があります. それで,新規採用の年齢がどんどん上がってしまい,ポスドクを渡り歩いて実績を重ねた人だけが採用されるという実態になってきました. 産総研もそのあたりは反省して,若い人を重視して採用するような重みをかけるようになり,多少は改善されているようです. 情報系が厳しいのは,インパクトファクタなんかで比べると論文勝負は難しいので,メディアへの露出とか別な意味で突出しているというのが有利に働いているという感じもしないでもないです(あくまで個人的な見解ですが).


なお,このやり方で行う採用のほとんどは「若手型任期付研究職員」という形です. これはいわゆるテニュアトラックということで,実績さえ積めば高い比率でパーマネント職員に移行できます.

それ以外に,「中堅型研究職員」といってグループリーダーなどを雇ったりするスキームや,任期付きでも特定のプロジェクトにひも付けされた「研究テーマ型任期付研究職員」というのもあります.

これらは正規職員ですが,それ以外にもポスドクとして,産総研の研究者が自分の研究費で雇用したり,学振 PD の受け入れ先という形での雇用もあります. これらの雇用については産総研全体での審査というのはなく,基本的に担当する研究者の裁量で審査されます.

産総研にはもう一つあまり知られていない採用方法があります. それは主に修士課程修了見込みの若い人を採用するという仕組みで,産総研が独自に行っている試験を受けて入る物です. 私が産総研の前身の一部である電総研に入ったときは修士を出て国家公務員試験を受けて入ったのですが,それに相当する物です. 実際,今年度から櫻井さん@山西研.東大出身がこの制度で産総研に入られました. 残念ながら私のグループではないところですが.


公募採用の場合,それほど就活対策的なものはなく,エビデンスをたくさん積んで,面接のときのプレゼン能力が高いというのが重要です(まあそれだけで振り分けられてしまうのは問題といえば問題ですが). なお,あらかじめポスドクで産総研にいて研究内容をよく知られているとか,研究者を訪問して自分を売り込むというのはそれなりに意味があるかもしれません. これはコネがどうこうという話ではなく,

・産総研でどのような人材を採りたいと思っているかの把握がしやすい

・自分の研究内容をバイアスなく見てもらえる(プラスのバイアスもマイナスのバイアスもなくなりますが^^)

・産総研が実際どんな研究所かがわかって自分との相性も計れる

というような意味です.



あとは,産総研に採用された後どうなるかという話もそれなりに興味があると思いますので書いておきます.
(いろいろあると思うのでより細かい点は直接聞いてもらえればお答えできると思います)

研究については部門によっても違いますが,私のところではほとんど何の制約もなく自分の意志に従って研究を進められます. 「産業」というのをそれほど意識する必要はありません(もちろん上からはいろいろな声が降ってきますがそれほど気にする必要はない). 教育の義務がない分大学より雑用が少ないとも言えます. 学生さんはその気になれば大学から実習生という形で受け入れられます.

給与については,多少の違いはあれ,国立大学や国家公務員と同じ(私学より少し安い?)レベルです.
給与規定は公開されている http://unit.aist.go.jp/comphq/comp-legal/ci/legal/kitei/pdf/kyuyo-s.pdf のでこれを見ればわかるはずですが,この規定から自分の給料がいくらになるか,今後いくらになるかを推計することは困難です.

評価は短期評価(毎年の実績を上司が評価して,結果はボーナスの一部に反映される)と長期評価(適当な年数が経過すると,上の級に上がる昇格の審査)があります.

研究所は大学の教授や准教授ように役職名というのが明確にあるわけではないので,わかりにくいですが,准教授が教授に上がったりするのが昇格です.


以下,機械学習系の研究者の場合の追加情報です.

考えられる部門・センター(原則的に部門はより基礎的で,センターは時限でプロジェクト的です):
・ヒューマンライフテクノロジー研究部門 http://unit.aist.go.jp/htri/ (私やしましまさんなどがいる部門・ライフサイエンス分野・前にいた脳神経情報研究部門はお取りつぶしになりました^^)
・知能システム研究部門 http://unit.aist.go.jp/is/ci/index_j.html (麻生英樹さんなどがいる部門・情報通信エレクトロニクス分野)
・情報技術研究部門 http://itri.aist-go.jp/ (音声の後藤さんや吉井さんがいる部門・情報通信エレクトロニクス分野)
・生命情報工学研究センター http://www.cbrc.jp (津田宏治さんがいるセンター・ライフサイエンス分野)
・サービス工学研究センター http://unit.aist.go.jp/cfsr/index.htm(本村さんが副部門長で新人の櫻井さんもこちら・情報通信エレクトロニクス分野)
・デジタルヒューマン工学研究センター http://www.dh.aist.go.jp/jp/(情報通信エレクトロニクス分野)
# ただし,よく組織改編が行われますので注意してください.

勤務地:上記部門やセンターの場合つくばかお台場です.どちらかによって住環境もかなり違いますが,つくばなら公務員宿舎に入れます.

というわけで優秀な若い方がどしどし産総研にアプライされることを期待しています!
(疑問点はわたしまでご連絡ください)



その他参考
なお,事務職員・計測標準研究職員についての情報はこちらです:りくなび: http://job.rikunabi.com/2012/company/top/r262410020/

科研費について

科研費について書こうと思っていたのだが,ここのところいろいろ発表準備とかで忙しかったので今頃になってしまった. 多くの組織ではすでに組織内締め切りが終わっていると思うので今年についてはあまり役に立たないかもしれないが来年以降の参考になるかもしれないと思いメモ.

科研費は大学や独法研究機関の研究者にとって研究費の大きな糧である. 昨今国からの交付金が毎年何%かずつ減っている状況では科研費なしに研究するのは難しい.

私は昨年度から2年間,「スタート支援」という枠の審査委員を務めさせていただいた.審査委員には厳しい守秘義務があり,公表されるまでは自分が審査委員であることも守秘義務の一つである.
現在は JSPS のホームページにも名簿が出ているのでこうやって書くことができるわけだが,当然ながら審査の詳細については守秘義務の範囲内でしか書けないのであらかじめご承知いただきたい.

JSPSの科研費審査に関するページ

なお,スタート支援は今締め切りを迎えている基盤などとは時期も性質も若干違うのでそのあたりもご注意を.


さて,大まかな審査の流れは上記のページに書いてあるように,一次審査(書面)と二次審査(合議)からなる.
スタート支援では同じ審査委員が務めるが,基盤などではそれぞれ別の委員が務める点が異なっている.

まず,書面審査だがこれが大変である. JSPS から大きな冊子が何冊も送られてくる. 分野や年によっても違うが一人がおよそ100件の審査書類を2週間程度の期間で審査する.
何をどう審査するかは上記のページの規定や手引きの pdf が参考になるが,各申請書類ごとに学術的意義とかいろいろな観点から点数付けし,最後に全体評点とコメントを付ける.
これが大変な作業で,かなり幅広い分野に及ぶので,自分のよく知らない分野の申請書類については web や本などでその分野の動向を調べる必要があるし,コメントも長所短所を詳しく書くように JSPS に指示されている.
さらに,総合得点については全体の評点がガウス分布状に均等に分布しないとシステムが受け付けてくれないという厳しさである.

というわけで,1件の審査にかなりの労力を要するので,2年目は NIPS のレビューも断るなど万全の体制で望んだのだが,そのうち1週間は海外出張で潰れるということになってしまい今年も大変だった.
これの合否が研究者の研究活動に大きな影響を与えるかと思うとそうそうおろそかな評価はできない.

さて,合議審査は書面審査の結果に基づいて1日缶詰になって審査委員のグループで協議を行う.応募数の割に採用できる数が極めて少ないので,特にボーダーライン付近の多数の申請書の中でどれを採用するかは分野が幅広いこともあり相当難しい. 最後の2-3件を決めるときはかなり長い時間をかけて熱い議論が戦わされる.

どんな申請が通りやすいかについて web で検索するといろいろ出てくるが,こればかりは審査委員や分野によってもかなり違うようなので一概には言うのは難しい(もちろん守秘義務があるのであまり書けないというのもあるが).
ただ,一般論として問題のないと思われる範囲でいくつかポイントを挙げておこう(私見もあるので責任は負いかねます.念のため).

・審査の手引きなどを読んで,何がどう審査されるのかを見て,それに沿って書かれているか見直す

・科研費では,高額の申請以外は研究終了後のレビューは(短い成果報告を出すだけで)ほとんどない. だから,申請者が本当にこのテーマでできるのかということを審査委員に納得させる必要がある. エビデンスもないのにあまり大風呂敷でもだめだし,かといってあまりトリビアルな研究でも評価が低くなる.

・申請書はできるだけたくさん埋まっている方がいいという話があるが,単純に引き伸ばしてだらだら長いのは逆効果な気もする.

・かなり細かい点まで審査する必要があるのでナナメ読みすることはあまりない. だから,キーワードを太字や下線などで過度に装飾してあると文章として読みにくいのでやり過ぎは逆効果かもしれない.

・審査はモノクロ印刷された紙ベースで行うのでカラーは使わない.

・予算の使用予定については科研費で支出することが必然であるというロジックが必要である. 科研費は配分してからはある程度自由に使える(ただし昨今はかなり使途がかなり厳しく制限されはじめている)ので,あまり曖昧だと本当にそれに使うのか,その必要があるのか疑念を抱かれかねない. 分野によっては旅費などあまり多額に積んであると嫌われることもあるようだが,情報系をはじめ理論系などでは旅費は主要な研究活動費だから正直に詳しく書いてあれば特に問題ないと思う.

また,科研費の分野ごとの採択数はその分野での応募数と応募額に比例する(これを単純に平均している所がどうかという話はあるが).正確な計算式は規定のp.42にある. これがあるため,いくつかの分野のメーリングリストでは分野全体に応募を促すようなメールが流れることがある. そもそも研究費不足が慢性的に起きているのでそんなことしなくてもみんな応募するとは思うが,一応知っておいたほうがよいだろう.

現状の審査システム自身いろいろ問題を含んでおり,合議審査の最後にもそれについて議論する時間があり,JSPS に要望がいろいろ出ているようなので,少しずつ改善はされていくと思う.
そもそも審査のオーバーヘッドが非常に高いので,研究者として最低限研究していくだけの低額の科研費についてはバラマキでもいいという意見も聞いたが,ある程度そのとおりだと思う(これは論文の査読制度についても同様).

あと,JSPS が提供しているのは MS word の書類だが,ずいぶん操作性が悪いようで,私が twitter でフォローしている TL では LaTeX の科研費マクロが好評なようだ.私も次回応募するときは LaTeX マクロで書こうと思う.

なお,科研費について検索すると科研費の審査委員の統計問題提起しているブログなども見つかりいろいろ考えさせられる.

確率論ムズイ?

今年は節電のために、産総研は建物毎に輪番休暇を設けていて、今週は旧電総研のわれわれの建物がそれにあたっているので、休み中に確率に関するいくつかの読み物を読んだ。 今日はその感想を中心に書いてみる。
(と言いながら本の中身にほとんど触れていなかったので少しだけ追記)

機械学習において確率統計は中心的な役割を果たす学問であるが、「確率統計が難しい」という話はよく聞く。 私とてそんなに確率統計に強いという気はしないが、そこそここの業界にいるので確率とのつきあいも長い。 そこで私の経験から、確率統計の難しさについても触れてみたい。 ただし、始めに書いておくと、一概に難しいと言っても、その人のバックグラウンドによってその要因は千差万別なので、ここに書いてあることはほんの一面に過ぎないことは注意していただきたい。

さて、確率は今は中学2年生くらいで習うようだが、サイコロの目が1/6になるとか、公平なコインの確率が1/2になるとか、その辺でつまずくようには見えない。
サイコロで偶数の目が出る確率なんかはほとんど間違える子はいないと思う。

基本的には足して1になるばらばらの確率値があり、必要に応じてそれを足し合わせて必要なモノゴトの確率を算出する足し算の世界である。

全部地道に数えれば、そんなに複雑なことはない。

条件付き確率が入ってベイズの定理を使った計算になるとかけ算や割り算も入ってきて多少は複雑になるが、計算ルールはシンプルである。

だが試験問題などでは、偶数の目が出る確率なんていう単純な問題は出ることはない。 みんなできてしまうからだ。 そこで、どんどん状況を複雑にしていって、地道に数えるのが難しい問題が出てくる。 これが確率を難しいと思わせる第一の要因ではないだろうか。

これは確率が難しいと言うよりも、数え上げのやり方が難しいだけであろう。
確率が、順列や組み合わせという内容としばしばセットになっているのも曲者だ。

確率変数が連続の場合も、足し算が積分になるぐらいで、概念的にはそれほど難しくはないと思うが、積分計算も凝った問題がいくらでも作れるので計算は大変である。
これも確率自体のもつ難しさとは言えないだろう。

まあ普段そんなことを思っているのだが、
数学セミナー に4月からパズルデザイナーの岩沢宏和という人の連載「確率パズルの迷宮」を読んだ。

そこにはもうちょっと違う見方も書いてあった。

確率の値というのが、往々にして直観に反する、というのだ。
それゆえパラドックスと呼ばれるものも多い。
これは確かに難しいと思わせる要因の一つかも知れない。
しかし、人間の確率に関する直観なんて「錯視」みたいなもので、あまり当てにしないという態度は必要だろう。

さて、似たような内容で、やはり最近まで読んでいた本にちょっと手ごわい確率パズルというのがある。

数セミにしろこの確率パズルの本にしろ、目の覚めるようなトリックや不等式の証明を見ると、とてもこんなの自分でできそうもないという気がするが、それはやはり数え上げや積分が難しいのだと思う。

確率パズルの本の訳者あとがきに、「さいころ2個の単純な問題でも、問題によって目の出方の順番をかんがえなければならないのか、それは考えなくていいのか、判断がつきかねてよく悩みました。解説を見れば、それはそれで理解できます。でも、自分で考えているとき、これでいいはずだという確信がなかなか得られないというのが、訳者の確率という分野とのつきあいの現実でした。」とあり、まさに私も同じ気持ちである。
(なお、擁護のために付け加えると、この本は数え上げだけでなく、確率に関するいろいろな概念が合間に適宜解説されており、単なるパズルのためのパズル本ではなくなかなかよい本である。 最近入手したにもかかわらず1刷だったので、あまり売れてないかも知れないが、もっと売れても良いと思う。

追記: あと、この本のスタンスは、目の覚めるような方法も紹介するが、とにかく難しければ計算機シミュレーションしちゃえばいいじゃん、というものである。 これは開き直りのようでもあるが、現代的でもある。 ほとんどの微分方程式は解析的には解けないので数値的に解くというアプローチに似ている。 MCMC などはそのシミュレーション自身を工夫する話なので、またそれはそれで奥は深いのだが。)

こういう数え上げや不等式のトリックは情報理論やVC次元の理論なんかでは大活躍するものなので、理論研究者としてやっていくにはできれば身につけたいものではある。(自分ももっと勉強しなくてはと改めて思った)

ほかにも確率が難しいと感じるいくつかのポイントを挙げてみる。

よくあるのは、MCMCの説明などをしているときに分布収束なんかはわかりにくいポイントかもしれない。 サイコロの目のような「見た目」と、背後にある「確率分布」がなんとなく頭の中で混乱してしまうのである。

後はやはり、「確率論」と呼ばれる領域まで来るとやはり敷居が高くなってくるのは確かである。 集合論や測度論といった数学の基礎的な領域がガッツリと絡んでくるからである。 ただ、それも人によるようで、萩原さん@三重大など「測度論を勉強するまで確率がよくわからなかった」と言うほどの猛者もいる。

さらに、鈴木譲先生@阪大のブログにこんなエントリーがある。 非数学系の確率初心者にはびびる内容だろう。

蛇足になるが、今日image ML に流れた金谷先生@岡山大の投稿がまさに「確率統計を学ぶにあたって」というタイトルであった(ML以外にも twitter などに流布しているようなのでリンクは張らせていただいた。)

金谷先生によれば「確率現象は存在しない」という立場でスタートされている。

このこと自身について、私はあまり確率の難しさの要因とは思ってはいなかった。 現実世界に数学的な意味での点や直線は存在しない、という意味では数学というのはみなそういうものだからである。
そもそも現実世界の数学モデル化というのはなかなか難しいものであるが、それはモデル化一般にもつ難しさであって、確率に限った話ではない。

ただ、世の中が決定論的だと思うという性向をもつ人というのはかなり多いようである。
その辺りは認知科学なんかで議論されているようで、数セミの記事にも詳しいが、有名なモンティホール問題や三囚人問題については一時期かなり議論があったようである。

以前テレビでどこかのタレントが「確率天気予報なんてわけがわからない。雨は降るか降らないかのどちらかなんだから、30%雨が降るとかありえない」と言っていた。
その人も天気が確率モデルで扱われるというのは納得がいかないのかもしれない(あるいは確率変数と分布を混乱しているだけかも知れない)。

ただし、確率の意味とかの哲学的考察とか、ベイズと非ベイズとか、私にとってはなんか痴話喧嘩見てるみたいで、あまり確率の理解に役立ったという気はしないのだが、そんなことだから理解が浅いんだというお叱りを受けるかも知れない。

なお、確率については、やはりパズルを含めたいろいろな例から確率論を解説した確率論へようこそ (シュプリンガー)はしばらく前に読んだがなかなか面白い。

また、数え上げに確率的方法を使う手法を含め天書の証明が読み応えある本としてお薦めできる。

勉強会に出て思ったこと

大きなイベントや書評だけで更新しているとほとんど更新できないので,ツイッターに書くような雑談ネタをこちらにも書いてみる.

8/4に鹿島さん@東大の企画された icml2011 の読み会 に参加した. スライド等上がっているので内容についてはそちらを参照.

いくつかの研究では,取って付けたような ad hoc な手法を付け加えて無理矢理実験でパフォーマンスを出そうとしている節のある研究がちらほら.

そんなの付け加えなくても十分面白い,というか,付け加えたことによってなんか論文の価値が下がっているような気がしてしまう.

実験ですぐにいい数字が出るような研究は「今」の技術であり,それはそれで有用だと思うが,逆に「未来」が感じられるような研究はすぐにパフォーマンスがでなくて普通だと思う.

だが,国際会議でもジャーナルでも「今」と「未来」を分けたりしていないので,「未来」の研究でも「今」風の対応を迫られてしまう.

機械学習が即効的に世の中の役に立つようになってから,その傾向が増したような気がする. パフォーマンスを出すためにはどうしても泥臭い技術をいろいろ組み合わせる必要がある. システム的な研究ではもろにそれをやるわけだが,みんながそれをやる必要もないだろう.

だいたい論文を読むときにも,そのコアとなる部分に面白さがあるわけで,余計なことをいろいろ付け加えて無駄に長くなった論文を読むのも無駄な労力だ.


というようなことを思ったのだが,それとは別に,「手法・数理」に愛があるか,「目的」に愛があるか,という二つの立場はやはりパフォーマンスに対して違った価値観を持っているような気がする.

例えば,機械学習の応用が著しい画像・音声・自然言語・バイオインフォなどの分野の研究者の人は,やはりその応用分野におけるパフォーマンスが出ることが一義的である.

それらの分野の人も理論的なものの重要性を認識している人は少なからずいるが,それはあくまでパフォーマンスを長期的に上げていくには理論的にしっかりしたものでないとだめだという認識からであり,手法の持つ数理が気持ちいいと思っているわけではないだろう.

一方,数理っぽい人は,この二つにこんな関係があったんだ,とか,式を計算していったらこんな美しい式が出てきた,とかを知ることに喜びを感じるのであって,それがどんな応用に使われるかについてさして関心はない.

もちろんこれらは両極端な例であって,実際は車の両輪の関係だからどちらが欠けてもだめだと思うが,機械学習が応用分野を広げるに従って少々数理っぽい人の居場所が狭くなってきたような気がする.
(というわけでまあ愚痴ってるだけって気もしてきた)



論文が長い,という話を上の方に書いたが,論文をもっと短くコンパクトに,できれば一つだけのネタで書いてもらいたいというのが読む方からの願望でもある. 

学位の要件として学術誌や国際会議論文をオーソリティとして使うという慣習が横行しているせいか,学位論文そのままのような長大な論文なんかも多い. 

また,似たようなネタで複数に分けていることもよくあり,それ自身は悪くないと思うが,違う論文であることをことさら強調するためにやたらといいわけがいろいろ入ったり,また同じようなイントロを何度も読む羽目になったりする.

本来レターというのはそういう目的に使われるはずであるが,例えば Neural Computation の letter は実質フルペーパーであり誰も規定のページ数なんか守ってない. 物理や数学なんかでは歴史が長いだけあってそのあたりわりとちゃんとしているような気がするが,情報系もそんな感じにならないのだろうか.

次のページ

FC2Ad

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。