朱鷺の杜(IBIS)ブログ

情報論的学習理論(IBIS)に関する管理人の独断と偏見に満ちた意見

研究者の日常

とある方から,一般の人にとって研究者は謎に包まれていて
一体何をしているのかという話を聞いたので,ちょっと書いてみようと思います.
詳しく書くと1冊本が書けそうなので,とりあえず今日のところはさわりだけ.
こちらのブログの読者の方は立派な研究者だと思うので,もう一つの方に書いたほうがよかったかな...
まあ今日は完全に一般の方向けという視点で.

研究者といっても,大きく分けると
1.企業の研究所の研究者
2.大学の研究者
3.国立研究所の研究者
とあって,私は3番目に該当するのでそれを中心に書きます.

大学も一応兼任したりして多少は知っていますが,我々との大きな違いは
学生さんがいて教育やその関係の仕事もしなければならないということでしょうか.

企業には勤めたことがないのでわかりませんが,これは千差万別で
大学や国立研究所の研究者に近いところから,ほとんど製品の開発しているようなところまで
さまざまあるという話です.

研究者の仕事は基本的に新しい発見をして論文を書くことです.
基本的にはその目的のためには24時間365日をどのように使ってもよいです(と私は思います).
実際私の研究所の勤務は多くの研究者が「裁量労働制」で働いており,一日の中でいつどれだけ職場に行くかはほぼ完全に自分の裁量で決められます.

ただし,実際には二つの理由で本当に完全な自分勝手はできません.

一つは法的な制約です.たぶん研究者を想定せずに決められた労働基準法の枠組みに縛られるので深夜10時以降の労働は制限されていますし,出張や休暇でなければ一日のうち一瞬は職場に顔を出す必要があります. 一応退勤管理もしっかりあって来た時間と帰る時間には web 上でクリックして証拠を残さなければなりません.(法人化される前はもっとずっといい加減で天国でした)

もちろん世の中にはブラック研究室っぽいところもあるようなのでそういうのに対する歯止めの役目はあると思います.(大学ではかなりヤバイところもあるようです)

もう一つは,研究上の理由です.
研究を完全に個人でやっていればまあ上のようにほぼ完全に自由ですが,場合によってはチームを組んで研究に取り組むこともありますし,その場合にはミーティングしたり,動物を扱う実験では時間的な制約も受けます.実験系でお子さんのいる研究者の方は我々ほど自由が効かないので大変という話も聞きます.まあ世の中で騒がれている育児の問題はここではかなりマシな状況だと思います.
このほか,役付きの職員は細々とした会議や,研究所運営の雑用がいろいろあります.ただ,これは学生さんがいる大学の方が圧倒的に大変そうです.

さて,研究者の具体的な日常はどのような感じでしょうか.
私の回りの典型的な研究者の場合は,お昼前までには研究所に行ってお昼を食べ,いろいろと仕事をして,おなかがすいたら途中おやつを食べ,夕方は晩御飯前の時間に適当に帰るという感じ
...ってこれでは小学生の日記みたいですが,こんな感じの勤務だと研究者じゃないご近所さんにはまともな仕事についてないんじゃないかと疑われるという笑い話もあります.実際には家でもどこでも区別なく仕事をする感じなので公私の区別をつけるのがなかなか難しいです.

具体的な仕事内容は,論文を書くのが仕事だと書きましたが,実際には書くアウトプットよりもはるかにたくさんの論文を読んだりしてインプットをたくさん入れる必要があります.新しいことを見つけるためには,過去の研究をできるだけたくさん知っている必要があります.

有名な言葉として
「巨人の肩に乗る(過去の偉大な研究の上に立てばわずかな新規性でも世界一の新しい研究ができる)」
「車輪の再発明をしない(ちゃんと過去の研究を調べて無駄に同じことを発明するのを防ぐ)」
というのがあります.そのためにたくさんの論文を読んだり,勉強会やセミナーを開いて研究を他の人に聞いてもらったりということも日常的に行われます.外に出かけて行って学会等に出かけるのも勉強になります.これらは完全に自発的なもので,最終的に自分が最大限の研究成果を出すために自分自身で判断します.

普通の研究者が雑用的にやる仕事としては,予算申請と学会関係の仕事があります.
研究をするのに,自分の研究所からもらう研究費だけでは足りない場合も多いので,科研費やいろいろな補助金などに申請する書類を書きますが,これは結構大変です.多くのポスドクを雇ったり,大型装置の維持費がかかるような研究者だと本当に大変ですが,私のような研究者はできるだけ予算申請は最小限にして研究に集中できるようにしています.

もう一つの学会関係の仕事は,論文査読と学会開催の委員が主な仕事です.これらはほぼ完全にボランティアですが,特に大きな資金源を持たない学会はこうしたボランティアに支えられて成り立っています.

というわけで十分長くなってしまったので今日はこの辺にしておきますが,研究者も人の子.スランプに陥ったり,精神的に辛くなることも往々にしてあります.そんなときは気分転換も必要で,まあこれは人によっていろいろだと思いますが,いろいろな仕方で息抜きもしながら研究者の日常を乗り切っています.まあその辺の話の方が面白いと思うのですが,それはいずれ稿を改めて.

スポンサーサイト

集中講義

お久しぶりです.

大阪大学で1週間の集中講義をしました.
そのときにブログを読んでくれている人がいるのがわかって涙出るほどうれし過ぎたので集中講義について書いてみます.
(もろもろ仕事が遅れていてご迷惑をおかけしている方には申し訳ありません.がんばります)

今までも集中講義をやらせていただいたことはあるのですが15コマフルスペックのは今回が初めてでした.

大学の先生と違い,手持ちのストックが少ないので準備が大変だったのと,1週間にこんなに話をすることもないので,体力的には大変でした.
ただ担当していただいた狩野先生や事務・研究室の方々に気を遣っていただき,非常に温かく迎えてくださったので,授業をしている以外は天国にいるような感じでした.

直前に知り合いの鈴木譲先生にツイッターで思いっきりハードルを上げられた感もあり


歴代の前任者が駒木先生@東大,福水先生@統数研,金森先生@東工大,鈴木大慈先生@東大と,統計機械学習業界では泣く子も黙るそうそうたるメンツで(駒木さん福水さんは後で知ったのですが),その後任としてはプレッシャーも半端ありませんでした.(逆にこんなラインアップの上に大御所の狩野先生にご指名いただいたので断るにも断れませんでした)

譲先生のツイートのおかげか,初日は教室に入りきらないぐらいの受講生の方がおられてびっくりしましたが,二日目以降は順当に減少.内容は機械学習の基本的なところ,特に基本的な数学のでてくるところが中心で,それだけだと飽きると思って R を使った簡単な実演なども入れました.

実際はやや中途半端で,もう理論バリバリの研究室の方には物足りなかったでしょうし,ツイッターで少し見かけたのは「R を使ったデータ解析実演に期待していたけど理論ばっかりでツライ」みたいな投稿でした.

集中講義という性格上,受講生の方がどういうカリキュラムでこれまで来られたかがわからないので,レベル感の設定が非常に難しかったです.あと,ふだん早稲田大学とかで授業をするときはスライドとかは使わず板書でやるのに慣れているので,どうもスライド中心の講義は慣れなくて,スライドに書いてあるのに結局同じことをホワイトボードに書きながら説明したりとか,その辺りは練習しないといけないなと思いました.

よく知られていることだと思いますが,そもそも大学の先生は,小中高と違って特に教え方とかを学ぶことなく教えることになります.
それは昔は,大学というところは先生から教えられる受け身ではなく,基本的には学生が主体的に勉強する場だからという考え方だと思います.
ところが昨今はそうもいかないようで,休講もたくさんは取れないようですし,大学院の授業を全部英語にしているところもあるようです.(笑い話としては留学生から日本語に戻してくれという要望があるとの話も聞きましたが...)

職業訓練みたいな授業も結構増えているようですが,何のための大学なの?って話です.

ともかく一週間講義しまくって,そのうち用意したネタも使い果たしたので,手元にあるスライド適当に使って時間を埋めるというぐだぐださで,まさに刀折れ矢尽きた弁慶の立往生のような終わり方で学生の皆さんも迷惑なことだったと思いますが,最後まで聞いていただいてありがたいことでした.

おまけに最初のころまだ元気だったので講義終わってから近くの伊丹空港に飛行機撮りに行って撮った写真です.

今週一週間は阪大で集中講義。 今日は講義終えてから、飛行機撮影の有名スポットの千里川土手に。 すごい大砲構えてる大勢の人たちの中でポケットコンデジで撮影

toddler2009さん(@toddler2009)がシェアした投稿 -






近況報告(サイエンスzero・献本いただいた本など)

毎月一日にはたいてい丸亀製麺で釜揚げうどん半額を食べるので1か月の刻みはだいたい把握しているのですが,今年ももうあと2か月になってしまいました. 人工知能やら機械学習やら世の中動きが激しくて結構忙しいものの,あまり研究している気がしないので少し腰を落ち着けて研究に集中したいものです.

さて,いくつか近況報告や献本いただいた本の紹介(献本いただいた方々ありがとうございました):

まず1件目.
8月に科研費スパースモデリングがNHKサイエンスZEROに取り上げられました.
数学関係はテレビにするのが難しいのか,ガリレオっぽい演出があったり,一般視聴者向けの説明に苦労している感じでした.
私を含め計画班・公募班の一覧が一瞬映りましたが,多すぎて探すのが大変でしたね.
なお,ネットでの感想まとめはtogetterまとめnaverまとめにあります.

2件目.
予告ですが,産総研お台場で行われる人工知能セミナーで話します(11/24開催).
詳細はこちら. 申込制ですのでご興味のある方は是非.私の情報幾何の話は入門向けで知っている人には退屈かもしれないですが,園田さんの話は deep learning の理論としても非常に興味深いです.
なお,その次の日から IBIS2015 がつくば国際会議場(エポカル)で行われますのでそちらも合わせてどうぞ.

あとは献本いただいた本など.
情報幾何学の基礎 (数理情報科学シリーズ)
量子情報理論の研究で著名な藤原さんの書かれた情報幾何の本.甘利研時代は重なりはないのですが,大阪大学に兼任していた時期にお世話になりました.多様体のちゃんとした話から最後は量子情報幾何の話まで,数学的にちゃんとしていながら難しくなく学部レベルの大学生でも十分に理解できる内容になっていると思います.

岩波データサイエンス Vol.1
伊庭さんが何やら活動されているのは twitter など通じてうすうす知っていたのですが,献本いただいて少しその実態がわかりました.本のような雑誌のようなわりと軽く読める本です.円城塔氏の連載小説も載っていたりして雑誌といっても学術雑誌とはかなり趣は違います.そもそも月刊なのか季刊なのかもよくわからなかったのですが,サポートサイトの Q and A を見てやっと理解しました.
こんなところで宣伝するまでもなくバカ売れしているみたいで,発刊記念イベントなども行われたようです.
この業界盛り上がっていますね.次は自然言語処理関係だそうです.

深層学習: Deep Learning
3冊目は deep learning の本で,人工知能学会誌に連載されていたものを大幅修正加筆して出てきたものです.発売日は11月5日ですが,しましまさんから著者分を分けていただきました.ありがとうございます.しましまさんの気合の入りようからして,deep learning の定番書となることは間違いないでしょう.



最初にも書きましたが,個人的にはあまり忙しくなっても逆に頭が働かなくなるので,ちょっと引いたところで落ち着いて地道な問題を解くような研究をしていきたいと思っています.

新年度

毎度のことですが,久々の更新です.すみません.

うちのグループでは久々の新人,兼村さんを迎えました.
それ以外にも,科研費新学術研究スパースモデリングのポスドクとして昨年末から来られている荒木さん,サバティカルで短期滞在中の福永さん,と若い人たちが増え,フレッシュな新年度となっています.
私も若い人たちから刺激を受けてまだまだ頑張っていきたいと思います.

さて,電子情報通信学会誌の今月の特集が「データを読み解く技術──ビッグデータ,e-サイエンス,潜在的ダイナミクス──」ということで,麻生さんが編集担当でそうそうたるメンバーが執筆しており一読の価値ありです.

あと,以前献本いただいた,弁当屋の統計技師の続編となるとある弁当屋の統計技師2も献本いただきました(もうかなり前になりますが).ありがとうございます.

今回は因子分析や分散分析というなかなか高度な話をラノベ風ストーリーにすることに挑戦しています.
ラノベで統計入門したい人ってそんなにいるのかなあとか思っていたのですが,Amazon のレビューがたくさんついているのを見て,私が知らないだけで結構需要が大きいということを知りました.

書こうと思っていて書き忘れたので追記:

フレッシュな人を増やす運動の一つです.
昨年度から東工大の知能システム専攻で連携教員をやっているのですが,当研究室での研究に興味のある方はお気軽にあかほまでご連絡ください.
すずかけ台とつくばが遠いので,ちょっと変則的な感じにはなってしまいますが,すずかけ台の方は渡辺澄夫先生のところに間借りする形になっており,できるだけ不便がないようにいろいろ工夫はしたいと思っています.

新年のご挨拶+応用数理ハンドブック+IBIS2013+ICDM2013

新年あけましておめでとうございます。
今年もよろしくお願いします。

だいぶ日数が空いてしまいましたが、秋から12月までいろいろと立て込んでいてブログを更新する余裕がありませんでした。
年も明けて少し気分も入れかわったところで、去年の話をいくつかまとめて報告。



まずは本の宣伝。

11月に応用数理ハンドブックという本が朝倉書店から出ました。
一項目2~4ページで解説する事典のような本です。
機械学習については東工大の杉山さんがとりまとめをされていて、私は「パターン認識」ということで2ページ書かせていただきました。
(最初4ページもOKだと思って4ページ書いたら出版社の人にダメって言われて泣く泣く2ページに縮めましたw)

朝倉書店のHPにある宣伝をコピペ

数値解析,行列・固有値問題の解法,計算の品質,微分方程式の数値解法,数式処理,最適化,ウェーブレット,カオス,複雑ネットワーク,神経回路と数理脳科学,可積分系,折紙工学,数理医学,数理政治学,数理設計,情報セキュリティ,数理ファイナンス,離散システム,弾性体力学の数理,破壊力学の数理,機械学習,流体力学,自動車産業と応用数理,計算幾何学,数論アルゴリズム,数理生物学,逆問題,などの30分野から260の重要な用語について2~4頁で解説したもの。


学習関連では神経回路と数理脳科学でも関連する話が書かれています。
大きい本なので値段もそれなりですが、応用から数理までわりとユニークなまとめ方をしていると思うので、関連する分野に興味のある方にはお勧めです。
研究とは関係ないのですが個人的には折紙工学がツボでした。

ネットには詳細な目次は出ていなくて、私が買った現物も職場にあるので明日にでも追記欄に関連する目次を載せておきます。(追記しました)



さて、次は11月に開催された IBIS2013について。
会議の詳細は神嶌さんが朱鷺の杜wikiにまとめているのでそちら(http://ibisforest.org/index.php?しましま/IBIS2013)を参照してください。
ここではあまり中身と関係なく独断的な感想のみ書きます。

まず去年に引き続き今年も東京に3日間通ってそれだけでかなり疲れました。
東工大(大岡山)だったのでまだ救われましたが、ふだん長時間通勤しなれていない身には結構つらかったです。
個人的にはその後も理研に3日通ったり、東工大すずかけ台に2週連続で朝一の電車で出かけたりなどが続き、それだけで年末のパワーを吸い取られてしまいました。
来年は地方開催のようなので少し楽になるかな?

全体的にはオーガナイズドセッションが充実していて、むしろ「ちょっと多過ぎでは?」と感じました(気合入りすぎ?)。
ビッグデータやディープラーニングといった今時の話題を散りばめて人もたくさん集まっていましたが、IBISの主役であるポスターセッションが場所も時間もオーガナイズドセッションに押され気味だったような気がします。
ただ、ポスタープレビューが復活したのはうれしかったです。ポスター会場が狭いのと、人気のあるポスターはなかなか話が聞けないのでとりあえずポスタープレビューで概要を聞いておくだけでも有用でした。

ビッグデータのパネルは「大御所そろえました!」って感じでしたが、もっと若い人たちに過激なことをしゃべってもらうというのもよかったのではないかと思いました。

あと、私は出ませんでしたがお金を取ってチュートリアルをやったのも新しい試みで、好評だったようです。一部の講義はマニアック過ぎという話も聞きましたが、まあそれはそれで IBIS らしくていいですね。



最後はアメリカのダラスで行われたICDM2013の報告。ICDMはデータマイニングの主要会議の一つで、私ははじめて参加したのですが、神嶌さんと連名でワークショップに出していたので勉強方々行ってきました。

ダラスはテキサス州ということでなんとなく漠然と温暖なところに行くイメージでしたがこれがとんでもないことに。
確かに会議の数日前までは最高気温26度前後という暑そうな気温でしたが、会議が始まるころにスノーストームが吹き荒れ、飛行機の便が乱れまくりました。 
私はサンフランシスコ経由で行ったのですが、幸いにも飛行機は少しの遅れで到着。
ところが、ダラスに着いてみると、町中が雪景色で、しかも氷点下で道路が凍結しまくり。
暖かい地方なので車もスタッドレスとか全くはいていないようで、タクシーもほとんど走っていない状態(鉄道なども全面アウト)。
かろうじて空港で知り合った ICDM 参加者の人と数少ないタクシーに乗り込んで行くも、立ち往生している車が続出で大渋滞。
通常30分程度で行くところが2時間半もかかってやっとホテルに到着しました。
後で聞いたところによると東大の山西先生など5時間以上かかったということもあったようです。

それで私の共著者の神嶌さんですが、ミネアポリス経由で来る予定が、ミネアポリスからの便は早々に欠航が決定。
ワークショップでの発表を翌日に控えていたので間に合うのかなあと思っていたら、なんと翌日も欠航に…
というわけで急きょ私が代理発表することに。
神嶌さんから資料をメールしてもらい、自分でも簡単な資料を作ってなんとか発表しました。
しかし、そもそもワークショップに間に合わない人たちが続出して、開始時間をずらしたりして、それでも invited talk がキャンセルになるなど大混乱でした。

一部始終のツイートを神嶌さんがまとめたのがこちら(http://togetter.com/li/600120)です。
なかなか臨場感あります。

町中は雪と氷で閉ざされていましたが、なんとか本会議には参加者もほぼ集まって、盛況な会議となりました。
ICDM本会議はアクセプト率が全体で2割程度とかなり厳しく、どの発表もレベルの高さを感じさせるものでした。
キーノートが「推薦システム」「ヘルスケアのプライバシー」「ネット広告」という、神嶌さんとかといっしょにやっている話に関連の深い話が多かったので面白かったです。



以下続きの追加部分に応用数理ハンドブック機械学習関連項目を追記しました. 【“新年のご挨拶+応用数理ハンドブック+IBIS2013+ICDM2013”の続きを読む】

地方大学の東京オフィス

科研費申請のシーズンです.
もう大学によっては締め切りを終えてるところも多いと思いますが,まだの方は以前書いたエントリーがもし参考になれば幸いです.
山中伸弥氏のノーベル賞授与が基礎研究に追い風に働くといいのですが,田中大臣の発言とか微妙に外しているところが気になるところです.

あと,国家公務員が東日本大震災関連で給与1割カットになったのを受けて,産総研や国立大学も軒並み給与一割カットされて暮らし向きは厳しくなりました(カット率や開始時期は大学によって異なりますが). ただでさえ安い給料がカットされて大変ですが,なんとか上向きになってくれることを祈っています.

ですが,今日のメインの話題はそういう話ではありません.

ここ最近,地方の大学の東京オフィスでミーティングという機会が何回かありました.
どんな大学が東京オフィスを持っているんだろうと興味を持ったのでまとめてみたいと思います.

京都大学 東京サテライト
品川にあるインターシティにあります. 空港や新幹線からアクセスがいいのが品川にある理由でしょうか.
卒業生など関係者が利用できるようです. わりと大き目の会議室がありました.

北陸先端大 東京サテライト
これも品川インターシティ. こちらもわりと大き目の会議室があります.

はこだて未来大 東京サテライト
秋葉原ダイビルにあります. ここはあまり広くはないです.

以上の3つが私が実際行ったことあるものです.
以下グーグルや伝聞で存在を知ったもの.

サピアタワー 大学フロア
東京駅にある東京オフィスの集合体
関西学院大学・甲南大学・事業創造大学院大学・新潟医療福祉大学・東北大学・北海道大学・関西大学・流通科学大学・産業能率大学・埼玉大学・東京大学・立命館
まあ東大とかは地方大学じゃないですけど.
キャンパスイノベーションセンター
田町にあるいろんな大学の東京オフィスの集合体
<国立大学>秋田大学・愛媛大学・大阪大学・鹿児島大学・熊本大学・静岡大学・上越教育大学・千葉大学・鳥取大学・新潟大学・広島大学・山形大学・山口大学・山梨大学・和歌山大学
<公立大学>高知工科大学
<大学院大学>奈良先端科学技術大学院大学
<私立大学>岡山理科大学・吉備国際大学・九州保健福祉大学・倉敷芸術科学大学・久留米大学・千葉科学大学・常磐大学
コラボ産学官プラザ
江戸川区船堀にある東京オフィス集合体
トップページにリストはありませんが,信州大学・富山大学・弘前大学・大分大学・長岡技術科学大学・福岡工業大学・長崎大学などの東京オフィスがあるようです.
九州大学 東京オフィス
有楽町
同志社大学 東京オフィス
東京駅
龍谷大学 東京オフィス
東京駅
松山大学 東京オフィス
新橋駅
近畿大学 東京事務所
四ツ谷駅
金沢大学 東京事務所
日本橋付近
神戸大学 東京オフィス
帝国劇場ビルというのがマニアック
愛知大学 東京事務所
霞ヶ関

ほかにもあるかも知れませんが,力尽きたので今日はこの辺で.

やはり東京に拠点があると何かと便利なんでしょうね.
こちら側からしても,わざわざ地方の大学に出かけなくても済むのは便利です.
ただ,地方に出かけておいしいものとか食べるのも楽しみなので一長一短といったところでしょうか.

Machine Learning that Matters (ICML2012) 読んで考えたこと

糞ネット弁慶ブログに表題の ICML2012 論文 "Machine Learning that Matters" が紹介されていて,「機械学習やってる人は皆読むべきだと思う.」と書いてあったので読んでみました. 英語はしんどいのでブログ内の日本語訳をベースにします.

全体としていろいろまっとうなことが書いてあるのですが,個人的には「こんな方向ばっかり進まれると辛いなー」というのが正直な感想なのでその路線で意見を述べてみます. まあ私が機械学習研究者を代表しているとも到底思えませんので,一個人のたわごとだと思って読んでいただければ幸いです.



さて,この論文の基本的な主張は,「機械学習と実世界の間には乖離があるからそれを埋めるような研究の進め方をするべきべきべき!」ということです. うちの職場でも,「基礎研究と応用の間の死の谷を乗り越えるために本格研究(←たぶん造語)しましょう」というキャッチフレーズでいろいろな政策が進められています.

入口から出口まで全部面倒を見ようという意味で研究のグローバリゼーションととらえることもできるし,視点としてはかなりマクロな感じになり,研究テーマはニーズ志向で,マネージメントはトップダウン的に行う必要があります.

でも,実際の研究はローカルで行われており,個性豊かな研究者が多様なベクトルを持って自発的に活動しているわけですから,ちゃんとミクロなところを見て,ボトムアップなシーズも大事にしないとうまくいかないと思います.

ちょっと抽象的になってきたので論文の論点に戻りましょう.

> 機械学習のための機械学習(要約: マッシュルームやアヤメの分類器を死ぬほど作って何の役に立ったの?)

機械学習には No free lunch theorem というのもあって,確かにベンチマークの問題は難しいです.
でも,機械学習のすばらしいアルゴリズムは,コミュニティの人たちのたくさんのひらめきと試行錯誤の数限りない反復の中から生まれてくるもので,それをいちいち実問題でやっていては,労力がいくらあっても足りない.というか,その労力をアイディアの創出に注いでほしいと思います.

逆に個人的には人工データで十分だと思っていますが,本論文の著者も認めているようなメリットもあるわけですから,「UCIレポジトリ限定チューニングアルゴリズム」とかでなければ(そんなのそもそもアクセプトされない),機械学習的価値観で書かれた論文で一向に構わないのではないかと思います.

>フォロースルーの欠如

本論文では「インパクト」という言葉を狭くとらえ過ぎているように思います.
実世界へのインパクトというと即効性のある近視眼的なものになりやすいし,今現在ではなんに使えるかわからないけどすごい!みたいなインパクトだって長期的には重要だと思います.

本論文では実世界的なインパクトがなければ
>意味が無い.
>研究と実世界とを紐付けるのはコミュニティが成熟する過程の一部である.
とまで言っていますが,それはそのコミュニティの役割によるでしょう.
コミュニティの役割は一つに決まっているものではありません.
逆に,同じ役割を果たすコミュニティは二つもいらないでしょう.

まあ ICML はどちらかというと実用志向と言われていて,NIPS が基礎志向なので
「みんな NIPS に毒されるな.目を覚ませ!」
っていうメッセージなのかもしれません.(NIPS も最近は変わってきてしまっているようですが)

>機械学習の外の世界と関われ

これも研究者による話だと思います.
いろいろ外に広げていくのが向いている人もいれば,中でがっつり頑張る人もいます.
両方の人材がそれぞれ重要だと思います.

あと,どちらかといえば外の世界で本当にインパクトがあれば,ICML なんかに出さずに Nature とかに出すとか,
儲かる話なら起業したりすればいいわけで,実際そうしている人たちもたくさんいるのではないでしょうか.
ICML はむしろ中でがっつり頑張っている人たちを支えてあげる大切な場だと思います.

> Machine Learning Impact Challenges

これはあまりどれも個人的に興味ないので特にコメントなしです.

>課題になってくること

ここに書いてあることは意外に?いい点をついている気がします.

>ジャーゴン

>feature extractionとかbias-variance trade-offとかensemble methodsとかcross validationとか
>low dimensional manifoldとかregularizationとかmutual informationとかkernel methodsとか
>専門用語使いすぎ.研究者だけでなく,統計学者にすら伝わらない.別の言い方を考えろ.

もともと機械学習みたいに統計・数学・物理・生物 etc. の融合領域では,用語の問題は常に問題になります.
同じものに別の名前がついていたり,同じ名前が別の意味につかわれたり日常茶飯事.
ただし,この問題は奥が深く容易ではないと思います.

>リスク

これは非常に重要な問題で,実応用をする場合にはネガティブな面も全部含めて責任を取る覚悟が必要だと思います. だから私は安易に「役に立つ研究」を標榜したくない気持ちです.

最初の方の話に戻りますが,「基礎と応用の間の死の谷」というのは必然的な面もあると思うのです.
基礎のところで十分に練られたものだけが応用にちょっとだけ出ていくというのがリスクの面からも健全で,そこをスルーにしてしまうと,何か事が起きた時に元から全部否定されてしまうということにもなりかねません.





というわけでいろいろ文句をつけましたが,実際,本論文の影響力に比べるとこのブログ記事は無限に小さいたわごとだなあと思うとちょっと無力感を感じたりして...

金環日食の画像処理

今日は落書きモードです.

前にも書いたように最近は私のところにもいろいろデータ解析の依頼が来ます.
それもたいてい,
「とりあえずたくさんデータ取ってみたんだけどなんか出ない?」
というようなのが多いです.

まあ機械学習は懐が深いので?そういういい加減なデータでもそこそこなんとかできるというのが売りだと思うのですが,解析者のスキルもそこそこ必要で,普段からの訓練が欠かせません.

それで金環日食です(無理矢理ですが).

とりあえずフィルタを望遠レンズにつけたカメラで撮影したのと,天体望遠鏡の太陽投影板を手作りして 投影面を撮影しました.

でも高級な自動ガイドの架台とか当然持っていないので,時間間隔も適当,写っている大きさや位置も適当.
データ解析のちょうどいい練習問題と思ってやってみました.
今回は画像処理が多いのですが,共同研究などを通じて鍛えられて?いるのでそこはなんとか.

まず,カメラ撮影の方は,とりあえずこんな画像がいっぱい
IMG_0035_1.jpg

幸い太陽はほとんど真円なので,
・エッジ抽出
・(外側の)円の抽出
・位置と大きさあわせ
という流れでできそうです.

今回用いたのは matlab の image processing + optimization toolbox ですが,R でも python でも OpenCV でも基本的にそれほど変わらないと思います.

問題はエッジ抽出と円の抽出のところでいくつかパラメータがあること.
エッジ抽出には canny filter というのを使ったのでそこにパラメータが一つ.
エッジ情報からの円の抽出は基本的に「いくつかのランダム点であてはめるというのを繰り返して,inlier ができるだけ大きくなるものを選ぶ」というRANSAC と呼ばれる手法を使いました.
さらに,今回は一番外側の円が欲しいので,内側の点の数とかも数えたりしています.
で,それらにもいくつかのパラメータ.

できればこの辺り全自動でいけば理想的ですが,なんといっても「なんちゃってデータ解析」なので,結果を見てパラメータを適当に変えられるようなインタラクティブなスクリプトを書いて半自動で抽出しました.

これを時間順に並べればアニメーションができます. ただし,撮影間隔も適当だったので,理想的には動的計画法かなんかでできるだけ等間隔のものを抜き出すプログラムとか作ってやるということも考えられましたが,ちょっと面倒だったので,適当な間隔に並んでいるのを抜き出して,あとは目の子で微調整.

で,できたアニメーションがこちら↓↓↓↓


(いろんなところに投稿したのでもう見飽きた方はごめんなさい_o_)

あと,撮影時刻と太陽の軌道計算を使って投影すればこんな図もできます↓↓↓
movement2.jpg



まあこれは比較的すぐにできたのですが,太陽投影板の方は苦労しました.
得られている画像はこんな画像
ixy20120521 101


研究でやっていたレンズのキャリブレーションとはちょっと違って,もっと原始的?なキャリブレーションが必要だったので,自分で一から計算して画像の補正法をプログラム. 基本的には楕円が真円に写るように傾き補正すればいいのですが.

・ピンホールカメラだと思って考えると,円をななめから見た像は楕円.というわけでまずは楕円の抽出.
・楕円の抽出はやはり RANSAC で,円の抽出をちょっと改変してOK
  ちなみに RANSAC の最適化規準を一般化したあてはめに関する論文は藤木さんらとの共同研究で何本か出ています.
・これが円に載っているような面をパラメタライズして方程式を立てると2変数の非線形方程式が出ます.
・まあ2変数ともコンパクトサポートなので,適当に解けばいいのですが,今回は matlab の最適化ルーチンに解かせました.
・その面が正面に見えるように透視射影を求め直して,image processing toolbox に渡してやると円に見える?像が得られます.

結果が下の画像
r-ixy20120521 101-r

なお,この問題を解くためにはカメラの焦点距離と画素のスケールが必要です. 焦点距離は35mm 換算とかで画像ファイルに数値が入っているので今回はそれを利用. ただし,35mm 換算って何?っていうほどの素人なのでその辺りググったりして画像のスケーリングなどを計算しました.

もしかするとこんなキャリブレーションはどこかにコードが落ちているかも知れませんが,まあお勉強ということで.



このプログラムは6月4日の部分月蝕と6月6日の金星太陽面通過でも活躍するはずだったのですが,月蝕も雲の向こうにかすかに見えただけだし,金星太陽面通過も完全に曇ってしまいました.
さすがの機械学習も,ないデータはいかんともしがたいです.
(えっとまあ機械学習と言えるほどすごいことはやっていませんけど)

というわけで,今年起きる金星蝕か,それ以降の日蝕・月蝕までお蔵入りです.
それまでに自分の書いたプログラムの使い方を覚えていられるかが非常に怪しいです.

さらに,今請け負っているいくつかのデータ解析に対するスキルが上がったかというと...これも怪しいです^^;

就職先としての産総研

いわゆる就活というのがいつから始まるのかよく知らないのですが,今日は産総研への就職についてのメモ.

産総研になってから,うちのグループも優秀な人材を採りたいとは思っているのですが,なかなか採れないという事態が続いています. これまでも非常に優秀な方がアプライされてきたにも関わらず結局採用できないということを繰り返してきたのでなんとかしたいという思いもあります.

うちがダメになっても,結局ほかに移って活躍されているようですのでそれはそれでいいのですが.


ちなみに公式な採用情報はこちらです: http://www.aist.go.jp/aist_j/humanres/index.html あまり情報はありませんね.

そもそも産総研とは: http://www.aist.go.jp/aist_j/information/index.html

歴史: http://www.aist.go.jp/aist_j/information/history/history.html にあるように経産省工業技術院にあった国立研究機関が独法化に伴って全部一緒になったものです.



再来年の採用についてはまだ始まっていませんが,年明けぐらいにぼちぼち公募が出ると思います.

以下に産総研の採用の流れをおおまかに書きます(守秘義務があるのであまり細かくは書けません).

産総研は大きな組織ですが,その中に部門やセンターというまとまり(ユニット)があります. まず,上から各ユニットの推薦枠というのが割り当てられ,それに従って公募資料を各ユニットが作成し,公募がかけられます.

通常はユニットごとの推薦枠は1~2人くらいのところに,何十人も応募があります.
そこで,各ユニットではその推薦者を決めるための予備選考を行います. 具体的には書類審査や予備面接ですが,細かいやり方はユニットごとに違います.

ユニットから推薦されれば採用となるわけではありません. 各ユニットから推薦された人全員に対して産総研全体の審査があります. ここでの倍率についてははっきりわかりませんが,かなり厳しいという話です.

特にこの最後の産総研全体での審査というのが大変で,異分野の人たちの中から勝ち残る必要があります. それで,新規採用の年齢がどんどん上がってしまい,ポスドクを渡り歩いて実績を重ねた人だけが採用されるという実態になってきました. 産総研もそのあたりは反省して,若い人を重視して採用するような重みをかけるようになり,多少は改善されているようです. 情報系が厳しいのは,インパクトファクタなんかで比べると論文勝負は難しいので,メディアへの露出とか別な意味で突出しているというのが有利に働いているという感じもしないでもないです(あくまで個人的な見解ですが).


なお,このやり方で行う採用のほとんどは「若手型任期付研究職員」という形です. これはいわゆるテニュアトラックということで,実績さえ積めば高い比率でパーマネント職員に移行できます.

それ以外に,「中堅型研究職員」といってグループリーダーなどを雇ったりするスキームや,任期付きでも特定のプロジェクトにひも付けされた「研究テーマ型任期付研究職員」というのもあります.

これらは正規職員ですが,それ以外にもポスドクとして,産総研の研究者が自分の研究費で雇用したり,学振 PD の受け入れ先という形での雇用もあります. これらの雇用については産総研全体での審査というのはなく,基本的に担当する研究者の裁量で審査されます.

産総研にはもう一つあまり知られていない採用方法があります. それは主に修士課程修了見込みの若い人を採用するという仕組みで,産総研が独自に行っている試験を受けて入る物です. 私が産総研の前身の一部である電総研に入ったときは修士を出て国家公務員試験を受けて入ったのですが,それに相当する物です. 実際,今年度から櫻井さん@山西研.東大出身がこの制度で産総研に入られました. 残念ながら私のグループではないところですが.


公募採用の場合,それほど就活対策的なものはなく,エビデンスをたくさん積んで,面接のときのプレゼン能力が高いというのが重要です(まあそれだけで振り分けられてしまうのは問題といえば問題ですが). なお,あらかじめポスドクで産総研にいて研究内容をよく知られているとか,研究者を訪問して自分を売り込むというのはそれなりに意味があるかもしれません. これはコネがどうこうという話ではなく,

・産総研でどのような人材を採りたいと思っているかの把握がしやすい

・自分の研究内容をバイアスなく見てもらえる(プラスのバイアスもマイナスのバイアスもなくなりますが^^)

・産総研が実際どんな研究所かがわかって自分との相性も計れる

というような意味です.



あとは,産総研に採用された後どうなるかという話もそれなりに興味があると思いますので書いておきます.
(いろいろあると思うのでより細かい点は直接聞いてもらえればお答えできると思います)

研究については部門によっても違いますが,私のところではほとんど何の制約もなく自分の意志に従って研究を進められます. 「産業」というのをそれほど意識する必要はありません(もちろん上からはいろいろな声が降ってきますがそれほど気にする必要はない). 教育の義務がない分大学より雑用が少ないとも言えます. 学生さんはその気になれば大学から実習生という形で受け入れられます.

給与については,多少の違いはあれ,国立大学や国家公務員と同じ(私学より少し安い?)レベルです.
給与規定は公開されている http://unit.aist.go.jp/comphq/comp-legal/ci/legal/kitei/pdf/kyuyo-s.pdf のでこれを見ればわかるはずですが,この規定から自分の給料がいくらになるか,今後いくらになるかを推計することは困難です.

評価は短期評価(毎年の実績を上司が評価して,結果はボーナスの一部に反映される)と長期評価(適当な年数が経過すると,上の級に上がる昇格の審査)があります.

研究所は大学の教授や准教授ように役職名というのが明確にあるわけではないので,わかりにくいですが,准教授が教授に上がったりするのが昇格です.


以下,機械学習系の研究者の場合の追加情報です.

考えられる部門・センター(原則的に部門はより基礎的で,センターは時限でプロジェクト的です):
・ヒューマンライフテクノロジー研究部門 http://unit.aist.go.jp/htri/ (私やしましまさんなどがいる部門・ライフサイエンス分野・前にいた脳神経情報研究部門はお取りつぶしになりました^^)
・知能システム研究部門 http://unit.aist.go.jp/is/ci/index_j.html (麻生英樹さんなどがいる部門・情報通信エレクトロニクス分野)
・情報技術研究部門 http://itri.aist-go.jp/ (音声の後藤さんや吉井さんがいる部門・情報通信エレクトロニクス分野)
・生命情報工学研究センター http://www.cbrc.jp (津田宏治さんがいるセンター・ライフサイエンス分野)
・サービス工学研究センター http://unit.aist.go.jp/cfsr/index.htm(本村さんが副部門長で新人の櫻井さんもこちら・情報通信エレクトロニクス分野)
・デジタルヒューマン工学研究センター http://www.dh.aist.go.jp/jp/(情報通信エレクトロニクス分野)
# ただし,よく組織改編が行われますので注意してください.

勤務地:上記部門やセンターの場合つくばかお台場です.どちらかによって住環境もかなり違いますが,つくばなら公務員宿舎に入れます.

というわけで優秀な若い方がどしどし産総研にアプライされることを期待しています!
(疑問点はわたしまでご連絡ください)



その他参考
なお,事務職員・計測標準研究職員についての情報はこちらです:りくなび: http://job.rikunabi.com/2012/company/top/r262410020/

科研費について

科研費について書こうと思っていたのだが,ここのところいろいろ発表準備とかで忙しかったので今頃になってしまった. 多くの組織ではすでに組織内締め切りが終わっていると思うので今年についてはあまり役に立たないかもしれないが来年以降の参考になるかもしれないと思いメモ.

科研費は大学や独法研究機関の研究者にとって研究費の大きな糧である. 昨今国からの交付金が毎年何%かずつ減っている状況では科研費なしに研究するのは難しい.

私は昨年度から2年間,「スタート支援」という枠の審査委員を務めさせていただいた.審査委員には厳しい守秘義務があり,公表されるまでは自分が審査委員であることも守秘義務の一つである.
現在は JSPS のホームページにも名簿が出ているのでこうやって書くことができるわけだが,当然ながら審査の詳細については守秘義務の範囲内でしか書けないのであらかじめご承知いただきたい.

JSPSの科研費審査に関するページ

なお,スタート支援は今締め切りを迎えている基盤などとは時期も性質も若干違うのでそのあたりもご注意を.


さて,大まかな審査の流れは上記のページに書いてあるように,一次審査(書面)と二次審査(合議)からなる.
スタート支援では同じ審査委員が務めるが,基盤などではそれぞれ別の委員が務める点が異なっている.

まず,書面審査だがこれが大変である. JSPS から大きな冊子が何冊も送られてくる. 分野や年によっても違うが一人がおよそ100件の審査書類を2週間程度の期間で審査する.
何をどう審査するかは上記のページの規定や手引きの pdf が参考になるが,各申請書類ごとに学術的意義とかいろいろな観点から点数付けし,最後に全体評点とコメントを付ける.
これが大変な作業で,かなり幅広い分野に及ぶので,自分のよく知らない分野の申請書類については web や本などでその分野の動向を調べる必要があるし,コメントも長所短所を詳しく書くように JSPS に指示されている.
さらに,総合得点については全体の評点がガウス分布状に均等に分布しないとシステムが受け付けてくれないという厳しさである.

というわけで,1件の審査にかなりの労力を要するので,2年目は NIPS のレビューも断るなど万全の体制で望んだのだが,そのうち1週間は海外出張で潰れるということになってしまい今年も大変だった.
これの合否が研究者の研究活動に大きな影響を与えるかと思うとそうそうおろそかな評価はできない.

さて,合議審査は書面審査の結果に基づいて1日缶詰になって審査委員のグループで協議を行う.応募数の割に採用できる数が極めて少ないので,特にボーダーライン付近の多数の申請書の中でどれを採用するかは分野が幅広いこともあり相当難しい. 最後の2-3件を決めるときはかなり長い時間をかけて熱い議論が戦わされる.

どんな申請が通りやすいかについて web で検索するといろいろ出てくるが,こればかりは審査委員や分野によってもかなり違うようなので一概には言うのは難しい(もちろん守秘義務があるのであまり書けないというのもあるが).
ただ,一般論として問題のないと思われる範囲でいくつかポイントを挙げておこう(私見もあるので責任は負いかねます.念のため).

・審査の手引きなどを読んで,何がどう審査されるのかを見て,それに沿って書かれているか見直す

・科研費では,高額の申請以外は研究終了後のレビューは(短い成果報告を出すだけで)ほとんどない. だから,申請者が本当にこのテーマでできるのかということを審査委員に納得させる必要がある. エビデンスもないのにあまり大風呂敷でもだめだし,かといってあまりトリビアルな研究でも評価が低くなる.

・申請書はできるだけたくさん埋まっている方がいいという話があるが,単純に引き伸ばしてだらだら長いのは逆効果な気もする.

・かなり細かい点まで審査する必要があるのでナナメ読みすることはあまりない. だから,キーワードを太字や下線などで過度に装飾してあると文章として読みにくいのでやり過ぎは逆効果かもしれない.

・審査はモノクロ印刷された紙ベースで行うのでカラーは使わない.

・予算の使用予定については科研費で支出することが必然であるというロジックが必要である. 科研費は配分してからはある程度自由に使える(ただし昨今はかなり使途がかなり厳しく制限されはじめている)ので,あまり曖昧だと本当にそれに使うのか,その必要があるのか疑念を抱かれかねない. 分野によっては旅費などあまり多額に積んであると嫌われることもあるようだが,情報系をはじめ理論系などでは旅費は主要な研究活動費だから正直に詳しく書いてあれば特に問題ないと思う.

また,科研費の分野ごとの採択数はその分野での応募数と応募額に比例する(これを単純に平均している所がどうかという話はあるが).正確な計算式は規定のp.42にある. これがあるため,いくつかの分野のメーリングリストでは分野全体に応募を促すようなメールが流れることがある. そもそも研究費不足が慢性的に起きているのでそんなことしなくてもみんな応募するとは思うが,一応知っておいたほうがよいだろう.

現状の審査システム自身いろいろ問題を含んでおり,合議審査の最後にもそれについて議論する時間があり,JSPS に要望がいろいろ出ているようなので,少しずつ改善はされていくと思う.
そもそも審査のオーバーヘッドが非常に高いので,研究者として最低限研究していくだけの低額の科研費についてはバラマキでもいいという意見も聞いたが,ある程度そのとおりだと思う(これは論文の査読制度についても同様).

あと,JSPS が提供しているのは MS word の書類だが,ずいぶん操作性が悪いようで,私が twitter でフォローしている TL では LaTeX の科研費マクロが好評なようだ.私も次回応募するときは LaTeX マクロで書こうと思う.

なお,科研費について検索すると科研費の審査委員の統計問題提起しているブログなども見つかりいろいろ考えさせられる.

次のページ

FC2Ad