朱鷺の杜(IBIS)ブログ

情報論的学習理論(IBIS)に関する管理人の独断と偏見に満ちた意見

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

Machine Learning that Matters (ICML2012) 読んで考えたこと

糞ネット弁慶ブログに表題の ICML2012 論文 "Machine Learning that Matters" が紹介されていて,「機械学習やってる人は皆読むべきだと思う.」と書いてあったので読んでみました. 英語はしんどいのでブログ内の日本語訳をベースにします.

全体としていろいろまっとうなことが書いてあるのですが,個人的には「こんな方向ばっかり進まれると辛いなー」というのが正直な感想なのでその路線で意見を述べてみます. まあ私が機械学習研究者を代表しているとも到底思えませんので,一個人のたわごとだと思って読んでいただければ幸いです.



さて,この論文の基本的な主張は,「機械学習と実世界の間には乖離があるからそれを埋めるような研究の進め方をするべきべきべき!」ということです. うちの職場でも,「基礎研究と応用の間の死の谷を乗り越えるために本格研究(←たぶん造語)しましょう」というキャッチフレーズでいろいろな政策が進められています.

入口から出口まで全部面倒を見ようという意味で研究のグローバリゼーションととらえることもできるし,視点としてはかなりマクロな感じになり,研究テーマはニーズ志向で,マネージメントはトップダウン的に行う必要があります.

でも,実際の研究はローカルで行われており,個性豊かな研究者が多様なベクトルを持って自発的に活動しているわけですから,ちゃんとミクロなところを見て,ボトムアップなシーズも大事にしないとうまくいかないと思います.

ちょっと抽象的になってきたので論文の論点に戻りましょう.

> 機械学習のための機械学習(要約: マッシュルームやアヤメの分類器を死ぬほど作って何の役に立ったの?)

機械学習には No free lunch theorem というのもあって,確かにベンチマークの問題は難しいです.
でも,機械学習のすばらしいアルゴリズムは,コミュニティの人たちのたくさんのひらめきと試行錯誤の数限りない反復の中から生まれてくるもので,それをいちいち実問題でやっていては,労力がいくらあっても足りない.というか,その労力をアイディアの創出に注いでほしいと思います.

逆に個人的には人工データで十分だと思っていますが,本論文の著者も認めているようなメリットもあるわけですから,「UCIレポジトリ限定チューニングアルゴリズム」とかでなければ(そんなのそもそもアクセプトされない),機械学習的価値観で書かれた論文で一向に構わないのではないかと思います.

>フォロースルーの欠如

本論文では「インパクト」という言葉を狭くとらえ過ぎているように思います.
実世界へのインパクトというと即効性のある近視眼的なものになりやすいし,今現在ではなんに使えるかわからないけどすごい!みたいなインパクトだって長期的には重要だと思います.

本論文では実世界的なインパクトがなければ
>意味が無い.
>研究と実世界とを紐付けるのはコミュニティが成熟する過程の一部である.
とまで言っていますが,それはそのコミュニティの役割によるでしょう.
コミュニティの役割は一つに決まっているものではありません.
逆に,同じ役割を果たすコミュニティは二つもいらないでしょう.

まあ ICML はどちらかというと実用志向と言われていて,NIPS が基礎志向なので
「みんな NIPS に毒されるな.目を覚ませ!」
っていうメッセージなのかもしれません.(NIPS も最近は変わってきてしまっているようですが)

>機械学習の外の世界と関われ

これも研究者による話だと思います.
いろいろ外に広げていくのが向いている人もいれば,中でがっつり頑張る人もいます.
両方の人材がそれぞれ重要だと思います.

あと,どちらかといえば外の世界で本当にインパクトがあれば,ICML なんかに出さずに Nature とかに出すとか,
儲かる話なら起業したりすればいいわけで,実際そうしている人たちもたくさんいるのではないでしょうか.
ICML はむしろ中でがっつり頑張っている人たちを支えてあげる大切な場だと思います.

> Machine Learning Impact Challenges

これはあまりどれも個人的に興味ないので特にコメントなしです.

>課題になってくること

ここに書いてあることは意外に?いい点をついている気がします.

>ジャーゴン

>feature extractionとかbias-variance trade-offとかensemble methodsとかcross validationとか
>low dimensional manifoldとかregularizationとかmutual informationとかkernel methodsとか
>専門用語使いすぎ.研究者だけでなく,統計学者にすら伝わらない.別の言い方を考えろ.

もともと機械学習みたいに統計・数学・物理・生物 etc. の融合領域では,用語の問題は常に問題になります.
同じものに別の名前がついていたり,同じ名前が別の意味につかわれたり日常茶飯事.
ただし,この問題は奥が深く容易ではないと思います.

>リスク

これは非常に重要な問題で,実応用をする場合にはネガティブな面も全部含めて責任を取る覚悟が必要だと思います. だから私は安易に「役に立つ研究」を標榜したくない気持ちです.

最初の方の話に戻りますが,「基礎と応用の間の死の谷」というのは必然的な面もあると思うのです.
基礎のところで十分に練られたものだけが応用にちょっとだけ出ていくというのがリスクの面からも健全で,そこをスルーにしてしまうと,何か事が起きた時に元から全部否定されてしまうということにもなりかねません.





というわけでいろいろ文句をつけましたが,実際,本論文の影響力に比べるとこのブログ記事は無限に小さいたわごとだなあと思うとちょっと無力感を感じたりして...
スポンサーサイト

コメント

承認待ちコメント

このコメントは管理者の承認待ちです

  • 2013/02/21(木) 14:02:56 |
  • |
  • #
  • [ 編集]

コメントの投稿


管理者にだけ表示を許可する

トラックバック

トラックバックURLはこちら
http://ibisforest.blog4.fc2.com/tb.php/128-88eadb7d
この記事にトラックバックする(FC2ブログユーザー)

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。