朱鷺の杜(IBIS)ブログ

情報論的学習理論(IBIS)に関する管理人の独断と偏見に満ちた意見

「とある弁当屋の統計技師」をもとにデータサイエンス分野の行く末について考え、最後にスパースモデリングを宣伝するエントリー

とある弁当屋の統計技師」という本を献本いただきました。ありがとうございます。

著者は石田基広さんという方で、テキストマイニング系の方なので研究関係では接点はなく面識はありませんが、R言語関係の本をこれまでにも多数出版されていて著書ではいつもお世話になっています。

本のタイトルは「とある魔術の禁書目録」のパロディになっていると思いますが、禁書目録の方は全く知らないのでタイトル以外もパロディになっているかどうかは分かりません。

内容はまっとうな統計の入門書で、当初思っていたよりは挿絵は少なく、(これもちゃんとした定義は知らないのですが)ラノベ風の本です。 とまあ、このように元ネタの方面に疎いのでそういう観点からの評者としては私は全く適していませんのでご容赦ください。

さて、ストーリーは、新米のデータサイエンティスト文太と弁当屋の乱子が弁当屋の売り上げデータ解析をネタに展開していくという形です。(乱子というとシェイプアップ乱を連想してしまいますが)

平均~回帰分析~ロジスティック回帰まで、いろいろな注意点にも触れながら入門できるようになっています。
あまり露骨には出てきませんが R を使ってデータ解析しています。

データ解析をほとんど知らない人への統計の入門書としてレベルは適切で説明も的を射たもので、実用書としておすすめだと思います。

ただ全く理不尽な望みですが、個人的には統計の実用面よりはその周りに絡んでいる数学的なところに知的好奇心の面白さを感じているので、そのあたりがうまく表現されている本もあるといいなあと思います。数学ガールなんかは純粋な数学に対する知的好奇心だけで売れているわけで、機械学習もこういう感じで行けないかなあと思ってしまうわけです。

すみません、ちょっと自分の趣味に走りすぎましたね。

まあデータサイエンティストを増やすというのは重要ですし、すそ野を広げるという意味で入門的な本がいろいろ出るのはいいことだと思います。 
専門書ばかりだったこの世界に新風を巻き起こしたのはわたせせいぞう氏のイラストを表紙に使ったデータマイニング入門(豊田秀樹著)でしょうか。内容は見ていないのでわからないですが、評判はよいようです。

最近だと、イラストで学ぶ機械学習(杉山将)なんかも入門向けをねらっているのでしょうか。

「イラストで学ぶ機械学習」の宣伝に「黄色本より先に読もう」と書いてあるのですが、黄色本というのはビショップ本のことでしょうか?確かにビショップ本はいきなりバックグラウンドがない人が学ぶにはしきいが高いでしょうね。

ただ、入門書を増やすだけではダメで、大学なんかでちゃんとしたデータサイエンスの教育システムがない現状を
どうにかすることも大事だと思います。統数研なんかはいろいろ取り組みもしているようですが、まだ多くの分野ではデータサイエンスという研究分野の重要性が認知されていない気もします。

と書いているうちに、宣伝すべきことを思い出しました。

文科省科研費の新学術領域研究で、今年度から「スパースモデリングの深化と高次元データ駆動科学の創成」という領域がスタートしました。代表は東大の岡田真人先生で、私もカーネル法による非線形スパースモデリングで計画班を担当しています。

この領域を大きく広げるにあたって、公募研究を募集しています。
全国各地でキックオフシンポジウムや公募説明会が開催されます。先日東京で行われたものは非常に盛況でしたが、今週末(2013-9/29)には京都大学で開かれます。ご興味を持たれた方は是非ご参加ください。

また、公募説明会に参加されなかった方でも、この分野の盛り上がりにもつながると思いますので、公募をご検討ください。

あわせて、私の計画班ではポスドク公募しております。メール等でお問い合わせいただければ詳細に説明させていただきますので、こちらもよろしくお願いします。

注:こんな私が畏れ多くも声優統計という本の序文を書かせていただいたりして、全く失礼しました。声優統計も献本していただいたのですが、さすがに書評を書く知識も勇気も足りません _o_

カーネル多変量解析5刷発行お礼,Rで正準相関分析など

今日はお知らせをいくつか.

***

まず一つ目.
カーネル多変量解析ですが6月5日付で第5刷が発行されました.
一回ごとの刷数はわずかですが,多くのみなさまのおかげでなんとか絶版の危機からは脱しております.
ありがとうございます.

***

それから,神経回路学会誌の2013年6月号(20巻2号)に「正準相関分析入門 ー複数情報の観測からの共通情報抽出法ー」という解説記事を書きました.
上記リンク先にはまだ目次は出ていませんが冊子はすでに発行されています.

昔は機械学習の研究者と神経回路学会会員はかなりオーバーラップがありましたが最近はセパレートしている感じがしますので,ここで宣伝させて頂きます.

正準相関分析は複数の情報源から共通情報を取り出すという手法で,脳科学やバイオインフォマティクスなど幅広い応用を持つ手法です.

今回の解説記事ではとりあえずRやmatlab で正準相関分析してみることができるようにできるだけ易しく解説したつもりです.

難しいところは参考文献をあげるだけでごまかしていますが,麻生,栗田,大津の非線形正準相関分析の話はあまり目にする機会がないと思いますので少し詳しく説明しました. マルチモダリティ・センサフュージョンといった問題にご興味がある方はぜひお読みいただければ幸いです.

同じ号では以前産総研にいらっしゃった栗田さん(広島大学)が巻頭言を書いていらっしゃいますが,私のカーネル正準相関分析の仕事も,栗田さんや今も産総研の麻生さん,退職された大津さんなどの仕事に触発されての研究です.

なお,神経回路学会の記事は通常2~3ヶ月で会員に電子アクセス可能な状態になり,1年後にはフリーアクセスになります.

***

最後にもう一つアナウンス.

9月に鳥取で開かれる IBISML/PRMU/CVIM 合同研究会で,「機械学習におけるコストをめぐる話題」というタイトルで講演をさせていただく予定です.こちらもよろしくお願いします.

Rによるベイジアン動的線型モデル

Rによるベイジアン動的線型モデルという本を翻訳者のNTTドコモの萩原さんから献本して頂きました.
直接面識はありませんがありがとうございます.

この本は翻訳本ですがサイズも和書サイズでコンパクトで持ち歩くのも苦労がないというのが大きなポイントです.
洋書はたいてい分厚くて翻訳の時はそれがネックになることが多いです.
ビショップ本もそのおかげで上下巻に分けることになりましたが,この本はフォントを小さくするなどして小さく収めています.

内容はRのパッケージであるDLM (dynamic linear model) パッケージを使ったベイズ流の時系列解析の本です.
具体的にはカルマンフィルタのようなところからパーティクルフィルタ(逐次モンテカルロ)までさまざまな手法が説明されています.
線型モデルに限定しており,一般の状態空間モデルみたいになんでもOKということはありませんが,かなり広い範囲の時系列に適用可能な話になっています.
なかなか機械学習の教科書だと載っていないイノベーション,可制御性や可観測性といった制御理論の重要な概念に言及されていることも特色だと思います.

このブログでも再三パーティクルフィルタの紹介はしているのですが,結局のところ私自身は研究でパーティクルフィルタを使ったことがありません.一応ホームグランドであるRのパッケージということなので,ぜひ今度は何か時系列解析するときには使ってみたいと思います.

原著者序文には,「(訳者の方が)本書をただ読んだだけでなく,内容をチェックし,Rコードの1つ1つの各部分までもテストし,われわれの仕事を詳細にわたって改訂してくれました」と書いてあります.
翻訳本はいくらでも手抜きすることも可能ですが,ビショップ本のように原著を改訂するぐらいの気合でやれば相当いいものを作ることができます. 本書もそのような本になっていると思います. どうしても翻訳調の文になるのは仕方がないところですが,訳語や言い回しなどはかなり苦労された感じで,読みにくいということは全くありません.

こういう専門書は本当は日本人の著者が日本語で書き下ろすのがベストだとは思いますが,昨今みんな忙しくて書く暇がなく(それゆえ岩波本のシリーズも遅れていますが),ページ数の制限などからあまり詳しくも書けません. その点洋書はしっかりと書かれているのでじっくり勉強するのに適していると思います.

ビショップ本を何度か引き合いに出しますが,あの本もビショップの書く力もさることながら,謝辞にちょこっとだけ書かれている Markus Svensen さんという超マニアックな TeXnician がいたから完成したというところはあると思います.
日本だとなかなかこういう執筆体制が取れないということもいい和書がなかなか出ない背景にはあるのではないでしょうか.
ちなみに,残念ながら Svensen さんは Microsoft を退職されたようなのでもう抜本的にはビショップ本の改訂も難しいという状況のようです.

ビッグデータ時代のマーケティング

書評シリーズ第2弾は,これもかなり以前に統数研の樋口先生から献本いただいていた
ビッグデータ時代のマーケティング」という本です.

これは以前に紹介した予測にいかす統計モデリングの基本と同じ講談社からの出版で,専門書と一般向けの中間層をねらっている感じの本です.第1著者の佐藤忠彦さんとは面識はないのですが巻末の紹介を見ると筑波大にいらっしゃるようなので地理的には近いところにいらっしゃるようです.

さて,この本はタイトルにあるとおり前作よりもかなり経済学っぽい概念まで踏み込んだ内容になっており,経済的なことは全く素人でアベノミクスの恩恵も全く受けられていない私が書評するのもなんだか気が引けていたのですが,最近ツイッターで


という書き込みをみつけ, さらにその返信で

というリプライもあるようなので,覚悟を決めて読んでみました.

まず1章がマーケティングの問題を整理して,大量データに基づいて,消費者の個性や時間的な消費行動の推移をとらえるのにベイジアンアプローチ(特に状態空間モデル)が適しているという説明で,まあマーケティングとか全く素人の私でもなんとなくわかる内容です.
そしてデータに基づく解析とマーケティング理論に基づく解析とを融合させる技術としてデータ同化に至るというところで樋口先生の土俵に引きずり込んでいます.

さて,2章以下はかなり数式もたくさん出てきてがっつりとマーケティングの諸場面における解析法について紹介しています.早い段階で識別不能性とかまで言及しています.

個人的に関心があったのは,この本で述べられているような定式化と強化学習(マルコフ決定過程)との関係です.効用関数の推定とかは逆強化学習と関連しそうですし,プロモーションなんかはアクションとして明示的に統一的に扱えるような気もします.本書ではそれとは別のアプローチのように見えますが,解析は非常にうまくいっています.これらの関連性を考察すると強化学習の研究にも何かヒントになることがあるのかなという気がしますが,まだこのあたりちゃんと理解できていません.

本書の位置づけとしてマーケティングに特化したモデリングの説明に十分な紙面を使っているため,アルゴリズムはひと通りは説明されていますが詳しいことは他書を参照せよという方針であり,実際それが適切だと思います.
最初にも書いたようにマーケティングとか全く素人なのでそのあたりから結構つまづいていましたが,大規模データをお金に結びつけるニーズは極めて高く時代の要請に非常にマッチした本だと思いました.

高速文字列解析の世界

岩波の「確率と情報と科学」の4冊目が出版されました.
岡野原さんによる 「高速文字列解析の世界」です.

実は12月に発刊され,ほどなく献本をいただきましたが,なかなか腰を据えて読む時間が取れず,ゴールデンウィークまでずれこんでしまいました.この場をお借りして献本いただいたことに感謝し,感想の投稿が遅れたことをお詫びいたします.

Amazonとかで見ると,猛烈な勢いで売れているようですね.久保本星野本も売れ行き好調なようなのでカーネル本もそれに引っ張られてぼちぼち売れているようです.

岡野原さんはいろいろなところでお見かけする程度で直接の面識はありませんが,巻末や Amazon ページに載っている著者紹介を見ると輝かしい経歴を持ち,現在は PFI という企業の経営に参画されているというすごい方です.

さて感想です.あくまで専門外の一素人としての感想なので専門家の方からすると的外れなことを書いてあるかもしれませんがご容赦ください.

Google などの検索システムに代表されるように,文字列解析はネット時代の花形です.Google で,検索語を入れるとほとんど瞬時と言っていい時間内に結果が返ってきます.これってちょっとプログラムをかじったことのある人にとっては驚異的だと思います.

文書の中の文字列を検索したり文字列数を数えたりするという課題自体は,素朴な方法ならプログラムもそれほど大変ではなく私のような素人でもなんとか作れるレベルでしょう.でも,そのようなプログラムでは決して Google のような早い検索結果を返すことはできません.あのような高速な検索を実現しているコアの技術が本書で紹介されている「高速文字列解析」の技術です.(もちろん Google の検索システム全体はいろいろな要素から成っているのでそれだけではないと思いますが).

全体の構成は1章でまず文字列解析の現状,2章で基本的な準備をし,3~5章で本書で取り上げる3つのデータ構造である「BW変換・簡潔データ構造・ウェーブレット木」について説明し,最後の6~8章で副題にある3つの応用「データ圧縮・全文検索・テキストマイニング」についての解説があります.

個人的にはカーネル法で文字列カーネルの計算に接尾辞木が使われていたりするので,そのあたりの周辺技術に興味があって前から勉強したいと思っていた内容でした.
(ちなみに接尾辞木については8章のテキストマイニングの章で説明されています)

私の場合は1章,2章までは岡野原さんの歯切れの良い文体に感心しながらすいすいと読んでいけました.つまづいたのは3.3の BWT の構築のところでした.親切にも「この節は高度な内容を含むので,読み飛ばしてもらっても構わない」と注意書きが書いてあるにも関わらずついつい無駄にチャレンジ精神を発揮して丁寧に読んでいったのですが,アルゴリズムの説明を文章で書いてあるところの理解が怪しくなりました.

本についていた帯を見ると「基礎から最新の実装技術まで」と書いてあります.この本の第一の特色は「実装技術」の部分にあります.日々文字列解析と格闘されている方が基本的なアルゴリズムをこの本を読んだだけで実装できるような形で記述されています.
ただ,逆に実装に慣れていないと書いてある説明を理解するのが難しいかなという気がしました(単に注意書きを守らなかった身の程知らずなのがいけないんですが).

ちなみに サポートページ には実装例へのリンクも張られているので,そこにあるコードを読んだりしながら本を読めば理解も早いのではないかと思います.

ibis2012

今年も ibis workshop が盛況のうちに開催されました.
@shima__shima さんを始めちゃんとしたレビューは 朱鷺の杜wiki 内にリンク(@mamoruk さんブログや @_akisato さんによる togetter まとめ) が張ってあるので,こちらでは適当に思いつくまま私見のメモ.

・スケジュール全般

 オーガナイズドセッションに気合いが入っているからか,結構スケジュールはタイト.
 合間にいろいろ打ち合わせとかやったので,オーガナイズドセッションは結構サボってしまった.
 オーラルセッションを復活させてポスタープレビューを廃止したのは面白い試みだけど,ポスターとの順序で考えるとオーラルは二日目でもよかったかも.

・インダストリアル重視

 ...という風に言われていたけど,興味のあるところだけ参加したせいか,あまり感じなかった.
 
 
・ポスターセッション

 毎年ポスターセッションは時間不足&混みすぎ感があるので,何らかの工夫が必要だと思う.
 人気のあるポスターは長い待ちが必要だし,ポスタープレゼンターがほかのポスターを聞く時間もあるといいかな.

・懇親会

 ibis は参加者の年齢層が若いせいもあり?食べ物の量が足りないというのが大きなペナルティになるということで,今年もそれは十分だった.
 @sla さんによる ibis 発表のマイニング結果のプレゼンが面白い試み.
 こういう解析は会議本体でも有用ではないかと考えた. 
 例えば MDS して,応用ー基礎,ベイズー非ベイズ,数学~物理みたいな感じで発表全体をマッピングした地図とかあるとポスターを聞く際にも参考になるかも知れない.

・奨励賞

 いずれ公式HPにも出ると思いますが,坂田綾香さん@樺島研の dictionary learning の統計力学の話と,竹内孝(@koh_t)さん@NTT-CS研の行列分解の話. そういえば過去の受賞者で賞状がなかった年があるみたいな話を聞いたんだけど,これは ibisml 研究会でフォローアップしてあげた方がよいのではないかと思った.

・東京での開催

 これは個人的な事情だけど,東京近辺であるとつくばから通わなくてはならずかなりきつかった. 今回は筑波大だけど茗荷谷なのでつくばからだと最低2回乗換が必要だった(しかもどの選択肢を選んでも乗換駅での距離がかなり長い). というわけで,地方でやってもらうか昔みたいに合宿形式だと助かるんだけど,こればっかりは実行委員に負担がかかる話なので無理は言えない.

・自分関連の発表

 手前みそ的に自分の名前が入っている発表について総括してみる.

 - 麻生英樹, 城 真範, 神嶌敏弘, 赤穂昭太郎(産業技術総合研究所), 興梠貴英(東京大学)
   “エピソード時系列データ分析のための強化学習ツールRLearn”

   一言で言うとRで強化学習できるツール作りましたという話.
   麻生さんが完璧にプレゼンしてくれているようだったのであまりポスターのところにいなかったのでよくわからなかったけど,まあまあの反応はあったみたい. 

   最近強化学習の発表も増えてきたようだし,ばりばりに強化学習の研究をしている人というよりも,強化学習をユーザとして使う人にはお手軽でお勧めなソフト.
   現在まだ public には公開しないけれど個別に問い合わせがあれば試用してもらうことはできるはず.

- 城 真範, 赤穂 昭太郎(産業技術総合研究所)
    “量子化による測定結果への影響”

   平均 μ 分散 σ^2 の値をデジタル計測器で何回か測るとき,σが小さすぎると情報不足でダメ,σが大きすぎると誤差が大きすぎてダメ. そのトレードオフをとった中間が一番いいという話.
   情報量とか考えれば情報理論で知られているような話にも関係するというコメントをもらった.

- 高畠一哉, 赤穂昭太郎(産総研)
    “新グラフィカルモデル「発火過程ネットワーク」 〜 学習が簡単な新モデル 〜”

   ちょっとコテコテすぎるタイトル?で心配はしていたものの,なんとオーラルに選んで頂きました.
   逆転の発想という感じで面白い話だと思うのですがオーラル会場での反応は今一つな感じ. 
   * 情報幾何で説明していたけど,ちょっとなじみが薄かった?
   * そもそもグラフィカルモデルの構造学習に興味のある人が少ない?
     ノンパラベイズとか,deep network とか,符号化の話とか,グラフィカルモデルを扱っている人は多いけど,そこではあまり構造学習はしていない.
   * ちなみに高畠さんはオーラルで離散限定みたいな言い方していましたが枠組み自体は連続にそのまま拡張可能.
   * 座長の @kashi_pong さんから指摘された Gaussian network との関連で言うと,モデルとしてはもっと複雑なものまで視野にしている点と,Gaussian network で非対称な結合まで許そうというところが違う点. ただし,よく考えると Gaussian network で非対称結合入れると,確率推論のときに Gaussian である計算メリットが失われてしまうかも.
   * あと,アルゴリズムの収束先として確率モデルが定義されるというのは気持ち悪いという声も? まあこれがSVMで言えばカーネルトリック的な発想の転換なわけだけど.

そんなわけで,まだまだ盛り上がっている ibis workshop,来年も楽しみにしています!

地方大学の東京オフィス

科研費申請のシーズンです.
もう大学によっては締め切りを終えてるところも多いと思いますが,まだの方は以前書いたエントリーがもし参考になれば幸いです.
山中伸弥氏のノーベル賞授与が基礎研究に追い風に働くといいのですが,田中大臣の発言とか微妙に外しているところが気になるところです.

あと,国家公務員が東日本大震災関連で給与1割カットになったのを受けて,産総研や国立大学も軒並み給与一割カットされて暮らし向きは厳しくなりました(カット率や開始時期は大学によって異なりますが). ただでさえ安い給料がカットされて大変ですが,なんとか上向きになってくれることを祈っています.

ですが,今日のメインの話題はそういう話ではありません.

ここ最近,地方の大学の東京オフィスでミーティングという機会が何回かありました.
どんな大学が東京オフィスを持っているんだろうと興味を持ったのでまとめてみたいと思います.

京都大学 東京サテライト
品川にあるインターシティにあります. 空港や新幹線からアクセスがいいのが品川にある理由でしょうか.
卒業生など関係者が利用できるようです. わりと大き目の会議室がありました.

北陸先端大 東京サテライト
これも品川インターシティ. こちらもわりと大き目の会議室があります.

はこだて未来大 東京サテライト
秋葉原ダイビルにあります. ここはあまり広くはないです.

以上の3つが私が実際行ったことあるものです.
以下グーグルや伝聞で存在を知ったもの.

サピアタワー 大学フロア
東京駅にある東京オフィスの集合体
関西学院大学・甲南大学・事業創造大学院大学・新潟医療福祉大学・東北大学・北海道大学・関西大学・流通科学大学・産業能率大学・埼玉大学・東京大学・立命館
まあ東大とかは地方大学じゃないですけど.
キャンパスイノベーションセンター
田町にあるいろんな大学の東京オフィスの集合体
<国立大学>秋田大学・愛媛大学・大阪大学・鹿児島大学・熊本大学・静岡大学・上越教育大学・千葉大学・鳥取大学・新潟大学・広島大学・山形大学・山口大学・山梨大学・和歌山大学
<公立大学>高知工科大学
<大学院大学>奈良先端科学技術大学院大学
<私立大学>岡山理科大学・吉備国際大学・九州保健福祉大学・倉敷芸術科学大学・久留米大学・千葉科学大学・常磐大学
コラボ産学官プラザ
江戸川区船堀にある東京オフィス集合体
トップページにリストはありませんが,信州大学・富山大学・弘前大学・大分大学・長岡技術科学大学・福岡工業大学・長崎大学などの東京オフィスがあるようです.
九州大学 東京オフィス
有楽町
同志社大学 東京オフィス
東京駅
龍谷大学 東京オフィス
東京駅
松山大学 東京オフィス
新橋駅
近畿大学 東京事務所
四ツ谷駅
金沢大学 東京事務所
日本橋付近
神戸大学 東京オフィス
帝国劇場ビルというのがマニアック
愛知大学 東京事務所
霞ヶ関

ほかにもあるかも知れませんが,力尽きたので今日はこの辺で.

やはり東京に拠点があると何かと便利なんでしょうね.
こちら側からしても,わざわざ地方の大学に出かけなくても済むのは便利です.
ただ,地方に出かけておいしいものとか食べるのも楽しみなので一長一短といったところでしょうか.

Machine Learning that Matters (ICML2012) 読んで考えたこと

糞ネット弁慶ブログに表題の ICML2012 論文 "Machine Learning that Matters" が紹介されていて,「機械学習やってる人は皆読むべきだと思う.」と書いてあったので読んでみました. 英語はしんどいのでブログ内の日本語訳をベースにします.

全体としていろいろまっとうなことが書いてあるのですが,個人的には「こんな方向ばっかり進まれると辛いなー」というのが正直な感想なのでその路線で意見を述べてみます. まあ私が機械学習研究者を代表しているとも到底思えませんので,一個人のたわごとだと思って読んでいただければ幸いです.



さて,この論文の基本的な主張は,「機械学習と実世界の間には乖離があるからそれを埋めるような研究の進め方をするべきべきべき!」ということです. うちの職場でも,「基礎研究と応用の間の死の谷を乗り越えるために本格研究(←たぶん造語)しましょう」というキャッチフレーズでいろいろな政策が進められています.

入口から出口まで全部面倒を見ようという意味で研究のグローバリゼーションととらえることもできるし,視点としてはかなりマクロな感じになり,研究テーマはニーズ志向で,マネージメントはトップダウン的に行う必要があります.

でも,実際の研究はローカルで行われており,個性豊かな研究者が多様なベクトルを持って自発的に活動しているわけですから,ちゃんとミクロなところを見て,ボトムアップなシーズも大事にしないとうまくいかないと思います.

ちょっと抽象的になってきたので論文の論点に戻りましょう.

> 機械学習のための機械学習(要約: マッシュルームやアヤメの分類器を死ぬほど作って何の役に立ったの?)

機械学習には No free lunch theorem というのもあって,確かにベンチマークの問題は難しいです.
でも,機械学習のすばらしいアルゴリズムは,コミュニティの人たちのたくさんのひらめきと試行錯誤の数限りない反復の中から生まれてくるもので,それをいちいち実問題でやっていては,労力がいくらあっても足りない.というか,その労力をアイディアの創出に注いでほしいと思います.

逆に個人的には人工データで十分だと思っていますが,本論文の著者も認めているようなメリットもあるわけですから,「UCIレポジトリ限定チューニングアルゴリズム」とかでなければ(そんなのそもそもアクセプトされない),機械学習的価値観で書かれた論文で一向に構わないのではないかと思います.

>フォロースルーの欠如

本論文では「インパクト」という言葉を狭くとらえ過ぎているように思います.
実世界へのインパクトというと即効性のある近視眼的なものになりやすいし,今現在ではなんに使えるかわからないけどすごい!みたいなインパクトだって長期的には重要だと思います.

本論文では実世界的なインパクトがなければ
>意味が無い.
>研究と実世界とを紐付けるのはコミュニティが成熟する過程の一部である.
とまで言っていますが,それはそのコミュニティの役割によるでしょう.
コミュニティの役割は一つに決まっているものではありません.
逆に,同じ役割を果たすコミュニティは二つもいらないでしょう.

まあ ICML はどちらかというと実用志向と言われていて,NIPS が基礎志向なので
「みんな NIPS に毒されるな.目を覚ませ!」
っていうメッセージなのかもしれません.(NIPS も最近は変わってきてしまっているようですが)

>機械学習の外の世界と関われ

これも研究者による話だと思います.
いろいろ外に広げていくのが向いている人もいれば,中でがっつり頑張る人もいます.
両方の人材がそれぞれ重要だと思います.

あと,どちらかといえば外の世界で本当にインパクトがあれば,ICML なんかに出さずに Nature とかに出すとか,
儲かる話なら起業したりすればいいわけで,実際そうしている人たちもたくさんいるのではないでしょうか.
ICML はむしろ中でがっつり頑張っている人たちを支えてあげる大切な場だと思います.

> Machine Learning Impact Challenges

これはあまりどれも個人的に興味ないので特にコメントなしです.

>課題になってくること

ここに書いてあることは意外に?いい点をついている気がします.

>ジャーゴン

>feature extractionとかbias-variance trade-offとかensemble methodsとかcross validationとか
>low dimensional manifoldとかregularizationとかmutual informationとかkernel methodsとか
>専門用語使いすぎ.研究者だけでなく,統計学者にすら伝わらない.別の言い方を考えろ.

もともと機械学習みたいに統計・数学・物理・生物 etc. の融合領域では,用語の問題は常に問題になります.
同じものに別の名前がついていたり,同じ名前が別の意味につかわれたり日常茶飯事.
ただし,この問題は奥が深く容易ではないと思います.

>リスク

これは非常に重要な問題で,実応用をする場合にはネガティブな面も全部含めて責任を取る覚悟が必要だと思います. だから私は安易に「役に立つ研究」を標榜したくない気持ちです.

最初の方の話に戻りますが,「基礎と応用の間の死の谷」というのは必然的な面もあると思うのです.
基礎のところで十分に練られたものだけが応用にちょっとだけ出ていくというのがリスクの面からも健全で,そこをスルーにしてしまうと,何か事が起きた時に元から全部否定されてしまうということにもなりかねません.





というわけでいろいろ文句をつけましたが,実際,本論文の影響力に比べるとこのブログ記事は無限に小さいたわごとだなあと思うとちょっと無力感を感じたりして...

金環日食の画像処理

今日は落書きモードです.

前にも書いたように最近は私のところにもいろいろデータ解析の依頼が来ます.
それもたいてい,
「とりあえずたくさんデータ取ってみたんだけどなんか出ない?」
というようなのが多いです.

まあ機械学習は懐が深いので?そういういい加減なデータでもそこそこなんとかできるというのが売りだと思うのですが,解析者のスキルもそこそこ必要で,普段からの訓練が欠かせません.

それで金環日食です(無理矢理ですが).

とりあえずフィルタを望遠レンズにつけたカメラで撮影したのと,天体望遠鏡の太陽投影板を手作りして 投影面を撮影しました.

でも高級な自動ガイドの架台とか当然持っていないので,時間間隔も適当,写っている大きさや位置も適当.
データ解析のちょうどいい練習問題と思ってやってみました.
今回は画像処理が多いのですが,共同研究などを通じて鍛えられて?いるのでそこはなんとか.

まず,カメラ撮影の方は,とりあえずこんな画像がいっぱい
IMG_0035_1.jpg

幸い太陽はほとんど真円なので,
・エッジ抽出
・(外側の)円の抽出
・位置と大きさあわせ
という流れでできそうです.

今回用いたのは matlab の image processing + optimization toolbox ですが,R でも python でも OpenCV でも基本的にそれほど変わらないと思います.

問題はエッジ抽出と円の抽出のところでいくつかパラメータがあること.
エッジ抽出には canny filter というのを使ったのでそこにパラメータが一つ.
エッジ情報からの円の抽出は基本的に「いくつかのランダム点であてはめるというのを繰り返して,inlier ができるだけ大きくなるものを選ぶ」というRANSAC と呼ばれる手法を使いました.
さらに,今回は一番外側の円が欲しいので,内側の点の数とかも数えたりしています.
で,それらにもいくつかのパラメータ.

できればこの辺り全自動でいけば理想的ですが,なんといっても「なんちゃってデータ解析」なので,結果を見てパラメータを適当に変えられるようなインタラクティブなスクリプトを書いて半自動で抽出しました.

これを時間順に並べればアニメーションができます. ただし,撮影間隔も適当だったので,理想的には動的計画法かなんかでできるだけ等間隔のものを抜き出すプログラムとか作ってやるということも考えられましたが,ちょっと面倒だったので,適当な間隔に並んでいるのを抜き出して,あとは目の子で微調整.

で,できたアニメーションがこちら↓↓↓↓


(いろんなところに投稿したのでもう見飽きた方はごめんなさい_o_)

あと,撮影時刻と太陽の軌道計算を使って投影すればこんな図もできます↓↓↓
movement2.jpg



まあこれは比較的すぐにできたのですが,太陽投影板の方は苦労しました.
得られている画像はこんな画像
ixy20120521 101


研究でやっていたレンズのキャリブレーションとはちょっと違って,もっと原始的?なキャリブレーションが必要だったので,自分で一から計算して画像の補正法をプログラム. 基本的には楕円が真円に写るように傾き補正すればいいのですが.

・ピンホールカメラだと思って考えると,円をななめから見た像は楕円.というわけでまずは楕円の抽出.
・楕円の抽出はやはり RANSAC で,円の抽出をちょっと改変してOK
  ちなみに RANSAC の最適化規準を一般化したあてはめに関する論文は藤木さんらとの共同研究で何本か出ています.
・これが円に載っているような面をパラメタライズして方程式を立てると2変数の非線形方程式が出ます.
・まあ2変数ともコンパクトサポートなので,適当に解けばいいのですが,今回は matlab の最適化ルーチンに解かせました.
・その面が正面に見えるように透視射影を求め直して,image processing toolbox に渡してやると円に見える?像が得られます.

結果が下の画像
r-ixy20120521 101-r

なお,この問題を解くためにはカメラの焦点距離と画素のスケールが必要です. 焦点距離は35mm 換算とかで画像ファイルに数値が入っているので今回はそれを利用. ただし,35mm 換算って何?っていうほどの素人なのでその辺りググったりして画像のスケーリングなどを計算しました.

もしかするとこんなキャリブレーションはどこかにコードが落ちているかも知れませんが,まあお勉強ということで.



このプログラムは6月4日の部分月蝕と6月6日の金星太陽面通過でも活躍するはずだったのですが,月蝕も雲の向こうにかすかに見えただけだし,金星太陽面通過も完全に曇ってしまいました.
さすがの機械学習も,ないデータはいかんともしがたいです.
(えっとまあ機械学習と言えるほどすごいことはやっていませんけど)

というわけで,今年起きる金星蝕か,それ以降の日蝕・月蝕までお蔵入りです.
それまでに自分の書いたプログラムの使い方を覚えていられるかが非常に怪しいです.

さらに,今請け負っているいくつかのデータ解析に対するスキルが上がったかというと...これも怪しいです^^;

久保拓弥 著「データ解析のための統計モデリング入門 -- 一般化線形モデル・MCMC」

赤穂→星野さん,と続いてしばらく間の空いていた 甘利・麻生・伊庭編「確率と情報の科学」の3冊目
久保拓弥著「データ解析のための統計モデリング入門 -- 一般化線形モデル・MCMC」が発刊され,入手しました.

# 大人気みたいで amazon では現在品切れ状態のようで,納期はしばらくかかりそうです.


↓↓↓↓東大本郷生協で撮影(一部やらせ有り:私の本は多変量解析コーナーにあったので撮影のために並べてみました)
IMG_1672.jpg 


とりあえず半分くらいまで読んだ感想.

著者の久保さん@北大はブログ kubolog でも有名な方で,生態学の統計解析の専門家です.

# その後いろいろ見てたら @KuboBook なる twitter アカウントも発見.


統計解析の考え方を初歩から徹底的にたたきこむ教育的な本です.

前半は一言で言うと「 R を用いた GLM(一般化線形モデル) のすべて」という感じです.

私も最近いろいろデータ解析をやっており,ちゃんとした統計の作法を心得ていなかったりするので,
こういう本は非常に勉強になります.

手法としては GLM だけに焦点を絞って書いていますが,ほかのモデルや手法でも基本的な考え方は同じということで,非常にわかりやすいです.

機械学習などではあまりちゃんとやらない(←こんなことではダメなんですが)検定についても詳しく書かれています.

本書のスタイルは,専門書にありがちな数式の羅列ではなく,R のコマンドラインを軸にした,まさにデータ解析の「たんけん」をしている気にさせてくれるタイプ. 

実際,統計の勉強をしていると,数式とプログラミング(実際の解析)の間の隔たりを感じることが多々あります. 
数式で解説されても実際の解析ができるまでは意外に遠い. 
そういう意味で本書は非常に実践的な本です.

一方,本書がそこらのハウツー本と一線を画すのは,「ちゃんと理解して統計モデルを使う」ということがとことん強調されているところです. 最初の方に「ブラックボックスな統計解析」の悪夢と題して,安易なデータ解析のやり方に警鐘を鳴らしています.

また,個々の手法の仕組みについては本書であえて数学的に掘り下げて説明するということはしていませんが,
必要な参考文献についてはきっちりと参照してあります.
私なんかはどちらかというと実際のデータ解析よりも仕組みの方に興味があるので「カーネル多変量解析」もそちらに偏りがちです.

というわけで後半も楽しみに読んでいきたいと思います.

久保本と併せて,まだお持ちでない方はカーネル多変量解析も是非どうぞ...と最後に宣伝.
前のページ 次のページ

FC2Ad