朱鷺の杜(IBIS)ブログ

情報論的学習理論(IBIS)に関する管理人の独断と偏見に満ちた意見

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

「とある弁当屋の統計技師」をもとにデータサイエンス分野の行く末について考え、最後にスパースモデリングを宣伝するエントリー

とある弁当屋の統計技師」という本を献本いただきました。ありがとうございます。

著者は石田基広さんという方で、テキストマイニング系の方なので研究関係では接点はなく面識はありませんが、R言語関係の本をこれまでにも多数出版されていて著書ではいつもお世話になっています。

本のタイトルは「とある魔術の禁書目録」のパロディになっていると思いますが、禁書目録の方は全く知らないのでタイトル以外もパロディになっているかどうかは分かりません。

内容はまっとうな統計の入門書で、当初思っていたよりは挿絵は少なく、(これもちゃんとした定義は知らないのですが)ラノベ風の本です。 とまあ、このように元ネタの方面に疎いのでそういう観点からの評者としては私は全く適していませんのでご容赦ください。

さて、ストーリーは、新米のデータサイエンティスト文太と弁当屋の乱子が弁当屋の売り上げデータ解析をネタに展開していくという形です。(乱子というとシェイプアップ乱を連想してしまいますが)

平均~回帰分析~ロジスティック回帰まで、いろいろな注意点にも触れながら入門できるようになっています。
あまり露骨には出てきませんが R を使ってデータ解析しています。

データ解析をほとんど知らない人への統計の入門書としてレベルは適切で説明も的を射たもので、実用書としておすすめだと思います。

ただ全く理不尽な望みですが、個人的には統計の実用面よりはその周りに絡んでいる数学的なところに知的好奇心の面白さを感じているので、そのあたりがうまく表現されている本もあるといいなあと思います。数学ガールなんかは純粋な数学に対する知的好奇心だけで売れているわけで、機械学習もこういう感じで行けないかなあと思ってしまうわけです。

すみません、ちょっと自分の趣味に走りすぎましたね。

まあデータサイエンティストを増やすというのは重要ですし、すそ野を広げるという意味で入門的な本がいろいろ出るのはいいことだと思います。 
専門書ばかりだったこの世界に新風を巻き起こしたのはわたせせいぞう氏のイラストを表紙に使ったデータマイニング入門(豊田秀樹著)でしょうか。内容は見ていないのでわからないですが、評判はよいようです。

最近だと、イラストで学ぶ機械学習(杉山将)なんかも入門向けをねらっているのでしょうか。

「イラストで学ぶ機械学習」の宣伝に「黄色本より先に読もう」と書いてあるのですが、黄色本というのはビショップ本のことでしょうか?確かにビショップ本はいきなりバックグラウンドがない人が学ぶにはしきいが高いでしょうね。

ただ、入門書を増やすだけではダメで、大学なんかでちゃんとしたデータサイエンスの教育システムがない現状を
どうにかすることも大事だと思います。統数研なんかはいろいろ取り組みもしているようですが、まだ多くの分野ではデータサイエンスという研究分野の重要性が認知されていない気もします。

と書いているうちに、宣伝すべきことを思い出しました。

文科省科研費の新学術領域研究で、今年度から「スパースモデリングの深化と高次元データ駆動科学の創成」という領域がスタートしました。代表は東大の岡田真人先生で、私もカーネル法による非線形スパースモデリングで計画班を担当しています。

この領域を大きく広げるにあたって、公募研究を募集しています。
全国各地でキックオフシンポジウムや公募説明会が開催されます。先日東京で行われたものは非常に盛況でしたが、今週末(2013-9/29)には京都大学で開かれます。ご興味を持たれた方は是非ご参加ください。

また、公募説明会に参加されなかった方でも、この分野の盛り上がりにもつながると思いますので、公募をご検討ください。

あわせて、私の計画班ではポスドク公募しております。メール等でお問い合わせいただければ詳細に説明させていただきますので、こちらもよろしくお願いします。

注:こんな私が畏れ多くも声優統計という本の序文を書かせていただいたりして、全く失礼しました。声優統計も献本していただいたのですが、さすがに書評を書く知識も勇気も足りません _o_
スポンサーサイト

Rによるベイジアン動的線型モデル

Rによるベイジアン動的線型モデルという本を翻訳者のNTTドコモの萩原さんから献本して頂きました.
直接面識はありませんがありがとうございます.

この本は翻訳本ですがサイズも和書サイズでコンパクトで持ち歩くのも苦労がないというのが大きなポイントです.
洋書はたいてい分厚くて翻訳の時はそれがネックになることが多いです.
ビショップ本もそのおかげで上下巻に分けることになりましたが,この本はフォントを小さくするなどして小さく収めています.

内容はRのパッケージであるDLM (dynamic linear model) パッケージを使ったベイズ流の時系列解析の本です.
具体的にはカルマンフィルタのようなところからパーティクルフィルタ(逐次モンテカルロ)までさまざまな手法が説明されています.
線型モデルに限定しており,一般の状態空間モデルみたいになんでもOKということはありませんが,かなり広い範囲の時系列に適用可能な話になっています.
なかなか機械学習の教科書だと載っていないイノベーション,可制御性や可観測性といった制御理論の重要な概念に言及されていることも特色だと思います.

このブログでも再三パーティクルフィルタの紹介はしているのですが,結局のところ私自身は研究でパーティクルフィルタを使ったことがありません.一応ホームグランドであるRのパッケージということなので,ぜひ今度は何か時系列解析するときには使ってみたいと思います.

原著者序文には,「(訳者の方が)本書をただ読んだだけでなく,内容をチェックし,Rコードの1つ1つの各部分までもテストし,われわれの仕事を詳細にわたって改訂してくれました」と書いてあります.
翻訳本はいくらでも手抜きすることも可能ですが,ビショップ本のように原著を改訂するぐらいの気合でやれば相当いいものを作ることができます. 本書もそのような本になっていると思います. どうしても翻訳調の文になるのは仕方がないところですが,訳語や言い回しなどはかなり苦労された感じで,読みにくいということは全くありません.

こういう専門書は本当は日本人の著者が日本語で書き下ろすのがベストだとは思いますが,昨今みんな忙しくて書く暇がなく(それゆえ岩波本のシリーズも遅れていますが),ページ数の制限などからあまり詳しくも書けません. その点洋書はしっかりと書かれているのでじっくり勉強するのに適していると思います.

ビショップ本を何度か引き合いに出しますが,あの本もビショップの書く力もさることながら,謝辞にちょこっとだけ書かれている Markus Svensen さんという超マニアックな TeXnician がいたから完成したというところはあると思います.
日本だとなかなかこういう執筆体制が取れないということもいい和書がなかなか出ない背景にはあるのではないでしょうか.
ちなみに,残念ながら Svensen さんは Microsoft を退職されたようなのでもう抜本的にはビショップ本の改訂も難しいという状況のようです.

ビッグデータ時代のマーケティング

書評シリーズ第2弾は,これもかなり以前に統数研の樋口先生から献本いただいていた
ビッグデータ時代のマーケティング」という本です.

これは以前に紹介した予測にいかす統計モデリングの基本と同じ講談社からの出版で,専門書と一般向けの中間層をねらっている感じの本です.第1著者の佐藤忠彦さんとは面識はないのですが巻末の紹介を見ると筑波大にいらっしゃるようなので地理的には近いところにいらっしゃるようです.

さて,この本はタイトルにあるとおり前作よりもかなり経済学っぽい概念まで踏み込んだ内容になっており,経済的なことは全く素人でアベノミクスの恩恵も全く受けられていない私が書評するのもなんだか気が引けていたのですが,最近ツイッターで


という書き込みをみつけ, さらにその返信で

というリプライもあるようなので,覚悟を決めて読んでみました.

まず1章がマーケティングの問題を整理して,大量データに基づいて,消費者の個性や時間的な消費行動の推移をとらえるのにベイジアンアプローチ(特に状態空間モデル)が適しているという説明で,まあマーケティングとか全く素人の私でもなんとなくわかる内容です.
そしてデータに基づく解析とマーケティング理論に基づく解析とを融合させる技術としてデータ同化に至るというところで樋口先生の土俵に引きずり込んでいます.

さて,2章以下はかなり数式もたくさん出てきてがっつりとマーケティングの諸場面における解析法について紹介しています.早い段階で識別不能性とかまで言及しています.

個人的に関心があったのは,この本で述べられているような定式化と強化学習(マルコフ決定過程)との関係です.効用関数の推定とかは逆強化学習と関連しそうですし,プロモーションなんかはアクションとして明示的に統一的に扱えるような気もします.本書ではそれとは別のアプローチのように見えますが,解析は非常にうまくいっています.これらの関連性を考察すると強化学習の研究にも何かヒントになることがあるのかなという気がしますが,まだこのあたりちゃんと理解できていません.

本書の位置づけとしてマーケティングに特化したモデリングの説明に十分な紙面を使っているため,アルゴリズムはひと通りは説明されていますが詳しいことは他書を参照せよという方針であり,実際それが適切だと思います.
最初にも書いたようにマーケティングとか全く素人なのでそのあたりから結構つまづいていましたが,大規模データをお金に結びつけるニーズは極めて高く時代の要請に非常にマッチした本だと思いました.

久保拓弥 著「データ解析のための統計モデリング入門 -- 一般化線形モデル・MCMC」

赤穂→星野さん,と続いてしばらく間の空いていた 甘利・麻生・伊庭編「確率と情報の科学」の3冊目
久保拓弥著「データ解析のための統計モデリング入門 -- 一般化線形モデル・MCMC」が発刊され,入手しました.

# 大人気みたいで amazon では現在品切れ状態のようで,納期はしばらくかかりそうです.


↓↓↓↓東大本郷生協で撮影(一部やらせ有り:私の本は多変量解析コーナーにあったので撮影のために並べてみました)
IMG_1672.jpg 


とりあえず半分くらいまで読んだ感想.

著者の久保さん@北大はブログ kubolog でも有名な方で,生態学の統計解析の専門家です.

# その後いろいろ見てたら @KuboBook なる twitter アカウントも発見.


統計解析の考え方を初歩から徹底的にたたきこむ教育的な本です.

前半は一言で言うと「 R を用いた GLM(一般化線形モデル) のすべて」という感じです.

私も最近いろいろデータ解析をやっており,ちゃんとした統計の作法を心得ていなかったりするので,
こういう本は非常に勉強になります.

手法としては GLM だけに焦点を絞って書いていますが,ほかのモデルや手法でも基本的な考え方は同じということで,非常にわかりやすいです.

機械学習などではあまりちゃんとやらない(←こんなことではダメなんですが)検定についても詳しく書かれています.

本書のスタイルは,専門書にありがちな数式の羅列ではなく,R のコマンドラインを軸にした,まさにデータ解析の「たんけん」をしている気にさせてくれるタイプ. 

実際,統計の勉強をしていると,数式とプログラミング(実際の解析)の間の隔たりを感じることが多々あります. 
数式で解説されても実際の解析ができるまでは意外に遠い. 
そういう意味で本書は非常に実践的な本です.

一方,本書がそこらのハウツー本と一線を画すのは,「ちゃんと理解して統計モデルを使う」ということがとことん強調されているところです. 最初の方に「ブラックボックスな統計解析」の悪夢と題して,安易なデータ解析のやり方に警鐘を鳴らしています.

また,個々の手法の仕組みについては本書であえて数学的に掘り下げて説明するということはしていませんが,
必要な参考文献についてはきっちりと参照してあります.
私なんかはどちらかというと実際のデータ解析よりも仕組みの方に興味があるので「カーネル多変量解析」もそちらに偏りがちです.

というわけで後半も楽しみに読んでいきたいと思います.

久保本と併せて,まだお持ちでない方はカーネル多変量解析も是非どうぞ...と最後に宣伝.

「予測にいかす統計モデリングの基本」

今日は今年の4月に講談社から発刊された「予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで」の感想です.

実は発刊されてすぐに,著者の樋口先生から献本頂いたのですが,なかなか通して読む時間がなく今頃になってやっと読み終わったという次第です.

一言で言うと,ベイズに基づく時系列解析についての本です.
中でも,樋口先生が造詣の深いパーティクルフィルタ(粒子フィルタ)とデータ同化を軸に,入門的な事項から実際にデータを扱う際のノウハウまで幅広く書かれています.

実はこの朱鷺の杜ブログで一時期アクセス解析をしていたことがあるのですが,そのときの検索ワードのトップは「パーティクルフィルタ」や「粒子フィルタ」で,それは以前に私が紹介した樋口先生の解説記事を紹介したものが検索に引っかかっているものと思われます.
まあそれだけパーティクルフィルタについて知りたいと思っている人が世の中には多いと言うことなのだと思いますが,今のところ日本語の本でパーティクルフィルタについて書かれたものはそれほど多くはありません.
(私の知っている範囲だと例えば「計算統計 2」の伊庭さんの解説,それから「ビショップ本下巻」にもちょっとだけ紹介されています. また,本書の巻末にも少し参考文献に触れてあります.)

私のところにもデータ解析の相談が舞い込むことが時々あるのですが,そのほとんどは時系列解析なので,こういう時系列解析の入門的&実践的な本は非常に有用だと思います.
時系列に関してはこのほか,強化学習なんかもあまり本がないですし,(時系列とは限りませんが)ノンパラベイズもいい本が出るといいですね.

さて,肝心の本書の中身ですが,易しいところからきっちり書いてあるのでほとんど前提知識はいりません. しかし,前書きにも書いてあるように,最初から一歩一歩積み上げる形で書かれているので「通読が必須」であり,「“つまみ食い”は難しい構成となって」いて,まさに教科書向きに書かれています.

私はあまり実際のデータ解析をやったことがないので,解説をかいてもあいまいになりがちなところも,樋口先生は長年の経験に基づいて断定的に小気味よく説明がされています. 例えばパラメータを最適化する際に「4次元程度までは直接法(メッシュに切って全探索)でやるべきである」というようなのは非常に実践的だなあと思いました.

(細かいところでは「フルベイズ」の説明のところで,パラメータの事後平均推定量をフルベイズと呼んでいるようなのですが,私はパラメータは推定しないのがフルベイズだと思っていました.まあこれは私の勘違いかもしれません.)

そして,最後の方の章に本書の最大の目玉であるデータ同化についての解説があります.個人的にはもっとページを割いてもらいたかったところですが,ページ数の制約などから仕方のないところでしょうか(巻末の参考文献を読めと言うことですね).シミュレーションと統計モデリングの融合という観点は非常に魅力的だと思うのですが,なんとなくシミュレーションが主で統計モデリングが従という感じがしてしまいます. 

まだ数回研究発表を聴講したりしただけなので理解が浅いのかもしれないのですが,シミュレーションが第0近似だとすると(シミュレーションの初期条件やパラメータを決めるのも統計モデルの一部かもしれませんが),その上に統計モデルでさらに精巧なシミュレーションモデルを立てるという感じにはならないのかなあという気がしました.

そもそもシミュレーション規模に比べてデータ数が少ないなど普通の統計的推論とはかなり状況が違うのかもしれませんし,囲みで書かれているように「工学 vs 理学」のようなスタンスの違いなども状況をふくざつにしているのかもしれません.

さて,ご存知の方も多いと思いますが,樋口先生は4月から統数研の所長に就任されています.非常にご多忙な中での執筆だったとことと推察しますが,樋口先生のような第一人者の方がこのように丁寧な本を書かれているというのはすばらしいと思います.

なお,樋口先生には以前にも「統計数理は隠された未来をあらわにする―ベイジアンモデリングによる実世界イノベーション」という本を献本頂いたのですが,これも関連が深い本なので簡単に紹介しておきます (Amazon の「合わせて買いたい」みたいですが^^;).

これは故・赤池先生の京都賞受賞記念シンポジウムの講演をまとめたもので,樋口先生(データ同化),石井信先生(ベイズフィルタ),照井伸彦先生(マーケティング),井元清哉先生(遺伝子ネットワーク),北川源四郎先生(AICとベイズ)という泣く子も黙るようなすごい先生方による第一線の研究の解説であり,非常に示唆に富んだ内容です. ただし,各記事は短いので行間をかなり埋めて読む必要があり,そういう意味では初学者には少しきついかもしれません.

以上,樋口先生関係の本の紹介でした. これらの本を読むとかなり頭がベイズっぽくなるので,これらの本を読んだら毒抜きに(?)ちょっと別の系統の本も読んでみるといいかもしれません.

福水:カーネル法入門

IBIS2010でもチラシが配られていたのでご存じの方も多いと思いますが
福水健次:カーネル法入門-正定値カーネルによるデータ解析-(シリーズ多変量データの統計科学8)朝倉書店
が発刊されました.

タイトルを見れば分かる通り,私の岩波本のライバル本として位置づけられるわけですが,別に執筆業で食べているわけでもないですし,分野の発展としてはこういう本がどんどん日本人研究者によって出版されることは喜ばしいというわけで宣伝しておきます.
(わざわざブログで取り上げる理由としては,福水さんと親しいからとか,献本してもらったから,ということは全然...あります^^; ちなみにすでに持橋さんがブログで感想を書いておられます)

岩波本の出版時期はちょうど2年前のクリスマス商戦の時期でした. やはりカーネルというとケンタッキーにあやかってクリスマス商戦にぶつけるというのが作戦なのでしょうか(ということは全くないと思います^^;).

情報源は定かではないですが,某大学では科研費で「入門」と名のつく本を買うことはまかり成らん,という摩訶不思議な決まりがあるそうです. たぶん「まんがでわかる...」とかその手の初心者本を想定しての決まりだと思いますが,福水本はこの決まりに対して強烈なアンチテーゼと言えるほどの格調の高さがあります.

岩波本では初期の原稿で再生核ヒルベルト空間の導入が2章にあったのですが,初学者の便宜を考えて後回し(6章)にしました. 福水本ではその辺は割り切って2章にカーネルの理論の基礎事項をがっつりと持ってきています. 確かに最初に導入しておいた方が後の説明は楽になります. 例えが適切かどうか分かりませんが,ディズニーランドのアトラクションで言うと,岩波本が It's a small world 並のゆるさに対して,福水本はスペースマウンテンみたいなジェットコースター形式です. 最初に急な坂を登っておいて,あとはダッシュで下るイメージです. 

どちらがいいということはなくて,読者のバックグラウンドや好みに応じてどっちのアトラクションを選ぶかということだと思います. 岩波本の感想でも「6章から読んだ方がわかりやすかった」という方が(数学の得意な方が中心ですが)結構いらっしゃいます.
岩波本は数学的に難しい表現はできるだけ避けようとして,逆に表現があいまいになっているところが多数ありますが,その辺りは福水本はきっちりと漏れなく書いてあります.
岩波本の著者としては,岩波本でざっと全体を眺めてから,よりきっちりした記述を福水本で補う,といった使い分けをしていただければ幸いです.

岩波本のサポートページも中途半端な感じで放置してありますが,「福水本のここを参照」とか書いておけばいいような気がしてきました.

もちろんカーネルに関してより造詣の深い福水さんが岩波本より2年遅れで出しているわけですから,岩波本にない題材もかなり入っています. 以下その辺りをざっと書き出しておきます.

2章に関しては,岩波本では省いた複素数値カーネルについても書かれています.命題2.9にあるカーネルの連続線形汎関数を用いた定義は岩波本のサポートページでも少し触れていますが美しいですね. あと,岩波本では導入しなかった Sobolev 空間の導入(sec.2.2.3)は10章のスプラインとの関連を述べる上ではかなり重要で,岩波本ではこれを適当にごまかしています(岩波本p.171, sec.7.2(b)).

いわゆる多変量解析手法は3章と4章に短くまとめてありますが,実用上重要なものとして,sec.3.6 のグラム行列の低ランク近似があります.カーネル法は結構計算量が大きいので,インプリメントの際にも大いに参考になる部分です.(これについては鹿島さんらにお願いした信学会の招待論文にも詳しいです)

6章はカーネルの理論についてより詳しい話がいろいろと載っていますが,Hilbert-Schmidt 作用素については後の章で重要な概念なのでざっと理解しておくことが大切です.

そしてなんといっても福水本のハイライトは8章と9章にあります.福水さん自身がかなりの貢献をしている分野で,条件付き独立性についての数学的に厳密な扱いです.岩波本では p.82, sec.3.5(c) に約1ページでさらっと書いてあることをふくらませて,条件付き独立性検定・因果推論・(線形)次元削減などへの応用に発展させています.

あと,全体に研究の歴史や最新動向については岩波本では省略している部分で(私の不勉強ゆえですが),参考になるところが多いです.

一方,岩波本にあって福水本にない題材は少ないのですが,情報幾何絡みの話(岩波本 p.160, sec.6.3)はマニアックなものとして挙げておきます.

なお,前のブログエントリーで予告してあった統計数理の機械学習特集号 が発行されており,pdf もダウンロードできますが,福水さんも「正定値カーネルによるノンパラメトリック推論」というタイトルで研究詳解を書かれていますので福水本のサマリーとして参考になる部分も多いと思います.

パターン認識 (Rで学ぶデータサイエンス 5)

R については以前にも少し触れたことがありますが、最近 R に関する本が雨後の竹の子のようにたくさん出てきてどれを選んだらいいかよくわからない状態です。

そんな中、共立から最近出た パターン認識 (Rで学ぶデータサイエンス 5) を入手しましたので紹介します。

著者の金森、竹之内、村田の3氏は統数研の江口先生と共に U-divergence を用いたブースティングで有名で、私も個人的に知り合いです。
本には当然ブースティングも入っていますが、クラスタリング、判別分析、ロジスティック回帰、k-近傍法、LVQ, 決定木、SVM などの機械学習の基本的なアルゴリズムが網羅されています。

このシリーズがややこしいのは、既刊にマシンラーニング (Rで学ぶデータサイエンス 6)というのもあることで、こちらは統計や平滑化などの著書で有名な辻谷 将明,竹澤 邦夫両先生の著によるものです。 SVM とニューラルネットは入っていますが、基本的には伝統的な統計手法の本です。 というわけで題名からするとなんだか紛らわしいので、著者の研究分野と目次をよく見て買った方がよいと思います。

さて「パターン認識」本に話を戻すと、まずいきなり1章は評価法の説明で、ROC とか AUC とかからはじまります。 ただしまえがきによると「初学者は1章はとばせ」と書いてあります^^;
その後の章はそれぞれの手法をオムニバス式に並べて、必要に応じてどの章から読んでも大丈夫なようにできています。 手法の説明はすっきり明快であまりくどくないのがいいです(初学者にはちょっときついかも)。 とりあえずプログラムがあるので百聞は一見にしかずということでしょう。逆に言うと全体のストーリーを追うというような読み方には向いていないです。

最近の話題では、パス追跡アルゴリズムとミニマックス確率マシンが入っているのが目新しいところです。 この辺りは岩波本のサポートページでも書いておかなくっちゃと思っていたところなので、この本で勉強してまとめておこうと思いました。
あと、多値判別のために ECOC を実装しているのですが、復号にコントラスティブダイバージェンス・平均場近似・MCMC というマニアックな手法を使っていて、入門者にはマニアック過ぎだろうとか思いましたが、この辺りは最後の方なので専門家向けという面もあるのでしょうね。

それにしても R のコードの整備は大変だったろうなと思います。
まあ、この3氏は私と違って几帳面な性格ですからバグや誤植も少ないことでしょう。(パターン認識のサポートページはこちら)
一応私が昔作った Splus 向けの混合分布のコードを参考にしてくださっている部分があり、それで謝辞に入れていただいており恐縮しています。
90年代に書いたコードなので kernlab とかで使われている S4 メソッドではなく、古い S3 のメソッドを使っているところが少々恥ずかしいところです。



ところで、ついでに山ほどある R 関係の本もちょっとだけレビューしておきます。
RjpWiki のページに R 本リスト という完全リストがあります。

言語の解説と手法の解説のどちらに重点があるかでもいろいろ違いますし、バイオインフォとかマイニングなど特定の目的向けに書かれた本もあり、どれがいいというのは一概に言えないです。

R 言語自体の解説として、私のまわりでわりとバランスがいいのはやや古めですがRの基礎とプログラミング技法で、これを卒業するレベルくらいになると、グラフィックスについては久保拓弥さんが訳して最近出版されたRグラフィックス ―Rで思いどおりのグラフを作図するために―が決定版という感じです。
一方、言語自体のレファレンスとしてはRの普及に尽力されている間瀬先生のRプログラミングマニュアル (新・数理工学ライブラリ 情報工学)が定評があります。

統計関係では、やはり間瀬先生などが書かれた工学のためのデータサイエンス入門―フリーな統計環境Rを用いたデータ解析 (工学のための数学)をしましまさんに見せてもらって統計初心者向けの教科書としてわかりやすそうな感じでした。Rによる統計解析は、丁寧な解説で定評のある青木先生の書かれた本で、しっかり統計を勉強するのによい本です。

まあ共立本のようにタイトルが必ずしも中身をあらわしていないということもあるし、上の評価もあくまで私の周りでの評価なので本屋さんで実際に手にとって見るというのが一番なんでしょうね。
岩波本のようになかなか本屋さんに置いてない場合はとりあえず買ってみるしかできないでしょうけど^^;、R の本ならわりと小さな本屋さんでもいっぱい並んでいると思います。

本:パターン認識と機械学習 (翻訳上巻) 予約可能

本の宣伝です.

Bishop 本と呼ばれる Pattern recognition and machine learning (Springer)
の邦訳:パターン認識と機械学習(ベイズ理論による統計的予測)の上巻が
シュプリンガージャパンから12月発売予定で Amazon で現在予約可能です.

私は最初の基本の1章を翻訳しましたが,後の専門化した章には
選りすぐられた若手の(一部ベテラン?)機械学習研究者が担当しています.
また,監訳者には泣く子も黙る大御所的な先生方にお願いしてあります.

翻訳版の特徴(ほかにも特徴がありますが出版社のページをみてください):
・各章にはそれぞれの訳者のカラーがそれなりにでています.
(監訳者二人によるダブルチェックとシュプリンガーの担当者による
校正によって翻訳の質は上がっていますが,基本的には翻訳者独自の特色が出ています.
というわけでただの訳本とはひと味違うと思います.
章ごとの違いを楽しむというマニアックな楽しみ方もできます.)
例:1章では密かに原著の p(x|y) を p(x\mid y) にするなどスペーシングに凝っています.
好みもあるでしょうが... ってこれは翻訳とは関係のない話ですね.
・原著の誤植や本質的な誤りについて徹底的に議論を尽くし,適切に修正されています.
この翻訳プロジェクトによって発掘された誤植は非常にたくさんあります.
また,原著でわかりにくい部分は訳注によって補われています.
追記:しましまさんのコメントにあるサポートページ(朱鷺の杜Wiki内)をリンクしておきます.

というわけで原著を持っている人にもそれなりに楽しめると思います.

夏の間はこの翻訳でかなり消耗しましたが,翻訳の発案者であり根回しを始め
全体の統括管理を行ったしましまさんはもっと大変だったでしょう
(現在も下巻の刊行に向けて努力されています). ごくろうさまです.

できれば日本人著者によってこのような本ができるといいと思いますが,
機械学習分野には(特に入門レベルの)いい教科書があまりなかったので,
しばらくはこの本が機械学習のデパート的な本としては基本となるでしょう.
Duda and Hart の邦訳もあったが,絶版になってしまった)
この本の知識があれば,より進んだ内容の Hastie 本や岩波の統計科学の
フロンティアも読みこなせるようになると思われます.

学習システムの理論と実現(第2刷)

学習システムの理論と実現が8/31付けで第2刷となりました.
ご愛読ありがとうございます(といって一人で書いているわけじゃないけど).
今回も一応誤植修正があったのですが,校正当時に忙しかったのと,刷の更新ということで最小限の修正のみです.

知っている人からの評価は概ねいいのですが,ネガティブなコメントとしては,
・初心者に勧めるには内容がきつい
・網羅的ではない
とかいうのが多いですね.
以上はまあ教科書ではないということで仕方ないですね.
・逆に専門家にとっては詳しいところまで書いてない部分がある
という意見もあり,これはこの厚さからすると仕方ないところではあります.

教科書としては最近出た Bishop 本をしましまさんに見せてもらいましたが,まあいい感じです. ただ相当重いです(内容ではなく). Hastie 本より一回り大きく Duda Hart より重いかも. もし買ったらここにも review を書こうと思います.

学習システムの... は持ち歩くにはハンディでいい本ですね.
最近も能動学習の勉強をするのに持ち歩いて読んでました.

朱鷺の杜wiki は教科書的な説明もあるのですが,やはりパラパラ読めないのがちょっと辛いですね. 私も更新をずっとさぼっているし(しましまさんはじめ更新してくださる方々に感謝).
全体をオーバービューするページがある程度必要かも.
「情報量」「最小2乗法」「相関係数」とかはそれなりにまとめて書いたんですが. 全体の中に埋もれてしまうし.
ツリー表示とかも可能ですがイマイチ汚い.
こういうのも web2.0 技術が進めば見やすくなるんでしょうか.

渡辺澄夫:代数幾何と学習理論(森北)

先日 Amazon で別の本を買おうとしているときに,勧められて当然のごとく即予約してしまった,渡辺先生の代数幾何と学習理論(森北)が今日届きました.

以前書かれたデータ学習アルゴリズム(共立)の方はわりと学習全般について書かれた部分が多いのですが,今回は代数幾何の部分に特化して詳しく書いてあります. 私なんかは今度の方がすっきりした書き方なので好きですが,初心者には結構きつい部分もあるかもしれません.

この本では「学習理論=ベイズ汎化誤差解析」としており,これはこれである種の潔さを感じますが,この意味をそれなりに理解しておく必要はあります. あと,学習係数は最急降下法のときのステップ幅のことではなく,確率的複雑さの主要項の係数を指しているので多少注意が必要.

あと,学習理論に関係ない人でも3章代数幾何,4章超関数,5章経験過程はそれぞれの非常によい入門になっていると思います. 私なんかはどちらかというと初等数学の範囲内で直感的にものごとを調べるのが好きなタイプなのですが,それだとどうしても厳密性とか欠ける部分が多いのでこういう本でちゃんと勉強することは大切だと思います.
次のページ

FC2Ad

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。