2023/03/06
「応用基礎としてのデータサイエンス」宣伝 & 公平性の受賞 & 就活完了
まずは本の宣伝講談社から先月発行された「応用基礎としてのデータサイエンス」の機械学習のセクションを執筆しました.
これは数理・データサイエンス・AI教育強化拠点コンソーシアム というデータサイエンス教育を振興する枠組みに沿ったテキストになっています(放送大学とかもこれに準拠しています).
以前に同様のコンセプトで発行されてベストセラーになっているらしい「教養としてのデータサイエンス」 の続編という位置づけです.
最初にキーワードだけ指定されて,各著者は割と自由に原稿を書くというスタイルでした.
ただし,いろいろ重複する部分とかもあって,一部削除したり詳しくしたり,用語を統一するなどの調整が行われました.
まあ大事なことは何度でも言うという感じで,いくつかの話題については複数のセクションに登場するものもあります.
かなり広い分野を俯瞰できる内容となっているので書店とかで手に取ってみてください.
***
次に公平性の話です.
2022 年の ECML-PKDD という国際会議で Test of Time award という賞を受賞しました.
(リンク先の私の名前がタイポってますが,まあこういうの慣れてるんで笑)
この賞は10年前に出版されてインパクトが大きかった論文に送られるもので,まあしましまさんの先見の明が認められたものだと思います.
自分自身は研究にあまり社会性を持ち込まないのですが,技術的な部分で目から鱗が落ちたのは,公平な確率モデルが必ずしも公平ではないと気付いた瞬間でした.
どういうことか簡単に説明します.
まず,入力 X, 出力 Y, センシティブ情報 S があったとします.
例えば,ある人にお金を貸せるかどうかを決める学習マシン P(Y|X ,S) を作るような想定で,X が個人の属性情報, Y はお金を貸せるかどうか, S は人種みたいな情報とします.
Y と S が独立になれば公平であると言えるので,P(Y, S) = P(Y) P(S) を満たすように学習を行えばよいように思います.
ECML-PKDD で受賞した論文はこれを正則化項としてできるだけ等式に近づけようというコンセプトでした.
しかしながら,確率モデルとして P(Y, S)=P(Y) P(S) となったとしても,実際にお金を貸すかどうかは決定論的に行われるのでたくさんの人に対してこの学習モデルを適用した結果は公平にはなりません.
例えて言うと,いびつなコインで70%で表,30%で裏のとき,賭ける際に一番得なのは常に表に賭けるということと同じことです.
この辺の話は actual independence と呼んで,その後の論文で考察しています.
***
最後に自分の就活の話です.
以前のエントリーで産総研は定年が60歳なので,その後働きたければ就活をしないといけないという話を書きました.
その後いろいろ活動して,2023年3月1日付で統数研に着任しました.
正確に言うと,情報システム研究機構のデータサイエンス施設が本務で,統数研に兼務するという状態です.
また,さらにややこしいところですが,産総研にも籍を残すというクロスアポイントメントという制度になっていて,表面的には職場環境は何も変わらないという状況です.
クロアポ実現に至るまでの経過とかについては,ここには書けないことも多いのですが,特に統数研側で私の個人的な都合のために御尽力いただいた先生方には感謝しかありません.
データサイエンス施設および統数研での主なミッションはデータサイエンス教育ということなので,最近放送大学とか教科書書いたりとかしているのでその辺のスキルは活かせるかなと思います.
まあまだ始まったばかりなのでよくわかっていない部分もありますが,何か面白い話がでてきたら報告します.
今日は産総研のことをもう少し書きます.
実は国家公務員の延長を受けて定年延長という話が進んでいます(どこまで公開情報かがわからないので詳しくは書きませんが).
ただし,私の場合は65歳までは勤められないようで,また人件費の関係だと思いますが60歳を超えると給与もだいぶ目減りしそうということでまあ統数研に移籍したのは正解だったと思います.
あとは,現在のオフィス環境がかなり快適というのも大きいです.
産総研はお役所的な体質が強くて,研究所としてのマネージメントとして???と思うことは多々ありまし,最近は社会実装という名のもとにとにかく役に立つこと優先の風潮は強いです.
しかしながら,私が30年以上過ごしているこのフロアは産総研の中の異空間とも言える場所で,時間の流れや空気感がほかとは全く違います.
そこに棲む地縛霊としてもうしばらくこのフロアを見守りたいと思っています.