2018-10-30

KDD2018 アドテク関連レポートを書きました

職場のブログにKDD2018参加レポートを投稿しました。主にアドテク業界の人向けに書いてあります故、SSPやDSPといった用語の説明が無いのはご容赦ください。


このエントリーをはてなブックマークに追加

2018-10-21

何故予測が当たるだけではマズいのか、因果と機械学習

KDD2018の感想です。AdKDDやネット広告方面は職場のBlogに書くので、こちらは他の話を。今年は因果推論のチュートリアルが超満員だったり、予測モデルの差別、解釈性と説明性「interpretable and explainable machine learning models」が注目されたりと単に予測するのでは無く運用課題の話が増えたのが印象に残っています。

リスク予測とインセンティブデザイン


上の写真はDavid Hand氏による講演「Data Science for Financial Applications」の一場面です。自動車保険の保険料が女性に比べて男性が高い事に抵抗して行政上の性別を変更した男性*3の例が紹介されています (NEW YORK POSTの記事)。
事故を起す確率が高いと予測された顧客に高い保険料を課すのは自然なアイデアです。しかし事故発生確率と因果があるのは運転中のふるまいや走行時間であり、行政上の性別ではありません。運転中のふるまいを計測して保険料に反映していれば*1男性は安全運転をする事で低い保険料が得られました。相関はあるものの*2事故と因果の無い性別を利用して保険料を算出した事で、安全運転よりも性別を書き換える方にインセンティブが生まれてしまった例で興味深かったです。

Anti-Discrimination Learning

機械学習モデルによる差別の話。チュートリアルの一つに「Causal Modeling based Anti-Discrimination Learning」がありました。相関ベースの物は知っていたのですが、Causal Modelingベースの物は知りませんでした。同じ時間帯は因果推論のチュートリアルに参加していたのでこちらは後で資料を見ました。

From: Anti-discrimination Learning: From Association to Causation
Fairnessの文脈でローンの融資可否判定機はよく出てきますが、融資可否の判定で収入のみが "explainable" な効果と表現しています。人種・住所がデフォルト率に相関があるため貸し倒れリスクの計算には使えるが、人種・住所が原因で融資を拒否するモデルでは説明がつかないという例。ちなみに彼らの手法はprotected attributeを変えた時の結果への影響の差を利用して予測モデルに差別があるかどうかを検出するといった物でした。

予測が当たれば良いケース

Applied Data Science Trackの医療系セッションで緑内障診断のために網膜の厚さから視野感度を推定する事例*4が紹介されました。医療系では医師が予測モデルの出力を理解できるよう、説明性・解釈性が重要とよく説明されますが、そもそもメカニズム不明の疾病であれば相関を使って低コストで予測できる事に十分な意義があるんだなと感じました。

まとめ

機械学習予測モデルが様々な場面で利用されるようになったため、我々開発者はより注意深く要件を見極める必要があります。予測モデルの出力が何に使われるのか、その値が誰にどんな影響を与えるのか。予測が当たれば良いのか、因果関係が必要なのか、顧客への説明性が重要なのか。製造業では不具合の根本対策が求められるため、異常を検知できるだけの予測屋では不十分だと聞いた事があります。そういった現場ではモデルのinterpretabilityとセットでcausalがより求められるでしょう。
因果推論と機械学習の組合せは個人的に興味のあるトピックなので引き続き追っていきます。

注釈と参考文献

[1] 現在ではtelematicsと呼ばれる機器を利用して運転中のデータを保険会社に送るのが一般的なようです。これを装備しない場合は保険料が高くなる。

[2] 前提として機械学習では目的変数と相関のあるデータがあれば予測が可能になる。

[3] Man legally changes gender to get cheaper car insurance: report

[4] Estimating Glaucomatous Visual Sensitivity from Retinal Thickness by Using Pattern-Based Regularizat.


このエントリーをはてなブックマークに追加