2019-05-14

「戦略的データサイエンス入門」がOJTの参考書として良さそうだった

配属された新人氏に勧められるか確認すべくあらためて読み直した。データサイエンスのビジネス適用という主題で様々なトピックに触れているが自分は次の3点に注目した。

  • ビジネス課題をどのようにデータサイエンスの手法で解決するか、どのように対応方法がわかっているサブタスクへ分解するかのアプローチ
  • モデル評価の方法
  • データサイエンス組織の運用・育成
感想はサービス開発現場のソフトウェアエンジニアとしてのものです。まずは書籍の基本情報と目次。

戦略的データサイエンス入門
―― ビジネスに活かすコンセプトとテクニック
オライリー・ジャパン
Foster Provost、Tom Fawcett 著、竹田 正和 監訳、古畠 敦、瀬戸山 雅人、大木 嘉人、藤野 賢祐、宗定 洋平、西谷 雅史、砂子 一徳、市川 正和、佐藤 正士 訳
O'reilly
原著: Data Science for Business

目次

1章 はじめに:データ分析思考
2章 ビジネス問題とデータサイエンスが提供するソリューション
3章 予測モデリング:相関から教師ありセグメンテーションへ
4章 モデルをデータにフィットさせる
5章 オーバーフィッティングとその回避方法
6章 類似度、近傍、クラスタ
7章 意思決定のための分析思考:良いモデルとは何か
8章 モデル性能の可視化
9章 エビデンスと確率
10章 テキスト表現とテキストマイニング
11章 意思決定のための分析思考Ⅱ:分析思考から分析工学へ
12章 その他のデータサイエンスの問題と技法
13章 データサイエンスとビジネス戦略
14章 おわりに

感想

まず前書きでデータ活用の3要素が提示されており、ぐっと惹きつけられた。
  • データを効率的に収集・処理する事
  • データを適切に取り扱い、妥当かつ汎用的な成果を残すこと
  • データをビジネスの枠組みの中にうまく組み込むこと
まさに自分が成すべき事そのものである。そして1章はデータサイエンスによってどの様な成果があげられるのかという具体例を上げ、またデータが投資対象である旨を説明している。得られた成果よりも日々のストレージコストの方が高かった、といった事があると困るので投資と回収の感覚は身につけたい。

2章はデータサイエンスプロジェクトの序盤で必要なソリューション設計について。ビジネス課題を解決方法がわかっているタスクに分解し、解決できる状態にする能力が重要であると述べている。このトピックに焦点を置いた文献はあまり知らないので非常に貴重だと感じた。他にも良い文献があったら知りたい。

7章のモデル評価の章ではモデルを実際に利用した時に得られる収益の期待値を使って評価を行なう方法を紹介している。Accuracy, f1-scoreが単純すぎて使えないというのは自分も実務で試して経験したので先にこの本を読んでおけばと思った次第。また学習曲線・over-fitting検知用のフィッティンググラフといった常識的に確認しておくべきポイントは押えてあるのが良い。11章ではさら進んでLiftを使ったモデル評価にも言及している。

ナイーブベイズ・SVM・ロジスティック回帰といった個別アルゴリズムの詳細には触れていないが例えば「ナイーブベイズが素性間の独立性を仮定しているのに上手く動作するのは何故か?」といったエッセンスについては数式込みで紹介しているし、前処理の章は無いがリーク(leakage)については事例を交えて解説がある塩梅。

2章と13章ではデータサイエンスチームの運用・チームメンバーの能力評価に触れているのと、付録にあるデータマイニングプロジェクトに対するレビュー項目リストは便利そう。関係者とのコミュニケーションにおける要所が都度補足されているのは親切だなと。

総じて「大学で機械学習をやっていたがサービス開発現場でやるのは初めて」というの人にはオススメできる内容で、150を越える大学で教科書として採用されているだけはあるなと思いました。

このエントリーをはてなブックマークに追加