2017-08-28

KDD2017感想 Tutorial Day: Asking the Right Business Questions?

データマイニングの国際会議であるKDDに参加してきました。まずは1日目のチュートリアルの感想です。

From Theory to Data Product: Applying Data Science Methods to Effect Business Change. 

http://www.t4g.com/kdd2017/

ビジネス現場におけるデータ分析プロジェクトをいかに回すかといったテーマ。T4Gというカナダのコンサルティング企業が実際に使っているフレームワークに沿った内容で、次の3部構成。
  1. プロジェクトの初動に何をすべきか。業界とトップダウン or ボトムアップで何が変わるかのケーススタディ
  2. 具体的なアクション導き出すための「Right Question」
  3. アジャイルプロセスを応用した意思決定
講義に加えてそれぞれの課題が渡されてグループディスカッションを行なった。どちらかといえば、現場リーダー向けの話。

参加者は20名程度で他のチュートリアルと比較すると少なかったが、内容に対する反応からほとんどは実務者である事が見てとれた *1。そして常日頃から「実装に集中したいから、腕の良いプロジェクトマネージャーが降ってこないかな」と思っている自分にとっては得るところが大きかった。特にプロジェクトの具体的なアクションを決める際の「Right Questionの導出」のくだりが印象的だった。そこからActionableで実行すると計測可能な結果が得られる物とせよ、という話に続く。

プロジェクトで具体的に何をするか(作るか)を決めるのは難しい。所謂データ分析チームで仕事をはじめて2年経つが、半年以上かけて開発に取り組んだ予測器が実は不要だったケース、課題解決のアプローチを間違えたまま進めて成果に繋がらなかったケースを見てきた。
例えば「事業の粗利率が低い」みたいな課題があったとして、タスクをKaggleの出題レベルの粒度まで分解して落とし込むには課題解決のための道筋と具体的なアクションを決める必要がある。しかしこの能力はKaggleのランキングの様に可視化されない物であるし、能力のある人間の採用も難しい気がする。そもそも職場でコンサルっぽい職種の採用をしていないので、迷いなくコードを書くためには自分ができるようになる必要があるなと思った。

参考: T4G: Are You Asking the Right Business Questions?

A/B Testing at Scale

http://exp-platform.com/2017abtestingtutorial/

午後はMicrosoftのプロダクト改善にまつわるA/Bテストの話。月に1,000個のA/Bテストを回せるシステムがどうなっているかというと、いろいろ凄かった。
実験対象のユーザー群の抽出がシステム化されており、過去のデータを使ってA/Aテストをして即座に実験が開始できるようになっていたり。ユーザーを保護するために結果の悪い実験のアラート通知と自動停止。相互作用のある実験を同時に流すとテストにならないため、実験同士の相互作用を検出したり。
システムの話だけでなく、プロダクト改善のためには何を指標として計測すべきかという根本の話もあって良かった。

本会議のセッションでも統計的検定やp値ハック、因果推論とからめた施策の効果測定ネタがあったので、データマイニング界隈でホットなトピックの一つなのだと感じた。

2日目の感想、AdKDDのまとめに続きます。

----
*1: グループ課題の問題文の1行ごとに「Flequently……」と呟く人がいて面白かった

このエントリーをはてなブックマークに追加

2017-08-01

人工知能学会誌に「アドネットワークにおける広告配信計画の最適化」という記事を寄稿しました

人工知能学会誌の特集「広告とAI」に仕事でやっている事について寄稿しました。



詳しくは職場のブログに。

このエントリーをはてなブックマークに追加

2017-07-12

DATUM STUDIO Conference 2017で講演してきました

お仕事の事例紹介になります。

発表といえば普段はエンジニア向けの内容になるのですが、今回はエンジニアはほぼいないだろうという見込みがあったので悩みました。 結局はいつもと変わらないスタイルに、後で面白かったと感想がもらえて安堵しました。


正直、他のスピーカーの経歴と肩書が凄くてびびった。

発表スライド

感想

普段Web業界の事例ばかり見ているので、映画の興行収入の予測であったり、養殖している魚の成長予測といった話は新鮮だった。 中古車の買い取り業務、魚の養殖の餌やりといった職人の勘の世界だった物が予測モデルに置き換えられていく過程は面白い。

自分はエンジニアなので分析といえばPythonやR使ってガリガリやるイメージが強かったが、統計モデリングソフトを使ってコードは書けないけど統計はわかるという人が分析しまくってる世界があるのを知れてよかった。

このエントリーをはてなブックマークに追加

2016-12-06

報酬が線形モデルで表せる時のバンディット問題

バンディット問題の理論とアルゴリズム』本の,報酬がなんらかの特徴の線形モデルによって表現される場合に使える線形バンディットが前から気になっていたので輪読会で発表担当をするなど.

スライド


アルゴリズムの実装と人工データによる実験

感想

行動(腕)毎の報酬を推定するのでは無く,報酬モデルのパラメータを推定するという方策.妥当なモデルが作れたら実際に使えそうな感触.
実装は一発書きおろしで検算をしていないが,一応それっぽく動いた.ラプラス近似の処理が重いので勾配ベクトルとヘッセ行列の計算過程はキャッシュしておかないとつらい.
LinUCBかThompson Samplingかどちらを使うかというと,報酬が同期で観測できない広告配信は後者一択で,報酬が二値の場合はロジスティック回帰モデル方策がよさそう.あとはクリックやコンバージョンを線形で表現するための特徴量が上手く見付かればいいのだが…….

さらに現実的なケースとして9章には報酬が時間変化する例もあるので,続きも読んでいきます.

バンディット問題の理論とアルゴリズム (機械学習プロフェッショナルシリーズ)バンディット問題の理論とアルゴリズム (機械学習プロフェッショナルシリーズ)
本多 淳也,中村 篤祥
講談社
売り上げランキング : 79416
Amazonで詳しく見る by AZlink


このエントリーをはてなブックマークに追加

2016-11-22

IBIS2016 ポスターセッションのメモと感想

講演セッションのメモの続き

ポスターセッション

  • D1-64: ニュース・動画サービス間のクロスドメイン推薦における課題
    • Yahoo! ニュースのデータを元にGYAOのリコメンドモデルを作るという問題
    • Dmain Adversarial Trainingとか言うらしい。
    • 一つのDNNのモデルを、ヤフーニュース、GYAOの両方の素性を食わせても同じ結果がでる様に訓練するアプローチ
  • D2-57: 転移学習を利用したクロスドメインレコメンデーション
    • クロスドメイン推薦
    • サービスAとサービスBの二つのドメインを結びつける変換行列を求めて、それを予測に利用する
  • D1-49: Scalable Clustered Multi-task Learning
    • マルチタスク学習。店舗毎のデータサイズが14と非常に疎ではあるが、全ての店舗をまとめて学習する事でうまくいっている。
    • 広告配信でもコンバージョンは非常にスパースなので、スパース+マルチタスク学習は相性がいいかもしれない。
  • D1-39: クリックフィードバックを用いた記事の地域性推定モデルの構築
    • ローカルニュースの配信最適化のために、ニュース記事と地域性の関係性を学習する。訓練データはクリックをした端末の位置情報とニュース記事のBoW表現のため、全自動運転できるのがメリット。結果からは単純に記事中に出てくる地域名とのマッピングでは求められないような関係性が見いだせるのが面白い。
  • D1-6: VAEとGANを活用したファッションアイテムの特徴抽出と検索システムへの応用
    • 画像+テキスト検索。画像で表現した方が良い物と、テキストで表現した方が良い物、それぞれ利用できるため利用シーンはファッションに留まらないと思う。
  • D2-5: Large-Scale Price Optimization via Network Flow
    • すごい。ある商品Aの値段を変えた時の、他の代替品の需要増加or減少までモデルに入れた価格調整アルゴリズム。従来の手法では計算が遅すぎたが、劣モジュラを利用した最適化問題とする事でスケールさせる事に成功。既に案件に投入しているとの事。
  • T2-18:バンディットアルゴリズムを用いたメンテナンスタイミング適正化
    • メンテナンス対象の機器の故障傾向がわからない問題設定、これをバンディット問題として解く。各腕を1日目にメンテ、2日目にメンテ、3日目にメンテ … と置く変則型。時刻tはメテナンス試行回数目に相当する。実際に損失は減ったとの事。
  • D1-19: 区間値公開による安全な予測値公開メカニズムと差分プライバシーメカニズムの有用性による比較
    • 診断アプリの様なユーザーの特質Xを入力して結果Yが得られるアプリケーションにおいて、結果Yから特質Xが特定できてしまうのを避ける方法。

このエントリーをはてなブックマークに追加