2015-06-12

弱くてニューゲームしてアドテクエンジニアになりました

近況。2015年からアドネットワークのデータサイエンスチームにおります。前の部署ではメディア寄りの所でモバイルアプリの開発をしていたので、ほぼ転職に近い状態です。アドネットワークなにそれという方向けの説明としては、広告主と広告枠をまとめていい感じにディスプレイ広告を配信するシステムだと思ってもらえれば。

現在のミッション

データ分析や広告配信アルゴリズムの改良というアプローチでアドネットワークの収益改善に取り組むのがミッションです。会社ブログにMortal Multi-Armed Banditsの記事を書いた頃は多腕バンディットアルゴリズムの調査や実装をしていました。

データサイエンスといっても、いきなり機械学習を使った仕組みをプロダクションに投入できるかというと全くそんな事は無く、ログの収集と解析基盤を構築する所からでした。まっさらなAWSアカウントでCloudFormationテンプレートを書いて、VPCやサブネットを切っていたのが2月頃。その間に並行して勉強も進めました。

弱くてニューゲーム

データ解析系の業務に興味はあったものの、経験は無く実力としては新卒以下。2011年に画像認識の論文で機械学習を知り、興味本位で勉強会に参加してみたもののPRML(後述)はニューラルネットが理解できず挫折し、Andrew Ng先生のオンラインコースは課題提出が間にあわず途中で落第する始末。それから3年経って仕事になるとは、どう転ぶかわからない物です。

解析系スキルとドメイン知識は1から修得しないといけない一方、新しいデータを得るために広告表示のJavaScriptコードに機能を追加したり、Scalaで動いてる配信サーバーにも手を入れたりします。このあたりは人に頼まなくても自分でやれてしまうので楽。広告表示のJavaScriptは流行りのライブラリなど一切使わないので、ECMAScript標準とDOMをおさえておけば書ける、元DOM職人としては血が騒ぎますね。

面白い所

扱うデータの量が今まで(そこまでヒットしていないサービス開発)とは桁が違う。マルチコアを使い切る、かつサーバーを横に並べればスケールするプログラムを書き、c4.8xlarge複数台並べてログの処理をするのは爽快。しかしそれも最初だけなので、新鮮な気持は忘れないでおきたいですね。

あとは論文が読める点。アドテク業界はプレイヤー同士がeCPMを高めるために金と計算機とアルゴリズムで殴り合いをしている様な物ですが、論文という形で成果が発表されるので、読みまくれば勉強になる。読むだけなのも何なので数年以内には書いてみたい。

読ん(だ|でいる)本をいくつか

ザ・アドテクノロジー~データマーケティングの基礎からアトリビューションの概念までザ・アドテクノロジー~データマーケティングの基礎からアトリビューションの概念まで
菅原健一,有園雄一,岡田吉弘,杉原剛
翔泳社
Amazonで詳しく見る by AZlink
アドテクノロジー プロフェッショナル養成読本~デジタルマーケティング時代の広告効果を最適化! Software Design Plusアドテクノロジー プロフェッショナル養成読本~デジタルマーケティング時代の広告効果を最適化! Software Design Plus
養成読本編集部
技術評論社
Amazonで詳しく見る by AZlink
どちらもネット広告の進化の歴史と要素技術をざっと見わたせる。THE AD TECHNOLOGYは広告全体におけるオンライン広告の位置づけ、マス広告・オフライン広告との関連にページが割かれているので広告業界初心者には良い。

プロフェッショナル養成読本シリーズは、どちらかと言えばマーケッター向けの内容だった。表紙がスーツマンなのはそういう事か。クロスデバイスターゲティング等のスマホ回りの仕掛けは載っていないので、スマートフォン向けの広告をやっている人は物足りないかも。

パターン認識と機械学習 上パターン認識と機械学習 上
C.M. ビショップ,元田 浩,栗田 多喜夫,樋口 知之,松本 裕治,村田 昇
丸善出版
Amazonで詳しく見る by AZlink
基礎を身につけるための定番の1冊。3年前は挫折したものの、今回はそうも言ってられない。とにかく数式をコードに落としてしまえば、動作もするし容易に理解できるのでなるべく手を動かす事にしている。最近だとQiitaに投稿したベイズ線形回帰によるパラメータ分布の収束がそれ。毎週の社内勉強会で読み進めているので2年もすれば下巻まで終りそう。これのおかげか、論文に書いてある事が理解できない事案が減りました。

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
久保 拓弥
岩波書店
Amazonで詳しく見る by AZlink
PRMLはガウス分布が多めですが、こちらは何でもかんでもガウスで当てはめが上手く行く訳がない、という主張。ポワソン分布, 二項分布, ガンマ分布, etc. といった確率分布と適用例を紹介し、いかにデータの特徴をとらえた確率分布・モデルを選ぶかという事に主眼がおかれている。機械的に素性選択をする手法ばかり見た後に読んだので、自分にとってはカウンターカルチャー的な存在。

深層学習 (機械学習プロフェッショナルシリーズ)深層学習 (機械学習プロフェッショナルシリーズ)
岡谷 貴之
Amazonで詳しく見る by AZlink
次の輪読会でいきなり発表担当。既に背水の陣。

UDEMY ベイズ推定とグラフィカルモデル:コンピュータビジョン基礎1
こちらは進捗51%。Computer Vision向けの内容だがとにかくわかりやすい。PRMLで詰まったら立ち戻るのに良い。

まとめ

レベル0から出直しといいつつも、稼いでなんぼのエンジニア。事業にコミットしつつ、先生きのこるための鍛錬に励みます。

このエントリーをはてなブックマークに追加