hagino3000's blog: 12月 2016

2016-12-06

報酬が線形モデルで表せる時のバンディット問題

『バンディット問題の理論とアルゴリズム』本の，報酬がなんらかの特徴の線形モデルによって表現される場合に使える線形バンディットが前から気になっていたので輪読会で発表担当をするなど．

スライド

アルゴリズムの実装と人工データによる実験

感想

行動(腕)毎の報酬を推定するのでは無く，報酬モデルのパラメータを推定するという方策．妥当なモデルが作れたら実際に使えそうな感触．
実装は一発書きおろしで検算をしていないが，一応それっぽく動いた．ラプラス近似の処理が重いので勾配ベクトルとヘッセ行列の計算過程はキャッシュしておかないとつらい．
LinUCBかThompson Samplingかどちらを使うかというと，報酬が同期で観測できない広告配信は後者一択で，報酬が二値の場合はロジスティック回帰モデル方策がよさそう．あとはクリックやコンバージョンを線形で表現するための特徴量が上手く見付かればいいのだが……．

さらに現実的なケースとして9章には報酬が時間変化する例もあるので，続きも読んでいきます．

バンディット問題の理論とアルゴリズム (機械学習プロフェッショナルシリーズ)
本多淳也,中村篤祥
講談社
売り上げランキング : 79416
Amazonで詳しく見る by AZlink