hagino3000's blog: IBIS2016 講演セッションのメモと感想

第19回情報論的学習理論ワークショップ, 2016.11.16〜19, 京都大学吉田キャンパス

http://ibisml.org/ibis2016/

順序構造上の情報幾何的解析

大阪大学　杉山麿人
資料: http://mahito.info/files/Sugiyama_IBIS2016.pdf

Posets = 半順序構造はいろんな所に出てくる

例えばベキ集合 (Power Set)

パターンマイニングでは

Frequencyをよく使う、何回出現したか。空集合は1。和は1を越える
Probabilityも考えられる。空集合はゼロ。和は1
FrequencyとProbabilityの関係は、確率の和でFrequencyが出てくる

log p(X) = Σζ(s, x)θ(s)
η(x) = Σ_{s∈S}{ ζ(x, s)p(s) } = Σ_{S≧X} {p(s)}
ゼータ関数 ζ(s, x)

1 if s ≦ x else 0

構造上におけるアイテム毎の確率分布を考える事で、ベキ集合の全てが揃っていないデータの解析が可能になる。
従来のパターンマイニングは2I個の事象列挙が前提になっており、パターンが増えるとメモリに乗りきらない問題があった、この問題を解決できる。

感想

広告配信(アドネットワーク)だと枠とキャペーンの組み合わせでCVRを考えているが、パターンマイニングのアプローチを取ると2^(枠*キャンペーン)個の組み合わせを列挙しなければならない所が、データ出現箇所のみのデータからべき集合の確率分布を起せる??
ある構造のKL-Divergence分解をする事で、特定のアイテムがKL-divegenceにどれだけ寄与しているか求められるというのも面白い。

頻度論とベイズをつなぐ統計的信頼度

大阪大学下平英寿

ベイズ統計と頻度論におけるp値の差異はどこからきているか、という話

感想

ちゃんと理解できてない、苦手な所だ……。

低ランクテンソルの学習理論と計算理論

東京工業大学情報理工学院/JSTさきがけ鈴木大慈
資料: http://www.slideshare.net/trinmu/ibis2016

スカラー → ベクトル → 行列 → 3階のテンソル → 4階のテンソル……
行列分解による予測と同様に、テンソル分解による予測処理ができる。低ランクテンソルに分解する方法と実際のYahoo! ショッピングの予測まで。

感想

Yahoo! JAPANのデータが出てくるあたり、産学連携してるっぽさ。
なぜテンソルを分解したいのか今まで理解していなかったので、ためになった。なるほど行列分解と同じモチベーション (そりゃそうだ)。

Strategies & Principles for Distributed Machine Learning

Eric Xing, カーネギーメロン大

資料: http://ibisml.org/archive/ibis2016/SAMSI.pptx.pdf

すごい人きた
機械学習システムの設計の話
モデル学習時の計算をどのように分割するか

Structure Aware Parallelization
Structure-aware Dynamic Schedule

http://www.cs.cmu.edu/~epxing/papers/2016/Xing_Engineering16.pdf
Sparkのその先のタスク実行効率化、どのようにしてタスクを並列に動かすか

Safe/slow (BSP) vs. Fast/risky (Async)
A Stale Synchronous Parallel Bridging Model

感想

計算機科学の恩恵に与っているアプリケーション開発現場の人としては、さらなる高速化は楽しみなネタの一つ。Sparkのその先の話は知らなかったので面白かった。

機械学習ビジネス化の進展と今後の方向

日本電気株式会社データサイエンス研究所　森永　聡

ビジネス現場のデータ活用の進捗

見える化
予測分析
意思決定 (最適化・制御) ← いまここ
人工知能間の交渉・協調・連携

異種混合学習

モデルの自動選択?

インバリアント分析
テキスト合意認識
自己学習型異常検知
BICは自由なパラメータの数が利用されるが、実際はパラメータ間の自由度がもっと低い事がおおい

FICを使ってモデル選定をしてしている。
FICについては論文読んでください。

感想

NECさんは独自の用語を使うので、元の技術を探すのが大変な印象。

異種混合学習の元ネタはAISTATSのこのあたりらしい

時系列ビッグデータ解析の新たな展開

熊本大学　櫻井保志

大規模テンソル分解

非線形モデリング
The Web as a Jungle
競合関係ネットワーク

特徴自動抽出

AutoPlait: Automatic Mining of Co-evolving (SIGMOD 2014)
Automatic mining algorithm

モデル自動選択
非線形テンソル分解 (CompCube WWW 2016)

時系列予測?
Local seasonality for IPod
地域性で分解
SARIMAよりも性能がいい

リアルタイム予測

RegimeCast KDD 2016

レジームシフトの概念を使っている
レジームシフト → 自然界における構造や性質の急激な変化
Googleトレンドの3ヶ月先を予測する
円ドル相場の未来予測

BRAID SIGMOD 2005

IoTデータストリーム解析
Smart assistant service

感想

新しいネタを追えてなかったので助かった。RegimeCastはソースもPythonで読みやすそうなので使ってみたい。

IT企業における機械学習

京都大学　山田誠

Yahoo Labsはどんなものだったか
Yahoo.comのサイトに何が使われているか

検索 → GBDT (決定木)
広告 → ロジスティック回帰, Factorization Machine
検索結果ランキング → GBDT

低次元なデータには非線形なモデルを使う

詐欺検知

詐欺の傾向は耐えず変化する
最終的な詐欺か詐欺じゃないかは人間が行なう → 能動学習
特徴が少ないのでGDBTを使う

検索結果ランキング (WSDM 2016 Best paper)

視線が最初にどこに行くか → 画像のまわり。ランキングの上からクリックされるという前提は崩れている
CTRをどう最適化するか

満足度 = Q(検索結果, 表示方法) となるようなQを学習する
表現方法 = argmax(Q, 表現方法) となる表現方法を利用する

どう学習するか

Quadratic interaction model
(Factorization machine)
高次元x大規模xスパース

次元数も標本数も大きいがスパース
テキストデータ
クリックデータ
リンクデータ

ナイーブにはSVD、観測できていない所はゼロにしてしまう。

しかしこれは強い仮定となる。
Alternating Least Squares (ALS)
じゃあどうするか、観測されている要素のみを使って行列分解

今度はコールドスタート問題

Collective Matrix Factorization (Factorization Machineと関連)
情報の無い人に推薦できない。補助情報を使うと良い。
凸の複合行列分解

Tumblrのブログ推薦

Tumblr - Dashboard
↑の手法を使って行列分解

まとめ

低次元大規模サンプルには GBDT使え (Gradient Boosted Decision Tree)
GBDTは非線形性が使えて特徴選択もできるためパフォーマンスが高くなる
SVMはうまくいかない
大規模疎行列 (クリックデータ)

Collective Matrix Factorization

感想

バンケットで山田先生が「雑な発表で申しわけない〜」みたいな事をおっしゃっていたが「xxな時はとりあえずyy使え、理由はzzz」というのはアプリケーションを実装する人間にとっては試行錯誤のコストが減らせるので大変ありがたい。GBDTは決定木なので、人間が見て理解できる形に落せるのが安心できそう。いざという時の説明責任が果たせる。

詐欺検知について「詳しい事は言えない」との事だが、自分も不正クリック検出やってたのでわかる……。外に漏らした瞬間に対応されて労力が無になる。ただ、社内だけで検出方策を練っていても手づまり感があるので、適度に外の意見も貰いたいと思う事もしばしばあります。暗号アルゴリズムの様に、公開する事で強くなる方法があればなあと。

ポスターセッションのメモに続く

2016-11-21

IBIS2016 講演セッションのメモと感想