第19回情報論的学習理論ワークショップ, 2016.11.16〜19, 京都大学 吉田キャンパス
順序構造上の情報幾何的解析
大阪大学 杉山麿人
資料:
http://mahito.info/files/Sugiyama_IBIS2016.pdf
- Posets = 半順序構造はいろんな所に出てくる
- パターンマイニングでは
- Frequencyをよく使う、何回出現したか。空集合は1。和は1を越える
- Probabilityも考えられる。空集合はゼロ。和は1
- FrequencyとProbabilityの関係は、確率の和でFrequencyが出てくる
- log p(X) = Σζ(s, x)θ(s)
- η(x) = Σ_{s∈S}{ ζ(x, s)p(s) } = Σ_{S≧X} {p(s)}
- ゼータ関数 ζ(s, x)
- 構造上におけるアイテム毎の確率分布を考える事で、ベキ集合の全てが揃っていないデータの解析が可能になる。
- 従来のパターンマイニングは2I個の事象列挙が前提になっており、パターンが増えるとメモリに乗りきらない問題があった、この問題を解決できる。
感想
広告配信(アドネットワーク)だと枠とキャペーンの組み合わせでCVRを考えているが、パターンマイニングのアプローチを取ると2^(枠*キャンペーン)個の組み合わせを列挙しなければならない所が、データ出現箇所のみのデータからべき集合の確率分布を起せる??
ある構造のKL-Divergence分解をする事で、特定のアイテムがKL-divegenceにどれだけ寄与しているか求められるというのも面白い。
頻度論とベイズをつなぐ統計的信頼度
大阪大学 下平英寿
ベイズ統計と頻度論におけるp値の差異はどこからきているか、という話
感想
ちゃんと理解できてない、苦手な所だ……。
低ランクテンソルの学習理論と計算理論
東京工業大学情報理工学院/JSTさきがけ 鈴木大慈
資料:
http://www.slideshare.net/trinmu/ibis2016
- スカラー → ベクトル → 行列 → 3階のテンソル → 4階のテンソル……
- 行列分解による予測と同様に、テンソル分解による予測処理ができる。低ランクテンソルに分解する方法と実際のYahoo! ショッピングの予測まで。
感想
Yahoo! JAPANのデータが出てくるあたり、産学連携してるっぽさ。
なぜテンソルを分解したいのか今まで理解していなかったので、ためになった。なるほど行列分解と同じモチベーション (そりゃそうだ)。
Strategies & Principles for Distributed Machine Learning
Eric Xing, カーネギーメロン大
- すごい人きた
- 機械学習システムの設計の話
- モデル学習時の計算をどのように分割するか
- Structure Aware Parallelization
- Structure-aware Dynamic Schedule
- http://www.cs.cmu.edu/~epxing/papers/2016/Xing_Engineering16.pdf
- Sparkのその先のタスク実行効率化、どのようにしてタスクを並列に動かすか
- Safe/slow (BSP) vs. Fast/risky (Async)
- A Stale Synchronous Parallel Bridging Model
感想
計算機科学の恩恵に与っているアプリケーション開発現場の人としては、さらなる高速化は楽しみなネタの一つ。Sparkのその先の話は知らなかったので面白かった。
機械学習ビジネス化の進展と今後の方向
日本電気株式会社データサイエンス研究所 森永 聡
- ビジネス現場のデータ活用の進捗
- 見える化
- 予測分析
- 意思決定 (最適化・制御) ← いまここ
- 人工知能間の交渉・協調・連携
- 異種混合学習
- インバリアント分析
- テキスト合意認識
- 自己学習型異常検知
- BICは自由なパラメータの数が利用されるが、実際はパラメータ間の自由度がもっと低い事がおおい
- FICを使ってモデル選定をしてしている。
- FICについては論文読んでください。
感想
NECさんは独自の用語を使うので、元の技術を探すのが大変な印象。
異種混合学習の元ネタはAISTATSのこのあたりらしい
時系列ビッグデータ解析の新たな展開
熊本大学 櫻井保志
- 大規模テンソル分解
- 非線形モデリング
- The Web as a Jungle
- 競合関係ネットワーク
- 特徴自動抽出
- AutoPlait: Automatic Mining of Co-evolving (SIGMOD 2014)
- Automatic mining algorithm
- モデル自動選択
- 非線形テンソル分解 (CompCube WWW 2016)
- 時系列予測?
- Local seasonality for IPod
- 地域性で分解
- SARIMAよりも性能がいい
- リアルタイム予測
- RegimeCast KDD 2016
- レジームシフトの概念を使っている
- レジームシフト → 自然界における構造や性質の急激な変化
- Googleトレンドの3ヶ月先を予測する
- 円ドル相場の未来予測
- BRAID SIGMOD 2005
- IoTデータストリーム解析
- Smart assistant service
感想
新しいネタを追えてなかったので助かった。RegimeCastはソースもPythonで読みやすそうなので使ってみたい。
- Yahoo Labsはどんなものだったか
- Yahoo.comのサイトに何が使われているか
- 検索 → GBDT (決定木)
- 広告 → ロジスティック回帰, Factorization Machine
- 検索結果ランキング → GBDT
- 詐欺検知
- 詐欺の傾向は耐えず変化する
- 最終的な詐欺か詐欺じゃないかは人間が行なう → 能動学習
- 特徴が少ないのでGDBTを使う
- 検索結果ランキング (WSDM 2016 Best paper)
- 視線が最初にどこに行くか → 画像のまわり。ランキングの上からクリックされるという前提は崩れている
- CTRをどう最適化するか
- 満足度 = Q(検索結果, 表示方法) となるようなQを学習する
- 表現方法 = argmax(Q, 表現方法) となる表現方法を利用する
- どう学習するか
- Quadratic interaction model
- (Factorization machine)
- 高次元x大規模xスパース
- 次元数も標本数も大きいがスパース
- テキストデータ
- クリックデータ
- リンクデータ
- ナイーブにはSVD、観測できていない所はゼロにしてしまう。
- しかしこれは強い仮定となる。
- Alternating Least Squares (ALS)
- じゃあどうするか、観測されている要素のみを使って行列分解
- 今度はコールドスタート問題
- Collective Matrix Factorization (Factorization Machineと関連)
- 情報の無い人に推薦できない。補助情報を使うと良い。
- 凸の複合行列分解
- Tumblrのブログ推薦
- Tumblr - Dashboard
- ↑の手法を使って行列分解
- まとめ
- 低次元大規模サンプルには GBDT使え (Gradient Boosted Decision Tree)
- GBDTは非線形性が使えて特徴選択もできるためパフォーマンスが高くなる
- SVMはうまくいかない
- 大規模疎行列 (クリックデータ)
- Collective Matrix Factorization
感想
バンケットで山田先生が「雑な発表で申しわけない〜」みたいな事をおっしゃっていたが「xxな時はとりあえずyy使え、理由はzzz」というのはアプリケーションを実装する人間にとっては試行錯誤のコストが減らせるので大変ありがたい。GBDTは決定木なので、人間が見て理解できる形に落せるのが安心できそう。いざという時の説明責任が果たせる。
詐欺検知について「詳しい事は言えない」との事だが、自分も不正クリック検出やってたのでわかる……。外に漏らした瞬間に対応されて労力が無になる。ただ、社内だけで検出方策を練っていても手づまり感があるので、適度に外の意見も貰いたいと思う事もしばしばあります。暗号アルゴリズムの様に、公開する事で強くなる方法があればなあと。
ポスターセッションのメモに続く