2016-11-22

IBIS2016 ポスターセッションのメモと感想

講演セッションのメモの続き

ポスターセッション

  • D1-64: ニュース・動画サービス間のクロスドメイン推薦における課題
    • Yahoo! ニュースのデータを元にGYAOのリコメンドモデルを作るという問題
    • Dmain Adversarial Trainingとか言うらしい。
    • 一つのDNNのモデルを、ヤフーニュース、GYAOの両方の素性を食わせても同じ結果がでる様に訓練するアプローチ
  • D2-57: 転移学習を利用したクロスドメインレコメンデーション
    • クロスドメイン推薦
    • サービスAとサービスBの二つのドメインを結びつける変換行列を求めて、それを予測に利用する
  • D1-49: Scalable Clustered Multi-task Learning
    • マルチタスク学習。店舗毎のデータサイズが14と非常に疎ではあるが、全ての店舗をまとめて学習する事でうまくいっている。
    • 広告配信でもコンバージョンは非常にスパースなので、スパース+マルチタスク学習は相性がいいかもしれない。
  • D1-39: クリックフィードバックを用いた記事の地域性推定モデルの構築
    • ローカルニュースの配信最適化のために、ニュース記事と地域性の関係性を学習する。訓練データはクリックをした端末の位置情報とニュース記事のBoW表現のため、全自動運転できるのがメリット。結果からは単純に記事中に出てくる地域名とのマッピングでは求められないような関係性が見いだせるのが面白い。
  • D1-6: VAEとGANを活用したファッションアイテムの特徴抽出と検索システムへの応用
    • 画像+テキスト検索。画像で表現した方が良い物と、テキストで表現した方が良い物、それぞれ利用できるため利用シーンはファッションに留まらないと思う。
  • D2-5: Large-Scale Price Optimization via Network Flow
    • すごい。ある商品Aの値段を変えた時の、他の代替品の需要増加or減少までモデルに入れた価格調整アルゴリズム。従来の手法では計算が遅すぎたが、劣モジュラを利用した最適化問題とする事でスケールさせる事に成功。既に案件に投入しているとの事。
  • T2-18:バンディットアルゴリズムを用いたメンテナンスタイミング適正化
    • メンテナンス対象の機器の故障傾向がわからない問題設定、これをバンディット問題として解く。各腕を1日目にメンテ、2日目にメンテ、3日目にメンテ … と置く変則型。時刻tはメテナンス試行回数目に相当する。実際に損失は減ったとの事。
  • D1-19: 区間値公開による安全な予測値公開メカニズムと差分プライバシーメカニズムの有用性による比較
    • 診断アプリの様なユーザーの特質Xを入力して結果Yが得られるアプリケーションにおいて、結果Yから特質Xが特定できてしまうのを避ける方法。

このエントリーをはてなブックマークに追加

2016-11-21

IBIS2016 講演セッションのメモと感想

第19回情報論的学習理論ワークショップ, 2016.11.16〜19, 京都大学 吉田キャンパス

順序構造上の情報幾何的解析

大阪大学 杉山麿人
資料: http://mahito.info/files/Sugiyama_IBIS2016.pdf

  • Posets = 半順序構造はいろんな所に出てくる
    • 例えばベキ集合 (Power Set)
  • パターンマイニングでは
    • Frequencyをよく使う、何回出現したか。空集合は1。和は1を越える
    • Probabilityも考えられる。空集合はゼロ。和は1
    • FrequencyとProbabilityの関係は、確率の和でFrequencyが出てくる
  • log p(X) = Σζ(s, x)θ(s)
  • η(x) = Σ_{s∈S}{ ζ(x, s)p(s) } = Σ_{S≧X} {p(s)}
  • ゼータ関数 ζ(s, x)
    • 1 if s ≦ x else 0
  • 構造上におけるアイテム毎の確率分布を考える事で、ベキ集合の全てが揃っていないデータの解析が可能になる。
  • 従来のパターンマイニングは2I個の事象列挙が前提になっており、パターンが増えるとメモリに乗りきらない問題があった、この問題を解決できる。

感想

広告配信(アドネットワーク)だと枠とキャペーンの組み合わせでCVRを考えているが、パターンマイニングのアプローチを取ると2^(枠*キャンペーン)個の組み合わせを列挙しなければならない所が、データ出現箇所のみのデータからべき集合の確率分布を起せる??
ある構造のKL-Divergence分解をする事で、特定のアイテムがKL-divegenceにどれだけ寄与しているか求められるというのも面白い。

頻度論とベイズをつなぐ統計的信頼度

大阪大学 下平英寿

ベイズ統計と頻度論におけるp値の差異はどこからきているか、という話

感想

ちゃんと理解できてない、苦手な所だ……。

低ランクテンソルの学習理論と計算理論

東京工業大学情報理工学院/JSTさきがけ   鈴木大慈
資料: http://www.slideshare.net/trinmu/ibis2016
  • スカラー → ベクトル → 行列 → 3階のテンソル → 4階のテンソル……
  • 行列分解による予測と同様に、テンソル分解による予測処理ができる。低ランクテンソルに分解する方法と実際のYahoo! ショッピングの予測まで。

感想

Yahoo! JAPANのデータが出てくるあたり、産学連携してるっぽさ。
なぜテンソルを分解したいのか今まで理解していなかったので、ためになった。なるほど行列分解と同じモチベーション (そりゃそうだ)。

Strategies & Principles for Distributed Machine Learning

Eric Xing, カーネギーメロン大
  • すごい人きた
  • 機械学習システムの設計の話
  • モデル学習時の計算をどのように分割するか
    • Structure Aware Parallelization
    • Structure-aware Dynamic Schedule
  • http://www.cs.cmu.edu/~epxing/papers/2016/Xing_Engineering16.pdf
  • Sparkのその先のタスク実行効率化、どのようにしてタスクを並列に動かすか
    • Safe/slow (BSP) vs. Fast/risky (Async)
    • A Stale Synchronous Parallel Bridging Model

感想

計算機科学の恩恵に与っているアプリケーション開発現場の人としては、さらなる高速化は楽しみなネタの一つ。Sparkのその先の話は知らなかったので面白かった。

機械学習ビジネス化の進展と今後の方向

日本電気株式会社データサイエンス研究所 森永 聡
  • ビジネス現場のデータ活用の進捗
    • 見える化
    • 予測分析
    • 意思決定 (最適化・制御) ← いまここ
    • 人工知能間の交渉・協調・連携
  • 異種混合学習
    • モデルの自動選択?
  • インバリアント分析
  • テキスト合意認識
  • 自己学習型異常検知
  • BICは自由なパラメータの数が利用されるが、実際はパラメータ間の自由度がもっと低い事がおおい
    • FICを使ってモデル選定をしてしている。
    • FICについては論文読んでください。

感想

NECさんは独自の用語を使うので、元の技術を探すのが大変な印象。
異種混合学習の元ネタはAISTATSのこのあたりらしい

時系列ビッグデータ解析の新たな展開

熊本大学 櫻井保志
  • 大規模テンソル分解
    • 非線形モデリング
    • The Web as a Jungle
    • 競合関係ネットワーク
  • 特徴自動抽出
    • AutoPlait: Automatic Mining of Co-evolving (SIGMOD 2014)
    • Automatic mining algorithm
  • モデル自動選択
  • 非線形テンソル分解 (CompCube WWW 2016)
    • 時系列予測?
    • Local seasonality for IPod
    • 地域性で分解
    • SARIMAよりも性能がいい
  • リアルタイム予測
    • RegimeCast KDD 2016
      • レジームシフトの概念を使っている
      • レジームシフト → 自然界における構造や性質の急激な変化
      • Googleトレンドの3ヶ月先を予測する
      • 円ドル相場の未来予測
    • BRAID SIGMOD 2005
      • IoTデータストリーム解析
      • Smart assistant service

感想

新しいネタを追えてなかったので助かった。RegimeCastはソースもPythonで読みやすそうなので使ってみたい。

IT企業における機械学習

京都大学 山田誠
  • Yahoo Labsはどんなものだったか
  • Yahoo.comのサイトに何が使われているか
    • 検索 → GBDT (決定木)
    • 広告 → ロジスティック回帰, Factorization Machine
    • 検索結果ランキング → GBDT
      • 低次元なデータには非線形なモデルを使う
    • 詐欺検知
      • 詐欺の傾向は耐えず変化する
      • 最終的な詐欺か詐欺じゃないかは人間が行なう → 能動学習
      • 特徴が少ないのでGDBTを使う
  • 検索結果ランキング (WSDM 2016 Best paper)
    • 視線が最初にどこに行くか → 画像のまわり。ランキングの上からクリックされるという前提は崩れている
    • CTRをどう最適化するか
      • 満足度 = Q(検索結果, 表示方法) となるようなQを学習する
      • 表現方法 = argmax(Q, 表現方法) となる表現方法を利用する
  • どう学習するか
    • Quadratic interaction model
    • (Factorization machine)
    • 高次元x大規模xスパース
      • 次元数も標本数も大きいがスパース
      • テキストデータ
      • クリックデータ
      • リンクデータ
    • ナイーブにはSVD、観測できていない所はゼロにしてしまう。
      • しかしこれは強い仮定となる。
      • Alternating Least Squares (ALS)
      • じゃあどうするか、観測されている要素のみを使って行列分解
    • 今度はコールドスタート問題
      • Collective Matrix Factorization (Factorization Machineと関連)
      • 情報の無い人に推薦できない。補助情報を使うと良い。
      • 凸の複合行列分解
    • Tumblrのブログ推薦
      • Tumblr - Dashboard
      • ↑の手法を使って行列分解
  • まとめ
    • 低次元大規模サンプルには GBDT使え (Gradient Boosted Decision Tree)
    • GBDTは非線形性が使えて特徴選択もできるためパフォーマンスが高くなる
    • SVMはうまくいかない
    • 大規模疎行列 (クリックデータ)
      • Collective Matrix Factorization

感想

バンケットで山田先生が「雑な発表で申しわけない〜」みたいな事をおっしゃっていたが「xxな時はとりあえずyy使え、理由はzzz」というのはアプリケーションを実装する人間にとっては試行錯誤のコストが減らせるので大変ありがたい。GBDTは決定木なので、人間が見て理解できる形に落せるのが安心できそう。いざという時の説明責任が果たせる。

詐欺検知について「詳しい事は言えない」との事だが、自分も不正クリック検出やってたのでわかる……。外に漏らした瞬間に対応されて労力が無になる。ただ、社内だけで検出方策を練っていても手づまり感があるので、適度に外の意見も貰いたいと思う事もしばしばあります。暗号アルゴリズムの様に、公開する事で強くなる方法があればなあと。

ポスターセッションのメモに続く

このエントリーをはてなブックマークに追加