tag:blogger.com,1999:blog-38092679309702586222024-03-14T17:15:45.699+09:00hagino3000's blogData science in online advertising.hagino3000http://www.blogger.com/profile/11427226166654794709noreply@blogger.comBlogger108110tag:blogger.com,1999:blog-3809267930970258622.post-53222573242350057262023-05-16T02:23:00.000+09:002023-05-16T02:23:04.807+09:00zenn.devを使いはじめましたテクニカルな内容はzennに書いていこうと思います。https://zenn.dev/hagino3000最初の投稿は臨床診断支援システムの歴史についてです。https://zenn.dev/ubie_dev/articles/62dcaf309c78b3hagino3000http://www.blogger.com/profile/11427226166654794709noreply@blogger.comtag:blogger.com,1999:blog-3809267930970258622.post-66375465197026019392021-11-01T08:46:00.005+09:002021-11-01T20:59:39.997+09:00「施策デザインのための機械学習入門」が素晴しい内容だった読んだので感想を書きます。「手元のデータに当てはまりの良い予測モデルを本番適用してもビジネス的に良い結果が得られない」という現場で頻発する課題に対して明快なアプローチと手順を示しており、機械学習がワークするために必要な要素がクリアになりました。
施策デザインのための機械学習入門〜データ分析技術のビジネス活用における正しい考え方
技術評論社 (2021/7/30)
齋藤 優太 (著), 安井 翔太 (著), 株式会社ホクソエム (監修)
Kindle版/紙版両方あり
目次と構成
はじめに1章 機械学習実践のためのフレームワーク2章 機械学習実践のための基礎技術3章 Explicit Feedbackを用いた推薦システム構築の実践4章 Implicit Feedbackを用いた推薦システムの構築5章 因果効果を考慮したランキングシステムの構築付録A 演習問題感想著者はまずhagino3000http://www.blogger.com/profile/11427226166654794709noreply@blogger.comtag:blogger.com,1999:blog-3809267930970258622.post-8602237472586378092021-08-24T13:41:00.012+09:002021-10-19T16:26:35.727+09:00ビジネス価値を生むことに責任を持つために実践している内容を『仕事ではじめる機械学習 第2版』に書きました第2版がでました。
仕事ではじめる機械学習 第2版
オライリー・ジャパン (2021年04月)
有賀 康顕、中山 心太、西林 孝 著
電子版版/紙版両方あり
私は7章の「効果検証」と13章の「オンライン広告における機械学習」を執筆しました。12章は書き下し新章です。既に発売からは時間が経っているのでこの2つの章の裏話というか思想について解説します。PoC貧乏という言葉があるように機械学習を用いてビジネス価値を生む施策は失敗しがちなことが知られてきました。前提として本書はその様な失敗しやすい施策をできるだけ成功に近づけるにはどうしたら良いかを広く扱っています。ビジネス価値を定義する予測を当ててどんな価値を生みたいのかを定義しないと開発は始まりません。13章では広告配信事業者の顧客である広告主の効用を選びました。オンライン広告ではオークションによる広告枠の売買が行なわれます。hagino3000http://www.blogger.com/profile/11427226166654794709noreply@blogger.comtag:blogger.com,1999:blog-3809267930970258622.post-81489774087024609082020-07-03T08:14:00.004+09:002020-07-04T01:22:22.344+09:00Data validation for machine learning 読んだBreck, Eric, et al. "Data validation for machine learning." Conference on Systems andMachine Learning (SysML). https://mlsys.org/Conferences/2019/doc/2019/167.pdf . 2019.読み手のコンテキスト現職で機械学習予測モデルをプロダクトに投入する様になって3年程経った。そうもなると開発時に想定していた訓練データの分布と現状の分布が乖離して、予測の動作不良を引き起すケースがしばしば見られる様になった。明らかな予測の不具合として目立っていなくとも性能が落ちている部分はもっとあるはずで、これに早く気づいて対応したいモチベーションがある。かつ運用専任メンバーはいないので、できるだけ運用は手を抜きたい。概要著者らはhagino3000http://www.blogger.com/profile/11427226166654794709noreply@blogger.comtag:blogger.com,1999:blog-3809267930970258622.post-52334763838131110852020-05-05T14:39:00.004+09:002020-07-03T01:17:39.712+09:00『効果検証入門』がアプリケーション開発エンジニアにとって得る物が多い本だった
読みました。アプリケーション開発エンジニア視点で読んで同僚に勧められる素晴しい内容でした。本稿はエンジニア視点のレビューになります。
効果検証入門〜正しい比較のための因果推論/計量経済学の基礎
技術評論社 (2019/1/18)
安井 翔太 (著), 株式会社ホクソエム (監修)
Kindle版/紙版両方あり
目次と構成
序 嘘っぱちの効果とそれを見抜けないデータ分析
1章 セレクションバイアスとRCT
2章 介入効果を測るための回帰分析
3章 傾向スコアを用いた分析
4章 差分の差分法(DID)とCausalImpact
5章 回帰不連続デザイン(RDD)
付録 RとRStudioの基礎
終 因果推論をビジネスにするために
まず効果検証とは何かという導入と共にビジネスの現場でありがちな誤りのある検証について解説があります。この誤りの原因となるhagino3000http://www.blogger.com/profile/11427226166654794709noreply@blogger.comtag:blogger.com,1999:blog-3809267930970258622.post-17712412795975227592020-03-01T03:35:00.003+09:002020-07-03T01:19:13.672+09:00ウィルス感染検査とFalse-Positive Paradox
最近のニュースでウィルス感染症の検査と聞いてまっさきに思い浮かんだのが、母集団の感染率より検査の偽陽性確率が高い時に人間の直感から離れた結果になるパラドックスの話。統計学の教科書にも練習問題として出てくる印象があります。
<!--ogg image-->
問題
ウィルス感染検査で陽性となった時に被験者が感染している確率を求めよ。
母集団の感染率は0.1%。検査の性能は感度99%・特異度99%、つまり感染している人は99%の確率で陽性となり、感染していない人は99%の確率で陰性となるものとする。
計算
感染しているか否かを y ∈ {0, 1}
検査結果を x ∈ {0, 1} で陽性が1とする
ベイズの定理
より、検査結果が陽性だった時に感染している確率は
ここで
P[y = 1] = 0.001
感染率
P[x = 1|y = 1] = hagino3000http://www.blogger.com/profile/11427226166654794709noreply@blogger.comtag:blogger.com,1999:blog-3809267930970258622.post-7761823771911640202019-12-18T19:30:00.002+09:002020-07-03T01:19:57.324+09:00JAZZとコントラバスが少しだけわかってきた
こんにちはhagino3000です。この記事はpyspa Advent Calendar 2019の17日目です。
今年は新しい挑戦としてコントラバスとJAZZを始めました。コントラバスはオーケストラの右端で弾かれる大きな楽器です、和製英語でウッドベースと呼ばれたりもします。JAZZは全く聴いてこなかったので完全に未知の領域です。この分野は素人なのです、本当に。
普段は職場でゲーム音楽のバンドアンサンブルを演っているのですが、Super Mario Odyssayの都市の国のテーマのウォーキングベースを弾きたくなったのがきっかけでした。新しい楽器を始めるのは20年ぶりなのもあり、練習や普段の取り組み方について改めて考え直しました。ソフトウェアエンジニアとしての訓練方法と似た部分もあり、多くの気付きがありました。
楽器スクールに通う
ビギナー段階において人から習う事の効率の良さはhagino3000http://www.blogger.com/profile/11427226166654794709noreply@blogger.comtag:blogger.com,1999:blog-3809267930970258622.post-17028716296641056912019-12-15T01:07:00.001+09:002020-07-03T01:20:29.460+09:00AtCoderはじめました
AtCoderというか蟻本の輪読会が社内で始まったのでこっそり若者に混じっている。
モチベーション
グラフアルゴリズムの概観とその実装の感覚を叩きこんでおきたいのがある。最近はGraph Embedding等のグラフを用いた手法によく出会うが自分の中に基礎が無いのでなかなか理解できた気にならない。自分のブログを漁ると10年前に最短経路問題をJavaScriptで解いているので、その手の活動を再開したとも言える。
進捗
以下のページを参考に、本の内容に対応するAtCoderの問題を解きつつ
AtCoder 版!蟻本 (初級編)
https://qiita.com/drken/items/e77685614f3c6bf86f44
まずはAtCoder過去問の4つをSubmit
ARC029A - 高橋君とお肉
https://arc029.hagino3000http://www.blogger.com/profile/11427226166654794709noreply@blogger.comtag:blogger.com,1999:blog-3809267930970258622.post-28079457586692991742019-12-01T00:09:00.001+09:002020-07-03T01:20:51.610+09:00IBIS2019でポスター発表しました
IBISは機械学習の研究会です。今年は11月20〜23日の名古屋開催でした。
第22回情報論的学習理論ワークショップ (IBIS 2019)
http://ibisml.org/ibis2019/
今回はポスター発表にアドネットワークのクリック単価決定方策を持っていきました。プロダクト開発が本業なので外部発表や論文を書く事はメインタスクでは無いのですが、実験の過程で得られた結果など発表できる物は外に出していきたいです。バンディットアルゴリズムのポスター発表も数件あり、オンライン意思決定の方策に詳しい先生方の意見が得られる貴重な機会でもあります。
様子です。
その他講演メモ
グラフ文法を用いたグラフ生成
分子グラフ、例えばH20だと(H⇔O⇔H) を学習したい
安定性などの制約を満たすグラフを生成したい
ハード制約とソフト制約の組みあわせ
大学でやったタンパク質の構造hagino3000http://www.blogger.com/profile/11427226166654794709noreply@blogger.comtag:blogger.com,1999:blog-3809267930970258622.post-85774114760967570512019-10-07T03:34:00.001+09:002020-07-03T01:22:40.974+09:00データ分析系3daysインターンシッププログラムで伝えたかったこと
<!--?xml version="1.0" encoding="UTF-8"?-->
担当した3daysインターンシッププログラムが無事に終ったので、自分が何を考えていたかをまとめます。いわゆる「機械学習エンジニア」向けのインターンです。
https://voyagegroup.com/internship/adventure/
背景
期間3日でやりたいと打診を受けた時に真っ先に思いついたのはコンペ形式のプログラムでした。しかしKaggleを筆頭に実際のビジネスで発生したデータを使ったEDAおよび機械学習予測モデルの開発ができる機会は今やいくらでもあるため、Kaggleそのままの形式では目新しさに欠ける。さらに実際の開発業務では求めた予測値を使って意思決定を自動化する所までが求められるため、予測器を作って精度を見て終りというのは片手落ちとなってしまう。よって、求めた予測値を利用hagino3000http://www.blogger.com/profile/11427226166654794709noreply@blogger.com