次は「Yahoo! JAPANを支えるデータテクノロジー 〜機械学習、クラウド分散システム処理モデル〜」を受講します。 #devsumi #devsumiA
2016-02-18 16:09:14ヤフーさんの会場(A)は他の会場よりも大きいなぁ。特にスクリーンが大きくて驚きました。 #devsumi #devsumiA
2016-02-18 16:22:05ヤフー株式会社 ヤフオク!カンパニーヤフオク!開発本部 サイエンス部 サイエンス 機械学習黒帯のやまかつさん(ながい) #devsumiA #devsumi
2016-02-18 16:22:12ヤフオクの中で機械学習をされているとのこと。ヤフオクは1999年から始まったサービスで日本最大級のインターネットオークションサイト。 出品数:常時約3900万個。 #devsumi #devsumiA
2016-02-18 16:24:00Yahoo! JAPANを支えるデータテクノロジー 〜機械学習、クラウド分散システム処理モデル〜(たいとるもながい)ヤフオクのお話だ #devsumiA #devsumi
2016-02-18 16:24:49深層学習を利用した画像処理の例。 MacBook Airのカテゴリーに、本体ではなく周辺機器が出品されている。カテゴリー違いを解消したい。 #devsumi #devsumiA
2016-02-18 16:25:37カテゴリー違いはユーザビリティの低下に繋がる。 人による検知をすれば精度が高いが、量の限界やスピードが遅い。 ここに機械学習を利用している。 #devsumi #devsumiA
2016-02-18 16:26:45機械学習にも限界がある。未知のパターンがあったり、100%の精度が難しい。 機械学習はブームだが、銀の弾丸ではない。 #devsumi #devsumiA
2016-02-18 16:27:42まずはタイトルから判定する。 MBAカバー → ☓ MBA + カバー → ◯ MBAおまけ付きカバー→? #devsumi #devsumiA
2016-02-18 16:31:00最新の深層学習ではシベリアンハスキーとエスキモードックの違いまで識別ができてしまう。(普通の人間には識別できないことまでできている。) #devsumi #devsumiA
2016-02-18 16:35:27次は分散学習。「人気+新着順」というソートがあるが、そこに機会学習を使っている。 CTR(ページ遷移の確率)やCVR(入札の確率)を最大化するモデルにしている。 #devsumi #devsumiA
2016-02-18 16:38:20ヤフオクは家や土地、自動車まで広範囲に扱っている。 そのため、同義書辞書を人手で作るのにコストがかかる →ここに分散表現の機械学習を用いる #devsumi #devsumiA
2016-02-18 16:40:41同義書辞書を作るのは、文字列を正規化し(大文字小文字を揃えたり、半角全角を揃えたり)、同義書辞書で類似語を統一したりするため。 #devsumi #devsumiA
2016-02-18 16:41:39分散表現では意味が近い表現はベクトルが近くなる。そうすると、同一クラスタとしてクラスタリングできる。 例:サッカー、フットサル #devsumi #devsumiA
2016-02-18 16:43:02