2016/02/18 デブサミ2016【18-A-6】Yahoo! JAPANを支えるデータテクノロジー 〜機械学習、クラウド分散システム処理モデル〜 #devsumiA

1
池田 泰延(勉強会用) @clockmaker_bot

次は「Yahoo! JAPANを支えるデータテクノロジー 〜機械学習、クラウド分散システム処理モデル〜」を受講します。 #devsumi #devsumiA

2016-02-18 16:09:14
池田 泰延(勉強会用) @clockmaker_bot

ヤフーさんの会場(A)は他の会場よりも大きいなぁ。特にスクリーンが大きくて驚きました。 #devsumi #devsumiA

2016-02-18 16:22:05
abenben.eth @abenben

ヤフー株式会社 ヤフオク!カンパニーヤフオク!開発本部 サイエンス部 サイエンス 機械学習黒帯のやまかつさん(ながい) #devsumiA #devsumi

2016-02-18 16:22:12
baihebu @baihebu

#devsumi #devsumiA Yahoo!Japanを支えるデータテクノロジー ヤフオクのデータの話かな?

2016-02-18 16:23:14
池田 泰延(勉強会用) @clockmaker_bot

ヤフオクの中で機械学習をされているとのこと。ヤフオクは1999年から始まったサービスで日本最大級のインターネットオークションサイト。 出品数:常時約3900万個。 #devsumi #devsumiA

2016-02-18 16:24:00
abenben.eth @abenben

Yahoo! JAPANを支えるデータテクノロジー 〜機械学習、クラウド分散システム処理モデル〜(たいとるもながい)ヤフオクのお話だ #devsumiA #devsumi

2016-02-18 16:24:49
池田 泰延(勉強会用) @clockmaker_bot

深層学習を利用した画像処理の例。 MacBook Airのカテゴリーに、本体ではなく周辺機器が出品されている。カテゴリー違いを解消したい。 #devsumi #devsumiA

2016-02-18 16:25:37
baihebu @baihebu

#devsumi #devsumiA ヤフオクのカテゴリ違い、すげーある。まさにそれにムカついていた。

2016-02-18 16:26:08
Manabu Uchida @uchimanajet7

人による検知→高い精度(人によるw) #devsumiA

2016-02-18 16:26:34
池田 泰延(勉強会用) @clockmaker_bot

カテゴリー違いはユーザビリティの低下に繋がる。 人による検知をすれば精度が高いが、量の限界やスピードが遅い。 ここに機械学習を利用している。 #devsumi #devsumiA

2016-02-18 16:26:45
池田 泰延(勉強会用) @clockmaker_bot

機械学習にも限界がある。未知のパターンがあったり、100%の精度が難しい。 機械学習はブームだが、銀の弾丸ではない。 #devsumi #devsumiA

2016-02-18 16:27:42
池田 泰延(勉強会用) @clockmaker_bot

そのため、人と機械学習のハイブリッドで両立させている。 #devsumi #devsumiA

2016-02-18 16:28:25
Manabu Uchida @uchimanajet7

人と機械学習のハイブリッド。判別するリストは機械学習で作りだして人が判断する。 #devsumiA

2016-02-18 16:28:54
池田 泰延(勉強会用) @clockmaker_bot

まずはタイトルから判定する。 MBAカバー → ☓ MBA + カバー → ◯ MBAおまけ付きカバー→? #devsumi #devsumiA

2016-02-18 16:31:00
baihebu @baihebu

#devsumi #devsumiA 画像からカテゴリ違いを検出するってすごい。深層学習。

2016-02-18 16:31:44
hiroisojp @hiroisojp

機械学習、クラウド分散システム処理モデルの話、段階を追って丁寧な説明です。 #devsumi #devsumiA

2016-02-18 16:31:46
池田 泰延(勉強会用) @clockmaker_bot

CNNによる物体認識、人間よりも精度が高いと言われている。 #devsumi #devsumiA

2016-02-18 16:32:45
abenben.eth @abenben

最新の深層学習ではシベリアンハスキーとエスキモードックの違いまで識別ができてしまう。(普通の人間には識別できないことまでできている。) #devsumi #devsumiA

2016-02-18 16:35:27
k_yoshida @ysd061

人の判断を正解データとしてフィードバックして精度向上、とかないのかな。 #devsumiA

2016-02-18 16:37:24
Manabu Uchida @uchimanajet7

検索結果も機械学習なのかー #devsumiA

2016-02-18 16:38:12
池田 泰延(勉強会用) @clockmaker_bot

次は分散学習。「人気+新着順」というソートがあるが、そこに機会学習を使っている。 CTR(ページ遷移の確率)やCVR(入札の確率)を最大化するモデルにしている。 #devsumi #devsumiA

2016-02-18 16:38:20
池田 泰延(勉強会用) @clockmaker_bot

ヤフオクは家や土地、自動車まで広範囲に扱っている。 そのため、同義書辞書を人手で作るのにコストがかかる →ここに分散表現の機械学習を用いる #devsumi #devsumiA

2016-02-18 16:40:41
池田 泰延(勉強会用) @clockmaker_bot

同義書辞書を作るのは、文字列を正規化し(大文字小文字を揃えたり、半角全角を揃えたり)、同義書辞書で類似語を統一したりするため。 #devsumi #devsumiA

2016-02-18 16:41:39
池田 泰延(勉強会用) @clockmaker_bot

分散表現では意味が近い表現はベクトルが近くなる。そうすると、同一クラスタとしてクラスタリングできる。 例:サッカー、フットサル #devsumi #devsumiA

2016-02-18 16:43:02