はてブのトピックページはこう作られている! 中の人による実装解説 #yapcasia #yapcasiaE

はてなブックマークのトピックページの裏側 http://yapcasia.org/2015/talk/show/f5aa5054-12fd-11e5-b4c9-d9f87d574c3a
10
前へ 1 ・・ 5 6 次へ
Satoshi SUZUKI 🌗 @studio3104

E 会場めっちゃ混んでるけど D は比較的空いています #yapcasia

2015-08-20 20:01:25
碧彩/hekisai@一般男性 @hekisai_417

はてなのトピック生成の裏側みることができた。Elastic SearchのTerms Aggregationを利用してらしい。 #yapcasia

2015-08-20 20:01:31
碧彩/hekisai@一般男性 @hekisai_417

はてなのトピック生成の裏側みることができた。Elastic SearchのTerms Aggregationを利用してらしい。 #yapcasia

2015-08-20 20:01:31
(っ=﹏=c) .。o○ @itchyny

Q. 処理が重くなりそう。それぞれどれくらいの時間がかかるのか。 A. トピックの生成がものすごく時間がかかり、メモリーをめっちゃ使う。例えば1query30分とか。Q. ではどういう間隔でトピック作っているか A. 二時間に一回作っている。 #yapcasia

2015-08-20 20:01:32
Tomoki Hasegawa @tomzoh

たまに全く違う記事がまとまっちゃってて残念なタイミングがあるよねえ。 #yapcasia

2015-08-20 20:02:41
(っ=﹏=c) .。o○ @itchyny

Q. トピックタイトルの妥当性はどうしているか A. 理想は定量化しつつユーザーテストだが、今は定性的かつ主観。ニュースサイトがソースなのでそんなに酷いことにはならない。 #yapcasia

2015-08-20 20:02:41
奈良阪某 @narazaka

タイトルの妥当性判断する仕組みはない。生成手法からしてあまり不味いことになりにくい #yapcasia

2015-08-20 20:03:01
Wataru MIYAGUNI @gongoZ

Q「生成されたトピック、トピックタイトルが正しいかどうかはどうやって判断するのか。ユーザテスト?それも何か基準を?」A「理想を言えばどちらもやりたいですが、現状は主観で」 #yapcasia #yapcasiaE

2015-08-20 20:03:03
(っ=﹏=c) .。o○ @itchyny

Q. どういうマシンを使っているか、あるいは何台 A. 6台 #yapcasia

2015-08-20 20:04:13
suzuken / CARTA @suzu_v

二時間ごとにトピック作るのなかなか大変だ。ES6ノードで全トピックを生成と。 #yapcasia

2015-08-20 20:04:24
しょーちゃん @show_m001

#yapcasia トピックは新語が多いので辞書を鍛えてやってるわけではない

2015-08-20 20:05:13
久我山菜々+ @nonamea774

トピックは基本的に新語なので、辞書はあまり意味を成さない。 #yapcasia #yapcasiaE

2015-08-20 20:05:40
suzuken / CARTA @suzu_v

トピックは辞書作るより前に作られる。あー、もう新語獲得に近いタスクなんだろうなぁ。未知語でもうまくトピックになるようにする必要があるということかー #yapcasia

2015-08-20 20:05:54
Aki Ariga @chezou

ニュースは辞書わりと楽だろうなぁ。neologd使うと良さそうな気も #yapcasia

2015-08-20 20:05:57
碧彩/hekisai@一般男性 @hekisai_417

elastic searchはJVM入ってりゃうごくのか。いつも書いているマインドマップの枝の単語をトピックとして生成してもようかな。 #yapcasia / elastic.co/guide/en/elast…

2015-08-20 20:06:21
碧彩/hekisai@一般男性 @hekisai_417

elastic searchはJVM入ってりゃうごくのか。いつも書いているマインドマップの枝の単語をトピックとして生成してもようかな。 #yapcasia / elastic.co/guide/en/elast…

2015-08-20 20:06:21
USBケーブル整理 @sys9kdr

辞書を鍛えると遅いから(そもそも新聞記事のタイトルから)特徴語が切り出せるってことかな。 #yapcasia

2015-08-20 20:06:31
USBケーブル整理 @sys9kdr

辞書を鍛えると遅いから(そもそも新聞記事のタイトルから)特徴語が切り出せるってことかな。 #yapcasia

2015-08-20 20:06:31
こえむ @koemu

質問しました。 Q: 辞書は鍛えているか? A: 鍛えていない。鍛えるスピードより新しい単語が出て来る方が速い。また、鍛えなくても妥当な精度が出ている。 どうもありがとうございました! #yapcasia #yapcasiaE

2015-08-20 20:06:38
こえむ @koemu

質問しました。 Q: 辞書は鍛えているか? A: 鍛えていない。鍛えるスピードより新しい単語が出て来る方が速い。また、鍛えなくても妥当な精度が出ている。 どうもありがとうございました! #yapcasia #yapcasiaE

2015-08-20 20:06:38
おさ/スパム関連は質問前に固定ツイ見て @osapon

ニュースソースだと辞書メンテなしでいけるんだね。Twitterのツイートだと、naist、はてなキーワード、手動管理でやってるけど、追いかけるの面倒だなーってなってる。 #yapcasia

2015-08-20 20:09:12
前へ 1 ・・ 5 6 次へ