はてブのトピックページはこう作られている! 中の人による実装解説 #yapcasia #yapcasiaE
はてなのトピック生成の裏側みることができた。Elastic SearchのTerms Aggregationを利用してらしい。 #yapcasia
2015-08-20 20:01:31はてなのトピック生成の裏側みることができた。Elastic SearchのTerms Aggregationを利用してらしい。 #yapcasia
2015-08-20 20:01:31Q. 処理が重くなりそう。それぞれどれくらいの時間がかかるのか。 A. トピックの生成がものすごく時間がかかり、メモリーをめっちゃ使う。例えば1query30分とか。Q. ではどういう間隔でトピック作っているか A. 二時間に一回作っている。 #yapcasia
2015-08-20 20:01:32Q. トピックタイトルの妥当性はどうしているか A. 理想は定量化しつつユーザーテストだが、今は定性的かつ主観。ニュースサイトがソースなのでそんなに酷いことにはならない。 #yapcasia
2015-08-20 20:02:41Q「生成されたトピック、トピックタイトルが正しいかどうかはどうやって判断するのか。ユーザテスト?それも何か基準を?」A「理想を言えばどちらもやりたいですが、現状は主観で」 #yapcasia #yapcasiaE
2015-08-20 20:03:03トピックは辞書作るより前に作られる。あー、もう新語獲得に近いタスクなんだろうなぁ。未知語でもうまくトピックになるようにする必要があるということかー #yapcasia
2015-08-20 20:05:54elastic searchはJVM入ってりゃうごくのか。いつも書いているマインドマップの枝の単語をトピックとして生成してもようかな。 #yapcasia / elastic.co/guide/en/elast…
2015-08-20 20:06:21elastic searchはJVM入ってりゃうごくのか。いつも書いているマインドマップの枝の単語をトピックとして生成してもようかな。 #yapcasia / elastic.co/guide/en/elast…
2015-08-20 20:06:21質問しました。 Q: 辞書は鍛えているか? A: 鍛えていない。鍛えるスピードより新しい単語が出て来る方が速い。また、鍛えなくても妥当な精度が出ている。 どうもありがとうございました! #yapcasia #yapcasiaE
2015-08-20 20:06:38質問しました。 Q: 辞書は鍛えているか? A: 鍛えていない。鍛えるスピードより新しい単語が出て来る方が速い。また、鍛えなくても妥当な精度が出ている。 どうもありがとうございました! #yapcasia #yapcasiaE
2015-08-20 20:06:38ニュースソースだと辞書メンテなしでいけるんだね。Twitterのツイートだと、naist、はてなキーワード、手動管理でやってるけど、追いかけるの面倒だなーってなってる。 #yapcasia
2015-08-20 20:09:12