- kyonsuke19101
- 1792
- 0
- 1
- 0
「同じ著者の小説をつなげてzip圧縮したら、複数の著者の小説をつなげて圧縮するよりも圧縮率がいいから著者推定に使える!」って論文が見つかった。キワモノかと思ったら精度いいし。論文探してるとしばしば「その発想はなかったわ」な物が見つかって面白いが俺は数日前にこれをやっとくべきだ。
2010-07-05 01:05:40例えば、複数の異なる作家による文章群からそれぞれ適当な雰囲気ベクトルを取り出して特徴量空間にマッピングし、その上で定義した距離を人間の直感に合うようにできるだろうか? ハードSFと恋愛小説が異なるクラスタを形成するようにできるだろうか?
2012-11-19 23:20:18音楽方面にはこの手のアプローチが散見されるが、電子書籍ではまだ見たことがない。この本を買った人はこんな本も買っていますという、リアルワールドの人間による距離付けを教師データにしたリコメンドが主流を占めている
2012-11-19 23:26:05出来ないorやっても意味がないからやってないのか、単に大人の事情でソースが使えないからやってないのか、昨今の電子書籍ギョーカイを見てるとどっちとも言いがたいなりよ。。
2012-11-19 23:28:52@yanma コストに対するリターンが少なそうだからじゃないですか。もしくは、人というコンピュータを通した距離付けによるリコメンドだけでも十分だと考えている可能性もあると思います。。
2012-11-19 23:33:48@kyonsuke19101 素人が適当に喋ってるだけなのでアレですが、きっちりクラスタリング出来なくても、なんとなくハルヒと禁書と人衰は近くにいて、吾輩は猫であるとかをプロットするとちょっと離れた位置に来る、みたいなのをある程度の精度で作れると楽しい気がするんですけどねー
2012-11-19 23:33:53@yanma そのあたりは文章の書き方自体が違うので、できそうな気がしますが、同時代の小説の中でのジャンル分けは難しいかもしれません。恋愛小説といえど、甘い単語ばかりではないでしょうし…。
2012-11-19 23:35:40@kyonsuke19101 音楽で結構この手のリコメンドが盛んなのは、やっぱソースの情報量がテキストと比べて大きいからなんですかねー? 業界によってわりと雰囲気違いますよね
2012-11-19 23:36:14@yanma 情報量というよりも、ジャンル分けがしやすいのだと思います。その音楽で使っている楽器は区別できると思うので、楽器の組み合わせからある程度ジャンルを絞ることが出来るのかと推測しますー。
2012-11-19 23:38:57そういうこと言って特徴量をリッチにし過ぎて泥沼にズブズブハマる研究を学生の頃はよく見たので、zip圧縮率という超単純な量に着目したさっきの研究はやっぱ上手いなーと思う
2012-11-19 23:47:07@yanma コンテンツの内容でclassificationもしくはclusteringするという研究は昔から数多くありますね.Amazonのリコメンド等で使われていないのは、Amazon側で全てのテキストを見れない、稼働コストが高すぎる、等など色々理由がありそうです
2012-11-19 23:54:37@omochi64 やっぱり結構あるんですね。稼働コストはそれよりだいぶ情報量が大きい音楽で動かしている所がわりとあるので、なんとなくテキストが見られていない気がしています(ソースの大きさと計算の重さは単純に比例はしないとは思いますが、大きくは変わらないと思うので)
2012-11-20 00:03:02@yanma そうですね~。後は言語の差の問題もあるかもしれません。英語は英語、日本語は日本語、と分けてやるなら別ですが、cross lingual でまとめてやる場合、研究段階では盛んなものの実用アプリケーションはあまり聞かないので
2012-11-20 00:07:03いまおもちさんに指摘してもらったけど、音楽でわりと雰囲気リコメンドが盛んのは、文字ベースのソースに比べてcross lingualなアプリケーションが作りやすいからかも
2012-11-20 00:12:34これは根本原因に近い気がするなあ。音楽は言語を超えるけど、文章は言語の壁がそのまま見えるから、グローバルなサービスが作りづらくて、各国ローカリゼーションの分実装コストが余分に乗り、これがだいぶ重い
2012-11-20 00:20:05ソースを言語間でぶった切っておくと、同言語内の距離に基づくリコメンデーションは多分共通のアルゴリズムでできるけど、それが何のジャンルに分類されるのかは手動ローカライズの必要が出てきそう。それをも自動でやる研究もあるのかなー
2012-11-20 00:25:43