小説解析からのリコメンドについて雑談

自分のラボの研究テーマに近い雑談をしたから、まとめてみたよ。
2
kikuzone @kikuzone

「同じ著者の小説をつなげてzip圧縮したら、複数の著者の小説をつなげて圧縮するよりも圧縮率がいいから著者推定に使える!」って論文が見つかった。キワモノかと思ったら精度いいし。論文探してるとしばしば「その発想はなかったわ」な物が見つかって面白いが俺は数日前にこれをやっとくべきだ。

2010-07-05 01:05:40
yanma @yanma

これ面白いなあ。文章のクセを捉える簡便にして強力な方法と思う

2012-11-19 23:00:19
yanma @yanma

さっきのRTを見て考えたこと。あるまとまった文章から、その「雰囲気」を表すような特徴量を取り出すことはできるんだろうか?

2012-11-19 23:07:07
yanma @yanma

特徴量は定義さえすれば取れるだろうけど、それを人間が感じる「雰囲気」に近づけることが可能かどうかは、自明ではないと思う

2012-11-19 23:12:37
yanma @yanma

例えば、複数の異なる作家による文章群からそれぞれ適当な雰囲気ベクトルを取り出して特徴量空間にマッピングし、その上で定義した距離を人間の直感に合うようにできるだろうか? ハードSFと恋愛小説が異なるクラスタを形成するようにできるだろうか?

2012-11-19 23:20:18
yanma @yanma

音楽方面にはこの手のアプローチが散見されるが、電子書籍ではまだ見たことがない。この本を買った人はこんな本も買っていますという、リアルワールドの人間による距離付けを教師データにしたリコメンドが主流を占めている

2012-11-19 23:26:05
yanma @yanma

出来ないorやっても意味がないからやってないのか、単に大人の事情でソースが使えないからやってないのか、昨今の電子書籍ギョーカイを見てるとどっちとも言いがたいなりよ。。

2012-11-19 23:28:52
きょん / Kyo Nakamura @kyonsuke19101

@yanma コストに対するリターンが少なそうだからじゃないですか。もしくは、人というコンピュータを通した距離付けによるリコメンドだけでも十分だと考えている可能性もあると思います。。

2012-11-19 23:33:48
yanma @yanma

@kyonsuke19101 素人が適当に喋ってるだけなのでアレですが、きっちりクラスタリング出来なくても、なんとなくハルヒと禁書と人衰は近くにいて、吾輩は猫であるとかをプロットするとちょっと離れた位置に来る、みたいなのをある程度の精度で作れると楽しい気がするんですけどねー

2012-11-19 23:33:53
きょん / Kyo Nakamura @kyonsuke19101

@yanma そのあたりは文章の書き方自体が違うので、できそうな気がしますが、同時代の小説の中でのジャンル分けは難しいかもしれません。恋愛小説といえど、甘い単語ばかりではないでしょうし…。

2012-11-19 23:35:40
yanma @yanma

@kyonsuke19101 音楽で結構この手のリコメンドが盛んなのは、やっぱソースの情報量がテキストと比べて大きいからなんですかねー? 業界によってわりと雰囲気違いますよね

2012-11-19 23:36:14
yanma @yanma

@kyonsuke19101 例えば人が死ぬ恋愛小説は、場合によってはミステリの近くにマッピングされてもいいと思うんですよw

2012-11-19 23:37:39
きょん / Kyo Nakamura @kyonsuke19101

@yanma 情報量というよりも、ジャンル分けがしやすいのだと思います。その音楽で使っている楽器は区別できると思うので、楽器の組み合わせからある程度ジャンルを絞ることが出来るのかと推測しますー。

2012-11-19 23:38:57
きょん / Kyo Nakamura @kyonsuke19101

@yanma これはそんなかんじになりそうですねw

2012-11-19 23:39:12
yanma @yanma

@kyonsuke19101 あーまあ、確かに。。アップテンポなバラードとか、明らかにほとんど無いですもんねw 文章よりは簡単そう

2012-11-19 23:41:46
yanma @yanma

そういうこと言って特徴量をリッチにし過ぎて泥沼にズブズブハマる研究を学生の頃はよく見たので、zip圧縮率という超単純な量に着目したさっきの研究はやっぱ上手いなーと思う

2012-11-19 23:47:07
お餅 @omochi64

@yanma コンテンツの内容でclassificationもしくはclusteringするという研究は昔から数多くありますね.Amazonのリコメンド等で使われていないのは、Amazon側で全てのテキストを見れない、稼働コストが高すぎる、等など色々理由がありそうです

2012-11-19 23:54:37
yanma @yanma

@omochi64 やっぱり結構あるんですね。稼働コストはそれよりだいぶ情報量が大きい音楽で動かしている所がわりとあるので、なんとなくテキストが見られていない気がしています(ソースの大きさと計算の重さは単純に比例はしないとは思いますが、大きくは変わらないと思うので)

2012-11-20 00:03:02
お餅 @omochi64

@yanma そうですね~。後は言語の差の問題もあるかもしれません。英語は英語、日本語は日本語、と分けてやるなら別ですが、cross lingual でまとめてやる場合、研究段階では盛んなものの実用アプリケーションはあまり聞かないので

2012-11-20 00:07:03
yanma @yanma

@omochi64 あ~それはありそうですね。そっか、見落としてました。音楽は言語を越えるんですね!

2012-11-20 00:09:31
お餅 @omochi64

あれ、でも contents-based recommendation system はふつーにあるよな

2012-11-20 00:10:45
yanma @yanma

いまおもちさんに指摘してもらったけど、音楽でわりと雰囲気リコメンドが盛んのは、文字ベースのソースに比べてcross lingualなアプリケーションが作りやすいからかも

2012-11-20 00:12:34
yanma @yanma

これは根本原因に近い気がするなあ。音楽は言語を超えるけど、文章は言語の壁がそのまま見えるから、グローバルなサービスが作りづらくて、各国ローカリゼーションの分実装コストが余分に乗り、これがだいぶ重い

2012-11-20 00:20:05
yanma @yanma

ソースを言語間でぶった切っておくと、同言語内の距離に基づくリコメンデーションは多分共通のアルゴリズムでできるけど、それが何のジャンルに分類されるのかは手動ローカライズの必要が出てきそう。それをも自動でやる研究もあるのかなー

2012-11-20 00:25:43