ペリー・ローダン通読会外伝 サブタイトル形態素解析とか作者解析とか

PR通読会100巻突破記念企画、サブタイトルを形態素解析して頻出語とか調べてみました。 結論:グッキーはマスコット まとめ1〈第三勢力〉 http://togetter.com/li/705371 続きを読む
3
ひらばと! @hirabat

お盆とか関係なく、予定のない休日の過ごし方が苦手です。でもって、積極的に予定を立てるのもにがて。

2014-08-12 12:36:44
HIROTO @yuggoth9

@hirabat 全部ペリー・ローダンに、費やしたらイイじゃない。

2014-08-12 17:37:48
ひらばと! @hirabat

@yuggoth9 まさしく今費やしてます……

2014-08-12 17:38:07
ひらばと! @hirabat

ローダンのサブタイトル入力100巻まで。Nexus7で自炊リーダーとして常用してるPerfectViewerが素晴らしく便利で大活躍してる。全部PCでやるより断然速い。

2014-08-12 14:58:32
ひらばと! @hirabat

PerfectViewerの設定を少しいじれば、次の巻→サブタイトルの載ってるページに遷移の流れが入力込みの5タッチでできる。次の巻を一覧から選ぶ必要すらなし。

2014-08-12 15:00:48
ひらばと! @hirabat

ローダンのサブタイトルをせっかく入力したので、頻出語を抽出してみたい。形態素解析とか勉強すればいいの?

2014-08-12 16:00:34
ひらばと! @hirabat

Rを落とすのに10分かかる回線……

2014-08-12 16:10:22
ひらばと! @hirabat

slideshare.net/langstat/kgr2-r これに従ったら簡単に頻度解析が出来てしまった。固有名詞とか手で直したらすぐ使える。

2014-08-12 16:51:29
ひらばと! @hirabat

ローダン100巻まで(200話)のサブタイトル頻出語解析結果top11。案の定というべきか、ベタベタですね! pic.twitter.com/uTJQxKS348

2014-08-12 17:02:53
拡大
ひらばと! @hirabat

@hirabat ローダン100巻(200話)までサブタイトル頻出語解析2。助詞、感嘆詞などを除いたtop12。この辺までは一般的な名詞が並ぶ。 pic.twitter.com/4F1Jk6QwUM

2014-08-12 17:06:56
拡大
ひらばと! @hirabat

@hirabat ローダン100巻(200話)までサブタイトル頻出語解析3。ミュータントやアルコンなどといったローダン特有の語は出現数3以下。人名ではグッキーが唯一のランクインpic.twitter.com/zqacarSdRm

2014-08-12 17:08:45
拡大
ひらばと! @hirabat

@hirabat 以上より、グッキーがローダンのマスコットであることが証明されましたまる #kawaiiGucky

2014-08-12 17:11:00
ひらばと! @hirabat

これくらいの量、精度の形態素解析なら、知識がなくても1時間足らずで出来てしまうことがわかった。便利な世の中だけど、原理をさっぱり勉強せずにやれちゃうのは戸惑うな。

2014-08-12 17:13:50
ひらばと! @hirabat

@hirabat ローダン100巻(200話)までのサブタイトル頻出語解析4。手作業で人名を抽出。グッキーが3回、トーラとアトランが2回。なんとローダンは1度も登場しないpic.twitter.com/iQE1riKe84

2014-08-12 17:23:16
拡大
ひらばと! @hirabat

@hirabat サブタイトルに名前が出現する登場人物9人のうち、レギュラーが4人(うちトーラは2サイクル目で退場)、準レギュラーが1人、サイクル・ゲストが2人。強敵1人。で、最後に残るレヴタンはなぜサブタイトルになった?(17巻『燃える氷惑星』後半「裏切り者レヴタン」)

2014-08-12 17:33:17
ひらばと! @hirabat

@hirabat ローダンといえば永遠のマンネリの代表としてよく出てくるのがジャングル惑星。200話までの4サイクルのサブタイトルでは3回出現しており、サブタイトルになくても実質ジャングル惑星ものというのもそれなりにあることを考えると、やはり1サイクル1ジャングル以上はある模様

2014-08-12 17:26:22
ひらばと! @hirabat

ンがγに、長音は縦棒になる傾向がある。ンとソが区別つかないのはしかたがないね。頻出誤検出を処理してやれば、多少は扱えるか?

2014-08-13 10:30:43
ひらばと! @hirabat

本文も1冊食わせてみたけど、OCR精度の問題もあるし苦労してまともっぽい抽出を得てもそもそもなにも言うべきことはなかった。

2014-08-12 18:16:51
ひらばと! @hirabat

ちなみに、100巻1冊で100回以上登場した単語はこんな感じ。だからどうしたと言われても困る。 pic.twitter.com/J51d4Ri43p

2014-08-12 18:19:03
拡大
ひらばと! @hirabat

@hirabat ローダンの結婚式にアルコン帝国の最期と、イホ・トロト初登場という100巻の粗筋をよく表しているとは言える。

2014-08-12 18:20:21
ひらばと! @hirabat

昨日の続きで、本文の形態素解析の精度を上げようとローダン辞書を作ってみたり、OCR誤りの修正をしてみたりしたけど、今一効果が感じられなかった。辞書なしだとローダンはローとダンにわかれてたのを手で直してるので、マシではあるけど。 pic.twitter.com/Gb3h7Zk3EL

2014-08-13 13:15:59
拡大
ひらばと! @hirabat

@hirabat 作家別に使用語彙を調べるにはいいのかもしれないけど、テキストを分割したり集計するのがめんどすぎる。

2014-08-13 13:17:50
ひらばと! @hirabat

@hirabat なぜか〈第三勢力〉サイクルが1-49話で、次のサイクルからは50話編成なんだよな。お陰で、2話1巻構成のハヤカワ版では境の巻は前半で締めて後半で次のサイクルが始まるので、止め時がないんだけどね。

2014-08-12 19:53:01
ひらばと! @hirabat

@hirabat 著者については後で作風とか解析する。 pic.twitter.com/3OtYuXp5zr

2014-08-12 17:51:15
拡大