ペリー・ローダン通読会外伝 サブタイトル形態素解析とか作者解析とか
ローダンのサブタイトル入力100巻まで。Nexus7で自炊リーダーとして常用してるPerfectViewerが素晴らしく便利で大活躍してる。全部PCでやるより断然速い。
2014-08-12 14:58:32PerfectViewerの設定を少しいじれば、次の巻→サブタイトルの載ってるページに遷移の流れが入力込みの5タッチでできる。次の巻を一覧から選ぶ必要すらなし。
2014-08-12 15:00:48slideshare.net/langstat/kgr2-r これに従ったら簡単に頻度解析が出来てしまった。固有名詞とか手で直したらすぐ使える。
2014-08-12 16:51:29ローダン100巻まで(200話)のサブタイトル頻出語解析結果top11。案の定というべきか、ベタベタですね! pic.twitter.com/uTJQxKS348
2014-08-12 17:02:53@hirabat ローダン100巻(200話)までサブタイトル頻出語解析2。助詞、感嘆詞などを除いたtop12。この辺までは一般的な名詞が並ぶ。 pic.twitter.com/4F1Jk6QwUM
2014-08-12 17:06:56@hirabat ローダン100巻(200話)までサブタイトル頻出語解析3。ミュータントやアルコンなどといったローダン特有の語は出現数3以下。人名ではグッキーが唯一のランクイン。 pic.twitter.com/zqacarSdRm
2014-08-12 17:08:45これくらいの量、精度の形態素解析なら、知識がなくても1時間足らずで出来てしまうことがわかった。便利な世の中だけど、原理をさっぱり勉強せずにやれちゃうのは戸惑うな。
2014-08-12 17:13:50@hirabat ローダン100巻(200話)までのサブタイトル頻出語解析4。手作業で人名を抽出。グッキーが3回、トーラとアトランが2回。なんとローダンは1度も登場しない。 pic.twitter.com/iQE1riKe84
2014-08-12 17:23:16@hirabat サブタイトルに名前が出現する登場人物9人のうち、レギュラーが4人(うちトーラは2サイクル目で退場)、準レギュラーが1人、サイクル・ゲストが2人。強敵1人。で、最後に残るレヴタンはなぜサブタイトルになった?(17巻『燃える氷惑星』後半「裏切り者レヴタン」)
2014-08-12 17:33:17@hirabat ローダンといえば永遠のマンネリの代表としてよく出てくるのがジャングル惑星。200話までの4サイクルのサブタイトルでは3回出現しており、サブタイトルになくても実質ジャングル惑星ものというのもそれなりにあることを考えると、やはり1サイクル1ジャングル以上はある模様。
2014-08-12 17:26:22ちなみに、100巻1冊で100回以上登場した単語はこんな感じ。だからどうしたと言われても困る。 pic.twitter.com/J51d4Ri43p
2014-08-12 18:19:03昨日の続きで、本文の形態素解析の精度を上げようとローダン辞書を作ってみたり、OCR誤りの修正をしてみたりしたけど、今一効果が感じられなかった。辞書なしだとローダンはローとダンにわかれてたのを手で直してるので、マシではあるけど。 pic.twitter.com/Gb3h7Zk3EL
2014-08-13 13:15:59@hirabat なぜか〈第三勢力〉サイクルが1-49話で、次のサイクルからは50話編成なんだよな。お陰で、2話1巻構成のハヤカワ版では境の巻は前半で締めて後半で次のサイクルが始まるので、止め時がないんだけどね。
2014-08-12 19:53:01