ニンジャスレイヤーと圧縮率による著者推定のなんか改善

以前の方法を改善し、Rの簡単な使い方を覚え、ニンジャスレイヤー翻訳チームの謎に挑む
2
まとめ ニンジャスレイヤーと圧縮率による著者推定のなんか ”不用意に歴史の闇に触れるのは得策では無いと申し上げておこう。” データとか置いときます http://www.rnatori.net/NJRecalls/140322data.xlsx 3257 pv 35 1 user

NJRecalls @NJRecalls

…結構いい成績では? pic.twitter.com/hRKE6DTIzB

2015-11-13 00:34:04
拡大
拡大
拡大
NJRecalls @NJRecalls

以前こういうことをやっていたのを覚えている方もいらっしゃるだろう…これを昨日思い出して…: ニンジャスレイヤーと圧縮率による著者推定のなんか - Togetterまとめ - togetter.com/li/645615

2015-11-13 10:49:18
NJRecalls @NJRecalls

以前のヤツには何点か問題がある。まず文字数の少なさだ。元の論文では30000字で行っているが、以前はセクション1でやってたりした。二つ目には正解がわからない。どちらがボンド、どちらがモーゼズの書いたエピソードだ?…この二つの問題を一挙に解決できるアイテムがあるのを思い出した。

2015-11-13 10:52:08
NJRecalls @NJRecalls

それが「ニンジャスレイヤー キョート・ヘル・オン・アース 【下】 (キョート殺伐都市 # 8) 」( amazon.co.jp/dp/4047301892 )だよ!巻末に原作者からのコメントがあり、多分これがメインの著者と見ていい。幾つかは明言している。そして第二部は文字数も申し分ない

2015-11-13 10:54:04
NJRecalls @NJRecalls

そこで原作者たちが「書いた」と表現している7つの第2部エピソードについて、他のエピソードと繋げた時の圧縮率向上を算出し、より向上する組み合わせに引力が働くようにして、ビジュアライズしたのがこれだ! pic.twitter.com/4IVwSYCpqh

2015-11-13 10:56:40
拡大
NJRecalls @NJRecalls

きちんと二つのクラスタに分かれるではないか…これもうちょっと早くにやればニンジャ学会誌に投稿できたな… twitter.com/NJRecalls/stat…

2015-11-13 10:57:51
NJRecalls @NJRecalls

以前のやつ( twitter.com/NJRecalls/stat… )をちょっと増やして、ウォード法でクラスター分析した結果。やはり綺麗に二つに分かれる pic.twitter.com/jg9hHpZsva

2015-11-15 21:03:19
拡大

NJRecalls @NJRecalls

第2部原作者コメントのある29エピソードのうちボンド、モーゼズ8エピソードずつのTwitter連載時テキストを元にクラスタリング。ちゃんと分かれる。ここに第3部エピソードを投げ込んで、どちらに行くか見てみようではないか pic.twitter.com/QmK2fQP5Pd

2015-11-16 20:35:05
拡大
NJRecalls @NJRecalls

まあ実際には「ボンドチーム」「モーゼズチーム」な訳だけど…その次は翻訳チームのオリジナル小説を投げ込んでさ、どこに翻訳翻訳翻訳翻訳翻訳原作者翻訳翻訳翻訳翻訳翻訳翻訳翻訳

2015-11-16 20:37:59
NJRecalls @NJRecalls

まずは「リボルバー・アンド・ヌンチャク」。図の301だ。…一応モーゼズ(担当翻訳チーム)クラスタに入っていることが分かる。では正解は?こうだ… twitter.com/njslyr/status/… pic.twitter.com/pFFOvhS1J2

2015-11-16 20:51:59
拡大
NJRecalls @NJRecalls

「サツバツ・ナイト・バイ・ナイト」図の302は見つけづらいかもしれないが完全にモーゼズ(担当翻訳チーム)クラスタ。正解は? twitter.com/njslyr/status/… pic.twitter.com/fFnF0y1GNv

2015-11-16 21:06:08
拡大
NJRecalls @NJRecalls

「モータードリヴン・ブルース」図の303。ボンド(担当翻訳チーム)と判定された。正解を見てみよう twitter.com/njslyr/status/… pic.twitter.com/1mkVnBIB5t

2015-11-16 21:17:32
拡大
NJRecalls @NJRecalls

つまり、読んで文体の特徴を見るとか…Twitterクライアント名を見るとか…でなくても、一定量のテキストを入れるとボンド(担当翻訳チーム)かモーゼズ(担当翻訳チーム)か判定できる機械的手段が出来たと言ってよいであろう…

2015-11-16 21:22:01
NJRecalls @NJRecalls

ちなみに、元々の詳しい手法はこちらの論文にある。二つのテキストを連結して、単独の時より圧縮率がどれだけ良くなったか見る、という簡単な手法だ。 i-repository.net/contents/asia-…

2015-11-16 21:25:22
NJRecalls @NJRecalls

そうだ!あともう一つやってみよう…「ノーホーマー・ノーサヴァイヴ」第3部エピソード投票でボンドの発案だと明かされた時は結構「ボンドかよ!?」的反応があった。…ボンドだ。間違いない twitter.com/njslyr/status/… pic.twitter.com/2ijVyqptgH

2015-11-16 21:44:47
拡大

NJRecalls @NJRecalls

こないだのテキスト情報からのボンドorモーゼズ(担当チーム)推定に使用した方法についてまとめました: 推定圧縮プログラムによる著者推定技術のニンジャスレイヤーへの応用 slideshare.net/rnatori/ss-554… #njslyr7d

2015-11-23 19:22:56
NJRecalls @NJRecalls

ニンジャ学会に出せればよかったんだけどね…こういう本来はもっとちゃんとやれる話を論文にするのは…こう…もっとガチな能力が必要になってしまうし、なかなか文章で説明するのも難しいのだ

2015-11-23 19:24:35
NJRecalls @NJRecalls

ちなみにTogetterからのテキストダウンロード及びノンブルの除去を行うプログラムと、フォルダを指定すると中のtxtファイルを使ってすべての組み合わせでの圧縮率改善係数を算出してcsvに書き出すプログラムを作成してある

2015-11-23 19:54:47

NJRecalls @NJRecalls

(これまでのあらすじ)圧縮プログラムによって、テキスト情報からモーゼズ担当チームの文章かボンド担当チームの文章かを判別することに成功した開発チーム。だが今後の展望は限りないのだった twitter.com/NJRecalls/stat…

2015-11-24 23:14:37
NJRecalls @NJRecalls

そこで今回は、他の人物が書いたテキストと、両翻訳チームの訳したテキストを区別できるかみてみましょう。サンプルに選んだのはこちらから、3作者それぞれ2作品ずつ、いずれも5セクション以上のテキストです。 togetter.com/li/593728

2015-11-24 23:18:04
残りを読む(42)

コメント

コメントがまだありません。感想を最初に伝えてみませんか?