【新機能】作り忘れたまとめはありませんか?31日前まで期間指定してまとめが作れる高度な検索ができました。有料APIだからツイートの漏れはありません!

ニンジャスレイヤーと圧縮率による著者推定のなんか改善

以前の方法を改善し、Rの簡単な使い方を覚え、ニンジャスレイヤー翻訳チームの謎に挑む
ログ ニンジャスレイヤー 計量文献学
2051view 0コメント
2
ログインして広告を非表示にする
ツイートまとめ 3017 view 35 1 user ニンジャスレイヤーと圧縮率による著者推定のなんか ”不用意に歴史の闇に触れるのは得策では無いと申し上げておこう。” データとか置いときます http://www.rnatori.net/NJRecalls/140322data.xlsx

NJRecalls @NJRecalls 2015-11-13 00:34:04
…結構いい成績では? pic.twitter.com/hRKE6DTIzB
 拡大
 拡大
 拡大
NJRecalls @NJRecalls 2015-11-13 10:49:18
以前こういうことをやっていたのを覚えている方もいらっしゃるだろう…これを昨日思い出して…: ニンジャスレイヤーと圧縮率による著者推定のなんか - Togetterまとめ - togetter.com/li/645615
NJRecalls @NJRecalls 2015-11-13 10:52:08
以前のヤツには何点か問題がある。まず文字数の少なさだ。元の論文では30000字で行っているが、以前はセクション1でやってたりした。二つ目には正解がわからない。どちらがボンド、どちらがモーゼズの書いたエピソードだ?…この二つの問題を一挙に解決できるアイテムがあるのを思い出した。
NJRecalls @NJRecalls 2015-11-13 10:54:04
それが「ニンジャスレイヤー キョート・ヘル・オン・アース 【下】 (キョート殺伐都市 # 8) 」( amazon.co.jp/dp/4047301892 )だよ!巻末に原作者からのコメントがあり、多分これがメインの著者と見ていい。幾つかは明言している。そして第二部は文字数も申し分ない
NJRecalls @NJRecalls 2015-11-13 10:56:40
そこで原作者たちが「書いた」と表現している7つの第2部エピソードについて、他のエピソードと繋げた時の圧縮率向上を算出し、より向上する組み合わせに引力が働くようにして、ビジュアライズしたのがこれだ! pic.twitter.com/4IVwSYCpqh
 拡大
NJRecalls @NJRecalls 2015-11-13 10:57:51
きちんと二つのクラスタに分かれるではないか…これもうちょっと早くにやればニンジャ学会誌に投稿できたな… twitter.com/NJRecalls/stat…
NJRecalls @NJRecalls 2015-11-15 21:03:19
以前のやつ( twitter.com/NJRecalls/stat… )をちょっと増やして、ウォード法でクラスター分析した結果。やはり綺麗に二つに分かれる pic.twitter.com/jg9hHpZsva
 拡大

NJRecalls @NJRecalls 2015-11-16 20:35:05
第2部原作者コメントのある29エピソードのうちボンド、モーゼズ8エピソードずつのTwitter連載時テキストを元にクラスタリング。ちゃんと分かれる。ここに第3部エピソードを投げ込んで、どちらに行くか見てみようではないか pic.twitter.com/QmK2fQP5Pd
 拡大
NJRecalls @NJRecalls 2015-11-16 20:37:59
まあ実際には「ボンドチーム」「モーゼズチーム」な訳だけど…その次は翻訳チームのオリジナル小説を投げ込んでさ、どこに翻訳翻訳翻訳翻訳翻訳原作者翻訳翻訳翻訳翻訳翻訳翻訳翻訳
NJRecalls @NJRecalls 2015-11-16 20:51:59
まずは「リボルバー・アンド・ヌンチャク」。図の301だ。…一応モーゼズ(担当翻訳チーム)クラスタに入っていることが分かる。では正解は?こうだ… twitter.com/njslyr/status/… pic.twitter.com/pFFOvhS1J2
 拡大
NJRecalls @NJRecalls 2015-11-16 21:06:08
「サツバツ・ナイト・バイ・ナイト」図の302は見つけづらいかもしれないが完全にモーゼズ(担当翻訳チーム)クラスタ。正解は? twitter.com/njslyr/status/… pic.twitter.com/fFnF0y1GNv
 拡大
NJRecalls @NJRecalls 2015-11-16 21:17:32
「モータードリヴン・ブルース」図の303。ボンド(担当翻訳チーム)と判定された。正解を見てみよう twitter.com/njslyr/status/… pic.twitter.com/1mkVnBIB5t
 拡大
NJRecalls @NJRecalls 2015-11-16 21:22:01
つまり、読んで文体の特徴を見るとか…Twitterクライアント名を見るとか…でなくても、一定量のテキストを入れるとボンド(担当翻訳チーム)かモーゼズ(担当翻訳チーム)か判定できる機械的手段が出来たと言ってよいであろう…
NJRecalls @NJRecalls 2015-11-16 21:25:22
ちなみに、元々の詳しい手法はこちらの論文にある。二つのテキストを連結して、単独の時より圧縮率がどれだけ良くなったか見る、という簡単な手法だ。 i-repository.net/contents/asia-…
NJRecalls @NJRecalls 2015-11-16 21:44:47
そうだ!あともう一つやってみよう…「ノーホーマー・ノーサヴァイヴ」第3部エピソード投票でボンドの発案だと明かされた時は結構「ボンドかよ!?」的反応があった。…ボンドだ。間違いない twitter.com/njslyr/status/… pic.twitter.com/2ijVyqptgH
 拡大

NJRecalls @NJRecalls 2015-11-23 19:22:56
こないだのテキスト情報からのボンドorモーゼズ(担当チーム)推定に使用した方法についてまとめました: 推定圧縮プログラムによる著者推定技術のニンジャスレイヤーへの応用 slideshare.net/rnatori/ss-554… #njslyr7d
NJRecalls @NJRecalls 2015-11-23 19:24:35
ニンジャ学会に出せればよかったんだけどね…こういう本来はもっとちゃんとやれる話を論文にするのは…こう…もっとガチな能力が必要になってしまうし、なかなか文章で説明するのも難しいのだ
NJRecalls @NJRecalls 2015-11-23 19:54:47
ちなみにTogetterからのテキストダウンロード及びノンブルの除去を行うプログラムと、フォルダを指定すると中のtxtファイルを使ってすべての組み合わせでの圧縮率改善係数を算出してcsvに書き出すプログラムを作成してある

NJRecalls @NJRecalls 2015-11-24 23:14:37
(これまでのあらすじ)圧縮プログラムによって、テキスト情報からモーゼズ担当チームの文章かボンド担当チームの文章かを判別することに成功した開発チーム。だが今後の展望は限りないのだった twitter.com/NJRecalls/stat…
NJRecalls @NJRecalls 2015-11-24 23:18:04
そこで今回は、他の人物が書いたテキストと、両翻訳チームの訳したテキストを区別できるかみてみましょう。サンプルに選んだのはこちらから、3作者それぞれ2作品ずつ、いずれも5セクション以上のテキストです。 togetter.com/li/593728
残りを読む(42)

ブックマークしたタグ

あなたの好きなタグをブックマークしておこう!話題のまとめを見逃さなくなります。
ログインして広告を非表示にする
ログインして広告を非表示にする