ニンジャスレイヤーと圧縮率による著者推定のなんか

”不用意に歴史の闇に触れるのは得策では無いと申し上げておこう。” データとか置いときます http://www.rnatori.net/NJRecalls/140322data.xlsx
14
NJRecalls @NJRecalls

技なんか試してみたことを報告します研 #njslyr7d

2014-03-22 21:09:32
NJRecalls @NJRecalls

ニュービーゆえくわしくはありませんが、ニンジャスレイヤーの作者は「ブラッドレー・ボンド」、「フィリップ・ニンジャ・モーゼズ」の2名、これを少なくとも2名以上の翻訳チームが公開しているとされていますね?これを確かめる方法はあるでしょうか? #njslyr7d

2014-03-22 21:12:32
NJRecalls @NJRecalls

そのようなことを考えていると記憶の底から思い起こされたことがありました…このツイートです: https://t.co/hfPGUSTiYU #njslyr7d

2014-03-22 21:13:46
NJRecalls @NJRecalls

今夜も長そうですし書くだけ書いちゃいますか。元の論文はこちららしい… http://t.co/kI7ikO0SMB 残念ながらこのジャーナルは読んだことがないのでどこかに手法が引用されていないか検索してみた。 #njslyr7d

2014-03-22 21:21:56
NJRecalls @NJRecalls

こちらに少し詳しい。改善係数の算出法が書かれている http://t.co/ovx20mKAqr #njslyr7d

2014-03-22 21:22:16
NJRecalls @NJRecalls

つまりこうです…ニンジャスレイヤーの各エピソードのテキストデータを、単体で圧縮した場合と繋げて圧縮した場合の圧縮率の違いを見てやれば、著者や翻訳者の違いから複数のクラスタに分かれるのではないか?ということです #njslyr7d

2014-03-22 21:22:37
NJRecalls @NJRecalls

用意したデータは掲載順まとめの1 http://t.co/xPhoi5lNvx から、各エピソードの#1をテキストデータに。本来はこの手法は30000字以上でないと精度がでないそうですが無理矢理やってみた。 #njslyr7d

2014-03-22 21:25:08
NJRecalls @NJRecalls

インタビューやお知らせも含んでいる。これはお知らせこそ翻訳者の書いた文章のサンプルになるからだ。改善係数を表にするとこんくらいの表になる http://t.co/VLTVHsMNgv #njslyr7d

2014-03-22 21:30:59
拡大
NJRecalls @NJRecalls

色分けはなんであるか?これは各列、例えば、「ゼロ・トレラント・サンスイ」の列を改善係数でソートした時の順位をおおざっぱに示している。一番左の列をごらんいただきたい http://t.co/n5KmY7aGAv #njslyr7d

2014-03-22 21:33:53
拡大
NJRecalls @NJRecalls

で、これを元にクラスタリングとか出来ればよかったんだけどそっちの手法を全く知らないので、手作業でやってみた。これは「ネオ・ヤクザ・フォー・セル」を基準にしてみたものである http://t.co/byWAfwht3H #njslyr7d

2014-03-22 21:37:23
拡大
NJRecalls @NJRecalls

このデータによれば「ネオ・ヤクザ・フォー・セル」に特に近いのは「サプライズド・ドージョー」などであり、逆に「スシ・ナイト・アット・ザ・バリケード」などは遠いのである http://t.co/byWAfwht3H #njslyr7d

2014-03-22 21:40:52
拡大
NJRecalls @NJRecalls

列の順は同じまま、「ニンジャスレイヤー はじめての皆さんへ」からの改善係数で並び替えるとこんなんである。…あまり変わっていない。つまりこのお知らせは「ネオ・ヤクザ・フォー・セル」の翻訳者が書いたのではないか? http://t.co/lgTZ06a7FG #njslyr7d

2014-03-22 21:45:26
拡大
NJRecalls @NJRecalls

逆に「スシ・ナイト・アット・ザ・バリケード」からの改善係数で並び替えてみる。だいたい「ネオ・ヤクザ・フォー・セル」の逆になる http://t.co/qBLvu9t1wf #njslyr7d

2014-03-22 21:50:52
拡大
NJRecalls @NJRecalls

しかし2つのクラスタに綺麗に分かれるかというと、あまりはっきりしないものもある。「ストレンジャー・ストレンジャー・ザン・フィクション」は…どうなんだろう? http://t.co/93JS99ZiP1 #njslyr7d

2014-03-22 21:53:59
拡大
NJRecalls @NJRecalls

今後よりデータを増やし、クラスタリング手法などを学ぶことによって、いずれは二人の原作者と二チーム以上の翻訳者の組み合わせなど…なんかそんなのをあぶり出せないかと企んでいる。そのとき私は (文書はここで途切れている) #njslyr7d

2014-03-22 21:59:53

二次創作との比較

NJRecalls @NJRecalls

技昨日の「ニンジャスレイヤーと圧縮率による著者推定のなんか」 http://t.co/ta91Sr6Iox からちょっと追加で確かめてみた研

2014-03-23 16:50:30
NJRecalls @NJRecalls

そもそも http://t.co/ta91Sr6Iox ではニンジャスレイヤー公式アカウントのコンテンツのみを使っていますね?しかし本来はまず、この圧縮率による著者推定でちゃんと著者が同じコンテンツを判定できることを示すべきではないか

2014-03-23 16:52:18
NJRecalls @NJRecalls

では何を使えばいいか。要はニンジャスレイヤー公式アカウント以外によるコンテンツをネガティブコントロールとし、違う著者のコンテンツを違うと判定できればよいのではないか。そこでこちらだ:『ニンジャスレイヤー』二次創作まとめ、のまとめ http://t.co/UAM7TLrUkH

2014-03-23 16:54:42
NJRecalls @NJRecalls

ニンジャスレイヤーの二次創作…本編のコトダマや言い回しをリスペクトすることも多いこのようなコンテンツ、をニンジャスレイヤー本編と違う著者と判定できるのであろうか?

2014-03-23 16:56:32
NJRecalls @NJRecalls

「百回聞くより見た方が実際早い」とコトワザにもある。こんな感じで、昨日同著者あるいは訳者ではないかと推定したネオヤクザ〜とお知らせは二次創作と混ぜても一番近い(赤)と判定された。 http://t.co/vSG2qUAubo

2014-03-23 17:00:36
拡大
NJRecalls @NJRecalls

それだけではない。例えば @arther456 =サンによる「エブリシング・イズ・ゴーイング・トゥ・ビー・トロ」に一番近いのは実際同著者の「全てがトロになる」である。 http://t.co/bXDlgLuMzM

2014-03-23 17:04:14
拡大
NJRecalls @NJRecalls

同様に、@dddrill=サンの「スリー・ダーティ・ニンジャボンド2」に一番近いのは同著者の「ゴリラスレイヤー」である。今回サンプリングした三著者6作品のうち、5つまではこのように同著者作品を一番近いと判定した http://t.co/N561fGWiIL

2014-03-23 17:08:29
拡大
NJRecalls @NJRecalls

唯一の例外は @dddrill=サンの「ゴリラスレイヤー」に一番近い作品が @az21friday=サンの「ピアスド・ハート・ハーツ・エブリシング」と判定されたことである。…ゴリラは仕方ない気もしなくもない http://t.co/aufSUEdMzr

2014-03-23 17:12:28
拡大
NJRecalls @NJRecalls

休日ともあれネオヤクザ〜のような本編は、二次創作作品をコントロールにとっても別物と判定できると見てよさそうである。サンプリングした文字数が限られている中で意外にやるな、と思いました終了

2014-03-23 17:16:24