ニンジャスレイヤーと圧縮率による著者推定のなんか改善

以前の方法を改善し、Rの簡単な使い方を覚え、ニンジャスレイヤー翻訳チームの謎に挑む
2
NJRecalls @NJRecalls

なぜニンジャスレイヤーの本文と二次創作で比較を行うのか?それは、二次創作であれば同じような単語や言い回しを使おうとする傾向にあるからです。それでもなお、著者による差が出れば、これはかなりの精度を持つと言えるのではないでしょうか。

2015-11-24 23:20:00
NJRecalls @NJRecalls

結果をご覧いただきましょう…確かに、二次創作作品群はモーゼズ担当チームともボンド担当チームとも別のクラスタに分類されました。ただし、どちらかというとボンドに近く…さらに二次創作作品間の距離が本編間の距離より近い。なぞです pic.twitter.com/jagANTKhSN

2015-11-24 23:24:25
拡大
NJRecalls @NJRecalls

ただしこれは、今回の二次創作作品が一名につき2作品しかないので…必然的にクラスタが小さくなってしまうのではないかと思います。二次創作にだけ注目すれば、その中ではちゃんと著者を区別できているのが分かるかと思います

2015-11-24 23:26:20
NJRecalls @NJRecalls

求む!モーゼズに近いニンジャスレイヤー二次創作者!

2015-11-24 23:27:04
NJRecalls @NJRecalls

あと多分今回の被験者の方々の中には翻訳チームはいなかったということになります。よかったですね!

2015-11-24 23:30:23
NJRecalls @NJRecalls

◇おおっと◇野良修=サンとしかな=サンのクラスタへの線が逆でした…該当ファイルはケジメされましたので、訂正します twitter.com/NJRecalls/stat… pic.twitter.com/8OUm2LKS09

2015-11-24 23:43:41
拡大
NJRecalls @NJRecalls

さっきの圧縮率クラスタリング、比較対象テキストとしてFFSを投入するのもアリか!と思ったけど結果を見るのがこわい

2015-11-25 00:09:27

NJRecalls @NJRecalls

ニンジャ・コンプレッション!

2015-12-20 11:37:48
NJRecalls @NJRecalls

前回までのあらすじ:圧縮プログラムによる著者推定技術をニンジャスレイヤーに応用した結果、ボンド(担当チーム)とモーゼズ(担当チーム)を見分けたり、二次創作を見分けたりできることがわかった開発チームは方法の改良を続けていた twitter.com/NJRecalls/stat…

2015-12-20 11:39:33
NJRecalls @NJRecalls

こないだのテキスト情報からのボンドorモーゼズ(担当チーム)推定に使用した方法についてまとめました: 推定圧縮プログラムによる著者推定技術のニンジャスレイヤーへの応用 slideshare.net/rnatori/ss-554… #njslyr7d

2015-11-23 19:22:56
NJRecalls @NJRecalls

前回までの方法の問題点は、例えばここ。リボルバー・アンド・ヌンチャクが異様に他から離れている。これはなぜか? twitter.com/NJRecalls/stat…

2015-12-20 11:40:52
NJRecalls @NJRecalls

まずは「リボルバー・アンド・ヌンチャク」。図の301だ。…一応モーゼズ(担当翻訳チーム)クラスタに入っていることが分かる。では正解は?こうだ… twitter.com/njslyr/status/… pic.twitter.com/pFFOvhS1J2

2015-11-16 20:51:59
NJRecalls @NJRecalls

これは、クラスタリングに「圧縮改善係数」そのものを使用したことによることがわかってきた。つまり、短い文字列はもともと圧縮しても改善幅が少ないため、長い文字列と圧縮改善係数を比較しようとしても直接比較できないのである。

2015-12-20 11:42:44
NJRecalls @NJRecalls

その結果どういうことになったか。前回うさぎ小天狗=サンに、欺瞞動画の会社=サンの二次創作作品をオススメされたので、追加して改良前のクラスタリング方法にかけてみた。結果がこちら。…二次創作と区別できなくなった! pic.twitter.com/UuNnq8rHPA

2015-12-20 11:47:51
拡大
NJRecalls @NJRecalls

…まさかしかな=サンはボンド担当チームなのか…?しかし前述した通り、前回までの方法には問題点があった。改善点としては、あるエピソードに対する圧縮改善係数を絶対値で扱うのではなく、1〜0の数値に相対化にしてみた。この改善法で同じクラスタリングを行うとどうなるか

2015-12-20 11:55:07
NJRecalls @NJRecalls

改善法でのクラスタリング結果はこちらである。無事ボンド/モーゼズ担当チームだけでなく、二次創作の著者もきちんと区別できている。やったぜ! pic.twitter.com/QuHxOzIGIN

2015-12-20 11:57:17
拡大
NJRecalls @NJRecalls

次の段階として、では計算に用いる文字数を少なくしていくとどこで区別できなくなるのかについて検討してみた。改善法を用いて10000文字まで減らしてみたものがこちら。ボンド/モーゼズ担当チームは区別できているが、二次創作が混ざってしまう pic.twitter.com/AtwYMc95fF

2015-12-20 12:04:26
拡大
NJRecalls @NJRecalls

文字数を減らしていった時、以前の方法と改善法でどこまで区別できるのかをまとめた表がこちらである。20000文字以上であれば二次創作の著者も区別できる。10000文字でもボンモー、本編と二次創作は区別できる。7500でもボンモー区別。 pic.twitter.com/1ZhzOckTsH

2015-12-20 12:09:27
拡大
NJRecalls @NJRecalls

では改善法を使って何をするか…まずは、第一部、連載初期のものでもボンド/モーゼズ担当チームを判定できるか見てみよう。先行研究を参考に、iPhoneチームとsaezuriチームから複数セクションのものを何個か入れてみた www15.atpages.jp/vespiking/njsl…

2015-12-20 12:25:31
NJRecalls @NJRecalls

第一部から何個か入れてみた結果がこちら。今読み返すと結構雰囲気が違う第一部初期のものでも、担当チームを判別できている。興味深いのはiPhoneチームで、第一部と第二部で少し差があるようだ pic.twitter.com/noliHo9HRW

2015-12-20 12:28:05
拡大
NJRecalls @NJRecalls

今後の展望としては…第一部の短いエピソードではどうなるか。iPhoneチームの文体の変化は二次創作と比べるとどうなるのか、違う著者レベルなのか。翻訳チームオリジナル作品では。プロト版の翻訳者について推定はできるのか。などなど!また次回!

2015-12-20 12:32:46
NJRecalls @NJRecalls

おまけ:クラスタリングに使用した数値データをビジュアル化するとこんな感じ。列12が赤い(似ている)のがボンド担当チームで、列10が赤いのがモーゼズ担当チーム…そんな感じでRがクラスタリングしてくれているわけだね! pic.twitter.com/xz7Lu1AOez

2015-12-20 12:46:19
拡大
NJRecalls @NJRecalls

おまけ2:クラスタリングでは28次元空間のユークリッド距離から各サンプルの類似性を求めている。28次元空間はなかなかイメージしにくいので、これを主成分分析…言わばある角度から見ることで2次元まで落としてみるとこんな感じ。 pic.twitter.com/cgcOVAjDfE

2015-12-20 14:01:24
拡大

NJRecalls @NJRecalls

(前回までのあらすじ:シマナガシの悪ふざけにより女子高生モノをプレゼントされたスーサイドを想像したかいはつチーム。だが傷心のスーサイドが家出した先のニチョームには、ザクロ=サンにより着せられたサンタコスヤモトがいるかもしれないと気付いたため、口から砂糖を吐いて死亡した)

2015-12-24 23:14:24
NJRecalls @NJRecalls

(一方それとは関係なく、圧縮プログラムによる著者推定法をニンジャスレイヤーに応用する研究を続けていたかいはつチームだったが、さすがに文体の異なる翻訳オリジナル作品はなかなか難しそうだった。そんなところに、2015エピソード投票の対象としてロブスター3が舞い降り…)

2015-12-24 23:16:26