忍殺語の「○○めいて」研究その2・「忍殺語」と「平均的な日本語」を比較する

国立国語研究所が公開している『現代日本語書き言葉均衡コーパス』を使用して、忍殺語が「平均的な日本語」とどの程度違うのか、可視化してみました。
27
Reffi @tomo1109_Reffi

追記:形態素解析やテキスト計量分析等のワードから、ニンジャスレイヤーをご存じない方も見に来られることがあるようですので、簡単に紹介ということでPVを貼っておきますね。これを見れば雰囲気がわかるのではないかと思います。https://t.co/t0fJORZb8F

2014-05-08 19:24:40
Reffi @tomo1109_Reffi

先日やった「忍殺語の「○○めいて」「○○めいた」ランキング TOP50」の続きをやろうと思います。#njslyr でやるのもどうかと思うので、 #njslyr7k で。

2014-05-08 00:19:28
Reffi @tomo1109_Reffi

先日、『忍殺語の「○○めいて」「○○めいた」ランキング TOP50』というのをやりました。 http://t.co/ROnBA44tHY やはり忍殺では「○○めいて」が多用されているということがはっきりしたわけですが、ここで一つの疑問が浮かびます。 1 #njslyr7k

2014-05-08 00:26:41
Reffi @tomo1109_Reffi

「多いのはわかった。じゃあ普通の日本語とくらべて一体どれぐらい多いんだ?」 2 #njslyr7k

2014-05-08 00:29:11
Reffi @tomo1109_Reffi

ここで「普通」って何だよ、と思ったあなた。ご指摘ごもっともです。一口に日本語といっても人によって使い方は様々。「普通の日本語」、「平均的な日本語」なんてものを定義することができるんでしょうか? 3 #njslyr7k

2014-05-08 00:33:10
Reffi @tomo1109_Reffi

そんなあなたに今日ご紹介するのはこちら!『現代日本語書き言葉均衡コーパス』! http://t.co/UYBYEzlGwO #njslyr7k

2014-05-08 00:39:56
Reffi @tomo1109_Reffi

このデータベースには色々なジャンルからランダムに集められた文章が、何と1億5百万語も収録されています。作成したのは国立国語研究所と文科省の研究プロジェクトです。 5 #njslyr7k

2014-05-08 00:43:09
Reffi @tomo1109_Reffi

新聞,書籍,宣伝,ブログ,知恵袋から法律まであらゆるジャンルの書き言葉を集め、「平均的な日本語」に対する一つの回答を作ろうというものです。今回はこの『現代日本語書き言葉均衡コーパス』を使用して、「日本語」と「忍殺語」を比較してみようと思います。 6 #njslyr7k

2014-05-08 00:49:49
Reffi @tomo1109_Reffi

全文検索データベース「少納言」は誰でも無料で使うことができます。それでは早速試してみましょう。http://t.co/UYBYEzlGwO 7 #njslyr7k

2014-05-08 00:52:25
Reffi @tomo1109_Reffi

お、使用規約に「学術研究・教育目的に限る」と書いてありますね?しかしこれは実際、比較言語学の研究であり何の問題もない。私は誰の挑戦でも受ける。 8 #njslyr7k http://t.co/E2vfrWfAuD

2014-05-08 00:58:30
拡大
Reffi @tomo1109_Reffi

検索窓に「めいて」と打ち込み検索すると、1億五百万語の中から「めいて」と書かれた部分が抽出されます。773件・・・思ったより随分少ないですね。 9 #njslyr7k http://t.co/2QAB504590

2014-05-08 01:03:51
拡大
Reffi @tomo1109_Reffi

最大500件までしか表示されないので、検索条件を絞って複数回検索し、結果を全て取得します。しかしこれでOK、というわけではありません。 10 #njslyr7k http://t.co/jNPUrGQd7r

2014-05-08 01:08:52
拡大
Reffi @tomo1109_Reffi

検索結果には、「慌てふためいて」や「わめいて」のような別の動詞が色々混じっています。欲しいのは「めく」という動詞だけです。「○○めいて」は「めく」の音便変化形、「めく」→「めき」→「めい」と変化したものになります。 11 #njslyr7k

2014-05-08 01:12:19
Reffi @tomo1109_Reffi

というわけで、「めく」をピックアップした結果がこちらです。何と135件しか残りませんでした。つまり、「平均的な日本語」の中で「○○めいて」が使用される確率は1億五百万分の135、約0.0001%となります。 12 #njslyr7k http://t.co/HTCkHzVc6h

2014-05-08 01:19:41
拡大
Reffi @tomo1109_Reffi

では、忍殺語はどうなのか?形態素解析の結果、2010/7/24~2014/4/19までの4年弱の間にツイートされた本編の語数は、およそ150万語ぐらいです。その中に「めく」がいくつ存在するかというと、約4,000。ということは・・・ #njslyr7k

2014-05-08 01:26:47
Reffi @tomo1109_Reffi

150万分の4,000、約0.26%の頻度で忍殺語には「○○めいて」が登場するということになります。これは先ほどの「平均的な日本語」の実に2,000倍です。 14 #njslyr7k http://t.co/c8ZKH6sC6D

2014-05-08 01:33:12
拡大
Reffi @tomo1109_Reffi

追記:重大なミスが!『現代日本語書き言葉均衡コーパス』から抽出するのって、「○○めいて」だけじゃなく「○○めいた」もやらないといけなかったですね・・・後で再集計してみます。

2014-05-09 07:43:08
Reffi @tomo1109_Reffi

【訂正版】「平均的な日本語」の中で「○○めいて」「○○めいた」が使用される確率は1億五百万分の796、約0.000758%となります。 http://t.co/geShGGAXXt

2014-05-09 22:00:31
拡大
Reffi @tomo1109_Reffi

【訂正版】なので、『忍殺語は、平均的な日本語の350倍の頻度で「○○めいて」「○○めいた」を使用している』が正しいと思われます。 http://t.co/AySJVGjV4u

2014-05-09 22:03:55
拡大