
忍殺語の「○○めいて」研究その2・「忍殺語」と「平均的な日本語」を比較する
-
tomo1109_Reffi
- 19506
- 36
- 5
- 1

追記:形態素解析やテキスト計量分析等のワードから、ニンジャスレイヤーをご存じない方も見に来られることがあるようですので、簡単に紹介ということでPVを貼っておきますね。これを見れば雰囲気がわかるのではないかと思います。https://t.co/t0fJORZb8F
2014-05-08 19:24:40
先日やった「忍殺語の「○○めいて」「○○めいた」ランキング TOP50」の続きをやろうと思います。#njslyr でやるのもどうかと思うので、 #njslyr7k で。
2014-05-08 00:19:28
先日、『忍殺語の「○○めいて」「○○めいた」ランキング TOP50』というのをやりました。 http://t.co/ROnBA44tHY やはり忍殺では「○○めいて」が多用されているということがはっきりしたわけですが、ここで一つの疑問が浮かびます。 1 #njslyr7k
2014-05-08 00:26:41
ここで「普通」って何だよ、と思ったあなた。ご指摘ごもっともです。一口に日本語といっても人によって使い方は様々。「普通の日本語」、「平均的な日本語」なんてものを定義することができるんでしょうか? 3 #njslyr7k
2014-05-08 00:33:10
そんなあなたに今日ご紹介するのはこちら!『現代日本語書き言葉均衡コーパス』! http://t.co/UYBYEzlGwO #njslyr7k
2014-05-08 00:39:56
このデータベースには色々なジャンルからランダムに集められた文章が、何と1億5百万語も収録されています。作成したのは国立国語研究所と文科省の研究プロジェクトです。 5 #njslyr7k
2014-05-08 00:43:09
新聞,書籍,宣伝,ブログ,知恵袋から法律まであらゆるジャンルの書き言葉を集め、「平均的な日本語」に対する一つの回答を作ろうというものです。今回はこの『現代日本語書き言葉均衡コーパス』を使用して、「日本語」と「忍殺語」を比較してみようと思います。 6 #njslyr7k
2014-05-08 00:49:49
全文検索データベース「少納言」は誰でも無料で使うことができます。それでは早速試してみましょう。http://t.co/UYBYEzlGwO 7 #njslyr7k
2014-05-08 00:52:25
お、使用規約に「学術研究・教育目的に限る」と書いてありますね?しかしこれは実際、比較言語学の研究であり何の問題もない。私は誰の挑戦でも受ける。 8 #njslyr7k http://t.co/E2vfrWfAuD
2014-05-08 00:58:30

検索窓に「めいて」と打ち込み検索すると、1億五百万語の中から「めいて」と書かれた部分が抽出されます。773件・・・思ったより随分少ないですね。 9 #njslyr7k http://t.co/2QAB504590
2014-05-08 01:03:51

最大500件までしか表示されないので、検索条件を絞って複数回検索し、結果を全て取得します。しかしこれでOK、というわけではありません。 10 #njslyr7k http://t.co/jNPUrGQd7r
2014-05-08 01:08:52

検索結果には、「慌てふためいて」や「わめいて」のような別の動詞が色々混じっています。欲しいのは「めく」という動詞だけです。「○○めいて」は「めく」の音便変化形、「めく」→「めき」→「めい」と変化したものになります。 11 #njslyr7k
2014-05-08 01:12:19
というわけで、「めく」をピックアップした結果がこちらです。何と135件しか残りませんでした。つまり、「平均的な日本語」の中で「○○めいて」が使用される確率は1億五百万分の135、約0.0001%となります。 12 #njslyr7k http://t.co/HTCkHzVc6h
2014-05-08 01:19:41

では、忍殺語はどうなのか?形態素解析の結果、2010/7/24~2014/4/19までの4年弱の間にツイートされた本編の語数は、およそ150万語ぐらいです。その中に「めく」がいくつ存在するかというと、約4,000。ということは・・・ #njslyr7k
2014-05-08 01:26:47
150万分の4,000、約0.26%の頻度で忍殺語には「○○めいて」が登場するということになります。これは先ほどの「平均的な日本語」の実に2,000倍です。 14 #njslyr7k http://t.co/c8ZKH6sC6D
2014-05-08 01:33:12

追記:重大なミスが!『現代日本語書き言葉均衡コーパス』から抽出するのって、「○○めいて」だけじゃなく「○○めいた」もやらないといけなかったですね・・・後で再集計してみます。
2014-05-09 07:43:08
【訂正版】「平均的な日本語」の中で「○○めいて」「○○めいた」が使用される確率は1億五百万分の796、約0.000758%となります。 http://t.co/geShGGAXXt
2014-05-09 22:00:31

【訂正版】なので、『忍殺語は、平均的な日本語の350倍の頻度で「○○めいて」「○○めいた」を使用している』が正しいと思われます。 http://t.co/AySJVGjV4u
2014-05-09 22:03:55