10周年のSPコンテンツ!

忍殺語の「○○めいて」研究その2・「忍殺語」と「平均的な日本語」を比較する

国立国語研究所が公開している『現代日本語書き言葉均衡コーパス』を使用して、忍殺語が「平均的な日本語」とどの程度違うのか、可視化してみました。
Twitter小説 書籍 文学 ニンジャスレイヤー 忍殺語
19
Reffi @tomo1109_Reffi
追記:形態素解析やテキスト計量分析等のワードから、ニンジャスレイヤーをご存じない方も見に来られることがあるようですので、簡単に紹介ということでPVを貼っておきますね。これを見れば雰囲気がわかるのではないかと思います。https://t.co/t0fJORZb8F
Reffi @tomo1109_Reffi
先日やった「忍殺語の「○○めいて」「○○めいた」ランキング TOP50」の続きをやろうと思います。#njslyr でやるのもどうかと思うので、 #njslyr7k で。
Reffi @tomo1109_Reffi
先日、『忍殺語の「○○めいて」「○○めいた」ランキング TOP50』というのをやりました。 http://t.co/ROnBA44tHY やはり忍殺では「○○めいて」が多用されているということがはっきりしたわけですが、ここで一つの疑問が浮かびます。 1 #njslyr7k
Reffi @tomo1109_Reffi
「多いのはわかった。じゃあ普通の日本語とくらべて一体どれぐらい多いんだ?」 2 #njslyr7k
Reffi @tomo1109_Reffi
ここで「普通」って何だよ、と思ったあなた。ご指摘ごもっともです。一口に日本語といっても人によって使い方は様々。「普通の日本語」、「平均的な日本語」なんてものを定義することができるんでしょうか? 3 #njslyr7k
Reffi @tomo1109_Reffi
そんなあなたに今日ご紹介するのはこちら!『現代日本語書き言葉均衡コーパス』! http://t.co/UYBYEzlGwO #njslyr7k
Reffi @tomo1109_Reffi
このデータベースには色々なジャンルからランダムに集められた文章が、何と1億5百万語も収録されています。作成したのは国立国語研究所と文科省の研究プロジェクトです。 5 #njslyr7k
Reffi @tomo1109_Reffi
新聞,書籍,宣伝,ブログ,知恵袋から法律まであらゆるジャンルの書き言葉を集め、「平均的な日本語」に対する一つの回答を作ろうというものです。今回はこの『現代日本語書き言葉均衡コーパス』を使用して、「日本語」と「忍殺語」を比較してみようと思います。 6 #njslyr7k
Reffi @tomo1109_Reffi
全文検索データベース「少納言」は誰でも無料で使うことができます。それでは早速試してみましょう。http://t.co/UYBYEzlGwO 7 #njslyr7k
Reffi @tomo1109_Reffi
お、使用規約に「学術研究・教育目的に限る」と書いてありますね?しかしこれは実際、比較言語学の研究であり何の問題もない。私は誰の挑戦でも受ける。 8 #njslyr7k http://t.co/E2vfrWfAuD
拡大
Reffi @tomo1109_Reffi
検索窓に「めいて」と打ち込み検索すると、1億五百万語の中から「めいて」と書かれた部分が抽出されます。773件・・・思ったより随分少ないですね。 9 #njslyr7k http://t.co/2QAB504590
拡大
Reffi @tomo1109_Reffi
最大500件までしか表示されないので、検索条件を絞って複数回検索し、結果を全て取得します。しかしこれでOK、というわけではありません。 10 #njslyr7k http://t.co/jNPUrGQd7r
拡大
Reffi @tomo1109_Reffi
検索結果には、「慌てふためいて」や「わめいて」のような別の動詞が色々混じっています。欲しいのは「めく」という動詞だけです。「○○めいて」は「めく」の音便変化形、「めく」→「めき」→「めい」と変化したものになります。 11 #njslyr7k
Reffi @tomo1109_Reffi
というわけで、「めく」をピックアップした結果がこちらです。何と135件しか残りませんでした。つまり、「平均的な日本語」の中で「○○めいて」が使用される確率は1億五百万分の135、約0.0001%となります。 12 #njslyr7k http://t.co/HTCkHzVc6h
拡大
Reffi @tomo1109_Reffi
では、忍殺語はどうなのか?形態素解析の結果、2010/7/24~2014/4/19までの4年弱の間にツイートされた本編の語数は、およそ150万語ぐらいです。その中に「めく」がいくつ存在するかというと、約4,000。ということは・・・ #njslyr7k
Reffi @tomo1109_Reffi
150万分の4,000、約0.26%の頻度で忍殺語には「○○めいて」が登場するということになります。これは先ほどの「平均的な日本語」の実に2,000倍です。 14 #njslyr7k http://t.co/c8ZKH6sC6D
拡大
Reffi @tomo1109_Reffi
追記:重大なミスが!『現代日本語書き言葉均衡コーパス』から抽出するのって、「○○めいて」だけじゃなく「○○めいた」もやらないといけなかったですね・・・後で再集計してみます。
Reffi @tomo1109_Reffi
【訂正版】「平均的な日本語」の中で「○○めいて」「○○めいた」が使用される確率は1億五百万分の796、約0.000758%となります。 http://t.co/geShGGAXXt
拡大
Reffi @tomo1109_Reffi
【訂正版】なので、『忍殺語は、平均的な日本語の350倍の頻度で「○○めいて」「○○めいた」を使用している』が正しいと思われます。 http://t.co/AySJVGjV4u
拡大
残りを読む(23)

コメント

コメントがまだありません。感想を最初に伝えてみませんか?

ログインして広告を非表示にする
ログインして広告を非表示にする