トランプ大統領および関連のTweetおよび大統領就任演説の言語学・統計学的解析
- Ranger_Oops
- 2993
- 22
- 1
- 5
アメリカ大統領のツイートの統計分析、また出します。今回はよりガチで、でもなんだか単純じゃない結果になりました。続きます。
2017-02-27 22:09:26今回は、ツイートの内容について自然言語処理ルーチンを使った解析を試みました。nltk.pyを使いました。人と用いたマシンごとにTweetを収集するのは前回と同じです。なお、Tweetだけではなくて、大統領の就任演説も参考のため解析しました。
2017-02-27 22:10:11Tweetから、RTやWebの引用を除き、全部単語(Token)にばらします。そこから特徴的でないありふれた単語("a","the"など153個)や記号(コンマなど)を除き、その数を数えます(Nとします)。この中から重複を省き、使われている異なる単語の数を数えます(Bとします)。
2017-02-27 22:10:51ここで、ある程度統計的確からしさを確保するために、解析対象としてはまず(記号などを除く前の)Token数が1000を超えているものとしました。そして、まずB/Nを一つの指標とします。これは要するに、どれだけ「同じ単語を使わない」かどうかを示しているからです。
2017-02-27 22:11:08調べたのは、トランプ、ヒラリー、オバマ、イギリス政治家ジェレミーコービン、ナイジェルファラージュ、そして適当に政治家以外から選んだポールクルーグマン(経済学者)とマイケルムーア(監督)です。使っているマシンが複数であっても、統計数に満たないマシンのものはカウントされてません。
2017-02-27 22:11:54結果がこの通り。トランプさんで非常に特徴的なのは、AndroidとiPhoneで、B/N(同じ単語を何回使っているかの逆数)が倍ほども違います。 pic.twitter.com/C7pSR2Xjed
2017-02-27 22:12:33ただ、Androidの場合のB/Nが極端に低い(バカ)かというと、そうでもなくて、ヒラリーさんやオバマさん、さらにノーベル賞受賞者のクルーグマンさんも似たような数値になっています。同じ人物でもマシンが異なると全く違う結果はナイジェルでも見られました。
2017-02-27 22:13:44同様の解析を、大統領就任演説のテキストをWEBから拾ってきてやってみました。対象はクリントンさんからとしました。ご覧になれば分かるように、特にトランプさんの演説が語彙に乏しいとかそういうことにはなっていません。どなたもだいたい0.6前後の水準になっています。 pic.twitter.com/YqI0CWQoIw
2017-02-27 22:14:09以上は、ツイートや大統領就任演説の(ベーシックな153個の単語を除いた中で)<重複を許さない単語数>を<すべての単語数>で割ったものの比較でした。続きます。
2017-02-27 22:16:07さて、さらに別の観点から見てみます。次は、用いられている単語を、使用頻度ごとに並べます(汎用的な153個は抜いていることに注意)。そして、比較したい二人(またはクライアント二つ)の単語リストを見て、まずは先頭の20個の中で、共通している単語の数を調べ、それを20で割ります。
2017-02-27 22:16:31これが、二人(または二つ)の英語がどれだけ似ているかの指標となるわけです。これを、調べた全ての組み合わせで2次元プロットしたものがこれ。これみると、他人との共通度はかなり異なるのに対し、同一人物でマシンが異なるものどおしでは、はっきり似ている傾向があることがわかります。 pic.twitter.com/wuZsoDDE5v
2017-02-27 22:17:23これは、先頭からいくつまで取るかで多少は変わりますが基本的なところは変わりません。この図は、数えるリスト数を変えて、トランプさんのiPhoneによるTweetが、他のものとどれだけ同じ単語を使っているかをプロットしたものです。本人のAndroidと高い相関が常に見えます。 pic.twitter.com/oVEaMcBrVf
2017-02-27 22:18:41最頻100単語で共通する単語数を2次元プロットしたものがこれ。傾向はさらにはっきりしていて、トランプのマシン違い、ナイジェルのマシン違い、マイケルムーアのマシン違いにおける共通度はごく高く、個人が違えば共通度は低いことがわかります。 pic.twitter.com/UNYjNfIU3X
2017-02-27 22:19:36参考のため大統領就任演説における結果を示します。20単語の結果だと、トランプさんの演説はオバマさんの2期目と似ていること、オバマとクリントンは、自分どうしで高く、民主党どうして次いで高い相似を見せています。ブッシュは誰とも、2回やった中でも、似てません。 pic.twitter.com/cfJV60vO4s
2017-02-27 22:20:45解釈はお任せします。簡単に言えば、語彙数の分析ではトランプのAndroidとiPhoneは顕著な違いを、最頻単語の分析では両者の相似を示しています。どちらを信用すべきか、これは言語学の範疇に入るでしょうし、わたしゃ言語学の博士号は持っていないのでわかりません。
2017-02-27 22:21:03ということで、ガチで深く解析すると、あんまり単純に割り切れない結果が出てくるという結果でありました。言語学者の意見が聞きたいところであります。
2017-02-27 22:22:30