トランプ大統領および関連のTweetおよび大統領就任演説の言語学・統計学的解析

トランプ大統領およびその他の方のTweetをTweetのAPI(http://tweepy.readthedocs.io/en/v3.5.0/#) および自然言語処理ライブラリ(http://www.nltk.org/)を用いて解析しました。解析した量は二つあります。<重複を許さない単語数>を<全単語数>で割ったもので、語彙力のようなものを評価しました。さらに、二人の話者(マシンの相違も含める)の英語の相似を判定するのに、最頻20個(または100個)の単語で共通する単語の数を取り上げました。 結果としては、軽々な断言を許さないデータが得られました。
8
Galactica Magnum @Ranger_Oops

アメリカ大統領のツイートの統計分析、また出します。今回はよりガチで、でもなんだか単純じゃない結果になりました。続きます。

2017-02-27 22:09:26
Galactica Magnum @Ranger_Oops

今回は、ツイートの内容について自然言語処理ルーチンを使った解析を試みました。nltk.pyを使いました。人と用いたマシンごとにTweetを収集するのは前回と同じです。なお、Tweetだけではなくて、大統領の就任演説も参考のため解析しました。

2017-02-27 22:10:11
Galactica Magnum @Ranger_Oops

Tweetから、RTやWebの引用を除き、全部単語(Token)にばらします。そこから特徴的でないありふれた単語("a","the"など153個)や記号(コンマなど)を除き、その数を数えます(Nとします)。この中から重複を省き、使われている異なる単語の数を数えます(Bとします)。

2017-02-27 22:10:51
Galactica Magnum @Ranger_Oops

ここで、ある程度統計的確からしさを確保するために、解析対象としてはまず(記号などを除く前の)Token数が1000を超えているものとしました。そして、まずB/Nを一つの指標とします。これは要するに、どれだけ「同じ単語を使わない」かどうかを示しているからです。

2017-02-27 22:11:08
Galactica Magnum @Ranger_Oops

調べたのは、トランプ、ヒラリー、オバマ、イギリス政治家ジェレミーコービン、ナイジェルファラージュ、そして適当に政治家以外から選んだポールクルーグマン(経済学者)とマイケルムーア(監督)です。使っているマシンが複数であっても、統計数に満たないマシンのものはカウントされてません。

2017-02-27 22:11:54
Galactica Magnum @Ranger_Oops

結果がこの通り。トランプさんで非常に特徴的なのは、AndroidとiPhoneで、B/N(同じ単語を何回使っているかの逆数)が倍ほども違います。 pic.twitter.com/C7pSR2Xjed

2017-02-27 22:12:33
拡大
Galactica Magnum @Ranger_Oops

ただ、Androidの場合のB/Nが極端に低い(バカ)かというと、そうでもなくて、ヒラリーさんやオバマさん、さらにノーベル賞受賞者のクルーグマンさんも似たような数値になっています。同じ人物でもマシンが異なると全く違う結果はナイジェルでも見られました。

2017-02-27 22:13:44
Galactica Magnum @Ranger_Oops

同様の解析を、大統領就任演説のテキストをWEBから拾ってきてやってみました。対象はクリントンさんからとしました。ご覧になれば分かるように、特にトランプさんの演説が語彙に乏しいとかそういうことにはなっていません。どなたもだいたい0.6前後の水準になっています。 pic.twitter.com/YqI0CWQoIw

2017-02-27 22:14:09
拡大
Galactica Magnum @Ranger_Oops

以上は、ツイートや大統領就任演説の(ベーシックな153個の単語を除いた中で)<重複を許さない単語数>を<すべての単語数>で割ったものの比較でした。続きます。

2017-02-27 22:16:07
Galactica Magnum @Ranger_Oops

さて、さらに別の観点から見てみます。次は、用いられている単語を、使用頻度ごとに並べます(汎用的な153個は抜いていることに注意)。そして、比較したい二人(またはクライアント二つ)の単語リストを見て、まずは先頭の20個の中で、共通している単語の数を調べ、それを20で割ります。

2017-02-27 22:16:31
Galactica Magnum @Ranger_Oops

これが、二人(または二つ)の英語がどれだけ似ているかの指標となるわけです。これを、調べた全ての組み合わせで2次元プロットしたものがこれ。これみると、他人との共通度はかなり異なるのに対し、同一人物でマシンが異なるものどおしでは、はっきり似ている傾向があることがわかります。 pic.twitter.com/wuZsoDDE5v

2017-02-27 22:17:23
拡大
Galactica Magnum @Ranger_Oops

これは、先頭からいくつまで取るかで多少は変わりますが基本的なところは変わりません。この図は、数えるリスト数を変えて、トランプさんのiPhoneによるTweetが、他のものとどれだけ同じ単語を使っているかをプロットしたものです。本人のAndroidと高い相関が常に見えます。 pic.twitter.com/oVEaMcBrVf

2017-02-27 22:18:41
拡大
Galactica Magnum @Ranger_Oops

最頻100単語で共通する単語数を2次元プロットしたものがこれ。傾向はさらにはっきりしていて、トランプのマシン違い、ナイジェルのマシン違い、マイケルムーアのマシン違いにおける共通度はごく高く、個人が違えば共通度は低いことがわかります。 pic.twitter.com/UNYjNfIU3X

2017-02-27 22:19:36
拡大
Galactica Magnum @Ranger_Oops

参考のため大統領就任演説における結果を示します。20単語の結果だと、トランプさんの演説はオバマさんの2期目と似ていること、オバマとクリントンは、自分どうしで高く、民主党どうして次いで高い相似を見せています。ブッシュは誰とも、2回やった中でも、似てません。 pic.twitter.com/cfJV60vO4s

2017-02-27 22:20:45
拡大
Galactica Magnum @Ranger_Oops

解釈はお任せします。簡単に言えば、語彙数の分析ではトランプのAndroidとiPhoneは顕著な違いを、最頻単語の分析では両者の相似を示しています。どちらを信用すべきか、これは言語学の範疇に入るでしょうし、わたしゃ言語学の博士号は持っていないのでわかりません。

2017-02-27 22:21:03
Galactica Magnum @Ranger_Oops

ということで、ガチで深く解析すると、あんまり単純に割り切れない結果が出てくるという結果でありました。言語学者の意見が聞きたいところであります。

2017-02-27 22:22:30