
【140220】ソーシャルメディアウィーク028「ジャーナリズム再考:ビッグデータとテクノロジー」 #SMWTOK #SMW14

【ジャーナリズム再考 #SMWTOK #KW28 】cf. 2013参院選ツイッター分析(朝日新聞DIGITAL | ビリオメディアより) → http://t.co/8wpZb9cKv7 http://t.co/EOhBBZFM79
2014-02-20 16:25:49

#smwtok データジャーナリズム ネット言論マップやツィート分析でネット世論のデータ解析ができるが、リアル 言論分析とのぶれは選挙結果をみると 否定できないと思うが、それを新聞社はいかに補正していくのかな。
2014-02-20 16:17:52
【ジャーナリズム再考 #SMWTOK #KW28 】岡崎「AKB総選挙の分析も行いました。どのメンバーがどれくらい言及されていたかをインフォグラフ的に図示してwebにて閲覧できるようにしました」
2014-02-20 16:17:37
【ジャーナリズム再考 #SMWTOK #KW28 】岡崎「ツイート分析の流れ:関連後抽出を行いまして、形態素解析で名詞を認識して、それぞれの名詞の頻出度を計測しました」
2014-02-20 16:18:43
【ジャーナリズム再考 #SMWTOK #KW28 】岡崎「botアカウントなど、いわゆるURL誘導系のものについてはURLを収集して、そのリンクが付いているものについては自動的に弾く処理を行います。スパムとは言えないもの(手動投稿)については適宜内容を判断して抽出しました」
2014-02-20 16:20:28
岡崎:ツイート分析、ほとんど独自に開発。ノイズへの対処。botやスパム対策。URLに誘導するBOTを排除。怪しいURLをリスト化。フォロワーやRT欲しい人=スパムとは言えない。だけど、関連語分析に入れると問題。抽出から除外 #SMWTOK
2014-02-20 16:20:15
岡崎:形態素解析も調整が必要。リストをつくっていく。分析の裏側の地道な作業。見過ごしやすい問題はたくさん。民主で検索すると、民主党だけでなく、国民主権や民主主義なども含んでしまう #SMWTOK
2014-02-20 16:21:55
【ジャーナリズム再考 #SMWTOK #KW28 】岡崎「検索クエリについて。たとえば『民主』党だと、国『民主』権といったものもひっかかります。『民主党』だと自由『民主党』も。それぞれに処理を施します」
2014-02-20 16:23:15
【ジャーナリズム再考 #SMWTOK #KW28 】岡崎「分析課題:ツイートや単語の頻度計測だけでは物足りない。また、ビックデータや言語処理の限界を突き詰めてみたいと考えています」
2014-02-20 16:24:12
岡崎:ツイートや単語の頻度検索だけでは物足りない。ビッグデータや言語処理の限界をみてみたい。調べたい関心にあわせて最適なかいけつさくを設計すべき。データから世論をさぐるには #SMWTOK
2014-02-20 16:24:11
岡崎:候補者ツイートも分析。ネット選挙の恩恵をもっともうけていたのは山本太郎。データを分析した後に人間がそれを解釈する必要性 #SMWTOK
2014-02-20 16:27:19
【ジャーナリズム再考 #SMWTOK #KW28 】岡崎「世の中の関心を自動的に掘り起こす:記者のフィルターではなく、有権者のツイートから社会の論点・関心を抽出。分析結果をそのまま新聞に掲載して公開、課題として賛否を分離して数を出すことはできなかった」
2014-02-20 16:28:49
【ジャーナリズム再考 #SMWTOK #KW28 】岡崎「賛否の主体・極性の認識:対象(用語)・内容(賛否)・主体を複合的に分析をかけることの難しさはまだまだ残っている。単なる自然言語処理だけでなく、文脈分析も必要となることもある」
2014-02-20 16:30:09
【ジャーナリズム再考 #SMWTOK #KW28 】岡崎「分析結果の報道について:結果に対する責任、手法の透明性、報道することの影響、法律による制約(選挙期間中に人気投票を公開することは現法では禁止されている)」
2014-02-20 16:31:13
東北大学の岡崎さん。ツイートのポジティブ/ネガティブチェックは日本語では難しい。「東京五輪に反対する人間は日本人じゃない」 というツイートは五輪に対してネガティブなツイートだけど、これを自然言語処理だけでネガティブと判断するのは難しいというのはなるほどと思った。 #SMWTOK
2014-02-20 16:32:16