テキストマイニング不要論と計量テキスト分析について

18
寺沢 拓敬 @tera_sawa

英語教育研究の教科書をこれから執筆される方は、「アンケートの自由記述は原則として禁止」って提案してみたらどうですかね。

2015-09-11 19:59:55
寺沢 拓敬 @tera_sawa

【念のためその理由】 (1)「調査対象者の自由な声」が欲しいならまず第一にインタビューを採用すべき (2)テキストマイニングをやりたいなら、アンケートではデータ量が小さすぎて意義のある知見を引き出せないので既存の資料(ウェブテキストなど)を使うべき

2015-09-11 20:02:46
KH Coder @khcoder

100件と言われると迷いますが、私自身は(たとえば500件くらい?)の「目で読める量」でも、計量的テキスト分析の意義は大きいと考えています。(1)印象が強い回答の影響で、頭に描く全体像が歪んだりしないと言い切れる人は少ないでしょう。計量的方法は全体の様子を掴むのに便利です。→

2015-11-01 15:23:57
KH Coder @khcoder

→(2)量的分析によって、特徴的な部分はどこか、人間がとくに詳しく目で見るべき回答はどれかというヒントも得られます。こうしたデータ探索に役立つとともに(そのことと表裏一体の利点として)(3)分析の信頼性も向上するなどの理由からです。

2015-11-01 15:28:32
寺沢 拓敬 @tera_sawa

ここにアンケートがあるじゃろ? ( ^ω^) ⊃自由記述⊂ これをテキストマイニングのフリーソフトに入れて… ( ^ω^) ≡⊃⊂≡ こうじゃ ( ^ω^) ⊃ 科 学 的 論 文 ⊂ twitter.com/ssmufler/statu…

2016-06-28 23:25:20
えすえすマフラー作戰 @ssmufler

クックドゥみたいに材料と混ぜて加熱するだけでそれなりの論文ができるリサーチドゥください。

2016-06-28 17:32:15
寺沢 拓敬 @tera_sawa

テキストマイニングってゅうのは。。。 大規模テキストデータから隠れた知見を取り出すこと。。。 そぅ。。これゎもぅ。。。 アンケートの自由回答の分析≠テキストマイニングってゅうコト。。。 人力でじっくり読んだほうが早いよ。。。 もぅマジ無理。。。 内容分析しょ。。。

2016-06-09 10:52:55
寺沢 拓敬 @tera_sawa

念のため注記しておくと、ビジネス界において「アンケートの自由記述のテキストマイニング」が頻繁に行われているのはきわめて合理的である。アンケートの内容の熟読というコストがかけられないからこそ、「大雑把で構わないから短時間で傾向をつかめる」というテキストマイニングの特徴が輝く。

2016-06-09 11:23:07
寺沢 拓敬 @tera_sawa

極端な話、ビジネスマーケティング担当者は、アンケート回答者がせっかく書いたコメントを一読すらしていないなんてことも普通にある。そんな時間はないのだからしょうがない。こういう人にとって、テキストマイニングでざっくり結果を出して、読む手間を省いてしまうことはきわめて合理的である。

2016-06-09 11:25:28
寺沢 拓敬 @tera_sawa

学術研究は効率性よりも正確性という価値を優先するから、「テキストマイニングでざっくり短時間で分析」よりも「人力でじっくり読んできちんと解釈」が圧倒的に合理的(学術的合理性みたいな意味で)。あと、アンケートしておいて一読すらしないというのも、学術調査として倫理的にはアウトだろう。

2016-06-09 11:28:41
寺沢 拓敬 @tera_sawa

こう考えると、教育研究のメソドロジーがいかにビジネスの枠組みに「汚染」されているかというのがあらためてよくわかる。テキストマイニング/データマイニングしかり、異文化コミュニケーションしかり(日本人はハイコンテクストを好みアメリカ人はローコンテクストを好む云々)。

2016-06-09 11:32:23
寺沢 拓敬 @tera_sawa

【例】国立大学教育学部の1年生250名に「今までの英語学習」について自由に記述してもらった。アンケートの回答をテキストマニングした結果、「準一級」という言葉に言及した人の実に97パーセントが「英検」という言葉にも言及することがわかった。

2016-08-18 15:27:49
寺沢 拓敬 @tera_sawa

おんなじこと英語教育でやる人いないかな。(M2の皆さん、修論のテーマにどうですか。今からでも遅くないですよ!)/CiNii 論文 -  国会における日本語教育関係議論のアクターと論点--国会会議録の計量テキスト分析からの概観 ow.ly/sLwjR

2014-01-21 03:29:52
寺沢 拓敬 @tera_sawa

2年前はこういうことを言ってしまったが(多少煽り成分も入っていたかもしれないが・・・)、今になってみると、国会の会議録なんて頑張れば普通に読める量だと思う。計量テキスト分析なんていう「省力化」なんかせずに、人力コーディングすべきデータだよな。

2016-07-01 14:12:17
KH Coder @khcoder

計量テキスト分析は、省力化のための方法ではないように思っています。では何のためのものかというと、1つはデータ探索です。機械で自動的に数え上げることで「意外とこんな話題が多かったんだ」と気づくことがあります。たとえ100件・200件の自由記述であっても。 @tera_sawa

2016-07-01 22:21:25
KH Coder @khcoder

また統計的な分析の結果から、「データ中のこの部分に特徴がありそう」とか「(ある属性を持つ人の回答に)この言葉が特徴的」といったことが分かる場合があります。こうしたことが分かれば、データ中のどの部分を人間が詳しく見るべきかという示唆が得られます。@tera_sawa

2016-07-01 22:26:01
KH Coder @khcoder

個人的には、そうしたデータ探索という面を重視していますが、もう1つの利点として分析の信頼性も向上するでしょう。100件・200件の自由記述であっても、自分の理論にとって都合の良い記述がいくつかあれば、その記述にデータ全体の印象が影響されないとは限りません。@tera_sawa

2016-07-01 22:31:55
KH Coder @khcoder

すなわち、計量テキスト分析で全体像を掴むことで、自分の仮説に都合の良い偏った全体像を思い描いていないかどうかチェックする助けになるでしょう。また「引用部分をどのように選んだのか?」という第三者の疑問に対して、ある程度まで統計的基準から説明できるようになります。@tera_sawa

2016-07-01 22:35:56
KH Coder @khcoder

加えて、計量テキスト分析を使えば、データから結論を導いたプロセスがより明確になる場合が多いでしょう。研究手法が批判・検討・検証に耐えるオープンさを有していると言う意味での客観性を高めることにつながります。@tera_sawa

2016-07-01 22:40:17
KH Coder @khcoder

もう1点、比較しやすくなるという利点も挙げられます。データを自分の言葉で説明するだけでなく、誰が操作しても同じ結果になるもの(例えば共起ネットワーク)を示せば、第三者による比較・検証がしやすくなります。これは結果の一般化への第一歩になりうるでしょう。 @tera_sawa

2016-07-01 22:48:35
KH Coder @khcoder

最後に省力化という点に戻ると、計量テキスト分析では、単に数値・グラフを見るだけでなく、(それらを参考にしつつ)元データを目で見ることを重視しています。 amzn.to/1kJGVh5 そのためにKWICのような検索系の機能も作り込んでいます。→@tera_sawa

2016-07-01 23:09:02
KH Coder @khcoder

→ですから、使い方によりますが、省力化になるとは限らないでしょう。きちんと計量テキスト分析の手順を追うならば、むしろ大変になるという場合も少なくないと思います。@tera_sawa

2016-07-01 23:11:07
寺沢 拓敬 @tera_sawa

ご説明ありがとうございます。基本的に同意見です。私が最初のツイートでテキストマニング(形態素解析した上で各語の間の何らかの連関を要約する手法と定義しておきます)に対置しているのは「いわゆる人文系読解作業」ではなく、古典的な内容分析(人力コーディング&集計)です。@khcoder

2016-07-01 23:16:41
寺沢 拓敬 @tera_sawa

したがって、「テキストを数値に置き換えること」に対しての考え方(メリット・特徴等)に特に異論はありません。私が若干懐疑的になっているポイントは「形態素解析」が信頼性向上に貢献するかどうかという点です。@khcoder

2016-07-01 23:21:10
KH Coder @khcoder

@tera_sawa ご返信ありがとうございます。計量テキスト分析には、(1)形態素解析に加えて(2)古典的なコーディングや(3)原文参照・解釈といった複数のプロセスが含まれています。本来の計量テキスト分析ではこれらのうち少なくとも2つを組み合わせる形になります。→

2016-07-01 23:55:42
KH Coder @khcoder

@tera_sawa →したがって、もし仮に(1)形態素解析だけというような分析の方法であれば、それは本来の計量テキスト分析の形から外れますし、その方法の善し悪しについて確たるコメントはありません。

2016-07-02 00:05:56