テキストマイニング不要論と計量テキスト分析について

18
寺沢 拓敬 @tera_sawa

もとの私のツイート(twitter.com/tera_sawa/stat…)の用語に間違いがありました。ここの「計量テキスト分析」は不正確で、私の意図としては「テキストマイニング」(形態素解析のうえ、各語間の連関を抽出する手法と定義しています)でした。お詫びします。@khcoder

2016-07-02 00:41:39
寺沢 拓敬 @tera_sawa

2年前はこういうことを言ってしまったが(多少煽り成分も入っていたかもしれないが・・・)、今になってみると、国会の会議録なんて頑張れば普通に読める量だと思う。計量テキスト分析なんていう「省力化」なんかせずに、人力コーディングすべきデータだよな。

2016-07-01 14:12:17
寺沢 拓敬 @tera_sawa

別件ですが、計量テキスト分析では3つのプロセスのうち2つ以上を使うという定義にはあまり馴染みがないのですが、この「計量テキスト分析」は固有名詞でしょうか?私は内容分析と同義、つまり普通名詞で使ってましたので、ここにもディスコミュニケーションがあるかもしれません。@khcoder

2016-07-02 00:44:43
KH Coder @khcoder

@tera_sawa ご丁寧にご対応いただいてありがとうございます。「内容分析」の定義は論者・時代によってかなり違いがありますね。それに比べれば「計量テキスト分析」の定義はシンプルな状況にあると思います。これらの定義について #KHCoderの本 第1章で議論しております。

2016-07-02 01:36:04
KH Coder @khcoder

@tera_sawa #KHCoderの本 第1章で「計量テキスト分析」を定義・提案し、2章以降で具体的な手順を示しています。「3つのプロセスのうち2つ以上」という書き方は確かにしていません。ただ(1)(2)(3)または(1)(3)が必要なことは書いたと思います。

2016-07-02 01:39:18
KH Coder @khcoder

@tera_sawa 第1章のちょっと古くてちょっと簡略化されたバージョンはWebでもご覧いただけます。 「内容分析から計量テキスト分析へ――継承と発展をめざして」 ir.library.osaka-u.ac.jp/dspace/handle/… CiNiiを見る限りだと、一連の提案以前は、「計量テキスト分析」→

2016-07-02 01:42:44
KH Coder @khcoder

@tera_sawa →という言葉は使われていなかったようです。※「すでにありふれたものを自社の商標として登録」みたいなことは、していないつもりです。

2016-07-02 01:46:17
寺沢 拓敬 @tera_sawa

実はご著書は拝読していましたが、そのような定義づけがあったことを失念していました。また、私は「計量テキスト分析」を「計量的な文書分析の技法の総称」(A quantitative text analysis)と理解していたため誤解していました。失礼しました。 @khcoder

2016-07-02 23:06:22
寺沢 拓敬 @tera_sawa

提示していただいた「計量テキスト分析」を特徴づける3つの条件は、ある種のトライアンギュレーションということだと思いますが、このトライアンギュレーションの欠如が私が「アンケート自由記述のテキストマイニング」に抱いていた疑念です。(続)@khcoder

2016-07-02 23:10:01
寺沢 拓敬 @tera_sawa

(承前)そのようなトライアンギュレーションをすでに完全に考慮していたにもかかわらず、考慮していないかのような書き方でツイートしてしまいました。お詫びします。@khcoder

2016-07-02 23:11:51
KH Coder @khcoder

@tera_sawa ご丁寧にありがとうございます。計量テキスト分析の考え方(=KH Coderの設計思想)を、より多くの方に知っていただけるよう精進しようと思います。

2016-07-03 15:40:20
寺沢 拓敬 @tera_sawa

アンケート自由回答欄のテキストマイニング、一昨年くらいからうちの業界(どの業界かは明示しない)でもプチ流行していて、それだけでなく徐々に既成事実化し始めているのでかなり危機感を持っている。このタイミングで「こんなクソみたいな分析手法、やめろ」と誰かが大騒ぎしないとやばいw

2017-05-22 23:11:52
寺沢 拓敬 @tera_sawa

「グローバル化を安易に使わないで」「日本文化と言わないで」「自由回答のテキストマイニングはやめて」「脳科学をエビデンスにしないで」と訴えると、院生には響くが、中高年には効いている感じがまったくない。あれだけ言ったのに、今日も話の枕が「グローバル化が進む今日…」的な文章を読んだ。

2017-05-28 23:48:22
よもぎ@鰤嫌い好き @cataildragger

@tera_sawa 3つめと4つめの訴えが意外でした。もしよろしければ、その2つの訴えの根拠か、それらについて扱っている書籍や論文を教えていただけますでしょうか?お忙しい中恐縮ですがよろしくお願い致します。

2017-05-29 06:59:24
寺沢 拓敬 @tera_sawa

@TommyHigginsMsc どういう文脈でお答えすればよいかちょっとわからないので教えてください。「意外」だったとのことですが、それ以前はどういった状況を想定していたんでしょうか?

2017-05-29 22:51:06
よもぎ@鰤嫌い好き @cataildragger

@tera_sawa 自由回答のテキストマイニングをすることや脳科学をエビデンスとすることに、もちろん短所はあるにせよ、それらを一切やめなければならないほど重大な弊害があると思っていなかったので、どのような弊害があるのか伺いたいと思い、リプライさせていただきました。

2017-05-30 14:25:05
寺沢 拓敬 @tera_sawa

@TommyHigginsMsc 自由回答欄のテキストマイニングの問題点ははこちら:mediaplayer.pearsoncmg.com/assets/CTIntro… 脳科学を教育的意思決定のエビデンスにすることの問題点はこちらの論文(とくに4.1節)です。 d.hatena.ne.jp/TerasawaT/2015…

2017-05-30 19:16:52
寺沢 拓敬 @tera_sawa

@TommyHigginsMsc 個人的には「一切やめなければならないほど弊害が大きい」と理解しています。たしかに外国語教育研究では「一切禁止」ほどの強い懐疑論はなさそうですが、それは議論の蓄積の結果「やってもOK」という合意が得られたわけではなく、「みんなやってるから」という惰性によるものに過ぎないと思います。

2017-05-30 19:22:28
よもぎ@鰤嫌い好き @cataildragger

@tera_sawa 一つ目のリンクを拝見したところ、健康的な食事法の動画になっているのですが、お間違えではありませんでしょうか?

2017-05-30 19:38:15
寺沢 拓敬 @tera_sawa

@TommyHigginsMsc 間違えました。失礼しました。ここから始まる一連のツイートです。 twitter.com/tera_sawa/stat…

2017-05-30 22:22:40
寺沢 拓敬 @tera_sawa

テキストマイニングってゅうのは。。。 大規模テキストデータから隠れた知見を取り出すこと。。。 そぅ。。これゎもぅ。。。 アンケートの自由回答の分析≠テキストマイニングってゅうコト。。。 人力でじっくり読んだほうが早いよ。。。 もぅマジ無理。。。 内容分析しょ。。。

2016-06-09 10:52:55
KH Coder @khcoder

@TommyHigginsMsc @tera_sawa 2つ目については、丁寧な原文の解釈をともなわない、自動作成の図表だけ見てお終いというような研究手法に懐疑的でいらっしゃったのかと、過去ツイートより勝手に解釈していました。 togetter.com/li/1115503 1~2年前よりも懐疑の度合いを強めていらっしゃるでしょうか?

2017-05-30 23:35:58
寺沢 拓敬 @tera_sawa

@khcoder まとめありがとうございます。懐疑の程度は以前と同等です。以前の話は、そもそも一般的な意味でのテキストマイニング(かつ自由回答欄の分析)に対する問題点への言及であって、KH Coder の設計思想については何も言ってないという話で解決したんじゃなかったでしょうか。

2017-05-31 12:44:05
KH Coder @khcoder

@tera_sawa 以前にも少し触れましたように、KH Coderは「一般的なテキストマイニング」の機能を一部に備えていますし、計量テキスト分析もその一部に「一般的なテキストマイニング」の手順を含んでいます。このため、テキストマイニングは「一切やめなければならない」とおっしゃられますと、→

2017-05-31 17:35:59
KH Coder @khcoder

@tera_sawa →KH Coderや計量テキスト分析もご批判の対象なのかなと疑問に思われたので、おうかがいさせていただきました。 なお上述の「一般的なテキストマイニング」は、テキストから形態素解析で自動的に言葉を取り出して、統計的な分析を行なう方法全般を指しています。また、このように広い範囲→

2017-05-31 17:36:51
KH Coder @khcoder

@tera_sawa →の方法を指す語として理解されているケースが多いように存じます。甚だ蛇足ながら、このように意味が広くて曖昧な語をそのまま全否定するより、たとえば「丁寧な読解をともなわないテキストマイニング禁止」のように、意図を明確になさる方が主張の効果が現われやすいのではないかと思われました。

2017-05-31 17:37:42