@f_nisihara さんの言語学と統計処理に関するツイート

言語学研究を対象に、実際に統計処理を行うかどうかにかかわらず、調査・データ収集の段階から統計の視点をもって対象を検討する必要があるという話。さらにひろまって数学、数式の話題も
1
Fumiaki Nishihara(西原史暁) @f_nisihara

データを集め終わってから統計的な分析が始まると考える人は少なくありません。しかし、これは、ありがちな間違いです。本来はデータを集める前から、統計的に考える必要があります。

2011-01-22 22:04:13
Fumiaki Nishihara(西原史暁) @f_nisihara

一般の統計の入門書では、データの収集を飛ばして、「データから予測する方法」を一番丁寧に説明することが多いです。しかし、実際の研究では、データを集めるところから始まります。ですので、統計で「データから予測すること」ばかりを考えるのではなく、他のことにも気を配ることが必要となります。

2011-01-22 22:06:12
Fumiaki Nishihara(西原史暁) @f_nisihara

計量的な言語研究では、まず、どういう仮説を想定するのか見極める必要があります。そして、仮説が、統計の言葉でどう表現されるかを考え、さらに、統計的に検証するには、どういうデータを集めれば良いのかということも考えていかなくてはなりません。最初にこうしなければ、後で困ります。

2011-01-22 22:08:06
Fumiaki Nishihara(西原史暁) @f_nisihara

データは、ただやみくもに集めれば良いというものではありません。しっかりとした計画のもとで集めていかなくてはならないのです。計画をたてずに、やみくもにデータを集めると、良質なデータは得られません。良質なデータが得られなければ、良質な分析はできなくなってしまいます。

2011-01-22 22:08:53
Fumiaki Nishihara(西原史暁) @f_nisihara

言語研究に限らないのですが、計量的な研究を行いたい場合、以下の4点で統計の助けを借りることとなると思います。データの集め方を考えること、データを集めること、データを整理すること、データから予測することの4点です。

2011-01-22 22:11:52
Fumiaki Nishihara(西原史暁) @f_nisihara

さて、データを収集し終わったとしましょう。集められたデータは、そのままでは複雑すぎて、うまく扱うことはできないことがほとんどです。データに対する分析を行う際は、まず最初にデータを取り扱いやすい形にする必要があります。

2011-01-22 22:12:44
Fumiaki Nishihara(西原史暁) @f_nisihara

データを取り扱いやすい形にする方法としては、例えば、集計結果を表にまとめることがあります。表にするとデータの全体をうまくまとめることができます。さらに、グラフを作れば、データの特徴を視覚的に捉えることができます。この他、平均を出したりすることでも、データの様子を調べられます。

2011-01-22 22:13:47
Fumiaki Nishihara(西原史暁) @f_nisihara

データが整理されたら、そのデータに基づき、仮説が正しいか検証する必要があります。こういったときにも統計は大きな力を果たします。

2011-01-22 22:14:52
Fumiaki Nishihara(西原史暁) @f_nisihara

とりあえず、自分でデータを集めてみるというのは、言語研究に限らず重要なことだと思います。「どうして君は他人の報告を信じるばかりで自分の目で観察したり見たりしなかったのですか?」(ガリレオ・ガリレイ『天文対話』)

2011-01-22 22:16:35
Fumiaki Nishihara(西原史暁) @f_nisihara

言語研究において必ず統計を使うわけではありません。それでは、どういうときに統計を使った言語研究をする意味があるのでしょうか? 端的に言えば、研究対象となっている言語現象の中で、バリエーション(変異・変動)が無視できない場合、統計が必要となるのだと思います。

2011-01-22 22:17:31
Fumiaki Nishihara(西原史暁) @f_nisihara

言語研究の中でも、構造主義言語学や(伝統的な)生成文法などでは、統計を(ほとんど)使いません。その理由を説明するのは難しいですが、1つの理由として、これの言語研究では、言語が等質であると仮定していることが挙げられると思います。

2011-01-22 22:19:25
Fumiaki Nishihara(西原史暁) @f_nisihara

要するに、「変異なくして統計の必要なし」(If no variation, no need for statistics)ということだと思います。

2011-01-22 22:21:00
Fumiaki Nishihara(西原史暁) @f_nisihara

「変異なくして統計の必要なし」ということは、統計が必要ならば変異があるということです。実際にはバリエーション(変異・変動)が無視できない場合、統計が必要になります。もっとも、バリエーションがあっても無視できる場合もありますが。

2011-01-22 22:23:58
Fumiaki Nishihara(西原史暁) @f_nisihara

統計が必要な言語研究として、代表的なものに、言語教育・自然言語処理・談話研究・コーパス言語学・社会言語学などがあります。もちろん、これらの分野で必ず統計を使うわけではありません。しかし、統計を使う研究が結構あるので、これらの分野を学ぶ人は統計を知っておいたほうがよいでしょう。

2011-01-22 22:28:54
Fumiaki Nishihara(西原史暁) @f_nisihara

色々と変異について語ってきたのですが、言語研究における変異とは何でしょうか? それは分野によって違います。例えば、言語教育での変異なら教師の教え方の差という変異や教室の規模という変異が、実験言語学なら被験者・実験順序実験に用いる言語材料などのさまざまな変異が考えられます。

2011-01-22 22:35:41
Fumiaki Nishihara(西原史暁) @f_nisihara

結局のところ、さまざまなことが変異として捉えることができます。しかし、すべての変異が言語研究に関わってくると言うわけではありません。あまりに変異の種類が多すぎると、処理するのも大変ですし、役に立ちそうにない変異は切り捨てることも必要です。

2011-01-22 22:38:07
Fumiaki Nishihara(西原史暁) @f_nisihara

例えば、言語実験を行う場合、被験者・実験順序・実験に用いる言語材料と並んで、実験日の株価という変異が考えられます。株価が下がれば、被験者が落ち込んで回答できなくなるかもしれません。ですが、常識的に考えてそういう影響はありえなさそうなので、役に立たない変異として切り捨てたりします。

2011-01-22 22:41:24
Fumiaki Nishihara(西原史暁) @f_nisihara

というわけで、言語研究をやろうとしている人は、自分に統計が必要かどうかを良く顧みる必要があるかと思います。

2011-01-22 22:43:16
Fumiaki Nishihara(西原史暁) @f_nisihara

良いデータが集まったからと言って、自動的に良い研究がうまれるわけではないんですけどね。良いデータは、良い研究の必要条件であって、十分条件ではありませんから。

2011-01-22 22:46:47
寺沢 拓敬 @tera_sawa

これをいちいち指摘するのは本当に面倒臭いので、略語があるといいと思う。RT @f_nisihara: データを集め終わってから統計的な分析が始まると考える人は少なくありません。しかし、これは、ありがちな間違いです。本来はデータを集める前から、統計的に考える必要があります。

2011-01-22 22:21:12
Fumiaki Nishihara(西原史暁) @f_nisihara

統計のワンストップサービスとか。 RT @tera_sawa これをいちいち指摘するのは本当に面倒臭いので、略語があるといいと思う。RT @f_nisihara: データを集め終わってから統計的な分析が始まると考える人は少なくありません。しかし、これは、ありがちな間違いです…

2011-01-22 22:30:39
寺沢 拓敬 @tera_sawa

ひねりゼロだけど、GIGOとかね。RT @f_nisihara: 統計のワンストップサービスとか。 RT これをいちいち指摘するのは本当に面倒臭いので、略語…RT データを集め終わってから統計的な分析が始まると考える人は少なくありません。しかし、これは、ありがちな間違いです…

2011-01-22 22:34:49
Fumiaki Nishihara(西原史暁) @f_nisihara

Garbage In, Garbage Out ですね。 RT @tera_sawa ひねりゼロだけど、GIGOとかね。

2011-01-22 22:36:46
寺沢 拓敬 @tera_sawa

知り合いの物理学者も統計学は知らんと言っていた。RT @f_nisihara: 言語研究の中でも、構造主義言語学や(伝統的な)生成文法などでは、統計を(ほとんど)使いません。…1つの理由として、これの言語研究では、言語が等質であると仮定していることが挙げられると思います。

2011-01-22 22:26:19