講演会「計量的言語研究の諸相」の発表に関するまとめ

研究発表・講演会「計量的言語研究の諸相」(2012年9月19日水曜日)が行われた際、会場内外であったつぶやきのまとめです。 発表内容に関するサイトは下記のURL先です。 http://www.hucc.hokudai.ac.jp/~p16537/event/20120919.html
4
Ken Urano @uranoken

「計量的言語研究の諸相」@北大に来ています。冷房が入った。よかった。

2012-09-19 11:07:05
Ken Urano @uranoken

最初は北大園田先生の「NICT JLE Corpusの新しい分析の試み」。

2012-09-19 11:08:13
Ken Urano @uranoken

英語教育のあり方を客観的に議論するには、学習者コーパスの分析が重要である。

2012-09-19 11:12:07
Ken Urano @uranoken

NICT JLE Corpus は、日本語母語話者の英語によるひとり15分程度のスピーキングテストの録音データをタグ付きで書き起こしたもの。テストでは英語能力を9段階にレベル分けしている。

2012-09-19 11:17:10
Ken Urano @uranoken

(でもこのコーパスは暗号化されているので自分でいろいろ分析することはできないんだよな。僕はどうしても誤用率を調べたいけど、このコーパスではそれが無理。)

2012-09-19 11:18:49
Ken Urano @uranoken

専攻研究の大半は、9段階のレベル分けに基づいた横断的研究。これだけでは不十分であるというのが園田先生の主張。

2012-09-19 11:20:20
Ken Urano @uranoken

レベルが低いほど繰り返し、言い直しが多く、SSt1では4割ぐらい。レベルが上がるごとに減っていく。

2012-09-19 11:24:20
Ken Urano @uranoken

Repetition/Self-correction については、SST1から3にかけて増加し、それ以上は増加する。

2012-09-19 11:25:48
Ken Urano @uranoken

使われるfillerがレベルによって変動する。erは常に1番多い、well, oh, erm あたりはある程度のレベルにならないと出てこない。

2012-09-19 11:29:58
Ken Urano @uranoken

kind の使用状況を見ると、kind of {V, Adj,...] という使い方がレベルが上がるごとに増加する。でも、right の使用状況を見るとkindのようなリニアな変化は見られない。

2012-09-19 11:32:54
Ken Urano @uranoken

今まで紹介してきたような研究だけでは不十分。今後は、できるだけ多くの要因について調査を行い、それらがどのように複合してSSTレベルを決定しているのかを調べる必要がある。今までとは逆方向ということですね。

2012-09-19 11:35:19
Ken Urano @uranoken

次は北大高見先生。「機能語の語彙頻度から探るイギリスの高級紙と大衆紙の違い」

2012-09-19 11:46:20
Ken Urano @uranoken

高級紙と大衆紙の比較を恣意的な語彙選定によって行うのではなく、体系的に行いたい。そこでコーバスデータを分析し、統計的指標を用いて使用頻度に差がある語を特定する。今回は機能語に注目。

2012-09-19 11:52:12
Ken Urano @uranoken

Bank of Englishを使用。収録紙ごとのサブコーバスの語数はそれぞれ3千万語ほど。

2012-09-19 11:54:23

Bank of Englishについてのサイトは下記のURL先です。
http://www.collinslanguage.com/content-solutions/wordbanks

Ken Urano @uranoken

品詞タグがついているけど、機械的に付与したものなので正確でないこともある。期待値が5以上という条件の付くχ二乗検定と違い、対数尤度比は期待値1でもOK。「ゆうど」って読むのか。実はいままで知らなかったけど恥ずかしくて聞けなかった。

2012-09-19 11:57:31
Ken Urano @uranoken

対数尤度比(log-likelihood ratio)

2012-09-19 11:58:39
Ken Urano @uranoken

有意水準を0.5%(.005)に設定。Type I error を避けるため。コーパス研究ではこういう設定にすることはよくあるのかな。

2012-09-19 12:00:03
Ken Urano @uranoken

大衆紙と高級紙のすべての組み合わせで対数尤度比が7.88以上(p<.005)のものを「特徴語」と定義。ご自身の専攻研究よりは基準をゆるめた。

2012-09-19 12:03:00
Ken Urano @uranoken

theは「高級紙語」(高級紙の方に多く見られる)。なんでだろう。

2012-09-19 12:09:05
Ken Urano @uranoken

固有名詞は大衆紙に多く用いられている。これが定冠詞の少なさに影響を与えているかもしれない。

2012-09-19 12:10:24
Ken Urano @uranoken

ofも高級紙語。共起語を見ると、大衆紙はout of、高級紙はone ofが1位。でも全体的な傾向を見ても他に大きな差は見られなかった。

2012-09-19 12:16:07
Ken Urano @uranoken

代名詞Iは大衆紙語。人称代名詞は大半が大衆紙語として分類される。逆にit, its, itself のような非人称代名詞は高級語。なんとなくわかる気がする。

2012-09-19 12:19:11
1 ・・ 4 次へ