講演会「計量的言語研究の諸相」の発表に関するまとめ
- i_narrator
- 2600
- 0
- 5
- 0
NICT JLE Corpus は、日本語母語話者の英語によるひとり15分程度のスピーキングテストの録音データをタグ付きで書き起こしたもの。テストでは英語能力を9段階にレベル分けしている。
2012-09-19 11:17:10(でもこのコーパスは暗号化されているので自分でいろいろ分析することはできないんだよな。僕はどうしても誤用率を調べたいけど、このコーパスではそれが無理。)
2012-09-19 11:18:49使われるfillerがレベルによって変動する。erは常に1番多い、well, oh, erm あたりはある程度のレベルにならないと出てこない。
2012-09-19 11:29:58kind の使用状況を見ると、kind of {V, Adj,...] という使い方がレベルが上がるごとに増加する。でも、right の使用状況を見るとkindのようなリニアな変化は見られない。
2012-09-19 11:32:54今まで紹介してきたような研究だけでは不十分。今後は、できるだけ多くの要因について調査を行い、それらがどのように複合してSSTレベルを決定しているのかを調べる必要がある。今までとは逆方向ということですね。
2012-09-19 11:35:19高級紙と大衆紙の比較を恣意的な語彙選定によって行うのではなく、体系的に行いたい。そこでコーバスデータを分析し、統計的指標を用いて使用頻度に差がある語を特定する。今回は機能語に注目。
2012-09-19 11:52:12Bank of Englishについてのサイトは下記のURL先です。
http://www.collinslanguage.com/content-solutions/wordbanks
品詞タグがついているけど、機械的に付与したものなので正確でないこともある。期待値が5以上という条件の付くχ二乗検定と違い、対数尤度比は期待値1でもOK。「ゆうど」って読むのか。実はいままで知らなかったけど恥ずかしくて聞けなかった。
2012-09-19 11:57:31有意水準を0.5%(.005)に設定。Type I error を避けるため。コーパス研究ではこういう設定にすることはよくあるのかな。
2012-09-19 12:00:03大衆紙と高級紙のすべての組み合わせで対数尤度比が7.88以上(p<.005)のものを「特徴語」と定義。ご自身の専攻研究よりは基準をゆるめた。
2012-09-19 12:03:00ofも高級紙語。共起語を見ると、大衆紙はout of、高級紙はone ofが1位。でも全体的な傾向を見ても他に大きな差は見られなかった。
2012-09-19 12:16:07代名詞Iは大衆紙語。人称代名詞は大半が大衆紙語として分類される。逆にit, its, itself のような非人称代名詞は高級語。なんとなくわかる気がする。
2012-09-19 12:19:11