English Profile Research Seminar 2013のまとめ

Akira Murakami @mrkm_a

最初に戻り、Nick Saville氏の挨拶から。今年は初のCPE試験がロンドンで行われてから丁度100年になる（1913年6月）。その時は12時間半に及ぶ試験だった。 #EP2013

2013-02-09 22:19:03

Akira Murakami @mrkm_a

English Profileに加え、「CEFR *for* English」という名称も用いている。そちらの方が説明的でわかりやすい。 #EP2013

2013-02-09 22:19:33

Akira Murakami @mrkm_a

トップバッターは東京外語チーム。無作為抽出したデータ（文科省の調査？）を基にCEFRのAレベルの学習者（＝大半のL1日本語L2英語学習者）のライティング・スピーキング能力がどう発達するかを見る。母語話者データとも比較。 #EP2013

2013-02-09 20:02:03

Akira Murakami @mrkm_a

学習者の対象は中学三年生。1638作文。432スピーキングサンプル。結果。平均文長も全体の長さも母語話者（発話データ）＞学習者ライティング＞学習者スピーキング。教科書で習ってから産出までは大分ラグがある。またmemorized chunkに大幅に頼っている。 #EP2013

2013-02-09 20:05:25

Akira Murakami @mrkm_a

例えばmake + 人 + 形容詞では、makes me sad/happyのパターンが圧倒的に多く、それ以外はあまりない。（NSの発話もチャンクに頼るのでそれでも良いのでは、という質疑応答中の指摘に対して）そこから他のパターンが出てこないのは問題では。 #EP2013

2013-02-09 20:07:44

Akira Murakami @mrkm_a

次はDTALの計算言語学コンビ。http://t.co/fFmSbt7H に基づく話のよう。コーパス比較の手法の確立を目指している。キーワードは「opportunity of use」。1万語の作文1つのコーパスと100語の作文100個のコーパスは違うだろう。 #EP2013

2013-02-09 20:19:42

Akira Murakami @mrkm_a

ケンブリッジ学習者コーパス（CLC）で見てみると、平均文長は熟達度が上がるに連れて長くなる。ではこれをもって平均文長は熟達度の指標と言えるのか。ここで、作文全体の長さを見ると、やはり熟達度に沿って長くなることに着目する。 #EP2013

2013-02-09 20:22:56

Akira Murakami @mrkm_a

NSのデータ（メールコーパス）を見てみると、メール全文の長さが長ければ長いほど、平均文長も長くなる傾向にある。つまり全体が長ければ平均文長が長くなるのは当然であって、平均文長自体が熟達度を反映しているわけではないのではないか。 #EP2013

2013-02-09 20:24:16

Akira Murakami @mrkm_a

必要なのは、trend line同士の比較。横軸に全体（作文・メール）の長さを、縦軸に平均文長をプロットする。重要なのは、その時のNNSのtrend lineとNSのtrend lineの差。だからopportunity of useを見ないといけない。 #EP2013

2013-02-09 20:26:34

Akira Murakami @mrkm_a

実験であれば対象変数以外は統制するということができるが、コーパスだとなかなかそうはいかないので、このように何らかの方法でノーマライズする必要がある。 #EP2013

2013-02-09 20:27:28

Akira Murakami @mrkm_a

Cambridge Corpus of Academic English。EPPの当初の目的の一つはCレベルをより具体的に記述することだった。上級学習者→学術英語という連想（？）からこのコーパスの構築に至った。 http://t.co/NO8vkmBS #EP2013

2013-02-09 21:20:12

Akira Murakami @mrkm_a

Adam Kilgarriff氏によるSketch Engineのアップデート。multiword sketchesというword sketchのマルチワード版が既に実装されている。Word Sketch内のMW links→「≧」をクリック。 #EP2013

2013-02-09 21:22:42

Akira Murakami @mrkm_a

もう一つcommonest matchという新機能の紹介。二語の共起で、共起文脈が定まっているならその文脈を表示するという機能。例えばworldとfinalの共起は「World Cup final」が大半。その場合、worldとfinalを入れると当該表現を出す。 #EP2013

2013-02-09 21:29:11

Akira Murakami @mrkm_a

（因みに最後のスライドに「in sum」（以下まとめが続く）と「Thank you」の両方が書いてあった） #EP2013

2013-02-09 21:30:45

Akira Murakami @mrkm_a

初日のまとめ。コーパスを使って何かを見るという研究と、コーパスの結果が何を意味するかという研究が同時並行で行われている。ともすれば競合してしまうのではないか。 #EP2013

2013-02-09 21:34:23

Akira Murakami @mrkm_a

二日目はコンピューターサイエンス研究科のチームによる発表×3からスタート。まずは作文の自動採点の話。合否をSVMで予測。語彙・POSの1&2gram、句構造、語長、文長、type頻度辺りが良い素性。「, because」を用いる学習者はFCEに不合格になりやすい。 #EP2013

2013-02-09 21:38:03

Akira Murakami @mrkm_a

次の発表は飛ばし、その次は内容語連鎖の誤りの自動検出の話。意味制約（*strong computer や *powerful teaのような）をどう表すか。先行研究によると言語形式の誤りは意味理解に影響しづらいが、意味制約を破ると意味が通じなくなることが多い。 #EP2013

2013-02-09 21:42:27

Akira Murakami @mrkm_a

（ここでメモが終わってるんだがこの後の話の方が重要なんじゃなかろうか・・）

2013-02-09 21:43:03

Akira Murakami @mrkm_a

私の発表。EFCamDatに基づいて文法形態素の正確性の縦断的発達を見るというもの。個人差が非常に大きいが、L1や熟達度も発達パターンに影響を与えるかも、が結論。 #EP2013

2013-02-09 21:45:19

Akira Murakami @mrkm_a

（しかしこの発表は後に早口すぎたという指摘を受けた。多分話す速度ではなく、時間あたりの情報量の方が問題だったのだろうと思う。オーディエンスに馴染みのないであろう概念、手法を使っているので、もっと咀嚼する時間を確保しないといけなかった。）

2013-02-09 21:46:58

Akira Murakami @mrkm_a

次はDTALで計算言語学系のPhD学生。非母語話者の数と格変化の数を言語をケースにしてプロットすると、負の相関がある。つまりNNSが多いとその言語は格変化が少ない。これは学習者が言語に影響しているのだろうか。語＋形態素の累積分布を見てみたりしている。 #EP2013

2013-02-09 21:55:05

Akira Murakami @mrkm_a

English Grammar Profileのアップデート。過去完了について、"Had I + pp"と"No sooner had ..."を比べると、BNCの書き言葉部分では前者が圧倒的に多い（10倍程度）が、学習者データ（CLC）では後者が多い（7倍）。 #EP2013

2013-02-09 21:58:01

Akira Murakami @mrkm_a

English Vocabulary Profile。問）以下の語をレベル別（A1-C2）に並べてください。一レベル一語ずつあります。bond、granddaughter、jealousy、sister、sibling、niece。解答は後ほど。 #EP2013

2013-02-09 22:01:03

Akira Murakami @mrkm_a

EVPは現在のサイトからCambridge English Teacher（http://t.co/q0qxxRZJ ）に近々移る。フォーラムなども設けられる予定。 #EP2013

2013-02-09 22:02:18

Akira Murakami @mrkm_a

EVPでは意味別にレベルを振っているが、そうすると同じ語でも全ての意味がEVPによってカバーされないことがある。利用者はcompletenessを期待するかもしれないが現時点ではそうなっている。 #EP2013

2013-02-09 22:04:53

いま話題のタグ