Learner Corpus Research 2013の実況
CfsSubsetEval: correlation-based feature selection http://t.co/J334fYvgvg
2013-09-28 02:08:18夕食時に地元の人に伺ったこと。(1) ベルゲンでも日照時間が夏は22時間(23-1時のみ日没)、冬は6時間(10-16時?)、(2) 一日に四食(朝食、昼食、夕食を16時頃、supper)、(3) 会場となっているホテルは通常はもっと高いが、参加者数が多いので安くなっている。
2013-09-28 05:30:45(4) ノルウェー語、デンマーク語、スウェーデン語は少なくとも書き言葉であれば意思疎通可能。話し言葉は一方通行である場合などがあり、複雑。
2013-09-28 05:32:24二日目の最初のプログラムは基調講演2。Hedmark University CollegeのBård Uri Jensen氏による「A chi-square test showed that ... - or did it really?」 #LCR2013j
2013-09-28 16:05:02"Allowing [statistical software] to do our thinking is a sure recipe for disaster". (Good & Hardin, 2012) #LCR2013j
2013-09-28 16:10:54Good & Hardin (2012). Common Errors in Statistics (and How to Avoid Them) http://t.co/tdLybUh6kN
2013-09-28 16:12:01コーパス言語学の統計処理では個人差を考慮に入れない場合が多い。例えば一個人が多くの用例に貢献しているかもしれない。→観察の独立性が侵害されている。#LCR2013j
2013-09-28 16:22:35"Chi-square is a much abused test in second language research studies." (Larson-Hall, 2010) #LCR2013j
2013-09-28 16:22:48解決方法。一個人から一つの値しか取らない。e.g., Sokolova (2012)。又は一個人に複数の観測値がある場合、その平均値などを取る。e.g., Gujord (2013)。又はRQを変える。e.g., Danckaert (2011) #LCR2013j
2013-09-28 16:29:351点満点で、M=.98 (SD=.14)と書いてあったら、正規分布していないのは明らか。(博士論文からの例) #LCR2013j
2013-09-28 16:36:07統計処理について。 1. 用いる統計手法の前提を理解しよう 2. それを考慮しよう 3. 何をやったかちゃんと書こう(どのように検定を行ったか、どの数字を入力したか、どのように前提が満たされているか) #LCR2013j
2013-09-28 16:47:45Adam Kilgarriff:コーパス言語学は、心理学の統計処理をモデルとするのが本当に良いのか。データサイズとかが大きく違うのに。 #LCR2013j
2013-09-28 17:01:06EFCamDatのデモだん。目立つポスター発表の中で、部屋の目立たない場所にいたせいか、そもそも存在にあまり気づいてもらえなかったような・・・。 #LCR2013j
2013-09-28 18:22:19Mustonen, S. (1965). Multiple discriminant analysis in linguistic problems. Statistical Methods in Linguistics 4. 言語判定の論文。 #LCR2013j
2013-09-28 18:34:09あるL1(や熟達度)に特徴的な素性を見つけるのに、分類を目的とした機械学習を行うのはどうなのか、という質問。(そう思う) #LCR2013j
2013-09-28 18:48:19阿部先生&@langstatさん、「Linguistic features discriminating b/w NSs and East Asian learner groups w/ different proficiency levels」 #LCR2013j
2013-09-28 20:57:51