@langstat 研究テーマで抽出するので、最初は文献データベースでキーワード検索をして、最後は手作業(アブストラクトを読む、論文自体を読む)ですね。
2017-05-13 14:00:12この文献収集の話、何回か聞いてるけど、頭が下がるし、気持ち悪くなる。
2017-05-13 14:02:43@uranoken アブストの自動収集とかは簡単にできるので、アブストの"keywords"とかでざっくり取れそうな気もしないですが。。。あるいは、トピックモデリングでテーマを推定とか(何でも自動化したがる症候群w)。いろいろと検索しているみたいなので、最初に絞り込むだけでもだいぶ楽になりそうな気が
2017-05-13 14:02:46@langstat 関連論文をできるだけ漏らしたくないという気持ちが働くので目で見てという作業が重視されるんでしょうね。この作業自体をある程度自動化するガイドラインが確立したらメタラーのみなさん狂喜乱舞でしょうw
2017-05-13 14:04:08「発見したときの喜びたるや、、、」みたいなことを仰っていたので、何でも自動化すればよいというものではない、ということがよく分かりました。 #sonas2017 twitter.com/langstat/statu…
2017-05-13 14:05:37不勉強で怠惰なワタクシはメタ分析をしようと思ったことがないのだが、分析対象とする論文を手で集めるって大変そう。。。スクレイピングによるデータの自動収集とかは、この分野ではあまりしないのかしら? こんな感じで > tjo.hatenablog.com/entry/2017/05/… #sonas2017
2017-05-13 13:58:40それぞれの指標が異なるものさしで測られているという問題があるよね。流暢性といっても研究によって違った指標が使われてたりとか。
2017-05-13 14:09:33CAFのような様々な下位的な言語指標を(ある程度)統合した指標を学習者へのフィードバックに使いたい。機械学習(自動採点)のフェイズではかなり多くの特徴量が必要になるが、機械学習の結果をそのまま学習者や現場の先生に返す訳にはいかないので、上位に指標にまとめたい #sonas2017
2017-05-13 14:52:34複数の特徴量の結果を(合成変数のようなものに)統合するのは、それほど難しくはない。ただ、どのような合成変数を作れば理論的・教育的に望ましいか、望ましいとされる合成変数に(技術的に)どこまで近似できるか、が問題。 #sonas2017 twitter.com/langstat/statu…
2017-05-13 14:55:41心理学者だと突き抜けているから「複雑性の指標によって測定されたものが複雑性である」くらい言ってしまう。 twitter.com/uranoken/statu…
2017-05-13 14:58:03構成概念の測定モデルには、反映モデル(SEMなど)と形成モデル(PCAなど)の2つがある。 #sonas2017 pic.twitter.com/H50urcm0tp
2017-05-13 15:01:05作文なり発話なりの総合的な評価と個々の言語指標の値の相関係数を求めるのは、(昔から行われてきたように)探索的な分析として有効。ただし、そうすると、(先ほどの小島氏の発表のように)「総語数が最も相関が高かった」みたいな結果になりがち。偏相関係数なども見ないと。 #sonas2017
2017-05-13 15:05:22