言語学でのデータ管理・コーパスについての語らい #gengo
「学習者コーパス入門」(三省堂ワードワイズ・ウェブの連載) RT @sakaue 英語の学習者コーパスを取り上げているけど、汎用的に使える話にした(つもりだ YO!!)小生の昔懐かしい記事はこちら。 http://ow.ly/3xS8K #gengo
2011-01-04 19:06:42例文収集の一例:[vendler_1967_p112_l9]\tthis insight sense of knowing %%%fits more or less%%% into that category.\t[fit ADVP into][SPLIT VP] #gengo
2011-01-04 19:09:57さっきのは、[文献情報]\t用例\t[言語学的タグ] という形で用例を記録したもの。「\t」は、タブを示すメタ文字。%を3つ書いて括っているのは、その範囲内が興味関心のある箇所であることを示す。 #gengo
2011-01-04 19:14:02.@ab07_tact そうですね。個人的には、BNCやBCCWJのような汎用コーパスを作る場合を除いて、代表性はあまり気にしなくてよいと思います。あとは、利用する側がそのコーパスから得られた結論を過剰に一般化しなければいいだけ。そして、面白い発見をしたものが勝ち。 #gengo
2011-01-04 19:18:44@langstat 確かに。肝に銘じておかなければ… RT: 利用する側がそのコーパスから得られた結論を過剰に一般化しなければいいだけ。
2011-01-04 19:23:20狭義の「コーパス」のデザインに関する基本文献 → Biber (1993) Representativeness in Corpus Design http://ow.ly/3xSqJ (PDF) #gengo
2011-01-04 19:23:31結局は目的次第。目的が決まると、データのフォーマットも使うツールも決まってくる。ただ、どういう処理をするか、その時にツールとして何を使えばいいかのマッチングさせるところが難しく、(文系向けの)情報が少ないのが難点。 #gengo
2011-01-04 19:23:39RT @langstat: 狭義の「コーパス」のデザインに関する基本文献 → Biber (1993) Representativeness in Corpus Design http://ow.ly/3xSqJ (PDF) #gengo
2011-01-04 19:25:32@Mitchara @koda_TO じゃあタイトルは「言えない…普通のタイトルでいいんじゃとか今さら言えない…w」でお願いします。
2011-01-04 17:59:23「言語学でのデータ管理・コーパスについての語らい #gengo」をトゥギャりました。 http://togetter.com/li/85896
2011-01-04 17:59:42