言語学でのデータ管理・コーパスについての語らい #gengo
@koda_TO 文章ものはテキストのままにしたりEXCELに入れたりしていますが、検索しやすいように加工を加えています。問題は漢籍から引っ張ってきた資料で……『説文解字』の中のものだから、変な字が多くて入力が面倒くさく、ノートのままがほとんどですw
2011-01-04 17:04:53つまり卒論の時は,従属節だけで474例のデータをあれこれ入力してたのだな.細かい分析はしてないけど,主語後置例に関しては,主節と従属節との絶対数比較もしてるので,コーパスはもうちょいある.
2011-01-04 17:08:33でもって、自分じゃあんまり使ってないけど、小規模なら XML データベースに載せて XQuery でいじるというのは割と応用力が高い気はする。が、とっつきが良いかといわれると悩む(関数型言語で奇麗だと思うけど、SQL 臭いのはマイナスかも)。
2011-01-04 17:09:47@koda_TO 最近は諸橋大漢和以上に字を収録しているSuperfontが出てきたので、よっぽどでなければすべて入力可能ですがね。前は合成文字表記でなんとかしていましたがこれも面倒くさいw
2011-01-04 17:14:13始めからcsvで書くのはダメ? RT @Mitchara: とりあえずExcelに放り込んどけば関数でどんな書式にも結合できるしcsvに書き出したりもできるのだよな。
2011-01-04 17:14:54とりあえず、grep の使い方はマスターしとくと吉かも。Mac 使いなら Automator の使い方も知っとけば強力。
2011-01-04 17:17:20@satounaoto なるほど、それもアリかもしれませんね。1行目本文→2行目グロス→3行目統語情報→4行目本文2→… みたいに書いていけば、Excelでそのまま集計もできますし…
2011-01-04 17:17:42実現したら会場まで出かけたい。RT @koda_to: 「コーパス言語学のいろはの「い」」みたいなのだれかTwifullでやってくれぬか。 #gengo
2011-01-04 17:18:35必要な時だけexcelに読み込ませちゃだめ?音声記号とかはexcel受け付けないし…(何も知らないです、ごめんなさい_| ̄|○ RT @korjaeho CSVには関数組めないんで? @Mitchara
2011-01-04 17:19:09あ、 Toolboxのほうが使えるのか。 http://www.sil.org/computing/catalog/show_software.asp?id=79 #gengo
2011-01-04 17:20:04@koda_TO そこら辺は、macだと文字ビューアによる入力や、マルチリンガル処理が非常に楽なので、結構楽なのですよ。win使いから相談されて「これでダメ?」とかアドバイスしても出来なかった、とかあるし。
2011-01-04 17:22:51