言語学でのデータ管理・コーパスについての語らい #gengo
(阪大言文でどういう訳か『コーパス言語学』のゲストスピーカーをすることになった時、ない頭をしぼってレジュメを書いた後、これを持っていることに気づいて読み直したら説明したいことがだいたい書いてあってがっかりした記憶が)
2011-01-04 17:51:33(で、学生さんにうけたのは、結局、grep, kwic, mecab だったような気がする(CHISE のデモとか無駄だったw))
2011-01-04 17:55:14(YamCha をマスターして、YamCha 用コーパスが書けるようになったら強い気がするんだけど、まだ手がつけられてない)
2011-01-04 18:00:04@satounaoto あ,茶筅か和布蕪かって関係でしたか.私和布蕪はインストールしているけど,背景知らずなので,全く気づかずでした
2011-01-04 18:02:34今はどんな文字でも扱えて当たり前(と思われてる)からだと思います。RT @knagasaki: いわゆるエンドユーザが多かったのでしょうね。 @MnjaMnia (CHISE のデモとか無駄だったw)
2011-01-04 18:03:02最近Togetterの鍵つきアカウントへの対応が変わったみたいで、一部関連ツイートが入っていないんで、そこのところよろしく哀愁
2011-01-04 18:05:00だからいまいち修行する気になれないのか!RT @knagasaki: ドラゴンボールの影響で弱そうなイメージが。 @MnjaMnia YamChaをマスター
2011-01-04 18:05:18(でまあ、YamCha が使えないばかりに、なんでも無理矢理 MeCab でやろうとする人達が登場しかけてるような気がするのをちょっと懸念してたりする今日この頃)
2011-01-04 18:08:34@ab07_tact @Mitchara linguistic corpusってdatabaseとそんな内実が離れてないのでは?
2011-01-04 18:21:13@ab07_tact @Mitchara いや,もちろん,corpusのほうが巨大でありうるのですが,実質的に
2011-01-04 18:34:43やはり欲しいデータは自分で作るのが一番(数百万語の英語コーパスをOCRで作った経験あり)。欲しい情報も自分で埋め込めばいい(まずは自分だけが分かるのもでも可)。日英語であれば構文レベルまでは比較的簡単に解析できる。ただ、所謂「マイナー言語」については(不勉強につき)よく分らない。
2011-01-04 18:41:19コーパスデータは、テキストファイル(UTF-8)が基本で、加工は、Perl/Python/R あたりでウィーンガシャーンすればいいのよ。 #gengo
2011-01-04 18:52:54英語の学習者コーパスを取り上げているけど、汎用的に使える話にした(つもりだ YO!!)小生の昔懐かしい記事はこちら。 http://dictionary.sanseido-publ.co.jp/wp/tag/NICE #gengo
2011-01-04 18:55:29@kzhr @Mitchara 大きさに加えて、コーパスだと含めるテキストの量や種類のバランスも取りますからねえ。でも古語の場合、テキストの選り好みなんかできない事もよくありますがw
2011-01-04 18:57:04なんだかんだで、研究目的によるので、既存のフォーマットに合わせようとするより、自分で処理しやすいフォーマットを自作自演するほうが手っ取り早いと思う。 #gengo
2011-01-04 18:57:09狭義のコーパスは機械可読で(仮定する母集団に対する)代表性を持ち、バランスのとれたサンプリングがなされていることが必要(教科書的定義)RT @kzhr @ab07_tact @Mitchara linguistic corpusってdatabaseとそんな内実が離れてないのでは?
2011-01-04 18:58:07RT @langstat: 狭義のコーパスは機械可読で(仮定する母集団に対する)代表性を持ち、バランスのとれたサンプリングがなされていることが必要(教科書的定義) #gengo
2011-01-04 18:59:52でも、広義のコーパスはデータベースと殆ど同じだし、コーパス言語学の専門家が言うほど厳密に区別しなくてもいいのでは、と個人的には思う。 RT @langstat 狭義のコーパスは機械可読で(仮定する母集団に対する)代表性を持ち、バランスのとれたサンプリングがなされていることが必要
2011-01-04 19:00:59CasualConc や AntConc は有益なツールで、利用はしてもいいと思うけど、いろんな面でいつか限界が来る。特にソフトのメンテ面。 #gengo
2011-01-04 19:03:03例文収集が大事っていう人は、1レコード(1行)に、「記録日+例文+[言語学的タグ]+コメント」という感じでタブ区切りテキスト(+の部分をタブにする)を書きこんで、正規表現をちょいと覚えていれば、簡単に取り出せるはず。 #gengo
2011-01-04 19:06:35