2011年1月4日

言語学でのデータ管理・コーパスについての語らい #gengo

世の言語学者にとって切実な問題、「データ管理」について、つれづれと言語学クラスタの皆さんがつぶやきました。このまとめの正式な題名は「言えない…普通のタイトルでいいんじゃとか今さら言えない…ｗ」(by @Mitchara 氏)です。

言語言語学データ管理

koda_TO
5569
1
0
1
2

前へ 1 ・・ 4 5 6 次へ

tomo.（むにゃむにゃ） @MnjaMnia

（阪大言文でどういう訳か『コーパス言語学』のゲストスピーカーをすることになった時、ない頭をしぼってレジュメを書いた後、これを持っていることに気づいて読み直したら説明したいことがだいたい書いてあってがっかりした記憶が）

2011-01-04 17:51:33

Tetsuya Hattori 服部哲弥 @tetshattori

@satounaoto 茶筅，早速ありがとうございました

2011-01-04 17:54:09

tomo.（むにゃむにゃ） @MnjaMnia

（で、学生さんにうけたのは、結局、grep, kwic, mecab だったような気がする（CHISE のデモとか無駄だったw））

2011-01-04 17:55:14

tomo.（むにゃむにゃ） @MnjaMnia

（YamCha をマスターして、YamCha 用コーパスが書けるようになったら強い気がするんだけど、まだ手がつけられてない）

2011-01-04 18:00:04

@satounaoto

@tetshattori いえいえ～

2011-01-04 18:02:18

Tetsuya Hattori 服部哲弥 @tetshattori

@satounaoto あ，茶筅か和布蕪かって関係でしたか．私和布蕪はインストールしているけど，背景知らずなので，全く気づかずでした

2011-01-04 18:02:34

tomo.（むにゃむにゃ） @MnjaMnia

今はどんな文字でも扱えて当たり前（と思われてる）からだと思います。RT @knagasaki: いわゆるエンドユーザが多かったのでしょうね。 @MnjaMnia （CHISE のデモとか無駄だったw）

2011-01-04 18:03:02

koda_TO（造反有理） @koda_TO

最近Togetterの鍵つきアカウントへの対応が変わったみたいで、一部関連ツイートが入っていないんで、そこのところよろしく哀愁

2011-01-04 18:05:00

tomo.（むにゃむにゃ） @MnjaMnia

だからいまいち修行する気になれないのか！RT @knagasaki: ドラゴンボールの影響で弱そうなイメージが。 @MnjaMnia YamChaをマスター

2011-01-04 18:05:18

Kazuhiro hokkaidonis @kzhr

まあなんだ，わたしは文字研究なので言語研究とはちがったアノーテーションがいるのだ

2011-01-04 18:07:51

tomo.（むにゃむにゃ） @MnjaMnia

（でまあ、YamCha が使えないばかりに、なんでも無理矢理 MeCab でやろうとする人達が登場しかけてるような気がするのをちょっと懸念してたりする今日この頃）

2011-01-04 18:08:34

Kazuhiro hokkaidonis @kzhr

@ab07_tact @Mitchara linguistic corpusってdatabaseとそんな内実が離れてないのでは？

2011-01-04 18:21:13

なべ @ab07_tact

@kzhr @Mitchara んー、確かにそうだけど、やっぱり違うものだと思う…

2011-01-04 18:29:22

Kazuhiro hokkaidonis @kzhr

@ab07_tact @Mitchara いや，もちろん，corpusのほうが巨大でありうるのですが，実質的に

2011-01-04 18:34:43

langstat @langstat

やはり欲しいデータは自分で作るのが一番（数百万語の英語コーパスをOCRで作った経験あり）。欲しい情報も自分で埋め込めばいい（まずは自分だけが分かるのもでも可）。日英語であれば構文レベルまでは比較的簡単に解析できる。ただ、所謂「マイナー言語」については（不勉強につき）よく分らない。

2011-01-04 18:41:19

SAKAUE Akkuş Tatsuya @sakaue

酒も飲んだし、ちょっと妄言を書くよ。

2011-01-04 18:51:25

SAKAUE Akkuş Tatsuya @sakaue

コーパスデータは、テキストファイル（UTF-8）が基本で、加工は、Perl/Python/R あたりでウィーンガシャーンすればいいのよ。 #gengo

2011-01-04 18:52:54

SAKAUE Akkuş Tatsuya @sakaue

英語の学習者コーパスを取り上げているけど、汎用的に使える話にした（つもりだ YO!!）小生の昔懐かしい記事はこちら。 http://dictionary.sanseido-publ.co.jp/wp/tag/NICE #gengo

2011-01-04 18:55:29

なべ @ab07_tact

@kzhr @Mitchara 大きさに加えて、コーパスだと含めるテキストの量や種類のバランスも取りますからねえ。でも古語の場合、テキストの選り好みなんかできない事もよくありますがw

2011-01-04 18:57:04

SAKAUE Akkuş Tatsuya @sakaue

なんだかんだで、研究目的によるので、既存のフォーマットに合わせようとするより、自分で処理しやすいフォーマットを自作自演するほうが手っ取り早いと思う。 #gengo

2011-01-04 18:57:09

langstat @langstat

狭義のコーパスは機械可読で（仮定する母集団に対する）代表性を持ち、バランスのとれたサンプリングがなされていることが必要（教科書的定義）RT @kzhr @ab07_tact @Mitchara linguistic corpusってdatabaseとそんな内実が離れてないのでは？

2011-01-04 18:58:07

SAKAUE Akkuş Tatsuya @sakaue

RT @langstat: 狭義のコーパスは機械可読で（仮定する母集団に対する）代表性を持ち、バランスのとれたサンプリングがなされていることが必要（教科書的定義） #gengo

2011-01-04 18:59:52

langstat @langstat

でも、広義のコーパスはデータベースと殆ど同じだし、コーパス言語学の専門家が言うほど厳密に区別しなくてもいいのでは、と個人的には思う。 RT @langstat 狭義のコーパスは機械可読で（仮定する母集団に対する）代表性を持ち、バランスのとれたサンプリングがなされていることが必要

2011-01-04 19:00:59

SAKAUE Akkuş Tatsuya @sakaue

CasualConc や AntConc は有益なツールで、利用はしてもいいと思うけど、いろんな面でいつか限界が来る。特にソフトのメンテ面。 #gengo

2011-01-04 19:03:03

SAKAUE Akkuş Tatsuya @sakaue

例文収集が大事っていう人は、1レコード（1行）に、「記録日＋例文＋[言語学的タグ]＋コメント」という感じでタブ区切りテキスト（＋の部分をタブにする）を書きこんで、正規表現をちょいと覚えていれば、簡単に取り出せるはず。 #gengo

2011-01-04 19:06:35

前へ 1 ・・ 4 5 6 次へ

いま話題のタグ