言語学でのデータ管理・コーパスについての語らい #gengo

世の言語学者にとって切実な問題、「データ管理」について、つれづれと言語学クラスタの皆さんがつぶやきました。このまとめの正式な題名は「言えない…普通のタイトルでいいんじゃとか今さら言えない…w」(by @Mitchara 氏)です。
15
前へ 1 2 3 ・・ 6 次へ
ののまる @nonomaru116

@koda_TO 文章ものはテキストのままにしたりEXCELに入れたりしていますが、検索しやすいように加工を加えています。問題は漢籍から引っ張ってきた資料で……『説文解字』の中のものだから、変な字が多くて入力が面倒くさく、ノートのままがほとんどですw

2011-01-04 17:04:53
(。ぅ_-̀。) @gotshu

つまり卒論の時は,従属節だけで474例のデータをあれこれ入力してたのだな.細かい分析はしてないけど,主語後置例に関しては,主節と従属節との絶対数比較もしてるので,コーパスはもうちょいある.

2011-01-04 17:08:33
なべ @ab07_tact

@Mitchara 両者の区別も難しいとは思いますけど…

2011-01-04 17:08:34
koda_TO(造反有理) @koda_TO

@Mitchara Qualitativeの人間にはあまり使いみちないですけどねw

2011-01-04 17:09:16
tomo.(むにゃむにゃ) @MnjaMnia

でもって、自分じゃあんまり使ってないけど、小規模なら XML データベースに載せて XQuery でいじるというのは割と応用力が高い気はする。が、とっつきが良いかといわれると悩む(関数型言語で奇麗だと思うけど、SQL 臭いのはマイナスかも)。

2011-01-04 17:09:47
なべ @ab07_tact

とりあえずごっしゅさんのオフィスが2003でない事は分かった

2011-01-04 17:10:16
Mitchara @Mitchara

とりあえずExcelに放り込んどけば関数でどんな書式にも結合できるしcsvに書き出したりもできるのだよな。

2011-01-04 17:11:27
koda_TO(造反有理) @koda_TO

@nonomaru116 漢文なんかだとそういう問題があるのですか・・・ 

2011-01-04 17:11:32
koda_TO(造反有理) @koda_TO

「コーパス言語学のいろはの「い」」みたいなのだれかTwifullでやってくれぬか。 #gengo

2011-01-04 17:13:36
ののまる @nonomaru116

@koda_TO 最近は諸橋大漢和以上に字を収録しているSuperfontが出てきたので、よっぽどでなければすべて入力可能ですがね。前は合成文字表記でなんとかしていましたがこれも面倒くさいw

2011-01-04 17:14:13
@satounaoto

始めからcsvで書くのはダメ? RT @Mitchara: とりあえずExcelに放り込んどけば関数でどんな書式にも結合できるしcsvに書き出したりもできるのだよな。

2011-01-04 17:14:54
tomo.(むにゃむにゃ) @MnjaMnia

とりあえず、grep の使い方はマスターしとくと吉かも。Mac 使いなら Automator の使い方も知っとけば強力。

2011-01-04 17:17:20
Mitchara @Mitchara

@satounaoto なるほど、それもアリかもしれませんね。1行目本文→2行目グロス→3行目統語情報→4行目本文2→… みたいに書いていけば、Excelでそのまま集計もできますし…

2011-01-04 17:17:42
SAKAUE Akkuş Tatsuya @sakaue

実現したら会場まで出かけたい。RT @koda_to: 「コーパス言語学のいろはの「い」」みたいなのだれかTwifullでやってくれぬか。 #gengo

2011-01-04 17:18:35
なべ @ab07_tact

『言語』で言語分析のお供の特集や連載なかったかな… mandaraをやってたのは覚えてるけど #gengo

2011-01-04 17:18:46
@satounaoto

必要な時だけexcelに読み込ませちゃだめ?音声記号とかはexcel受け付けないし…(何も知らないです、ごめんなさい_| ̄|○ RT @korjaeho CSVには関数組めないんで? @Mitchara

2011-01-04 17:19:09
Mitchara @Mitchara

@koda_TO #gengo Toolboxはよさそうですね。慣れるのに少し時間がかかりそうですが…w

2011-01-04 17:20:47
koda_TO(造反有理) @koda_TO

@nonomaru116 どちらにせよ、無数にある字のなかから選ぶという作業は非常に面倒なもんでしょうねえ。

2011-01-04 17:20:58
Tetsuya Hattori 服部哲弥 @tetshattori

@satounaoto 横すみません.ちゃせんって正式名称は何でしょうか?

2011-01-04 17:21:19
@szawanyusag

@koda_TO コーパスと言えば大阪の @langstat さんでしょう。(チラッ

2011-01-04 17:22:08
Mitchara @Mitchara

どーせポリ言語のグロスとか統語情報の記述形式なんて自分で考えるしかないのだ。

2011-01-04 17:22:17
ののまる @nonomaru116

@koda_TO そこら辺は、macだと文字ビューアによる入力や、マルチリンガル処理が非常に楽なので、結構楽なのですよ。win使いから相談されて「これでダメ?」とかアドバイスしても出来なかった、とかあるし。

2011-01-04 17:22:51
前へ 1 2 3 ・・ 6 次へ