Togetter/min.tを安心してお使い頂くためのガイドラインを公開しました。
編集可能

言語学でのデータ管理・コーパスについての語らい #gengo

世の言語学者にとって切実な問題、「データ管理」について、つれづれと言語学クラスタの皆さんがつぶやきました。このまとめの正式な題名は「言えない…普通のタイトルでいいんじゃとか今さら言えない…w」(by @Mitchara 氏)です。
14
Mitchara @Mitchara

@ab07_tact コーパスはよくわからないので一度勉強したいと思いつつ、ナワトル語コーパスいつかできないかな…

2011-01-04 15:57:37
koda_TO(造反有理) @koda_TO

そういえば、俺の友人の博論はシュメール語のコーパス作り(とそれを基にした形態論の分析)だったなぁ。あれ、結局どうなったんだろうか?

2011-01-04 15:59:28
Mitchara @Mitchara

@ab07_tact で す よ ね ー w w 多読の一環として修士でできればいいなあ。まずコーパスの人にツールやグロスのつけ方を教えてもらって…

2011-01-04 16:00:45
koda_TO(造反有理) @koda_TO

コーパス、とまで行かないけど、文レベルのデータの保存等は皆さんどうやっているのかは知りたい所です。データベースのソフトでもイマイチなんだよなあ。 #gengo

2011-01-04 16:02:43
なべ @ab07_tact

@Mitchara まあ、本格的なコーパスを作ろうと思うと数年単位で共同研究プロジェクトを組んでお上に予算をもらって…という流れになるかとw

2011-01-04 16:04:14
なべ @ab07_tact

@Mitchara あるいは国際プロジェクトという手もw

2011-01-04 16:22:01
Mitchara @Mitchara

@ab07_tact がんばって雇ってもらえるようにがんばります…。まずはLinguist's Toolboxとかでちまちまやるかなあ

2011-01-04 16:23:14
@gotshu

切実に知りたい. RT @koda_TO: コーパス、とまで行かないけど、文レベルのデータの保存等は皆さんどうやっているのかは知りたい所です。データベースのソフトでもイマイチなんだよなあ。 #gengo

2011-01-04 16:28:48
なべ @ab07_tact

@Mitchara まずはマクロンとかアクセント記号とかをどうにかしないといけないんですよねぇ?

2011-01-04 16:30:10
Mitchara @Mitchara

@ab07_tact そうですね。ToolboxはUnicode対応ですが、代用表記を使うとか…

2011-01-04 16:31:20
なべ @ab07_tact

とりあえずエクセルに放り込んでるけど使い勝手悪いです RT @gotshu: 切実に知りたい.RT @koda_TO: コーパス、とまで行かないけど、文レベルのデータの保存等は皆さんどうやっているのかは知りたい所です。データベースのソフトでもイマイチなんだよなあ。 #gengo

2011-01-04 16:33:03
なべ @ab07_tact

@Mitchara AntConcもUnicode対応してたと思います→http://bit.ly/d4qB5G

2011-01-04 16:34:45
Mitchara @Mitchara

でも、流用を考えるとXMLでタグつけたほうがいいのかなあ。私まずXMLから勉強しないとダメなんだけども。

2011-01-04 16:35:00
Mitchara @Mitchara

@ab07_tact マクロンは結構不便なことがあるので、代用表記を使うかもしれません。コンコーダンスはもちろんですが、簡単な依存文法的情報をグロスに放り込んで文型分類ができるといいんですけれども…これはもうExcelしかないかな…

2011-01-04 16:36:52
@gotshu

@ab07_tact 自分も今はexcel ですが,コピーのしかたで書式(イタリックとか)が消えちゃうのと,1セルの内容が一定量越えると###表示(コピーまで)になってしまうのと.卒論の時は,文はwordに,データだけexcelにわけて,通し番号付けたり…

2011-01-04 16:39:00
tomo.(むにゃむにゃ) @MnjaMnia

TEI フラグが立ってる!?(ただ、あの電話帳見るとやる気なくすような気も(^_^;) RT @Mitchara: でも、流用を考えるとXMLでタグつけたほうがいいのかなあ。私まずXMLから勉強しないとダメなんだけども。

2011-01-04 16:39:08
ののまる @nonomaru116

@koda_TO 文字コードの問題で、膨大なデータを処理しあぐねています……最近解決したのでなんとかしようと考えていますがw

2011-01-04 16:41:02
Mitchara @Mitchara

@MnjaMnia ガタッ 今のところ、自分で使うだけの小規模なデータを考えているので(でないと元テクストの著作権が…)自分用に使いやすいグロスをつけようと思ってるのですが…

2011-01-04 16:42:25
なべ @ab07_tact

@Mitchara 最近の大規模コーパスではtaggerで機械的にやってるらしいですけど、ポリ言語でもそういうのあるのかな?

2011-01-04 16:42:40
koda_TO(造反有理) @koda_TO

@ab07_tact @gotshu エクセル使っている人はこっちでは見かけたことがないですねえ。ごっしゅさんの仰ると事が欠点として、エクセルの利点はありますか? #gengo

2011-01-04 16:42:42
Mitchara @Mitchara

@ab07_tact ポリ言語をどう扱うかは厄介ですよね…。通常語にあたる記述単位を接辞と語幹にしてもいいんですが、統語的情報を引っ張り出そうとすると逆に邪魔になりますし…。

2011-01-04 16:43:44
なべ @ab07_tact

@gotshu 我々はカード式に戻るべきなのかも知れませんねーw

2011-01-04 16:43:55
koda_TO(造反有理) @koda_TO

@nonomaru116 ののまるさんまで・・・ 結構切実ですねえ。特にデータが大きくなればなるほど。 #gengo

2011-01-04 16:44:33
@gotshu

@koda_TO 学校のPCには,たいていexcelが入っているので,学校でも開けるとか,excelは他に触れる機会があれば,新しく遣い方を学ぶ必要がないとか.

2011-01-04 16:45:30
残りを読む(118)

コメント

koda_TO(造反有理) @koda_TO 2011年1月5日
「データ管理・コーパスについての語らい #gengo」若干更新(主に @sakaue さん @langstat さんのツイートの追加)したよー。
0