言語学でのデータ管理・コーパスについての語らい #gengo

世の言語学者にとって切実な問題、「データ管理」について、つれづれと言語学クラスタの皆さんがつぶやきました。このまとめの正式な題名は「言えない…普通のタイトルでいいんじゃとか今さら言えない…w」(by @Mitchara 氏)です。
15
前へ 1 2 ・・ 6 次へ
koda_TO(造反有理) @koda_TO

@gotshu 所で、「1セルの内容が一定量越えると###表示」というのはセルの幅を変えたりしても、って事ですよね? #gengo

2011-01-04 16:45:38
なべ @ab07_tact

@koda_TO @gotshu 利点は別にないですねw 強いて言うならソートが出来るとかそんなレベル… なのでもっと便利なツールが欲しいです #gengo

2011-01-04 16:46:14
Mitchara @Mitchara

@koda_TO @ab07_tact @gotshu Excelでコーパスを作ったことはありませんが、関数とかマクロが組めて非常に高度な集計や分析ができるのが利点だと思います。データの作り方次第ですが。ただ、使えるデータの量も限られますね。重くなりますし。 #gengo

2011-01-04 16:46:34
(。ぅ_-̀。) @gotshu

@koda_TO なんか,文字数に制限があるみたいですね.中身が消える訳ではなくて,あくまで表示と,コピーした際のクリップボードの中身が変わります(後者が困る

2011-01-04 16:46:52
tomo.(むにゃむにゃ) @MnjaMnia

人文系の人がデータとかいうと TEI Police がやってくるそうですw(嘘) RT @Mitchara: ガタッ 今のところ、自分で使うだけの小規模なデータを考えているので(でないと元テクストの著作権が…)自分用に使いやすいグロスをつけようと思ってるのですが…

2011-01-04 16:47:00
なべ @ab07_tact

@Mitchara BNCのXML版持ってますけど、文法タグは品詞までで、確か統語情報は付いていなかったような気が…

2011-01-04 16:47:54
(。ぅ_-̀。) @gotshu

あぁ,たしかに pivot テーブルは感動した.複数のパラメータが一致する例文を一瞬で一覧にできるのは便利.今も卒論時のデータにお世話になってます.

2011-01-04 16:48:02
tomo.(むにゃむにゃ) @MnjaMnia

(TEI なまはげ というのがふと頭に浮かんだ)

2011-01-04 16:49:18
koda_TO(造反有理) @koda_TO

@gotshu @ab07_tact なるほど。 「ソート」と「何処でも使える」あたりですね。 #gengo

2011-01-04 16:50:53
Mitchara @Mitchara

@ab07_tact 自作超小規模コーパスだとそのあたりを自分で設計できるので便利かなあと… コンコーダンスだけでもかなりのことはできると思いますが…

2011-01-04 16:51:53
koda_TO(造反有理) @koda_TO

@Mitchara なるほど。Quantitativeなことをするのでしたら多少は役に立ちそうですが・・・ でもそれなら他のプログラムを使えってレベルな気が・・・w #gengo

2011-01-04 16:53:03
koda_TO(造反有理) @koda_TO

@gotshu クリップボードの中身が変わったら意味無いですよねw #gengo

2011-01-04 16:53:46
Mitchara @Mitchara

@koda_TO そうなんですよねw セル形式はそもそも見づらいです。いいソフトないかなあ

2011-01-04 16:54:22
koda_TO(造反有理) @koda_TO

#gengo 因みにうちの先生のひとりがやっているのが、Wordファイルへのベタうち。

2011-01-04 16:54:54
Kazuhiro hokkaidonis @kzhr

わたしはコーパスはテクストに独自形式で打って検索プログラムをがりがり書くのが通例なので、まあ、やる気が出ないと手元にデータが全然ない

2011-01-04 16:56:56
koda_TO(造反有理) @koda_TO

@Mitchara 一部の変異理論系の社会言語学者はこれ→ http://individual.utoronto.ca/tagliamonte/goldvarb.htm 使っていますね。若干量的研究に特化されているんで、ここでは無用の長物でしょうけど。 #gengo

2011-01-04 16:58:59
tomo.(むにゃむにゃ) @MnjaMnia

stand off markup すれば原テキストと分離できたりして便利だけど、慣れないと難しそうな気はする。やっぱ入力ツールの問題は大きいかも。

2011-01-04 17:00:15
Mitchara @Mitchara

@koda_TO ふーむ、ありがとうございます。これは確かに社会言語学では便利そうではありますね。

2011-01-04 17:00:21
(oた_ _)oたん @tatann_

データは秀丸で書いて正規表現で検索か目視で拾い上げるかしてたので何回やっても数が合わないとかで辛かった。

2011-01-04 17:03:11
なべ @ab07_tact

@Mitchara でもそれってコーパス?データベースだよね?って気もします…(余計な事言ってごめんなさい)

2011-01-04 17:03:21
(。ぅ_-̀。) @gotshu

卒論の時は,wordに貼り付けた例文に通し番号付けて,excelにデータを全部手打ち.それをpivotテーブルで表示 http://twitpic.com/3mwelt 例えば,関係節>que>直目の前置を選ぶと http://twitpic.com/3mwfeg どりゃーっと

2011-01-04 17:03:42
拡大
拡大
@satounaoto

僕は「オレンジページ」から拾った用例をパチンコ屋さんの広告の裏(白いことが多い)に書きとめて、クリップでまとめています。【テクノロジー】ミ ヽ(`Д´)ノ

2011-01-04 17:04:01
tomo.(むにゃむにゃ) @MnjaMnia

(でまあ、俺はといえば、とりあえず S 式にして Lisp でいじってしまいがちなので、自分がするようなやり方は万人にお勧めできない気がするので、とりあえず黙っとけという話ではある(-_-;;;)

2011-01-04 17:04:27
Mitchara @Mitchara

@ab07_tact それもそうですね。ん、とすると私はそっちが作りたいのか…

2011-01-04 17:04:49
前へ 1 2 ・・ 6 次へ