言語学でのデータ管理・コーパスについての語らい #gengo

世の言語学者にとって切実な問題、「データ管理」について、つれづれと言語学クラスタの皆さんがつぶやきました。このまとめの正式な題名は「言えない…普通のタイトルでいいんじゃとか今さら言えない…w」(by @Mitchara 氏)です。
15
前へ 1 ・・ 3 4 6 次へ
(。ぅ_-̀。) @gotshu

evernote は自動で同期してくれるので,自分が使う前に起こった事故のことを含めても,便利ではあるなぁ.MS Office との互換性はないがしかたあるまい.MS Office 系は skydrive 直でいじれるようになって最近便利.これもmacだとそうでもないんだが.

2011-01-04 17:23:47
koda_TO(造反有理) @koda_TO

とりあえず、データ管理のくだり、これといった結論とか無いですけど、現時点までまとめておこう。 #gengo

2011-01-04 17:24:02
tomo.(むにゃむにゃ) @MnjaMnia

だからやっぱ S 式ですね(ぉぃ(^_^;;; RT @Mitchara: どーせポリ言語のグロスとか統語情報の記述形式なんて自分で考えるしかないのだ。

2011-01-04 17:24:18
@satounaoto

@Mitchara そうです〜。第一に軽いし、 第二にexcelに読ませる時だけ特殊文字を一括変換すればいいし… 僕はvistaを使っててIPAのかなりのものがexcelに打ち込めなかったので…新しいOfficeではできる?

2011-01-04 17:24:26
Mitchara @Mitchara

今日の話は言語クラスタ的にすごく切実だなあ

2011-01-04 17:24:41
(。ぅ_-̀。) @gotshu

ていうか skydrive って,実質 MS office 買わなくてもwebブラウザさえあれば,編集できる状態ってことでいいんだよね?

2011-01-04 17:24:42
Mitchara @Mitchara

@satounaoto できそうですね。ダメなら仰るとおり置換すればいいですし…。もっともナワトル語は音素が23しかない上にsuprasegmentalが弁別的でないので代用表記で十分ですw

2011-01-04 17:26:30
Mitchara @Mitchara

データ飛び対策はDropBoxです!USBメモリ?今もってないや。

2011-01-04 17:27:02
@satounaoto

chasenあるいは茶筅で、形態素解析ソフトです。開発者のページ http://chasen.naist.jp/hiki/ChaSen/ RT @tetshattori 横すみません.ちゃせんって正式名称は何でしょうか?

2011-01-04 17:27:16
tomo.(むにゃむにゃ) @MnjaMnia

で、まあ、以外と Mecab (のコーパス形式)って実は便利なんじゃないかという気もしたり(要は CSV なんだけど、素性を自分で拡張できて、言語独立なので)。統語構造は書けないんだけど。

2011-01-04 17:32:00
@satounaoto

話のレベルを下げてしまいました…失礼…離脱

2011-01-04 17:32:27
Mitchara @Mitchara

@satounaoto Navajoは各種特殊文字だけでなくUnicodeの組み合わせ記号も使うので、これはIPAでもちょっと工夫しないと検索できなくなりそうですね…。

2011-01-04 17:33:14
tomo.(むにゃむにゃ) @MnjaMnia

生成屋さんと Lisp は多分相性が良いと思うので、知っとくと便利かも知れないなとは思うんですが、あの括弧の山を見る人々の視線の冷たさを思うと強くはいえず(^_^;;; RT @Mitchara: なるほど、階層性も再現できるんですよね!

2011-01-04 17:34:58
Mitchara @Mitchara

ナバホの母音はトーンと鼻音性がクロスカットだから1つの母音に最低4つの記号がいるんだよな。代用表記だと鼻母音でHのa = 「Ha~」とか書くのがいいかなあ。

2011-01-04 17:36:53
Mitchara @Mitchara

@MnjaMnia なるほど、ありがとうございますw

2011-01-04 17:37:26
なべ @ab07_tact

『国文学 解釈と鑑賞』 2009/1 特集:日本語研究とコーパス を発掘してきた。何か書いてるかなー

2011-01-04 17:37:29
tomo.(むにゃむにゃ) @MnjaMnia

まあ、なんというか、列とか表とかは簡単なんだけど、木とかグラフになると急に話がややこしくなって、とっつきが悪くなるというのが問題で、そこで表に逃げるか、思い切って木やグラフに進むかの選択になるんだけど、後者はハードルが高い訳で…

2011-01-04 17:38:12
なべ @ab07_tact

んー、ざっと見た感じ、今のTLに資するような情報は見当たらないな…

2011-01-04 17:42:40
@satounaoto

日本語学2003年3月臨時増刊が「特集 コーパス言語学」です。持ってます。いいでしょ~ 読んでもわかんないけど。

2011-01-04 17:43:05
Mitchara @Mitchara

AA研の人たちがなんかよさげな情報をお持ちな気がするが…

2011-01-04 17:44:35
なべ @ab07_tact

松本裕治「統語情報の付与」という記事があった。http://bit.ly/fDX62f そういえば統語情報付けてるコーパスもあったな、忘れてた…。

2011-01-04 17:48:16
tomo.(むにゃむにゃ) @MnjaMnia

私も持ってます。リニューアル版があると良いかも。RT @satounaoto: 日本語学2003年3月臨時増刊が「特集 コーパス言語学」です。持ってます。いいでしょ~ 読んでもわかんないけど。

2011-01-04 17:50:37
なべ @ab07_tact

『月刊言語』に復刊してもらって、「言語学者の道具箱」シリーズで企画してもらうしかないな。

2011-01-04 17:50:44
@satounaoto

多分明治書院のサイトにあると思うけど、目次 http://p.twipple.jp/uGEzt

2011-01-04 17:51:14
拡大
前へ 1 ・・ 3 4 6 次へ