CHISEとLionと漢文コーパス

CHISE project http://www.chise.org/ 「東アジア古典文献コーパスの研究」ログ http://www.kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kyodokenkyu/
7
tomo.(むにゃむにゃ) @MnjaMnia

Lion な Mac に CHISE & 古典中国語形態素コーパス編集環境を入れたい場合、次の手順でどうぞ:(0) Xcode を入れる:App Store 落とす(無料)。すると /Applications/Install Xcode.app ができてるのでこれを動かすと入る。

2012-02-19 21:18:39
tomo.(むにゃむにゃ) @MnjaMnia

(1) Homebrew を入れる:Terminal を開いて「/usr/bin/ruby -e "$(curl -fsSL http://t.co/8FCfXt2I)"」を実行。Proxy が必要な場合は環境変数 http_proxy を設定しておくこと。

2012-02-19 21:19:42

(1) 補足:コマンドラインの短縮URLは元に戻す。

tomo.(むにゃむにゃ) @MnjaMnia

(3) ターミナルを開いて「sh ~/Documents/install-base-system_mac-homebrew.sh」を実行。CHISE 環境を入れるだけならこれで OK なんだけど、(続く)

2012-02-19 21:23:20

(3)補足:途中でCVSのパスワードを聞かれるが、そのままreturnでおk。

tomo.(むにゃむにゃ) @MnjaMnia

(4) ついでに、http://t.co/NxkSOob6 を「書類」に保存し、(続く)

2012-02-19 21:24:33
tomo.(むにゃむにゃ) @MnjaMnia

(5) ターミナルを開いて、「sh ~/Documents/setup-kanbun-corpus-env.sh」で実行すると、追加フォントと何故か MeCab と古典中国語用形態素解析器が入ります。w それはどうでも良いんだけど(!?)、これを入れとくと(続く)

2012-02-19 21:25:43

(5)補足:途中でOSXのパスワードを聞かれる。

tomo.(むにゃむにゃ) @MnjaMnia

(6) ターミナルを開いて「cd ~/projects/kanbun/env/」した後「 ./selfupdate.sh」すると Homebrew と CHISE と漢文コーパス環境が最新版に update されるので、メンテが楽かもです。(続く)

2012-02-19 21:28:10

(6)補足:途中でCVSのパスワード、OSXのパスワード両方を聞かれる。

tomo.(むにゃむにゃ) @MnjaMnia

あ、入れた後、一度 ./selfupdate.sh してみてください。コーパスからの学習とかは変わってないです(こちら http://t.co/ffXsG0Fu を参考に)。(おわり)

2012-02-19 21:32:12
tomo.(むにゃむにゃ) @MnjaMnia

ちなみに、これでいれた /usr/local/bin/xemacs (XEmacs CHISE) で foo.mc.utf-8 というようなファイル名のファイルを開くと MeCab-Kanbun-mode という古典中国語形態素コーパス編集用モードに入ります。

2012-02-19 21:36:15
tomo.(むにゃむにゃ) @MnjaMnia

それ以外の場合でも M-x mecab-kanbun-mode [CR] を叩けば同様。MeCab-Kanbun-mode では白文の行末で [enter] を叩くと形態素解析が行われます。

2012-02-19 21:39:07
tomo.(むにゃむにゃ) @MnjaMnia

また、コーパス行の見出し文字列(表層形)の途中で [enter] を叩くと、カーソル位置で見出し文字列を分割した複数のコーパス行ができます。

2012-02-19 21:42:25
tomo.(むにゃむにゃ) @MnjaMnia

また、コーパス行の先頭で [delete] を叩くと、カーソル位置のコーパス行が前のコーパス行と結合します。

2012-02-19 21:43:45
tomo.(むにゃむにゃ) @MnjaMnia

また、コーパス行を編集すると、リアルタイムチェッカーが動き、コーパス形式の誤りが生じた場合、下の小さいウィンドウにエラーメッセージが表示されます。エラーメッセージは誤りが無くなるか別のコーパス行に移動すると消えます。

2012-02-19 21:47:14
tomo.(むにゃむにゃ) @MnjaMnia

(おまけ)./selfupdate.sh した後に XEmacs CHISE で M-x mecab-kanbun-retrieve-corpus [CR] するとアルバイトの人が入力した形態素コーパスのパーサーが動いて、(続く)

2012-02-19 21:53:14
tomo.(むにゃむにゃ) @MnjaMnia

~/projects/kanbun/mecab-kanbun/seed-src/ 以下に corpus.<USER>.<TEXT-ID>.mc.utf-8 と corpus.<USER>.<TEXT-ID>.mc.utf-8.err というファイルができる。(続き)

2012-02-19 21:55:04
tomo.(むにゃむにゃ) @MnjaMnia

前者はコーパスファイル、後者はエラーファイル。対応するソースは ~/projects/kanbun/mecab-kanbun/incoming/<USER>/corpus/<TEXT-ID>.mc.utf-8 (ちょっと羞恥プレイだけどスルー推奨(^_^;;;)

2012-02-19 21:58:13
tomo.(むにゃむにゃ) @MnjaMnia

(ちなみに、<TEXT-ID> の KT ってのは冨山房の漢文大系のこと。該当する巻とページを見る)

2012-02-19 22:04:19
tomo.(むにゃむにゃ) @MnjaMnia

(という訳で、久々にインストーラーいじりをした訳だが、このために自宅と研究室の Mac mini に都合合計10回程 Homebrew を入れたり /usr/local を消したり(^_^;。でも、Fink や MacPorts に比べるとコンパクトなのでまだましだったかも)

2012-02-19 22:15:36
tomo.(むにゃむにゃ) @MnjaMnia

ついでに、コーパス入りの Git リポジトリも公開して頂くと良いかも(^_^) RT @bajie38: ツールを使って、自分の研究か仕事に関係する資料を読むようにすればいいのかな。

2012-02-19 22:17:03