CHISEとLionと漢文コーパス
Lion な Mac に CHISE & 古典中国語形態素コーパス編集環境を入れたい場合、次の手順でどうぞ:(0) Xcode を入れる:App Store 落とす(無料)。すると /Applications/Install Xcode.app ができてるのでこれを動かすと入る。
2012-02-19 21:18:39(1) Homebrew を入れる:Terminal を開いて「/usr/bin/ruby -e "$(curl -fsSL http://t.co/8FCfXt2I)"」を実行。Proxy が必要な場合は環境変数 http_proxy を設定しておくこと。
2012-02-19 21:19:42(1) 補足:コマンドラインの短縮URLは元に戻す。
(3) ターミナルを開いて「sh ~/Documents/install-base-system_mac-homebrew.sh」を実行。CHISE 環境を入れるだけならこれで OK なんだけど、(続く)
2012-02-19 21:23:20(3)補足:途中でCVSのパスワードを聞かれるが、そのままreturnでおk。
(5) ターミナルを開いて、「sh ~/Documents/setup-kanbun-corpus-env.sh」で実行すると、追加フォントと何故か MeCab と古典中国語用形態素解析器が入ります。w それはどうでも良いんだけど(!?)、これを入れとくと(続く)
2012-02-19 21:25:43(5)補足:途中でOSXのパスワードを聞かれる。
(6) ターミナルを開いて「cd ~/projects/kanbun/env/」した後「 ./selfupdate.sh」すると Homebrew と CHISE と漢文コーパス環境が最新版に update されるので、メンテが楽かもです。(続く)
2012-02-19 21:28:10(6)補足:途中でCVSのパスワード、OSXのパスワード両方を聞かれる。
あ、入れた後、一度 ./selfupdate.sh してみてください。コーパスからの学習とかは変わってないです(こちら http://t.co/ffXsG0Fu を参考に)。(おわり)
2012-02-19 21:32:12ちなみに、これでいれた /usr/local/bin/xemacs (XEmacs CHISE) で foo.mc.utf-8 というようなファイル名のファイルを開くと MeCab-Kanbun-mode という古典中国語形態素コーパス編集用モードに入ります。
2012-02-19 21:36:15それ以外の場合でも M-x mecab-kanbun-mode [CR] を叩けば同様。MeCab-Kanbun-mode では白文の行末で [enter] を叩くと形態素解析が行われます。
2012-02-19 21:39:07また、コーパス行の見出し文字列(表層形)の途中で [enter] を叩くと、カーソル位置で見出し文字列を分割した複数のコーパス行ができます。
2012-02-19 21:42:25また、コーパス行を編集すると、リアルタイムチェッカーが動き、コーパス形式の誤りが生じた場合、下の小さいウィンドウにエラーメッセージが表示されます。エラーメッセージは誤りが無くなるか別のコーパス行に移動すると消えます。
2012-02-19 21:47:14(おまけ)./selfupdate.sh した後に XEmacs CHISE で M-x mecab-kanbun-retrieve-corpus [CR] するとアルバイトの人が入力した形態素コーパスのパーサーが動いて、(続く)
2012-02-19 21:53:14~/projects/kanbun/mecab-kanbun/seed-src/ 以下に corpus.<USER>.<TEXT-ID>.mc.utf-8 と corpus.<USER>.<TEXT-ID>.mc.utf-8.err というファイルができる。(続き)
2012-02-19 21:55:04前者はコーパスファイル、後者はエラーファイル。対応するソースは ~/projects/kanbun/mecab-kanbun/incoming/<USER>/corpus/<TEXT-ID>.mc.utf-8 (ちょっと羞恥プレイだけどスルー推奨(^_^;;;)
2012-02-19 21:58:13(という訳で、久々にインストーラーいじりをした訳だが、このために自宅と研究室の Mac mini に都合合計10回程 Homebrew を入れたり /usr/local を消したり(^_^;。でも、Fink や MacPorts に比べるとコンパクトなのでまだましだったかも)
2012-02-19 22:15:36ついでに、コーパス入りの Git リポジトリも公開して頂くと良いかも(^_^) RT @bajie38: ツールを使って、自分の研究か仕事に関係する資料を読むようにすればいいのかな。
2012-02-19 22:17:03