忍殺語を形態素解析する為の、中黒「・」の処理方法

忍殺語を品詞分解する際の、中黒「・」の解釈の仕方についてまとめました。
9
Reffi @tomo1109_Reffi

さっきの仮定は正しかった!!きちんと中黒を文法的に解釈できてる!!! #njslyr http://t.co/xMT1i8jU56

2014-05-01 15:55:42
拡大

↑↑↑となるまでの経緯です。

Reffi @tomo1109_Reffi

@khcoder こんばんは、先日から何度かアドバイスを頂きましてありがとうございます。もし差し支えなければ、一点教えて頂きたいことがあるのですが。

2014-04-30 20:49:03
Reffi @tomo1109_Reffi

@khcoder 例えば、「ゼロ・トレラント・サンスイ 」のように、中黒を間に複数挟むカタカナ語が頻出する文章を形態素解析しようとしているんですが、これを精度良くわかち書きしようとする場合、KH CoderまたはMecabに何らかの設定は必要でしょうか?

2014-04-30 20:53:54
Reffi @tomo1109_Reffi

@khcoder 先ほどの例を「ゼロ・トレラント」と「サンスイ 」で辞書登録した場合、思った通りに品詞分解されれば「ゼロ・トレラント」+「・」+「サンスイ」となると思うのですが、この間に挟まる中黒はどのように扱われるのでしょうか?

2014-04-30 20:57:59
Reffi @tomo1109_Reffi

@khcoder あるいは、この間の中黒が存在するせいで、品詞分解が正しく行われない/行われにくいということはあるのでしょうか?もしご存知でしたら教えて頂きたく。(これまで計量テキスト分析をやったことのない素人ですので、質問内容自体が変でしたら、それも含めてご指摘ください)

2014-04-30 21:00:31
KH Coder @khcoder

@tomo1109_Reffi えっと、MeCabの辞書を編集なさる形でしょうか? それともKH Coderの強制抽出でしょうか。MeCabが「ゼロ・トレラント」と「サンスイ」を抽出していれば、それをKH Coderはそのまま読み込んで使用します。あいだの中黒は「その他」品詞

2014-04-30 21:13:07
KH Coder @khcoder

@tomo1109_Reffi になって、単に分析上は無視されるはずです。

2014-04-30 21:13:40
KH Coder @khcoder

@tomo1109_Reffi KH Coderの強制抽出の場合「ゼロ・トレラント」と「サンスイ」を登録していただければそれ以上必要な設定はありません。先ほど同様、間の中黒には「その他」という品詞名がKH Coder上で与えられ、無視されると思います。

2014-04-30 21:15:22
Reffi @tomo1109_Reffi

@khcoder ありがとうございます。Mecabのユーザー辞書を追加で作成しています。名詞だけでなく助詞や助動詞等も含め、2,000語ほど登録している状態です。完全にMecabの側の話になってしまうとは思うんですが、気になっているのは品詞分解の精度でして・・・

2014-04-30 21:18:46
Reffi @tomo1109_Reffi

@khcoder 例えば、中黒を単体で辞書登録したほうが品詞分解の精度が上がる、というようなことはあり得るのでしょうか?デフォルトのIPAdicはgrepをかけてみてもそうした登録はないので、(続)

2014-04-30 21:21:45
Reffi @tomo1109_Reffi

@khcoder 解析の際にはまず未知語として扱われ、unk.defに記述された設定に従って品詞が付与されて出てくると思っているんですが、未知語として扱われていることによって連接の判定に影響は出たりするんでしょうか?

2014-04-30 21:23:53
Reffi @tomo1109_Reffi

@khcoder 本来はMecabのユーザーコミュニティ的な場所で聞くべきかもしれませんが・・・

2014-04-30 21:24:18
KH Coder @khcoder

@tomo1109_Reffi えーっと、申し訳ありませんが、そうしたMeCab側の設定・精度については十分に把握しておりません。「記号」みたいな品詞名で「・」を登録してみた場合に、解析の結果が変わるかどうか見ていただく以上のことは思いつきません。すみません。

2014-04-30 21:28:53
Reffi @tomo1109_Reffi

@khcoder 了解です。どうもありがとうございます。辞書登録して試してみようと思います。登録自体はすぐできますが、どうやって統計的に確認するか、検証方法を考えないといけないですね・・・

2014-04-30 21:32:48
KH Coder @khcoder

@tomo1109_Reffi そうですね、統計的に確認できれば無論その方が良いでしょう。ただ、10文程度の形態素解析の結果を詳しく見て、before/afterで変化があるかどうか探るくらいでも、この場合は意味があるのではないかと思います。

2014-04-30 23:06:08
Reffi @tomo1109_Reffi

コンピュータは単語の中身は関知しない。ということは、単にカタカナが連なってるのも、間に中黒が挟まってるのも、特に違いはないということなのか?

2014-04-30 21:35:45
Reffi @tomo1109_Reffi

「ゼロトレラントサンスイ」→「ゼロトレラント」+「サンスイ」。

2014-04-30 21:37:25
Reffi @tomo1109_Reffi

「ゼロ・トレラント・サンスイ」→「ゼロ・トレラント」+「・」+「サンスイ」。

2014-04-30 21:37:44
Reffi @tomo1109_Reffi

別にタイトル名を分割したいわけではないんだけど、例えとして。で、全部名詞だよな?ということは、中黒も名詞として登録すべきなのか?

2014-04-30 21:38:31
Reffi @tomo1109_Reffi

名詞接続することを考えると、品詞を変えるのはよろしくない気がする。

2014-04-30 21:39:55
Reffi @tomo1109_Reffi

とりあえず、辞書バックアップして変更してみるか・・・

2014-04-30 21:40:57
Reffi @tomo1109_Reffi

例えばアンタイ・ニンジャ・ウイルスの「アンタイ」は対戦車地雷の「対」と同義なわけで、名詞接続する接頭詞になるわけだ。

2014-04-30 21:48:45
Reffi @tomo1109_Reffi

つまり、中黒を名詞として辞書登録しておけば、「アンタイ」+「・」+「ニンジャ」+「・」+「ウイルス」=「接頭詞」+「名詞」+「名詞」+「名詞」+「名詞」となる筈だよな?原理上はそうだと思う。

2014-04-30 21:50:08