「インストラクションズ・フォー・ニンジャ・ディクショナリー」

忍殺語の形態素解析辞書「チャドー」のご紹介です。
36
Reffi @tomo1109_Reffi

【わかち書き対象・接頭語】「サイバー」,「バイオ」,「ケモ」,「アンタイ」,「アーチ」,「メガロ」 ※但し、「アンタイセイ」は別単語として扱う 19

2014-05-06 18:48:38
Reffi @tomo1109_Reffi

【わかち書き対象・形容詞】「グレーター」,「レッサー」,「エルダー」,「リアル」 20

2014-05-06 18:49:40
Reffi @tomo1109_Reffi

【わかち書き対象・名詞】「ニンジャ」、「ヤクザ」、「クローン」、「モーター」、「ソウカイ」、「ヨロシ」、「ホロ」、「アサルト」※但し、リアルニンジャのニンジャネーム、「ギリーニンジャ装束」のように真ん中に対象の単語がくる名詞、ヨロシサン、ヨロシサン製薬は別単語として扱う 21

2014-05-06 18:52:43
Reffi @tomo1109_Reffi

※追記:ソウカイヤ、ソウカイ・シンジケート、ソウカイ・シックスゲイツもわかち書きせずにひとつの単語とみなします

2014-05-07 07:44:25
Reffi @tomo1109_Reffi

【わかち書き対象・接尾語】「ジツ」、「ドージョー」、「ニンジャクラン」、「ヤクザクラン」 22

2014-05-06 18:53:32
Reffi @tomo1109_Reffi

【基本方針】一般的な日本語辞書と異なる品詞に分類している場合があります。例えば、一般的な日本語ではサ変名詞ではない単語でも、作中において「○○する」という用法がある場合、サ変名詞として登録しています。 (例:「タイムイズマネー」は「タイムイズマネーする」と使われるのでサ変) 23

2014-05-06 18:57:42
Reffi @tomo1109_Reffi

【特記事項】ごく普通の単語登録以外にやっている、特殊なことを簡単に説明します。 23

2014-05-06 19:02:28
Reffi @tomo1109_Reffi

◆システム辞書の単語削除・コストの書き換え◆日常的に使用されている日本語と語彙が大幅に異なる為、デフォルトのシステム辞書のままだと単語を正しく認識してくれません。そこで、不要な単語の削除や、選ぶべきでない単語が選ばれにくくなるよう、形態素生起コストの変更を行っています。 24

2014-05-06 19:06:56
Reffi @tomo1109_Reffi

◆中黒「・」を助詞として解釈する◆中黒を助詞の「の」や「な」に読み替えていると思ってください。 例えば「オートマチック・ヤクザ・ガン」は 「オートマチックなヤクザのガン」として、コンピュータは推定します。 25

2014-05-06 19:08:41
Reffi @tomo1109_Reffi

◆連接規則の変更◆一般的な日本語では名詞が名詞を修飾することは少ない為、デフォルトの設定では単語をうまく認識できない場合があります。(例外は外来語で、英文法では名詞が名詞を形容詞的に修飾します。例:クローン羊) 26

2014-05-06 19:11:05
Reffi @tomo1109_Reffi

日本語では名詞が連続している場合、それ全体を一つの名詞としてみなすようです。連接が2つであれば問題にはならないのですが、連接が3つになると大抵の場合、個々の単語を正しく認識できません。(例:アンタイニンジャアサルトライフル、オートマチックヤクザガン) 27

2014-05-06 19:15:26
Reffi @tomo1109_Reffi

今の例の場合、「アンタイニンジャアサルトライフル」「オートマチックヤクザガン」をそれぞれひとかたまりの単語として登録してしまえば正しく認識できますが、先ほど述べた「わかち書き」を実現する為にはそういうわけにもいきません。 28

2014-05-06 19:17:29
Reffi @tomo1109_Reffi

また、単語数がどんどん膨れ上がるという問題も発生します。「アンタイニンジャアサルトライフル」「アンタイニンジャウイルス」「アンタイニンジャミサイル」…あ、「ウイルス」は「ウィルス」の表記揺れもあったな。じゃあそれも別々に登録して…とどんどん単語が増えてしまいます。 29

2014-05-06 19:19:41
Reffi @tomo1109_Reffi

そういった事態を避ける為に、是非とも「わかち書き」を実現したい、という意図もあるわけです。そこで、品詞と品詞の間の「連接コスト」を変更しています。 30

2014-05-06 19:21:30
Reffi @tomo1109_Reffi

デフォルトではコンピュータは「名詞の隣に名詞が来て、更にその隣にも名詞が来るなんて普通有り得ないだろ。これは他の候補を探したほうがいいな」と思ってしまいます。そこで、「名詞の隣に名詞が来ても変じゃないんだよ」と教えてやります。これが連接コストの変更です。 30

2014-05-06 19:24:13
Reffi @tomo1109_Reffi

形態素解析エンジンでは過去の言語学研究に基づき、ある品詞からある品詞への「繋がりやすさ」が数値化されています。ひとくくりに品詞といっても活用形によってつながり方はバラバラですから、その組み合わせ数は膨大なものになります。 31

2014-05-06 19:29:28
Reffi @tomo1109_Reffi

IPA辞書では、品詞は活用形も含め1315通りに分類されています。つまり、ある品詞とある品詞の「繋がりやすさ」は、1315×1315、ざっと172万通りほどあることになります。この172万全ての組み合わせにそれぞれ、統計に基づいた「繋がりやすさ」の数値が振られています。 32

2014-05-06 19:32:42
Reffi @tomo1109_Reffi

この中から一部の組み合わせをピックアップし、「繋がりやすさ」を変更します。「名詞」→「名詞」は繋がってもいいんだよ、と教えてやると、コンピュータは「ここを名詞と考えると、ここは名詞の後ろだけど、これも名詞と考えてもいいんだな。じゃあこの名詞が正解だろう」となるわけです。 33

2014-05-06 19:37:48
Reffi @tomo1109_Reffi

忍殺語辞書では、主に形容動詞(形容動詞なるものが存在するのかという言語学上の論争はさておくとして)や、名詞、固有名詞、固有名詞(人名)の間の繋がりやすさを変更しています。 34

2014-05-06 19:41:53
Reffi @tomo1109_Reffi

先ほど「例外は外来語」と言いました。ニンジャスレイヤーはまさに例外が大手を振って歩いている、日本語なのに英文法の規則がちゃんぽんで適用されている、というような文章構造になっているといえるのかもしれません。 35

2014-05-06 19:46:27
Reffi @tomo1109_Reffi

この図は、ニンジャスレイヤーにおける単語間の連接の例を示したものです。「アロンダイト剣」は特徴的ですね。「固有名詞(人名)」が「名詞」を修飾しています。外来語では許されますが、日本語ではなかなか見かけません。 36 http://t.co/bbj2nebjth

2014-05-06 19:50:33
拡大
Reffi @tomo1109_Reffi

この場合、「剣」を「接尾語」として扱うか、「固有名詞(人名)」と「名詞」の間を繋がりやすくするか、ということになります。何でもかんでも接尾語にするわけにもいかないので、忍殺語辞書では品詞間のつながり易さを変更する方法を取っています。 37

2014-05-06 20:11:49
Reffi @tomo1109_Reffi

同様に、「形容動詞」→「名詞」も日本語では見かけません。何故なら、形容動詞は「○○な××」という使い方をするからです。普通は「な」が間に来ないとおかしいので「繋がりにくい」と設定されています。 38

2014-05-06 20:15:26
Reffi @tomo1109_Reffi

中黒「・」を「の」や「な」であると推定するというのも、連接の問題に対する解決法の一つです。忍殺後辞書ではこのように2通りの方法で連接の問題に対処しています。 39

2014-05-06 20:21:33