「インストラクションズ・フォー・ニンジャ・ディクショナリー」

忍殺語の形態素解析辞書「チャドー」のご紹介です。
30
Reffi @tomo1109_Reffi

◆取扱説明◆◆◆◆ Mecab/IPAdic形態素解析辞書「チャドー」 ◆◆◆◆風林火山◆

2014-05-06 17:41:57
Reffi @tomo1109_Reffi

【概要】Twitter@NJSLYRで連載中の小説「ニンジャスレイヤー」における奇妙な日本語、いわゆる「忍殺語」を、形態素解析エンジン「Mecab」で解析する為の形態素解析辞書です。 1

2014-05-06 17:44:14
Reffi @tomo1109_Reffi

【概要】「形態素解析」とは日本語の文章を、名詞や動詞等の品詞に分解することです。コンピュータで日本語を処理する為には必須の技術で、かな漢字変換等で広く使用されています。 2

2014-05-06 17:46:18
Reffi @tomo1109_Reffi

【使用方法】2014/05/06現在、詳細な使用方法を説明するマニュアルを作成していません。とりあえずはベータ版として公開させて頂きます。 3

2014-05-06 17:46:55
Reffi @tomo1109_Reffi

【概要】導入方法は添付のテキストを参照してください。この辞書と形態素解析エンジン「Mecab」、分析ツール「KH Coder」を使用すると例えばこんなふうに単語と単語の関係性を分析することができます。 4 #njslyr http://t.co/4LHESJhgwr

2014-05-06 17:52:20
拡大
Reffi @tomo1109_Reffi

【概要】また、このように単語の用例を瞬時に確認することもチャメシ・インシデントとなっています。 5 #njslyr http://t.co/xgPf1Wi49U

2014-05-06 17:58:47
拡大
Reffi @tomo1109_Reffi

【概要】注:公開しているのは辞書のみで、本編のテキストそのものは収録されていません。別途コーパスを作成する知識とかなりの手間が必要ですが、忍殺語をこれまで以上に使いこなしたい重篤なヘッズの皆様には実際おすすめできると思います。 6 #njslyr

2014-05-06 18:02:31

◆補足◆

Reffi @tomo1109_Reffi

◆◆◆◆◆◆Mecab/IPAdic形態素解析辞書「チャドー」 ◆◆◆◆◆◆ ソフトをインストールして本格的に使おうと思ってない人も、辞書データ自体はテキストで入ってるので、眺めてみると何か発見とかあるかもしれません。 http://t.co/li9Bqxo0Bf #njslyr

2014-05-06 21:45:49
Reffi @tomo1109_Reffi

あと、もし使ってみたという方がいらっしゃいましたら、漏れてる語彙のフィードバック等頂けると大変ありがたいです。単語と品詞の種類だけわかれば結構ですので・・・動詞の活用形付けたり、形態素生起コスト振ったりはこちらでやりますので。

2014-05-07 02:07:04
Reffi @tomo1109_Reffi

【コーパスについて】Twitter@NJSLYRで2010/7/24~2014/4/19までにツイートされた文章のうち、 いわゆる本編(第一部~第三部、および「ニンジャについて」「デイ・オブ・ザ・ロブスター」)に該当する部分のみを解析の対象としています。 7

2014-05-06 18:07:44
Reffi @tomo1109_Reffi

【コーパスについて】2014/5/6現在、それ以外の文章(エイプリルフール企画やボブとエルフのせんし、ほんやくチームからのアナウンス等は除外しています。 8

2014-05-06 18:09:19
Reffi @tomo1109_Reffi

【コーパスについて】よって、いわゆる「ほんやくチーム語」に関しての語彙・文法規則は不足している可能性が高いです。これは今後の課題です。 9

2014-05-06 18:10:03
Reffi @tomo1109_Reffi

【コーパスについて】また、物理書籍のみに掲載されているエピソードも解析の対象に含めていません。 10

2014-05-06 18:11:06
Reffi @tomo1109_Reffi

【コーパスについて】人名・ニンジャネームについては、ニンジャスレイヤーwikiに記載されている名鑑ナンバー等のメタ情報を付与させて頂きました。有志の方々 に感謝致します。11 #njslyr http://t.co/zCiEv6Sdqj

2014-05-06 18:21:49
拡大
Reffi @tomo1109_Reffi

【基本方針】以下は辞書編纂時のおおまかな方針です。ブレる場合もあります。 12

2014-05-06 18:26:21
Reffi @tomo1109_Reffi

【基本方針】表記揺れ(と推測されるもの)は辞書で吸収します。例えば、「エイリアス」は「エーリアス」に寄せて認識します。但し、苗字のみの呼称をフルネームに寄せる、いわゆる名寄せはしていません。「フジキド」と「フジキド・ケンジ」は区別します。 13

2014-05-06 18:29:19
Reffi @tomo1109_Reffi

【基本方針】IPA辞書には「表層形」と「原形」が定義されており、これを利用することで「エイリアス」と書かれていても「エーリアスのことだな」と認識させることができます。この場合、表層形が「エイリアス」と「エーリアス」、原形はどちらも「エーリアス」です。 14

2014-05-06 18:32:26
Reffi @tomo1109_Reffi

【基本方針】やろうと思えば「フジキド・ケンジ」と「ケンジ・フジキド」、「フジキド」、「モリタ・イチロー」「イチロー・モリタ」、「モリタ」「ニンジャスレイヤー」「ネオサイタマの死神」「サツバ…等の表層形を 全て一つの原形に集約した上で単語の関係性を分析することも可能です。 15

2014-05-06 18:35:59
Reffi @tomo1109_Reffi

【基本方針】辞書の「原形」の項目を変更するだけで簡単に実現できますので、興味のある方は試してみてください。 16

2014-05-06 18:37:10
Reffi @tomo1109_Reffi

【基本方針】以下に示す単語は、なるべく「 わかち書き」をするような形で辞書登録しています。これはコンコーダンス検索を行う際の利便性を考慮したものです。 17 #njslyr http://t.co/BcJBwr7wHz

2014-05-06 18:42:34
拡大
Reffi @tomo1109_Reffi

また、「ニンジャクラン」と「ニンジャ・クラン」「ヤクザ・クラン」と「ヤクザクラン」のような表記の揺れは、原形を集約することで両方ともまとめてコンコーダンス検索することができるようになっています。 18

2014-05-06 18:44:28
残りを読む(43)

コメント

コメントがまだありません。感想を最初に伝えてみませんか?