- tomo1109_Reffi
- 64633
- 13
- 5
- 7
@BLACK_RX_24 会話文はカッコで括ると助動詞とか終助詞とかを変換しなくなります。そういえば説明抜けてますね・・・追記しておきます。
2014-06-16 21:10:55@BLACK_RX_24 今思いましたが、地の文=サンの文章としても変換すべきですね。しかし「なのだな」もちょっと違和感がありますし、どうしたもんでしょうか・・・検討してみます。
2014-06-17 01:58:32#foorinkazan Windows 8.1で問題なく稼働しました。あれこれテキスト投げ込んでるだけで楽しい。です・ます体のブログとかを変換するのが一番ギャップがあって笑えるかも。「~したいと思います」が「ではないか」になるのが気になりました。
2014-06-16 23:06:28@ja_bra_af_cu ありがとうございます。「と思います」の扱い、どうしたもんでしょうねぇ・・・地の文=サンは「だと思います」「と思います」みたいな文体は使わないので、どうにか変換しないといけないんですが難しいところです。
2014-06-17 01:43:51下から突撃してきたのは無人機バイオトナカイに跨ったセメントイシヤであった!セメント砲を連射しながら加速!ハヤイ!終世主と氷天使は避けるために散開。しかし辛タローの狙いはガランサスフェザーのみだった。集中砲火でセメント弾が直撃!ゴウランガ! 1 #foorinkazan
2014-06-17 00:08:49えのき氷の使い方を翻訳。「楽しみます」→「楽しみる」の変換に違和感がある以外は正常に動作しました。 (動作環境:Windows 7 Home Premium SP1 32bitOS) #foorinkazan pic.twitter.com/iFlAVfgMBr
2014-06-17 00:55:58@yuisuzuho お試し頂いてありたごうございます。五段・マ行動詞の変換漏れですね。対応しておきます。
2014-06-17 01:32:08以下は「フーリンカザン」の仕組みの大まかな説明や、
開発の動機・ねらいについてです。興味のある方はご覧ください。
日本語→忍殺語ほんやく支援システム「フーリンカザン」、大きな問題が出なければ、今日の夜あたりにα1をリリースしようと思います。正直、語彙が足りてないので変換の精度は期待しないでください。まずは動作確認レベルから… #njslyr7k pic.twitter.com/n0tWoRv9U1
2014-06-16 03:59:26フーリンカザンは.NETで動いてるので、インストールがちょっとめんどくさいです。何故.NETかというと、NMeCabがあるおかげで開発が楽だったので・・・技術力の欠如を露呈してる気がしますが。
2014-06-16 04:21:34ジョークプログラムめいた位置づけなのに、やたらサイズも動作も重いというあたりが微妙。辞書積んでるのでサイズはどうにもならないですが、動作のほうはもう少しなんとかしたい。
2014-06-16 04:25:45力技で正規表現置換を何万回も実行するので、マシンパワーはそれなりに必要かもしれません。うちのCore i5-750では特に問題なく動いてるので、5年落ちぐらいであれば大丈夫だと思います。
2014-06-16 04:29:49以前も質問がありましたけど、スマートフォンに移植してくれという要望にはお応えできませんので悪しからずご了承ください。「しずかったー」みたいなソフトも存在するので、動かすことはできるのかもしれませんが・・・
2014-06-16 04:34:10「フーリンカザン」の変換処理は、大きく2つのプロセスに分かれています。「形態素辞書による置換」と、「形態素情報を基にした正規表現置換」です。
2014-06-16 04:46:27まずはじめに、入力されたテキストに対して前処理を行います。禁則文字を消したり、「。。。」や「・・・」を「…」に変換したり、形態素辞書が読みやすいように叫び声等を整形したり。まあこれは大した話ではないので次へ。
2014-06-16 04:50:43で、前処理が済んだテキストをNMeCabに投げ込んで形態素にばらし、品詞等の情報を取得します。「これは名詞」とか「これは動詞」とか小分けにするわけですね。
2014-06-16 04:53:11このときに、一次変換も行います。形態素辞書は、「地の文=サンであればこう置き換える」、「会話文中であればこう置き換える」という変換候補と、二次変換に必要なメタ情報を保有していて、それを付与した状態で結果を出力します。
2014-06-16 04:56:37次に、出力された一次変換結果を、更に正規表現で置換します。正規表現というのは、コンピュータで文字を取り扱うためのルールみたいなものです。プログラムを触らない人も、テキストエディタ等で使うことがあるかもしれません。
2014-06-16 05:03:00例えば . (ピリオド)は「任意の一文字」とか、 * (アスタリスク)は「0回~任意の回数の繰り返し」とか、 ( ) で括るとグループとみなすとか、 | は「または」を意味するとか。
2014-06-16 05:04:20これを使って、 (僕|私|俺)は(おいし|まず)い(りんご|林檎)を食べ(まし)*た みたいな表記で、検索条件や置換後の文字を表現するわけです。
2014-06-16 05:08:02これに形態素を組み合わせます。すると、 【代名詞】は【形容詞】【名詞】を【動詞】ました みたいな抽象的な書き方をすることができます。(実際には、「は」「を」「ました」も助詞や助動詞ですが)
2014-06-16 05:10:41<名詞/代名詞/一般/私>私 <助詞/係助詞/は>は <名詞/一般/林檎>林檎 <助詞/格助詞/一般/を>を <動詞/自立/一段/連用形/食べる>食べ <助動詞/特殊・タ/基本形/た>た <記号/句点/。>。
2014-06-16 05:17:22こういう文章があったとします。この中から、例えば <名詞/一般/林檎>林檎 を、 <名詞/一般/アップル>アップル に置き換える、みたいなことができます。
2014-06-16 05:19:18