ニューラルネットワークを利用したweb 小説の翻訳モデルがネタにしかなってない

Odashi @odashi_t

Web小説のルビだけ抜き出して本文との翻訳モデルを作っている。人名がうまくできるのはともかく、「ゆめ→計画」「アルケミスト→錬金術師」「シュヴァルツ→黒」とか学習してて結構面白い

2016-01-16 23:03:24

Odashi @odashi_t

Encoder-decoder使ってるけど、ルビ短いので512次元で秒間3500文という驚異的なスピードで学習できる

2016-01-16 23:11:58

Odashi @odashi_t

ちなみにルビ、sort|uniqした後で90万パターンある

2016-01-16 23:15:58

Odashi @odashi_t

学習終わった（90万パターンを20世代）。左は入力、右の漢字はその「翻訳結果」。くそ笑ってる pic.twitter.com/gxWot4dKQn

2016-01-17 00:58:29

拡大

Odashi @odashi_t

逆のモデルも学習してる

2016-01-17 01:02:03

Odashi @odashi_t

Web小説からランダムに選んだルビを使ってこの結果なので、世のWeb小説はほとんどこういう内容ということになる

2016-01-17 01:05:18

Odashi @odashi_t

まあ「ルビ付きのフレーズ」というバイアスがかかってるけど

2016-01-17 01:06:31

Odashi @odashi_t

漢字→カタカナ版です。ご査収下さい。（腹よじれて吐きそう） pic.twitter.com/pMKWqig6m1

2016-01-17 01:21:33

拡大

Odashi @odashi_t

カタカナ生成の方、明らかに「中黒（・）を区切り記号とした単語連鎖」になっていて、中黒の直後以外の文字はほぼ一意に決定されているものと思われる。

2016-01-17 01:27:20

Odashi @odashi_t

Web小説のデータは解析するには十分すぎるくらいの量持ってる（けど応用があまり思いつかない）

2016-01-17 01:32:50

Odashi @odashi_t

ちなみにニューラルネット翻訳器で学習しただけです。

2016-01-17 01:23:33

Odashi @odashi_t

情報科学 → データ・フォーション・テレパシー研究科 → ライト・オブ・ディスティニーション

2016-01-17 01:59:56

Odashi @odashi_t

どうもデータ・フォーション・テレパシー・ライト・オブ・ディスティニーションのファースト・アース・シールドです。

2016-01-17 02:01:28

Odashi @odashi_t

博士課程 → ファースト・アース・シールド

2016-01-17 02:01:07

Odashi @odashi_t

ちなみに修士課程はシューティング・シールドらしい

2016-01-17 02:02:59

Odashi @odashi_t

これ普通に面白いのでサービスにしようか

2016-01-17 02:03:45

Odashi @odashi_t

深層学習 → プレイヤースキャンセルディープ・ラーニングじゃないらしい

2016-01-17 02:06:49

Odashi @odashi_t

カタカナルビだけにコーパスを整理したらもう少し良いものができる気がする。

2016-01-17 02:13:35

Odashi @odashi_t

静岡 → サイレント・ヒル

2016-01-17 02:34:02

Odashi @odashi_t

これは有名なネタです。僕のモデルではこう: 静岡 → シオンオンオイ

2016-01-17 02:35:43

Odashi @odashi_t

腹筋

2016-01-17 02:36:10

Odashi @odashi_t

Attentionモデルで学習始めたけど、さっきの3倍は時間かかるので家に帰る

2016-01-17 02:48:28

bee @beec1e

ニューラルネットワーク、おもしろコンテンツ自動生成にばかり使われているのアレだ

2016-01-17 12:36:38

Odashi @odashi_t

こんな余興だけではなく、一応ニューラルネットで論文になりそうなネタはいくつか持っている

2016-01-17 13:13:32

Odashi @odashi_t

さっさと出せって話な

2016-01-17 13:14:00

いま話題のタグ