14
サンセット @Sunset_Yuhi
マルコフ連鎖による文章生成 omedstu.jimdo.com/2018/05/06/%E3… 前からやりたかった、マルコフ連鎖による文章生成をやってみた。いい感じの無脳感。 pic.twitter.com/yJ91UIlIr6
 拡大
サンセット @Sunset_Yuhi
2-gramしかできなかったのをN-gramでも対応できるように改造。ついでに、文章をループさせる形で辞書を作り、キーが無いせいでエラーが起きるのを防いだ。マルコフ連鎖のプログラムとしてはもうやること無さそうだけど、4-gramとかにしても無脳なのは同じ。お前、元の文章をほとんどコピーしてるだろ! pic.twitter.com/RwbXdqeZQ3
 拡大
サンセット @Sunset_Yuhi
Pythonの辞書型とかほとんど使ったこと無かったけど、keyにタプルで複数語を登録できたり、valueにもリストで複数語を登録できると知った。全体としては短いけど、リスト、タプル、辞書を駆使した良いプログラムかもしれない。
サンセット @Sunset_Yuhi
「小説家になろう」の小説を自動生成するマンになろう - nus_miz’s diary nus-miz.hatenablog.com/entry/2018/12/… ここでもLSTMが出てくるのかー。そろそろディープラーニングをやってみようかなあ。
サンセット @Sunset_Yuhi
コンピュータが小説を書く日 kotoba.nuee.nagoya-u.ac.jp/sc/gw2015/ これはjsonファイルみたいなのを渡してプロットを決める感じなのか。これだけだとシステムを実行しても、パターン化した物語しか作ってないように見える。良し悪しの基準が曖昧なものにどう取り組むか。
サンセット @Sunset_Yuhi
冷静に考えて、LSTM使えば文章は自然になるかもしれんけど、文脈やオチを考えて物語を作れる訳じゃない。 Twitterでたまに見る140字小説とか、54字の物語みたいなのから作れるといいけど、まず物語には何が必要なのか、よく考えないといけない。
サンセット @Sunset_Yuhi
深層学習による俳句の自動生成 library.naist.jp/mylimedio/dlli… 俳句の自動生成はやってる人がチラホラいる。季語を入れるのに苦労してる人が多い気がする。
サンセット @Sunset_Yuhi
中原中也の『サーカス』の冒頭で、「幾時代かがありまして 茶色い戦争ありました」って一文がある。 「戦争」という単語を入力したら、「茶色」とか「灰色」くらいを出力できるプログラムなら作れるかもと思った。 「(入力語)はまるで(出力語)のようだ」という比喩を自動生成するプログラム。
サンセット @Sunset_Yuhi
分類語彙表-増補改訂版データベース pj.ninjal.ac.jp/corpus_center/… コーパス開発センターという所が、シソーラス(類義語集)をCC表示-非営利-継承3.0で公開してた。 もっと細かい類語辞典みたいなのがあったら、もう少し色々できそう。
サンセット @Sunset_Yuhi
J-STAGE Articles - コーパスとシソーラスを用いた比喩生成 doi.org/10.11517/pjsai… 被修飾語(少女など)と特徴語(美しいなど)の入力から、修飾語(蝶など)を出力して、「少女は蝶のように美しい」という文を作れたってことかな? 東ロボくんに使ってたコサイン類似度がここでも出てくるとは。
サンセット @Sunset_Yuhi
テンプレ的な小話なら作れるかな? 起:<被修飾語(名詞)>は<被修飾語の説明>だ。 承:<被修飾語>は<特徴語1(形容詞、形容動詞、動詞)>な所がある。 転:でも、<特徴語2>な所もあるらしい。 結:まるで<修飾語(名詞)>みたいですね。 入力には、<被修飾語>と<特徴語1>を与える。
サンセット @Sunset_Yuhi
起承転結を使ってる時点でイマイチな感じあるなー。あれ漢詩由来らしいので、物語を考える時に使えるとは限らない。序破急も雅楽由来らしいけど、そっちの方がまだ使えそう。 あとは「壁」や「葛藤」と言われる構造を作れたら、最終目標にも近そうだけど。
サンセット @Sunset_Yuhi
辞書ベースで文章を作る場合、「どういう文章を入力として与えるか」「辞書のキーと値に何を登録するか」「辞書をどう参照して文を作るか」って所が大事な気がする。 マルコフ連鎖の場合、基になる文章は「吾輩は猫である」とかで、そこからN-gramの辞書を作り、ランダムに語句を繋げる訳だけど。
サンセット @Sunset_Yuhi
「猫」という単語を与えた時、文法的に正しく、意味の通る文章を作るのは割と難しい。「猫はかわいい」は通るけど、「猫をかわいい」は非文になる。「猫は滑らかだ」だと意味が通じない。 正文を作るだけなら、テンプレに単語を入れるのが手っ取り早いように思える。助詞や副詞を固定してしまう方法。
サンセット @Sunset_Yuhi
ただ、「猫は滑らかだ」という文は比喩を使った文とも解釈できる。「猫は色んな隙間に入りこむ習性がある。まるで滑らかな液体だ。」のように繋げることはできると思う。 なので「猫」という単語に対して、「滑らか」や「液体」という単語を(理由も含めて!)持ってこれると、使い道が色々ありそう
サンセット @Sunset_Yuhi
何となくだけど、甲南大学の漫才ロボットのアルゴリズムが使える気がする。「猫」でWeb検索して「かわいい」とかの形容詞や、共起する名詞を拾ってきて、何か比喩表現のある文章を作るとか。 漫才ロボット nadasemi.ii.konan-u.ac.jp/robot_manzai/
サンセット @Sunset_Yuhi
色・形状情報を用いた比喩生成 anlp.jp/proceedings/an… コサイン類似度から修飾語を探す例を見つけたけど、概念辞書を一部手作業で作ったらしくてヤバい、と思ったら日本語WordNetなるものがあった。 日本語WordNetを使って、類義語を検索できるツールをpythonで作ってみた qiita.com/pocket_kyoto/i…
サンセット @Sunset_Yuhi
tf-idfについて勉強したのでざっくりまとめ_pythonでやってみた|クラスメソッドブログ dev.classmethod.jp/machine-learni… コサイン類似度を出す前処理として使うらしいけど、似た単語を探す時にはこれで良さそう
サンセット @Sunset_Yuhi
恥ずかしながら、過去には小説を書いたり、パターンに当てはめて物語を作ろうとしたことあるけど、当時は形態素解析してランダムに並べるくらいしかできなかったなあ。 普通の国語辞典や類語辞典から文章を作るとなると、地の文は生成できても台詞は難しい気がする。まあ台詞は必須じゃないか。
サンセット @Sunset_Yuhi
さだまさし川柳の自動生成 qiita.com/haminiku/items… #Qiita 形態素解析すれば、品詞や読みの情報もゲットできるけど、文法的に正しくない文章も割と生成されてる模様。連用形の動詞の後ろに終助詞が無いとか。
サンセット @Sunset_Yuhi
日本語WordNetを使って、上位語を検索できるツールをpythonで作ってみた qiita.com/pocket_kyoto/i… 日本語WordNet、検索してもヒットしない語句はそれなりにあったけど、意味と類義語を取得できたのですごい。ただ、「ネコ」と「SF」の上位語がどちらもentity(存在)ってのはガバガバすぎるようなw pic.twitter.com/tQwzFDvC55
 拡大
サンセット @Sunset_Yuhi
Pythonで日本語WordNetと英語WordNetを利用して、単語間の類似度を測る - Tech Blog tkdmah.hatenablog.com/entry/2013/01/… どういう辞書を使うかにもよるだろうけど、上位語を利用して類似度を計算するのは上手くいかないっぽい
サンセット @Sunset_Yuhi
word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり - 世界一やさしいデータ分析教室 randpy.tokyo/entry/word2vec… 15分でできる日本語Word2Vec qiita.com/makaishi2/item… gensimってライブラリを使えば、文章からWord2Vecのモデルを作って、関連語句を調べたりできるらしい。
サンセット @Sunset_Yuhi
どうしたら「彼女」から「奥さん」になれるかを『Word2Vec』に聞いてみた ainow.ai/2017/10/31/124… @pascarrr cos類似度で「奥さん」から「彼女」を引いたら何が出るかという計算。おもろいやんけ……。
サンセット @Sunset_Yuhi
みんなのPython Webアプリ編 - Pythonとデータベースの連携 | TRIVIAL TECHNOLOGIES 4 @ats のイクメン日記 coreblog.org/ats/stuff/minp… Pythonは標準モジュールでSQLiteが使えて素晴らしい。でもSQLの構造がよく分からない。カーソルオブジェクトって何?
残りを読む(50)

コメント

さどはらめぐる @M__Sadohara 2019年3月19日
プロットを埋めるだけで小説を自動生成してくれるプログラムってもうあるよね?そのプログラムを用いて書かれた小説も既に市販されてるけど……
ログインして広告を非表示にする
ログインして広告を非表示にする