F0推定法「Harvest」

ノート用。 音声分析合成システム「WORLD」最後のピースとして、Harvestは元々統計音声合成向けとして「処理時間が長いで構わないから、対雑音性を高めて欲しい」という要請で着手し始めたモノ。 UTAU的いうと「(文字通り)究極の周波数表生成ツール」の作成の手助けになる可能性が秘めてる。 続きを読む
3
前へ 1 2 ・・ 15 次へ
M. Morise (忍者系研究者) @m_morise

一旦頭を冷やして国際会議の原稿執筆にスイッチしよう.

2016-03-15 14:11:23
M. Morise (忍者系研究者) @m_morise

F0推定法,ホント無理ゲーっぽさが半端ない.

2016-03-15 14:18:30
M. Morise (忍者系研究者) @m_morise

Harvest version 58.耐雑音性と高低の安全性はDio+StoneMask以上,ただ,NDFには届かないのとビブラート耐性が相変わらず弱い.

2016-03-16 00:15:56
M. Morise (忍者系研究者) @m_morise

ただ,恐らくビブラートがそんなにきつくないUTAUの音源解析ならNDF以上の性能が出るっぽい.今のアプローチは限界が見えてきたので一旦棚上げして別のアプローチが必要だな.

2016-03-16 00:25:09
M. Morise (忍者系研究者) @m_morise

Harvest version 64.耐雑音性でここまで頑張ったけど,ここらが限界っぽい.基本的に相関,パワー,瞬時周波数,Dioのアプローチを全部ごちゃまぜにしてそれっぽいのを選択,という荒っぽい方法だけど,NDFには勝てないpic.twitter.com/pRhlB85fgF

2016-03-16 20:52:24
拡大
M. Morise (忍者系研究者) @m_morise

基本的に真値に雑音に起因する誤差が振動成分として入るので,恐らく時間方向で平滑化すれば改善できる.ただ1フレームの処理で求めたいのでもう少し工夫が必要だね.ただ,今のところ全部の方法でベストなものを恣意的に選択してもNDFに届かないので,何か見落としがある気もしている.

2016-03-16 20:54:55
M. Morise (忍者系研究者) @m_morise

今度こそ,WORLDの合成関数の実装にシフトします.連休中にある程度作りたいね.

2016-03-16 21:07:38

M. Morise (忍者系研究者) @m_morise

Dio Requiemは,結局あれから紆余曲折を経て,結局Harvestと同じアプローチに行きついたので,Harvestに改名した.

2016-05-31 17:13:58
M. Morise (忍者系研究者) @m_morise

Harvestは,かつてないほど長ったるく面倒なソースコードになってしまった...

2016-06-01 21:28:09
M. Morise (忍者系研究者) @m_morise

Harvestの最後の難関がようやく突破できそう.これでSNRが5 dBくらいまでは安定してF0が求められるはず

2016-06-02 21:44:45
M. Morise (忍者系研究者) @m_morise

Harvestを完成させた後にTenebrariusWorldを作るけど,7月締切の学会に投稿するのはちょっとキツイか...ちなみにHarvestのC++版は作りますけど,公開は当分先です(実装が複雑すぎて,まとまった時間が無いととてもやる気にならない)

2016-06-02 21:47:13
M. Morise (忍者系研究者) @m_morise

Harvestはプロトタイプが完成しました.SNR 5 dBは無理だったけど,7 dBならほぼ安定します

2016-06-03 11:24:11
M. Morise (忍者系研究者) @m_morise

F0推定が難しいのは,F0は拾うけど,偶発的に生じる別の周期を拾ってはいけないところ.簡単なようで実に難しい.

2016-06-04 15:46:23
M. Morise (忍者系研究者) @m_morise

Harvestのプロトタイプはほぼ問題ないレベルまで来たけど,それでも電源ノイズやファンノイズのような周期性雑音に引っ張られるのが問題になる.これを回避するテストをしているけど,思ったように性能は上がらんね.

2016-06-04 15:48:23
M. Morise (忍者系研究者) @m_morise

さて,Harvest Version 79でどこまで粘れるか・・・

2016-06-04 16:08:29
M. Morise (忍者系研究者) @m_morise

現状で,現STRAIGHTの最強アルゴリズムNDFと比較して勝てるレベルまではきました.残りは何となくパワーアップさせたいだけです.

2016-06-04 16:09:49
M. Morise (忍者系研究者) @m_morise

@konuko73 Harvestは分析側です.UTAUだと周波数表を作る部分ですね.WORLDのDioは低域に雑音がある音声は苦手だったのですが,それを克服し,普通の部屋で収録した音声でもほぼ完璧に周波数表が作れます

2016-06-04 16:21:57
M. Morise (忍者系研究者) @m_morise

音声データベースを用いて評価すると,時折大きな破綻をしているのが分かるので,その1つ1つのエラーを特定して潰していく作業.1回の評価に3時間くらいかかるから,何日かかるか予想がつかんw

2016-06-04 16:42:57
M. Morise (忍者系研究者) @m_morise

今回の修正は結構面倒になるな...99の音声の性能を0.1%改善する代わりに,1つの音声の誤差を10 %増やすような状況になっている.

2016-06-04 16:46:29
M. Morise (忍者系研究者) @m_morise

うーん.1つの特徴量を最適化すると別のところでコケる,か.確かにF0推定法のチューニングをモグラたたきと呼んだ師匠の気持ちが分かるw

2016-06-05 15:14:33
M. Morise (忍者系研究者) @m_morise

耐雑音性:YIN VUV判定の広さ(有声を無声と誤推定しない):SWIPE 推定された軌跡の正確さ:DIO だけど,全体のバランスを考えるとNDFが一番良い.

2016-06-05 15:16:10
M. Morise (忍者系研究者) @m_morise

Harvestは耐雑音性と軌跡の正確さにパラメータ振った結果,VUV判定が甘くなってしまった.それでも1%以下での戦いだけど.

2016-06-05 15:17:20
M. Morise (忍者系研究者) @m_morise

Harvestの作り直し中.大体原因はつかめてきた.

2016-06-05 17:05:22
M. Morise (忍者系研究者) @m_morise

Harvestの修正がいよいよ限界にきたっぽいw誤差の大きい1つの音声の対策を入れると他の誤差が増えてトータルの結果が悪くなる

2016-06-06 17:52:43
前へ 1 2 ・・ 15 次へ