F0推定法「Harvest」

ノート用。 音声分析合成システム「WORLD」最後のピースとして、Harvestは元々統計音声合成向けとして「処理時間が長いで構わないから、対雑音性を高めて欲しい」という要請で着手し始めたモノ。 UTAU的いうと「(文字通り)究極の周波数表生成ツール」の作成の手助けになる可能性が秘めてる。 続きを読む
3
M. Morise (忍者系研究者) @m_morise

あー,WORLDのDIO+StoneMaskを将来的にプロジェクトから外そうと思っていましたけど,訂正します.次のバージョンで,単独のDIOだけではなく,StoneMaskと統合した新しいDIO(名前はまだない)を作ります.StoneMaskは耐雑音性に優れていた.

2015-11-28 17:14:55
M. Morise (忍者系研究者) @m_morise

名前を決めるためにJOJO読まなきゃ(使命感

2015-11-28 17:15:52
M. Morise (忍者系研究者) @m_morise

新DIO推定法,内容的にはCinderella(シンデレラ)が一番近いかな.ただ,ちょっと長い.

2015-11-28 17:23:36
M. Morise (忍者系研究者) @m_morise

そういえば,pDIOってアイディアもあった気がするけど,ソースコード落ちてないかな.

2015-11-28 17:48:42
M. Morise (忍者系研究者) @m_morise

今日はのんびり研究やろうと思ったけど,DIOの改良案を思いついてしまったのでガチ研究デーにします.

2015-11-29 13:15:12
M. Morise (忍者系研究者) @m_morise

そして,またも「敵は過去の自分」という厨二設定の研究が始まるのである.

2015-11-29 14:55:12
M. Morise (忍者系研究者) @m_morise

Harvest,DIO+StoneMaskに完全敗北.こりゃダメだ.

2015-11-29 16:06:38
M. Morise (忍者系研究者) @m_morise

ギッパブにpushしたStoneMask,精度は0.1%未満の誤差の範疇で落ちるけど速度は3, 4割早いです.

2015-11-29 18:42:59
M. Morise (忍者系研究者) @m_morise

新ネタのHarvestは諸々調整しましたけど,今回は諦めました.色々理論について誤解していたのが原因で,思ったより改善が無かった.残念無念.

2015-11-29 18:44:10

M. Morise (忍者系研究者) @m_morise

うーん.新型F0推定法Harvestを作っているのだけどなかなか期待通りに動いてくれない.すでにプロトタイプのバージョンが23まで来たけど,調整パラメータが多すぎて最適化もしんどくなってきた.

2016-03-13 17:16:53
M. Morise (忍者系研究者) @m_morise

Harvest version 26まで作ったけど全滅だな...SNR 10 dBくらいまでは比較的簡単に実現できそうだけど0 dBを目指すときつい.アイディア自体は悪くないと思ったんだけど,あんまり筋が良くない気がしてきた.

2016-03-13 22:55:23
M. Morise (忍者系研究者) @m_morise

ダメだ,Harvestは一旦開発停止.WORLDの合成部の新しい実装を先にやったほうが早そうだ.Dio+StoneMaskでもそれなりに静かな環境で録音すればOKだし,優先順位を一旦下げよう.

2016-03-13 23:10:32
M. Morise (忍者系研究者) @m_morise

脳みそ切り替えて,WORLDの合成部をフレーム単位で合成できるバージョンを作ります.具体的に,音声パラメータ一式を登録すれば,合成関数を1回呼ぶたびにNフレーム分の波形が吐き出される関数を作ります.音声パラメータは途中で追加することも認めるかどうかは検討中.

2016-03-13 23:19:16
M. Morise (忍者系研究者) @m_morise

目標は3月中にプロトタイプをリリース.本年度の出張は全部クリアしたし,後は歓送会が数回ある程度だから何とか時間を捻出できそう.

2016-03-13 23:21:24
M. Morise (忍者系研究者) @m_morise

寝ようと思って床に就いた瞬間,Harvestの新しいやり方を閃いたので実装してみたところ,目標とするSNR 0 dBでもかなり高精度に推定できる形が見えてきた.またトリッキーなアイディアを使うことになりそう.

2016-03-14 01:12:33
M. Morise (忍者系研究者) @m_morise

大雑把な動作チェックの結果,とりあえずSNR 0 dBのエラーレートは0.01%以下に抑えられそう.これからTUSKで検証して最後に音声DBを使った評価だな.

2016-03-14 01:21:48

TUSK:

各F0推定法の強み・弱みを計測して推定法選択の手助けをするフレームワーク
A framework for overviewing the performance of F0 estimators

M. Morise (忍者系研究者) @m_morise

Harvest version 31,無事に死亡.性能が上がらねぇ・・・

2016-03-14 18:22:40
M. Morise (忍者系研究者) @m_morise

Harvest,何がダメなのか全くわからん...理論的にはStoneMaskと同じくらいな性能が出るはずなのに...

2016-03-14 18:49:18
M. Morise (忍者系研究者) @m_morise

Harvest version 35のアイディアが出てきたけど,ちょっとこれは実装に時間がかかるなぁ.そして,この方法だと「Harvest」より「無双三段」のほうが多分マッチする.

2016-03-14 23:17:27
M. Morise (忍者系研究者) @m_morise

査読も出したしHarvestのversion 35でも作るかな.

2016-03-14 23:50:44
M. Morise (忍者系研究者) @m_morise

Harvest version 37,何とか動きそうな気配がしてきたけど,性能はもう一声欲しい.

2016-03-15 01:03:57
M. Morise (忍者系研究者) @m_morise

Harvest version 48で耐雑音性と正確さは両立できたけど,今度はビブラート耐性に問題が出てきた.NDFマジでバランス良すぎて勝てる気がせぬ・・・

2016-03-15 14:09:50
1 ・・ 15 次へ