WORLDとSTRAIGHTの違い

森勢先生(@m_morise)が語る タグにVOCALOIDを入るのは私見でした。
10
M. Morise (忍者系研究者) @m_morise

この主観と客観のズレについて,今のところ原因がはっきりしません.W4にTAN最新版の機構を組み込むことでTANと同様の性能にすることは恐らく可能です.計算速度は一気に遅くなりますが.

2012-03-25 15:16:38
M. Morise (忍者系研究者) @m_morise

ここからは蛇足ですが,WORLDの基本周波数推定法DIOは,収録音声のSN比が高いことを想定しています.特に低域雑音に弱いので,普通の室内でエアコン付きの収録だとかなり音が悪くなりやすいです

2012-03-25 15:22:00
M. Morise (忍者系研究者) @m_morise

その点LEGで使うNDFやTANで使うXSXはDIOより雑音に強いですので,合成結果の品質が良くなりやすい傾向があります.

2012-03-25 15:24:53
M. Morise (忍者系研究者) @m_morise

速度を犠牲にしても良いのであれば,F0推定をもう少し背景雑音に頑健なものにするのが手っ取り早いといえます.この辺の対策は現在検討中です.

2012-03-25 15:26:50
M. Morise (忍者系研究者) @m_morise

それと,今まで特に需要が無いと思っていましたが,WORLD 0.0.4はMatlab版もあります.欲しい人がいたら連絡頂ければ配布します.ただしSignal Processing Toolbox必須です.

2012-03-25 15:31:56
M. Morise (忍者系研究者) @m_morise

あ,@ejiwarp 氏のまとめ見てて抜けに気がついた.過剰平滑化対策はLEGとTANに入っていますが,W4には入っていません.客観的な指標では勝っても品質で負けるのはこれが原因な可能性が強いです.

2012-03-25 15:51:29
M. Morise (忍者系研究者) @m_morise

ここの議論はそもそもスペクトル推定に関するところから始める必要があります.今回説明した全ての方法は,波形に対し,窓関数による切り出し,平滑化,平滑化による副作用の補償(W4はコレが無い)から構成されます.

2012-03-25 15:53:35
M. Morise (忍者系研究者) @m_morise

窓関数による切り出しは切り出した後パワースペクトルを計算する,までと補完してください.なんで,こんな面倒なプロセスがあるかというと,音声波形には高さと音色の両方が混在しており,スペクトル包絡は高さの情報を取り除く必要があるからです.

2012-03-25 15:55:15
M. Morise (忍者系研究者) @m_morise

で,窓関数は短時間で切り出すため+α(面倒なので割愛)の目的,平滑化は高さの情報を取り除くために行われます.ただし平滑化により高さの情報は実質的に0になりますが,元々持っている音色にも多少影響を与えます.

2012-03-25 15:56:57
M. Morise (忍者系研究者) @m_morise

これを過剰平滑化というわけで,この副作用を取り除き,高さの情報が無く音色の情報を100%保持することがスペクトル包絡推定には求められるわけです.

2012-03-25 15:58:17
M. Morise (忍者系研究者) @m_morise

W4で何故その対策をしなかったかというと,窓関数と平滑化から損なわれる影響を計算したところ,TANやLEGの対策後よりも高い性能を達成していたからです.恐らくこの差は人間の知覚はシンプルな誤差では求められないことがあるのだと思います.

2012-03-25 16:01:01
M. Morise (忍者系研究者) @m_morise

もう1つは完全に想像ですが,合成の際に位相情報を操作している(最小位相化)のですが,この位相との相性が考えられます.あくまで合成の際の影響なので,分析の段階で誤差計算をすることが出来なかったためです.また位相の誤差なので計算がややこしく一筋縄ではできません.

2012-03-25 16:02:22
M. Morise (忍者系研究者) @m_morise

その辺を勘案してチューニングするのが今後の検討項目となります.ただし,前にも書いた通り,他の方法の分析がミスった場合,これら細かい差なんて吹き飛ばす品質劣化になるとで,どこまで拘るかは難しいラインといえます.

2012-03-25 16:04:45
M. Morise (忍者系研究者) @m_morise

微妙に誤字や文法的に怪しい表現も多々ありましたが,以上で大体回答し終えたかな.

2012-03-25 16:05:41

自分の気になるところ。

Eji @ejiwarp

@m_morise まとめを見てきになりましたけど、【速度を犠牲にしても良い】雑音対策があるというのは、元々WORLD用のハードプラットフォームはどんな性能を想定したでしょうか?

2012-03-25 16:59:12
M. Morise (忍者系研究者) @m_morise

@ejiwarp えーと,ハードプラットフォームの意図がちょっと見えませんが,DIOはスタジオレコーディング相当の音声を想定しています.雑音レベルであれば普通の室内で十分と感じるかもしれませんが,耳では聞こえにくい低域雑音で顕著な差があります.その影響で品質が低下するようです.

2012-03-25 17:14:31
M. Morise (忍者系研究者) @m_morise

元々はSNRベースで十分だと思ったのですが,実際に性能を求めると特に男性声で目立って品質が下がったため,少しハードルを上げた言い方をしています.女性声は基本周波数が高く,低域雑音の影響は男性声ほど受けないようです.

2012-03-25 17:17:45
M. Morise (忍者系研究者) @m_morise

@ejiwarp そうですね.詳細なデータはありませんが,現在の実装ですとノートPCに積める最新のCPU(i5 2.6 GHz)くらいで動いていたと思います.実装を工夫すればまだまだ下げることが可能です.

2012-03-25 17:27:37
M. Morise (忍者系研究者) @m_morise

なお,F0推定とスペクトル包絡推定と非周期性指標(励起信号)推定をパイプライン処理で走らせることが出来れば,かなりの高速化が期待できます.

2012-03-25 17:29:21
M. Morise (忍者系研究者) @m_morise

以上は分析についてですが,合成のみであれば,W4は一昔前のノートPC(Core2Duoの2.XX GHz程度)でも十分リアルタイムで動きます.

2012-03-25 17:30:34
M. Morise (忍者系研究者) @m_morise

後いくつか高速化を考えているネタがあり,上手く行けばさらに倍は高速化できる見通しです.こっちは面倒なので試すのは相当先です.

2012-03-25 17:32:04
Eji @ejiwarp

@m_morise あ、なるほど。分析自体リアルタイムで走る必要はないですよね。雑音対策も分析部で合成部の速度に影響しない、という理解は正しいでしょうか。

2012-03-25 17:32:38
M. Morise (忍者系研究者) @m_morise

@ejiwarp はい.雑音対策は基本周波数推定に関するもので,合成に与える影響は一切ありません.

2012-03-25 17:33:57