WORLDとSTRAIGHTの違い

森勢先生(@m_morise)が語る タグにVOCALOIDを入るのは私見でした。
10
Eji @ejiwarp

@maruLoop 両方中の人が一緒というのはすごいですねそう見ると>TANDEMとWORLD

2012-03-25 03:15:31
しゅらぴばー @shurabaP

俺も中身はイメージでしか掴んでない.PLATINUMしか分からね.WORLDは多分必要に迫られればなんとかなりそうだけど,STRAIGHTは多分ムリ.心折れる.

2012-03-25 03:18:39
しゅらぴばー @shurabaP

窓関数の特性とかとも仲良くなれるようになったら,WORLDとかSTRAIGHT周りも分かるみたいですよ.

2012-03-25 03:19:21

以降、@m_morise先生による説明。
上記ツイートに対する返答も含める。

M. Morise (忍者系研究者) @m_morise

TLでWORLDとSTRAIGHTの差について議論があったので,帰宅後ここで簡単に説明させて頂きます.出来れば正確な知識を共有してほしいのです.

2012-03-25 13:39:20
M. Morise (忍者系研究者) @m_morise

さて,帰宅中.WORLDとSTRAIGHTについて情報を整理します.多分結構な連投になります.

2012-03-25 14:22:46
M. Morise (忍者系研究者) @m_morise

まず,各方法の種類について,一般に配布しているもののみですが,STRAIGHT LibraryではLegacy-STRAIGHT, TANDEM-STRAIGHT (以下の議論ではLEG,TANとします)の2種類あります.

2012-03-25 14:24:40
M. Morise (忍者系研究者) @m_morise

WORLDは配布しているもので3種類あり,それぞれW1, W3, W4とします(W2は公開中止のため議論から省略).

2012-03-25 14:25:21
M. Morise (忍者系研究者) @m_morise

まず各方法が作られた順序ですが,LEGが2006年,TANが2008年(提案は2007年),W1, 3, 4は2010年, 2011年です.ただし新しい=品質が良いというわけではありません

2012-03-25 14:34:57
M. Morise (忍者系研究者) @m_morise

次に全ての方法に共通するコアなところ.全ての方法は,音声から3つの要素を取り出します.共通する2つは「基本周波数」と「スペクトル包絡」です.前者は高さ,後者は音色(音韻性,個人性等)に対応します.言い換えれば基本周波数制御により音階の制御ができるようになります.

2012-03-25 14:37:10
M. Morise (忍者系研究者) @m_morise

3つ目は,W4以外は共通で「非周期性指標」,W4では「励起信号」です.表現方法は違いますが両方とも声の擦れの程度に相当します.この違いの議論は長くなるのでここでは割愛します.

2012-03-25 14:39:17
M. Morise (忍者系研究者) @m_morise

合成音の音質はこれら3つの推定精度が複雑に関連するので,単純な議論は難しいです.ただし,基本周波数の推定ミスは他に比べて品質に与える影響が大きいです

2012-03-25 14:40:59
M. Morise (忍者系研究者) @m_morise

次に全体の品質について.それぞれの方法で得意,苦手な音声がありますが,SN比が高い音声で男女万遍なく評価した場合,品質は高い順にW4>LEG>W3=TAN>W1になります

2012-03-25 14:44:05
M. Morise (忍者系研究者) @m_morise

ただし,歌声合成では高さ(基本周波数)と音色(スペクトル包絡)の制御を行いますので,それらの制御量に対する頑健性も見る必要があります.

2012-03-25 14:45:26
M. Morise (忍者系研究者) @m_morise

ただし,この頑健性は非周期性指標の扱いかたとかなり相関がありますので,W4とその他で考えることができます.基本周波数制御の量が少ない場合の頑健性はW4>その他ですが,量が増えるとその他>W4と順位が入れ替わります

2012-03-25 14:48:04
M. Morise (忍者系研究者) @m_morise

この傾向は音色制御に対しても同様です.よって,歌声合成で複数の音高を持つ音源の場合W4が有利,1音高かつ楽曲が用いる音階の幅が広い場合W4が不利といえます.

2012-03-25 14:51:19
M. Morise (忍者系研究者) @m_morise

次に計算速度について.これは時間のかかる順番にLEG>TAN>W3>W1>W4と,WORLDのほうが早いです.これはコンセプトの差といえます.コンセプトについては次で述べます.

2012-03-25 14:52:50
M. Morise (忍者系研究者) @m_morise

LEGとTANは音声の精密な制御ができることを中心に考えています.WORLDでは困難な例として「子音の詳細な制御やモーフィング」が挙げられます.WORLDでもある程度は可能ですが,ここの頑健性はLEG, TANに及びません.

2012-03-25 14:54:19
M. Morise (忍者系研究者) @m_morise

WORLDは歌声合成のように音高の変化が中心で子音の詳細な制御を妥協し,制御幅が小さい場合に高い音質で合成でき,かつ実時間での動作が可能であることをコンセプトにしています.

2012-03-25 14:56:25
M. Morise (忍者系研究者) @m_morise

あと,各方法の混在させ方について.アルゴリズム的には全ての方法を混ぜて使うことが出来ます.例えば基本周波数はLEG,スペクトル包絡はW4,非周期性指標をTANということも可能です.

2012-03-25 15:07:56
M. Morise (忍者系研究者) @m_morise

ただし,実装の問題があって現在のSTRAIGHT LibraryとWORLDを混在させることは出来ません.

2012-03-25 15:09:40
M. Morise (忍者系研究者) @m_morise

実際に試した範囲では,基本周波数と非周期性指標をTAN,スペクトル包絡をLEG, TAN, W4として比較した例があり,その場合の品質はLEG>TAN>=W4でした.

2012-03-25 15:10:57
M. Morise (忍者系研究者) @m_morise

これはまだ公開していませんが,TANの最新版(STRAIGHT Libraryよりバージョンが30くらい上)を使うとTAN>LEGとなります.WORLDが最も低いのは変わっていません.

2012-03-25 15:12:28
M. Morise (忍者系研究者) @m_morise

では,人工的に生成した信号を使い客観的な精度を比較するとどうなるかというと,性能の良い順にW4>TAN>LEGとなります

2012-03-25 15:13:34