WORLDとSTRAIGHTの違い
俺も中身はイメージでしか掴んでない.PLATINUMしか分からね.WORLDは多分必要に迫られればなんとかなりそうだけど,STRAIGHTは多分ムリ.心折れる.
2012-03-25 03:18:39以降、@m_morise先生による説明。
上記ツイートに対する返答も含める。
TLでWORLDとSTRAIGHTの差について議論があったので,帰宅後ここで簡単に説明させて頂きます.出来れば正確な知識を共有してほしいのです.
2012-03-25 13:39:20まず,各方法の種類について,一般に配布しているもののみですが,STRAIGHT LibraryではLegacy-STRAIGHT, TANDEM-STRAIGHT (以下の議論ではLEG,TANとします)の2種類あります.
2012-03-25 14:24:40WORLDは配布しているもので3種類あり,それぞれW1, W3, W4とします(W2は公開中止のため議論から省略).
2012-03-25 14:25:21まず各方法が作られた順序ですが,LEGが2006年,TANが2008年(提案は2007年),W1, 3, 4は2010年, 2011年です.ただし新しい=品質が良いというわけではありません.
2012-03-25 14:34:57次に全ての方法に共通するコアなところ.全ての方法は,音声から3つの要素を取り出します.共通する2つは「基本周波数」と「スペクトル包絡」です.前者は高さ,後者は音色(音韻性,個人性等)に対応します.言い換えれば基本周波数制御により音階の制御ができるようになります.
2012-03-25 14:37:103つ目は,W4以外は共通で「非周期性指標」,W4では「励起信号」です.表現方法は違いますが両方とも声の擦れの程度に相当します.この違いの議論は長くなるのでここでは割愛します.
2012-03-25 14:39:17合成音の音質はこれら3つの推定精度が複雑に関連するので,単純な議論は難しいです.ただし,基本周波数の推定ミスは他に比べて品質に与える影響が大きいです.
2012-03-25 14:40:59次に全体の品質について.それぞれの方法で得意,苦手な音声がありますが,SN比が高い音声で男女万遍なく評価した場合,品質は高い順にW4>LEG>W3=TAN>W1になります.
2012-03-25 14:44:05ただし,歌声合成では高さ(基本周波数)と音色(スペクトル包絡)の制御を行いますので,それらの制御量に対する頑健性も見る必要があります.
2012-03-25 14:45:26ただし,この頑健性は非周期性指標の扱いかたとかなり相関がありますので,W4とその他で考えることができます.基本周波数制御の量が少ない場合の頑健性はW4>その他ですが,量が増えるとその他>W4と順位が入れ替わります.
2012-03-25 14:48:04この傾向は音色制御に対しても同様です.よって,歌声合成で複数の音高を持つ音源の場合W4が有利,1音高かつ楽曲が用いる音階の幅が広い場合W4が不利といえます.
2012-03-25 14:51:19次に計算速度について.これは時間のかかる順番にLEG>TAN>W3>W1>W4と,WORLDのほうが早いです.これはコンセプトの差といえます.コンセプトについては次で述べます.
2012-03-25 14:52:50LEGとTANは音声の精密な制御ができることを中心に考えています.WORLDでは困難な例として「子音の詳細な制御やモーフィング」が挙げられます.WORLDでもある程度は可能ですが,ここの頑健性はLEG, TANに及びません.
2012-03-25 14:54:19WORLDは歌声合成のように音高の変化が中心で子音の詳細な制御を妥協し,制御幅が小さい場合に高い音質で合成でき,かつ実時間での動作が可能であることをコンセプトにしています.
2012-03-25 14:56:25あと,各方法の混在させ方について.アルゴリズム的には全ての方法を混ぜて使うことが出来ます.例えば基本周波数はLEG,スペクトル包絡はW4,非周期性指標をTANということも可能です.
2012-03-25 15:07:56ただし,実装の問題があって現在のSTRAIGHT LibraryとWORLDを混在させることは出来ません.
2012-03-25 15:09:40実際に試した範囲では,基本周波数と非周期性指標をTAN,スペクトル包絡をLEG, TAN, W4として比較した例があり,その場合の品質はLEG>TAN>=W4でした.
2012-03-25 15:10:57これはまだ公開していませんが,TANの最新版(STRAIGHT Libraryよりバージョンが30くらい上)を使うとTAN>LEGとなります.WORLDが最も低いのは変わっていません.
2012-03-25 15:12:28では,人工的に生成した信号を使い客観的な精度を比較するとどうなるかというと,性能の良い順にW4>TAN>LEGとなります.
2012-03-25 15:13:34