UTAUの現状について
HAKUMEIを延々と聞き続ける.調音は大変なんだなぁ,音源を変えるとリズムが若干狂うのは音源にあわせているだろうか.
2011-01-03 15:33:54HAKUMEIという曲の.ustが公開されていたので,合成エンジンをEFB-GWに変えて書き出してみました.ミキシングもしていないので,品質はイマイチですね. http://twaud.io/qXXX
2011-01-03 15:41:35合成歌唱の品質調査が目的なので,歌唱のボリュームが大きめです.そのせいで細かい品質劣化を色々観測できます.
2011-01-03 15:46:14ここ数日UTAU関連のことを真面目に勉強した甲斐があって,色々と分かってきた.UTAUの長所と短所.機能として補強したほうが良いところなど.
2011-01-03 15:50:22UTAUで人間らしさが損なわれる理由は主に3つ.1つめは,modulation値を小さく設定した場合.modulation=0は露骨にロボットっぽくなる.ただし,元々の音源の揺らぎが大きい場合modulationを小さくしないと音高がずれるので適正値は音源依存にならざるを得ない.
2011-01-03 15:59:332つ目は,offsetとend_blankの値.聴覚は,歌い始めに敏感なため,有声音にかかるくらいまでoffsetを置くと歌いだしが崩れる.歌い終わりも然りで,自然に歌い終わるには,end_blankを適正に設定して,元歌唱の歌い終わりを反映させる必要がある.
2011-01-03 16:02:56最後は前後の音の繋ぎ.2つ目の問題点と逆になるが,A→Bと繋ぐ場合,Aの歌い終わりからBの歌い始めを滑らかに遷移させる必要がある.日本語は子音・母音の繰り返しなのでそこまで違和感が無いが,が→あ(調音)のように母音に繋ぐ場合の遷移はしっかり調整しないと品質が落ちる.
2011-01-03 16:05:51連続音の場合は,もう少し問題がややこしくなるが,2つの音声を入力して滑らかに接続するプラグインのようなものがあれば品質の大きな改善が見込めると思われる.振幅のエンベロープはresamplerとは別なので今回は調査していない.
2011-01-03 16:07:56と,御託を色々書きましたけど,これはUTAUの問題というより,歌唱合成の枠組みの問題です.最後は音源の問題で,各音素の音色・高さがばらばらだと合成結果にもかなり影響します.特に高さは制御量が増えるほど品質が劣化するので,できるだけ同じ高さにそろえたほうが良い.
2011-01-03 16:10:44コーパス作って単位選択すればいいんじゃない,と思ってしまう.それが難しいから今の枠組みなんだろうけど QT @m_morise 各音素の音色・高さがばらばらだと合成結果にもかなり影響します.特に高さは制御量が増えるほど品質が劣化するので,できるだけ同じ高さにそろえたほうが良い
2011-01-03 16:15:02で,どうすれば良いか,というところですが,現在のUTAUの枠組みではどうしようもないところがいくつかあります.現状のインタフェースを活かす形での改良という意味では,resamplerで1文字を処理する枠組みから,音の連結を意識して,2文字をまとめて処理する改良が欲しいです
2011-01-03 16:15:19@heigazen コーパスの規模が悩ましいところですね.音源によっては各文字について高さが1種類だったり3種類だったりとばらばらです.そこに制約を設けず,ユーザも無意識に使えるところがUTAUの素晴らしい仕様だと思います.
2011-01-03 16:17:37end-blankについて。これは、音源側は語尾音源(リリース用音素)で対応。それ以上はユーザー依存。offsetについて。これは原音設定依存。滑らかな遷移については、おそらく(?)m4エンジン(モーフィングの実装?)を飴屋さんが開発中。音源側は簡単なレベルでは音量加工。
2011-01-03 16:20:05@maruLoop end_blankって,次の歌詞に依存して変更できます?無音だけではなく,次が母音の場合,子音の場合とで,値を変えるほうが多分品質を向上できると思います.当然原音設定の手間は倍ですけど...
2011-01-03 16:23:51@m_morise 出来ないですね。プラグインで対応するしかないです。現状、それができるプラグインは自分が作ったプラグインだけかな。。。しかし機能入れすぎて使いにくいのが問題です。。。
2011-01-03 16:27:35@maruLoop ちなみに,連続音は単独音ではありえない別のややこしい問題が生じてしまうということが...遷移が綺麗になる分,伸ばす音が単独音には劣りそうです.
2011-01-03 16:31:59@maruLoop いえ,実は,modulationと関連して,連続音は音源によってはmodulationをかなり小さくしないと品質が落ちるということが分かったのです.そしてmodulationが小さい場合はロボット声になりやすいというジレンマ.
2011-01-03 16:38:39連続音とmodulationについてのメモ.例えば「あい」と録音した場合,「あ」と「い」の録音状況の高さが違う場合,譜面上の高さに合わせるための変化量が変化する(続く).
2011-01-03 16:40:33modulationは,入力の変動を活かすパーセンテージなので,上記の音源の場合,modulationに依存してピッチの制御量が変化する.そして,大局的な変動と残すべき微細変動との分離がまた面倒なことになる.
2011-01-03 16:41:57