UTAUの現状について

森勢将雅助教(@m_morise)がUTAUについて研究した結果わかった内容まとめ 閲覧数増えたので補足:最初のほうのpostは、森瀬助教がUTAUのエンジンを自作した結果についてです
15
M. Morise (忍者系研究者) @m_morise
タイミングの扱いがresamplerと違うのか,微妙なリズム音痴になっている.
M. Morise (忍者系研究者) @m_morise
HAKUMEIを延々と聞き続ける.調音は大変なんだなぁ,音源を変えるとリズムが若干狂うのは音源にあわせているだろうか.
M. Morise (忍者系研究者) @m_morise
HAKUMEIという曲の.ustが公開されていたので,合成エンジンをEFB-GWに変えて書き出してみました.ミキシングもしていないので,品質はイマイチですね. http://twaud.io/qXXX
M. Morise (忍者系研究者) @m_morise
合成歌唱の品質調査が目的なので,歌唱のボリュームが大きめです.そのせいで細かい品質劣化を色々観測できます.
M. Morise (忍者系研究者) @m_morise
ここ数日UTAU関連のことを真面目に勉強した甲斐があって,色々と分かってきた.UTAUの長所と短所.機能として補強したほうが良いところなど.
M. Morise (忍者系研究者) @m_morise
とはいえ,これ以上深入りするのも危険なので,この辺で終わりにしよう.
M. Morise (忍者系研究者) @m_morise
忘れないうちにメモだけ残しておこう.
M. Morise (忍者系研究者) @m_morise
UTAUで人間らしさが損なわれる理由は主に3つ.1つめは,modulation値を小さく設定した場合.modulation=0は露骨にロボットっぽくなる.ただし,元々の音源の揺らぎが大きい場合modulationを小さくしないと音高がずれるので適正値は音源依存にならざるを得ない.
M. Morise (忍者系研究者) @m_morise
2つ目は,offsetとend_blankの値.聴覚は,歌い始めに敏感なため,有声音にかかるくらいまでoffsetを置くと歌いだしが崩れる.歌い終わりも然りで,自然に歌い終わるには,end_blankを適正に設定して,元歌唱の歌い終わりを反映させる必要がある.
M. Morise (忍者系研究者) @m_morise
最後は前後の音の繋ぎ.2つ目の問題点と逆になるが,A→Bと繋ぐ場合,Aの歌い終わりからBの歌い始めを滑らかに遷移させる必要がある.日本語は子音・母音の繰り返しなのでそこまで違和感が無いが,が→あ(調音)のように母音に繋ぐ場合の遷移はしっかり調整しないと品質が落ちる.
M. Morise (忍者系研究者) @m_morise
連続音の場合は,もう少し問題がややこしくなるが,2つの音声を入力して滑らかに接続するプラグインのようなものがあれば品質の大きな改善が見込めると思われる.振幅のエンベロープはresamplerとは別なので今回は調査していない.
M. Morise (忍者系研究者) @m_morise
と,御託を色々書きましたけど,これはUTAUの問題というより,歌唱合成の枠組みの問題です.最後は音源の問題で,各音素の音色・高さがばらばらだと合成結果にもかなり影響します.特に高さは制御量が増えるほど品質が劣化するので,できるだけ同じ高さにそろえたほうが良い.
@heigazen
コーパス作って単位選択すればいいんじゃない,と思ってしまう.それが難しいから今の枠組みなんだろうけど QT @m_morise 各音素の音色・高さがばらばらだと合成結果にもかなり影響します.特に高さは制御量が増えるほど品質が劣化するので,できるだけ同じ高さにそろえたほうが良い
M. Morise (忍者系研究者) @m_morise
で,どうすれば良いか,というところですが,現在のUTAUの枠組みではどうしようもないところがいくつかあります.現状のインタフェースを活かす形での改良という意味では,resamplerで1文字を処理する枠組みから,音の連結を意識して,2文字をまとめて処理する改良が欲しいです
M. Morise (忍者系研究者) @m_morise
@heigazen コーパスの規模が悩ましいところですね.音源によっては各文字について高さが1種類だったり3種類だったりとばらばらです.そこに制約を設けず,ユーザも無意識に使えるところがUTAUの素晴らしい仕様だと思います.
maru @maruloop
end-blankについて。これは、音源側は語尾音源(リリース用音素)で対応。それ以上はユーザー依存。offsetについて。これは原音設定依存。滑らかな遷移については、おそらく(?)m4エンジン(モーフィングの実装?)を飴屋さんが開発中。音源側は簡単なレベルでは音量加工。
maru @maruloop
これが現状かしら。
M. Morise (忍者系研究者) @m_morise
@maruLoop end_blankって,次の歌詞に依存して変更できます?無音だけではなく,次が母音の場合,子音の場合とで,値を変えるほうが多分品質を向上できると思います.当然原音設定の手間は倍ですけど...
maru @maruloop
@m_morise 出来ないですね。プラグインで対応するしかないです。現状、それができるプラグインは自分が作ったプラグインだけかな。。。しかし機能入れすぎて使いにくいのが問題です。。。
maru @maruloop
あとは、そこはもう連続音を使うしかないんじゃないかなぁと。
M. Morise (忍者系研究者) @m_morise
@maruLoop ちなみに,連続音は単独音ではありえない別のややこしい問題が生じてしまうということが...遷移が綺麗になる分,伸ばす音が単独音には劣りそうです.
maru @maruloop
@m_morise その点はモーラ数を減らして、長い連続音を収録、ロングトーン用を用意ですかねぇ…
M. Morise (忍者系研究者) @m_morise
@maruLoop いえ,実は,modulationと関連して,連続音は音源によってはmodulationをかなり小さくしないと品質が落ちるということが分かったのです.そしてmodulationが小さい場合はロボット声になりやすいというジレンマ.
M. Morise (忍者系研究者) @m_morise
連続音とmodulationについてのメモ.例えば「あい」と録音した場合,「あ」と「い」の録音状況の高さが違う場合,譜面上の高さに合わせるための変化量が変化する(続く).
M. Morise (忍者系研究者) @m_morise
modulationは,入力の変動を活かすパーセンテージなので,上記の音源の場合,modulationに依存してピッチの制御量が変化する.そして,大局的な変動と残すべき微細変動との分離がまた面倒なことになる.
残りを読む(6)

コメント

ログインして広告を非表示にする
ログインして広告を非表示にする