歌声合成の品質向上のためのアイディア

@m_morise さんの呟きより。
5
M. Morise (忍者系研究者) @m_morise

UTAU用の音源を録音される場合,ローカット昨機能のついたマイクはオススメしません.雑音の影響はカットできますが,音声の重要な情報までカットされます.特に男性声.

2012-04-07 01:49:43
M. Morise (忍者系研究者) @m_morise

理系っぽい言い方をすれば,概ねマイクのローカットは200 Hz程度から影響し始めますが,男性声は100~150 Hzなので思い切り削られます.

2012-04-07 01:54:35
M. Morise (忍者系研究者) @m_morise

声の高さ(基本周波数)が100~150 Hzで,それがマイクでカットされるので,本来であれば高さ情報が失わせるのですが,聴覚には基本周波数が無いのにその高さが聞こえるという現象があります.

2012-04-07 01:55:49
M. Morise (忍者系研究者) @m_morise

人間には聞こえるけど音声分析側はそこまで気が利かないので分析でミスが生じ,品質が落ちるわけです.

2012-04-07 01:56:39

M. Morise (忍者系研究者) @m_morise

あれ,TL見ていてふと閃いたんだけど,もの凄く簡単に品質改善するアイディアがあるかもしれない.音源収録側の工夫もいるけど.

2012-04-07 19:42:42
M. Morise (忍者系研究者) @m_morise

音声分析側での自動化を必要以上に目指さず,音源収録側に歩み寄ってもらうアプローチ.歌声合成ならではの解かな.

2012-04-07 19:44:31
M. Morise (忍者系研究者) @m_morise

あ,でも一度音源収録している人に意見を聞く必要があるかな.というより簡単すぎるアイディアなので,すでにUTAUとかに入っていそうな気もする.

2012-04-07 19:53:24
M. Morise (忍者系研究者) @m_morise

@wakkaneko ええと,音源録音する際ファイルの切り出しを行うと思うんですけど,その際大まかな音階って覚えていらっしゃいます?

2012-04-07 20:10:53
和猫/なごみわっか @wakkaneko

@m_morise たとえば私の音源である蘇芳ミメイ再録版はF3,B3,F4,で録音しています。表情音などはまた異なりますが。

2012-04-07 20:29:31
M. Morise (忍者系研究者) @m_morise

@wakkaneko ありがとうございます.音階単位で覚えられるものなのですね.

2012-04-07 20:33:14
M. Morise (忍者系研究者) @m_morise

@canon_73 音源収録の際,自分の発した歌声の音階を大体でいいので覚えていらっしゃるか,気にしております.

2012-04-07 20:16:54
M. Morise (忍者系研究者) @m_morise

@canon_73 おお,そこまで細かくわかっているのであれば大勝利の予感.

2012-04-07 20:20:24
カノン【波音リツ 公式】 @canon_73

@m_morise 完成してるけど公開出来てない新音源は、A3 D4 G4 C5

2012-04-07 20:25:13
M. Morise (忍者系研究者) @m_morise

@canon_73 それって意図的に全音韻で揃えられるものですか?特に連続音.

2012-04-07 20:26:33
カノン【波音リツ 公式】 @canon_73

@m_morise え?同じ音程で発声するだけですよね?

2012-04-07 20:27:12
M. Morise (忍者系研究者) @m_morise

@canon_73 自身の音源を収録したことが無いと,それが難しいのか簡単なのか判断が難しいのですぜ.

2012-04-07 20:32:26
M. Morise (忍者系研究者) @m_morise

ええと,このままだと意味不明だと思うので,意図だけ説明させて頂きます.歌声の音高(実は単音の場合音程という表現は正確ではないのです)を分析するのは実は色々ややこしい問題があることに起因します.

2012-04-07 20:35:41
M. Morise (忍者系研究者) @m_morise

分析法は,どんな声が入ってきても正しい高さを推定する必要があるのですが,男性の低い人から女性の高い人までカバーしないとならないわけです.同じ人であれば高さの幅はそこまで大きくは無いのですが,不必要に広い幅を推定できるようにするわけですね.

2012-04-07 20:37:05
M. Morise (忍者系研究者) @m_morise

高さに相当する数字をF0(基本周波数)と呼びますが,実は通常の分析法には落とし穴があります.結論を言えば,本来高さが200の音声に対して200以外の値を推定すると合成結果が著しく劣化します.

2012-04-07 20:39:28
M. Morise (忍者系研究者) @m_morise

一番多い誤りが200の音声に対して100や400のように,半分や倍の値に推定されるミスです.理由は省略しますが,これは結構起こります.そして致命的に劣化します.

2012-04-07 20:41:19
M. Morise (忍者系研究者) @m_morise

よって,推定前に音階を1オクターブ以内に絞ることができれば,理論的に倍と半分のエラーを0にすることができます.これだけでかなり結果はマシになるわけです.

2012-04-07 20:42:32