きらきらぼし音源から始まる歌声合成ライブラリ談義

音程を付けてUTAU音源を収録したらどうなるかという話
5
カノン【波音リツ 公式】 @canon_73

@_kakko_kari 連続音1つ50分くらいで録れるからね、原音設定とか調声とか絵描いたり作曲とか合成器つくったりに比べてはるかに楽。

2012-04-24 00:57:14
@_kakko_kari

@canon_73 確かに時間だけで語ればそうなんだけどね

2012-04-24 00:58:49
しゅらぴばー @shurabaP

@canon_73 多めにとってそれを生かす方向もありだとは思うんですけどね…ちょっと妙案が出ない…

2012-04-24 00:57:01
nwp8861 @nwp8861

@shurabaP そこで波形接続型音声合成の単位選択ですよ(と適当にけしかける) RT @shurabaP: @canon_73 多めにとってそれを生かす方向もありだとは思うんですけどね…ちょっと妙案が出ない…

2012-04-24 01:09:26
しゅらぴばー @shurabaP

.@nwp8861 @canon_73 波形接続で素片選択をうまくやる場合,Vocaloid的なシステムになるはずなのですが,生かすための録音とかはまた探るしかないですよね.一度ブルートフォース的に録音しまくるのはひとつの手段だとは思います.

2012-04-24 01:10:55
nwp8861 @nwp8861

@shurabaP @canon_73 理解や論点がずれているかもしれませんが、どんな表現力を持った合成や音源にするかを設計する段階では必ず試行錯誤は発生すると思います。また、設計後にも波形の取捨選択はどこかに発生するように思います(ミステイクとか表現しきれてないとか)。

2012-04-24 01:24:33
しゅらぴばー @shurabaP

.@nwp8861 @canon_73 それは僕も思います.今のところ面倒くさいことは避けたいと僕が考えているので中々腰が上がらない部分もあるかと思います.真面目に組み合わせを検討するのは音源のアプローチとしては必要ではあるかも…

2012-04-24 01:26:16
nwp8861 @nwp8861

@shurabaP @canon_73 (続き)後者の取捨選択を単位選択で行えたら良いかなーと思いました。が、そのためにはその合成器で実現したい音色表現を定量化出来ないと単位選択に組み込めないので、それが難しい場合は人手で取捨選択せざるをえないかもしれませんね。

2012-04-24 01:27:17
しゅらぴばー @shurabaP

.@nwp8861 @canon_73 ああ,なるほど.いっそ取捨選択をユーザに任せられるUTAUはじめ良いGUIがあればたくさん録ること自体は人力みたいな方たちもいますし,役に立つだろうってことですね.使えるように整備してみるだけでも役に立ちそうですね.

2012-04-24 01:29:41
nwp8861 @nwp8861

@shurabaP @canon_73 そんな感じです。そしてUTAU周辺はコーパスベースの土俵の上にいて、(自分も含め)技術側が追い付いていない所もあるのかもなあと。

2012-04-24 01:43:32
nwp8861 @nwp8861

Sinsyも学習でスペクトルの分布を推定することで、変なテイクをやんわりはじいて平均的な(尤度の高い)テイクを残す効果が得られているのではないかと思います。

2012-04-24 01:46:41
nwp8861 @nwp8861

@shurabaP @canon_73 HMMに行ったのは収録効率や制御のしやすさからかなあと思いますが、確率統計も十分な銀の弾丸にはなりえないかもしれませんよ。ことさら音楽に関しては。

2012-04-24 01:59:14
しゅらぴばー @shurabaP

.@nwp8861 @canon_73 ここのところHMMを少しずつ勉強していて把握した範囲では,heigazenさんも仰っていましたが,平均化から逃れるための苦労が凄まじいことです.こと歌声に関しては表現の幅が大きすぎてどの道サンプルはスパースになってしまうのかもとは…

2012-04-24 02:02:14
nwp8861 @nwp8861

@shurabaP @canon_73 ああ、なるほど。。スパースを抑えるためには、説明変数を精査したり波形を沢山集めたりしないといけないみたいな。難しそうですね。

2012-04-24 02:10:08
nwp8861 @nwp8861

工学的手法を芸術系に適用して図らずも出てしまった誤差が、芸術系の視点ではかえって良い。なんて場合もあるんじゃないかと思うけど、そうすると芸術工学みたいなのは相反するものを混ぜてるような気がして、どうやってパワーバランスをとっているのかと興味津々。

2012-04-24 02:14:20
しゅらぴばー @shurabaP

.@nwp8861 @canon_73 それに加えて,結局統計は平均と分散共分散でしかないので,統計を集める過程で丸められる部分をいかに減らすかという努力が凄まじいです.とは言えUTAU文化に落とせそうな部分はちらほらある印象ではあるので,そこを突っつくのがいいかと思ってます.

2012-04-24 02:14:24
nwp8861 @nwp8861

@shurabaP @canon_73 HMMに限らず機会学習系はそんな感じじゃないかなと思います>説明変数と学習データで精度が左右される。美味しい所を取れると良いですね。

2012-04-24 02:26:16
しゅらぴばー @shurabaP

.@nwp8861 @canon_73 ですね.最終的には最初に戻ってユーザベースでやる場合の知識の積み重ねが足りない,とかに落ち着くような気もします.アライメント楽ならもう少し頑張るんですけど中々w

2012-04-24 02:27:53
🍁momijipan🌇 @momijipan

@shurabaP 最新版のsetParamはどんな感じのアラインメントなんですか?

2012-04-24 02:31:27
しゅらぴばー @shurabaP

@momijipan 耳ロボPさんが先行発音までの再生機能をつけて下さったので,僕がリツコネクトやったときには自動推定→再生しながら聴取で推定が悪いところを手修正する形でやってます.

2012-04-24 02:32:39
nwp8861 @nwp8861

@momijipan @shurabaP 自動推定に関しては1月に出したものが最新で、パワーとMFCCを使います。パワーは値が上がる所を探索、MFCCは母音中央付近のMFCCとの距離が大きくなる所を探索してる感じです。概ねパワーの方が好成績でMFCCは得手不得手がある印象です

2012-04-24 02:48:16
しゅらぴばー @shurabaP

@nwp8861 @momijipan おっと,じゃあ新しい版は僕はまだ触ってないですね…MFCCではうまくいかないというのは面白いです.個人的には耳で聞いて母音がほんの少し聞こえる位置に先行発音を置くとうまくいく感覚があったので,MFCCでうまく生きづらいのは不思議です…

2012-04-24 02:49:53
nwp8861 @nwp8861

setParamの、MFCCを使った自動推定は基本的にはこの図の考え方に基づいて作ったはずです http://t.co/t9JI6ZZO この図を見て行けると思ったらそうでもないケースもあって試行錯誤しているうちに忙しくなって色々忘れてしまったのが現在(-_-;)。

2012-04-24 02:55:26
しゅらぴばー @shurabaP

[about RT]この図は河原先生のとこだかがやっていた音声モーフィングの時間対応付も同じような発想で手作業支援ツールを開発していたような気がします.手作業のお供にはなるような気も.

2012-04-24 02:57:25
nwp8861 @nwp8861

ああ、その後リフタリングを試そうとしてたみたいです http://t.co/2z7HdMI1 ⊿MFCCは難色を示している様子 http://t.co/U8hITazO あと現状のアルゴリズムは、探索開始位置がずれ過ぎたら明後日の方向に行くものだったかも(隣の先行発声に行くとか)

2012-04-24 03:02:21