2010年10月3日

UTAUの分析合成での思考過程など

あくまで「可能性」ということですが、楽しみの一つとして。そして、思考過程をも上がってくれる学者達。情報技術が思考を加速してくれると実感をさせてくれました。追記：完了しました。続きを読む

UTAU 歌声合成

ejiwarp
8834
1
214
0
0

M. Morise (忍者系研究者) @m_morise

誰か，UTAUを使った合成で，聴くに耐えないレベルで合成に失敗したって実例はありませんか？それとも概ね良好に動作しましたか？情報募集中です．

2010-10-02 18:01:33

M. Morise (忍者系研究者) @m_morise

いくつか情報や動画URLを頂けました．感謝です．聴くほど，UTAUは良くできているツールと実感します．全体的に多少品質が落ちているのは否めませんが，致命的な劣化が存在しない印象です．

2010-10-02 18:15:59

M. Morise (忍者系研究者) @m_morise

UTAU音源を何度も聴き込んで思った．我輩は大いなる勘違いをしていたのかもしれない．

2010-10-03 00:53:35

maru621 @maruloop

@m_morise すごく気になる

2010-10-03 00:54:00

maru621 @maruloop

@m_morise んと、遅レスですが、聴くに耐えないレベルで合成に失敗した、というより、分析に失敗した事例はあります。手元にwavファイルがないのですが、現在は分析の精度向上により解消されています。

2010-10-03 00:56:21

M. Morise (忍者系研究者) @m_morise

@maruLoop まだ，思考が芽生えただけなので何とも言いがたいところです．UTAUの品質が思ったより落ちない理由，合成音の品質と独特の音色・・・

2010-10-03 00:57:46

maru621 @maruloop

UTAUで聴くに耐えないレベルで合成に失敗した事例かー・・・。んー・・・なんかあったかなぁ・・・。基本的にそういう危険がありそうなものって配布前に中の人ではじいてるし、原音設定段階で俺もはじいちゃってるからなぁ・・・。

2010-10-03 00:58:33

M. Morise (忍者系研究者) @m_morise

@maruLoop ひょっとして，その音符に相当する歌詞の品質が全体的に落ちたりしませんでした？

2010-10-03 00:58:54

M. Morise (忍者系研究者) @m_morise

@maruLoop ありがとう御座います．概ね期待と一致する音声でした．何となくポイントが見えてきた．

2010-10-03 01:06:54

M. Morise (忍者系研究者) @m_morise

念のため．そんな大層なことじゃなく，恐らく製作者様ならすぐ答えれるところです．すぐ他人に回答を求めるのが嫌いな性質なので，色々思考を巡らせています．

2010-10-03 01:08:22

M. Morise (忍者系研究者) @m_morise

そうなると，v.Connectのアルゴリズムも気になってくるが，それは棚上げしよう．

2010-10-03 01:09:49

M. Morise (忍者系研究者) @m_morise

@maruLoop 失礼ついでにもう一つ．UTAUの音源は1つにつき最低何秒程度必要かご存知ですか？

2010-10-03 01:12:45

maru621 @maruloop

@m_morise "最低"ですか？物理的な最低は計測したことはないです。ただ前例のあるUTAU向け音源だと、初期のころに出た音源2008年組が、0.2秒～0.4秒程度はあって十分歌えてたと思います。

2010-10-03 01:15:50

maru621 @maruloop

余談ですが、現在のUTAU単独音音源の長さは、大体母音のタイムストレッチされる部分が大体0.8秒です。子音部分と合わせて大体1秒から1.2秒ぐらい。

2010-10-03 01:17:26

M. Morise (忍者系研究者) @m_morise

@maruLoop 了解です．そこはちょっと予想と違いました．聴いた印象ですと，実際に使っている区間は相当短いと感じたので．

2010-10-03 01:18:40

maru621 @maruloop

@m_morise 2009年12月27日計測。任意に抽出されたUTAU向け音源の原音の長さ(msec)で階級別度数分布から最頻値。標本数6136。大体単独音30音源分のすべての原音を対象にしています。 http://twitpic.com/2u0jan

2010-10-03 01:27:09

拡大

M. Morise (忍者系研究者) @m_morise

@maruLoop 8割弱は1秒以下ってことですね．合成結果を聞く限り，録音音声の大半は使われていないような気がします．

2010-10-03 01:30:16

M. Morise (忍者系研究者) @m_morise

あ，誤解を招く言い方でした．1つの音声の時間を100 %とした場合，恐らく20 %も合成には使っていない印象です．

2010-10-03 01:31:23

maru621 @maruloop

@m_morise UTAUのタイムストレッチは、音符の長さと比較し、それより短い場合は原音を後ろ側から切り捨て、長い場合は原音設定にて設定されたタイムストレッチ区間を伸ばしている、と勝手に理解しております。飴屋さんに聞いたほうがはやそうですが

2010-10-03 01:32:37

maru621 @maruloop

UTAUに関していえば、"原音のwavファイルの長さ"はあまり当てにならないんですよね。本当にこういう統計を取るなら、wavファイルの長さではなく、原音設定から抽出すべきでした。

2010-10-03 01:34:26

M. Morise (忍者系研究者) @m_morise

まず色々頭を整理します．どうしても他人に答えを聞いてしまうと思考停止してしまう．

2010-10-03 01:36:04

M. Morise (忍者系研究者) @m_morise

予想ですが，音高の揺れを抑えるため，極短い区間を周期的に接続しているという印象です．そうしないと，音高の微調整やビブラート付与にものすごい手間がかかります．

2010-10-03 01:39:35

maru621 @maruloop

余談だけど、N.H.P単独音録音キットは、こういう統計などの結果から出来上がっております。http://bit.ly/bADSBI

2010-10-03 01:39:55

M. Morise (忍者系研究者) @m_morise

当初は，録音した音声全体を使っていると予想していましたが，実際にUTAUで無調整の音を単独で聴いてみて誤りであると気がつきました．これがきっかけです．

2010-10-03 01:42:53

maru621 @maruloop

うーん、UTAUの伸縮方式については、昔飴屋さんのブログで見た記憶があるんだけど、見つからないな。http://bit.ly/9ceKQS

2010-10-03 01:45:06

1 2 次へ

いま話題のタグ