編集可能
2010年8月30日

UTAU + WORLD = ??

失礼ながら@m_morise@ameyaP_ の大事な討論に口を挟めました。 そして勝手に面白いと思ってまとめてみました。 すみませんでした。 もし何かの間違いがあれば変更します、 続きを読む
9
M. Morise (忍者系研究者) @m_morise

うーん.UTAUの分析アルゴリズムの詳細が知りたい.

2010-08-29 16:40:35
M. Morise (忍者系研究者) @m_morise

多分タイムドメインだからピッチマーキングを行っているはずなのだが,女性声だと難しい気がするんだけどなぁ.どうやってるんだろ

2010-08-29 16:42:28
M. Morise (忍者系研究者) @m_morise

うーん.UTAUのアルゴリズムがやはり見えてこない.高品質を叩き出すにはどうすればいいんだろう.

2010-08-29 17:11:45
𓎡𓅱𓂋𓄿𓅓𓇌𓏏𓅱𓉔𓄿(くらミツハ)・中立中庸でぢたる盆栽職人 @7424h

@ameyaP_に聞いてみてはどうかと RT @m_morise: うーん.UTAUの分析アルゴリズムの詳細が知りたい.

2010-08-29 17:20:14
M. Morise (忍者系研究者) @m_morise

@nanashi24h 今度見かけたときに聞いてみますです.ただ,公式になっていない情報なので,聞くのも失礼かなと思ったり.

2010-08-29 18:26:08
Eji @ejiwarp

手を加えるですか?RT @m_morise: うーん.UTAUの分析アルゴリズムの詳細が知りたい.

2010-08-29 18:28:25
M. Morise (忍者系研究者) @m_morise

@ejiwarp UTAUの品質を損なうことなくWORLDを組み入れないか考えています.組み入れるために一つだけ詳細を知らなければならないので気になっていました.

2010-08-29 19:45:13
M. Morise (忍者系研究者) @m_morise

ちなみにUTAU+WORLDの草案は,海外出張中に全部テスト済みです.残る課題は2つ.1つは完成後に生じる問題.もう1つは,UTAUのアルゴリズムを知らないと手が出せない問題.

2010-08-29 19:48:13
Eji @ejiwarp

変更なしでUTAUにWORLDを組み込めるのか..... RT @m_morise: @ejiwarp UTAUの品質を損なうことなくWORLDを組み入れないか考えています.組み入れるために一つだけ詳細を知らなければならないので気になっていました.

2010-08-29 22:48:54
M. Morise (忍者系研究者) @m_morise

@ejiwarp 色々検討中ではありますが,品質劣化が0とはいわないまでも波形→WORLD →波形を品質劣化最小限で実現できるところは確認が取れました.

2010-08-29 22:53:56
M. Morise (忍者系研究者) @m_morise

問題は,TD-PSOLAベースで考えた際の素片切り出しです.UTAUも時間領域の処理である以上,なんらかの方法を使っているはずなのですが,ここが分かりません.

2010-08-29 22:54:51
M. Morise (忍者系研究者) @m_morise

やっぱりTD-PSOLAでピッチマーキングを高精度にやってる文献が少ない気がする。UTAUは何か特別なことをやっているに違いない、と勝手に想像。

2010-08-30 00:18:20
M. Morise (忍者系研究者) @m_morise

STRAIGHTやWORLDはピッチマーキング不要というのが利点だけに、ピッチマーキングはあまり真面目に勉強してこなかった。女性声だとかなり難しい問題な気がするけど、良い音を合成しているのもまた事実。

2010-08-30 00:19:26
M. Morise (忍者系研究者) @m_morise

@ameyaP_ もし、差し支えなければUTAUで採用している分析法を教えていただけませんか?秘密ならスルーして頂いて構いませんです。

2010-08-30 00:23:40
飴屋P @ameyaP_

@m_morise UTAUもピッチマーキングはしてません。というかTD-PSOLAのアイデアをちゃんと理解したのは最近ですし。ちゃんと説明するのは困難なのでヒントだけ。位相合わせと実数時間(double)のサンプル点が基本的なアイデアです。

2010-08-30 00:24:27
M. Morise (忍者系研究者) @m_morise

@ameyaP_ 有難うございます。概ね予想できました。ピッチマーキング無しであれだけの品質が出せるのは大変面白いと思いますです。

2010-08-30 00:31:16
M. Morise (忍者系研究者) @m_morise

というわけでUTAUがピッチマーキング無しなら現在考案中の方法とは競合しなさそう。少し本気で考えてみるかな。

2010-08-30 00:32:27
飴屋P @ameyaP_

@m_morise 音声合成やら信号処理の既存の手法全然知らないところから始めたので(というか今も既存の手法には疎いので)、簡潔な言葉でお伝えするのは困難かと思いますが、、、よかった伝わりましたか。

2010-08-30 00:33:17
M. Morise (忍者系研究者) @m_morise

@ameyaP_ 恐らく完全ではないですが、何を行っているのかの推察はできました。至極正当な方法だと思いますです。

2010-08-30 00:51:10
M. Morise (忍者系研究者) @m_morise

しかし、こうやって現場のツールを確認するほど、音声や音楽の研究を見るのが切なくなる。結局理論じゃなくて気合でも何でも動くことが重要なんですよね。

2010-08-30 00:52:16
M. Morise (忍者系研究者) @m_morise

あくまでも研究を否定する意味じゃないですけど、今の研究は、VocaloidやMelodyneと比較すると理論は美しくても、結果はこれらツールに見劣りするのです。

2010-08-30 00:53:30
Eji @ejiwarp

@m_morise この場合のWORLDは、音声モーフィング機能をUTAUに提供するですか...?.少々の音質ロスで歌声が大幅に自然になると期待していいのか。そして少数派のCadenciiよりUTAU本家にプラグイン形態を提供する形でコミュニティ全体の声質を上げることなのかな。

2010-08-30 02:07:54
M. Morise (忍者系研究者) @m_morise

@ejiwarp UTAUに提供するというか,他者の技術に組み込む予定は全くありません.目標としては,WORLDを,UTAUの品質を持ってモーフィング等加工が可能な仕組みに発展させることです.

2010-08-30 21:41:17
M. Morise (忍者系研究者) @m_morise

仕組みを作るのが我輩の仕事.使いやすいソフトウェアというのは,実際のクリエイタが考えたほうが良い.研究者の我輩が作っても研究者視点のツールが出来上がるだけ.あるいは,クリエイタと連携して実装するならありえるかもしれません.

2010-08-30 21:45:35
M. Morise (忍者系研究者) @m_morise

世の中は弱肉強食といい,肉食動物と草食動物に例えられる.でも実際は,草食動物にも食べられる草になる人間が多数なんじゃないかな.

2010-08-30 21:52:07
残りを読む(5)

コメント

Eji @ejiwarp 2010年8月30日
森勢先生からの返答を収録しました
0
Eji @ejiwarp 2010年8月31日
TD-PSOLA + WORLD 発言追加。
0
Eji @ejiwarp 2010年9月7日
飴屋Pの補足追加。
0