【UTAU】MoresamplerについてEjiさんに教えていただいた

新UTAUエンジン「Moresampler」の現状と今後について、Moresamplerの紹介ブロマガの作者であるEjiさんに教えていただいた際のツイートをまとめました。 歌声合成一般についての話題も、少し含まれます。 聞き手の「ちていこ」が素人であるため専門用語等に誤解があるかもしれませんが、ご容赦願います。
13
前へ 1 2 3 ・・ 6 次へ
Eji @ejiwarp

@chiteico 周波数領域処理なので実態では「リペア」「クロースフェード最適化」という概念ではないけれどね。

2015-11-12 23:24:06

音域の広さ(ピッチシフト耐性)

Moresamplerには、収録音階数の少ない音源でも比較的広い音域を歌わせることができるという特長があるとのこと。

Eji @ejiwarp

@chiteico @arctan_P 多音階音源について、MoresamplerはLLSMのおかげてピッチ調整範囲をより広げたため、音階数がある程度減らして表情に割り当てることが可能となります。結局DIPHONE音源の宿命で、収録者のコンディションを維持する必要があります。

2015-11-14 19:33:01
ちていこ @chiteico

@ejiwarp @arctan_P 少ない音階数のUTAU音源でも広い範囲の音域をきれいに歌えるということですか。それは、ありがたいエンジン性能です。シフト幅の大きいピッチシフトによる劣化を防ぐために音階数を増やす労力を、表情音源の拡充に回すことができるというわけですね。

2015-11-14 19:39:01

モーフィング的技術への期待

Moresamplerにより、モーフィング的な技術を活用した調声がUTAUで実現できるようになるかもしれない。

Eji @ejiwarp

@chiteico LLSMの利点の一部は上記に相当しますが、それだけではございません。 表情選択は現状のUTAUはすでにある仕組みですが、フレーム単位の内挿が出来ると、音色と音量を変化させる同時に、劣化を低減させる+モーフィングさせることも同時になります。

2015-11-12 00:26:21
Eji @ejiwarp

@maiko3tattun @chiteico こちらに参照してもわかりますが、クロスシンセシスは厳密的モーフィング「ではない」こともあって。 av.watch.impress.co.jp/docs/series/da…

2015-11-12 00:42:35
ちていこ @chiteico

@ejiwarp @maiko3tattun なるほど、クロスシンセシスはプライマリをセカンダリの音色に少しずつ近づけていく機能なので、完全に混ぜる感じではないのですね。周波数成分の構成を変えるのであればフォルマントにも作用して母音の発音に癖をつけたりできたら嬉しいのですけど…。

2015-11-12 21:55:03
ちていこ @chiteico

@ejiwarp @maiko3tattun あと、最近、荒々しく歌わせるところでグロウルエンジン的なエフェクトをかけた歌声とクリーンな歌声を混ぜて使うカバー動画があがっていたのですけど、セカンダリにがなり音源や何かの無生物音源を使うことで似た効果にならないか等は興味があります。

2015-11-12 21:58:46
Eji @ejiwarp

@maiko3tattun @chiteico つ「VOCALOIDのOPEをUTAUで実装するとどこまで変わるか」

2015-11-12 00:39:32
ちていこ @chiteico

@ejiwarp @maiko3tattun 「調声で口の形を連続的に変えたい」という発音調声の要求はUTAU界隈でもありまして、今は「口の開きが適当なものをカ~ワ行から探して切り出しし、ノート分割+クロスフェードで発音を変える」等されているので、OPEはニーズが強いと思います。

2015-11-12 22:02:44
Eji @ejiwarp

@chiteico @maiko3tattun よって、こういう飛び道具的なモノは本当に要所だけ使う必要があります。 クロスシンセシスはダイナミックレンジを増やす重要な手法であります。 グロウルは荒々しく歌う「箇所」だけ使うと効果覿面、これらはもうすでにご存知通り。

2015-11-12 22:05:56
Eji @ejiwarp

@chiteico @maiko3tattun またしてもLLSMの話ですが、LLSMはフレーム同期内挿機能有りますので、EQとフィルターを加えた前提でクロスシンセシスと等価する機能は実現可能です。(「What can we do with libllsm?」にご参照下さい)

2015-11-12 22:07:52
Eji @ejiwarp

@chiteico @maiko3tattun 原音から情報を特徴量として抽出すると、その後は各特徴量対してアクセスする形で必要な機能を実現していきます。

2015-11-12 22:13:41
Eji @ejiwarp

@maiko3tattun @chiteico Moresamplerの基盤となるLLSMの仕組みは、原音を接続させるでもクロースフェードの位相ズレを原理的避けられるため、2つの声の表情の違いが大きいでも違和感を低減出来る「耐性が強い」と考えてよろしいかと。

2015-11-12 23:31:16
Eji @ejiwarp

@maiko3tattun @chiteico その上にLLSMファイルが記録した特徴量を調整することで、事前に接続した二点の音源のスペクトル包絡のベクトル差の補正手法を調整出来るようにすることにして、クロスシンセシスの処理と等価になるのではと考えてます。

2015-11-12 23:33:43
ちていこ @chiteico

@ejiwarp UTAUの表情音源併用調声では、①声質がいきなり大きく変わると違和感がある②声質の違いが大きい声をクロスフェードすると汚くなるという課題があり、中間的声質の表情音源を収録する負荷が大きかったのですが、モーフィングができればこの問題が解決しそうなので、期待大です。

2015-11-12 22:31:21
ちていこ @chiteico

@ejiwarp @maiko3tattun スペクトル包絡は声質を決定づける情報なので、その情報を2音源の間で連続的に変化させることができれば、確かにクロスシンセシス的な効果が得られそうです。波形直接処理でなく特徴量ベースで歌声合成すると、調声できることが一気に増えるんですね。

2015-11-13 20:23:38

周波数表の編集

現状のMoresamplerには音源製作者や調声者が周波数表を手編集する仕組みはないが、機能として検討されているとのこと。

Eji @ejiwarp

@chiteico 周波数表はF0検出エラーに手動で補完させる手段として用意し、現状MoresamplerはUTAUの周波数表使ってませんが、今後は独自の周波数表を導入する予定です。 クロスフェードミス及び極端なピッチ線についてはLLSMの仕組みで低減しております。

2015-11-12 00:22:22
ちていこ @chiteico

@ejiwarp 新しい歌声合成エンジンに興味を持つUTAUユーザーには、「がなり声」「ノイズの多い囁き声」のような歌声合成が難しい声質の合成がきれいにできることを期待する人も含まれますので、周波数表を手動修正して音源に同梱できる仕組みがあると、かなり喜ばれると思います。

2015-11-12 22:23:07
ちていこ @chiteico

UTAUの周波数表修正ツールといえば、masaoさんのfrqeditorです。このUIは、UTAU界隈でかなり広く使われています。 → mediafire.com/folder/rra0zg6… frqeditorのマニュアルは、こちら。 → bitly.com/1EQUDGL

2015-11-12 22:26:56
前へ 1 2 3 ・・ 6 次へ