原音設定の形式と合成の形式

派手にお空に打ちあがった気がするようです
4
しゅらぴばー @shurabaP

UTAUの足元固めるようなツールがこそこそ増えるといいなと思っていたり。もみじぱんさんの自動原音設定とか超wktkすぎる。

2011-02-13 00:13:10
maru621 @maruloop

VBfarm的にもかなり期待中RT @shurabaP: UTAUの足元固めるようなツールがこそこそ増えるといいなと思っていたり。もみじぱんさんの自動原音設定とか超wktkすぎる。

2011-02-13 00:13:42
しゅらぴばー @shurabaP

まずはとっちらかしておいたら、そのうちまとめるツールも出てくんべ。結局歴史をなぞるようなことをやってるわけだからね。

2011-02-13 00:14:38
M. Morise (忍者系研究者) @m_morise

品質を上げるための録音方式を思いついたが,面倒だな.

2011-02-13 00:16:42
@_kakko_kari

ある程度精度が出せたらずいぶん変わりますよね。原音設定で残念に聞こえるものも多いですから。 QT @shurabaP: UTAUの足元固めるようなツールがこそこそ増えるといいなと思っていたり。もみじぱんさんの自動原音設定とか超wktkすぎる。

2011-02-13 00:16:50
しゅらぴばー @shurabaP

@_kakko_kari 最終的には人手でも、ある程度の精度が確保できると何かのテストするのも楽ですからね。

2011-02-13 00:18:20
しゅらぴばー @shurabaP

聞いてみたいです… QT @m_morise: 品質を上げるための録音方式を思いついたが,面倒だな.

2011-02-13 00:19:11
M. Morise (忍者系研究者) @m_morise

@shurabaP 概要は,連続音に,音の高さの変動(高→低,低→高)を加えるのと,音素の境界時間を原音設定に含めて,音符の切り替わる時間的タイミングで音高を制御することで,modulation 100%での連続音合成を行う,ということです.

2011-02-13 00:27:58
M. Morise (忍者系研究者) @m_morise

加えて,各母音を2, 3秒伸ばす長音を含め,音符に応じて連続音→長音とつなげることで,時間伸縮の品質劣化は最小限に出来ます.

2011-02-13 00:29:10
M. Morise (忍者系研究者) @m_morise

それに強弱や遷移幅などの表現数を増やせばモーフィングでかなりのバリエーションの合成が出来ると思うけど,1名分で何時間かかるか予想できない.

2011-02-13 00:30:44
しゅらぴばー @shurabaP

@m_morise なるほど。一同やろうかと思ったんですがメロディのリストを作れず断念しました。あとは組み合わせになってしまうので、やる場合はもう少し細かい単位で原音設定しないと録音量が莫大にな量になるのが難点ですね…

2011-02-13 00:31:44
M. Morise (忍者系研究者) @m_morise

結局現在の枠組みで自然性に大きく影響するのは,音素と音素の遷移と,短い音を引き伸ばしたときのロボットっぽさが大きい.先ほどの音源の条件は,上記の問題を解決する最小限のパッケージ.

2011-02-13 00:33:37
M. Morise (忍者系研究者) @m_morise

@shurabaP そうですね.modulation 0は,連続音で(ほぼ)必須な条件ながら,連続音のメリットを最大限享受しているとはいえません.連続音を活かすのであれば,音素境界という音源設定は必須になると思われます.

2011-02-13 00:35:53
M. Morise (忍者系研究者) @m_morise

F0を平坦化するデメリットは思ったより大きく,人工的に与えた揺らぎで人間らしさを出すことは結構大変です.これは,F0とスペクトル包絡には相互作用があり,F0に人工的な揺らぎを加えると,スペクトル包絡の揺らぎと矛盾するためです.

2011-02-13 00:38:41
しゅらぴばー @shurabaP

@m_morise そうなると最初期はともかく、ある程度自動化の枠組みが欲しくなってしまいます。その辺もみじぱんさんお自動設定ツールはちょっと期待なんですが…切り張りで自然性を高めるのは手っ取り早く全部録音してなるべくそのまま使うのが早いってことですね。

2011-02-13 00:40:59
しゅらぴばー @shurabaP

というかハードロック風なBGMだと7モーラ用があった気がする…(ごそごそ

2011-02-13 00:42:42
maru621 @maruloop

実は公開してないけど,なんかテクノポップ的なもののガイドBGMなら俺が作った7モーラもあったりしてね

2011-02-13 00:43:59
しゅらぴばー @shurabaP

原音が音痴な場合どう修正するかが問題だよなぁ。<連像音のピッチ情報をそのまま使う

2011-02-13 00:44:05
M. Morise (忍者系研究者) @m_morise

@shurabaP 実は音素境界や開始・終了時間の自動抽出はJuliusを使って試したことがあります.研究自体は途中でやめたのですが,Juliusと相性のよい音素の組み合わせであれば,1 msecのオーダーでほぼ合わせられる感じですね.

2011-02-13 00:45:01
しゅらぴばー @shurabaP

@maruLoop ガイドBGM用データベースも欲しいよね(じーっ

2011-02-13 00:45:13
しゅらぴばー @shurabaP

@m_morise 相性とは言え1msecまでいけるんですか…そうなるとCV-VCでの接続を試したくなりますね。VCVだと枠組みとして不便なところが多々あるので…

2011-02-13 00:46:30
maru621 @maruloop

@shurabaP ガイドBGM用のデータベースてw でも,mp3をアップロードする機能がVBfarmにつけたから流用すれば出来ないこともないかw

2011-02-13 00:46:32
M. Morise (忍者系研究者) @m_morise

原音のピッチを活かすためには,F0から知覚される高さに相当する概形のみ取り出して制御する技術が必要になります.包絡抽出を試みたこともありますが,ポルタメントの条件により包絡の精度が変わるのでどうしたものか.

2011-02-13 00:47:24
しゅらぴばー @shurabaP

@maruLoop こういうのは集約されてることが一番大事な気がしないでもないですw

2011-02-13 00:48:05
maru621 @maruloop

ガイドBGMでおおっぴらに配布されてるのって,このぐらいじゃないのん?http://bit.ly/epM58b

2011-02-13 00:48:21
1 ・・ 4 次へ