F0推定法「Harvest」

ノート用。 音声分析合成システム「WORLD」最後のピースとして、Harvestは元々統計音声合成向けとして「処理時間が長いで構わないから、対雑音性を高めて欲しい」という要請で着手し始めたモノ。 UTAU的いうと「(文字通り)究極の周波数表生成ツール」の作成の手助けになる可能性が秘めてる。 続きを読む
3
前へ 1 ・・ 13 14 次へ
M. Morise (忍者系研究者) @m_morise

もう1つは,不要なキャストや一部利用されていない変数の除去など,細かいところの調整です.

2016-12-29 17:02:07
M. Morise (忍者系研究者) @m_morise

来年4月くらいに,現在の品質からの劣化無し(か若干上がる)で,1フレームあたり50次元以下に圧縮する方法を発表します.

2016-12-29 17:07:27

ここで懐かしい面子の修羅場Pさん再参戦の可能性浮上
V.Connect-STAND以来でした。

しゅらぴばー @shurabaP

github.com/haruneko/World… 普通に実時間合成のインタフェースがあった。

2016-12-29 17:15:58
M. Morise (忍者系研究者) @m_morise

@shurabaP 実時間合成はリクエストがあったんで,ちょっと本気出して作りました.

2016-12-29 17:20:04
しゅらぴばー @shurabaP

@m_morise 久々にバイナリ扱うコード読んでて頭捻ってますがぱっと見すごく早そう&汎用的なインターフェースで使いやすそうです。

2016-12-29 17:27:18
M. Morise (忍者系研究者) @m_morise

@shurabaP 歌声合成ツールのように,オフラインで分析を済ませておいて,状況に応じて逐次合成することに特化させています.処理速度は実時間よりかなり早く,3音くらいなら並列に合成もできると思います.

2016-12-29 17:32:44
しゅらぴばー @shurabaP

@m_morise また自分でフレーム単位の並列処理作ろうかなーとか思っていたところなのでまんまのものがあった!って感じでした。前自作したんですがこの実装速そう…

2016-12-29 17:34:44
M. Morise (忍者系研究者) @m_morise

@shurabaP 自作ツールのほうが作った本人には使いやすいですよねw私の実装はかなりややこしくなっていますが,これは「実時間合成と従来の合成とで品質に差が(ほぼ)生じない」を満足するためです.

2016-12-29 17:37:49
しゅらぴばー @shurabaP

@m_morise リングバッファで全パラメタ持ってるので同等のものを実装しようとするとすごく大変そうだなという気持ちになりました…とりあえず自分で作らなくても良さそうだという見当をつけました

2016-12-29 17:40:43
M. Morise (忍者系研究者) @m_morise

@shurabaP おっす,何か作るのを楽しみに待っています.

2016-12-29 17:41:54

M. Morise (忍者系研究者) @m_morise

論文にはなるけど現場で使えない技術に価値を見出せないわけです.Harvestは,論文にしようと思えば3月くらいで何とかなったと思うけど,結局満足できる水準にするため時間を費やすことを選んだわけです.

2016-12-31 00:04:39
M. Morise (忍者系研究者) @m_morise

D4C Love Trainは思ったより早く完成したので良かった(小並感

2016-12-31 00:05:49
M. Morise (忍者系研究者) @m_morise

WORLDをオープンソースプロジェクトとして分かったのは,学会に行かなくても世界規模でユーザを確保できコラボも可能ということ.そして,現場で使える理論であり再利用可能なプログラムを公開すれば,発表する論文の格は重要ではないということ.引用できる文献としてアクセスできることが大切.

2016-12-31 00:14:03
M. Morise (忍者系研究者) @m_morise

早くなったとはいえ,D4Cの論文は採録まで1年3か月かかったし,周辺分野だと平均3か月くらいでAcceptと聞くと羨ましいのは事実.論文は格よりも査読の速さで選びたいね.

2016-12-31 00:24:27
M. Morise (忍者系研究者) @m_morise

WORLDの年内更新は最後だといったな.あれは嘘だ.

2016-12-31 11:51:55
M. Morise (忍者系研究者) @m_morise

D4Cで無駄な演算やってることに気が付いたので,修正します.結果は変わりませんが,ちょっとだけ早くなります.多分.

2016-12-31 11:52:55
M. Morise (忍者系研究者) @m_morise

と思ったらバグがあったので,やっぱり修正します.結果は誤差の範疇です.

2016-12-31 11:58:52
M. Morise (忍者系研究者) @m_morise

スペクトルに完全な0があるとなぜかFFTが微妙に遅くなるので,そっちも併せて修正するか.

2016-12-31 12:18:54
M. Morise (忍者系研究者) @m_morise

それと,前々からちょっと気になっていたんですが,無声音の際の非周期性指標が0なのはおかしいので,1に修正します.合成時,無声音の場合は非周期性指標を無視するので,この変更が音質に影響を与えることはありません.

2016-12-31 12:29:05
M. Morise (忍者系研究者) @m_morise

ml.cs.yamanashi.ac.jp/world/index.ht… 今度こそ年内最後の更新です.D4Cのバグを修正しつつ最適化で若干の高速化を図りました.合成関数も安全性を増すための対策を入れています.

2016-12-31 17:01:27
M. Morise (忍者系研究者) @m_morise

github.com/mmorise/World GitHubのC++版も最後の更新.D4Cは摩擦音部分での無駄な処理をカットしたので,無声音が多い音声ほど恩恵があります.合成関数は1%くらい高速化しているはず.

2016-12-31 17:12:40
M. Morise (忍者系研究者) @m_morise

何気なくHarvestが入っているけど,何も貢献してないだけに申し訳ない感が半端ない twitter.com/chiteico/statu…

2016-12-31 21:12:29
ちていこ @chiteico

ステマ10選【番外編】 デスボイス連続音、CV-VC併用型連続音、母音ダイナミクス音源、フェードアウト語尾音素、キメラ音源、とっくん、Harvest、周波数トレーサー、WaveTone、うたすく、UTAらじ!、UTAUファッション誌企画、UTAUサークル(仮)、シン・にゃっぽん

2016-12-31 20:58:06
M. Morise (忍者系研究者) @m_morise

思い出すとUTAUのエンジン作ってから5年くらい経っていて,当時のWORLDより今のほうが明確に品質は上がっているから,今のWORLDで作り直せば品質UPできる.一方,Moresamplerで十分な気もしているw

2016-12-31 21:18:56
前へ 1 ・・ 13 14 次へ