HANASU用UTAU音源の進化がヤバイ

誰でも編集できますのでツイート足してください! また、関係ないもの混ざってたらごめんなさい。消してください
3
前へ 1 2 ・・ 14 次へ
おふとんP @joumonsugi

現状でこれだということは、機械的な原因は「均一な間」であって、録音方法は「しゃべり声を意識する」だけでここまで来れるということになる。 今の考え方自体は恐らく間違ってはいないな。

2016-08-15 20:45:45
おふとんP @joumonsugi

そうなると声質が全ての問題であることになる。 既存の表情音源を組み合わせるのだとしても、「しゃべり超えに近く、声質がそれなりに近い」ものであれば、先ほどのレベルのものが作れるということになる。 そうなると、「HANASU用」というものが存在するのかどうかが怪しくなる所である

2016-08-15 21:07:23
おふとんP @joumonsugi

しいて言うなら、語尾が無声子音になる場合の子音の長さが少し足りなくなるので、「s -」や「k -」という音素が必要にはなってくるかというところ。 あとは声質だけ調整できれば、再現性はたかくなるといえる。

2016-08-15 21:09:17
おふとんP @joumonsugi

@Tochi_re まさに、仰る通りです。母音の無声化はもちろん、有声発音でも単語などによって「ニュアンスによる変化」を起こす場合があります。

2016-08-15 21:18:11
Haruqaもち🍀ぽよんぽよん @niconicoHaruqa

ほえー。アクセントある地域の人ってこんなにナチュラルに声色かわるんか。Haruqaの無アクセントは伊達じゃなかったな・・・。(VCVC原音設定中) 逆に、無アクセントで読み上げてって言って読める人っているのかなぁ。

2016-09-02 22:14:13
Haruqaもち🍀ぽよんぽよん @niconicoHaruqa

一つ原音設定オワタ 計4.5時間。 中々かかりますなあ・・・。

2016-09-03 01:25:21
Haruqaもち🍀ぽよんぽよん @niconicoHaruqa

>読み辛いよ!! せやなぁ。 最初に技術説明系の録音リスト!!って言われたので、その方向で行ったけども、次のは実況系の録音リスト作りたいね。 twitter.com/niconicoHaruqa…

2016-09-03 19:09:34
Haruqaもち🍀ぽよんぽよん @niconicoHaruqa

あとね、BPM100の16分音符くらいってのも分かり辛いかもしれんね。 調声時BPM140の16分音符を基本としていたから、それより長い音素なら引き伸ばし劣化しないって奴だったけども、BPM400の4分音符って言ったほうが分かりやすかったかな・・・いや、逆に分かり辛いわ・・・。

2016-09-03 19:19:31
Haruqaもち🍀ぽよんぽよん @niconicoHaruqa

うーんギリギリオーバーラップに入れたい母音が短いんだよなー・・・。 「一文で息吐ききれるくらいゆっくり」とかに表現かえる? でも、文の長さがまちまちだから、伝わらないんだよなー・・・。 とりあえず、全文で25MBくらいの容量になるとちょうどいいんですよ。それだけは分かる。

2016-09-03 22:14:47
Haruqaもち🍀ぽよんぽよん @niconicoHaruqa

私としては、一定じゃないとどうも聞きづらくなってしまうもので…。ボイロ耳的な、ゆっくり耳的なものが進行してる気がする。

2016-09-04 11:26:28
Haruqaもち🍀ぽよんぽよん @niconicoHaruqa

文中のテンポを文末にかけて早くする。(だんだんはやくなる) とか 文中のテンポをランダムで変動させる。(ヒューマナイザ) とかなら、プラグインで実装できそうな予感。予感でしかないけども。

2016-09-04 11:35:39
おふとんP @joumonsugi

@niconicoHaruqa ナレーション的な技術として「感覚」は存在しますが、それを明文化することは難しいんですよね…… 「緩急をつけた読み方」を再現できれば、すごいリアリティを作れると思うのですが・・・

2016-09-04 11:40:03
Haruqaもち🍀ぽよんぽよん @niconicoHaruqa

@joumonsugi 全自動でってやつなら、大量の調整済みustサンプルもしくは、生声サンプル+音声認識+テンポ計算を使用して、パターン推定とかですかね…。 完全に経験則だより脳な解ですが。

2016-09-04 11:47:45
おふとんP @joumonsugi

@niconicoHaruqa うーんでも、読み方に個人差があることを考えると、そうなりますよね…… アナウンサーのような読み方であれば、かなり画一的な読み方として汎用性はあるかと思いますが。

2016-09-04 11:49:38
Haruqaもち🍀ぽよんぽよん @niconicoHaruqa

@joumonsugi アナウンサー…教本とかに、こういう時はこのテンポ変動でとか、ここは何ms間をとってとかあるんですかね…。ないだろうなぁ…。 結局は傾向の割り出し、解析にAI持ってくることになりそうな予感…ですよ?

2016-09-04 11:56:42
Haruqaもち🍀ぽよんぽよん @niconicoHaruqa

大事なところはゆっくり、強調して読むとか実現するなら、音声合成の前に文書から大事なところを認識するシステムが必要になる…。とか前もこんなこと言った気がしないでもない。

2016-09-04 12:00:28
Haruqaもち🍀ぽよんぽよん @niconicoHaruqa

あれ、ら行の子音って結構長い・・・?RよりかLよりかの違い・・・? 最初の完全な子音の後に母音の立ち上がりが長い。

2016-09-04 12:29:56
Haruqaもち🍀ぽよんぽよん @niconicoHaruqa

普通の人のしゃべり声ってこんなにテンポ変動するのか。私が機械的過ぎるのか・・・。たまに、しゃべり方機械っぽいよっていわれる人です。はい。 (VCVC原音設定中・・・)

2016-09-04 12:36:47
Haruqaもち🍀ぽよんぽよん @niconicoHaruqa

重複するエイリアスに通し番号つけてあったやつ、あとから付け直そうと思ったら、VCVCエイリアスだとsetParamのエイリアス一括変換使えなかったでござる。(%mを使うとVCVエイリアスになる) けど、エイリアス部分切り取って、サクラエディタで数字消したら何とかなったでござる。

2016-09-04 17:14:41
Haruqaもち🍀ぽよんぽよん @niconicoHaruqa

これは・・・これはおいしい音素ですな・・・(VCVC脳) pic.twitter.com/DJwt5huh0F

2016-09-04 17:18:58
拡大
Haruqaもち🍀ぽよんぽよん @niconicoHaruqa

そうそう、囁き音源だと音程感がなくなるからHANASUにつよい。

2016-09-04 17:46:33
Haruqaもち🍀ぽよんぽよん @niconicoHaruqa

ポップノイズゥ。 けど、HANASUにおいては、ポップするくらいの勢いで話してますよーっていう表現の幅になりそうな予感もしたりしなかったり。

2016-09-04 18:02:21
Haruqaもち🍀ぽよんぽよん @niconicoHaruqa

今度はHANASU用VCVC音源が人力勢に興味を待たれたようで。 私が言うVCVCは完全にHANASU用であるよ。逆に言って仕舞えばHANASUにしか使えないよ。 ロングトーンするならそれ用に原音用意するか、原音設定で切り直せばよかろう。

2016-09-06 20:16:38
前へ 1 2 ・・ 14 次へ