KotonoSyncに関するtipsまとめ

スズモフ(@suzu_dov)氏制作のVoiceroid用リズム自動調整アプリ【KotonoSync】(http://ch.nicovideo.jp/suzumf/blomaga/ar1073288) に関する技術/運用ツイートまとめです。 アプリの基本的な使用方法及び詳細についてはツール製作者であるスズモフ氏のブロマガ (http://ch.nicovideo.jp/suzumf) をご覧下さい。 続きを読む
4
ueda@アカウント引っ越しました @ueda_nanka2

追記したりした: ボイスロイド版結月ゆかりを歌わせる時の注意点|ueda用保管庫 nankatukuru.iku4.com/Entry/23/

2016-09-28 20:04:04
スズモフ @suzumooof

この前投稿したチャッキー動画のボカロ調整を少しだけ晒してみる 下のコントロールパラメータはXSYとVELを表示してます XSYは変換設定で話速目標値の変動に割り当てています(盛り上がってる部分は話速高めにする指示) VELは値が48以下になったら促音を追加するようにしてます pic.twitter.com/ZGQJIEFdUy

2016-09-28 21:08:49
拡大
スズモフ @suzumooof

これの自動調整の結果はこんな感じ 「ここにいなー」の伸びる部分の発音がそのままだとどうも変な感じになったので直前までの長音数を意図的に増やす事で若干発音の仕方を変化させました(苦肉の策) pic.twitter.com/pjnJfn5BK4

2016-09-28 21:14:17
拡大

その他/仕様的な話

スズモフ @suzumooof

多分言ってなかったKotonoSyncの仕様。ノートの長さとかPITとかVSQX内のパラメータを変更すると別フレーズ扱いになってKotonoSyncでリズムの再調整が必要になりますが、DYNだけは変更しても音のタイミングに影響しないので高速で再調整できます。#KotonoSync

2016-09-11 11:21:14

スズモフ @suzumooof

#KotonoSync ではリズム調整に対してある程度の解決方法を示しているけど、そもそもどういうリズムで歌わせるかは製作者のさじ加減だったり。ほかにも音程の限界とか音を伸ばしたときの不安定さとか微妙な発音の違和感とかそもそも歌として気持ちよく聞こえるかとか問題は山積みなのです。

2016-09-19 20:31:10
スズモフ @suzumooof

KotonoSyncは仕様上、そのノートの最初のモーラの話速を最優先で合わせるようにしていて長音符号部分の話速は二の次になっています。これは最初のモーラの話速をある程度固定させないと自動調整が困難になるからです。

2016-09-19 20:36:04
スズモフ @suzumooof

そして長音符号部分は話速がすべて同じ数値になります。「ラーーーー」と歌わせたときに微妙なタイミング調整のために話速を1.00/1.50/1.50/1.50/1.51みたいに一つだけ0.01話速上げたりとかそういう調整をしている場合はありますが、基本的にはそんな感じです。

2016-09-19 20:39:11

スズモフ @suzumooof

言う機会があまりなさそうなのでちょっとだけKotonoSyncのリズム調整仕様の話。

2016-10-21 07:56:25
スズモフ @suzumooof

KotonoSyncはボイロの音声をVC(母音-子音)の組み合わせに分けて音の長さを分析し、そこから話速を調整していくことで目的の長さに合わせます。 #KotonoSync

2016-10-21 07:58:27
スズモフ @suzumooof

前に投稿した記事にも書いたんだけどボイロで設定可能なパラメータの中で唯一音量だけが音の長さなどの喋り方に影響しません。話速は当然として高さ・抑揚・無声化・アクセントなども音の長さ変動の要因になります。

2016-10-21 08:00:53
スズモフ @suzumooof

そして音量の特徴として値の影響する範囲がCV(子音-母音)ではなくVC(母音-子音)になります。この場合は変更対象のモーラの子音と直前のモーラの母音部分です。なので普通に喋らせる場合はここを意識してないと音量調整時に不自然な変化になってしまう事がある・・・かも?

2016-10-21 08:03:18
スズモフ @suzumooof

歌では音符の始まりのタイミングを「子音」ではなく「母音」の位置を合わせる必要があるので、ボイロのこの仕様を逆手に取って1音ずつ音量のオンオフを切り替えながら子音の開始位置を探っていきます。

2016-10-21 08:05:28
スズモフ @suzumooof

一回の時間計測を行うのに最低二つのフレーズを生成します。音量を1音ずつ1,0,1,0,1,0,…で切り替えたフレーズと、0,1,0,1,0,1,…で逆のパターンにしたフレーズです。片方だけ再生すると1音ずつ音が途切れますが、二つの音声を合成すると綺麗に元通りの音声になります。

2016-10-21 08:12:32
スズモフ @suzumooof

ここで出力した二つのWAVEファイルの波形からどのタイミングで音のオンオフが切り替わるかを検出して母音の開始位置を分析します。ただし実際には音量が0以外の場合でも全く音が発音されないような場合があったり末尾の音だけは他と違う挙動をしめしたりと例外もあるのでそこは工夫が必要です。

2016-10-21 08:15:20
スズモフ @suzumooof

ここまでで音の長さの測定は出来るようになったのであとはそれを合わせて話速を変えてやればリズム調整は完成・・・と言いたい所なんだけどこの話速調整が極めて厄介でむしろここまで出来るようになってようやくスタート地点に立てたくらいの感じ。

2016-10-21 08:19:03

KotonoSyncはバージョンアップによって多くの仕様変更/機能追加がなされていますので、現行の仕様/機能について詳しくはスズモフ氏の「KotonoSyncの紹介と更新履歴」まとめを確認してください。

まとめ KotonoSyncの紹介と更新履歴 これまでに呟いてきたKotonoSyncの更新内容や使い方などについてのまとめです。 28010 pv 82 1 user