とある科学の人力vocaloid ―あるツール開発者と研究者からの視点―

あるキャラクターの音声を切り貼りし別な曲を歌わせる人力vocaloid。最近では本当に人が歌っているかのようなものまで聴かれるようになりました。 素人目には驚くことしかできないこの「わざ」を、科学・技術的な面から見るとどうなのか、私は興味を持っていました。Twitterのおかげで二人の方にお話を伺う機会を得ましたので、まとめておきたいと思います。 お話を聞いた一人は「VOCALOIDメタテキストとUTAU単独音音源情報からSTRAIGHT Libraryを使用して歌声様の音声を合成するソフト」である『v.Connect』の開発者、修羅場P(@shurabaP)。 続きを読む
16
しゅらぴばー @shurabaP

強弱の切り替えって意味でもドリ音Pの人力が一番すさまじい…

2010-10-21 23:37:46
jabrafcu @ja_bra_af_cu

@shurabaP やっぱり合成音声を研究する立場からみてもすごいのでしょうか。素人目には全部UTAUでいうとこの単独音+クロスフェードでやってるらしいというのがすごそうと思うのですが。

2010-10-21 23:42:00
しゅらぴばー @shurabaP

@ja_bra_af_cu いあー、僕のは研究じゃないのでなんともです。要するに完全に手作業ですよね。あそこまでの作業量とこなせる愛が凄いんだと思います…連続音録音なんかは汎用性を持たせた結果、変化が無いためのっぺりしちゃうんです。

2010-10-21 23:43:29
jabrafcu @ja_bra_af_cu

@shurabaP 具体的にどういう作業なのかわからないのですが、倍音を直にいじったり、一音作るのに10くらいの音声をつないだりとかなさってるそうですね。 イメージを具現化するスキルとそこまでいじり続けるのがすごいのでしょうね・・・愛のなせるわざなのかな~。

2010-10-21 23:50:32
しゅらぴばー @shurabaP

@ja_bra_af_cu 音を旋律やその場の音楽に合うように変形してるんでしょうね…連続音からツールで合成する場合誤魔化しがあるんですよ、そこをちゃんとつめていくイメージ。といっても歌声がちゃんとイメージできないとそもそも無理な作業を神業的にこなしてしまうから凄いです。。。

2010-10-21 23:55:39
jabrafcu @ja_bra_af_cu

@shurabaP ごまかしというか、ツールが助けてくれる部分ですよね、普通はw それにしても歌い癖が完全に本人の特徴をつかんでますよね。それがあるから逆に音質が少々悪くても気にならなかったりするのかも。

2010-10-22 00:04:46
しゅらぴばー @shurabaP

@ja_bra_af_cu 収録法からくる誤魔化しが大きいと思います。収録法での誤差ですね。本人らしさは手動ぼかりす的な部分が大きいかも…いずれにせよ歌声が見えてないとあんなことはできそうにないですね…

2010-10-22 00:14:22
jabrafcu @ja_bra_af_cu

@shurabaP 手動ボカリスとは言い得て妙なw その曲・その歌に特化した調声の強みということでもあるわけですね。汎用性をもった歌わせるツールはまた別な方向をむいていてもいいということでもあるのでしょうね。

2010-10-22 00:27:50
しゅらぴばー @shurabaP

@ja_bra_af_cu 個人的にはドリ音Pのインタビューは改めてちょっと衝撃的でしたけどね(笑)ツールだからできることもありそうですが、ドリ音Pがいるからこそまだまだやれることが大きい保証になるのが一番かなぁとw

2010-10-22 00:32:26
jabrafcu @ja_bra_af_cu

@shurabaP 切り貼りでここまで人間の歌を再現できるんだ!って思いますよね、やっぱりw その辺、m_moriseさんとか歌唱合成研究してる方からみるとどう思われるのかな~って興味がありますw

2010-10-22 00:37:07
しゅらぴばー @shurabaP

@ja_bra_af_cu 確かにそこまでやるか!ってくらい叩いて作ってるような感触ですしね…僕みたいのからするとまだやれるんだほー、になるわけですけど。。。ただクリエイターは神業的にツールを使いこなす人なので、技術周りとは案外接点が無いような気もします。

2010-10-22 00:38:59
jabrafcu @ja_bra_af_cu

@shurabaP そうか~。確かに時間と労力を注ぎまくって歌を仕上げることと、合成音声をつくる技術とでは関心の向きが違うのかもですね。関心の重なったところにぼかりすがあるのかも知れませんが。

2010-10-22 00:50:49
しゅらぴばー @shurabaP

@ja_bra_af_cu ぱっと見たところ、自動化というのが結構問題になってるっぽい気がします。職人による編集の余地をあんまり残さないような研究が多いです。ある意味当たり前なんですけどね。多分最終的にやることはそんなに違わないですが出てくるものが大分違う印象です。

2010-10-22 00:52:48
jabrafcu @ja_bra_af_cu

@shurabaP 技術者としては自動で歌ってくれるまでいけた方がすごいけど、楽器として使いたいユーザーはある程度自分の思うように歌って欲しいわけですものね。この辺は「歌声」合成のおもしろいところですね。

2010-10-22 01:06:35
しゅらぴばー @shurabaP

@ja_bra_af_cu ですね。沢山視点があった方が楽しいです。といいつつアマチュアのプログラム側からのアプローチが少ないのが僕は寂しいですがw それでも夏の研究会のときの後藤さんなんかは今がチャンスだ!みたいな感じでしたね(笑)

2010-10-22 01:09:51
jabrafcu @ja_bra_af_cu

@shurabaP 楽器奏者視点で外野からつぶやくくらいしかできないのに、いつも絡んでいただいてありがとうございますw おやすみなさいませ~。

2010-10-22 01:21:24
jabrafcu @ja_bra_af_cu

───────────────以上 修羅場Pのお話───────────────

2010-11-13 05:28:24
jabrafcu @ja_bra_af_cu

この話のあと、私ja_bra_af_cuは森勢先生にお話を聞けたらと思い、機会をうかがっていたのでした。しばらくして先生が人力vocaloidのことをツイートされたのを見て、話しかけてみたのが以下のやりとりです。

2010-11-13 05:37:28
jabrafcu @ja_bra_af_cu

──────────────以下 森勢将雅 先生のお話─────────────

2010-11-13 05:28:35
no-nasi @noname357987

個人的にはUTAUがMT車、VOCALOIDがAT車で、Sinsyは電車なイメージ。

2010-10-30 21:29:28
M. Morise (忍者系研究者) @m_morise

我輩としては,UTAUもVocaloidもスポーツAT,SinsyはAT,ツール無しの人力がMTと認識しています.

2010-10-30 22:06:51
jabrafcu @ja_bra_af_cu

@m_morise 人力ボーカロイド!もしやドリ音PやハロPをご存じでらっしゃるのでしょうか?

2010-10-30 22:08:59
M. Morise (忍者系研究者) @m_morise

@ja_bra_af_cu はい.有名人や面白いことをやっている人,周りから紹介された動画はほとんどチェックしております.

2010-10-30 22:19:03
jabrafcu @ja_bra_af_cu

@m_morise おお~、そうですか。実はドリ音Pのロボキッスが声優さんの歌い方をほぼ再現してるのを聴いて、研究者のかたかた見るとどうなのだろうねとアイマスクラスタの人と話していたので、話しかける機会をうかがっておりましたw。

2010-10-30 22:26:51
M. Morise (忍者系研究者) @m_morise

@ja_bra_af_cu 声優さんの元まで辿っておらずご期待には沿えませんが,私見では人間の聴覚と歌唱制御のセンスは素晴らしいと考えています.自動作曲も調音もあくまで「ルール」通りなので,人間ならではのルールから「逸脱」した調音は,計算機では無理だろうと考えています.

2010-10-30 22:40:52