森勢さんがUTAUの「人間らしさ」についてコメント!
- maiko3tattun
- 33191
- 4
- 1
- 1
今日ちえさんと「機械が人のように感情を込めて歌うことが出来たらすごくロマンがあると思うし、そうするための技術が完成したら最高だと思う」って話をした。出来るようになるかなあ。
2014-12-30 23:18:45@m_morise おお…!年々ほんと進歩が凄まじいなあと感じております。そのうち実現してくれたらいいなあ…(`・ω・´)
2014-12-30 23:23:57人間らしく表情豊かに歌わせる技術ってのは歌声合成の1つの目標ではあるけど,実現には信号処理だけではなくて歌手の協力者など色々な分野のエキスパートが必要なんだよね.なので,本格的に取り組むにはかなり大きなプロジェクトになるし予算も必要になる.
2014-12-30 23:27:53なので,今の研究テーマに縛りがあるポストだとやりたくてもやれんのです.ただ,信号処理的側面にもまだまだ課題はあるので,先にそっちを詰める形でこっそり継続しています.
2014-12-30 23:30:49@m_morise わーい!これは何%くらい人間っぽいですか?→nicovideo.jp/watch/sm252416… 足りない部分ってなんでしょう?
2014-12-31 14:54:32【UTAわせてみた】crossing field/歌幡メイジ【UTAU】 (4:11) nico.ms/sm25241667 #sm25241667 せっかくなので,反論受け付ける意味でオープンにして,「人間らしさ」という観点から語らせて頂きます.いくつかに分けます.
2014-12-31 15:00:42【UTAわせてみた】crossing field/歌幡メイジ【UTAU】 (4:11) nico.ms/sm25241667 #sm25241667 まず,音源情報の再掲.楽曲,動画は度外視で,「人間らしさ」にのみ焦点を当ててコメントします.突っ込み歓迎です.
2014-12-31 15:14:49全体の評価はあんまり参考にならないですけど,個人的に聴いてきた中では85点くらいです.全体的に人間と言われて遜色のないレベルなのですが,特定の部分で苦手なところがあって不気味の谷にはまっている,という印象を受けました.具体的なところは以下で順番に.
2014-12-31 15:16:50一番引っかかったのが,「た」と「む」の一部で極端に「人間らしさ」が落ちているところ.た行が特に弱い印象ですけど,全てが悪いわけではないです.予想ですけど,収録時のテンポから大きく時間伸縮をかける際,子音に近いところまで変換されているような音色を感じました.
2014-12-31 15:18:59なので,曲中のテンポと収録時のテンポが一致する場合の品質はほぼ完璧な一方,妙な音色になるところもありました.具体的には,0:20くらいからの「ままに」の2文字目の「ま」が該当します.
2014-12-31 15:20:32近いところで0:50くらいの「高く跳んだ」の「だ」も子音から母音に移り変わるところで音色が変な印象を受けています.
2014-12-31 15:22:49次が,ピッチ変換による音色の不整合です.これはまぁピッチ制御そのものの問題なのですが,特に低い方向にシフトさせると音色が変になります.
2014-12-31 15:24:07ある程度は頑張って調音でカバーできるのですが,高い音高→低い音高にポルタメント気味にシフトさせる場合,人間味の無い音色変化になります.こちらの具体例は,1:10の「強くいれた」の「た」です.
2014-12-31 15:25:381フレーズ全体が低い場合はそこまででもないのですが,該当部は1つ前の「れ」と次の「た」の音高差がかなり大きいので,「た」のピッチシフトによる音色の違和感がモロに出ているように聴こえます.
2014-12-31 15:26:40メイジは原音がハキハキしててタ行とかの子音の前の無音部分が長いから、早口な曲だとほぼ前の母音がなくなって単独音みたいになってしまうので、子音速度上げまくってる
2014-12-31 15:31:28