歌声における基本周波数(fo)推定問題は的外れか

初音ミクに代表される歌唱合成ソフトではピッチ(音高)を操作するために基本周波数(F0,fo)という概念を用いている(そして結果は散々である)。我々ボカラーが今後それに対してどう向き合っていくべきかを考えさせるようなやり取りがTLに流れてきたのでまとめてみました。
8

DAWの世界では90年代後期に発売されたAuto-Tuneから推定された基本周波数を"ピッチ"と称してピアノロールのノート上に描画できる機能が付き始めたと記憶しています。

VOCALOIDの世界では2014年にVOCALOID4でようやくその機能が追加されました。

https://youtu.be/n9r29pLHrqg?t=29

そしてこれは2018年発売のVOCALOID5においても"ピッチ"として表示され続けています。我々VOCALOIDユーザーが目にし続けているこの推定された基本周波数は歌声研究の最前線でどのような扱いなのでしょうか。

Hideki Kawahara: WAH (Work@Home)6x💉ppmppm @hidekikawahara

そもそもfoが常に存在するという概念自体が間違っている。問題設定が間違っているので、DNNを使っても何を使っても解ける訳がありません。と、いつも言っているのですが。。。舌足らずで申し訳ないけれど。 twitter.com/m_morise/statu…

2020-07-21 17:30:09
M. Morise (忍者系研究者) @m_morise

音声や歌声のF0推定,いまだに高精度な推定法をDNNで解くって出てきていない気がする.論文自体はあるんだけど,評価に使っている方法が古くて参考にならぬ(それでも査読に通っているのが不思議).

2020-07-21 17:21:49
Ken-Ichi Sakakibara @quesokis

そうfo estimationではなくanalysisでもなくmanipulationが本質に近いかな

2020-07-21 21:20:12

【前提】ピッチと基本周波数の違いについて

"音声分野では,「ピッチ抽出」「ピッチ駆動ボコーダ」のように,有声音の基本周波数の別称としてピッチという用語が広く用いられています。一方,聴覚分野では,基本周波数とピッチは全く別概念です。一言で言えば,基本周波数は物理量ですが,ピッチは心理量,つまり主観的な属性なのです。
 何故両者を区別しなければならないかと言えば,要するに両者は単純に対応しないからです。"

"聴覚のメカニズムを分析したり,人間の振る舞いを予測したりする上では,心理量と物理量の違いを認識し,その関係を定量的に考察することが,まず基本となります。それが心理(精神)物理学という学問の役割です。恐らく,このような問題が無関係である分野も存在するでしょう。そういう分野内で議論が閉じている場合にはあまり問題ないのですが,分野をまたがる場合には,用語の違い,ひいてはその背後にある問題意識の違いが顕在化する可能性があります。学際的な研究の重要性は今後ますます高まるでしょうから,無用の混乱を避けるためにも,用語法には注意を払うべきだと考えます。"

(柏野牧夫:NTTコミュニケーション科学基礎研究所)
https://acoustics.jp/qanda/answer/101.html

Hideki Kawahara: WAH (Work@Home)6x💉ppmppm @hidekikawahara

昨年は、基本周波数をfo(エフオー)と書いて「お前はF0も知らない素人なのか!」と査読で罵倒されて落とされたので、今回は、うるさく脚注で引用して明記した。2015年にまとまった議論。概念の普及速度を過大評価していた。去年の投稿で、そろそろ市民権を得ていると思って説明を省略したのが敗因。 pic.twitter.com/zId5tix5cw

2020-05-12 22:37:53
拡大
拡大
Hideki Kawahara: WAH (Work@Home)6x💉ppmppm @hidekikawahara

と言うか、そもそも何を求めたいのか、概念を整理し直す必要があると思っています。 twitter.com/forthshinji/st…

2020-07-21 17:31:18
Hideki Kawahara: WAH (Work@Home)6x💉ppmppm @hidekikawahara

その「精度」という言葉をどう定義するかが問題。fo推定装置をFM復調機構と考えると、FVNを使って線形時不変応答成分、非線形時不変応答成分、ランダム・時変成分を分離評価する方法が有望だと踏んでいます。しかし歌声に使う場合には、立ち上がりやカオス状の現象に対する振舞いの方が品質に影響する twitter.com/m_morise/statu…

2020-07-21 17:45:45
M. Morise (忍者系研究者) @m_morise

概念が間違っていたとしても,入出力の辻褄を合わせる問題だと割り切れば,最先端の方法と互角以上の精度で推定できて良いと思うわけです. twitter.com/hidekikawahara…

2020-07-21 17:39:12
Hideki Kawahara: WAH (Work@Home)6x💉ppmppm @hidekikawahara

良い歌声が出来れば良いので、foという原始的な概念は、DNNの時代には捨ててしまえば良いと思っています。データも計算パワーも今の10^(-6)以下だった時代に作られた概念に、足を引っ張られる必要はありません。ヒントに使える程度の疎な情報として割り切れば良いと思います。 twitter.com/m_morise/statu…

2020-07-21 17:56:48
M. Morise (忍者系研究者) @m_morise

DNNは,他分野を含め様々な既存の問題で人間以上の性能を叩き出して世界を塗り替えてきたわけですけど,基本周波数推定は「精度の定義」が違うから既存の方法に劣る,というのはどうも釈然としないです.むしろ,人間の考えた信号処理を軽々越えつつ,新たな精度の定義を拓いてほしいわけです. twitter.com/hidekikawahara…

2020-07-21 17:52:21
Hideki Kawahara: WAH (Work@Home)6x💉ppmppm @hidekikawahara

それは、解かせようとする問題の正解を、既成概念に囚われた人間が設定しているからでは?要するに、正解の作り方(概念自体)がフェアではない。 twitter.com/m_morise/statu…

2020-07-21 18:06:02
M. Morise (忍者系研究者) @m_morise

それはそのとおりだと思います.単純に,色々な問題を同じ土俵で凌駕してきたDNNが,基本周波数推定では人間の考えた方法に劣る,という現実が釈然としないだけです. twitter.com/hidekikawahara…

2020-07-21 18:01:49
Hideki Kawahara: WAH (Work@Home)6x💉ppmppm @hidekikawahara

DNNが良い性能を出したのは、最終的な課題の解決の場合。基本周波数推定問題は、課題を解決するシステムを人間の(能力の)都合で、部分問題を解くシステムに(不適切に)分割した際の、システム間で渡される表現を求めることに相当していて、最終的な課題の解決という問題ではない。で、筋が悪い。 twitter.com/m_morise/statu…

2020-07-21 18:33:00
M. Morise (忍者系研究者) @m_morise

それって,これまでDNNが性能を発揮してきた他の問題でも同じことがいえると思っていて,基本周波数推定問題だけ特別になる理由とはならないんじゃないかな,と. twitter.com/hidekikawahara…

2020-07-21 18:09:18
Hideki Kawahara: WAH (Work@Home)6x💉ppmppm @hidekikawahara

DNNが良い性能を出したのは、最終的な課題の解決の場合。基本周波数推定問題は、課題を解決するシステムを人間の(能力の)都合で、部分問題を解くシステムに(不適切に)分割した際の、システム間で渡される表現を求めることに相当していて、最終的な課題の解決という問題ではない。で、筋が悪い。 twitter.com/m_morise/statu…

2020-07-21 18:33:00
Hideki Kawahara: WAH (Work@Home)6x💉ppmppm @hidekikawahara

はい。その判断には同意しません。「基本周波数推定問題」と問題を設定する限り、データー量は、問題の解決にはなりません。むしろ、適切なend-to-endの課題を設定し、DLを用いて研究することから「基本周波数」を止揚するような新しい概念が生まれて来ることを期待しています。 twitter.com/m_morise/statu…

2020-07-21 19:09:30
M. Morise (忍者系研究者) @m_morise

それにはいまいち同意しかねます.音声合成もはじめはモジュール単位でのDNN化から始まり,既存の方法より精度を出していたためです.それよりは,全さんご指摘の「学習データ量が足りない」に説得力を感じました. twitter.com/hidekikawahara…

2020-07-21 18:57:19
Hideki Kawahara: WAH (Work@Home)6x💉ppmppm @hidekikawahara

EGGはあまり助けになりません。生のEGGからGCIを求めることは実際には難しい問題です。GCIも実際の波形を見ると、声門の閉止が一瞬ではなく複数の段階があるなど、定義が困難な概念です。「解くべき問題は、本当は何か」を真剣に議論しようとすると泥沼にはまります。で、実際にはまっています。 twitter.com/hidekikawahara…

2020-07-21 19:21:30
Hideki Kawahara: WAH (Work@Home)6x💉ppmppm @hidekikawahara

そのように問題を設定すれば、適当なブートストラップ機構を工夫して強力な火力で仕上げると、簡単に従来法を蹴散らしそうな気がします。信頼できるデータは、最初だけ与えて、後は勝手に自動的にデータの加工も含めて進化してもらう。誰か、既に始めていそうなものですが。。。 twitter.com/m_morise/statu…

2020-07-21 19:42:15
M. Morise (忍者系研究者) @m_morise

それら未来のビジョンには概ね賛同しますが,現状の私の興味とは無関係なのです.問題設定の価値は一切気にせず,純粋に「信頼できるデータを十分に確保できた場合,DNNによる基本周波数推定は,同じ土俵で既存の信号処理を上回れるか」という問いのみを考えています. twitter.com/hidekikawahara…

2020-07-21 19:34:22
Hideki Kawahara: WAH (Work@Home)6x💉ppmppm @hidekikawahara

人間の介在のための手がかりとして、foは有効・便利です。しかし、抽出に根性を入れて頑張る必要はなく、1モーラに一点(細かな工夫のためにもう一、二点?)程度を設定し、後はDNNに適当に意図を汲んでもらうので良いと思っています。半世紀前の「点ピッチ」がヒント。 search.ieice.org/bin/summary.ph… twitter.com/m_morise/statu…

2020-07-21 23:16:19
M. Morise (忍者系研究者) @m_morise

後は先ほどの問題設定のお話にも繋がるのだけど,End-to-End音声合成のためのDNNであれば基本周波数は不要になったとしても,音声デザインのためのDNNだと必ずしも不要とは言い難い.音声生成過程に人間が介入することを考えると,End-to-Endとは異なる問題設定になるわけです.

2020-07-21 22:49:43
Hideki Kawahara: WAH (Work@Home)6x💉ppmppm @hidekikawahara

点ピッチの概念の発明者の橋本新一郎さんは、その後セコムの研究所長になり、以下で、自分の研究の歴史を振り返っています。その資料の、252ページの右側の段に、点ピッチの説明があります。35年ほど前、自分でもリハビリ用に、点ピッチの音声合成器を作って遊んでみました。 jstage.jst.go.jp/article/bplus/… twitter.com/hidekikawahara…

2020-07-21 23:25:53

点ピッチについて

"実際に発音された単語音声のピッチパターンと、各母音エネルギーの重心点におけるピッチ周波数を直線で結んだピッチパターンとで合成した2つの合成単語音声のアクセント感はほとんど区別がつかないのです。このことから筆者は、単語音声の各母音エネルギー重心点において実現される離散的ピッチ周波数系列がアクセントの本質を表しているとして、これを点ピッチパターンと呼ぶことにしました。なお、点ピッチパターンの発想に関しては、1960年頃、第二伝送研究室でピッチ変化の聴覚への影響を研究していた越川常治研究主任が言われた言葉「橋本君、人は音声エネルギーの大きな所でピッチ周波数を聞いているらしいんだ」が頭の片隅にあったことによっています。"

https://www.jstage.jst.go.jp/article/bplus/5/3/5_3_248/_pdf

おまけ

橋本新一郎さんに関連して日本語のリズムについての資料を教えて頂いたので追加しました。母音部エネルギー重心点(CEGV)カッコいい。

Shigekazu Ishihara @shigekzishihara

@PSGOZMIKU jstage.jst.go.jp/article/jasj/5… 加藤 雅代, 古村 光夫, 橋本 新一郎(1994) 母音部エネルギー重心点に着目した日本語リズム規則, 日本音響学会誌, 50(11), 888-896. doi.org/10.20697/jasj.… 論文読まれました?

2020-07-22 20:11:35