カテゴリー機能は終了いたしました。まとめ作成時にはタグをご活用ください。
21
Vocal-EDIT.com @VocalEdit_com
ビット深度によって変わるのはS/Nだけ。解像度は変わらない」という視点について
Vocal-EDIT.com @VocalEdit_com
PCM方式においては、ビット深度(16bitとか24bitとかいうアレ)が変わると、1サンプルごとにより細かい信号電圧が計測可能という説明がよくなされます。 実際そうなのですが、本当に「音の解像度」まで変わるのでしょうか?
Vocal-EDIT.com @VocalEdit_com
これもよく見かける図解で、ビット深度が増えることでサンプリングした信号波形がカクカクした線から比較的スムーズな線になっていたりします。しかし多くの場合、信号はD/A変換時にローパスフィルタを通過し、このようなカクカクはすべてスムーズな線として復元されます
Vocal-EDIT.com @VocalEdit_com
実際に計測器で見ても、D/A変換されたサイン波において16bitの方が24bitよりカクカクしているようなことはありません
Vocal-EDIT.com @VocalEdit_com
ではなにが変わるのかというと、ひとつ間違いなく変わるのはS/Nです。なぜかというと、ビット深度の差異や不足により、信号電圧値をもっとも近似するサンプルに丸め込まざるを得なかった場合、その誤差はホワイトノイズとなって現れます
Vocal-EDIT.com @VocalEdit_com
ビット深度が低い→サンプリングする目が粗いほど誤差も増え、ホワイトノイズも増えることになります。
Vocal-EDIT.com @VocalEdit_com
なんとなくビット深度が高い方が解像度が高いイメージがありますが、なんてことはない、累積した誤差はすでにホワイトノイズとして現れており、ビット深度の差異による元信号に違いはありません。
Vocal-EDIT.com @VocalEdit_com
…という考え方を信じるかどうかは皆様のご判断に委ねますし筆者自身の考え方も保留とさせていただきたいのですが、このような一派は存在します。 なお、中間ファイルのビット深度は高いに越したことはありませんが、こと最終媒体に関しては20bitもあれば十分という主張する派閥はこの辺りに由来します
Vocal-EDIT.com @VocalEdit_com
つまり20bit x 6dB = 120dBのダイナミックレンジ(S/N)もあれば、 ・ヒトが知覚できる最大値~最小値をカバーできる ・そもそもS/Nが120bB以上あってもD/Aや周辺機器の熱雑音が勝る という考えです。
Vocal-EDIT.com @VocalEdit_com
この世界観においては、32bit D/A A/Dの利点は特にありません。実際に音がアナログスルーに近いと感じたのであれば、それは32bitであったからではなく、周辺回路も含めた機器の設計のせいかもしれません。 ※という考え方が存在するというお話です。以上。
Vocal-EDIT.com @VocalEdit_com
ビット深度が増えるとS/Nは向上します。むしろ変わるのはS/Nだけという考え方です(続く。上の話はのちほど再訪問します twitter.com/pukumaro/statu…
Vocal-EDIT.com @VocalEdit_com
ビット深度が増えると図の1段目から2段目のように目が細かくなる説明がよくなされます。これはある程度事実ですが、実際にはD/A変換時にローパスフィルタでスムーズになるので、どちらもカクカクした音を聞かされるわけではありません(続く pic.twitter.com/ZQIXnsEaAF
 拡大
Vocal-EDIT.com @VocalEdit_com
じゃぁどっちも完全な正弦波「だけ」を再現しているかというとそうでもなく、ビット深度不足、解像度不足により実際の電圧値と丸め込まれた近似値の間の誤差は累積してホワイトノイズになります。このノイズのレベル差がビット深度の唯一の違いです(続く pic.twitter.com/PQcDS130Ts
 拡大
Vocal-EDIT.com @VocalEdit_com
で、ここまでで話題にしているのはあくまでもサンプリング時の量子化誤差(実際の電圧値と近似値間の誤差)により生じるノイズだけです。これが十分に低ければ、たとえばアナログ回路の素子が発するノイズが勝るため、無視できます pic.twitter.com/NRMGOGVp4x
 拡大
Vocal-EDIT.com @VocalEdit_com
あと、可聴レベル範囲ですね。たとえば人間が聴覚にダメージを受けることなく聴ける最大音量と知覚可能な最小音量の差が120dBとすれば(確かそのぐらいだったと思いますが概算です)、媒体もそれだけのS/Nがあれば十分と考えられます。現実には前述のように再生機器側がこの壁を超えていません
Vocal-EDIT.com @VocalEdit_com
それだけ爆音で鳴らすなら、やはりその範囲内でもビット深度を上げた方が信号精度は上がりそうな印象を受けますが、そこで「実際に変わるのはS/Nだけ」という最初の話に戻るわけです 以上…かな?
Vocal-EDIT.com @VocalEdit_com
逆ですね、カクカクしているのは高い周波数です。 矩形波にハイパスフィルタをかけると、奇数倍音が削られて徐々に丸くなり、同じサイクルでも基音である正弦波に近づくのをイメージしていただけるとわかりやすいかと思います twitter.com/OttomanSlime/s…
Vocal-EDIT.com @VocalEdit_com
@pukumaro スムーズになるのはD/A変換時ですが、ノイズは変換前のデジタルの状態のときから存在します。 PCM収録している時点で、近似値に丸め込まれたすでに各サンプルは元信号(あるいは理想値)との誤差を保持しているわけですので。DAW内で炊いた正弦波がスペアナVSTでノイズフロアを示すのもこのためです

DACには必ずローパスフィルタが入っているのか?というご質問に対して

Vocal-EDIT.com @VocalEdit_com
@ANG_Orchestra 1サンプルごとに上下往復する信号をご想像いただくとわかりやすいかと思いますが、ナイキスト周波数に等しい周波数の「矩形波」は、本来記録し得ない、原音にはないことがわかっている成分です。それを除去するためのローパス処理がD/Aではセオリーと理解しています。
Vocal-EDIT.com @VocalEdit_com
@ANG_Orchestra そのようになります。ちなみにエイリアスノイズ回避のためA/D変換時も通常はローパスフィルタを通過します(アナログorデジタルオーバーサンプリングのいずれの領域で実施するかについては各手法がありますが) 関心がおありでしたらこちらの本がお役に立つかもしれません amzn.to/31JDT6a
たけし@ロサンゼルス在住🇺🇸🇯🇵DTMer💻🎼🎸 @takeshiseo
同じ音源で24bitと8bitの聴き比べ♫ 「ビット深度によって変わるのはS/Nだけ。解像度は変わらない」 The truth about bit-depth and digital audio resolution youtu.be/Rc_-eavKptY via @YouTube twitter.com/VocalEdit_com/…
 拡大

# 最後に宣伝です…

Vocal-EDIT.com @VocalEdit_com
このスレッドの話題はカバーしませんが、似たアプローチで作業中の最適信号レベルなどを考察する(つまりより実用的な)章などが追加された、こちらをご案内しておきます。 pspunch.com/pd/talkback.ht…

コメント

SAKURA87@多摩丙丁督 @Sakura87_net 2019年6月16日
オーディオフリークな場面でのレビューを見ていると、そもそも細部の音まで聞こえる=小さい音も拾える≒S/N比が良いと言うニュアンスだから前提が違う気がする。
ねるにあ†Ridill @nelnia 2019年6月16日
オーディオ関連の説明や評価って「聞いた本人による個人の感想です」みたいなものばかりで、こういう電気的な(科学的な)説明をしていることが少ないから勉強になるわ
nekosencho @Neko_Sencho 2019年6月16日
音のほうは不勉強でよくわからんけど、画像だとたとえば600dpi白黒二値より300dpiフルカラーのほうが滑らかに見えたりするのはあるよね
小野阿久斗 @504timeout 2019年6月16日
Sakura87_net S/N比というのは信号/ノイズ比なので、これが良いということは元の音源に比べてノイズが少ないということです。つまり元の音源の細部の音がノイズに邪魔されず聞こえるということです。
Yeme @yer_meme 2019年6月16日
解像度の定義をはっきりしないと何ともっスね。
Tetsuo K @tetsuo_k 2019年6月16日
ビット深度なんて1bitでも解像度一緒だよ!ちょっとS/N比が劣化するだけだよ! てことを真顔で言っている人発見。
大和但馬屋 @yamatotajimaya 2019年6月16日
解像度を画像に対応させるならばビット深度はその画像で使える色の階調を示す。8bitなら256色、16bitなら65536色。解像度は1インチあたりに何ピクセルを表現するかという、ピクセルの小ささを表す。 「音の解像度」ならば一秒あたりの時間軸方向の情報量、即ち周波数に相当する概念であるはず。音のビット深度を「解像度」と最初に言ったのが誰か知らないけれど、画像との対比で言えばおかしいと思う。
大和但馬屋 @yamatotajimaya 2019年6月16日
tetsuo_k それは意味合いとして正しいですよ。サンプリング周波数が十分ならば1bitでサンプリングできます。昔のパソコンでビープ音のブザーでサンプリングした例がある様に。もちろんノイズまみれで聞けたもんじゃないですが。
大和但馬屋 @yamatotajimaya 2019年6月16日
音の解像度と言った時になにを表すか、ちゃんとした定義はあるのかしら。ビット深度の話、周波数の話、S/N比の話、鳴ってる音の定位の話etcが雑にまとめられて空疎な売り文句に使われちゃってる印象。エンジニアリング的にちゃんとした定義があるならすみません。
大和但馬屋 @yamatotajimaya 2019年6月16日
まあ画像の方もただピクセル数が多いだけの事を「解像度が高い」などと言っちゃうので雑な用語になってる。
m_c_turbo @m_c_turbo 2019年6月17日
同じLPFを使えばそうだけど、 LPFの最適パラメータが変わってきませんか?
ログインして広告を非表示にする
ログインして広告を非表示にする