S6-Chap6-Basics of Digital Audio-2025

Chap6-Basics of Digital Audio

6.1 Digitization of Sound

聲音是什麼 (What is Sound?)

alt text

聲音是一種像光一樣的波動現象，但它是宏觀的，涉及空氣分子的壓縮和膨脹。
例如，音響系統中的揚聲器前後振動，產生我們感知為聲音的縱向壓力波。
由於聲音是壓力波，它具有連續值，而不是數位化的離散值

alt text

即使聲音是縱向壓力波，它仍然具有普通的波動特性和行為，例如反射（反彈）、折射（進入不同密度的介質時改變角度）和繞射（繞過障礙物彎曲）。
如果我們希望使用聲音波形的數位版本，我們必須形成音訊資訊的數位化表示。
訊號可以分解為正弦波的總和。圖 6.1 展示了加權正弦波如何構成相當複雜的訊號。

alt text

音高、頻率、八度和諧波的概念

alt text

頻率是一個絕對的度量，而音高 (pitch) 通常是相對的 - 一種對聲音的主觀感知品質。

(a) 音高和頻率相關，例如中央 C 上方的 A 音被設定為精確的 440 Hz。
(b) 八度 (octave) 是頻率翻倍的音程。比 440 Hz 的 A 高一個八度是 880 Hz。
(c) 諧波 (harmonics) 是頻率為基音頻率整數倍的一系列樂音。
(d) 如果允許非整數倍的基頻，就會有更多的泛音，聲音也會更複雜。

下方展示了一個鋼琴鍵盤，標註了從 A0 到 C8 的不同音符。

6.1.2 Digitization

數位化 (Digitization) 意味著轉換為數字流，並且為了效率，這些數字最好是整數。
圖 6.2 顯示了聲音的一維特性：振幅值取決於一個一維變數，即時間。（注意，圖像的數值取決於二維變數，x 和 y）。

alt text

數位化的過程

alt text

包括取樣和量化：

為了數位化訊號，必須在每個維度上進行取樣 (sampled)：時間和振幅。

(a) 取樣 (Sampling) 意味著以通常均勻間隔測量我們感興趣的量。
(b) 時間取樣只是在均勻的時間間隔進行測量，其速率稱為取樣頻率 (sampling frequency)。
(c) 音訊的典型取樣率從 8 kHz 到 48 kHz。這個範圍由之後討論的奈奎斯特定理決定。
(d) 振幅或電壓維度的取樣稱為量化 (quantization)。

alt text

這張圖片展示了取樣和量化 (Sampling and Quantization)：

(a) 時間取樣 (Sampling the analog signal in the time dimension): 圖 (a) 顯示了在時間維度上對類比訊號進行取樣。藍色的垂直虛線表示以均勻的時間間隔對連續的類比訊號（黑線）進行測量。
(b) 量化 (Quantization is sampling the analog signal in the amplitude dimension): 圖 (b) 顯示了在振幅維度上對類比訊號進行量化。紅色的水平虛線表示將連續的振幅值近似到離散的量化級別。類比訊號（黑線）的振幅被映射到最接近的紅色水平線。

如何數位化音訊數據需要回答的問題

alt text

取樣率是多少？ (What is the sampling rate?)
數據的量化精細度如何？量化是均勻的嗎？ (How finely is the data to be quantized, and is quantization uniform?)
音訊數據如何格式化？（檔案格式） (How is audio data formatted? (file format))

6.1.3 Nyquist Theorem

奈奎斯特定理 (Nyquist theorem)

alt text

奈奎斯特定理 (Nyquist theorem) 和取樣率對訊號重建的影響：

奈奎斯特定理指出為了能夠恢復原始聲音，我們必須以多高的頻率在時間上進行取樣。
(a) 圖 6.4(a) 顯示了一個單一的正弦波：它是一個單一的、純粹的頻率（只有電子樂器才能產生這樣的聲音）。
(b) 如果取樣率恰好等於實際頻率，圖 6.4(b) 顯示檢測到一個錯誤的訊號：它只是一個常數，頻率為零。

alt text

(a) 如果以實際頻率的 1.5 倍進行取樣，圖 6.4(c) 顯示我們得到一個錯誤的（混疊）頻率，它比正確的頻率低——它是正確頻率的一半（波長是實際訊號的兩倍）。
(b) 因此，為了正確取樣，我們必須使用至少等於訊號中最高頻率成分兩倍的取樣率。這個速率稱為奈奎斯特速率 (Nyquist rate)。

alt text

總結

alt text

奈奎斯特定理和相關概念

正弦波的顯現頻率 (apparent frequency) 以及頻率摺疊 (frequency folding)

alt text

一般來說，正弦波的顯現頻率是具有與輸入正弦波完全相同的樣本的最低頻率的正弦波。圖 6.5 顯示了顯現頻率與輸入頻率的關係。
圖 6.5：以 8,000 Hz 取樣的正弦波頻率的摺疊。摺疊頻率（以虛線表示）為 4,000 Hz。
圖表顯示，當真實頻率從 0 Hz 增加到取樣頻率的一半（即奈奎斯特頻率，此處為 4,000 Hz）時，顯現頻率也線性增加。然而，當真實頻率超過奈奎斯特頻率時，顯現頻率會開始下降。當真實頻率達到取樣頻率時（8,000 Hz），顯現頻率又變回 0 Hz。之後，顯現頻率再次開始增加。這種現象稱為頻率摺疊，奈奎斯特頻率（取樣頻率的一半）也稱為摺疊頻率 (folding frequency)。

簡單來說，顯現頻率就是我們實際聽到的頻率，它可能和原始聲音的真實頻率不一樣，特別是在數位化取樣的過程中。

頻率摺疊就像一面鏡子，以奈奎斯特頻率（取樣頻率的一半）為中心。

當原始聲音的真實頻率低於這個中心點時，我們數位化後聽到的顯現頻率和原始頻率是一樣的。
但是，當原始聲音的真實頻率高於這個中心點時，數位化後聽到的顯現頻率就會「摺疊」回來，變成一個較低的頻率。而且原始頻率越高，摺疊回來的顯現頻率就越低，然後又開始升高。

圖表的意思是：

假設我們的數位化取樣率是 8000 Hz。那麼，摺疊頻率（中心點）就是 4000 Hz。

如果原始聲音的頻率是 1000 Hz，那麼我們聽到的也是 1000 Hz。
如果原始聲音的頻率是 3000 Hz，那麼我們聽到的也是 3000 Hz。
但是，如果原始聲音的頻率是 5000 Hz（高於 4000 Hz），那麼我們聽到的就會是 |8000 - 5000| = 3000 Hz。
如果原始聲音的頻率是 7000 Hz，那麼我們聽到的就會是 |8000 - 7000| = 1000 Hz。
如果原始聲音的頻率是 9000 Hz，那麼我們聽到的就會是 |8000 - 9000| = 1000 Hz。

這就是為什麼在數位化聲音時，如果取樣率不夠高，高頻的聲音就會被錯誤地表示成低頻的聲音，產生失真，也就是所謂的混疊 (aliasing)。這也是為什麼奈奎斯特定理要求取樣率至少是原始訊號最高頻率的兩倍，以避免這種頻率摺疊現象的發生。

6.1.4 Signal to Noise Ratio (SNR)

alt text

訊號雜訊比 (Signal to Noise Ratio, SNR)

訊號雜訊比 (SNR) 的範例

alt text

訊號雜訊比 (SNR) 的範例

周圍常見聲音的音量等級，以分貝 (dB) 為單位，並將其與人類聽覺的閾值進行比較：
我們周圍聽到的常見聲音的音量通常用分貝來描述，它是相對於我們能夠聽到的最安靜的聲音的比率。表 6.1 顯示了這些聲音的大約音量等級。

表 6.1：常見聲音的音量等級，以分貝為單位

聲音	分貝 (dB)
聽覺閾值	0
樹葉的沙沙聲	10
非常安靜的房間	20
一般的房間	40
對話	60
繁忙的街道	70
大聲的收音機	80
火車通過車站	90
鉚釘槍	100
不適閾值	120
疼痛閾值	140
損害耳膜	160

這個表格展示了不同環境和聲音的相對響度，從幾乎聽不見的聲音到可能引起不適或損害聽力的聲音。

6.1.5 Signal to Quantization Noise Ratio (SQNR)

alt text

量化雜訊 (quantization noise)

訊號對量化雜訊比 (Signal to Quantization Noise Ratio, SQNR)

alt text

6.1.6 Linear and Non-linear Quantization

線性格式和非均勻量化的概念

alt text

解

alt text

μ-law 的位元分配 (Bit allocation) 策略

alt text

μ-law 在接收端的解碼過程，以及最終的位元擴展

6.1.7 Audio Filtering

濾波 (filtering) 處理

alt text

6.1.8 Audio Quality vs. Data Rate

數位音訊傳輸的數據速率和頻寬需求

alt text

為了傳輸數位音訊訊號，隨著量化使用的位元數增加，未壓縮的數據速率也會增加。立體聲 (Stereo) 傳輸則需要雙倍的頻寬，因為需要傳輸兩個獨立的聲道。

表 6.2：常見音訊應用中的位元率和頻寬

品質	取樣率 (kHz)	每樣本位元數	單聲道/立體聲	位元率 (未壓縮) (kB/sec)	訊號頻寬 (Hz)
電話	8	8	單聲道	8	200-3,400
AM 收音機	11.025	8	單聲道	11.0	100-5,500
FM 收音機	22.05	16	立體聲	88.2	20-11,000
CD	44.1	16	立體聲	176.4	5-20,000
DVD 音訊	192 (最大)	24 (最大)	高達 6 聲道	1,200.0 (最大)	0-96,000 (最大)