PCM文件:模擬音頻信號經(jīng)模數(shù)轉換(A/D變換)直接形成的二進制序列,該文件沒有附加的文件頭和文件結束標志。Windows的Convert工具可以把PCM音頻格式的文件轉換成Microsoft的WAV格式的文件。
脈沖編碼調制PCM文件格式簡介
將音頻數(shù)字化,其實就是將聲音數(shù)字化。最常見的方式是透過脈沖編碼調制PCM(Pulse Code Modulation) 。運作原理如下。首先我們考慮聲音經(jīng)過麥克風,轉換成一連串電壓變化的信號,如圖一所示。這張圖的橫座標為秒,縱座標為電壓大小。要將這樣的信號轉為 PCM 格式的方法,是使用三個參數(shù)來表示聲音,它們是:聲道數(shù)、采樣位數(shù)和采樣頻率。
采樣頻率
即取樣頻率, 指每秒鐘取得聲音樣本的次數(shù)。采樣頻率越高,聲音的質量也就越好,聲音的還原也就越真實,但同時它占的資源比較多。由于人耳的分辨率很有限,太高的頻率并不能分辨出來。在16位聲卡中有22KHz、44KHz等幾級,其中,22KHz相當于普通FM廣播的音質,44KHz已相當于CD音質了,目前的常用采樣頻率都不超過48KHz。
采樣位數(shù)
即采樣值或取樣值(就是將采樣樣本幅度量化)。它是用來衡量聲音波動變化的一個參數(shù),也可以說是聲卡的分辨率。它的數(shù)值越大,分辨率也就越高,所發(fā)出聲音的能力越強。
聲道數(shù)
很好理解,有單聲道和立體聲之分,單聲道的聲音只能使用一個喇叭發(fā)聲(有的也處理成兩個喇叭輸出同一個聲道的聲音),立體聲的pcm可以使兩個喇叭都發(fā)聲(一般左右聲道有分工) ,更能感受到空間效果。
下面再用圖解來看看采樣位數(shù)和采樣頻率的概念。讓我們來看看這幾幅圖。圖中的黑色曲線表示的是pcm文件錄制的自然界的聲波,紅色曲線表示的是pcm 文件輸出的聲波,橫坐標便是采樣頻率;縱坐標便是采樣位數(shù)。這幾幅圖中的格子從左到右,逐漸加密,先是加大橫坐標的密度,然后加大縱坐標的密度。顯然,當橫坐標的單位越小即兩個采樣時刻的間隔越小,則越有利于保持原始聲音的真實情況,換句話說,采樣的頻率越大則音質越有保證;同理,當縱坐標的單位越小則越有利于音質的提高,即采樣的位數(shù)越大越好。
在計算機中采樣位數(shù)一般有8位和16位之分,但有一點請大家注意,8位不是說把縱坐標分成8份,而是分成2的8次方即256份; 同理16位是把縱坐標分成2的16次方65536份; 而采樣頻率一般有11025HZ(11KHz),22050HZ(22KHz)、44100Hz(44KHz)三種。
樣點 | t1 | t2 | t3 | t4 | t5 | t6 | t7 | ... | t16 | t17 | t18 | t19 | t20 |
幅值 | 0011 | 0101 | 0111 | 1001 | 1011 | 1101 | 1110 | ... | 0110 | 0110 | 0101 | 0011 | 0000 |
那么,現(xiàn)在我們就可以得到pcm文件所占容量的公式:
存儲量=(采樣頻率*采樣位數(shù)*聲道)*時間/8(單位:字節(jié)數(shù))
例如,數(shù)字激光唱盤(CD-DA,紅皮書標準)的標準采樣頻率為44.lkHz,采樣數(shù)位為16位,立體聲(2聲道),可以幾乎無失真地播出頻率高達22kHz的聲音,這也是人類所能聽到的最高頻率聲音。激光唱盤一分鐘音樂需要的存儲量為:
(44.1*1000*l6*2)*60/8=10,584,000(字節(jié))=10.584MBytes
這個數(shù)值就是pcm聲音文件在硬盤中所占磁盤空間的存儲量。
計算機音頻文件的格式?jīng)Q定了其聲音的品質,日常生活中電話、收音機等均為模擬音頻信號,即不存在采樣頻率和采樣位數(shù)的概念,我們可以這樣比較一下:
44KHz,16BIT的聲音稱作:CD音質;
22KHz、16Bit的聲音效果近似于立體聲(FM Stereo)廣播,稱作:廣播音質;
11kHz、8Bit的聲音,稱作:電話音質。
微軟的WAV文件就是pcm編碼的一種。