說出的聲音
我們習慣了聲音,但是并不知道聲音是什么,的確是這樣的,我以前學過也忘記了。
聲音其實就是聲波吧,本質(zhì)是一種波。聲音是一種具有固定頻段的波。
人的說話頻率基本上為300Hz-3400Hz,但是人耳朵聽覺頻率基本上為20Hz-20000Hz。
傳感器
人說出的這種具有固定頻段的波,經(jīng)過特定傳感器的采集,可以將現(xiàn)實世界中的波轉(zhuǎn)換成模擬電信號,然后經(jīng)過采樣、量化、編碼的處理可以將模擬電信號轉(zhuǎn)換成數(shù)字電信號。
傳感器可以感受波的波動,將這種波動轉(zhuǎn)變成電信號的波動,看到我們眼中的就是波形了。
然后我們就可以用電子設備來錄制和播放聲音了,其實就是下面的過程:
現(xiàn)實聲波---(傳感器)---->電信號---(電子設備)---->錄制和播放現(xiàn)實聲波
音頻采樣率和碼率簡介
音頻采樣率和碼率簡介
1、背景知識
人的說話頻率基本上為300Hz-3400Hz,但是人耳朵聽覺頻率基本上為20Hz-20000Hz。
2、采樣率
實際中,人發(fā)出的聲音信號為模擬信號,想要在實際中處理必須為數(shù)字信號,即采用采樣、量化、編碼的處理方案。處理的第一步為采樣,即模數(shù)轉(zhuǎn)換。簡單地說就是通過波形采樣的方法記錄1秒鐘長度的聲音,需要多少個數(shù)據(jù)。根據(jù)奈魁斯特(NYQUIST)采樣定理,用兩倍于一個正弦波的頻繁率進行采樣就能完全真實地還原該波形。所以,對于聲音信號而言,要想對離散信號進行還原,必須將抽樣頻率定為40KHz以上。實際中,一般定為44.1KHz。44.1KHz采樣率的聲音就是要花費44100個數(shù)據(jù)來描述1秒鐘的聲音波形。原則上采樣率越高,聲音的質(zhì)量越好,采樣頻率一般共分為22.05KHz、44.1KHz、48KHz三個等級。22.05KHz只能達到FM廣播的聲音品質(zhì),44.1KHz則是理論上的CD音質(zhì)界限,48KHz則已達到DVD音質(zhì)了。
3、碼率
對于音頻信號而言,必須進行編碼。在這里,編碼指信源編碼,即數(shù)據(jù)壓縮。如果,未經(jīng)過數(shù)據(jù)壓縮,直接量化進行傳輸則被稱為PCM(脈沖編碼調(diào)制)。要算一個PCM音頻流的碼率是一件很輕松的事情,采樣率值×采樣大小值×聲道數(shù)bps。一個采樣率為44.1KHz,采樣大小為16bit,雙聲道的PCM編碼的WAV文件,它的數(shù)據(jù)速率則為 44.1K×16×2=1411.2 Kbps。我們常說128K的MP3,對應的WAV的參數(shù),就是這個1411.2Kbps,這個參數(shù)也被稱為數(shù)據(jù)帶寬,它和ADSL中的帶寬是一個概念。將碼率除以8,就可以得到這個WAV的數(shù)據(jù)速率,即176.4KB/s。這表示存儲一秒鐘采樣率為44.1KHz,采樣大小為16bit,雙聲道的PCM編碼的音頻信號,需要176.4KB的空間,1分鐘則約為10.34M,這對大部分用戶是不可接受的,尤其是喜歡在電腦上聽音樂的朋友,要降低磁盤占用,只有2種方法,降低采樣指標或者壓縮。降低采樣指標是不可取的,因此專家們研發(fā)了各種壓縮方案。最原始的有DPCM、ADPCM,其中最出名的為MP3。所以,采用了數(shù)據(jù)壓縮以后的碼率遠小于原始碼。
4、小結(jié)
對于人類的語音信號而言,實際處理一般經(jīng)過以下步驟:
人嘴說話——>聲電轉(zhuǎn)換——>采樣(模數(shù)轉(zhuǎn)換)——>量化(將數(shù)字信號用適當?shù)臄?shù)值表示)——>編碼(數(shù)據(jù)壓縮)——>
傳輸(網(wǎng)絡或者其他方式)
——>解碼(數(shù)據(jù)還原)——>反采樣(數(shù)模轉(zhuǎn)換)——>電聲轉(zhuǎn)換——>人耳聽聲。
聯(lián)系客服