語言對于人類文明的重要性不言而喻,但是語言的起源卻是個(gè)高度爭議的話題,我們對此幾乎一無所知。我們不了解人類,也不了解動(dòng)物,更是不懂宇宙,甚至我們都不能完全搞清楚一些看似簡單的問題,比如人類的耳朵為何要有這么奇怪的耳廓?
一、讓機(jī)器聽懂世界承載了人類千年夢想
語言承載了人類文化,人類需要通過語言學(xué)習(xí)知識和傳遞信息,這是人類區(qū)別于動(dòng)物界最重要的特性之一。而且,人類語言超過了五千多種,人類將大部分時(shí)間花費(fèi)在學(xué)習(xí)各種語言上似乎也不是一個(gè)更有效的途徑。因此,未來的機(jī)器智能時(shí)代,機(jī)器也必然需要通過語言實(shí)現(xiàn)與人類之間的交互,似乎最近的科幻片都已經(jīng)暗示了這個(gè)問題。現(xiàn)在的科幻就是未來的現(xiàn)實(shí),因此,讓機(jī)器聽懂世界,這是未來機(jī)器智能時(shí)代的關(guān)鍵問題,也是人類一個(gè)更大的夢想,但是,我們距離人類的這個(gè)夢想還有多遠(yuǎn)呢?
首先明確一個(gè)概念,讓機(jī)器聽懂世界,這里面其實(shí)蘊(yùn)含了多個(gè)歷程,包括聽懂人類語言,進(jìn)而聽懂動(dòng)物叫聲,甚至聽懂自然聲音,亦或類似地球的耳朵LIGO那樣聆聽宇宙的“聲音”。所有這些都是極其復(fù)雜的過程,因?yàn)槲覀內(nèi)祟悓?shí)際上也沒有達(dá)到這種能力,但是我們期望機(jī)器能夠延伸人類的能力,從而實(shí)現(xiàn)人類的夢想。這是一個(gè)簡單的道理,有時(shí)候我們做不到的事情,總期望別人能夠做到,所以語音智能事實(shí)上承載的是幾千年來人類的偉大夢想。
再看第一個(gè)歷程,既讓機(jī)器聽懂人類語言,這已經(jīng)是最近技術(shù)和市場上非?;馃岬氖虑?,也是全世界科學(xué)家為止奮斗了六十多年的事業(yè)。這其中最為典型的,就是以亞馬遜Echo所引領(lǐng)的智能音箱,迄今為止,占據(jù)全球市值排名榜的全球巨頭,包括國內(nèi)的阿里、京東、騰訊、百度、小米、科大訊飛等,國外的蘋果、微軟、亞馬遜、谷歌、臉書、三星等,創(chuàng)歷史的同時(shí)發(fā)力爭奪未來智能時(shí)代的語音入口,甚至亞馬遜和阿里率先不惜代價(jià)開啟了補(bǔ)貼大戰(zhàn)。這些全球巨頭的激烈競爭,將對未來十年甚至二十年產(chǎn)生極其重要的影響。
那么,如何才能讓機(jī)器聽懂人類語言呢?這需要解決三個(gè)核心關(guān)鍵問題:聽見、聽準(zhǔn)和聽懂,從技術(shù)角度來看,就是拾音、識別和理解三個(gè)關(guān)鍵技術(shù)環(huán)節(jié)。拾音是最為基礎(chǔ)的環(huán)節(jié),必須保證讓機(jī)器聽得見聲音,這部分主要是聲學(xué)問題;識別是將符合要求的聲音轉(zhuǎn)化成文字,這部分主要是語音識別的問題;理解則是根據(jù)識別出來的文字,準(zhǔn)確理解人類的指令甚或情感。鑒于語音智能設(shè)備已經(jīng)大量出現(xiàn)在我們生活場景之中,當(dāng)前技術(shù)的核心關(guān)鍵就是聲學(xué)問題和語義理解。
二、近場語音是機(jī)器聽懂人類的率先嘗試
近場語音交互主要是指人類距離機(jī)器不超過30厘米范圍的語音識別技術(shù),這項(xiàng)技術(shù)利用距離巧妙回避了真實(shí)場景下復(fù)雜的聲學(xué)問題,可以理解為一種實(shí)驗(yàn)室理想環(huán)境下的語音交互技術(shù)。近場語音識別從上世紀(jì)五十年代就開始研究,但是長期沒有實(shí)質(zhì)性進(jìn)展,直到蘋果在2010年推出Siri的應(yīng)用,這才引起了全球的關(guān)注。到現(xiàn)在為止,近場語音交互技術(shù)已經(jīng)比較成熟,平均識別率可以達(dá)到95%以上,主流的手機(jī)和平板等設(shè)備都已經(jīng)普遍支持近場語音應(yīng)用。這里提醒一下,很多人工智能大會(huì)或者電視演播廳所展示的實(shí)時(shí)語音識別或者翻譯技術(shù),其實(shí)都是近場語音交互技術(shù),這些聲音都是從近場麥克風(fēng)采集的高質(zhì)量數(shù)據(jù),與會(huì)場的嘈雜環(huán)境并沒有實(shí)際關(guān)聯(lián)。
但是近場語音交互受到了真實(shí)場景的巨大制約,并沒有展現(xiàn)出來語音交互可以解放雙手的先進(jìn)性,因此在很多場景中,事實(shí)上近場語音交互都是雞肋一般的存在,并沒有發(fā)揮出真正的威力,也就說,這個(gè)技術(shù)其實(shí)被嚴(yán)重低估了。直到遠(yuǎn)場語音交互技術(shù)的出現(xiàn),成功解決了真實(shí)場景下的復(fù)雜聲學(xué)問題以后,至少技術(shù)達(dá)到了用戶認(rèn)可的門檻,語音交互才真正出現(xiàn)了替代鍵盤鼠標(biāo)和觸摸屏的可能性。
三、遠(yuǎn)場語音將語音智能落地到真實(shí)場景
遠(yuǎn)場語音交互主要解決30厘米到5米范圍內(nèi)的語音交互問題,這個(gè)范圍事實(shí)上就是人類之間溝通交流的最佳距離,距離太近容易觸發(fā)自我保護(hù)意識,而距離太遠(yuǎn)則會(huì)增大交流難度。注意語音交互并非只是語音問題,人類的交互其實(shí)是一個(gè)綜合的過程,包括了表情、眼神、肢體動(dòng)作等等一系列影響因素,太遠(yuǎn)距離的語音交互事實(shí)上意義不大,比如隔墻的語音交互事實(shí)上只要做好語音控制就可以了,真實(shí)場景下并不需要復(fù)雜的交互設(shè)計(jì),因?yàn)槿祟愐埠茈y隔墻與人聊太多事情。
遠(yuǎn)場語音交互的歷史是比較短暫的,這項(xiàng)技術(shù)以前長期沒有實(shí)質(zhì)性突破,2014年是個(gè)重要的轉(zhuǎn)折點(diǎn),亞馬遜的Echo最早開始探索這個(gè)市場,但是直到2016年末,全球才真正開始重視這項(xiàng)技術(shù),并且短短一年時(shí)間,引領(lǐng)全球市場都進(jìn)入了激烈博弈的階段。聲智科技是遠(yuǎn)場語音交互的代表企業(yè)之一,其成長歷史就是這一年多技術(shù)和市場變遷的見證。
遠(yuǎn)場語音交互的代表產(chǎn)品自然就是智能音箱,盤點(diǎn)一下全球巨頭在智能音箱的布局就可窺得一二。亞馬遜的Echo發(fā)布四年已然影響深遠(yuǎn),谷歌的Home劍走偏鋒以技術(shù)做博弈,微軟的Invoke則仍然堅(jiān)持工程師定義產(chǎn)品的文化,蘋果的HomePod更是剛剛跳票低估了高端智能音箱的難度,而臉書和三星仍然在緊鑼密鼓的研發(fā);反觀國內(nèi)甚為熱鬧,小米的小愛同學(xué)以299元的低價(jià)撬開市場,阿里的天貓精靈則以99元的低價(jià)率先補(bǔ)貼,就在騰訊、華為還在猶豫的時(shí)候,百度剛剛發(fā)布了渡鴉智能音箱和DuerOS開發(fā)板SoundPi。雖然國內(nèi)的智能音箱起步很晚,但是國內(nèi)市場經(jīng)常演繹奮起直追甚至超越的故事。
這里還有兩個(gè)重要的數(shù)據(jù)最具說服力,一個(gè)就是亞馬遜Echo的銷量已經(jīng)超過千萬,另外一個(gè)就是阿里的天貓精靈雙十一超過了百萬臺。也就說,智能音箱作為語音智能的突破口已經(jīng)成立,這是遠(yuǎn)場語音交互的一大進(jìn)步,只有落地真實(shí)場景并且經(jīng)過驗(yàn)證的技術(shù)才具有生命力。注意,這里還是特別強(qiáng)調(diào)智能音箱只是遠(yuǎn)場語音交互的突破口,并非什么語音的唯一入口,因?yàn)槲磥淼臋C(jī)器智能時(shí)代,語音入口不僅僅只有智能音箱,比如電視、冰箱、汽車和機(jī)器人都有可能成為重要入口。但是智能音箱又是非常重要的,因?yàn)椴还墚a(chǎn)品形態(tài)怎樣變化,其本質(zhì)的核心其實(shí)還是智能音箱的技術(shù)架構(gòu)。
四、聽懂世界還有哪些必須解決的問題?
若讓機(jī)器聽懂世界,遠(yuǎn)場語音交互技術(shù)也僅是個(gè)嘗試而已,事實(shí)上遠(yuǎn)場語音技術(shù)本身也只是剛剛起步,即便5米以內(nèi),其噪聲抑制、回聲抵消、混響去除、遠(yuǎn)場喚醒和遠(yuǎn)場識別等核心技術(shù)還存在諸多缺陷。但是技術(shù)一直在迭代發(fā)展,特別是當(dāng)技術(shù)落地場景以后,源源不斷的真實(shí)數(shù)據(jù)和客戶需求將帶動(dòng)技術(shù)更加快速的發(fā)展。
從技術(shù)層面來看,讓機(jī)器聽懂世界涉及了數(shù)學(xué)、物理學(xué)、語言學(xué)、醫(yī)學(xué)、計(jì)算機(jī)學(xué)等各學(xué)科的知識,很難一一枚舉出來,但是若從應(yīng)用場景來看,則相對比較簡單,讓機(jī)器聽懂世界包括了人類語言、人類情感、動(dòng)物聲音和自然聲音。
1、聽懂人類語言
前面提到了近場和遠(yuǎn)場語音交互的技術(shù),這可以解決5米以內(nèi)的語音交互問題,基本囊括了人機(jī)交互的主要問題,但是還有更多復(fù)雜場景的問題需要解決,比如:
遠(yuǎn)場語音交互:主要解決5米以內(nèi)的喚醒、識別和理解問題,雖然這項(xiàng)技術(shù)已經(jīng)落地實(shí)際的場景和產(chǎn)品,但是對于諸如雞尾酒會(huì)效應(yīng)等難題仍然還沒有實(shí)質(zhì)性進(jìn)展,而且從人類相互交流的過程來看,當(dāng)前的遠(yuǎn)場語音交互技術(shù)還遠(yuǎn)遠(yuǎn)沒有達(dá)到非常準(zhǔn)確、非常順暢的程度。
超遠(yuǎn)場交互:主要是指5米、10米、20米甚至500米以外的超遠(yuǎn)距離拾音和交互,這種技術(shù)的難度就是解決在遠(yuǎn)距離聲音傳播過程中能量衰減的約束下獲取高質(zhì)量聲音數(shù)據(jù)的問題,因?yàn)闆]有高質(zhì)量的聲音數(shù)據(jù),再厲害的機(jī)器學(xué)習(xí)也沒有任何價(jià)值。這種技術(shù)主要應(yīng)用在智能安防場景,比如交通監(jiān)控,搭配遠(yuǎn)距離聲發(fā)射技術(shù)可以實(shí)現(xiàn)遠(yuǎn)程指揮的自動(dòng)交通處理。
局部場交互:主要是指針對某個(gè)局部范圍內(nèi)的語音識別和理解,主要適應(yīng)于智能醫(yī)療、智慧法庭、智能教育、智能會(huì)議等特殊場景,比如實(shí)時(shí)記錄和識別法官、醫(yī)生或者教師說過的話。這種場景的需求比較單一,僅僅針對特定目標(biāo)進(jìn)行拾音和識別即可,但是對于識別的速度和精度要求非常高,一般也要達(dá)到98%以上。
分布場交互:主要是指狹小空間內(nèi)多人識別和響應(yīng)的問題,最常見的就是汽車場景,現(xiàn)在的汽車智能交互僅僅照顧了駕駛員的需求,但實(shí)際應(yīng)用中可能需要照顧汽車其他乘客的交互需求,這就涉及了多人識別和交互的問題。事實(shí)上,隨著智能音箱等一系列智能設(shè)備的普及,未來我們的家庭就是典型的分布場交互場景。
多語種交互:主要適應(yīng)跨語言時(shí)候的自由交互場景,當(dāng)前Google、百度和科大訊飛推出的翻譯機(jī)部分解決了一些問題,但是這些翻譯機(jī)主要還是近場語音,過渡到遠(yuǎn)場語音交互的難度很大,因?yàn)榉g的場景確實(shí)太復(fù)雜多變了,在數(shù)據(jù)積累還沒形成規(guī)模之前,這類技術(shù)還很難有實(shí)質(zhì)性突破。
大詞匯交互:思考一個(gè)問題,能不能將語音識別應(yīng)用到話劇的場景?似乎這是一個(gè)更加頭疼的問題,因?yàn)閺穆晫W(xué)、識別到理解都是巨大的挑戰(zhàn)。話劇演員一般不會(huì)佩戴麥克風(fēng),這就要求遠(yuǎn)場多人識別,而且話劇演員常會(huì)自白一大段,如何進(jìn)行端點(diǎn)識別和語音識別?這樣發(fā)散來想,當(dāng)前的智能語音技術(shù)真的是才剛剛開始。
2、聽懂人類情感
至于聽懂人類情感,則是一個(gè)更加復(fù)雜的過程,人類至今也沒搞清楚情感的來源,所以即便熱戀中的情侶,也無法搞清楚對方的真實(shí)需求。但是至少有幾個(gè)技術(shù)點(diǎn)是和人類情感有關(guān)系的,這里簡單闡述一下。
聲紋識別,聲紋識別的理論基礎(chǔ)是每一個(gè)聲音都具有獨(dú)特的特征,通過該特征能將不同人的聲音進(jìn)行有效的區(qū)分。聲紋的特征主要由兩個(gè)因素決定,第一個(gè)是聲腔的尺寸,具體包括咽喉、鼻腔和口腔等,這些器官的形狀、尺寸和位置決定了聲帶張力的大小和聲音頻率的范圍。第二個(gè)決定聲紋特征的因素是發(fā)聲器官被操縱的方式,發(fā)聲器官包括唇、齒、舌、軟腭及腭肌肉等,他們之間相互作用就會(huì)產(chǎn)生清晰的語音。而他們之間的協(xié)作方式是人通過后天與周圍人的交流中隨機(jī)學(xué)習(xí)到的。
情感識別,主要是從采集到的語音信號中提取表達(dá)情感的聲學(xué)特征,并找出這些聲學(xué)特征與人類情感的映射關(guān)系。情感識別當(dāng)前也主要采用深度學(xué)習(xí)的方法,這就需要建立對情感空間的描述以及形成足夠多的情感語料庫。情感識別是人機(jī)交互中體現(xiàn)智能的應(yīng)用,但是到目前為止,技術(shù)水平還沒有達(dá)到產(chǎn)品應(yīng)用的程度。
哼唱識別,主要是通過用戶哼唱歌曲的曲調(diào),然后通過其中的旋律同音樂庫中的數(shù)據(jù)進(jìn)行詳細(xì)分析和比對,最后將符合這個(gè)旋律的歌曲信息提供給用戶。目前這項(xiàng)技術(shù)在音樂搜索中已經(jīng)使用,識別率可以達(dá)到80%左右。
聲光融合,聲學(xué)和光學(xué)總是相伴相生,人類的情感也是通過聽覺和視覺同時(shí)接受分析的,因此機(jī)器也必然將語音和圖像結(jié)合在一起分析,才能更好的理解人類的情感,但是語音和圖像在各自領(lǐng)域并沒有發(fā)展成熟,因此聲光融合的研究一直處于被輕視的尷尬地位。
3、聽懂動(dòng)物聲音
讓機(jī)器聽懂動(dòng)物的聲音,或許是一個(gè)苛刻的要求,因?yàn)槿祟愔两褚矝]有聽懂動(dòng)物的聲音,甚至嬰兒的哭聲,我們只能大概的去猜測。但是這不影響機(jī)器的進(jìn)步,因?yàn)樵诤芏囝I(lǐng)域,機(jī)器遲早是超越人類的。事實(shí)上,這類研究一直在進(jìn)行,比如海豚、蝙蝠、鯨魚、猩猩、老虎、獅子、貓狗、蚊子、蜂鳥等等動(dòng)物的聲音特征,當(dāng)數(shù)據(jù)積累足夠多的時(shí)候,根據(jù)聲音推斷這些動(dòng)物的行為不是不可能,而人類的進(jìn)步很大程度也得益于這種仿生。
4、聽懂自然聲音
當(dāng)然,機(jī)器也必須聽懂大自然的聲音,比如雷聲、雨聲、地震、海浪、風(fēng)聲等聲音,通過這些聲音則可以辨別機(jī)器所處的環(huán)境,并且根據(jù)環(huán)境做出判斷。其實(shí),這些技術(shù)也正在落地,比如聲智科技正在研究的小樣本學(xué)習(xí)技術(shù),就是根據(jù)噪聲來判斷場景的變化,顯然廚房的噪聲和客廳、臥室不會(huì)相同,同樣地,咖啡廳、火車站、機(jī)場、辦公室、汽車等場景的噪聲也有很大區(qū)別,通過區(qū)分這些噪音則可以快速匹配出場景,這將非常有利于后端智能的處理,比如自然語言理解增加了場景信息以后就會(huì)更加準(zhǔn)確。
五、聽懂世界還需要更多硬科技的嘗試
讓機(jī)器聽懂世界,不能僅僅依賴算法和數(shù)據(jù),更重要的還是底層硬科技的突破,下面列舉了聲智科技正在參與研發(fā)的一些基礎(chǔ)技術(shù),期望能有更多的學(xué)子參與到這些令人興奮的研發(fā)過程之中。
智能麥克風(fēng),可以簡單理解為將當(dāng)前的MEMS麥克風(fēng)與低功耗芯片融合在一起,主要是解決低功耗語音喚醒和識別的問題。
矢量麥克風(fēng),當(dāng)前的麥克風(fēng)都是標(biāo)量麥克風(fēng),只能獲取單一的物理信息,也就是能量值,根據(jù)時(shí)間信息和陣列配置才能獲取頻域和相位信息。若將標(biāo)量麥克風(fēng)升級成為矢量麥克風(fēng),則增加了一個(gè)維度的特征信息,這對于機(jī)器學(xué)習(xí)的提升將會(huì)非常明顯。
薄膜麥克風(fēng),這是一種柔性的技術(shù),可以想象把整個(gè)電視屏幕當(dāng)作麥克風(fēng)的場景,通過特殊的納米材料技術(shù),甚至可以把任何界面都當(dāng)作聲音的接收裝置,通常來說這種換能器裝置也可以把聲音轉(zhuǎn)變成電能。
柔性揚(yáng)聲器,這實(shí)際上和薄膜麥克風(fēng)的原理類似,只是將換能的方向換了一下,柔性揚(yáng)聲器目前多種方案,目前來看其難點(diǎn)主要還是發(fā)聲的帶寬和失真問題。
激光拾聲,這是主動(dòng)拾聲的一種方式,可以通過激光的反射等方法拾取遠(yuǎn)處的振動(dòng)信息,從而還原成為聲音,這種方法以前主要應(yīng)用在竊聽領(lǐng)域,但是目前來看這種方法應(yīng)用到語音識別還比較困難。
微波拾聲,微波是指波長介于紅外線和無線電波之間的電磁波,頻率范圍大約在 300MHz至300GHz之間,同激光拾聲的原理類似,只是微波對于玻璃、塑料和瓷器幾乎是穿越而不被吸收。
高速攝像頭拾聲,這是利用高速攝像機(jī)來拾取振動(dòng)從而還原聲音,這種方式需要可視范圍和高速攝像機(jī),只在一些特定場景里面應(yīng)用。
小結(jié)
小結(jié)一下,讓機(jī)器聽懂世界的技術(shù)正在全球快速的演化,相信不久的將來,我們肯定能看到更加智能的機(jī)器,因此,既不要抨擊當(dāng)前的人工智能技術(shù),也不要盛贊現(xiàn)在的基礎(chǔ)科技技術(shù),保持一顆平靜的心,正確給予科技界和產(chǎn)業(yè)界的支持才是對于未來最大的投資。不管外界怎樣評論,一個(gè)技術(shù)公司的價(jià)值最終還是體現(xiàn)在這個(gè)公司為社會(huì)創(chuàng)造了多大的價(jià)值。
但是,我們也應(yīng)該看到,國內(nèi)產(chǎn)業(yè)界長期不重視基礎(chǔ)技術(shù)的投入,甚至資本界也常常不看好技術(shù)類型公司,國內(nèi)更看重的還是模式創(chuàng)新,這和美國形成了很大的反差。這其中的深層次原因,應(yīng)該還是取決于當(dāng)前國內(nèi)主流的追求依然是個(gè)人名望和經(jīng)濟(jì)回報(bào),這嚴(yán)重束縛了我們對于未來的夢想和渴望,當(dāng)然,這也是經(jīng)濟(jì)發(fā)展的必經(jīng)階段,只有解決了經(jīng)濟(jì)問題,我們才能真正對于知識產(chǎn)生自由的渴望,才能看的更遠(yuǎn),追求的夢想更大。
當(dāng)夢想越近的時(shí)候難度其實(shí)越大,誰都會(huì)有夢想,關(guān)鍵在于你愿不愿意為此付出,并且能夠咬牙堅(jiān)持下來。未來,讓機(jī)器聽懂世界,更加期待年輕人的參與,當(dāng)然,從我個(gè)人來說,我更期待有理想的學(xué)子們能來聲智科技,因?yàn)檫@不是一家談情懷的公司,而是一家談理想的公司!