語(yǔ)音識(shí)別作為人工智能發(fā)展最早、且率先商業(yè)化的技術(shù),近幾年來(lái)隨著深度學(xué)習(xí)技術(shù)的突破,識(shí)別準(zhǔn)確率大幅提升,帶動(dòng)了一波產(chǎn)業(yè)熱潮。繼科大訊飛、捷通華聲之后,行業(yè)內(nèi)又涌現(xiàn)出思必馳、云知聲、出門(mén)問(wèn)問(wèn)等后起之秀,在教育、客服、電信等傳統(tǒng)行業(yè)之外,開(kāi)辟出了車(chē)載、家居、醫(yī)療、智能硬件等語(yǔ)音技術(shù)應(yīng)用新天地。
與此同時(shí),自然語(yǔ)言處理(NLP)作為人機(jī)交互技術(shù)的重要一環(huán),也為此提供了助力。Siri的推出打開(kāi)了語(yǔ)音交互的先河,不僅催生了一批語(yǔ)音語(yǔ)義創(chuàng)業(yè)公司,還激發(fā)了百度、搜狗等大型互聯(lián)網(wǎng)公司在語(yǔ)音語(yǔ)義技術(shù)上的投入。
由于NLP和語(yǔ)義理解技術(shù)能夠讓機(jī)器理解人的意圖和需求,并把相應(yīng)內(nèi)容反饋給用戶,因此在客服行業(yè)得到了廣泛應(yīng)用,有效降低了人力成本,提高了企業(yè)運(yùn)營(yíng)效率。
那么,中國(guó)智能語(yǔ)音語(yǔ)義產(chǎn)業(yè)主要涉及哪些技術(shù)?技術(shù)發(fā)展水平如何?存在哪些問(wèn)題?有哪些應(yīng)用領(lǐng)域、玩家和商業(yè)模式?行業(yè)格局和未來(lái)發(fā)展趨勢(shì)又將如何呢?本文將為您一一解答。
一、技術(shù)篇:語(yǔ)音識(shí)別和NLP技術(shù)仍不成熟
智能語(yǔ)音語(yǔ)義包含語(yǔ)音合成、語(yǔ)音識(shí)別和自然語(yǔ)言處理(NLP)三項(xiàng)主要技術(shù)。
語(yǔ)音合成技術(shù)發(fā)展最早,應(yīng)用已較為普遍,除了合成音仍偏機(jī)械之外,基本不存在太大技術(shù)問(wèn)題;語(yǔ)音識(shí)別在2012年卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用之后,準(zhǔn)確率大幅提升,已經(jīng)在C端、B端得到了廣泛應(yīng)用,但效果和體驗(yàn)還不夠理想;NLP技術(shù)雖然在搜索引擎中早有應(yīng)用,但在人機(jī)交互領(lǐng)域仍屬于淺層處理。
語(yǔ)音識(shí)別“魯棒性“問(wèn)題顯著
在生物學(xué)中,有個(gè)術(shù)語(yǔ)叫做“魯棒性”,是指系統(tǒng)在擾動(dòng)或不確定的情況下,仍能保持它的特征行為。這一問(wèn)題在語(yǔ)音識(shí)別領(lǐng)域也存在。
語(yǔ)音識(shí)別整個(gè)過(guò)程包含語(yǔ)音信號(hào)處理、靜音切除、聲學(xué)特征提取、模式匹配等多個(gè)環(huán)節(jié)。由于語(yǔ)音信號(hào)的多樣性和復(fù)雜性,系統(tǒng)只能在一定限制條件下才能獲得滿意效果。在真實(shí)使用場(chǎng)景中,考慮到遠(yuǎn)場(chǎng)、方言、噪音、斷句等問(wèn)題,準(zhǔn)確率會(huì)大打折扣。目前業(yè)內(nèi)普遍宣稱(chēng)的97%識(shí)別準(zhǔn)確率,更多的是人工測(cè)評(píng)結(jié)果,只在安靜室內(nèi)的進(jìn)場(chǎng)識(shí)別中才能實(shí)現(xiàn)。
要解決語(yǔ)音識(shí)別魯棒性問(wèn)題,需要在技術(shù)和產(chǎn)品兩方面進(jìn)行優(yōu)化。一方面,在語(yǔ)音增強(qiáng)、麥克風(fēng)陣列以及說(shuō)話人分離等多項(xiàng)技術(shù)領(lǐng)域持續(xù)投入,并結(jié)合后端語(yǔ)義,促進(jìn)對(duì)上下文的理解,從而提升識(shí)別效果;另一方面,需要從產(chǎn)品設(shè)計(jì)上進(jìn)行優(yōu)化,比如通過(guò)進(jìn)一步交互,使語(yǔ)音識(shí)別變得更為準(zhǔn)確。
語(yǔ)義分析仍是淺層處理
NLP技術(shù)大致包含三個(gè)層面:詞法分析、句法分析、語(yǔ)義分析,三者之間既遞進(jìn)又相互包含。
圖:NLP分析技術(shù)
詞義消歧是NLP技術(shù)的最大瓶頸。機(jī)器在切詞、標(biāo)注詞性、并識(shí)別完后,需要對(duì)各個(gè)詞語(yǔ)進(jìn)行理解。由于語(yǔ)言中往往一詞多義,人在理解時(shí)會(huì)基于已有知識(shí)儲(chǔ)備和上下文環(huán)境,但機(jī)器很難做到。雖然系統(tǒng)會(huì)對(duì)句子做句法分析,可以在一定程度上幫助機(jī)器理解詞義和語(yǔ)義,但實(shí)際情況并不理想。
目前,機(jī)器對(duì)句子的理解還只能做到語(yǔ)義角色標(biāo)注層面,即標(biāo)出句中的句子成分和主被動(dòng)關(guān)系等,它屬于比較成熟的淺層語(yǔ)義分析技術(shù)。未來(lái)要讓機(jī)器更好地理解人類(lèi)語(yǔ)言,并實(shí)現(xiàn)自然交互,還是需要依賴深度學(xué)習(xí)技術(shù),通過(guò)大規(guī)模的數(shù)據(jù)訓(xùn)練,讓機(jī)器不斷學(xué)習(xí)。當(dāng)然,在實(shí)際應(yīng)用領(lǐng)域中,也可以通過(guò)產(chǎn)品設(shè)計(jì)來(lái)減少較為模糊的問(wèn)答內(nèi)容,以提升用戶體驗(yàn)。
由于人工智能技術(shù)對(duì)數(shù)據(jù)依賴性極高,因此,這一領(lǐng)域的技術(shù)進(jìn)步和產(chǎn)業(yè)化推進(jìn)是一種協(xié)同關(guān)系——通過(guò)工程化的方法提升技術(shù)效果和體驗(yàn),從而促進(jìn)產(chǎn)業(yè)化應(yīng)用,再根據(jù)實(shí)際應(yīng)用中的數(shù)據(jù)和反饋,反過(guò)來(lái)推動(dòng)技術(shù)實(shí)現(xiàn)突破。那么,智能語(yǔ)音語(yǔ)義在產(chǎn)業(yè)化方面都有哪些應(yīng)用領(lǐng)域,又存在哪些問(wèn)題?
二、應(yīng)用篇:C端提升體驗(yàn),B端提升效率
以問(wèn)答和聊天為服務(wù)形式,智能語(yǔ)音語(yǔ)義在多個(gè)使用場(chǎng)景和行業(yè)領(lǐng)域都有廣泛應(yīng)用,我們可以簡(jiǎn)單從C端和B端兩個(gè)方向分別來(lái)看。
圖:語(yǔ)音識(shí)別/NLP技術(shù)應(yīng)用領(lǐng)域
C端應(yīng)用方面,主要用于移動(dòng)設(shè)備、汽車(chē)、家居三大場(chǎng)景,用來(lái)變革原有人機(jī)交互方式;B端則針對(duì)垂直行業(yè)需求,提升人工效率,比如幫助醫(yī)生做電子病歷錄入,或代替部分人力工作,比如回答大部分簡(jiǎn)單重復(fù)的客服問(wèn)題。由于兩大領(lǐng)域解決的問(wèn)題不同,因此遇到的挑戰(zhàn)也各不相同。
C端應(yīng)用:變革交互方式,需求和體驗(yàn)是關(guān)鍵
智能語(yǔ)音為C端提供了一種全新的交互方式,但應(yīng)用和普及又跟具體場(chǎng)景和需求掛鉤。目前,三大場(chǎng)景中,移動(dòng)設(shè)備中的智能手機(jī),以及車(chē)內(nèi)語(yǔ)音交互應(yīng)用最為廣泛。家居領(lǐng)域中,雖然各種家電企業(yè)也在廣泛布局,但實(shí)際使用情況并不理想。
移動(dòng)設(shè)備
智能語(yǔ)音語(yǔ)義在智能手機(jī)和可穿戴設(shè)備中的應(yīng)用不盡相同??纱┐髟O(shè)備雖然沒(méi)有屏幕或屏幕較小,更適合語(yǔ)音交互,但大多(比如智能手表)都是非生活必需品,本身銷(xiāo)量就很有限,再加上一些可穿戴設(shè)備并沒(méi)有太多交互需求,因此實(shí)際應(yīng)用量較少。
智能手機(jī)中的各類(lèi)應(yīng)用軟件大多都配備了語(yǔ)音功能,但相比觸摸和文字交互,使用率也不算高。很多人仍然沒(méi)有經(jīng)常使用語(yǔ)音的習(xí)慣,或者還沒(méi)有使用語(yǔ)音的意識(shí)。究其原因,主要由于語(yǔ)音交互在效果和效率上都不夠理想。
從效果上看,語(yǔ)音在開(kāi)放場(chǎng)景下識(shí)別準(zhǔn)確率并不高。對(duì)于用戶來(lái)講,結(jié)果不可預(yù)期,產(chǎn)生錯(cuò)誤后糾錯(cuò)成本很高,所以寧愿打字。再者,用戶在手機(jī)端對(duì)于打字和觸摸已經(jīng)非常習(xí)慣,因此缺乏改變習(xí)慣的動(dòng)力。
從效率上看,語(yǔ)音在智能手機(jī)和各類(lèi)軟件上的應(yīng)用主要以輸入、搜索和調(diào)取服務(wù)為主,輸入信息量并不大,而且大多移動(dòng)應(yīng)用都是基于觸摸和文字做的交互設(shè)計(jì),有文字推薦、按鍵選擇等友好設(shè)置,因此原有交互方式本身已經(jīng)非常便捷,語(yǔ)音交互效果不好,容易出錯(cuò),并不能很好地提升效率。
目前,除了重度文字使用者,比如作家、記者、編輯等,對(duì)語(yǔ)音輸入和轉(zhuǎn)化有著剛性需求,其他人使用語(yǔ)音更多還是在無(wú)法打字或不方便觸摸時(shí),比如走路、開(kāi)車(chē)等情況下。不過(guò),隨著語(yǔ)音識(shí)別和交互體驗(yàn)不斷提升,會(huì)有越來(lái)越多的人在移動(dòng)端使用語(yǔ)音。
汽車(chē)
由于人在車(chē)內(nèi)雙手和雙眼被占用,而需求又十分明確,因此智能語(yǔ)音成了這一場(chǎng)景下最合適的交互方式。
智能語(yǔ)音在車(chē)內(nèi)的應(yīng)用主要以車(chē)載導(dǎo)航為主,輔以查詢和用車(chē)。對(duì)于業(yè)界熱炒的“以語(yǔ)音為入口連接各種服務(wù),從而構(gòu)建車(chē)聯(lián)網(wǎng)生態(tài)”的暢想,目前看來(lái)還距離較遠(yuǎn)。核心困難在于,整個(gè)行業(yè)尚未找到車(chē)內(nèi)場(chǎng)景下用戶的剛性、高頻需求。或許等到自動(dòng)駕駛汽車(chē)普及之后,人的雙手雙眼以及大腦解放出來(lái),才有條件搭建包含各種服務(wù)的車(chē)內(nèi)生態(tài)。
對(duì)于涉足汽車(chē)領(lǐng)域的語(yǔ)音企業(yè)來(lái)說(shuō),當(dāng)前最重要的是,把導(dǎo)航等剛性需求的體驗(yàn)做到位,再去考慮如何延伸服務(wù)。
家居
在家居場(chǎng)景下,智能語(yǔ)音應(yīng)用主要圍繞智能電視、音箱、家用機(jī)器人展開(kāi),解決的需求包括搜片、聽(tīng)歌、提醒、簡(jiǎn)單交互、應(yīng)用調(diào)取等。
亞馬遜Echo面世,帶動(dòng)了語(yǔ)音交互在家居領(lǐng)域應(yīng)用的熱潮。從2014年下半年至今,Alexa平臺(tái)應(yīng)用數(shù)從最初20多個(gè)增加到7000多個(gè),并在過(guò)去半年內(nèi)以每月1000個(gè)左右的速度增加。據(jù)CIRP報(bào)告估計(jì),截止2016年11月,Echo累計(jì)銷(xiāo)量超過(guò)510萬(wàn)臺(tái),2016年Q1-Q3共銷(xiāo)售約200萬(wàn)臺(tái),較前三季度增長(zhǎng)18%(2015Q2-Q4數(shù)據(jù)來(lái)源于Mary Meeker《2016互聯(lián)網(wǎng)趨勢(shì)報(bào)告》)。
圖:亞馬遜Echo銷(xiāo)量估計(jì),來(lái)源:MaryMeeker, 2016 Internet Trends
家居環(huán)境的天然特性使得語(yǔ)音成為最合適的交互方式,類(lèi)似于Echo Alexa這樣的平臺(tái)將吸引越來(lái)越多的應(yīng)用,不斷豐富其產(chǎn)品功能,完整智能家居生態(tài)環(huán)境。隨著用戶習(xí)慣不斷養(yǎng)成,這樣的“智能家居控制中心”和“流量入口”有望快速普及,成為iPhone級(jí)爆款。不過(guò),由于語(yǔ)音是一種全新的交互方式,除了技術(shù)所需的提升,各類(lèi)應(yīng)用在開(kāi)發(fā)設(shè)計(jì)時(shí)還將面臨用戶體驗(yàn)和價(jià)值考量等全新挑戰(zhàn)。
除了音箱、臺(tái)燈等小家電智能產(chǎn)品,家用機(jī)器人也成了創(chuàng)業(yè)者爭(zhēng)相押注的對(duì)象。擬生物形態(tài)智能產(chǎn)品的火熱某種程度上承載著人類(lèi)對(duì)于機(jī)器人的美好愿望,但創(chuàng)業(yè)者還是要從價(jià)值和實(shí)用性角度考量其產(chǎn)品形態(tài)的設(shè)計(jì)邏輯。最終哪種形態(tài)的智能產(chǎn)品會(huì)“笑到最后”,還得市場(chǎng)說(shuō)了算,但語(yǔ)音會(huì)成為家居交互主流這一點(diǎn),已經(jīng)毋庸置疑。
值得一提的是,一些傳統(tǒng)家電,如空調(diào)、冰箱、洗衣機(jī)、抽油煙機(jī)等,也開(kāi)始配備語(yǔ)音交互功能,事實(shí)上并不理性。無(wú)論是控制開(kāi)關(guān)、調(diào)節(jié)設(shè)置,還是對(duì)話溝通,從現(xiàn)有技術(shù)水平所能解決的需求和效率來(lái)看,都價(jià)值有限,或許等到語(yǔ)音交互成本下降,效率提升,才有可能在各種家電終端上普及。不過(guò)更多行業(yè)人士?jī)A向于認(rèn)為,智能家電的語(yǔ)音控制要么通過(guò)一個(gè)中樞設(shè)備來(lái)進(jìn)行,要么通過(guò)房屋前裝分體式設(shè)計(jì)來(lái)實(shí)現(xiàn)。
除了以上三大領(lǐng)域,商用服務(wù)機(jī)器人的逐漸成熟,有望為語(yǔ)音語(yǔ)義在商場(chǎng)、醫(yī)院等各類(lèi)服務(wù)場(chǎng)所開(kāi)辟新的應(yīng)用領(lǐng)地,點(diǎn)餐機(jī)、訂票機(jī)等傳統(tǒng)形態(tài)服務(wù)設(shè)備也將會(huì)以語(yǔ)音這種全新的交互方式服務(wù)大眾,市場(chǎng)之廣闊,可想而知。
B端應(yīng)用:提升效率、解放人力,深耕垂直行業(yè)是根本
智能語(yǔ)音語(yǔ)義在B端的應(yīng)用主要集中于客服、教育、醫(yī)療、旅游等領(lǐng)域。
客服
客服作為勞動(dòng)密集型行業(yè),對(duì)于一些大公司來(lái)說(shuō),成本依然很高。智能機(jī)器人客服的出現(xiàn)可以在很大程度上解決簡(jiǎn)單、重復(fù)性工作,幫助企業(yè)節(jié)省人工和坐席成本,提升運(yùn)營(yíng)效率。
由于客服問(wèn)題主要聚焦在特定產(chǎn)品或單一垂直領(lǐng)域,因此需要企業(yè)擁有完整的結(jié)構(gòu)化知識(shí)庫(kù),幫助機(jī)器人更好地查詢和匹配問(wèn)答內(nèi)容。目前,按照行業(yè)平均水平,機(jī)器人客服可以解決70%左右問(wèn)題,其余由人工處理。
機(jī)器人客服是主要戰(zhàn)場(chǎng)。從成立較早的智臻智能(小i機(jī)器人)、捷通華聲,到后來(lái)的圖靈機(jī)器人、智齒科技、驀然認(rèn)知,以及從云客服轉(zhuǎn)型智能客服的UDesk等,都希望在智能客服市場(chǎng)分得一杯羹。
由于業(yè)務(wù)量大、付費(fèi)能力強(qiáng),且知識(shí)庫(kù)完整,金融、電信、航空公司等大型客戶成了智能客服的主要應(yīng)用群體。要更好地滿足這些群體的需求,各家公司需要針對(duì)不同行業(yè)對(duì)算法和技術(shù)做相應(yīng)的改進(jìn)和優(yōu)化,在實(shí)際應(yīng)用中,用更大的數(shù)據(jù)量去提升產(chǎn)品體驗(yàn)和效果。
教育
教育領(lǐng)域,包括中英文口語(yǔ)評(píng)測(cè),以及部分教育機(jī)器人的交互功能??拼笥嶏w作為智能語(yǔ)音和教育市場(chǎng)的龍頭企業(yè),通過(guò)為一些全國(guó)性考試提供技術(shù)支持,已經(jīng)成為中英文口語(yǔ)測(cè)評(píng)方面的主要玩家。2016年底,科大訊飛與新東方聯(lián)合成立東方訊飛,用新東方的數(shù)據(jù)+訊飛的技術(shù),推動(dòng)教育、培訓(xùn)、學(xué)習(xí)的智能化進(jìn)程,智能語(yǔ)音測(cè)評(píng)技術(shù)有望在其中發(fā)揮重要作用。
在訊飛的廣泛布局之下,脫胎于老牌語(yǔ)音公司思必馳,后被網(wǎng)龍(HK 00777)全資收購(gòu)的馳聲科技,也通過(guò)2B2C的模式,在培訓(xùn)、出版、考試服務(wù)、教育軟硬件等領(lǐng)域持續(xù)發(fā)力,欲通過(guò)中高考口語(yǔ)考試解決方案、人機(jī)英語(yǔ)對(duì)話模擬考輔系統(tǒng)打入學(xué)校市場(chǎng)。
體制之外,以英語(yǔ)流利說(shuō)為代表的口語(yǔ)評(píng)測(cè)應(yīng)用也廣受C端用戶好評(píng)。依靠四年時(shí)間積累的3000萬(wàn)用戶數(shù)據(jù)、500萬(wàn)小時(shí)練習(xí)錄音,流利說(shuō)于2016年推出可替代口語(yǔ)老師的自適應(yīng)移動(dòng)英語(yǔ)課堂“懂你英語(yǔ)”,加上輔助在線答疑及外教上課,有望領(lǐng)先一步實(shí)現(xiàn)自適應(yīng)口語(yǔ)學(xué)習(xí)的商業(yè)化落地。
智能語(yǔ)音在教育領(lǐng)域的價(jià)值,一方面在于提高教師工作效率,另一方面在于幫助學(xué)生提升學(xué)習(xí)效果。通過(guò)大量語(yǔ)音數(shù)據(jù)的積累,并和后端大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)相結(jié)合,智能語(yǔ)音有望在機(jī)器輔助學(xué)習(xí)和自適應(yīng)學(xué)習(xí)方面發(fā)揮重大作用,為教育行業(yè)帶來(lái)顛覆性變革。
醫(yī)療
醫(yī)療領(lǐng)域的應(yīng)用目前主要是電子病歷錄入。醫(yī)生在臨床診斷時(shí)使用專(zhuān)業(yè)麥克風(fēng),可將診斷信息實(shí)時(shí)轉(zhuǎn)化成文字,錄入醫(yī)院HIS(Hospital Information System)系統(tǒng),方便后續(xù)查詢和問(wèn)答,提高醫(yī)生工作效率。
由于專(zhuān)業(yè)性強(qiáng)、識(shí)別難度高,國(guó)外語(yǔ)音巨頭Nuance最早主要是通過(guò)后臺(tái)人工轉(zhuǎn)寫(xiě),而隨著語(yǔ)音識(shí)別技術(shù)有了突破性進(jìn)展,國(guó)內(nèi)智能語(yǔ)音在國(guó)內(nèi)醫(yī)療領(lǐng)域的應(yīng)用也開(kāi)始起步,訊飛和云知聲是該領(lǐng)域典型代表。
訊飛正在和安徽省立醫(yī)院、上交大附屬第六醫(yī)院南院以及北大口腔醫(yī)院等合作,讓醫(yī)生使用定制麥克風(fēng),通過(guò)定向和降噪,先將語(yǔ)音轉(zhuǎn)成文字,再用NLP技術(shù)對(duì)文字進(jìn)行結(jié)構(gòu)化處理(比如分段),醫(yī)生只需再做簡(jiǎn)單修改即可形成電子病歷。此外,訊飛還在醫(yī)療影像翻譯、醫(yī)療大數(shù)據(jù)分析方面展開(kāi)布局,欲將AI技術(shù)廣泛用于智慧醫(yī)療領(lǐng)域。
云知聲的智能醫(yī)療語(yǔ)音錄入系統(tǒng)也已經(jīng)在協(xié)和醫(yī)院、試點(diǎn)使用。同時(shí),其醫(yī)療語(yǔ)音技術(shù)還上線了“平安好醫(yī)生”20多個(gè)科室,讓醫(yī)生通過(guò)語(yǔ)音方式,更便捷地與患者進(jìn)行線上溝通。
當(dāng)前,語(yǔ)音在醫(yī)療領(lǐng)域的應(yīng)用還處于語(yǔ)音轉(zhuǎn)文字的初級(jí)階段,在實(shí)際使用中的部分識(shí)別錯(cuò)誤還需要醫(yī)生手動(dòng)修改。不過(guò),以語(yǔ)音為入口所積累的大量醫(yī)療數(shù)據(jù)會(huì)在未來(lái)產(chǎn)生巨大價(jià)值。此外,隨著醫(yī)療技術(shù)和語(yǔ)音分析技術(shù)的進(jìn)步,通過(guò)聲音診斷病情也將成為可能。南加州大學(xué)已經(jīng)開(kāi)發(fā)出一套新的機(jī)器學(xué)習(xí)工具,可以通過(guò)患者的特定語(yǔ)音特征,輔助醫(yī)生診斷抑郁癥等心理疾病。
金融
由于金融行業(yè)帶有明顯的客戶服務(wù)屬性,加上完整而龐大的業(yè)務(wù)及數(shù)據(jù)積累,因此成為智能語(yǔ)音語(yǔ)義的重要應(yīng)用陣地。當(dāng)前,一些商業(yè)銀行已經(jīng)通過(guò)使用語(yǔ)音識(shí)別技術(shù),實(shí)現(xiàn)了語(yǔ)音導(dǎo)航、語(yǔ)音交易、業(yè)務(wù)辦理等基礎(chǔ)服務(wù)。
除了在線客服和呼叫中心,智能語(yǔ)音技術(shù)還被應(yīng)用于語(yǔ)音/語(yǔ)義分析、大數(shù)據(jù)挖掘、身份認(rèn)證等領(lǐng)域。捷通華聲的智能語(yǔ)音分析系統(tǒng)就通過(guò)將語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為文本,而后建立語(yǔ)義索引、自動(dòng)提取特征關(guān)鍵詞,再對(duì)文本數(shù)據(jù)進(jìn)行自動(dòng)分類(lèi),生成結(jié)構(gòu)化的客服大數(shù)據(jù),為銀行等金融機(jī)構(gòu)提供客服質(zhì)檢、大數(shù)據(jù)挖掘與分析服務(wù)。
此外,隨著聲紋識(shí)別技術(shù)的進(jìn)步,智能語(yǔ)音也將被應(yīng)用于金融領(lǐng)域的身份認(rèn)證,通過(guò)語(yǔ)音認(rèn)證實(shí)現(xiàn)業(yè)務(wù)辦理、支付等功能,未來(lái)有望和指紋、虹膜、人臉等其他生物特征識(shí)別方式一起使用。
除了上述四大領(lǐng)域,智能語(yǔ)音語(yǔ)義技術(shù)也逐漸滲透到安防、旅游、法律等行業(yè),在效率效果提升、解放人力等方面發(fā)揮越來(lái)越重要的作用。
三、業(yè)務(wù)模式及行業(yè)格局篇:巨頭優(yōu)勢(shì)明顯,創(chuàng)業(yè)公司垂直突圍
從業(yè)務(wù)和規(guī)模來(lái)看,語(yǔ)音語(yǔ)義類(lèi)公司大致可分為三類(lèi):大型互聯(lián)網(wǎng)公司、行業(yè)技術(shù)巨頭、創(chuàng)業(yè)公司。
圖:智能語(yǔ)音語(yǔ)義行業(yè)業(yè)務(wù)模式對(duì)比
大型互聯(lián)網(wǎng)公司
由于NLP是搜索引擎的關(guān)鍵技術(shù)之一,因此百度、搜狗自然而然地成為頭號(hào)玩家。兩家公司依托其強(qiáng)大的搜索引擎和輸入法應(yīng)用,不僅將語(yǔ)音技術(shù)用于自身產(chǎn)品,還通過(guò)與行業(yè)其他技術(shù)和產(chǎn)品提供方合作,推出面向C端的產(chǎn)品和應(yīng)用。比如,搜狗聯(lián)合四維圖新、飛歌等,推出全語(yǔ)音交互的車(chē)載導(dǎo)航產(chǎn)品,百度度秘?cái)y手小魚(yú)在家,推出Duer OS以及家用視頻對(duì)講機(jī)器人。
由于互聯(lián)網(wǎng)公司擅長(zhǎng)直接服務(wù)用戶,因此不會(huì)輕易涉足教育、金融等傳統(tǒng)垂直行業(yè),而是會(huì)把重心放在消費(fèi)類(lèi)產(chǎn)品和應(yīng)用上,其模式主要包括2C和2B2C兩種,最終都會(huì)落地到消費(fèi)領(lǐng)域。
技術(shù)巨頭
技術(shù)類(lèi)公司中,科大訊飛一直以來(lái)都是做2B業(yè)務(wù),向教育、電信、客服、政府等垂直行業(yè)輸出語(yǔ)音合成和識(shí)別技術(shù),經(jīng)過(guò)十多年積累,訊飛已經(jīng)積累了相當(dāng)大的市場(chǎng)份額。近兩年,訊飛一方面在智能車(chē)載、智能家居、智能機(jī)器人等新興市場(chǎng)加大布局,另一方面也在努力向消費(fèi)端傾斜,通過(guò)訊飛語(yǔ)音輸入法、錄音寶等產(chǎn)品打入C端市場(chǎng),逐漸加強(qiáng)品牌認(rèn)知度。因此,其商業(yè)模式既有2B、2C,也有2B2C。
技術(shù)類(lèi)創(chuàng)業(yè)公司
其他技術(shù)類(lèi)創(chuàng)業(yè)公司大多以2B或2B2C為主。比如,云知聲的智能醫(yī)療業(yè)務(wù)完全2B,而智能車(chē)載和智能家居則是2B2C。值得注意的是,出門(mén)問(wèn)問(wèn)作為一家擁有智能語(yǔ)音語(yǔ)義技術(shù)的公司,獨(dú)樹(shù)一幟地選擇了2C模式,通過(guò)智能手表、智能后視鏡以及智能語(yǔ)音助手等產(chǎn)品和應(yīng)用,直接切入消費(fèi)級(jí)市場(chǎng)。
NLP技術(shù)公司也包括2C和2B兩種模式。語(yǔ)音助手和聊天機(jī)器人等2C產(chǎn)品,無(wú)論是技術(shù)還是產(chǎn)品都不成熟,因此并不適合創(chuàng)業(yè)公司做。圖靈機(jī)器人從最早的蟲(chóng)洞語(yǔ)音助手,轉(zhuǎn)型到2B的語(yǔ)義平臺(tái)和操作系統(tǒng),也說(shuō)明了這一問(wèn)題。聊天機(jī)器人由于使用場(chǎng)景和需求尚不明確,目前仍是微軟等大公司在探索和嘗試。相較2C,2B對(duì)于創(chuàng)業(yè)公司來(lái)說(shuō)是一條更現(xiàn)實(shí)的路,可以在技術(shù)發(fā)展早期段彌補(bǔ)產(chǎn)業(yè)薄弱環(huán)節(jié)。
整體格局
截止當(dāng)前,在智能語(yǔ)音語(yǔ)義領(lǐng)域,除了訊飛擁有多年技術(shù)積累,在某些前沿技術(shù)上處于領(lǐng)先水平,其他互聯(lián)網(wǎng)公司和創(chuàng)業(yè)公司在技術(shù)上并沒(méi)有本質(zhì)差別,技術(shù)本身已經(jīng)不足以成為其核心競(jìng)爭(zhēng)力,大多公司很難單純依賴技術(shù)建立成熟可靠的商業(yè)模式。
要想更好地實(shí)現(xiàn)商業(yè)化,這些公司只能通過(guò)往上下游延伸來(lái)創(chuàng)造價(jià)值。上游可以把語(yǔ)音和搜索引擎結(jié)合起來(lái),為垂直行業(yè)提供內(nèi)容和服務(wù),下游可以把語(yǔ)音和硬件產(chǎn)品相結(jié)合,依靠產(chǎn)品銷(xiāo)售實(shí)現(xiàn)營(yíng)收。哪怕是訊飛這樣擁有前沿技術(shù)的大公司,也在向垂直行業(yè)和產(chǎn)品延伸,來(lái)挖掘新的利潤(rùn)增長(zhǎng)點(diǎn)。
教育、金融、客服等領(lǐng)域需要和行業(yè)進(jìn)行高度定制,大型互聯(lián)網(wǎng)公司不會(huì)輕易涉足,因此會(huì)成為技術(shù)類(lèi)公司的主要陣地。但是在智能車(chē)載、智能家居、智能機(jī)器人等2B2C甚至2C的領(lǐng)域,技術(shù)類(lèi)創(chuàng)業(yè)公司則要面對(duì)互聯(lián)網(wǎng)公司的直接競(jìng)爭(zhēng)。因?yàn)?,互?lián)網(wǎng)企業(yè)具有天然的C端優(yōu)勢(shì)。
首先,無(wú)論是通過(guò)自有2C產(chǎn)品,還是借助合作,大型互聯(lián)網(wǎng)公司依靠其龐大的用戶量、大量真實(shí)場(chǎng)景下的數(shù)據(jù)積累、以及背后強(qiáng)大的搜索引擎和完整的知識(shí)庫(kù),可以極大提高語(yǔ)音識(shí)別在真實(shí)環(huán)境下的識(shí)別準(zhǔn)確率,以及語(yǔ)義分析和理解能力。
其次,互聯(lián)網(wǎng)公司擁有豐富的C端產(chǎn)品經(jīng)驗(yàn),加上對(duì)用戶消費(fèi)數(shù)據(jù)的迭代,能夠更好地提升產(chǎn)品體驗(yàn)。對(duì)于體驗(yàn)至關(guān)重要的消費(fèi)端,一旦產(chǎn)品或應(yīng)用形成良好的行業(yè)口碑,快速的走量也會(huì)水到渠成。
當(dāng)然,巨頭的優(yōu)勢(shì)并不能阻擋創(chuàng)業(yè)公司的成長(zhǎng)機(jī)會(huì),通過(guò)深耕垂直領(lǐng)域和細(xì)分賽道,實(shí)現(xiàn)自我造血和快速成長(zhǎng),創(chuàng)業(yè)公司也有機(jī)會(huì)在這一新興產(chǎn)業(yè)中逐漸做大。接下來(lái),隨著語(yǔ)音識(shí)別和NLP技術(shù)的逐步成熟,智能汽車(chē)、智能家居、智能機(jī)器人產(chǎn)業(yè)的日漸完善,定會(huì)有一批優(yōu)秀的技術(shù)類(lèi)公司在智能語(yǔ)音產(chǎn)業(yè)的浪潮中順勢(shì)而起。
聯(lián)系客服