雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))按:本文來源“聲學在線”,作者茄子。
引語:亞馬遜的Echo大賣掀起了一股語音智能的熱潮,語音交互技術成為炙手可熱的時代寵兒。在日新月異的科技領域,眼看則人工智能將要引領一番新的革命,互聯(lián)網(wǎng)巨頭和科技創(chuàng)業(yè)公司都紛紛入場。新時代的商業(yè)規(guī)則蘊含著新的機遇,對于雙方而言,這都是一次重新洗牌的最佳窗口期。
這一年來,幾乎語音行業(yè)內(nèi)的大小公司都在做一件事,那就是試圖建立由自己主導的語音生態(tài)產(chǎn)業(yè)鏈。在這個產(chǎn)業(yè)鏈中,產(chǎn)品制造商,技術服務商,平臺提供商和內(nèi)容服務商組成整個產(chǎn)業(yè)鏈的生態(tài)。可以說,誰的生態(tài)系統(tǒng)最完善,未來誰就將分得更大的市場份額。大勢當前,幾乎所有的語音技術公司都開放了其智能語音平臺,給硬件開發(fā)者,應用技能開發(fā)者提供了語音交互能力,也招徠更多的玩家進入到他們創(chuàng)建的生態(tài)系統(tǒng)之中。
開放平臺的主要功能,就是賦予硬件或技能應用獲得“能聽會說,更智能”的能力。目前,各大科技公司都紛紛開放語音能力,意欲吸引更多的玩家入場,下文筆者將詳細分析比較各大智能語音開放平臺。
百度DuerOS開放平臺
DuerOS是百度推出的對話式人工智能操作系統(tǒng),即智能語音交互平臺。DuerOS的技術架構包含“對話服務”和“技能框架”兩大基礎協(xié)議。兩大協(xié)議連通起來的對話核心系統(tǒng)、智能設備開放平臺和技能開放平臺,構成了完整DuerOS的智能生態(tài)系統(tǒng)。
圖為DuerOS 2.0系統(tǒng)構架
智能設備開放平臺面向傳統(tǒng)硬件廠商和開發(fā)者輸出軟硬兼?zhèn)涞亩鄬哟谓鉀Q方案,包括個人版、輕量版、標準版、參考設計等多樣化解決方案,能夠低成本、方便靈活地滿足各個類型廠商和開發(fā)者不同層次的需求。例如,軟硬一體化的智能語音交互開發(fā)解決方案SoundPi,集成全方向喚醒、聲源測向、定向拾音、噪聲抑制、混響消除、回聲抵消、遠場語音識別、語義理解、語音播報等多項技術。技能開放平臺擁有豐富優(yōu)質(zhì)的AI內(nèi)容資源,包括自有的10大類、100余種原生對話技能,支持接入第三方資源和內(nèi)容,如音樂、有聲、新聞、娛樂等,顯著降低了開發(fā)成本。
DuerOS的核心層是對話系統(tǒng),它之所以所以能夠有好的聽清、聽懂效果,主要歸功于三個方面:數(shù)據(jù)多、技術深、內(nèi)容廣。所謂的數(shù)據(jù)指的是百度擁有龐大的知識圖譜、需求圖譜、網(wǎng)頁圖譜、地理信息圖譜及用戶畫像,技術則指的是十余年里百度所積累的自然語言處理、對話控制、對話管理、自然語言生成、搜索等技術,而內(nèi)容指的是百度擁有的超過10000個信息垂類內(nèi)容。
阿里AliGenie語音開放平臺
AliGenie語音開放平臺是由阿里人工智能實驗室(AI Labs)推出,主要包括精靈技能市場、硬件開放平臺、行業(yè)解決方案三大部分,全面賦能智能家居、新制造、新零售、酒店、航空等服務場景。
圖為AliGenie語音開發(fā)者基本構架
面向硬件品牌商和方案商,例如比如音箱、電視、玩具、OTT盒子、投影儀和汽車等,AliGenie開放平臺將提供語音交互技術、自然語言處理能力、云服務系統(tǒng)、開發(fā)工具包和一站式軟硬件及量化標準。針對個人和行業(yè)應用開發(fā)者,將提供包括語音喚醒、語音識別、聲紋識別、語意理解、語音合成五大核心語音能力的開發(fā)者套件,內(nèi)容提供者使用內(nèi)容接入套件、即可快速創(chuàng)建語音技能;應用開發(fā)者使用自定義技能組件,可定制各類技能。阿里巴巴推出行業(yè)的語音解決方案自然帶有阿里的零售服務業(yè)基因。對于線下零售、航空候機、酒店客房等應用場景,AliGenie開放平臺推出了垂直行業(yè)解決方案,例如店鋪精靈,酒店精靈和航旅精靈等,這些個性化的語音助手將成為服務業(yè)的得力助手。
騰訊云小微語音開放平臺
騰訊云小微于2017年騰訊「云+未來」峰會上正式發(fā)布,分為三個部分,Skill開放平臺,硬件開放平臺和小微客服機器人。
圖為騰訊云小微基本構架
騰訊云小微的Skill是指它為各種各樣的設備提供智能語音對話的能力和內(nèi)容;硬件開放平臺是一個能將語音交互能力輸出給第三方硬件廠商的平臺,即云小微將語音喚醒、語音識別、語義分析、信令收發(fā)以及眾多的內(nèi)置資源及服務,如音樂、天氣、導航等核心能力提供給智能音箱、智能電視、智能玩具、OTT盒子等傳統(tǒng)硬件領域的合作伙伴,實現(xiàn)用戶與設備、設備與服務之間的語音聯(lián)動能力;小微客戶機器人可以幫助用戶提高效率,降低人力成本。用戶需要導入業(yè)務領域知識庫信息,建立機器人知識信息基礎,通過逐步調(diào)優(yōu),使得機器人機器人實現(xiàn)常見問題的自動應答。
作為網(wǎng)絡社交的巨頭,騰訊不僅擁有海量的視頻、音樂的內(nèi)容資源,還擁有云端億萬用戶的資源,騰訊云小微從一開始就拿到一副好牌。如何在平臺之爭中勝出,就且看鵝廠的戰(zhàn)略策略了。
科大訊飛致力于智能語音及人工智能核心研究和產(chǎn)業(yè)化十八年,是國內(nèi)最大的智能語音上市公司。訊飛開放平臺致力于為開發(fā)者打造一站式智能人機交互解決方案。目前,開放平臺以“云+端”的形式向開發(fā)者提供語音合成、語音識別、語音喚醒、語義理解、人臉識別、個性化彩鈴、移動應用分析等多項服務。
思必馳的DUI(Dialogue User Interface)開放平臺是以D-對話為核心的一站式交互定制平臺,覆蓋多應用場景和第三方內(nèi)容資源,內(nèi)置語音技能庫,為物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)和互聯(lián)網(wǎng)的開發(fā)者,提供單項技術服務和一站式對話交互定制解決方案。作為一個全鏈路智能對話開放平臺,DUI提供的,不僅是基于思必馳智能語音語言技術的對話功能,更包括開發(fā)者在定制對話系統(tǒng)時所需要的綜合服務,如GUI定制、版本管理、私有云部署等,讓開發(fā)者可以完全依據(jù)需求隨心所欲定制對話交互系統(tǒng)。DUI開放平臺擁有青囊系統(tǒng)、天機系統(tǒng)、紫微系統(tǒng)、玲瓏系統(tǒng)四大系統(tǒng)。
云知聲的開放者平臺以方案為入口,基于特定應用場景打造智能語音交互應用的模版。例如智能電視方案、智能汽車方案、音樂搜索方案等。為開發(fā)者提供一個智能語音交互系統(tǒng)的完整而便捷的開發(fā)環(huán)境。這些方案類似于一個個開發(fā)模版,開發(fā)者創(chuàng)建應用時可以為自己的應用選擇合適的方案,開發(fā)者的應用就獲得了該方案中所配置的技術服務和內(nèi)容服務。云知聲是一家專業(yè)的語音交互提供商,在移動互聯(lián)網(wǎng)、智能家居、可穿戴設備、車載導航、醫(yī)療、教育、呼叫中心等領域有豐富的經(jīng)驗。
出門問問推出的AI開放平臺其通用版本也是向開發(fā)者和硬件廠商免費開放的。非申請或邀請制,只需登陸平臺網(wǎng)站注冊就可立即下載集成SDK,擁有全棧式語音交互技術整合,平臺工具操作簡單,適配多場景,且產(chǎn)品集成廠商可根據(jù)自身產(chǎn)品需求,自主針對各自產(chǎn)品進行個性化的功能開發(fā),出門問問通過產(chǎn)品獲得流量、數(shù)據(jù),而產(chǎn)品則能獲得AI技術賦能。
Rokid的開放平臺語音服務包含Rokid技能開發(fā)工具和Rokid語音接入。Rokid技能開發(fā)工具幫助開發(fā)者為所有搭載Rokid開放服務的設備開發(fā)有趣的技能,實現(xiàn)用戶各式各樣的語音交互需求。Rokid語音接入能夠為配有麥克風和揚聲器的聯(lián)網(wǎng)硬件設備開啟Rokid開放服務所提供的智能、可擴展的語音能力。并且,其100%的硬件技術和70%的代碼將全部開源。
語音能力的技術指標是什么?可以說語音識別率的高低是決定用戶體驗的最直觀的一項,而各平臺的語音識別率都能達到90%以上,因此已經(jīng)難以成為評判好壞的決定性因素。在傳統(tǒng)的技術領域中,專業(yè)性具有不可替代的統(tǒng)治地位,但現(xiàn)在的語音識別領域已不是一枝獨秀的時代。
科大訊飛、云知聲、思必馳是幾家專注于語音識別技術的公司,依靠垂直語音技術領域,長期盤踞主流語音市場,擁有先發(fā)優(yōu)勢。這些科技創(chuàng)業(yè)公司在語音領域深耕多年,在業(yè)界有多年的人脈和資源的積累。人工智能時代,智能語音作為AI最先落地的突破口,迅速成為全球互聯(lián)網(wǎng)巨頭關注的焦點和角逐的戰(zhàn)場,所以,科大訊飛、云知聲、思必馳也紛紛轉為AI全棧公司。當然,也有類似聲智科技、三角獸等語音技術公司堅持定位技術方案提供商。
隨著BAT進軍AI語音領域,轉為全棧的語音技術創(chuàng)業(yè)公司、傳統(tǒng)語音技術公司的不可替代性也受到了不可忽視的打擊。作為互聯(lián)網(wǎng)公司的BAT雖然入場較晚,但是不缺少財力的投入,并且憑借著互聯(lián)網(wǎng)行業(yè)的大數(shù)據(jù)等資源發(fā)展自家的人工智能技術,迅速搶占智能語音市場。其中百度最早布局,以“All in AI”的戰(zhàn)略思維,集中火力發(fā)展AI產(chǎn)業(yè),今年全資收購KITT.AI,把KITT.AI的語音能力和自然語言處理能力融入到百度平臺中;阿里也不甘落后,照搬亞馬遜模式,先推出天貓精靈,接著開放AliGenie開發(fā)者平臺;騰訊坐擁內(nèi)容與社交用戶資源,一直以后后之勢切人市場,騰訊云小微平臺的底層技術來自于擁有龐大數(shù)據(jù)的微信。
在語音產(chǎn)業(yè)的技術賽道上,目前,很難說哪一家擁有壓倒性的技術優(yōu)勢。從這個角度說,讓更多的開發(fā)者進入到自己的生態(tài)系統(tǒng)之中,也是開放平臺的一個重要預期。除了構建平臺,各大公司也將投資研究作為戰(zhàn)略布局的一項重要內(nèi)容。比如說,百度發(fā)布普羅米修斯計劃,將開放超大規(guī)模對話式AI數(shù)據(jù)集、鼓勵跨學科合作,并通過100萬美元的基金用于鼓勵和培養(yǎng)對話式AI領域的優(yōu)秀項目和人才;阿里投資達摩院布局科研市場;思必馳也表示將撥出2億基金,用以扶持平臺上優(yōu)秀的開發(fā)者、優(yōu)秀應用案例和創(chuàng)業(yè)項目。
結語:在智能語音領域,評價的指標已經(jīng)變得非常多元,實力的劃分也廣受爭議。在智能領域內(nèi)的第一梯隊究竟是具有先發(fā)優(yōu)勢科技公司?還是占據(jù)著雄厚資本和資源的商業(yè)巨頭?也許只有時間才能給我們答案。
聯(lián)系客服