說(shuō)起智能語(yǔ)音助手,大家首先想到的必然會(huì)有蘋(píng)果的Siri。在iPhone 4S上首度亮相之后,這個(gè)劃時(shí)代的小玩意不僅被業(yè)界驚嘆,還迅速獲得了消費(fèi)者的青睞,不過(guò)在7年之后,Siri卻好像成為了一個(gè)背負(fù)太多包袱而蹣跚前行的后進(jìn)生。
在最新的 iOS 11中,Siri被發(fā)現(xiàn)了一個(gè)隱私泄露BUG:在鎖屏狀態(tài)下,Siri可以閱讀手機(jī)上的新增通知,即使通知這時(shí)處于被隱藏的狀態(tài),當(dāng)然系統(tǒng)APP并不在其中,而微信和QQ等第三方應(yīng)用則不幸中招。因此外媒The Information對(duì)此也有報(bào)道顯示,蘋(píng)果或正在考慮將Siri進(jìn)行回爐重造。
一個(gè)智能語(yǔ)音助手的養(yǎng)成方法
時(shí)間來(lái)到2018年,智能語(yǔ)音助手的江湖早已不是Siri獨(dú)步天下的時(shí)代,在與三星Bixby、vivo jovi、華為智能助手、谷歌Assistant、亞馬遜Alexa的比較中,Siri幾乎已經(jīng)完全喪失了先發(fā)優(yōu)勢(shì),甚至在很多時(shí)候還顯得有點(diǎn)“蠢”。
看到這里你可能會(huì)有疑問(wèn)了,是不是做個(gè)智能語(yǔ)音助手就只差個(gè)程序員就能可以?答案當(dāng)然不是這么簡(jiǎn)單了,雖然說(shuō)現(xiàn)在的AI行業(yè)很火熱,但是智能語(yǔ)音助手其實(shí)是個(gè)龐大的系統(tǒng)性工程。
僅以作為基礎(chǔ)的語(yǔ)音文本轉(zhuǎn)換為例,語(yǔ)音到文本(STT)引擎,可以將用戶的聲音轉(zhuǎn)換為文本,語(yǔ)音可以是音頻文件或用戶的語(yǔ)音流,而文本到語(yǔ)音(TTS)引擎,則可將文本轉(zhuǎn)換為語(yǔ)音,這就使得即使是在不方便進(jìn)行語(yǔ)音的時(shí)候,智能助手也能解讀你的想法。但是在現(xiàn)實(shí)環(huán)境中,幾乎很難有一個(gè)安靜和完美的環(huán)境,因此還需要降噪引擎在各種各樣的聲音中分辨出需要的語(yǔ)音流。
而生物識(shí)別則無(wú)疑是智能助手的認(rèn)證模塊,能夠幫助其識(shí)別用戶的聲紋。比如Siri就是你在教它怎么說(shuō)“Hi Siri”的時(shí)候,完成這一認(rèn)證;語(yǔ)意識(shí)別則是依靠機(jī)器學(xué)習(xí)組件,讓智能助手能夠理解你所說(shuō)的話的背后的含義,還是其中非常重要的核心技術(shù)之一;至于語(yǔ)音壓縮引擎,則為用戶提供了快速輸出的基礎(chǔ),通過(guò)壓縮用戶的語(yǔ)音,使其能更快地發(fā)送到服務(wù)器端。
然而上述這些組成部分并不代表想要完成一個(gè)智能助手,僅僅只需要懂算法的程序員就可以解決。除此之外,也包括語(yǔ)言學(xué)家的幫助也必不可少,而與此同時(shí),更為重要的是得有一個(gè)足夠龐大的數(shù)據(jù)庫(kù)能夠幫助其成長(zhǎng)。
在內(nèi)耗中前行的Siri
雖然說(shuō)Siri很早就出現(xiàn)在了iPhone上,但其并非來(lái)自蘋(píng)果公司內(nèi)部的成果,而是其收購(gòu)計(jì)劃的產(chǎn)物。在 iPhone 4s發(fā)布前,蘋(píng)果自家的Siri團(tuán)隊(duì)并未做好充分的準(zhǔn)備嗎,在面對(duì)當(dāng)時(shí)半成品的情況下,團(tuán)隊(duì)曾為是“推倒重來(lái)”還是“繼續(xù)改進(jìn)”的問(wèn)題產(chǎn)生過(guò)巨大的分歧。
這主要是因?yàn)楫?dāng)時(shí)的Siri呈現(xiàn)出的效果,與整體團(tuán)隊(duì)所希望的最終定位存在差距,這一分歧也導(dǎo)致了Siri團(tuán)隊(duì)內(nèi)部長(zhǎng)時(shí)間的糾葛和內(nèi)耗。而這一點(diǎn),在The Information對(duì)于蘋(píng)果前員工的采訪中被體現(xiàn)的淋漓盡致。
Siri團(tuán)隊(duì)的領(lǐng)導(dǎo)者,從Scott Forstall到Richard Williamson再到Bill Stasior,一直到現(xiàn)在的高級(jí)副總裁Craig Federighi,更替可謂非常頻繁。但是不僅是團(tuán)隊(duì)領(lǐng)導(dǎo)頻繁更替,在關(guān)鍵的語(yǔ)音識(shí)別系統(tǒng)、自然語(yǔ)言處理系統(tǒng)、知識(shí)庫(kù)搜索系統(tǒng)(注意不等同于互聯(lián)網(wǎng)搜索引擎)上,各個(gè)小組為了獲取更多關(guān)注和資源,相互之間的推諉也必然少不了,因此也可說(shuō)大企業(yè)病這一頑疾在Siri上,可謂體現(xiàn)的是淋漓盡致。
在The Information的采訪中,這些前員工表示,領(lǐng)導(dǎo)力的缺乏和管理層的不斷變化拖累Siri了前進(jìn)的腳步,其中最關(guān)鍵的原因就是蘋(píng)果一直以來(lái)堅(jiān)持的封閉模式并沒(méi)有對(duì)Siri破例,這也就讓第三方開(kāi)發(fā)者沒(méi)有機(jī)會(huì)創(chuàng)造更多有用的Siri應(yīng)用。
更開(kāi)放的生態(tài)才是關(guān)鍵
在Siri還沒(méi)有被登錄iPhone或者被收購(gòu)之前,其創(chuàng)始團(tuán)隊(duì)的預(yù)想是希望擁有一個(gè)第三款的開(kāi)發(fā)生態(tài),例如最初Siri被希望實(shí)現(xiàn)的預(yù)約餐飲功能是包含著日期、地點(diǎn)、菜品等多方位要素,而非簡(jiǎn)單地搜索一個(gè)餐館的訂餐電話,但是這一點(diǎn)被后來(lái)的一眾智能助手紛紛實(shí)現(xiàn)。
但是開(kāi)放性的美好想法卻受困于閉環(huán)的iOS生態(tài),想要打通這整套體系的難度幾乎難以想象。因此,直到Siri登上iPhone手機(jī)5年之后,也就是2016年的WWDC大會(huì)上,蘋(píng)果才推出了Siriki的開(kāi)發(fā)者套件,目前為止也只有10多項(xiàng)基礎(chǔ)功能,反觀亞馬遜的Alexa則擁有多達(dá)25000項(xiàng)由第三方開(kāi)發(fā)人員構(gòu)建的功能。
事實(shí)上,成為iOS開(kāi)發(fā)者不難,只需要99美元即可,但是想要獲得Sirikit套件卻并不是個(gè)容易的事情,這需要由蘋(píng)果來(lái)進(jìn)行邀請(qǐng),而蘋(píng)果的效率大家則可以自由發(fā)揮想象。
事實(shí)雖然是殘酷的,但在蘋(píng)果眼中Siri依然是天下無(wú)雙,而且在這個(gè)智能手機(jī)越來(lái)越強(qiáng)調(diào)AI的時(shí)代,沒(méi)有屬于自家的智能語(yǔ)音助手自然比競(jìng)品少了一大截競(jìng)爭(zhēng)力。因此盡管目前的Siri是一個(gè)從設(shè)計(jì)團(tuán)隊(duì)到用戶都不太滿意的作品,但是蘋(píng)果依舊還需要在隱私安全政策的牽絆下繼續(xù)負(fù)重前行,至于其是否會(huì)回爐重造,可能還需要其進(jìn)行慎重考慮之后才能給出結(jié)論了。
【本文圖片來(lái)自網(wǎng)絡(luò)】
「 推 薦 閱 讀 」
小米MIX 2S,比起藝術(shù)和性能,我更欣賞它的親民
新的MIX,新的藝術(shù)品?
谷歌也開(kāi)始對(duì)開(kāi)發(fā)者“催更”,強(qiáng)制APP適配了。
關(guān)注我們,更多驚喜
聯(lián)系客服