2017年,中國智能音箱市場的“百箱大戰(zhàn)”硝煙四起,大大小小的廠家一時間紛紛涌入。硝煙散去,蹭熱點的最終被熱點拋棄,真正沉下心來做技術(shù)的仍在砥礪前行。
去年7月,搭載了AliGenie1.0的天貓精靈一經(jīng)推出,就為人機交互帶來了更具差異化的體驗。在短短的八個多月中,其銷量超過200萬臺。與此相較,目前行業(yè)最暢銷的亞馬遜智能音箱完成這個任務(wù)則花了一年多的時間。
市場的需求倒逼著產(chǎn)品的推陳出新。3月22日,在“萬物有靈——阿里巴巴人工智能實驗室2018春季發(fā)布會”上,阿里推出了具有視覺認(rèn)知能力的人際交流系統(tǒng)AliGenie2.0和搭載了AliGenie2.0系統(tǒng)的 “天貓精靈火眼”等產(chǎn)品。
慧眼獨具,AliGenie2.0
讓人機交互告別盲目時代
作為阿里巴巴推出的第一代中文人機交流系統(tǒng),AliGenie1.0主要是通過“聽”和“說”來進行人機的交互;AliGenie2.0則在“聽”和“說”的基礎(chǔ)上引入了視覺能力,能夠進行視覺認(rèn)知、多模態(tài)交互、情景感知等,從而構(gòu)建一個更聰明的人機交流系統(tǒng)。
其中,AliGenie2.0的視覺認(rèn)知能力包括達到了國際領(lǐng)先水平的圖像識別、人臉識別、物體檢測,多模態(tài)交互能力可以通過對語音、圖像、觸摸等多種交互形態(tài)的融合,模擬人與人之間的交流方式。而情景感知能力,則可基于上下文、對話場景自主學(xué)習(xí),深刻理解情景需求。
這一升級將重新定義機器和人的交互方式,讓機器和人的交流更像是人與人之間的交流。人與人之間的交流,尤其是面對面的交流,綜合了語音、圖像、觸覺等多種方式,是一種多模態(tài)融合的交互?;谶@些自然能力的交互,是人機交互未來的趨勢和方向。
因此,打通了視覺和語音,天貓精靈就能更全面、更智能地感知外面的世界,進而更好地理解用戶的需求和付諸行動,人機交互也就告別了盲目的時代。
火眼炯炯,機器也有人性的溫度和情感
毫無疑問,AliGenie2.0所具備的視覺能力將在天貓精靈X1上首先落地。然而現(xiàn)實的問題是,X1本身并沒有可進行視覺處理的硬件。
基于此,阿里專門為天貓精靈手機APP搭載了“精靈火眼”功能。通過一個類似于Google Cardboard的硬件小配件XHolder,便能夠把視覺和語音兩個模態(tài)打通,在幾乎沒有增加硬件設(shè)備成本的情況下就可實現(xiàn)對“精靈火眼”和天貓精靈的組合,使其具備視覺識別能力。
“精靈火眼”的命名意味著,天貓精靈從此將有一雙炯炯的火眼,能看見、能感知外部的世界?!熬`火眼”擁有兩大核心能力,即“視覺認(rèn)知”和“表情系統(tǒng)”。
通過圖像識別,結(jié)合智能語音互動、聲音朗讀,天貓精靈可以幫助兒童讀書、識字。為此,阿里聯(lián)合了中國少年兒童出版社、安徽少兒出版社等國內(nèi)頂尖的出版社,精選了3歲到8歲兒童的117套圖書來供其使用。而針對老年人視力不佳的問題,“精靈火眼”則針對性開發(fā)了識別藥盒的功能。其與阿里健康合作,能夠識別4萬種藥盒,覆蓋中國家庭常用藥。只要用“精靈火眼”掃一掃藥盒,就能用語音播報藥名、功效、過期日等信息。
在未來,“精靈火眼”還將引入萬物識別、人臉識別等功能,其覆蓋的物體范圍更廣,也將擁有更加廣闊應(yīng)用前景。
表情系統(tǒng)則更注重用擬人化的方式表達情感,體現(xiàn)出天貓精靈的娛樂性。用戶在互動時得到的表情反饋,承載著阿里對人機交互的理解——人機交互不僅包含語言交互、視覺交互,還有情感的交互。
在整個人工智能行業(yè)崛起的過程當(dāng)中,阿里的行動總是快人一步,無論是硬件、系統(tǒng),還是系統(tǒng)的升級。當(dāng)行業(yè)里大部分人還在說音響的時候,其又已經(jīng)引入了視覺能力,無疑將是行業(yè)里面的一股清流。
對阿里來講,其對人工智能的理解并非是簡單的工具。屏幕不僅僅是展示信息的工具,人工智能助手也不是遙控器。用戶需要的不僅僅是一個house,更應(yīng)該是home。而阿里的產(chǎn)品在技術(shù)層面的創(chuàng)新,就是同生活的點點滴滴進行結(jié)合——如改變一個藥盒的瀏覽方式,來為用戶打造一個充滿溫度的home。
聯(lián)系客服