作者:張小明明
———— / BEGIN / ————
過去60年人工智能經歷了兩次潮起潮落-AI時代的頭十年和后十年,前十年:解決行業(yè)問題,醫(yī)療教育等,大數據和機器學習迅速提升效率與準確率;新AI時代的后十年:升級到消費產品和用戶生活場景(無人駕駛車,智能家居,家用機器人等領域)。
我們現(xiàn)在正處于語音智能產品的爆發(fā)之際,我們需要一個專業(yè)而系統(tǒng)的歸納,幫助我們在語音交互和智能硬件的道路上共同探索和學習。
今天我們就來討論關于語音界面設計方面的一些知識,本文章觀點大部分來自入《語音用戶界面設計—對話式體驗設計原則》這本書,希望能夠對大家有幫助。
1990年出現(xiàn)了交互模式的語音應答,一般都廣泛的應用在運營上的客服,及時是現(xiàn)在三大運營上的機器客服還是采用了這種語音應答的方式。
通過電話撥號的方式開始語音的問答,存在很多的缺點例如只能應用在單輪任務的問答,交互方式比較單一,不能進行中途打斷等缺點。
后期各大公司都出現(xiàn)了自己的語音助手,例如微軟的cortana,谷歌的Google OK和蘋果的Siri。
這些語音助手集成了視覺和語音信息的app,可以同時使用語音和屏幕交互,是一種多模態(tài)界面,屬于多模態(tài)設計。
發(fā)展到這個階段就有了多輪對話的可能性,如何對用戶的語音進行理解就成為了語音交互的技術瓶頸了。
近兩年,各大公司都出了自己的智能家居音箱,例如Amzon echo和Google home這類的純語音設備。
在未來的生活和工作場景中語音交互是一個新的入口,它提供了更靈活的交互方式,在未來的某一天人們必然會放棄屏幕和手勢的操作,可以通過語音進行遠距離的設備控制,這是各大公司搶占語音市場的原因。
在我個人看來,vui設計和普通的互聯(lián)網的設計沒有太多的不一樣,如果非要說區(qū)別我個人認為vui設計所接觸和涉及的范圍更廣。
主要有下面幾個工作內容:
第一:進行用戶研究,了解用戶是誰;負責產品的原型設計和產品描述;描述系統(tǒng)與用戶之間的交互行為并考慮需要處理的請求,最后進行系統(tǒng)問題的排查和改進。
Vui設計師在設計一個產品的時候,需要考慮你的產品是什么類型的,他的主要功能是什么,多模態(tài)產品還是純語音的硬件設備。在設計過程中可以通過示例對話的方式讓vui設計師真正的了解產品,知道用戶在和產品對話時會發(fā)生什么樣的情況。
在設計語音產品之前我們需要了解一些語音識別技術,從而讓你的vui系統(tǒng)得以創(chuàng)建。
在系統(tǒng)對人的語音理解方面分為兩大類:
ASR:自動語言理解和NLU自然語言理解,目前的發(fā)展階段已經到了自然語言理解的階段。
機器通過處理和理解文本,采用云處理的方式對用戶語音進行識別和理解從而判斷指令給出正確的反饋。
一般的vui系統(tǒng)在對話模式上可以分為:命令-控制模式/對話模式,語音指令模式下用戶在說話前必須要給系統(tǒng)明確的指示。
例如:Siri要求用戶在說話前必須先按下主屏幕或者在Siri頁面按下麥克風圖標。
對話模式情況下當出現(xiàn)較長的對話時,沒有必然讓用戶在說話前總是告訴系統(tǒng)用戶要開始說話了,一般來說一個語音系統(tǒng)都會有命令控制模式和對話模式的切換。
在視覺的表現(xiàn)上兩者都需要有明確的物理圖標和明確的喚醒詞語,在對話模式中輪流對話更為自然,在視覺上需要有明確的開始和結束的封閉式對話標示。
所有優(yōu)秀的vui設計,都必須確保用戶感覺到自己是被理解的,所以我們需要在設計原則中添加一個確認策略。
確認策略是因為在很多環(huán)境下機器并不能完全的識別我所說的問題,同時在生活場景下,例如購物等場景,需要用戶的在此確認,這個時候vui的確認策略就派上用場了。
在設計確認策略的過程中我們需要了解幾個問題:交互問答的錯誤后果是什么?系統(tǒng)需要什么樣的方式怎么反饋?屏幕需要顯示出什么?用戶需要用什么樣的手段進行確認?
在確認的形式上可以分為:顯性確認和隱性確認,例如:判斷是否確認支付,這一類型的產生的后果還是挺嚴重的,需要強制用戶確認信息
通常采用的方法有下面幾種:三級置信度/隱性確認/非語言式確認/通用確認/視覺確認
多模態(tài)的設計中,屏幕上的可視化列表。比如我們的語音助手,用戶說打開或者關閉語音助手,那么相應的麥克風圖標會有消失和出現(xiàn)的動效。
答案連同原始的問題一起回復Siri通過視覺上的可視化列表和語言上的隱性確認來回復我的問題。
純語音設備或者系統(tǒng)下,可以提供一個行為反饋,例如光效等。
Vui系統(tǒng)在說話的時候,確認用戶是否可以打斷,現(xiàn)在一般的語音智能聽到喚醒詞才會停止說話,喚醒詞應在本地處理,設備一直處于接收喚醒詞的狀態(tài)。
多模態(tài)形式下,一般是不可以打斷的,可以用可視化列表,如Siri不可以打斷對話。
在語音識別和指令的場景下異常情況極為普遍,例如:未檢測到語音,語音終止超時和無語音超時;檢測到語音但是沒有識別出來;正確識別但是系統(tǒng)無法處理;部分語音識別錯誤等異常情況,不同的異常情況也對應不同的異常情況的處理方式,具體的方法看下圖:
在這種情況下系統(tǒng)留給用戶說話和思考的時間,某些場景下可以調整時間和靈活度。
例如開始啟動siri時,是用戶主動的一個行為,用戶不需要進行思考;然后當系統(tǒng)問用戶某一問題時,需要用戶思考,那么這個時候需要的時間就不一樣了。
當用戶喚醒了vui系統(tǒng),無語音超時發(fā)生的情況有幾種:用戶沒有說話或者是用戶說話聲音小——這個時候需要提供一個視覺上的一個退出按鈕。
這種幫助類似于我們在填寫表單時,視覺的框里會告訴我們應該用什么格式填寫。
這個可能與語音識別技術相關聯(lián)在一起了。
比如說我們的語音助手,用戶說打開word,系統(tǒng)列出:打開word/打開我的/打開臥底等等。
例如上下文語意的理解,當然我們對siri說我想吃漢堡 它列出了幾個附近的餐館 用戶說好膩,不吃了 這個時候就需要系統(tǒng)理解上下文的語境。
消除歧義:系統(tǒng)問用戶,你的主要癥狀是什么,而用戶說的是發(fā)燒和感冒,系統(tǒng)就要理解用戶說的是兩個癥狀,針對這個事情,系統(tǒng)需要進行回復Siri和cortana出發(fā)處理問題的時候,會提供一個網頁搜索,并不會直接回答你的問題,但高級自然語言理解可以聽懂你說的話,直接回答。
后記:ppt來自入我同事@徐嘯宇,在此表示感謝。
這篇文章比較晦澀難以理解,還是建議大家去看看書籍吧,國外人寫的書你懂的??!
———— / END / ————
聯(lián)系客服