黃學東博士在微軟工作已經超過 25年。25年的時間里,黃博士負責過很多項目,但是有一件事情沒變:他是微軟語音技術的創(chuàng)始人,微軟的語音識別、語音合成技術都是他一手創(chuàng)建出來的。
在 25年中,黃學東博士負責過很多東西,包括新產品的研發(fā)、通信系統(tǒng)、Bing搜索、搜索廣告、CNTK、深度學習平臺、GPU集群,還有智能客服系統(tǒng)、對話系統(tǒng),認知服務里面的自然語言處理的所有東西。
黃博士認為,在人工智能發(fā)展的過程中,語音和語言也是皇冠上的明珠。他說:“只有掌握了核心的語音和語言技術,人工智能才有希望,否則其它都是在‘忽悠’?!?/p>
黃博士告訴 InfoQ,目前在“感知”方面,計算機視覺和語音識別進步都很大。在“認知”方面,這個進步還是有限的。微軟機器翻譯第一次達到了媲美人的水平,這是非常有歷史性意義的事實。語音和語言是人類進化中重要的東西,而現在,計算機第一次在翻譯質量上超過專業(yè)人士的水平,黃博士說:這對人類文明的進展來說是很震撼的。
黃學東:這個問題很好。語音技術是一個賦能的技術,所有的開發(fā)者都可以把這個技術拿過來,實現他自己想要做的東西,比如智能音箱,因為現在遠場語音識別能力很強了,所以音箱火得不能再火了——“百箱大戰(zhàn)”——今年 CES展上基本上就只有兩個東西,一個是自動駕駛,另外一個就是音箱,基本上可以占 CES展臺 80%的東西。音箱出現很重要的一個原因就是語音識別技術進步到了這個水平,基本上可用了,就是遠場交互都可用了。
再說回來,今年我覺得最熱的是翻譯器,尤其對中國人。因為老美出去走遍世界,他講英文,好像別人都懂,中國人出去一講中文,別人不知道什么意思。在中國每年有 1.2億的游客出去。現在我們跟小米生態(tài)鏈企業(yè)香蕉出行合作推出的魔芋翻譯器,真是物美價廉,基本上只要目前市場上翻譯器 1/10的價格。它剛出來不到一個月,銷售基本遍布全國各大城市,而且常常是脫銷狀態(tài)。
還有一個有趣的事情。出國到海外就會發(fā)現,國內的云服務在國外很難用,在國內做的演示很棒,但出了國云服務就沒法用。香蕉出行的情況是倒過來的,因為我們的云服務是真正覆蓋全球得,它在國外的表現非常好,大家用起來用戶口碑很好,上市不到一個月現在是賣到完全脫銷。這就是微軟人工智能和中國企業(yè)結合得非常好的一個案例,我們非常高興,小米也非常高興。雷軍想要給他的領導班子每人送一臺——對不起缺貨,這是真的故事。
黃學東:技術上已經是了。今天在我的演講中演示了一個表,微軟最新的機器翻譯系統(tǒng)已經達到了 69分。機器翻譯這個東西不像語音識別是一對一,只有唯一的答案,機器翻譯是多對多的,每個答案都可能是準確的,所以在評價機器翻譯的時候,現在只能靠人來評,當然老師也很嚴格,100和 0之間相差很大。我們根據人來評的話,其實現有的商用系統(tǒng)像微軟和谷歌的,在標準的測試集上分別在 56分、54分左右,中國企業(yè)的研發(fā)能力也很強,像搜狗公司,在微軟推出最新突破之前有最優(yōu)秀的系統(tǒng),達到了 62分的水平。。
黃學東:我今天講的內容非常多,我大概梳理一下。今天講了一個事情是中國移動和微軟正在合作,用微軟的語音識別技術幫助他們解決客服中心的一些技術問題,這是一個非常了不起的事。因為中移動是全球最大的電信運營商,他們現在用最優(yōu)秀的技術滿足他們的客戶需求,這本身就是一個有意義的創(chuàng)舉。微軟公司的人工智能技術、語音識別技術和全球最大的電信商合作,解決用戶的實際工程需求。這是一個中美兩國合作,讓用戶更加滿意的一個非常好的案例。
第二,微軟最近推出了很多全新的產品和服務,包括統(tǒng)一的語音識別 API,我們可量身定制所有的語音識別、語音合成、喚醒詞和機器翻譯系統(tǒng)。
第三,PMA,我們有一個普林斯頓計劃,我們提供的麥克風陣列在全球都是具有領導性的。微軟最新推出來的 PMA麥克風陣列絕對是“黑科技”,絕對是“耳聽八方”,我把它稱為是“全武功”的會議人工智能系統(tǒng)。這個創(chuàng)新是基于微軟黑科技的語音識別 DDK設備開發(fā)套件,是我們跟中國本土的 Roobo公司聯合推出來的,也是微軟和中國公司合作以高新技術領先世界新潮流的最好的案子。微軟不僅僅是翻譯器和中國本土公司合作,像這樣先進的麥克風陣列也是和中國本土公司合作開發(fā)的。
黃學東:我覺得大家應該有這樣的共識。計算機視覺、計算機語言識別是“感知”智能,感知智能因為深度學習、神經網絡實現了突破了,大家都非常激動。“認知”是包括推理、理解上下文、自然語言處理,這方面的突破還有待大家的努力。而機器翻譯,則在感知和認知之間的一個歷史性的里程碑。
讓我們想象一下,如果有一天,機器可以理解我們所有的文本,了解上下文,有推理的功能,想象一下后果:這意味著機器可以 24小時閱讀所有的新聞、所有出版過的文件、著作、科學文獻,它可以上知天文下知地理,包括生物,這是不是比愛因斯坦還牛?愛因斯坦也是只懂物理——這才是真正的“強人工智能”的來臨。
強人工智能一定是由自然語言理解、感知驅動的,讓計算機能達到人的知識獲取能力,可以通過閱讀自動獲取知識,這是不是很厲害?過去 5000年人類的所有文獻,它都可以讀得一個字不忘,還有超過人類得深入的理解。像我今天引用《封神演義》里的一句:眼觀六路、耳聽八方,其實《封神演義》里面講的不是六路,是眼觀四路、耳聽八方。如果計算機在自然語言處理上進步了,就可以說黃學東在會上講的眼觀六方,不對,《封神演義》講的是四方,不是六方。
黃學東:我自己是一個有情懷的,這個情懷是什么呢?在清華大學做研究生的時候,我就想讓語言的障礙不是成為我們交流的障礙,我覺得這件事情太有意義。
我在愛丁堡大學念的博士的時候讀了達爾文得“進化論”,達爾文也曾在愛丁堡大學念醫(yī)學,后來轉到劍橋大學去念神學,畢業(yè)以后發(fā)表了進化論,跟神學完全決裂,這是很有意思的一件事。
我意識到人通過語言可以自然交流、相互合作,像我們來自五湖四海,今天可以組織起來在這個地方見面,都是因為有了語言。語言是促進人類進化得最重要的因素,就像我今天講的,在人類進化的長河中,語音和語言是最重要的因素,有同樣的重要性。我在清華上學的時候看得沒有那么遠,但是我當時就覺得語音和語言太重要了,至少我自己 30年如一日,從沒有放棄過這份情懷。
黃學東:我覺得這個事情不會,機器翻譯出錯誤會出得比人類更離譜。我覺得最好的方法就是在機器轉錄翻譯的時候,有人在旁邊看著,有錯誤就給糾正一下,人和機器協同工作,這是最好的模式。
機器出錯是出在什么地方呢?冷僻的詞、新的概念。人可以實時學習冷僻的詞和新的概念,這里的信息量非常大,人類馬上可以自適應。比如我講了一個很怪的詞,大家一聽覺得有意思,馬上神經就高度緊張,注意力高度集中了,馬上可以舉一反三。而機器就慘了,怎么樣處理沒有見過的事情,這才是真的智能,也是人類智能和機器智能最大的區(qū)別。
跟人相比,不管是圖像識別還是語音識別、機器翻譯,機器其實都笨得要死,因為它不懂得舉一不反三——孔子說過“舉一不反三,不可教也”。
黃學東:如果是沒有突發(fā)事件,那么是基本可信、基本可達、基本還算比較雅。
如果出現突發(fā)事件,就舉一不可反三,這是人工智能和人的智能最大的差距。
我們說一個人靈不靈,主要看他處理突發(fā)事件時的決策怎么樣,就能說明是不是真的行。一般的人處理常見的事情都可以,沒問題,就像人工智能一樣。而聰明的人,在面對突發(fā)事情、小概率事件,或者很困難的時候,可以做出正確的決策?,F在人工智能和人類智能最大的差別,就是處理突發(fā)事件的能力差得遠,這也就是為什么認知非常重要。認知是解決推理、解決小概率事件、獲取知識、聚一反三,這個過程的最重要的一個代表和體現。
黃學東:這就像當年在英國的時候汽車剛剛發(fā)明出來,被要求速度不能超過馬車的速度,后來馬車夫沒有了,但是汽車工業(yè)造就了多少新的機會呢?同樣的道理,人工智能會給我們的生產力賦能,變的更快、更好,讓大家有更多的時間去做自己想要做的事情,我是非常樂觀。
當年馬車起主導作用的時候,你可以想象會有那么大的汽車工業(yè)嗎?像鋼鐵、發(fā)動機、石油,這造就了多少就業(yè)機會。
AI至少提高了工作的質量,有很多這樣的案例。人以前要做很多重復性的工作,人和 AI協同工作,就能提高我們的生產力,提高人的工作質量,這是人工智能和人協同工作,有很多這樣的例子。
黃學東:比如在 Switchboard上,微軟是第一個達到了媲美人類水平的,這說明在研究測試級上,微軟的技術是很強大的。但那個還不夠,因為訓練數據是固定的,計算資源是無限的。在做產品的過程中,倒過來了,訓練數據可以無限,計算資源有限,因此看問題的側重點不太一樣。還有落地場景的事情,像微軟“耳聽八方”的會議系統(tǒng),這個是我們自己用計算機視覺和語言識別打造的一套新的解決方案,前人沒有想到,也沒有做到的事。
黃學東:技術實力還是非常重要,人工智能會議系統(tǒng)它的技術要求遠遠超越了兩個人的對話。真是像《封神演義》講的耳聽八方,很難的,根本顧不過來。我們的系統(tǒng),它上面有一個 360度的攝像頭,就像九頭鳥一樣全看見了,會議室的東西都盡收眼底,下面還有 7個麥克風的麥克風陣列,用的就是 Speech Device SDK??雌饋硐瘛昂谒钡哪莻€東西就是用微軟現有的云,加上現有的 DDK打造的一個人工智能落地的實例。微軟的服務都在,但別人沒有打造出這樣的一套東西,我提供了開發(fā)工具,但是要打造一套像 PPT這樣的應用程序,還是需要很多的工作。
聯系客服