文/手稿2012
4月2日舊金山,Bulid 2014微軟開發(fā)者大會(huì),這是微軟新CEO納德拉上臺(tái)之后第一次Build大會(huì),會(huì)上最引人關(guān)注的可能是Windows Phone 8.1和諾基亞的新旗艦Lumia 930。微軟最新的WP 8.1系統(tǒng)集成了智能語音助手Cortana。自此,智能語音助手成為三大移動(dòng)操作系統(tǒng)的標(biāo)配。
Cortana,取名自經(jīng)典游戲Holo中的人工智能,比Siri晚到了兩年半,比Google Now晚了一年半。看起來微軟仍在iOS和Android身后拼命追趕。
微軟:領(lǐng)先的落后者
而實(shí)際上,微軟在智能語音交互領(lǐng)域比對(duì)手領(lǐng)先不少。上世紀(jì)八十年代開始,微軟就在語音識(shí)別領(lǐng)域投入重兵,此后一直是這一領(lǐng)域的執(zhí)牛耳者。2005年從微軟跳槽到谷歌的李開復(fù),被美國地方法院裁決禁止從事語音識(shí)別和自然語言處理相關(guān)領(lǐng)域的工作。李開復(fù)1988年的博士論文發(fā)表了第一個(gè)基于隱馬爾科夫模型(HMM)的語音識(shí)別系統(tǒng)Sphinx,被《商業(yè)周刊》評(píng)為1988年美國最重要的科技發(fā)明。
李開復(fù)當(dāng)年的成果已經(jīng)被逐漸超越。2012年10月,微軟副總裁拉希德在天津舉行的“21世紀(jì)的計(jì)算大會(huì)”上演示了一個(gè)人工同聲傳譯系統(tǒng),他的英文演講被實(shí)時(shí)轉(zhuǎn)換成與他的音色相近、字正腔圓的中文。該系統(tǒng)基于2011年8月發(fā)表的一項(xiàng)研究成果,拉希德和微軟雷蒙德研究院的華裔科學(xué)家俞棟首次采用了深度學(xué)習(xí)(DL)模型,極大提升了語音識(shí)別的準(zhǔn)確率。
深度學(xué)習(xí)又叫深度神經(jīng)網(wǎng)絡(luò),是人工神經(jīng)網(wǎng)絡(luò)(ANN)算法的一種改進(jìn)。它通過大規(guī)模的并行計(jì)算,模擬人類大腦多層次的認(rèn)知神經(jīng)系統(tǒng),讓計(jì)算機(jī)得以學(xué)習(xí)一些目前人類才擁有的認(rèn)知能力,比如識(shí)別圖片中的對(duì)象,精確翻譯語言和理解口語化的表達(dá)方式。在圖形識(shí)別和語音識(shí)別方面,深度學(xué)習(xí)展現(xiàn)出了巨大的優(yōu)勢,這再度勾起了人們對(duì)人工智能的想像。
希望與失望的輪回
2012年,當(dāng)時(shí)還在谷歌工作的李志飛,突然發(fā)現(xiàn)隔壁辦公室的門上用透明膠帶松松垮垮地貼上了一張紙,上面寫著“Google Brain”。這是谷歌X實(shí)驗(yàn)室最新的項(xiàng)目,由斯坦福大學(xué)人工智能實(shí)驗(yàn)室主任吳恩達(dá)(Andrew Ng)發(fā)起。該項(xiàng)目利用1000臺(tái)計(jì)算機(jī)進(jìn)行并行計(jì)算,模擬出10億個(gè)神經(jīng)節(jié)點(diǎn),讓計(jì)算機(jī)得以識(shí)別一些本來只有人才能識(shí)別的對(duì)象。
和李志飛同一天加入谷歌的雷欣,此時(shí)在“深度學(xué)習(xí)之父”Geoffery Hinton一個(gè)學(xué)生的幫助下,搭建一個(gè)用于語音識(shí)別的深度學(xué)習(xí)系統(tǒng)。三個(gè)月時(shí)間內(nèi)語音識(shí)別的準(zhǔn)確率提高了10個(gè)百分點(diǎn),以往這樣的提升通常需要一到兩年。這個(gè)結(jié)果讓谷歌很滿意,2013年他們干脆5億美元收購了Deep Mind。這家公司只有三名員工,就是Hinton和他的兩個(gè)學(xué)生,Hinton從此接手了Google Brain。這是人工智能領(lǐng)域的一件大事,《紐約時(shí)報(bào)》稱“深度學(xué)習(xí)讓科學(xué)家看到了希望”。
過去半個(gè)世紀(jì),計(jì)算機(jī)科學(xué)似乎很多次看見了希望,然后又一次次墜入了失望。愛因斯坦所說過的“我學(xué)到的越多,便意識(shí)到自己不知道的東西越多”,用來形容人工智能領(lǐng)域的進(jìn)展,是再恰當(dāng)不過的。
科學(xué)家很快意識(shí)到這些樂觀都是愚蠢的,甚至連人工智能的定義都模糊起來。此后人工智能一直以來都僅僅存在于科幻電影中。不過偶爾也有喬布斯這樣的銷售天才,用以他女兒命名的電腦播放一段事先錄好的音頻,讓人覺得這和人工智能有那么一點(diǎn)關(guān)系,把三千美元的東西賣到一萬美元以上。這套把戲在2012年的WWDC上又被庫克玩兒了一遍,用于調(diào)侃對(duì)手三星。
大數(shù)據(jù)與云計(jì)算紅利
然而隨著互聯(lián)網(wǎng)的普及和計(jì)算機(jī)運(yùn)算能力的爆發(fā)式提升,事情也發(fā)生了一些變化。以深度學(xué)習(xí)為例,從理論上來看,數(shù)據(jù)樣本越多效果越好。同時(shí)云計(jì)算也可以讓深度學(xué)習(xí)從實(shí)驗(yàn)室里走出來,運(yùn)用到更多的產(chǎn)品中。
3月16日下午,創(chuàng)新工場在中關(guān)村鼎好大廈10樓的大會(huì)議室里人聲鼎沸,在這里正在舉辦一場“深度學(xué)習(xí)與自然語言處理”的講座。臺(tái)上有百度深度學(xué)習(xí)研究院(IDL)的常務(wù)副院長余凱,還有來自中科院和清華大學(xué)的幾位研究人員。臺(tái)下有大約150名聽眾,一半來自互聯(lián)網(wǎng)公司,一半來自附近的幾所大學(xué)。
主持講座的李志飛沒想到這么火爆,他們?nèi)烨霸谖⒉┥习l(fā)出通知,結(jié)果很快就收到了300多個(gè)報(bào)名。由于這個(gè)會(huì)場本來只有100多個(gè)位子,所以他們拒絕了一半的報(bào)名,但是當(dāng)天還是有20多沒有成功報(bào)名的人來到了會(huì)場,他們的簽到記錄填滿了一頁A4紙。
因此,自然語言堪稱是人機(jī)交互“皇冠上的明珠”。在圖形和語音識(shí)別領(lǐng)域大放異彩的深度學(xué)習(xí),恰恰在自然語言處理這里卡了殼。清華大學(xué)計(jì)算機(jī)學(xué)院副教授劉洋和南京大學(xué)趙迎功博士在講座上提到了多個(gè)使用深度學(xué)習(xí)模型進(jìn)行自然語言處理的實(shí)例,發(fā)現(xiàn)相比傳統(tǒng)的算法并沒有太大突破,很多時(shí)候甚至?xí)霈F(xiàn)倒退。
對(duì)這樣的結(jié)果,余凱沒有感到灰心,他建議把計(jì)算機(jī)集群和學(xué)習(xí)樣本提高一個(gè)數(shù)量級(jí)試試,并透露百度內(nèi)部的一些項(xiàng)目已經(jīng)有了不錯(cuò)的結(jié)果?!癎eoffery Hinton他們06年開始就在用深度學(xué)習(xí)做圖形和語音識(shí)別,一直到了12年,七年時(shí)間才實(shí)現(xiàn)了突破”,說到這里,余凱從沙發(fā)上站起來:“我相信用深度學(xué)習(xí)做自然語言處理,也會(huì)有這一天的。”
互聯(lián)網(wǎng)向左,科學(xué)家向右
互聯(lián)網(wǎng)行業(yè)的很多投資人和創(chuàng)業(yè)者都相信這一天會(huì)很快到來。正是這種信念支撐了科大訊飛200億元的市值。李志飛也被這樣的前景所鼓舞,他2012年從谷歌離職,兩手空空就拿到了百萬美元的風(fēng)投,創(chuàng)辦了“出門問問”。他們的語音識(shí)別系統(tǒng)首先登陸微信服務(wù)號(hào),后來又開發(fā)了Android版的獨(dú)立應(yīng)用。今年年初李志飛又把好基友雷欣從谷歌挖來任命為CTO,拿到了千萬美元的B輪融資。他在朋友圈里寫道,“谷歌這些年的布局好像真的是為AI做準(zhǔn)備,有點(diǎn)小激動(dòng)”。
不管谷歌“好像是”還是“真的是”,百度都不能被落下。余凱剛剛帶了一隊(duì)人馬去硅谷,和谷歌、Facebook搶人。做過深度學(xué)習(xí)相關(guān)研究的博士生身價(jià)被爆炒到30萬美元。百度在國內(nèi)也推出了“少帥計(jì)劃”,向30歲以下青年才俊開出百萬年薪,對(duì)一流科學(xué)家更是上不封頂。談起這件事情,余凱有些亢奮。他2012年加入百度,之前在NEC實(shí)驗(yàn)室就在做深度學(xué)習(xí)的相關(guān)研究。在硅谷,他遇到了Facebook人工智能實(shí)驗(yàn)室的負(fù)責(zé)人Yann LeCun。LeCun不無炫耀地告訴他,他在NEC的同事幾乎都被挖到了Facebook。
但是在中科院自動(dòng)化所資深研究員宗成慶看來,深度學(xué)習(xí)只能解決人機(jī)交互中的一部分問題,人工智能領(lǐng)域還有很多其他的問題,不可能用一種算法解決?!吧疃葘W(xué)習(xí)不是什么新東西。2012年IWSLT上,李開復(fù)的師兄,阿萊克斯·韋伯就質(zhì)問過俞棟為什么不引用自己20年前的文章”,說到這里宗成慶加快了語速,“在我的研究組,我不主張大家都去做深度學(xué)習(xí),一窩蜂在人家后面追趕,幾年之后又出現(xiàn)一個(gè)什么新的算法,被人家一個(gè)急轉(zhuǎn)彎就甩開了”。
余凱自己也不相信五年后深度學(xué)習(xí)還會(huì)這么火熱。上周克里斯·安德森宣布設(shè)立AI XPrize獎(jiǎng)項(xiàng),旨在表彰第一個(gè)能在TED發(fā)表演講的機(jī)器人。前這位《連線》雜志主編創(chuàng)辦了一家機(jī)器人公司,他認(rèn)為這樣的機(jī)器人至少要20年后才能到來。5年與20年之間的15年,一定會(huì)有很多的事情發(fā)生。雷欣覺得谷歌和Facebook的領(lǐng)導(dǎo)層都離開學(xué)術(shù)界太久,他們對(duì)深度學(xué)習(xí)可能有些樂觀了。
“畢竟扎克伯格本科都沒有讀完”,會(huì)場里突然冒出來這樣一句話。
聯(lián)系客服