圖片來源網(wǎng)絡
導讀
本文為中國科學院張鈸院士關于人工智能發(fā)展趨勢的分析判斷,主要回顧人工智能發(fā)展的歷史,以及系統(tǒng)闡釋第三代人工智能的特點、發(fā)展現(xiàn)狀及未來趨勢。
本文總字數(shù)6167,閱讀約20分鐘。
作者簡介:
張鈸,清華大學計算機系教授,中科院院士。1958年畢業(yè)于清華大學自動控制系,同年留校任教至今。1980年2月‐1982年2月美國伊利諾斯大學訪問學者。2011年漢堡大學授予自然科學榮譽博士。曾任校學位委員會副主任,現(xiàn)任微軟亞洲研究院技術顧問,“探臻科技評論”顧問委員會委員。
在過去30多年中,他提出問題求解的商空間理論,在商空間數(shù)學模型的基礎上,提出了多粒度空間之間相互轉換、綜合與推理的方法。提出問題分層求解的計算復雜性分析以及降低復雜性的方法。在人工神經(jīng)網(wǎng)絡上,他提出基于規(guī)劃和基于點集覆蓋的學習算法。
我是清華大學人工智能研究院——張鈸,我今天想講的是邁向第三代人工智能。人工智能60年的歷史中,一共經(jīng)歷了兩代的發(fā)展。第一代人工智能,有時候稱它作符號主義。他們提出了基于知識和經(jīng)驗的推理模型,用這個模型來模擬人類的理性智能行為,像推理、規(guī)劃、決策等等。根據(jù)這個原理,需要在機器里面建立知識庫和推理機制,利用這兩者對人類的推理和思考行為進行模擬。
圖1 張鈸院士在2020世界人工智能大會上演講
下面舉一個例子,1971年左右,美國斯坦福大學根據(jù)這個原理建造的一個專家系統(tǒng),叫做MYCIN系統(tǒng),主要用來診斷血液傳染病和開抗菌素處方。它把傳染病專家的知識放在計算機里頭,并且把醫(yī)生診斷的過程(如何從癥狀推到疾病,然后進行處方)作為推理機制,也放在計算機里頭。這樣,計算機就可以幫助內(nèi)科醫(yī)生進行輔助診斷。因為內(nèi)科醫(yī)生一般不是傳染病專家,因此利用這樣的計算機輔助治療系統(tǒng)可以幫助內(nèi)科醫(yī)生做出更好的、更準確的診斷和處方。
利用這種原理做的人工智能系統(tǒng),一個最有代表性的成果就是國際象棋程序IBM的深藍。這個國際象棋程序,在1997年5月打敗了世界冠軍卡斯帕羅夫。
圖2 IBM深藍與世界冠軍卡斯帕羅夫下棋
我們看一下,計算機的深藍程序為什么可以打敗人類的象棋大師呢?主要是三個要素,第一個要素是知識和經(jīng)驗,也就是說他利用了人類大師下過的70萬盤棋局,還有全部的5-6只的殘局。分析這些棋局,總結成為下棋的規(guī)則,并放進計算機。然后又通過大師和機器之間的對弈,調(diào)試評價函數(shù)中的參數(shù),把大師的經(jīng)驗也放在程序里頭。
圖3 IBM深藍成功的原因
第二個靠的是算法,使用阿爾法-貝塔剪枝算法,這個算法的速度很快。第三個是算力,IBM當時用的RS/6000SP2機器,每秒能夠分析2億步,平均每秒鐘能夠往前預測8-12步。一個有經(jīng)驗的象棋大師,一般只能往前看3-5步,機器的速度遠超過人類,因此可以超過人類的下棋水平。
圖4 第一代人工智能的優(yōu)勢
第一代人工智能的優(yōu)勢,在于它能夠模仿人類的推理、思考的過程,因此是可解釋的,跟人類的思考問題過程很一致。利用這個辦法進行機器學習,就能夠舉一反三,所以這是第一代人工智能的優(yōu)勢。
圖5 第一代人工智能的局限
但是第一代人工智能也存在著非常嚴重的缺陷,例如:這些知識都來自于專家。大家都知道專家的知識十分稀缺,也非常昂貴。而且通常要通過人工編程把它輸進計算機,非常費時費力。同時有很多知識是很難表達的,比如說那些不確定的知識、常識等等,因此第一代人工智能的應用范圍非常有限。
圖6 第二代人工智能模擬人類感知的過程報
第二代人工智能,就是大家非常熟悉的深度學習。所謂深度學習,就是通過深度神經(jīng)網(wǎng)絡的模型模擬人類的感知,如:視覺、聽覺、觸覺等行為。我們用圖像識別作為例子,看看計算機是怎樣模擬人類的感知的。比如我們要想讓計算機識別不同的動物,怎么辦呢?因為我們沒法把什么叫做馬,什么叫做牛?告訴計算機。我們只好采用人類學習的辦法,即先收集了大量有關動物的圖片,并把圖片分成兩類。一類作為訓練圖片,去訓練計算機識別馬和其他動物,這叫做分類學習。把圖像輸進去訓練計算機,讓他能夠正確地分出馬牛等動物的種類,叫做學習與訓練階段。
學習用的是多層次神經(jīng)網(wǎng)絡,你把大量的圖片輸進去作為訓練。訓練以后,究竟機器是不是學好了,我們再把另一部分圖片(沒有學習過的圖片)讓它識別。如果90%說對了,就說他識別率是90%,誤識率為10%。用這種辦法來進行圖像和語音識別,在給定的圖像(語音)庫下,可以做到達到或超過人類的識別水平。
圖7 深度學習對人工智能發(fā)展的影響
我們再舉一個例子來看深度學習的優(yōu)點。首先,第一個優(yōu)點是它不需要領域知識,技術門檻比較低。換句話講,我們只要把原始圖片、原始語音輸進去就可以了,不要告訴計算機怎么去識別圖片或者語音,即不需要領域知識,所以任何人都可以使用這種工具。
圖8 深度學習的圖像識別率
第二個,由于神經(jīng)網(wǎng)絡規(guī)模很大,所以可以處理大數(shù)據(jù)。利用這個辦法可以達到人類的圖像識別的水平,甚至超過它。這里舉一個例子,一個叫做ImageNet的圖像庫有2萬種類別,一共有1400萬張圖,這是一個標準圖像庫。2011年計算機識別ImageNet圖像庫里頭的圖,誤識率高達50%,也就是說一半認錯了??墒?年以后,2015年微軟用深度學習的辦法來識別,誤識率降到3.57%,比人類的誤識率5.1%還要低。因此深度學習受到廣大用戶的關注。
圖9 深度學習的應用對圍棋程序的影響
關于深度學習的應用,一個最典型的例子是圍棋程序。在2015年10月之前,我們用第一代知識驅動的方法做出來的圍棋程序,最高達到業(yè)余5段的水平。到了2015年10月份,圍棋程序打敗了歐洲的冠軍,到2016年3月份打敗了世界冠軍。到2017年10月份,AlphaGo元打敗了AlphaGo,說明在兩年時間里,由于利用了深度學習,使得圍棋程序的水平實現(xiàn)了三級跳,從業(yè)余跳到專業(yè)水平,又從專業(yè)水平到世界冠軍,又從世界冠軍到超過世界冠軍。
圖10 AlphaGo成功的秘訣
AlphaGo兩年里頭實現(xiàn)了三級跳,它的成功來自于何處?主要來自于三個方面,一個是大數(shù)據(jù),一個是算法,一個是算力。可以看到AlphaGo的確利用了大數(shù)據(jù),他一共學習了3000萬盤已有的棋局,自己跟自己又下了3000萬盤,一共6000萬盤棋局,這個數(shù)據(jù)量是很大的。他用的算法是蒙特卡羅樹搜索、強化學習、深度學習等等。利用巨大的計算能力,一共有1202個CPU和280個GPU,也就是說他的成功是靠三個要素。但是,第二代人工智能有很大的局限性,比如:不可解釋性、不安全性、易受攻擊、不易推廣、需要大量的樣本等等。
圖11 第二代人工智能的局限
這里只舉一個簡單的例子,這是我們博士生做出來的例子。左邊這張圖片是阿爾卑斯雪山,計算機的圖像識別系統(tǒng)用94.39%的信度,認定它是阿爾卑斯山。但是,我們只要加一點點噪聲,變成右邊這張圖。右邊這張圖跟左邊這張圖,人的眼睛看起來幾乎是完全一樣的,只是多了一點點噪聲,但是計算機卻以99.99%的把握,識別它是一只狗。我們可以看到計算機的模式識別系統(tǒng)跟人類的視覺差別非常大。盡管它的識別率很高,但是與人類的視覺感知完全不同,非常不安全、非常不可靠,而且不可解釋。它為什么把雪山解釋成一只狗呢?我們沒法理解。
圖12 計算機把阿爾卑斯山誤識為狗
從第一代和第二代人工智能的成就來看,人工智能只能算剛剛拉開了序幕。我們剛才說過,第一代和第二代人工智能都有很大的缺陷,它的應用范圍非常有限,更精彩的大戲正要上演,這也是我今天講的主題。全世界應該團結起來,共同來發(fā)展人工智能,讓人工智能造福人類。那么這場大戲是什么樣子,又該怎么演呢?下面將根據(jù)我們團隊的工作做一個簡單的說明。
第三代人工智能必須解決第一代和第二代人工智能中間存在的缺陷。這個缺陷有以下幾方面,它們是不可解釋,魯棒性很差,還有不安全、不可信、不可靠、不可擴展等。所以,我們必須要建立一個可解釋和魯棒的人工智能理論,必須發(fā)展安全、可信、可靠和可擴展的人工智能技術,只有這樣才能實現(xiàn)技術上的突破。有了技術上的突破,才能推動人工智能的創(chuàng)新應用。那么我們用的辦法是什么?就是把第一代知識驅動的方法和第二代數(shù)據(jù)驅動的方法結合起來。換句話講,我們要綜合地利用四個要素,即知識、數(shù)據(jù)、算法和算力。而第一代人工智能只用了其中的三個要素,第二代人工智能也只用了其中的三個要素。
圖13 第三代人工智能的要素
第三代人工智能要充分利用這四個要素,知識、數(shù)據(jù)、算法和算力。下面簡單地講一下我們是怎么解決同時應用4個要素的問題?
圖14 計算機識別馬的過程
環(huán)境感知,我們剛才說過人工智能的圖像識別系統(tǒng)雖然識別率很高,但是由于它識別的辦法跟人類非常不一樣,所以非常不可靠,非常不安全,非常容易受到攻擊。我們看一下機器是怎么識別馬呢?它只是把每匹馬的局部特征給分析出來,然后跟其他動物作比較,根據(jù)局部特征進行區(qū)別,這就是我們常常講的黑箱學習方法。也就是說它只能學習那些局部的底層特征,學習不了高層的語義特征,因此只能分辨馬和牛,但并不認識馬和牛。
圖15 人腦的學習模型
那么我們怎么來做這個工作?首先要借鑒人腦的工作機制,我們知道人腦的視覺神經(jīng)也是多層的神經(jīng)網(wǎng)絡,但跟我們現(xiàn)在用的人工神經(jīng)網(wǎng)絡相比的話,現(xiàn)在用的人工神經(jīng)網(wǎng)絡則太簡單了,只有底下一層跟上層的聯(lián)系,這叫做前向連接。
圖16 人腦稀疏放電過程
人腦里頭的視覺神經(jīng)網(wǎng)絡比這個要復雜得多,其中有反饋連接,橫向連接,稀疏放電,注意機制,多模態(tài)和記憶等等。如果我們能把人類視神經(jīng)網(wǎng)絡的這些特點加到現(xiàn)有的人工神經(jīng)網(wǎng)絡去,就可以改善現(xiàn)在圖像識別或者語音識別的性能,這是我們今天需要做的一項工作。
圖17 神經(jīng)網(wǎng)絡檢測物體輪廓的過程
下面是我們團隊的一項工作,即把稀疏放電原理加到神經(jīng)網(wǎng)絡里頭去。僅借助這一點,就可以看到在神經(jīng)網(wǎng)絡最頂部的神經(jīng)元可以檢測到人臉的輪廓、小汽車的輪廓、大象的輪廓或者鳥的輪廓。說明能夠把語義的特征檢測出來。說明把人類神經(jīng)網(wǎng)絡的一些特點加進現(xiàn)有的人工神經(jīng)網(wǎng)絡有可能改善現(xiàn)有圖像識別,語音識別等所存在的弱點,當然這還只是初步的工作。
目前圖像識別還有一個很大的問題,就是很難把物體,比如馬和背景分開。也就是說我們很難檢測到馬在什么地方,也不知道什么是馬。那么怎么解決這個問題呢,我們還是要向大腦學習。
圖18 計算機識別馬和背景的過程
人類為什么一看就知道馬在哪里,因為我們認識馬。那么“馬”的知識是從哪里學來的呢?實際上,是從我們不斷的觀察中學來的。我們用一個自編碼的神經(jīng)網(wǎng)絡,也可以學習到這個知識,也就是說通過無監(jiān)督的學習,可以學到“馬”的知識。
圖19 神經(jīng)網(wǎng)絡學習知識的過程
認識了馬以后,你就很容易在圖像中找到馬,這樣就很容易識別“馬”了。我們做了一些初步工作,取得一些初步的成果(如圖20和圖21所示)。
圖20 無監(jiān)督學習的過程
第二個關于安全性的問題,我們剛才說過,人工智能模式識別系統(tǒng)或其他機器識別系統(tǒng)都非常不安全,非常容易受到攻擊。我們也可以從數(shù)據(jù)上和模型上進行改進。
圖21 三元生成式對抗網(wǎng)絡
這里只舉一個例子,即人臉識別。大家經(jīng)常用人臉識別登錄手機,我們看左邊這個人跟用戶不是同一個人,所以他進不去。系統(tǒng)識別出來他不是用戶,但只要加上一個人造的眼鏡,他就可以混進去了。
圖22 人臉識別過程
圖23 人造偽裝眼睛欺騙人臉識別
圖24 AI防火墻反入侵
加上AI防火墻之后,加強了防護能力。現(xiàn)在即使戴上偽裝眼鏡,也進不去了,說明我們可以用各種各樣的辦法來提高它的安全性。
圖25 提高AI安全性的防御方法
我們已經(jīng)有了一個開源的“珠算”平臺,把目前我們已有的研究成果集成在這個平臺上,在算法的可解釋性、安全性上都有一定的提高。
圖26 “珠算”概率編程庫
關于推理和決策,人工智能在棋類上打敗了人類,包括圍棋和象棋,這些都是完全信息博弈,對計算機來講是比較簡單的。
圖27 推理與決策
牌類是不完全信息博弈,計算機打牌就困難得多。2017年人工智能才在6人無限注德州撲克牌上戰(zhàn)勝了人類。
圖28 復雜環(huán)境下的自主決策
牌類屬于概率意義下確定的問題,而我們平常的決策環(huán)境是完全不一樣的,是完全不確定的,甚至是在對抗環(huán)境下做決策。目前研究對抗環(huán)境下的決策,往往用電子游戲比賽做實驗平臺。
圖29 對抗性場景中的自主決策
電子游戲的環(huán)境是變化的,不確定性的,有防衛(wèi)和進攻等等。通常采用強化學習的辦法,目前只能在少數(shù)特定的游戲上可以打敗人類。
圖30 基于領域知識指導的對抗環(huán)境自主決策
圖31是我們采用的對抗環(huán)境下自主決策的方案,主要依靠知識和強化學習。在ViZDoom國際比賽中,取得第二名的好成績,跟第一名的CMU只差兩分。后來我們團隊還參加了多次國際比賽,贏得多項冠軍。
圖31 ViZDoom國際比賽成績
圖32 多項科技獲獎
還有一個問題是,如何適應環(huán)境變化,即解決隨機應變的問題。自動駕駛車我們從1991年就開始做了,自動駕駛車的問題在哪里?我們現(xiàn)在采用的辦法是,把物體識別出來,建立模型,在此基礎上做駕駛規(guī)劃。這些步驟現(xiàn)在都已經(jīng)做到實時了。是否能夠實用?如果路況比較復雜,這種方案就不夠用了,為什么?它難以應對突發(fā)事件。為了應對突發(fā)事件,需要駕駛的知識與經(jīng)驗,需要在與環(huán)境的不斷交互過程中學習這些經(jīng)驗,這就是所謂的強化學習。
圖33 自動駕駛環(huán)境感知過程
要讓自動駕駛車真正用到復雜的環(huán)境中,需要經(jīng)過學習訓練這個步驟,學習應對突發(fā)的情況。我們團隊開發(fā)了一個平臺,叫“天授”,是一個強化學習的開源平臺。
圖34 “天授”強化學習平臺
最后強調(diào)一下,人工智能剛剛拉開序幕。第一代和第二代人工智能都存在著很大的局限,它只能夠解決完全信息和結構化環(huán)境下確定性的問題,解決的問題非常有限。第二代人工智能主要依靠數(shù)據(jù)和計算機的計算能力,只是傳統(tǒng)信息處理的延展。精彩的大戲正要上演,這場“大戲”指的是第三代人工智能。
圖35 第三代人工智能的發(fā)展趨勢
結語
文稿|張鈸院士
編輯|周圣鈞 高松齡 邱雨浩
審核|趙 鑫 張可人
聯(lián)系客服