8月3日,首屆全球數(shù)字經(jīng)濟(jì)大會(huì)在京召開。在人工智能產(chǎn)業(yè)治理論壇上,來自我國人工智能領(lǐng)域的頂尖科學(xué)家,圍繞主題“探索創(chuàng)新、共舉擔(dān)當(dāng)”展開前沿對(duì)話。
其中,中科院院士、清華大學(xué)人工智能研究院名譽(yù)院長張鈸做了《人工智能的治理與創(chuàng)新發(fā)展》的演講。在演講中,張鈸介紹了實(shí)現(xiàn)下一代人工智能的兩個(gè)范式,其中“所有的處理都在連續(xù)空間里進(jìn)行”的范式一,優(yōu)點(diǎn)是計(jì)算機(jī)處理方便,缺點(diǎn)是當(dāng)知識(shí)轉(zhuǎn)為向量表示形式時(shí),丟失了大量語義。
以“打通離散空間和連續(xù)空間”為特征的范式二,其優(yōu)點(diǎn)在于能夠從根本上實(shí)現(xiàn)第三代人工智能,但缺點(diǎn)在于難以進(jìn)行模型表示和模型獲取。
以下是演講全文,AI科技評(píng)論做了不改變?cè)獾恼恚ū疚慕?jīng)張鈸院士確認(rèn)):
張鈸:今天演講的主題是《人工智能的治理與創(chuàng)新發(fā)展》,介紹第三代人工智能的必要性以及目前兩種探索途徑。
其實(shí),在信息產(chǎn)業(yè)發(fā)展與技術(shù)發(fā)展過程也出現(xiàn)過安全性的問題,但信息系統(tǒng)安全性的問題主要來自于大型軟件設(shè)計(jì)上的漏洞或者缺陷,所以相對(duì)容易克服。如果發(fā)現(xiàn)漏洞只要“補(bǔ)上”就能解問題。
人工智能技術(shù)發(fā)展到今天,也出現(xiàn)了一些全新的安全問題,但根源不在系統(tǒng)設(shè)計(jì)方面,而是來源于算法本身的不安全性。因此,解決人工智能的安全問題,必須從算法本身出發(fā),徹底改變,才能讓使用者放心。因此,人工智能的安全涉及的因素更加本質(zhì),也更難以克服,需要從兩個(gè)方面入手。
一個(gè)方面是治理,治理有兩個(gè)含義:一是防止人工智能技術(shù)被無意識(shí)地誤用,因?yàn)槿斯ぶ悄芩惴ǖ牟话踩院茈y被預(yù)先發(fā)現(xiàn)的或者覺察,所以在使用過程中會(huì)出現(xiàn)很多錯(cuò)誤,如果我們?cè)谑褂玫倪^程中不注意到這個(gè)問題,就會(huì)產(chǎn)生無意識(shí)的錯(cuò)用,造成非常嚴(yán)重的后果。
第二類問題是有意識(shí)地濫用人工智能技術(shù),即惡意對(duì)人工智能系統(tǒng)進(jìn)行攻擊或者濫用,這必須通過法律和法規(guī)解決。
今天我主要講算法的不安全性,即如何通過技術(shù)的創(chuàng)新解決人工智能算法的不安全性問題。也就是我們提出來的,發(fā)展第三代人工智能的思路。算法的不安全性來源于第二代人工智能,其特征是數(shù)據(jù)驅(qū)動(dòng)。圖像處理、語音識(shí)別、文本處理等任務(wù)在“深度學(xué)習(xí)”和“多樣性的數(shù)據(jù)”的加持下,系統(tǒng)效率非常高。但本質(zhì)問題是算法非常脆弱。
如上圖所示,這是一個(gè)圖像識(shí)別的例子。一張雪山的圖片,加上一點(diǎn)點(diǎn)“噪聲”,人類仍然認(rèn)為是一座雪山,但計(jì)算機(jī)卻誤認(rèn)為一條狗,且置信度為99.99%。從這個(gè)例子中,我們不僅看出人類和計(jì)算機(jī)識(shí)別機(jī)制的差別,也力證了算法的脆弱性。
原因何在?在于黑箱算法本身。如上圖所示,計(jì)算機(jī)并不知道馬在哪兒,之所以能準(zhǔn)確識(shí)別,其采取的機(jī)制是:提取局部特征。換句話說,并不是提取馬本身的語義特征,僅僅通過提取圖片的底層特征進(jìn)行區(qū)別。
上述兩個(gè)例子都證明了一個(gè)觀點(diǎn):根本性的原理出現(xiàn)了問題。更通俗一些,這種處理方法的局限性表現(xiàn)在:對(duì)于圖像,我們完全將其放到特征向量空間中,放到連續(xù)數(shù)據(jù)空間中進(jìn)行處理和分類。因此,算法并不是從認(rèn)知層面識(shí)別物體,而是用分類的方法區(qū)分物體。
基于上述缺點(diǎn),我們提出第三代人工智能,建立可解釋的魯棒人工智能理論。人工智能發(fā)展至今,幾起幾伏,進(jìn)展非常緩慢,根本原因是沒有堅(jiān)實(shí)的理論基礎(chǔ)。這與信息科技的發(fā)展完全不同,由于其有完備的理論,所以發(fā)展非常迅速。我們必須建立人工智能的理論,這才能開發(fā)出可信、可靠、可信及可擴(kuò)展的人工智能技術(shù),從而推動(dòng)進(jìn)一步發(fā)展。
第三代人工智能的一個(gè)核心是知識(shí)驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)相結(jié)合,充分發(fā)揮知識(shí)、數(shù)據(jù)、算法和算力四要素的作用。四個(gè)要素,知識(shí)當(dāng)先,其重要性大于數(shù)據(jù)。
在知識(shí)驅(qū)動(dòng)的思想下,我們提出三空間混合模型,打通“第一代人工智能在離散符號(hào)空間里處理知識(shí)(語義、符號(hào))”和“第二代人工智能在連續(xù)空間里處理數(shù)據(jù)”這兩種方法的隔閡,期望能夠在連續(xù)空間里處理知識(shí)、語義,從而賦予計(jì)算機(jī)“認(rèn)知馬”的能力。
如何實(shí)現(xiàn)?有兩種范式。范式一:所有的處理都在連續(xù)空間里進(jìn)行。在連續(xù)向量空間中用數(shù)據(jù)驅(qū)動(dòng)的方法不具有語義功能,原因還是在于前面提到的“局部特征”。我再舉一個(gè)例子,如上圖所示,計(jì)算機(jī)識(shí)別鳥,提取的特征來自“頭部發(fā)白部分”,這種方法非常容易受到攻擊,僅在“頭部”用一些手段,就能讓系統(tǒng)處理效率大大降低。
要克服這個(gè)問題必須在模型中融入知識(shí)。目前我的團(tuán)隊(duì),以及瑞萊智慧都在這個(gè)方向上努力?;舅悸肥菍⒅R(shí)放進(jìn)空間向量中進(jìn)行處理。其中知識(shí)的表示方法,我們?cè)谙朕k法用概率或者向量的方法表達(dá)出來,目的是想和原來的算法結(jié)合起來。
當(dāng)前的一些相關(guān)進(jìn)展是對(duì)抗訓(xùn)練,即用對(duì)抗樣本訓(xùn)練系統(tǒng),且能夠告訴系統(tǒng)“雖然這個(gè)樣本在某些局部特征上和鳥相同,但它并不是鳥,對(duì)抗樣本不能識(shí)別為真正的樣本”。因此,對(duì)抗訓(xùn)練能夠在某種程度上賦予算法知識(shí)。
對(duì)抗訓(xùn)練也有局限性,如果換一種對(duì)抗樣本,計(jì)算機(jī)或許還會(huì)犯同樣的錯(cuò)誤。為了解決這個(gè)問題,清華大學(xué)和瑞萊智慧合作,在貝葉斯深度學(xué)習(xí)上下功夫,嘗試將先驗(yàn)知識(shí)、后驗(yàn)約束加上去,目前已經(jīng)看到了非常好的效果。
其實(shí),這也是現(xiàn)在全世界主要的工作思路,其優(yōu)勢(shì)在于能夠發(fā)揮深度學(xué)習(xí)的威力。畢竟,深度學(xué)習(xí)有各種數(shù)學(xué)工具的優(yōu)勢(shì),在處理連續(xù)向量空間上很有“天賦”。但這種方法基本上只能夠針對(duì)某些特定條件、特定攻擊,雖然計(jì)算機(jī)很擅長,但治標(biāo)不治本,還有很長的路要走。
范式一的困難性在于:當(dāng)知識(shí)轉(zhuǎn)為向量表示形式時(shí),丟失了大量語義,算法的魯棒性提高并不多,因?yàn)殛P(guān)鍵是尋找更有效的“嵌入”方法。
因此,范式二“打通兩個(gè)空間”的思路有可能從根本上解決問題。計(jì)算機(jī)在完成圖像識(shí)別任務(wù)的時(shí)候,并沒有進(jìn)行圖像分割。換句話說,計(jì)算機(jī)并不知道馬在什么地方,也不知道何處有馬。如果想要實(shí)現(xiàn)where和what,需要同時(shí)做馬的識(shí)別和馬的分割,目前這方面的工作還沒有同時(shí)進(jìn)行,因?yàn)椤罢J(rèn)識(shí)”和“分割”這兩項(xiàng)工作都很難。
相比之下,人類又是如何識(shí)別馬的?通過無監(jiān)督學(xué)習(xí)。我們小的時(shí)候,尤其是一兩歲以前,非常重要的任務(wù)是“無監(jiān)督學(xué)習(xí)”,建立周圍常見物體的模型,所以我們兩歲以前有了狗和貓的模型,已經(jīng)認(rèn)識(shí)貓和狗,因此我們通過舉一反三很容易建立起來馬的模型,換句話講我們所以能夠識(shí)別馬,就是因?yàn)槲覀冊(cè)缫颜J(rèn)識(shí)馬,我們大腦里面有馬的模型。
如何在計(jì)算機(jī)里面建立模型?如何通過無監(jiān)督的方法進(jìn)行學(xué)習(xí)、鑒定?我的博士生做的一個(gè)工作是:想辦法通過學(xué)習(xí),把所有馬的模型建立在隱變量里面,然后通過采樣實(shí)現(xiàn)馬的識(shí)別,實(shí)際上此模型是通過無監(jiān)督學(xué)習(xí)或者預(yù)訓(xùn)練進(jìn)行建立的。目前,用這個(gè)思路建立的模型,在完成分類、識(shí)別任務(wù)時(shí)候,效率大幅度提升。
不得不承認(rèn),這條路仍然非常艱巨。還拿馬舉例,因?yàn)槲矬w是非剛性的,馬有各種變形,躺下的馬和跑起來的馬在形狀上大不相同。所以需要建立什么樣的模型,是需要探討的問題。
綜上,范式二的本質(zhì)困難在于兩個(gè)方面,一是模型的表示,是采用確定性還是概率性的方式?二是模型的獲取,是通過無監(jiān)督還是強(qiáng)化學(xué)習(xí)?
發(fā)展第三代人工智能是一項(xiàng)非常長期的任務(wù),人工智能的安全和治理也是長期的任務(wù),安全問題是由算法本身引起,徹底解決有很長的路要走。
解決人工智能安全性問題必須兩手抓,一手抓治理,治理不是短期的任務(wù),是長期的任務(wù);一手抓創(chuàng)新發(fā)展,創(chuàng)新發(fā)展要克服人工智能算法本身的不安全性,也是一個(gè)長期的任務(wù)。
為了更好的推動(dòng)人工智能技術(shù)創(chuàng)新和產(chǎn)業(yè)穩(wěn)健發(fā)展,形成更完備規(guī)范的創(chuàng)新體系和產(chǎn)業(yè)生態(tài),《人工智能產(chǎn)業(yè)擔(dān)當(dāng)宣言》也在本次論壇上正式對(duì)外發(fā)布。
宣言由北京智源人工智能研究院、瑞萊智慧聯(lián)合發(fā)起,百度、華為、螞蟻集團(tuán)、寒武紀(jì)、愛筆科技、第四范式、出門問問等人工智能行業(yè)的核心骨干企業(yè)、學(xué)術(shù)研究機(jī)構(gòu)共同參與。
北京瑞萊智慧科技有限公司CEO田天作為論壇承辦方與宣言核心參與方率先表示,讓人工智能更好地服務(wù)于人類,是行業(yè)共同的目標(biāo),當(dāng)整個(gè)社會(huì)重新審視技術(shù)的價(jià)值,科技從業(yè)者更應(yīng)感受到科技治理的緊迫性和使命感,應(yīng)當(dāng)積極主動(dòng)開展自治工作,同時(shí)開放共享,共舉科技擔(dān)當(dāng),將科技力量打造成為人工智能創(chuàng)新治理體系中的核心支撐。
宣言包含五項(xiàng)倡議,首先強(qiáng)調(diào),人工智能系統(tǒng)的設(shè)計(jì)、研發(fā)、實(shí)施和推廣應(yīng)符合可持續(xù)發(fā)展理念,以促進(jìn)社會(huì)安全和福祉為目標(biāo),以尊重人類尊嚴(yán)和權(quán)益為前提。其次在技術(shù)能力方面,提出要最大限度確保人工智能系統(tǒng)安全可信,提高魯棒性及抗干擾性,要增強(qiáng)算法透明性和可解釋性,同時(shí)保障各方權(quán)利和隱私,對(duì)用戶數(shù)據(jù)提供充分的安全保障。
聯(lián)系客服