為什么ChatGPT的誕生意義非凡?當(dāng)下發(fā)展第三代人工智能需要解決哪些關(guān)鍵問(wèn)題?中國(guó)模式和國(guó)外有什么區(qū)別?4月23日晚7點(diǎn),人文清華講壇,中國(guó)人工智能奠基人、清華大學(xué)計(jì)算機(jī)系教授、中國(guó)科學(xué)院院士張鈸發(fā)表演講《走進(jìn)“無(wú)人區(qū)”-探索人工智能之路》,為大家解讀人工智能的發(fā)展歷程,指出實(shí)現(xiàn)通用人工智能任重道遠(yuǎn),提醒大家要在人工智能熱中保持清醒進(jìn)行冷思考,中國(guó)要大力加強(qiáng)基礎(chǔ)理論研究,聚天下英才而用之,堅(jiān)持不懈地努力。
線上線下超過(guò)300萬(wàn)觀眾跟隨張鈸院士一起共同思考如何迎接人工智能時(shí)代的挑戰(zhàn)。
張鈸,清華大學(xué)計(jì)算機(jī)系教授,中國(guó)科學(xué)院院士,清華大學(xué)人工智能研究院名譽(yù)院長(zhǎng)。2011年德國(guó)漢堡大學(xué)授予自然科學(xué)名譽(yù)博士,獲2014年度CCF(中國(guó)計(jì)算機(jī)學(xué)會(huì))終身成就獎(jiǎng),2019年度吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)最高成就獎(jiǎng)。
他從事人工智能、人工神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等理論研究,和模式識(shí)別、知識(shí)工程和機(jī)器人等應(yīng)用技術(shù)研究。在上述領(lǐng)域共發(fā)表學(xué)術(shù)論文200多篇和5部(章)專著。其科研成果獲ICL歐洲人工智能獎(jiǎng)等。此外,他是智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室創(chuàng)建者之一,并于1990-1996年擔(dān)任該實(shí)驗(yàn)室主任。
以下為演講實(shí)錄整理稿,約16000字。(全文讀完約20分鐘)
大家好,很高興來(lái)到講堂,今天我講的題目是《走進(jìn)“無(wú)人區(qū)”探索人工智能之路》。什么是人工智能?很多人認(rèn)為,人工智能是用機(jī)器,特別是計(jì)算機(jī)來(lái)模擬人類的智能。這個(gè)理解肯定是不對(duì)的。迄今為止,全世界對(duì)于什么是智能沒(méi)有統(tǒng)一的認(rèn)識(shí),因?yàn)槲覀儗?duì)自己的大腦了解非常少。2019年,有人問(wèn)美國(guó)非常有名的腦科學(xué)家科赫(Christof Koch),“到現(xiàn)在為止,我們對(duì)人類的大腦了解多少呢?”他回答,“我們甚至不了解一條蠕蟲的腦子”。一條蠕蟲的腦子那么簡(jiǎn)單我們都沒(méi)有了解清楚,對(duì)人類大腦的了解更是太少。因此,這就遇到一個(gè)問(wèn)題,我們都說(shuō)不清楚“智能”,如何搞人工智能?
人工智能的兩條路徑
1.唯物主義學(xué)派
人工智能經(jīng)過(guò)多年的探索走出了兩條道路,一條道路叫做行為主義道路或者行為主義學(xué)派,或者唯物主義學(xué)派。這個(gè)學(xué)派的主張是用機(jī)器模擬人類的智能行為。“智能”跟“智能的行為”是兩個(gè)完全不同的概念。“智能”是指在我們大腦里面的過(guò)程,我們對(duì)它的了解非常少。“智能的行為”是智能的外部表現(xiàn),我們可以觀察到它,就可以模擬它。因此,人工智能追求的目標(biāo)是什么?追求機(jī)器的行為跟人類的行為相似,而不是追求內(nèi)部工作原理的一致。例如,ChatGPT已經(jīng)達(dá)到了這個(gè)目標(biāo),因?yàn)楦鶦hatGPT對(duì)話與跟真人對(duì)話很相近。在ChatGPT跟我們對(duì)話的過(guò)程中,它內(nèi)部的工作原理跟大腦工作原理一樣嗎?我可以明確告訴大家是不一樣的。因此,我們現(xiàn)在的人工智能走的是一條機(jī)器智能的道路,跟人類的智能并不完全一樣,它只是行為上相似,這是目前人工智能的主流。
2.唯心主義學(xué)派
人工智能還有另外一派,我們稱之為內(nèi)在主義學(xué)派或唯心主義學(xué)派。它主張必須用機(jī)器模擬人類大腦的工作原理,這樣才是真正的智能,即類腦計(jì)算。這兩個(gè)學(xué)派不存在誰(shuí)對(duì)誰(shuí)錯(cuò)的問(wèn)題,因?yàn)榇蠹野凑詹煌乃悸啡プ呷斯ぶ悄艿牡缆?。前者主張除了人類這條道路外,機(jī)器或其它方法也可以走出一條智能的道路;后者主張走向智能道路只有人類這一條,這兩個(gè)目前都處于探索階段。
我們?nèi)祟愂侨绾翁剿鬟@條道路的呢?最開(kāi)始是1956年,在美國(guó)召開(kāi)了人工智能研討會(huì),參加會(huì)議的10個(gè)主要人物來(lái)自數(shù)學(xué)、計(jì)算機(jī)科學(xué)、認(rèn)知心理學(xué)、經(jīng)濟(jì)學(xué)和哲學(xué)等不同領(lǐng)域。他們經(jīng)過(guò)八周的討論,定義了人工智能,認(rèn)為要做一個(gè)會(huì)思考的機(jī)器,也即,希望機(jī)器能像人那樣思考。與會(huì)者主張用符號(hào)推理、符號(hào)表示來(lái)做這件事。在這個(gè)會(huì)議上,Newell和Simon表演了一個(gè)程序,叫做“邏輯學(xué)家”。該程序是用機(jī)器證明數(shù)學(xué)原理第二章中的部分原理,這表明,機(jī)器能做類似推理的工作。因?yàn)閿?shù)學(xué)定理的證明與推理相似。在這個(gè)會(huì)議上定義了什么是“人工智能”。
人工智能的三個(gè)階段
從1956年到現(xiàn)在,人工智能是我們現(xiàn)在遇到的非常年輕的領(lǐng)域,因?yàn)樗臍v史不到70年。這個(gè)過(guò)程分成三個(gè)階段,分別是第一代人工智能、第二代人工智能和第三代人工智能。
1. 第一代人工智能
第一代人工智能想做什么事情呢?——想讓機(jī)器像人類一樣思考,換句話講,要設(shè)計(jì)一個(gè)會(huì)思考的機(jī)器。思考是指推理、決策、診斷、設(shè)計(jì)、規(guī)劃、創(chuàng)作、學(xué)習(xí)等,思考實(shí)際上決定我們白領(lǐng)工作的基礎(chǔ)。任何一個(gè)白領(lǐng)工作都需要這樣一個(gè)思考能力(行為)或理性行為。
人類的思考是什么基礎(chǔ)決定的?也就是說(shuō),人類白領(lǐng)工作做得好,思考能力一定要很強(qiáng),那么怎么才能讓我們的思考能力變強(qiáng)呢?比如,醫(yī)生在醫(yī)療診斷上的思考能力比我們?cè)谧娜硕紡?qiáng)。醫(yī)生跟我們的差別在哪兒?醫(yī)生跟我們的差別在兩個(gè)方面,一是醫(yī)生有豐富的醫(yī)學(xué)知識(shí)和臨床經(jīng)驗(yàn),我們沒(méi)有,因此我們看不了病;除掉知識(shí)和經(jīng)驗(yàn)這個(gè)基礎(chǔ)之外,還需要有運(yùn)用知識(shí)的能力。運(yùn)用知識(shí)的能力是推理,由此及彼、由表及里,叫做推理。也即,從已有的知識(shí)出發(fā)推出新的結(jié)論、新的知識(shí)。
無(wú)論是做管理工作或者做技術(shù)工作需要的能力也分為兩個(gè)方面。一是在某個(gè)領(lǐng)域具有豐富的知識(shí)和經(jīng)驗(yàn),二是具有很強(qiáng)的推理能力。根據(jù)這樣的分析,人工智能的創(chuàng)始人提出了“基于知識(shí)與經(jīng)驗(yàn)的推理模型”。這個(gè)思想非常簡(jiǎn)單,也即我們要實(shí)現(xiàn)機(jī)器會(huì)思考,只要把相應(yīng)的知識(shí)放在計(jì)算機(jī)里。比如,我們要讓計(jì)算機(jī)看病,只要把醫(yī)生的知識(shí)和經(jīng)驗(yàn)放到知識(shí)庫(kù)里,醫(yī)生看病的推理過(guò)程放在推理機(jī)制里,計(jì)算機(jī)就能看病了。如果要讓計(jì)算機(jī)做一些其它的思考工作,比如設(shè)計(jì)工作,我們把某個(gè)領(lǐng)域的設(shè)計(jì)知識(shí)和經(jīng)驗(yàn)輸入知識(shí)庫(kù),把設(shè)計(jì)的推理過(guò)程放在推理機(jī)制里,計(jì)算機(jī)就能幫你設(shè)計(jì)。所以基于知識(shí)和經(jīng)驗(yàn)的推理模型是所有理性行為共同的計(jì)算模型,我們用這個(gè)計(jì)算模型就可以讓機(jī)器像人類那樣思考。
這個(gè)模型的核心思想是知識(shí)驅(qū)動(dòng),換句話講,知識(shí)是人類智慧的源泉,知識(shí)就是力量。這些知識(shí)我們通常叫它理性知識(shí),理性知識(shí)來(lái)自學(xué)習(xí),所以所有做白領(lǐng)工作的人必須要接受教育。因?yàn)椴唤邮芙逃?,你就不可能有理性知識(shí),沒(méi)有理性知識(shí)就不可能做任何一個(gè)白領(lǐng)的工作。所以好多人要接受教育,而且最好能接受更高等的教育,這樣才可能保證理性工作做得好。有的時(shí)候我們也把它叫做符號(hào)主義,因?yàn)槲覀儼讶祟惖闹R(shí)和經(jīng)驗(yàn)以符號(hào)的形式表達(dá)在計(jì)算機(jī)之中。
我們看一下最早的例子。70年代初,美國(guó)人根據(jù)這個(gè)思想做出一個(gè)名為MYCIN的醫(yī)療診斷系統(tǒng),主要用于看血液傳染病、開(kāi)抗生素的藥。內(nèi)科醫(yī)生的知識(shí)、傳染病專家的知識(shí)都被擱在里面,因?yàn)檫@個(gè)知識(shí)非常有限,所以這個(gè)系統(tǒng)可以像醫(yī)生那樣看血液傳染病,最后開(kāi)出抗生素的藥。同時(shí),這里增加了傳染病專家的知識(shí),因此它的看病水平要比一般的內(nèi)科醫(yī)生強(qiáng)。在發(fā)達(dá)國(guó)家必須要這么做,也就是說(shuō),它的醫(yī)療診斷系統(tǒng)必須比一般醫(yī)生水平要高才有用處。但是在發(fā)展中國(guó)家不一定要有這個(gè)要求,因?yàn)槲覀冞€有好多社區(qū)醫(yī)生,所以達(dá)到三甲醫(yī)院醫(yī)生的水平就可以推廣應(yīng)用。此外,它還可以幫助全科醫(yī)生進(jìn)行醫(yī)療輔助診斷。
這個(gè)系統(tǒng)看起來(lái)有很多優(yōu)勢(shì),因?yàn)?strong>它能像人類那樣進(jìn)行推理,人類完全可以理解它的診斷過(guò)程,所以這個(gè)系統(tǒng)是可理解、可解釋的。但是最大的缺點(diǎn)是,所有的知識(shí)都要靠人類告訴它,它不可能從客觀世界去學(xué)習(xí)知識(shí)。在第一代人工智能時(shí),計(jì)算機(jī)沒(méi)有自學(xué)能力,這是很難的。因?yàn)槲覀兤匠魇谥R(shí)是用自然語(yǔ)言進(jìn)行,但是當(dāng)我們要把知識(shí)傳授給計(jì)算機(jī)時(shí),當(dāng)時(shí)的計(jì)算機(jī)還不懂自然語(yǔ)言,必須要想出一個(gè)計(jì)算機(jī)能理解的辦法跟它進(jìn)行交流,才有可能構(gòu)造這種系統(tǒng)。所以這種系統(tǒng)在當(dāng)時(shí)構(gòu)造起來(lái)很困難,費(fèi)時(shí)費(fèi)力,因此其應(yīng)用和產(chǎn)業(yè)化相對(duì)較差。因?yàn)樗兄R(shí)都靠人類去告訴它,所以它永遠(yuǎn)超不過(guò)人類。
第一代人工智能模型基于非常難構(gòu)造的知識(shí)和經(jīng)驗(yàn)推理模型。美國(guó)人做的MYCIN醫(yī)療診斷系統(tǒng)的知識(shí)非常有限,只開(kāi)抗生素藥、只看血液傳染病,但是這么小的一個(gè)系統(tǒng)也花了三年半時(shí)間才構(gòu)成。所以第一代人工智能走過(guò)的路是比較曲折的,最開(kāi)始的時(shí)候應(yīng)用有限,后來(lái)有了專家系統(tǒng)以后,雖然在窄的領(lǐng)域里得到一些應(yīng)用,但總的來(lái)講應(yīng)用較窄,所以那時(shí)候叫做“人工智能的冬天”。
2. 第二代人工智能
在第一代人工智能處于低潮時(shí),第二代人工智能開(kāi)始。第二代人工智能主要是從人工神經(jīng)網(wǎng)絡(luò)出發(fā),1943年提出人工神經(jīng)網(wǎng)絡(luò)模型,它主要想模擬人類腦神經(jīng)網(wǎng)絡(luò)的工作原理。這個(gè)模型最早很簡(jiǎn)單,所以能做的事情比較少。第二代人工智能初期進(jìn)展也很緩慢。清華大學(xué)從1978年開(kāi)始進(jìn)入人工智能領(lǐng)域,相當(dāng)一段時(shí)間里我們處于第一代人工智能結(jié)束,第二代人工智能開(kāi)始的階段,遇到了人工智能的冬天。
1978年,我們成立了人工智能與智能控制教研組,這是中國(guó)最早的研究人工智能的機(jī)構(gòu)。當(dāng)時(shí)差不多有30位老師參與,這些老師絕大部分來(lái)自于自動(dòng)控制領(lǐng)域,原來(lái)并不是搞人工智能的。1978年時(shí),我們招收了頭一批碩士生;1980年至1982年間,我代表教研組到美國(guó)訪問(wèn)了兩年,最主要的目的是學(xué)習(xí)人工智能。因?yàn)槲耶?dāng)時(shí)雖然選擇了這個(gè)方向,實(shí)則對(duì)人工智能很不了解。我去美國(guó)伊利諾斯大學(xué)香檳分校綜合科學(xué)實(shí)驗(yàn)室訪問(wèn)了兩年。那個(gè)時(shí)候綜合科學(xué)實(shí)驗(yàn)室的主任是華人科學(xué)家錢天聞,他的方向是人工智能。他那時(shí)有6位博士生,其中1位已經(jīng)做了8年,因?yàn)闆](méi)有選到好的題目,所以沒(méi)法再做下去;有一個(gè)做了不到一年就轉(zhuǎn)到計(jì)算機(jī)的其他方向去了;還有一個(gè)臺(tái)灣來(lái)的做了4年,也沒(méi)選到合適的方向。從這些情況來(lái)看,當(dāng)時(shí)人工智能確實(shí)處于低潮。
(1)作為主要方向的“智能機(jī)器人”
我們從1985年開(kāi)始招收第一批博士生。當(dāng)時(shí)我回國(guó)以后,也感覺(jué)到雖然可以開(kāi)展一些和人工智能有關(guān)的教學(xué),但科研幾乎沒(méi)法開(kāi)展。所以我們?cè)?982年至1984年期間就做了調(diào)查研究,在兵器工業(yè)部的支持下到西南、東北,訪問(wèn)了大量跟兵器有關(guān)的研究所和工廠。經(jīng)過(guò)這個(gè)調(diào)查,我們感覺(jué)必須要發(fā)展智能機(jī)器人。因?yàn)閲?guó)外裝引信、弄炸藥都是自動(dòng)化的,但在國(guó)內(nèi)當(dāng)時(shí)還是人工,所以當(dāng)時(shí)我們把智能機(jī)器人作為一個(gè)主要的研究方向。
我們?cè)诖嘶A(chǔ)上開(kāi)始建立智能機(jī)器人實(shí)驗(yàn)室,當(dāng)時(shí)困難非常多。一是沒(méi)錢,當(dāng)時(shí)要買PUMA560機(jī)器人,在美國(guó)所有搞人工智能的大學(xué)里都有這個(gè)設(shè)備,但是機(jī)器人是巴黎統(tǒng)籌委員會(huì)對(duì)中國(guó)禁運(yùn)的物資,所以我們當(dāng)時(shí)買不著這個(gè)設(shè)備。我們通過(guò)跟福建合作,從香港買人家的二手貨,用機(jī)床的名義運(yùn)到國(guó)內(nèi)來(lái)。我們?cè)诜浅@щy的情況下把這個(gè)設(shè)備買下來(lái),上面沒(méi)有任何說(shuō)明書,這是全國(guó)進(jìn)口的第一臺(tái)機(jī)器人設(shè)備。當(dāng)時(shí)這個(gè)設(shè)備要十幾萬(wàn)塊錢,但我們一分錢沒(méi)有,所以就跟福建省計(jì)算機(jī)研究所合作,說(shuō)咱們各出一半錢,另一半錢我們先從他們那里借,所以實(shí)際上完全是他們出的錢買的。后來(lái)因?yàn)檫@個(gè)工作搞得很好,他們也沒(méi)再向我們要錢。所以就把這個(gè)實(shí)驗(yàn)室建起來(lái)了。
1985年建立實(shí)驗(yàn)室,1986年國(guó)家設(shè)立了“863”發(fā)展計(jì)劃,這個(gè)發(fā)展計(jì)劃把智能機(jī)器人作為了一個(gè)主題。從那時(shí)開(kāi)始,清華大學(xué)就參加了第一屆智能機(jī)器人主題的“863”高技術(shù)研究。我們從第一屆到第四屆都是作為專家參加委員會(huì),到了第五屆,清華大學(xué)成為開(kāi)展智能機(jī)器人研究的組長(zhǎng)單位。1997年,設(shè)立了空間機(jī)器人,清華大學(xué)也是空間機(jī)器人的組長(zhǎng)單位。在這種情況下,我們從1987年開(kāi)始籌建,到1990年正式成立了一個(gè)叫“智能技術(shù)與系統(tǒng)”國(guó)家重點(diǎn)實(shí)驗(yàn)室,這個(gè)實(shí)驗(yàn)室搞得很好,每4至5年評(píng)估一次,我們連續(xù)3次全得到優(yōu)。因?yàn)榈玫絻?yōu)以后,運(yùn)行費(fèi)就給1000萬(wàn),當(dāng)時(shí)1000萬(wàn)還是很大的一個(gè)數(shù)目。正是由于這兩個(gè)工作的支持,我們的工作得以開(kāi)展。在低潮期時(shí),不管國(guó)內(nèi)還是國(guó)外,好多單位都難以繼續(xù)這方面的研究,但從78年代一直到90年代末,由于國(guó)家重點(diǎn)實(shí)驗(yàn)室對(duì)清華大學(xué)的支持,我們的研究工作一直做得不錯(cuò)。
首先我們建立了兩個(gè)理論。一是建立了問(wèn)題求解的商空間理論和粒計(jì)算理論,這個(gè)當(dāng)時(shí)在國(guó)際上有相當(dāng)影響。2005年,我們?cè)谇迦A大學(xué)發(fā)起、組織了國(guó)際粒計(jì)算會(huì)議,后來(lái)每年開(kāi)一次,延續(xù)至今。我們確立了這個(gè)研究方向,直到現(xiàn)在持續(xù)進(jìn)行研究。二是在人工神經(jīng)網(wǎng)絡(luò)方面,我們也做了早期的很多工作。當(dāng)時(shí)人工神經(jīng)網(wǎng)絡(luò)的發(fā)展也很困難,在模型和學(xué)習(xí)算法方面,我們做出了很好的成果。此外,1990年開(kāi)始,我們主要做了自動(dòng)駕駛車,那個(gè)時(shí)候叫移動(dòng)機(jī)器人,這在國(guó)際上都算是開(kāi)展很早的單位,在國(guó)內(nèi)當(dāng)然也算是最早的。1992年,我們又承擔(dān)了軍用移動(dòng)機(jī)器人項(xiàng)目,這個(gè)項(xiàng)目后來(lái)也得到國(guó)家和部門的獎(jiǎng)勵(lì)。這個(gè)工作一直延續(xù)至今,雖然現(xiàn)在很多單位都在開(kāi)展自動(dòng)駕駛的研究工作,但其實(shí)清華大學(xué)是最早進(jìn)行自動(dòng)駕駛研究工作的單位之一。
(2)第二代人工智能面臨的問(wèn)題:感性知識(shí)的傳授
第二代人工智能的初期發(fā)展階段出現(xiàn)了一個(gè)問(wèn)題。因?yàn)槟P捅旧肀容^簡(jiǎn)單,好多學(xué)習(xí)算法還沒(méi)有發(fā)現(xiàn),因此最開(kāi)始進(jìn)展比較慢。本世紀(jì)初開(kāi)始,第二代人工智能蓬勃發(fā)展。第一代人工智能主要在符號(hào)主義指導(dǎo)下進(jìn)行,它的目的是模擬人類的理性行為。但是人類除了理性行為之外還有大量的感性行為,這個(gè)感性行為要用人工神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行模擬。我們剛才說(shuō)過(guò)了知識(shí)是人類智慧的源泉,知識(shí)是我們理性行為的基礎(chǔ)。這個(gè)知識(shí)指的是理性知識(shí)、分析問(wèn)題的方法等,這些知識(shí)來(lái)自教育。人類除了理性知識(shí)以外,還有大量感性知識(shí)。比如,我們認(rèn)識(shí)馬牛羊、張三李四,這屬于感性知識(shí)。感性知識(shí)來(lái)自何處?它絕對(duì)不是來(lái)自于學(xué)習(xí),也不是來(lái)自于傳授。大家想一想,我們?cè)趺从米匀徽Z(yǔ)言去傳授什么是“馬”?馬有馬頭、馬尾巴、四條腿。那么什么是“四”、什么是“條”、什么是“腿”?你說(shuō)細(xì)長(zhǎng)的叫腿,什么是“細(xì)”?什么是“長(zhǎng)”?換句話講,你要傳授一個(gè)感性的概念,你必須要用很多新的概念去描述它,那么最初的概念如何傳授?實(shí)際上是很難的。因此感性的知識(shí)是不可以用語(yǔ)言來(lái)傳授的,也無(wú)法從書本上學(xué)來(lái)。那我們的感性知識(shí)來(lái)自何處?我們每一個(gè)人最初得到的感性知識(shí)是認(rèn)識(shí)我們的母親。我們什么時(shí)候認(rèn)識(shí)我們的母親?怎么認(rèn)識(shí)我們的母親?到現(xiàn)在還是說(shuō)不清楚的。那么感性的知識(shí)來(lái)自何處?如果真能知道這些,我們就知道如何去教計(jì)算機(jī)認(rèn)識(shí)馬、認(rèn)識(shí)牛、認(rèn)識(shí)羊。
(3)深度學(xué)習(xí)的底層邏輯:觀察與傾聽(tīng)
我們觀察一下小孩,小孩在很小的時(shí)候(特別是2歲以前),除了吃喝拉撒睡以外都做什么事呢?其中四項(xiàng)重大任務(wù)必須在2歲以前完成,這個(gè)工作完成的不好,孩子的認(rèn)知、智商、情商的發(fā)展都會(huì)受很大影響。第一項(xiàng)任務(wù)就是觀察,孩子要利用所有時(shí)間、抓緊每分每秒去認(rèn)真觀察周圍的事物。小孩醒來(lái)以后都盯著東西看,目不轉(zhuǎn)睛,為什么這樣?因?yàn)樗仨氉ゾo每分每秒去觀察周圍的世界,建立視覺(jué)基礎(chǔ)。第二項(xiàng)任務(wù)是傾聽(tīng),建立聽(tīng)覺(jué)基礎(chǔ)。大人看著孩子沒(méi)有不吭聲的,因?yàn)槟阋o他創(chuàng)造聲音,不斷讓他傾聽(tīng),建立聽(tīng)覺(jué)基礎(chǔ)。所有這些感性知識(shí)都在不斷觀察、不斷傾聽(tīng)的過(guò)程中學(xué)習(xí)。所以我們?cè)诘诙斯ぶ悄芾锷疃葘W(xué)習(xí)就是用這個(gè)辦法。
過(guò)去,我們主要通過(guò)編程的方法告訴計(jì)算機(jī),馬牛羊有什么特征,這個(gè)方法是不正確的,用這個(gè)辦法來(lái)教它,結(jié)果教不會(huì)。語(yǔ)音也是這樣,過(guò)去,我們通過(guò)告訴它“我有什么特征”來(lái)教它聽(tīng)懂“我”,效果很不好。最后怎么完成的呢?就是基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)。我們把網(wǎng)上所有馬牛羊的照片拿來(lái),把中間的大部分做成訓(xùn)練樣本,讓它觀察和學(xué)習(xí)。學(xué)習(xí)完畢后,將剩下的樣本作為測(cè)試樣本去測(cè)它,識(shí)別率達(dá)到95%等等。語(yǔ)音也是這樣,我們收集了大量語(yǔ)音,把中間大部分作為訓(xùn)練樣本,讓計(jì)算機(jī)傾聽(tīng)、學(xué)習(xí),最后把剩下的部分作為測(cè)試樣本去測(cè)它。這也是用同樣的辦法,即觀察和傾聽(tīng)。那么用什么東西來(lái)觀察和傾聽(tīng)呢?就是人工神經(jīng)網(wǎng)絡(luò)。也就是說(shuō),把識(shí)別的問(wèn)題作為分類問(wèn)題來(lái)進(jìn)行,利用人工神經(jīng)網(wǎng)絡(luò)來(lái)分類,馬這組數(shù)據(jù)分成一類,牛這組數(shù)據(jù)又分成一類,這樣就實(shí)現(xiàn)了識(shí)別。所以這個(gè)神經(jīng)網(wǎng)絡(luò)是采取多層的神經(jīng)網(wǎng)絡(luò),這個(gè)神經(jīng)網(wǎng)絡(luò)叫深度神經(jīng)網(wǎng)絡(luò),即很深的神經(jīng)網(wǎng)絡(luò),而用這個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)的,叫做深度學(xué)習(xí)。所以深度學(xué)習(xí)不是學(xué)很深的意思,而是用很深的神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)它,這樣效果會(huì)很好。
(4)通過(guò)深度學(xué)習(xí)進(jìn)行分類和預(yù)測(cè)
我們看一下這樣做的效果。過(guò)去都是用同樣的圖像庫(kù)、圖像網(wǎng)進(jìn)行圖像識(shí)別,一共有2萬(wàn)多個(gè)種類,1千5百萬(wàn)張圖。過(guò)去,我們用一個(gè)編程的辦法告訴它什么是馬、什么是羊,這樣做誤識(shí)率是50%。后來(lái)我們用機(jī)器學(xué)習(xí)的辦法來(lái)做,結(jié)果誤識(shí)率降到3.57%。從50%降到3.57%,而人類的誤識(shí)率是5.1%,降到3.57%是超過(guò)人類的水平的。
通過(guò)人工神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,也可以找數(shù)據(jù)中間的關(guān)聯(lián)關(guān)系。機(jī)器翻譯就是這么做的。過(guò)去的機(jī)器翻譯怎么做的呢?用語(yǔ)法分析、語(yǔ)義分析,效果非常不好。現(xiàn)在換成機(jī)器學(xué)習(xí)的方法,效果非常之好。因?yàn)槲覀冎灰抑形暮陀⑽闹g的關(guān)聯(lián)關(guān)系,不去仔細(xì)分析它的語(yǔ)法語(yǔ)義,也就是說(shuō),這個(gè)中文輸入對(duì)應(yīng)的是這個(gè)英文。在學(xué)了大量的結(jié)果以后,我們給一個(gè)中文它就會(huì)翻成英文,所以是利用這個(gè)模型學(xué)習(xí)數(shù)據(jù)中間的關(guān)聯(lián)關(guān)系,通過(guò)學(xué)習(xí)把中文和英文關(guān)聯(lián)起來(lái),因此它能夠進(jìn)行翻譯。
還可以用這個(gè)做預(yù)測(cè)。什么叫預(yù)測(cè)呢?用過(guò)去的數(shù)據(jù)預(yù)測(cè)未來(lái)的變化,也可以用人工神經(jīng)網(wǎng)絡(luò)或機(jī)器學(xué)習(xí)的辦法來(lái)做,例如傳染病預(yù)測(cè)、產(chǎn)品預(yù)測(cè)、股票預(yù)測(cè)等。所有這些預(yù)測(cè)都是用過(guò)去的數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)的變化。所以,大數(shù)據(jù)下的機(jī)器學(xué)習(xí)有這么多用處,除掉分類關(guān)聯(lián)關(guān)系的學(xué)習(xí)跟預(yù)測(cè)以外,還可以做生成。
深度學(xué)習(xí)出來(lái)后,也即第二代人工智能繁榮興起后,國(guó)內(nèi)也興起高潮。清華大學(xué)有很多年輕人參加,以朱軍為代表的年輕隊(duì)伍做了很多這方面的工作。一是理論工作,他們提出一個(gè)概率學(xué)習(xí)的理論和模型,就是在貝葉斯原來(lái)的理論上加一個(gè)維度,即后驗(yàn)分布。原來(lái)貝葉斯理論是靠先驗(yàn)分布和似然函數(shù),現(xiàn)在加上后驗(yàn)分布以后,學(xué)習(xí)質(zhì)量和學(xué)習(xí)效率提高?;谶@個(gè)理論,我們做了一個(gè)開(kāi)源的編程庫(kù),可以供全世界使用。這個(gè)工作也得到了大家的好評(píng)。
(5)深度學(xué)習(xí)的不安全性
還有一個(gè)非常重要的問(wèn)題,我們一個(gè)博士生比較早發(fā)現(xiàn)深度學(xué)習(xí)的不安全性,他做了一個(gè)非常典型的例子。左邊這張雪山圖,原來(lái)計(jì)算機(jī)看起來(lái)是雪山,人看起來(lái)也是雪山,只要把它加一點(diǎn)噪聲,變成右邊這張圖(右邊這張圖比左邊的圖多了一點(diǎn)噪聲)。人看起來(lái)是雪山,當(dāng)計(jì)算機(jī)卻看成是一條狗。這就充分說(shuō)明,深度學(xué)習(xí)的模式識(shí)別跟人類的視覺(jué)完全不同,盡管它能夠把雪山和狗分開(kāi),但實(shí)際上它既不認(rèn)識(shí)狗,也不認(rèn)識(shí)雪山。為什么是這樣的情況呢?關(guān)鍵問(wèn)題是——什么叫做狗?我們?cè)趺炊x一只狗?通常用人類視覺(jué)來(lái)區(qū)分,主要看它的外形,狗的外形跟貓的外形不一樣,但問(wèn)題是什么是狗的外形?狗有各種各樣,我們?yōu)槭裁丛诒姸喙返耐庑卫锬軌蚍直娉鰜?lái)這就是狗,而且同樣一只狗站著、躺著、跑著,前面、背面都不一樣,為什么人類的視覺(jué)能夠在千變?nèi)f化的外形里確定它是狗?到現(xiàn)在為止我們沒(méi)搞清楚。我們對(duì)腦科學(xué)的研究很差,因?yàn)椴恢廊祟惖难劬槭裁丛谇ё內(nèi)f化的狗的外形里能夠斷定它是狗,而且有時(shí)把狗擋住了,擋了很多,我們還認(rèn)識(shí)它。人類的視覺(jué)是怎么解決這個(gè)問(wèn)題的?到現(xiàn)在還是個(gè)謎,所以計(jì)算機(jī)不知道怎么做。計(jì)算機(jī)看狗,最早的時(shí)候,狗在這邊它認(rèn)識(shí),挪了位置就不認(rèn)識(shí)了,這就是位移的不變性,這個(gè)問(wèn)題現(xiàn)在已經(jīng)解決。但是沒(méi)有解決的問(wèn)題還有很多。例如,計(jì)算機(jī)識(shí)別固定尺寸的狗,把狗變大了不認(rèn)識(shí),變小了也不認(rèn)識(shí),這就是大小的不變性?,F(xiàn)在機(jī)器認(rèn)識(shí)狗,變大變小,它都不認(rèn)識(shí)。所以現(xiàn)在機(jī)器怎么做呢?只能用局部的紋理來(lái)區(qū)分狗和雪山。因此,我們把雪山中間的某個(gè)紋理改成皮毛的紋理,形狀一點(diǎn)不變,它就認(rèn)為是狗,這就是它的實(shí)質(zhì)。所以我們可以看到深度學(xué)習(xí)是非常不安全、不可靠的,而且也是不可信的。
我們比較早發(fā)現(xiàn)了人臉識(shí)別的不安全性。如上面這個(gè)圖所示,計(jì)算機(jī)能夠識(shí)別左邊的人和右邊的人不是同一個(gè)人。但我們只要給它加一點(diǎn)噪聲,它就把右邊這個(gè)人認(rèn)為是左邊的人,所以現(xiàn)在為什么人臉識(shí)別那么不安全?因?yàn)槲覀冎灰淖円稽c(diǎn)它的局部特征,人還是認(rèn)為是原來(lái)的人,但計(jì)算機(jī)完全看成是不同的人,所以人臉識(shí)別是非常不安全的?,F(xiàn)在用它來(lái)付錢還可以,但問(wèn)題是用它來(lái)取錢就有問(wèn)題了,你在網(wǎng)上是不可以刷臉取錢的,這就說(shuō)明它的不安全性。
根據(jù)CSRanking統(tǒng)計(jì),清華大學(xué)的團(tuán)隊(duì)在全球人工智能頂刊發(fā)表高檔文章數(shù),2017-2019年排在第一位。這說(shuō)明,清華大學(xué)或者我們中國(guó)的平均水平是不低的,平均水平是先進(jìn)水平。問(wèn)題出在我們的最高水平跟人家差距大,很難出出類拔萃的人才。換句話說(shuō),我們的創(chuàng)新能力不如人家。而往往最高水平是決定科技發(fā)展的主要因素,所以這一點(diǎn)我們還需努力。
(6)第二代人工智能的缺陷:不安全、不可信、不可控、不可靠、不易推廣
第二代人工智能也有它的缺點(diǎn),它的所有數(shù)據(jù)(圖像、語(yǔ)音等)來(lái)自客觀世界,所以它實(shí)際很有用處,但是難以提升到認(rèn)知水平。它識(shí)別東西只能區(qū)別不同的物體,并不能真正認(rèn)識(shí)這個(gè)物體,這是它的最大問(wèn)題,即不安全、不可信、不可控、不可靠、不易推廣。2016年,根據(jù)這個(gè)情況我們提出,必須發(fā)展第三代人工智能。
3. 第三代人工智能
(1)亟待發(fā)展的人工智能理論
第三代人工智能的基本思路是必須要發(fā)展人工智能理論。人工智能跟信息科技相比,為什么信息科技發(fā)展得那么快且持續(xù),人工智能卻發(fā)展得相對(duì)較慢且相當(dāng)曲折?最主要的原因是,信息科技的理論從一開(kāi)始就已經(jīng)建立起來(lái)。計(jì)算機(jī)理論于1936年建立,通訊理論于1948年建立。它的理論已經(jīng)建立了,所以技術(shù)發(fā)展和應(yīng)用非常順利。人工智能到現(xiàn)在為止沒(méi)有理論,只有我們剛才給大家介紹的幾個(gè)模型、幾個(gè)算法,而且我們前面分析過(guò)第一代人工智能的模型和第二代人工智能的模型、算法都有很多缺陷。因此,我們必須要去發(fā)展它的理論,這樣才能發(fā)展出安全、可控、可信、可靠和可擴(kuò)展的人工智能技術(shù)。換句話講,在這個(gè)理論沒(méi)有建立之前,人工智能的算法基本上是不安全的,所以如果將來(lái)在工作當(dāng)中要用人工智能的,始終存在著安全性的問(wèn)題。有些銀行的領(lǐng)導(dǎo)跟我討論銀行系統(tǒng)智能化的問(wèn)題,問(wèn)我最主要要注意什么問(wèn)題?我說(shuō)最主要要注意安全問(wèn)題。因?yàn)閷?duì)人類來(lái)講,一個(gè)是生命,一個(gè)是財(cái)產(chǎn),如果涉及到生命和財(cái)產(chǎn)的處理要智能化,首先要考慮安全性。對(duì)目前的人工智能技術(shù)而言,系統(tǒng)越信息化、智能化,就越不安全。好多人以為搞了人工智能就更安全了,實(shí)則是搞了人工智能更不安全了。那我們?yōu)槭裁催€去搞它?因?yàn)樗鼤?huì)提高效率和質(zhì)量,但是安全性會(huì)受影響。在這種情況下,才能推動(dòng)我們的應(yīng)用和產(chǎn)業(yè)化發(fā)展。
第一代人工智能用了知識(shí)、算法、算力三個(gè)要素,其中最主要運(yùn)用的是知識(shí)。第二代人工智能主要用數(shù)據(jù),即數(shù)據(jù)、算法和算力三個(gè)要素。這兩代人工智能都有它的缺點(diǎn),因?yàn)樗挥昧酥虚g三個(gè)要素。為了克服這個(gè)缺點(diǎn),唯一的辦法是把知識(shí)、數(shù)據(jù)、算法和算力這四個(gè)要素同時(shí)用起來(lái),這就是我們提出來(lái)的主張,全世界也很贊成我們這個(gè)主張。但是外國(guó)人跟我們不同的是強(qiáng)調(diào)數(shù)據(jù)的作用,而我們是強(qiáng)調(diào)知識(shí)的作用。我們認(rèn)為,知識(shí)是人類智慧的源泉,而非數(shù)據(jù)。但同時(shí)也一定要注意數(shù)據(jù),因?yàn)橛?jì)算機(jī)處理數(shù)據(jù)的能力比人類強(qiáng)得多,所以我們強(qiáng)調(diào)數(shù)據(jù)是強(qiáng)調(diào)機(jī)器的作用,強(qiáng)調(diào)知識(shí)是強(qiáng)調(diào)人類的作用。我們認(rèn)為,人類對(duì)人工智能的作用應(yīng)該比機(jī)器更加重要,這一點(diǎn)與國(guó)外觀點(diǎn)不同。但是我可以告訴大家,ChatGPT這么大的成功就是因?yàn)樗浞值睦昧恕爸R(shí)、數(shù)據(jù)、算法、算力”這四個(gè)要素。
(2)大語(yǔ)言模型:大模型
大語(yǔ)言模型就是LLM。我們首先在語(yǔ)言上突破,ChatGPT為什么有這么強(qiáng)大的性能?主要依靠?jī)蓚€(gè)“大”,一個(gè)大模型,一個(gè)大文本。第一個(gè)“大”是一個(gè)大的人工神經(jīng)網(wǎng)絡(luò),人工神經(jīng)網(wǎng)絡(luò)可以用來(lái)做分類,用來(lái)學(xué)習(xí)數(shù)據(jù)中間的關(guān)聯(lián)關(guān)系,也可以用來(lái)做預(yù)測(cè)?,F(xiàn)在,在ChatGPT里用它做語(yǔ)言生成。這個(gè)巨大的人工神經(jīng)網(wǎng)絡(luò)叫“轉(zhuǎn)換器”,就是GPT的那個(gè)“T”。G是生成式,P是預(yù)訓(xùn)練,T是轉(zhuǎn)換器,它是靠這三個(gè)東西的。
大模型在這里起什么作用?大模型的“大”體現(xiàn)在哪里?深度神經(jīng)網(wǎng)絡(luò)是很深的神經(jīng)網(wǎng)絡(luò),它的中間層一般是幾層、十幾層。在ChatGPT里是非常深的神經(jīng)網(wǎng)絡(luò),有96層。其次是非常寬的神經(jīng)網(wǎng)絡(luò),一次能夠輸入2000多字(一個(gè)token,粗略地講相當(dāng)于一個(gè)漢字)。原來(lái)的神經(jīng)網(wǎng)絡(luò)是逐字輸入,現(xiàn)在是一大段文本輸入。GPT4可以滿足12萬(wàn)8千個(gè)漢字同時(shí)輸入,即300多頁(yè)文本同時(shí)輸入,它能看到全文,這是第一個(gè)“大”。最主要的問(wèn)題是文本的語(yǔ)意表示。過(guò)去,文本在計(jì)算機(jī)里用符號(hào)表示,計(jì)算機(jī)看到符號(hào)不知道它說(shuō)什么?比如,“我打他”,計(jì)算機(jī)看到的是ABC三個(gè)符號(hào),所以我們必須幫它做語(yǔ)法分析,告訴它“我”是主語(yǔ),“打”是謂語(yǔ),“他”是賓語(yǔ),它才知道是什么意思。現(xiàn)在文本不是用符號(hào)表示,而是用語(yǔ)意向量表示,這是人類從1957年到2013年花了56年時(shí)間才解決的。也就是說(shuō),所有的文本不管它是詞、句子、段落都是用向量來(lái)表示,計(jì)算機(jī)看到這個(gè)向量就知道它說(shuō)什么。因?yàn)樗淹瑯诱Z(yǔ)意的向量放在一起,不同語(yǔ)意向量放在空間的不同位置。所以它看到“我打他”這個(gè)向量,它馬上知道說(shuō)的是“我打他”,因?yàn)椤拔掖蛩?,“你打他”,“他打他”,同樣意思的東西放在一起。過(guò)去計(jì)算機(jī)處理文本只能把它當(dāng)數(shù)據(jù)處理,現(xiàn)在可以把它當(dāng)知識(shí)來(lái)處理,可以處理文本的內(nèi)容,這是最重要的一個(gè)突破,即向量表示。向量就是一個(gè)數(shù),所以計(jì)算機(jī)算起來(lái)非常容易。
第二個(gè)是我們花了74年的時(shí)間解決了巨大的人工神經(jīng)網(wǎng)絡(luò)。這個(gè)巨大的人工智能神經(jīng)網(wǎng)絡(luò)叫“轉(zhuǎn)換器”,“轉(zhuǎn)換器”很長(zhǎng)的文本可以同時(shí)輸入。最后一個(gè)是“自監(jiān)督學(xué)習(xí)”,這是OpenAI的貢獻(xiàn)。大家不要認(rèn)為ChatGPT是OpenAI花四年時(shí)間做出來(lái)的,而是世界的科學(xué)家、工程師花了六七十年時(shí)間才研究出來(lái)ChatGPT。前面兩個(gè)成果都主要是大學(xué)做的,只有最后一個(gè)成果“自監(jiān)督學(xué)習(xí)”是OpenAI提出來(lái)的,OpenAI的主要貢獻(xiàn)就提出了“自監(jiān)督學(xué)習(xí)方法”,另外把它實(shí)現(xiàn)一共花了四年時(shí)間。過(guò)去要它學(xué)習(xí)都要做預(yù)處理、預(yù)先標(biāo)注,這個(gè)工作量太大,無(wú)法大量學(xué)習(xí)。“自監(jiān)督學(xué)習(xí)”是原來(lái)的文本不經(jīng)過(guò)任何處理就可以學(xué)習(xí),用前面的文本預(yù)測(cè)后面的詞,輸入后預(yù)測(cè)下一個(gè),預(yù)測(cè)下一個(gè)又把下一個(gè)變成輸入,就像接龍式學(xué)習(xí)。
(3)大語(yǔ)言模型:大文本
第二個(gè)是大文本。自監(jiān)督學(xué)習(xí)后,所有文本不用經(jīng)過(guò)任何的預(yù)處理就可以學(xué)習(xí)。文本原來(lái)是GB量級(jí),現(xiàn)在是TB量級(jí)的。現(xiàn)在OpenAI差不多學(xué)了45個(gè)TB,相當(dāng)于1351萬(wàn)本牛津辭典。而且它的讀不是死讀,而是理解它的內(nèi)容,讀它內(nèi)部的知識(shí)。
這就使得我們進(jìn)入了新的時(shí)代,這個(gè)時(shí)代我們就叫做生成式人工智能時(shí)代。這個(gè)時(shí)代有什么樣的結(jié)果呢?ChatGPT里最重大的成果是強(qiáng)大的語(yǔ)言生成能力,而強(qiáng)大的語(yǔ)言生成能力表現(xiàn)在開(kāi)放的領(lǐng)域,不受領(lǐng)域限制。當(dāng)我們跟ChatGPT對(duì)話時(shí),不是只能談醫(yī)療問(wèn)題,不能談農(nóng)業(yè)問(wèn)題,而是什么問(wèn)題都能談,這是人工智能的重大進(jìn)步。無(wú)論是第一代人工智能還是第二代人工智能,它做的事情必須受三個(gè)限制——特定領(lǐng)域用特定模型完成特定任務(wù)。“三個(gè)特定”就是所謂窄人工智能,專用人工智能。ChatGPT將這個(gè)問(wèn)題完全打破,跟它對(duì)話的時(shí)候沒(méi)有領(lǐng)域限制。二是生成多樣性的輸出,這是ChatGPT的靈魂。它的一個(gè)輸入是多樣化的輸出,給它多樣化的輸出就給它創(chuàng)新的機(jī)會(huì)。它有多樣化的輸出,就有可能創(chuàng)新,如果要它創(chuàng)新,必須允許它犯錯(cuò)誤。因?yàn)樗鄻踊妮敵?,不能保證每個(gè)輸出都是對(duì)的。所以越希望它輸出有創(chuàng)造性,就越要允許它犯錯(cuò)誤。所以我們看到ChatGPT有的時(shí)候回答問(wèn)題非常機(jī)智、非常聰明,有的時(shí)候又胡說(shuō)八道,這個(gè)問(wèn)題就是我們要求它多樣化輸出的結(jié)果。
它生成的是連貫的、類似人類的文本,也就是說(shuō),它說(shuō)的全是人話。這一點(diǎn)非常奇怪,它學(xué)了那么多文本,為什么不會(huì)亂?如果它說(shuō)的是鬼話就麻煩了,它說(shuō)出來(lái)的東西我們不知道它說(shuō)什么,那么后面的工作就沒(méi)法做了?,F(xiàn)在它說(shuō)出來(lái)的全是人話,胡說(shuō)八道也是人話。我們?yōu)槭裁匆隙∣penAI,因?yàn)闆](méi)有人敢去做這個(gè)事。OpenAI花了幾億美金去做這個(gè)系統(tǒng),而且大多數(shù)人認(rèn)為是不大靠譜的,以為輸出會(huì)很亂,居然輸出全是人話,這一點(diǎn)非常重要,就是語(yǔ)意上連貫的類似人類的文本,這是了不起的。第二個(gè)重大突破是在開(kāi)領(lǐng)域?qū)崿F(xiàn)了人機(jī)自然語(yǔ)言對(duì)話,我們現(xiàn)在跟ChatGPT對(duì)話的時(shí)候不受領(lǐng)域限制的。ChatGPT沒(méi)出來(lái)以前,大家估計(jì)我們需要經(jīng)過(guò)幾代人的努力才可能實(shí)現(xiàn)開(kāi)領(lǐng)域跟機(jī)器進(jìn)行自然語(yǔ)言對(duì)話,我們過(guò)去那么小的領(lǐng)域都沒(méi)辦法實(shí)現(xiàn)跟計(jì)算機(jī)進(jìn)行自然領(lǐng)域?qū)υ挘F(xiàn)在居然一夜之間可以不受領(lǐng)域限制進(jìn)行對(duì)話,我覺(jué)得這兩個(gè)是非常了不起的。人工智能原來(lái)打算用幾代人的努力來(lái)完成它,居然在2022年完成,這是人工智能里非常了不起的事情。
我對(duì)人工智能系統(tǒng)做過(guò)一個(gè)測(cè)試:請(qǐng)用小學(xué)三年級(jí)學(xué)生的身份寫一篇作文,作文題目叫“會(huì)飛的房子”。這非??简?yàn)系統(tǒng)好不好。首先,寫的時(shí)候是不是以三年級(jí)學(xué)生這個(gè)身份寫的。有的系統(tǒng)不好,大人的話都出來(lái)了,寫成非常深的科幻故事,那就不對(duì)了。其次,“會(huì)飛的房子”給了非常大的創(chuàng)造性、想象力。有的系統(tǒng)會(huì)寫出來(lái)想象力非常高的文章,比如說(shuō)它飛到城市、農(nóng)村,看到的全是童話世界而非現(xiàn)實(shí)世界,都是想象出來(lái)的。所以大語(yǔ)言模型是向通用人工智能邁出的一步。微軟說(shuō)大語(yǔ)言模型是通用人工智能的火花,西方輿論里大多數(shù)說(shuō)是通用人工智能的曙光,但是有少數(shù)人認(rèn)為它就是通用人工智能,我認(rèn)為這個(gè)意見(jiàn)是錯(cuò)的。我們通向通用人工智能的道路依然任重道遠(yuǎn),換句話講,人工智能還有很長(zhǎng)的路要走,因?yàn)橐_(dá)到通用人工智能必須滿足三個(gè)條件。
(4)通用人工智能的三個(gè)條件
第一個(gè)條件是,系統(tǒng)必須跟領(lǐng)域無(wú)關(guān)。ChatGPT做到了領(lǐng)域無(wú)關(guān),但是它只是在對(duì)話、自然語(yǔ)言處理的問(wèn)題上做到和領(lǐng)域無(wú)關(guān),其它大量的問(wèn)題現(xiàn)在還做不到跟領(lǐng)域無(wú)關(guān)。我們現(xiàn)在做出來(lái)的醫(yī)療診斷系統(tǒng)只能看一個(gè)具體的病,能不能做出來(lái)一個(gè)系統(tǒng)什么病都會(huì)看?現(xiàn)在還不知道怎么做。所以在領(lǐng)域無(wú)關(guān)上,ChatGPT只是走了一步。第二,跟任務(wù)無(wú)關(guān),什么任務(wù)都會(huì)干。ChatGPT現(xiàn)在能對(duì)話,也能夠算四則運(yùn)算,也能作詩(shī)、寫代碼,可以是多任務(wù),但是也不是什么任務(wù)都能干,復(fù)雜環(huán)境下的復(fù)雜任務(wù)它是干不了的。第三,要建立一個(gè)統(tǒng)一的理論。所以人工智能還有很長(zhǎng)的路要走。
(5)大語(yǔ)言模型邁向通用人工智能的四個(gè)步驟
我們認(rèn)為,從大語(yǔ)言模型邁向通向人工智能首先需要走四個(gè)步驟。第一步是跟人類進(jìn)行交互、跟人類對(duì)齊,第二步是多模態(tài)生成,第三步是跟數(shù)字世界交互,第四步是跟客觀世界交互。但也不是說(shuō)這四步做了就完成了通用人工智能,但至少是向通用人工智能邁出這四步。
第一步:與人類對(duì)齊。盡管現(xiàn)在ChatGPT說(shuō)的都是人話,但是不見(jiàn)得是正確的。如何克服這個(gè)問(wèn)題呢?必須靠人類去幫助它克服,跟人類對(duì)齊。我們看一下上圖的結(jié)果,GPT-3時(shí)的錯(cuò)誤率是40%(40%錯(cuò),60%對(duì))。經(jīng)過(guò)兩年人類的調(diào)整,幫助它改正,到ChatGPT時(shí)降到20%,GDP-4的時(shí)候降到10%,從這里可以看到,它的錯(cuò)誤需要人類幫助進(jìn)行糾正,而且這個(gè)糾正的速度是很快的。迭代的速度很快,但我們要看到錯(cuò)誤仍然存在,不可能把它變成零。我們要它具有創(chuàng)造性就得允許它犯錯(cuò)誤。
第二步:多模態(tài)生成。我們用大模型生成文本,我們把它叫ChatGPT,現(xiàn)在可以用大模型來(lái)生成圖像、聲音、視頻、代碼。生成聲音里包括語(yǔ)音、音樂(lè),所以可以用大模型生成各種各樣模態(tài)的東西。上圖是我們學(xué)生做的,關(guān)于如何用擴(kuò)散模型。用圖形時(shí)一般要加上擴(kuò)散模型,這樣圖形的結(jié)果質(zhì)量會(huì)更高,這個(gè)擴(kuò)散+轉(zhuǎn)換器的模型是我們提出來(lái)的。
這個(gè)是生數(shù)科技做的文本生成圖像,也就是說(shuō),你隨便寫一個(gè)文本,它就根據(jù)這個(gè)文本生成出來(lái)圖。我們看中間這張圖,中秋節(jié)的月兔和月餅,它畫出來(lái)兔子和月餅。大家看一下兔子,它的胡須、細(xì)節(jié)非常之好。當(dāng)然我們也可以讓它按照某一個(gè)畫家的風(fēng)格畫出來(lái)圖,左邊的圖是按照某一個(gè)畫家的風(fēng)格畫出來(lái)的桌上的向日葵,它也畫得很好,質(zhì)量非常高,可以說(shuō)達(dá)到人類的水平甚至畫家的水平。
這一張圖是美國(guó)Midjourney的文生圖,它是說(shuō)畫一張“穿著夾克衫和牛仔褲的情侶坐在屋頂上,背景是90年代的北京”的圖。請(qǐng)大家看這個(gè)圖,它畫出來(lái)人的神態(tài)、衣著和背景完全是北京90年代的感覺(jué)。它居然完全理解了,北京90年代的人就是這個(gè)樣子。這一方面反映了它繪畫的水平,另一方面給造假形成了極大的空間。大家想一想,如果它將來(lái)畫出來(lái)的畫說(shuō)這是你在這兒干壞事當(dāng)場(chǎng)被我拍下來(lái)的,你到什么地方去說(shuō)理?說(shuō)我沒(méi)有干壞事,這是計(jì)算機(jī)生成的。所以我們現(xiàn)在專門開(kāi)了一個(gè)公司去鑒別文本究竟是機(jī)器生成的還是人寫出來(lái)的、圖像究竟是機(jī)器畫的還是人畫的、視頻究竟是人做的還是機(jī)器做的。我可以告訴大家,非常困難。隨著技術(shù)的進(jìn)步,會(huì)越來(lái)越困難,給造假提供了非常好的機(jī)會(huì),這個(gè)造假專門有個(gè)名字叫做“深度造假”。用深度學(xué)習(xí)的辦法來(lái)造假,而不是說(shuō)造的很深的意思。大家想一想,如果以后網(wǎng)絡(luò)上的文本95%都是機(jī)器寫出來(lái)的,我們還能從網(wǎng)絡(luò)上看到真相嗎?一個(gè)事情出來(lái)以后,網(wǎng)絡(luò)上一片反對(duì)聲音,究竟是多數(shù)人在反對(duì)還是少數(shù)人操縱機(jī)器寫出來(lái)的?將來(lái)很容易用這個(gè)去制造輿論、混淆視聽(tīng),所以這個(gè)問(wèn)題是非常嚴(yán)重的。
這個(gè)是我們做的3D圖像,完全由計(jì)算機(jī)生成。視頻是多生成幾張圖像,但是時(shí)間上要有關(guān)聯(lián)性。
我們現(xiàn)在實(shí)現(xiàn)了三項(xiàng)突破,這個(gè)突破是在開(kāi)領(lǐng)域里生成語(yǔ)意上連貫的類似人類的文本。語(yǔ)意上連貫是最重要的突破,有了這個(gè)突破以后就有了圖像的突破,因?yàn)閳D像只要求在空間上連貫即可。視頻是什么?時(shí)空上連貫即可,所以大家要看到這三個(gè)是不同層次的問(wèn)題。最重要的是,我們?cè)谡Z(yǔ)言上突破,緊跟著肯定會(huì)有圖像的突破,有了圖像突破后,肯定會(huì)有視頻的突破。它中間計(jì)算的資源要求越來(lái)越多,計(jì)算的硬件也多。
這里有個(gè)現(xiàn)象,我們把這個(gè)現(xiàn)象叫做涌現(xiàn),當(dāng)系統(tǒng)規(guī)模沒(méi)有達(dá)到一定程度時(shí),不會(huì)出現(xiàn)這個(gè)現(xiàn)象。也就是說(shuō),規(guī)模沒(méi)有達(dá)到一定程度時(shí),畫出來(lái)的圖畫很糟糕,馬也沒(méi)有馬頭,畫得很不像,突然間,規(guī)模達(dá)到一定程度,畫出來(lái)的畫大多數(shù)都很好,這就叫做涌現(xiàn),即從量變到質(zhì)變。這個(gè)現(xiàn)象到現(xiàn)在為止,全世界還沒(méi)有完全搞清楚,這是大家產(chǎn)生恐慌的重要原因。許多人嚇唬大家,規(guī)模越來(lái)越大后,將來(lái)計(jì)算機(jī)會(huì)不會(huì)有意識(shí)?會(huì)不會(huì)主動(dòng)攻擊人類?會(huì)不會(huì)出來(lái)統(tǒng)治人類?都是因?yàn)橛楷F(xiàn)難以解釋,所以大家就覺(jué)得非??只?。但是大家不要恐慌,我們看到它還有弱點(diǎn)。
第三步:AI智能體。必須跟數(shù)字世界連起來(lái),大語(yǔ)言模型再好,只能說(shuō)不會(huì)干,很多事情要干了才行。首先,先在數(shù)字世界里具體干活,干完活以后就可以解決這樣的問(wèn)題,它就知道自己這個(gè)東西做得怎么樣。因?yàn)樗鼡?jù)有反饋,這個(gè)工作對(duì)促進(jìn)它的性能有很大的好處。原來(lái)說(shuō)了以后不知道說(shuō)得對(duì)不對(duì),現(xiàn)在照著你說(shuō)的來(lái)干,一干就知道對(duì)不對(duì),所以有了反饋以后可以推動(dòng)大模型往前發(fā)展。
第四步:具身智能。接下來(lái)就跟客觀世界連在一起,你必須得有手,光動(dòng)口不動(dòng)手怎么能干活,跟物理世界連接需要機(jī)器人,這就是“具身智能”,即具有身體的智能。智能光有腦袋還不夠,還必須具有身體,這樣你才能動(dòng)口又動(dòng)手,所以第四步就要和客觀世界連在一起。
人工智能的產(chǎn)業(yè)發(fā)展
信息產(chǎn)業(yè)的發(fā)展非常迅猛,原因在于它建立了理論。有了這個(gè)理論后,在理論指導(dǎo)下做的硬件和軟件全是通用的。通用是什么意思?市場(chǎng)非常之大,因此英特爾、IBM、微軟等大企業(yè)出現(xiàn),然后再把這些技術(shù)進(jìn)行應(yīng)用推廣,實(shí)現(xiàn)信息化,這整個(gè)鏈條發(fā)展非常迅速。人工智能沒(méi)那么幸運(yùn),它沒(méi)有理論,只有算法和模型。根據(jù)這個(gè)算法和模型建立的硬件和軟件全是專用的?!皩S谩笔鞘裁匆馑??市場(chǎng)很小,所以到現(xiàn)在為止,還沒(méi)有產(chǎn)生人工智能的IBM、英特爾、微軟。所以人工智能產(chǎn)業(yè)的發(fā)展必須跟垂直領(lǐng)域深度結(jié)合才有可能發(fā)展。但是現(xiàn)在這個(gè)情況發(fā)生變化,具有一定的通用性的基礎(chǔ)模型出現(xiàn),它肯定會(huì)影響我們產(chǎn)業(yè)的發(fā)展。下面我們探討一下這個(gè)有什么樣的影響。
我們先看一下現(xiàn)在人工智能產(chǎn)業(yè)的發(fā)展。2020年,10億美金以上的全世界獨(dú)角獸企業(yè)一共有40家,2022年變成117家,2024年初時(shí)到126家,從這個(gè)情況來(lái)看,它是逐步增長(zhǎng)的。
大模型今后怎么發(fā)展?到現(xiàn)在為止,中國(guó)的大模型是“百模大戰(zhàn)”,有100甚至200家,而美國(guó)基本上是幾家(如Meta、谷歌和OpenAI)。我們有這么多人做基礎(chǔ)研究,現(xiàn)在大部分狀況不佳,他們的出路在哪兒呢?我這里畫了三個(gè)出路。第一個(gè)出路是向各行各業(yè)轉(zhuǎn)移,做各個(gè)垂直領(lǐng)域的大模型。現(xiàn)在有很多行業(yè)在考慮這個(gè)問(wèn)題,石油行業(yè)肯定要考慮石油行業(yè)里的大模型,金融肯定要考慮金融行業(yè)的大模型,所以將來(lái)做通用大模型的數(shù)量越來(lái)越少,最后大多數(shù)做大模型的就轉(zhuǎn)向各個(gè)垂直領(lǐng)域。第二個(gè)也是最重要的,經(jīng)過(guò)微調(diào),到產(chǎn)業(yè)里應(yīng)用。它提供了公開(kāi)的大模型軟件,讓大家開(kāi)發(fā)應(yīng)用。第三個(gè)是跟其他的技術(shù)結(jié)合,發(fā)展新的產(chǎn)業(yè)。比如原來(lái)用軟件做文字編輯,現(xiàn)在加上大模型后,它可以幫你寫稿。所以很多記者都利用這個(gè)工具,先幫忙寫一個(gè)稿,然后我們?cè)倬庉嫞@樣方便得多,把其它技術(shù)結(jié)合起來(lái)發(fā)展成新的產(chǎn)業(yè)。很多獨(dú)角獸企業(yè)都這么去做,有的向各個(gè)行業(yè)轉(zhuǎn)移,有的專門做圖像,有的專門做視頻,有的專門做語(yǔ)音,這是國(guó)外的情況。我們也可以看到國(guó)內(nèi)的情況,例如清華大學(xué)智譜AI做的大模型,國(guó)內(nèi)也有一些大模型現(xiàn)在已經(jīng)發(fā)展得比較好。
那么這個(gè)肯定要推動(dòng)產(chǎn)業(yè)的變革,今后無(wú)論做硬件還是軟件,一定要放到這個(gè)平臺(tái)上。過(guò)去在什么基礎(chǔ)上做軟件呢?比如,在毫無(wú)基礎(chǔ)的計(jì)算機(jī)里做一個(gè)服務(wù)軟件,我們?cè)撛趺唇逃?jì)算機(jī)做呢?計(jì)算機(jī)里什么都沒(méi)有,所以相當(dāng)于教白癡做這個(gè)事,效率肯定很低?,F(xiàn)在如果把這個(gè)工作放到基礎(chǔ)模型的平臺(tái)上,這個(gè)平臺(tái)已經(jīng)學(xué)過(guò)1351萬(wàn)本牛津辭典,至少相當(dāng)于一個(gè)高中生,所以采用它是不可阻擋的趨勢(shì)。這些“高中生”誰(shuí)提供呢?大模型企業(yè)提供公開(kāi)的平臺(tái)給大家用。
大模型的局限性
大模型是不是什么東西都會(huì)干?大模型的局限性、最大的問(wèn)題是什么?大模型的所有工作都是外部驅(qū)動(dòng)的,即在外部提示下做的。它不會(huì)主動(dòng)干事,那么在外部提示下面來(lái)做時(shí),它是用概率預(yù)測(cè)的方法來(lái)做,所以就會(huì)出現(xiàn)一些人類沒(méi)有的缺點(diǎn),即輸出的質(zhì)量不可控,而且它不知道自己是對(duì)或錯(cuò),所以它的輸出不可信。第三,它受外部影響太大,我們要它怎么干它就怎么干。人類完全不一樣,即使這件事是別人交給他的,人類也是在自己的意識(shí)控制下完成,所以整個(gè)是可控、可信的。機(jī)器根本不知道自己在做什么,我們舉兩個(gè)例子。
案例一:我問(wèn)ChatGPT,清華大學(xué)校歌的歌詞是什么?它不知道,胡編了一套,無(wú)中生有。我告訴它:“清華大學(xué)校歌不是這個(gè),是'西山蒼蒼,東海茫茫......’”。我把這兩句抄給它,后面寫省略號(hào),讓它去做。它說(shuō):“對(duì)不起,我剛才錯(cuò)了,清華大學(xué)校歌是'西山蒼蒼,東海茫?!!苯Y(jié)果下面又胡編下去。后來(lái)我告訴它:“你錯(cuò)了,清華大學(xué)校歌不是這個(gè)?!蔽野颜麄€(gè)原文抄給它,它馬上說(shuō):“對(duì)不起,上面全說(shuō)錯(cuò)了,應(yīng)該是這個(gè)。”但是你退出后再進(jìn)去、再問(wèn)它,它又胡編。我就問(wèn)大家,為什么不能讓它改?為什么它不能自己改?它自己不能判斷對(duì)錯(cuò),只能人類在后臺(tái)去幫它改。這就排除了一個(gè)問(wèn)題,大家說(shuō)它逐步迭代,迭代后會(huì)不會(huì)越來(lái)越好?它不可能迭代,因?yàn)樗约翰荒芨淖约海才袆e不了正確和錯(cuò)誤。所以這一點(diǎn)大家放心,現(xiàn)在為止,它基本上在人類操縱下做事。有朝一日它會(huì)不會(huì)主動(dòng)去干?這個(gè)問(wèn)題也在研究,我可以告訴大家,現(xiàn)在還不行。它有沒(méi)有自我激勵(lì)去干這個(gè)事情?它會(huì)不會(huì)產(chǎn)生這種動(dòng)力?現(xiàn)在仍在研究過(guò)程中,一時(shí)半會(huì)兒不會(huì)有。所以請(qǐng)大家放心,迭代是人幫助它迭代,目前它還不可能自我迭代。
案例二:它的輸出不一定都是好的。大家看到的Sora等,都是拿好的給大家看。上圖是美國(guó)非常好的一個(gè)圖形生成器DALLE.2生成的6張圖。我輸入“他憤怒地踢開(kāi)門,揚(yáng)長(zhǎng)地走出”,生成的前面三張不錯(cuò),但后面的不僅是主題不對(duì),畫的畫也很糟糕,所以它也會(huì)輸出質(zhì)量不好的,這就是造成不可信的重要原因。所以未來(lái)它最多像中間這個(gè)情況一樣,做我們的助手幫助我們。我們監(jiān)控它干,最終采取什么樣的設(shè)計(jì)我們來(lái)決定,未來(lái)只有少數(shù)工作可以完全交給機(jī)器干,獨(dú)立完成。
高通全球投資研究做了一個(gè)統(tǒng)計(jì)圖,統(tǒng)計(jì)人工智能對(duì)各行各業(yè)的影響如何。這個(gè)圖里面列出來(lái)大量行業(yè),左邊深度比較深的表明影響小,比較淺的藍(lán)色表明影響大。灰色部分表明會(huì)被代替,我們這里看到被代替的是屬于少數(shù),即灰色的部分較少。將來(lái)會(huì)被代替的是行政工作、秘書工作及法律工作,因?yàn)榉捎写罅课臋n的整理工作。所以大家放心,人工智能對(duì)各行各業(yè)都有重大的影響,但是大多數(shù)是幫助大家提高工作質(zhì)量,被取代的是少數(shù)。
第三代人工智能的三空間模型
我們?nèi)绾稳グl(fā)展這個(gè)理論呢?這是我們提出的一個(gè)想法,過(guò)去文本在一個(gè)空間里處理,圖像語(yǔ)音又在另一個(gè)空間里處理,這兩個(gè)空間不聯(lián)系?,F(xiàn)在我們有了大模型,組成了中間的空間,把整個(gè)感知、認(rèn)知這一套連起來(lái),為發(fā)展人工智能的理論提供了非常好的條件。
人工智能是探索“無(wú)人區(qū)”,我常常說(shuō)人工智能的魅力就在于它永遠(yuǎn)在路上。我們不能因?yàn)樗倪M(jìn)展而過(guò)于樂(lè)觀,也不能因?yàn)樗拇煺鄱趩?,而是需要?jiān)持不懈地努力。我就說(shuō)這些,謝謝大家。
本次講壇通過(guò)人民日?qǐng)?bào)客戶端、新華網(wǎng)、央視頻、中新網(wǎng)、中國(guó)教育新聞網(wǎng)、澎湃新聞、騰訊新聞、搜狐教育、鳳凰網(wǎng)、百度新聞、知乎知學(xué)堂、清華大學(xué)出版社、虎嗅、長(zhǎng)安街讀書會(huì)、中國(guó)出版?zhèn)髅缴虉?bào)、抖音、B站、今日頭條、西瓜視頻、微博、快手、小紅書、視頻號(hào)等媒體和平臺(tái)在線同步直播。
“人文清華”講壇是清華大學(xué)發(fā)起的大型思想傳播活動(dòng),推動(dòng)建設(shè)更創(chuàng)新、更國(guó)際、更人文的清華新百年。講壇定期邀請(qǐng)優(yōu)秀人文學(xué)者,在標(biāo)志性建筑新清華學(xué)堂發(fā)表公眾演講,闡述其經(jīng)典學(xué)說(shuō)、獨(dú)特思考和重大發(fā)現(xiàn)。
聯(lián)系客服