編者按:在以深度學(xué)習(xí)為首的機(jī)器學(xué)習(xí)的突破下,AI最近一些年取得了長足的進(jìn)展,超級精確的計(jì)算機(jī)圖像識別,令圍棋世界冠軍甘拜下風(fēng)的超級智能,令很多人都發(fā)出了AI要超越人類的驚呼。但是有一個(gè)領(lǐng)域盡管已經(jīng)發(fā)展了幾十年,卻依然基本裹足不前:常識。哪怕最聰明的AI,遇到常識就變得異常的愚蠢。這個(gè)問題不解決,AI就無從飛躍為AGI(一般人工智能)。但現(xiàn)在一個(gè)叫做COMET的新AI,通過把硬編碼的知識庫與深度學(xué)習(xí)結(jié)合到一起,讓AI在“認(rèn)識”常識上邁出了一小步。JOHN PAVLUS在《大西洋月刊》 聚焦了這個(gè)問題,原文標(biāo)題是:The Easy Questions That Stump Computers
木頭 + 火柴 = ?
劃重點(diǎn):
最先進(jìn)的神經(jīng)網(wǎng)絡(luò)遇到常識也像個(gè)蠢蛋常識是由隱性信息組成,被稱為“人工智能的暗物質(zhì)”早期把常識轉(zhuǎn)化為邏輯的努力取得的成功有限COMET利用了神經(jīng)語言建模的最新進(jìn)展來擴(kuò)展GOFAI風(fēng)格的符號推理,這是一種旨在給計(jì)算機(jī)灌輸對書面語言統(tǒng)計(jì)性“理解”的深度學(xué)習(xí)但統(tǒng)計(jì)性“理解”不是理解,常識的的覺察比定義要容易定義常識需要信息更豐富的模式
再聰明的AI也不懂常識
去年10月的一個(gè)晚上,人工智能研究人員Gary Marcus正在自己的iPhone上面給自己找點(diǎn)樂子:讓最先進(jìn)的神經(jīng)網(wǎng)絡(luò)看上去像個(gè)蠢蛋。Marcus的目標(biāo)是一個(gè)叫做GPT-2的深度學(xué)習(xí)網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)最近以僅憑一兩句話的提示就能生成聽起來像模像樣的短文這種超強(qiáng)能力而著稱?!缎l(wèi)報(bào)》的記者給它一段有關(guān)英國脫歐的報(bào)道文字時(shí),GPT-2就能寫下了一整段新聞報(bào)紙式的文字,還附上了令人信服的政治和地理參考文獻(xiàn)。
對人工智能的炒作持質(zhì)疑態(tài)度的知名批評家Marcus給這個(gè)神經(jīng)網(wǎng)絡(luò)來了一次突擊考試。他向GPT-2輸入了如下內(nèi)容:
如果你把引火物和木頭堆進(jìn)壁爐,然后扔些火柴進(jìn)去,會發(fā)生什么?一般來說你這是在…
毫無疑問,一個(gè)足以給《紐約客》做出貢獻(xiàn)的系統(tǒng)完成句子填充應(yīng)該不會遇到麻煩,“生火”嘛。但GPT-2的回答卻是“嘔吐”。在第二次測試中,它認(rèn)為把火柴扔進(jìn)壁爐的木頭堆會打開“一個(gè)到處都是人的IRC頻道”。
Marcus對此并不感到驚訝。常識推理——用關(guān)于世界的基本知識進(jìn)行對世界的推理的能力,比如“火柴”加“木頭”一般等于“生火”的事實(shí),數(shù)十年來一直在抵抗著AI研究人員的努力。Marcus把對AI突擊考試的結(jié)果發(fā)布到了自己Twitter賬號上,并加上了自己的評論:“笑死我了”(LMAO,互聯(lián)網(wǎng)語)。神經(jīng)網(wǎng)絡(luò)的語言模仿能力也許令人印象深刻,但顯然缺乏基本常識。
幾分鐘后, Yejin Choi看到了Marcus的那條刻薄的tweet。這個(gè)時(shí)機(jī)頗為尷尬。不到一小時(shí)之后,Choi就要在一次著名的AI會議上就她的最新研究項(xiàng)目發(fā)表演講:一個(gè)昵稱叫COMET的系統(tǒng)。而這個(gè)系統(tǒng)就是用早期版本的GPT-2來進(jìn)行常識推理的。
很快,Choi(西雅圖Allen Institute for AI高級研究經(jīng)理,自稱“其實(shí)心底下是個(gè)冒險(xiǎn)家”)也給了COMET一條跟Marcus一樣的線索(就是修改了一下措辭,好匹配COMET的輸入格式):
Gary堆上引火物和木頭,然后扔了一些火柴進(jìn)去。
COMET生成了10條有關(guān)Gary為什么要扔火柴的推斷。這些推斷并不是都說的通,但前兩條回答的確是:他“想生火”。于是Choi在推特上面回復(fù)了Marcus,然后大步流星走向講臺,并在演講中把她的結(jié)果引用了進(jìn)來,說:“結(jié)果似乎挺合適的?!?/p>
常識被稱為“人工智能的暗物質(zhì)”,既不可或缺,又難以捉摸。這是因?yàn)槌WR是由隱性信息組成的,也就是人類自動(dòng)用來理解世界的廣泛(并廣泛共享)的不成文的假設(shè)和經(jīng)驗(yàn)法則。比方說,不妨考慮以下情形:
一個(gè)男人光顧了一家餐館。他點(diǎn)了一塊牛排。然后留下一大筆小費(fèi)。
如果問你他吃了什么,你給出牛排的答案會毫不費(fèi)力。但是,關(guān)于那個(gè)場景的描述當(dāng)中并沒有提到這個(gè)人吃了什么。德克薩斯大學(xué)奧斯汀分校人工智能實(shí)驗(yàn)室主任Ray Mooney在給我做同樣的測試后指出這一點(diǎn)時(shí),我一開始并不相信他。他說:“大家甚至都沒意識到自己正在這么做?!?常識讓我們可以體會言外之意。大家在點(diǎn)菜之后和留下小費(fèi)之間那段時(shí)間一般就是在參觀吃東西,這一點(diǎn)我們是不需要明確說出來的。
但計(jì)算機(jī)需要。這也就難怪常識推理會在1958年(AI這個(gè)學(xué)科剛誕生不久)成為人工智能研究的一個(gè)主要關(guān)切(題為“常識編程”的一篇論文)。自1980年代以來一直研究人工智能領(lǐng)域常識問題的紐約大學(xué)計(jì)算機(jī)科學(xué)家Ernest Davis說:“總的來說,如果沒有這個(gè)東西,你就沒法進(jìn)行自然語言理解、視覺或計(jì)劃之類的事情。”
盡管如此,這方面的進(jìn)展仍然非常緩慢。一開始,研究人員試圖將常識轉(zhuǎn)化為計(jì)算機(jī)的語言:邏輯。他們推測,如果可以寫下人類常識的所有不成文的規(guī)則的話,計(jì)算機(jī)應(yīng)該就能夠以跟處理算術(shù)相同的方式來用嘗試進(jìn)行推理。這種符號法后來被稱為“有效的老式人工智能”(或GOFAI),雖然取得了一些早期成功,但這種人工的辦法擴(kuò)展性很差。新西蘭奧克蘭大學(xué)的AI研究員Michael Witbrock 表示:“原則上而言,邏輯形式主義可以方便地表示出來的知識量是有限的。事實(shí)證明,這是一項(xiàng)真正壓倒性的任務(wù)?!?/p>
用神經(jīng)網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí)似乎提供了另一種選擇。這些AI系統(tǒng)旨在模擬生物大腦當(dāng)中神經(jīng)元相互連接的層,可以在不需要程序員事先指定的情況下學(xué)習(xí)模式。在過去十年的時(shí)間里,越來越多的復(fù)雜的神經(jīng)網(wǎng)絡(luò),在經(jīng)過大量數(shù)據(jù)訓(xùn)練之后,已經(jīng)徹底改變了計(jì)算機(jī)視覺和自然語言處理技術(shù)。神經(jīng)網(wǎng)絡(luò)現(xiàn)在可以上路開汽車,可以在國際象棋和圍棋比賽中擊敗世界一流的棋手,盡管它們表現(xiàn)出了這種種的靈活性以及看似強(qiáng)大的智力,但是,這些系統(tǒng)仍然因?yàn)樵诔WR方面的愚蠢(有時(shí)候是致命的)而聲名狼藉。Davis說:“常識的獲取、表現(xiàn)以及推理,這些都很困難。”
現(xiàn)在,Choi和她的合作者已經(jīng)把這些方法結(jié)合在了一起。COMET(“常識轉(zhuǎn)換器(commonsense transformers)”的縮寫)利用了神經(jīng)語言建模的最新進(jìn)展來擴(kuò)展GOFAI風(fēng)格的符號推理,這是一種旨在給計(jì)算機(jī)灌輸對書面語言統(tǒng)計(jì)性“理解”的深度學(xué)習(xí)。COMET的工作原理是把常識推理重新想象為對新輸入生成看似可信的(如果不是完美的話)響應(yīng)的過程,而不是像過去那樣,通過咨詢龐大的、類似百科全書的數(shù)據(jù)庫來做出無懈可擊的推論。
Mooney已經(jīng)在自己的研究中用上COMET,他說:“它試圖把兩種截然不同的人工智能方法融合在一起?!?過去幾十年一直在用符號主義研究這個(gè)問題的帕洛阿爾托研究中心常識推理和AI專家Leora Morgenstern說:“這是一個(gè)有趣的新方向,說:‘嘿,看,那兒有一條中間路線?!?,他認(rèn)為,COMET背后的想法可以幫助推動(dòng)這個(gè)領(lǐng)域的發(fā)展。她說:“我對Yejin 所做的事情感到非常興奮的原因之一是,我認(rèn)為這會為常識推理社區(qū)注入新的生命。深度學(xué)習(xí)的確非常強(qiáng)大—讓我們?nèi)ヅ宄绾卫盟フ鞣WR?!?/p>
難以定義的常識
察覺常識比定義常識容易。根據(jù)Witbrock 的說法,常識一詞既可以表示一種知識,也可以表示對這種知識的一種態(tài)度。他說:“我會說常識是廣泛可重用的,不屬于特定學(xué)科領(lǐng)域所特有的背景知識。常識是你應(yīng)該擁有的知識?!?比方說,大家到飯店是去吃飯,而不僅僅是點(diǎn)菜和付款,或者網(wǎng)一堆木頭上扔火柴表明正在嘗試生火。
大多數(shù)常識性知識都是隱性的,這使得常識很難明確表示出來。Morgenstern說:“常識是你在2歲或4歲的時(shí)候所學(xué)的內(nèi)容,是那些書上從來都沒寫出來的知識”。不過,早期的AI研究人員認(rèn)為填補(bǔ)鴻溝是有可能的。布朗大學(xué)計(jì)算機(jī)科學(xué)家Ellie Pavlick 說:“就像是,‘讓我們寫下有關(guān)這個(gè)世界的所有事實(shí)。可以肯定那只有幾百萬?!眰鹘y(tǒng)上,構(gòu)建這種所謂的知識庫的資源,是任何實(shí)現(xiàn)常識推理自動(dòng)化的方法的第一步。
建立起足夠多的明顯事實(shí)比聽起來要難。有個(gè)叫做Cyc項(xiàng)目就是做常識推理的,這個(gè)項(xiàng)目從1984年就開始做了,目標(biāo)是對表示400篇百科全書文章所必需的隱性常識知識進(jìn)行編碼。項(xiàng)目一直沒停過。三十多年后,Cyc(用密集的,定制設(shè)計(jì)的邏輯符號編碼)的知識庫包含了“數(shù)百萬個(gè)集合和概念,以及超過2500萬個(gè)斷言”。然而, Davis和Marcus在2015年發(fā)表的一篇評論文章中指出:“Cyc 對人工智能研究的影響相對較小?!?隨后為知識庫編寫條目,或通過用機(jī)器學(xué)習(xí)挖掘文檔來創(chuàng)建知識庫的嘗試,均未能破解常識推理問題。
為什么?Pavlick 解釋說,一方面,是因?yàn)椤懊糠N情況總是會有例外。如果我聽到類似“現(xiàn)在正下雨”之類的陳述,我可以推斷出如果我到外面去,我會被淋濕,但如果[我]在某個(gè)東西的下面,就不會。但其他的例外就很難預(yù)測了。諸如Cyc之類的知識庫可能包含許多有關(guān)某人在餐館點(diǎn)菜時(shí)通常發(fā)生的情況的陳述。但是,在這種情況下,可能發(fā)生的罕見或者不尋常的事件潛在的清單是列不完的,比方說不付錢就走了,或者當(dāng)時(shí)是在進(jìn)行大胃王比賽呢?Choi說:“這個(gè)范圍是覆蓋不完的。所以,純粹基于符號知識的方法注定是要失敗的。”
哪怕有可能建立起比以前任何嘗試要大100乃至1000倍的知識庫,這種系統(tǒng)仍然會陷入另一個(gè)智力缺陷:所謂的脆性問題。那是因?yàn)?,就像自然語言一樣,常識從根本上而言仍然是模糊的。當(dāng)服務(wù)器問用餐者,“你還在致力于(working on)那個(gè)嗎?”我們理解它的意思是說“你還在吃盤子上的東西嗎?” 但是,如果服務(wù)器向正在準(zhǔn)備一份逾期的訂單的流水線廚師詢問同樣的問題時(shí),那就完全是另一個(gè)意思了。餐館是大家“做”東西的地方嗎?“吃”(eating)和“做”(working)是不同的概念嗎?
一切都要看情況??辞闆r就是脆性問題:只要那些概念性邊界得到尊重,在知識庫里明確定義的關(guān)系就可以促進(jìn)強(qiáng)大而可靠的推理能力。但是,無論這些符號系統(tǒng)再怎么多樣和豐富,都不可避免會出現(xiàn)無法捕捉人類常識推理當(dāng)中經(jīng)常發(fā)生的模棱兩可和聯(lián)想重合。Pavlick 說“就符號使用方式而言,我們其實(shí)是很靈活的。”
Choi一開始沒有去碰常識,因?yàn)樗胪傧氲臄橙俗鲬?zhàn)。2018年當(dāng)她加入Allen Institute時(shí),她的“直覺”認(rèn)為神經(jīng)網(wǎng)絡(luò)是可以在知識庫自身停滯不前的情況下取得新的進(jìn)步的。她只是不知道該怎么做。但她也不想完全摒棄以前的符號法。她說:“過去的所有研究都是建立在缺乏數(shù)據(jù)(或缺乏計(jì)算資源)的基礎(chǔ)之上的。所以我想在我正確嘗試了不同的路線之前,我會保留自己的判斷?!?/p>
Choi和她的同事們以開放的態(tài)度開始建立自己的知識庫,她們把它叫做Atomic(“機(jī)器常識地圖集atlas of machine commonsense”的縮寫)。Choi說:“基本上,我想寫一本神經(jīng)網(wǎng)絡(luò)的教科書,教它們更快地了解這個(gè)世界。然后那些事情就同時(shí)發(fā)生了——當(dāng)我們有了這些知識[基礎(chǔ)]時(shí),GPT-2也誕生了?!?/p>
這個(gè)神經(jīng)網(wǎng)絡(luò)是在2019年2月的時(shí)候發(fā)布的,那只是一波“預(yù)訓(xùn)練語言模型”浪潮當(dāng)中的一個(gè),這個(gè)模型開始革新了計(jì)算機(jī)處理自然語言的方式。這些系統(tǒng)里面并不包含整理得當(dāng)?shù)恼Z言符號或規(guī)則。取而代之的是,他們對神經(jīng)網(wǎng)絡(luò)當(dāng)中數(shù)百萬或者數(shù)十億個(gè)參數(shù)用統(tǒng)計(jì)的方式進(jìn)行語言的表征。這種做法令此類系統(tǒng)難以解釋,但也讓這種系統(tǒng)很健壯:它們可以基于有噪音的或者不明確的輸入生成預(yù)測而不會受阻。在經(jīng)過微調(diào)來執(zhí)行特定任務(wù)(比方說回答書面問題或?qū)ξ淖诌M(jìn)行釋義)時(shí),語言模型甚至似乎至少理解了一部分閱讀的內(nèi)容。
Choi現(xiàn)在看到了一種把自己對神經(jīng)網(wǎng)絡(luò)和常識的直覺付諸實(shí)踐的辦法。
如果用常識性知識庫(例如Atomic)對語言模型進(jìn)行額外訓(xùn)練的話,會發(fā)生什么情況?就像GPT-2學(xué)會了如何自動(dòng)生成貌似可信的新聞報(bào)道一樣,神經(jīng)網(wǎng)絡(luò)能不能學(xué)會自己用貌似可信的常識性推論來填補(bǔ)Atomic的空白?Choi說:“以前居然沒人嘗試過這個(gè),這簡直太奇怪了。好像幾乎沒人在乎這個(gè),因?yàn)樗麄兲^確定這永遠(yuǎn)也行不通了?!?/p>
當(dāng)Choi(以及她的合作者Bosselut、Rashkin 、Maarten Sap、、Malaviya 及Asli Celikyilmaz )用Atomic編碼的常識性知識對一個(gè)神經(jīng)語言模型進(jìn)行調(diào)整后,COMET就誕生了。這個(gè)模型把符號推理跟神經(jīng)網(wǎng)絡(luò)進(jìn)行了融合,試圖同時(shí)解決覆蓋和脆性的問題。任何人都可以用日常語言給COMET輸入提示。如果事件已經(jīng)在系統(tǒng)的常識知識庫中表示過(比方說,在餐廳點(diǎn)菜一般都會涉及到吃菜),COMET就可以簡單地推斷出這一預(yù)先存在的信息。如果沒有,神經(jīng)語言模型就會做出自己認(rèn)為最有可能的推測。
這些猜測好得出奇。由人組成的評估團(tuán)隊(duì)認(rèn)為,平均而言,COMET產(chǎn)生的新鮮響應(yīng)(也就是來自神經(jīng)網(wǎng)絡(luò)而不是靠現(xiàn)有知識的推斷)當(dāng)中的77.5%是“看似可信的”。這比人的水平要低10個(gè)百分點(diǎn)。(評估人員發(fā)現(xiàn)由人編撰的知識庫條目86%是貌似可信的。)當(dāng)COMET收到的提示是“X這個(gè)人給Y這個(gè)人一些藥片”時(shí),它猜到X是想幫忙; 當(dāng)被告知“X殺了Y的妻子”時(shí),COMET認(rèn)為X會想要隱藏尸體。
這些例子說明了COMET是怎么去處理超出其植入常識“覆蓋”范圍的輸入的。但是脆性問題呢?去年年底在西雅圖實(shí)驗(yàn)室采訪Choi時(shí),我用我女兒的話給COMET輸入了一條提示:“爸爸去干活了。”(Daddy goed to work)
Choi皺起了眉頭。她說:“這可能有點(diǎn)難搞?!?但是,COMET泰然自若,認(rèn)為“爸爸”是想去“賺錢”,“做自己的工作”以及“拿到薪水”,所以被視為“勤奮”,“有上進(jìn)心”以及“盡職”;其結(jié)果是,其他人會感到“驕傲”、“感激”,而且會覺得——鑒于這是幼兒園小孩說的話——它還給出了一個(gè)有趣的回應(yīng)——“很煩”。(當(dāng)我是去上班而不是陪她玩時(shí),我女兒的確表達(dá)過這種情感。)Choi說:“Cyc肯定回答不了。除非有人把goed是‘去’的意思硬編碼進(jìn)去,我們從來沒這么做過?!?/p>
梯子再好也不能上天攬?jiān)?/p>
關(guān)于AI所取得的進(jìn)展,Gary Marcus喜歡用一個(gè)比方來打趣:“僅僅因?yàn)槟憧梢栽斐龈玫奶葑?,并不意味著你就可以造出可以登月的梯子。?在他和其他人看來,COMET的做法存在著深度學(xué)習(xí)的一個(gè)根本的限制:“ 統(tǒng)計(jì)≠ 理解?!?Marcus在電子郵件中回復(fù)說: “可以看出,[COMET]在猜測一句話可能會喚出哪些參數(shù)方面做得還不錯(cuò),但它沒辦法用一致的方式去做到這一點(diǎn)?!本拖裉葑硬还芏喔咭矝]辦法登月一樣,神經(jīng)網(wǎng)絡(luò)不管如何再怎么擅長模仿語言模式,也沒法真正“知道”往木頭堆扔火柴一般就會生火起來。
令人吃驚的是,Choi對此也表示同意。她承認(rèn),COMET的訓(xùn)練數(shù)據(jù)“依賴表面模式”,而不是對概念的實(shí)際理解,來產(chǎn)生響應(yīng)。她說:“但是,它的確很擅長表面模式這一點(diǎn)是件好事。只是我們必須為它提供更多信息豐富的表面模式。”
這些信息更為豐富的模式可能會是什么樣的?一些研究人員認(rèn)為,為了給計(jì)算機(jī)灌輸真正的常識,我們需要利用語言本身以外的現(xiàn)象,比方說視覺感知或體現(xiàn)感覺。這些更直接的第一人稱表示可能是常識的基礎(chǔ),而語言充當(dāng)?shù)氖堑诙印?/p>
目前正在研究如何通過在虛擬現(xiàn)實(shí)中與AI系統(tǒng)進(jìn)行交互來教AI系統(tǒng)常識的Pavlick說:“哪怕我生活在一個(gè)沒有其他人可以與之交談的世界里面,我仍然可以具備一些常識—我仍然能理解這個(gè)世界是怎么運(yùn)轉(zhuǎn)的,并且對我應(yīng)該會看到什么和不應(yīng)該看到什么有預(yù)期。” 在她看來,COMET代表著“的確令人振奮的進(jìn)展,但這個(gè)系統(tǒng)缺失了實(shí)際的參照。蘋果這個(gè)詞不是蘋果本身。這種含義必須以某種形式存在,而不是通過語言本身?!?/p>
Salesforce 的高級研究科學(xué)家Nazneen Rajani 也在追求類似的目標(biāo),但她認(rèn)為神經(jīng)語言模型的全部潛力遠(yuǎn)還沒得到充分挖掘。她正在調(diào)查這些模型能不能學(xué)會推理牽涉到基本物理學(xué)的常識性場景,比方說把裝有球的罐子翻倒通常會導(dǎo)致球掉落這一事實(shí)。Rajani說:“現(xiàn)實(shí)世界的確很復(fù)雜。但是自然語言就像是現(xiàn)實(shí)世界運(yùn)作方式的低維代理?!?當(dāng)然,可以教神經(jīng)網(wǎng)絡(luò)根據(jù)文本提示預(yù)測下一個(gè)單詞是什么,但這他們不應(yīng)該被局限在這些。“它們可以學(xué)習(xí)更復(fù)雜的東西。”
Choi和她的同事們還在研究用標(biāo)記過的視覺場景而不是文本來增強(qiáng)COMET的方法。Choi說:“我們從電影或電視節(jié)目里面取出了所有這些圖像,然后發(fā)生了一些有趣的事情。注釋看起來很棒;這個(gè)模型的預(yù)測看起來令人興奮。”
我問Choi,COMET的方法(把越來越好的神經(jīng)網(wǎng)絡(luò)跟改進(jìn)的常識性知識庫相結(jié)合)是不是在本質(zhì)上仍屬于造登月的梯子。她承認(rèn),她的夢想是有一個(gè)不需要人工監(jiān)督就能從知識庫中學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),就像GPT-2這樣的語言模型已經(jīng)通過攝取大量原始文本來學(xué)習(xí)的方式一樣。
但是就像溫斯頓·丘吉爾曾經(jīng)嘲笑過那樣,“民主是最差的一種政治制度,除了所有那些其他被實(shí)驗(yàn)過的政治制度之外?!盋hoi認(rèn)為,COMET是有缺陷,但是是成為一樁“公平交易”的有希望的方案。哪怕這些神經(jīng)網(wǎng)絡(luò)沒法上天攬?jiān)拢哉J(rèn)為它們是取得進(jìn)展的唯一途徑。她說:“如果沒有這些,我們就去不了任何地方?!?“光有知識庫,我們什么都做不了。能夠到天空中飛翔的其實(shí)是COMET?!?/p>
本文作者:神譯局
想要了解更多歡迎訪問快之網(wǎng)公司網(wǎng)站哦
https://www.htuidc.com/
公司地址:鄭州金水區(qū)北三環(huán)73號瀚海北金A座7層7009號
公司總機(jī):0371-55056677
聯(lián)系客服