文 | 叢末
編 | 賈偉
一堆木柴加上一根火柴,能得到什么?人類會自然而然地得出答案:火。然而對于機器而言,這并不容易,因而它們?nèi)狈@種常識推理能力。
人工智能要變得像人一樣聰明,常識推理能力是其必備的能力之一。
這,迄今為止已是一個困擾了人工智能 50 多年的難題。
當下,隨著人工智能界對該問題的日益重視和研究上的不斷精進,現(xiàn)在是否迎來“破局”了呢?
大家可能最先想到的就是OpenAI 于去年初發(fā)布的GPT-2,但很遺憾,它在常識上的表現(xiàn)尚且比較“生澀”。
發(fā)布之初,GPT-2這個具有15億參數(shù)的通用語言模型,一時引起了轟動——成為《經(jīng)濟學人》第一個被采訪的人工智能系統(tǒng),《紐約客》也專門為它做了一篇特寫。該模型生成的句子流暢度驚人,幾乎可以假亂真,以至于OpenAI 公開表示,擔心它太過優(yōu)秀帶來隱患而沒有將模型完全公開。
不過,以批判人工智能炒作聞名的人工智能研究者Gary Marcus 對于GPT-2所呈現(xiàn)出來的“優(yōu)秀”不以為然。
對此,去年10月份的一個夜晚,他對GPT-2進行了一次突擊測試,在 GPT-2中輸入了以下內(nèi)容:
當你把引火柴和木頭堆在壁爐里,然后往里面扔幾根火柴時,你一般是要......
如果系統(tǒng)足夠聰明,會很輕易地想到“fire(生火)”這個詞,然而GPT-2的回答是:“ick”。再一次的嘗試后,它的回答是:會開啟一個坐滿了人的IRC頻道。
Marcus對于這個結(jié)果其實并不驚訝。常識推理,這種利用對世界的基本知識進行自然而然地推理的能力,幾十年來一直都是人工智能領域難以逾越的大山之一。
GPT-2 或許在語言模仿上實現(xiàn)了比較大的進展,然而顯而易見,它缺乏基本常識。
1 常識,無法窮盡的不成文規(guī)則
“常識”一詞不僅僅是指一種知識,還可以指對這種知識的看法,不是特定的學科領域,而是一種廣泛可重復使用的背景知識,幾乎是每個人都應該擁有的。
例如,人去餐館是去吃食物而不僅僅是點菜和付錢的;把火柴扔到一堆木柴上,意味著有人在嘗試生火。
大多數(shù)常識知識的隱式屬性,使得這類知識很難被明確表示出來。雖然早期研究者認為,可以通過把現(xiàn)實世界的事實都記下來構(gòu)建一個知識庫,以此作為實現(xiàn)自動化常識推理的第一步。然而這種做法實現(xiàn)起來遠比聽起來難得多。
1984年,一個叫做 Cyc項目啟動了,它最初的目標是將上百萬條知識編碼成機器可用的形式,用以表示人類常識,無論是該項目隨后嘗試為知識庫編寫條目還是通過使用機器學習技術來挖掘文檔以創(chuàng)建知識庫,都未能破解常識推理問題。
為什么?這是因為每種情況都可能存在一些例外,例如當我們聽到“下雨了”,我們就可以推斷:如果去外面,就會淋濕;到如果躲在屋檐、雨傘等東西下面,就不會淋濕。其他的例外情況,就更難以預料了。
Cyc 知識庫可能會包含關于一個人去餐館點餐時通常會發(fā)生什么的多種描述,然而現(xiàn)實中,還有可能會發(fā)生其他不常見或者突發(fā)的事情,比如沒有付錢就離開了,或者發(fā)生了與他人爭奪食物的情況。因此,這種純粹以知識為基礎的符號推理方法,并不能真正為常識推理問題帶來突破。
即便建立了一個要多100倍或者1000倍知識量的知識庫,該系統(tǒng)還是會面臨另一個智能缺陷,即所謂的脆弱性問題。
常識與自然語言一樣,從根本上來說都是有些含糊不清的。比如,當一位服務員問一位用餐者“你還在做這件事嗎?(Are you still working on that?)”人很容易理解這句話的意思是“你還在吃盤子里的東西嗎?”,然而當他向一位做餐超時的廚師問同樣的問題時,含義可就完全不同了。
因此,無論知識庫收集多么豐富多彩的知識,都難免無法捕捉到人類常識推理中常出現(xiàn)的模棱兩可和關聯(lián)重疊的情況。
2 通往常識的兩條道路:符號推理和深度學習
一直以來,常識都被稱作“人工智能的暗物質(zhì)”——既必不可少又令人沮喪地難以捉摸。這是因為常識是由隱式信息組成的,即人類自動用來理解世界的一系列不成文的假設和經(jīng)驗法則。以如下場景為例:
一個男人前往一家餐廳。他點了一份牛排。他留下了一大筆小費。
如果你被問道,他吃了什么,你會很輕易地回答:牛排。但在這段描述中,并沒有提到這個人吃了任何東西。這便是常識在其中發(fā)揮的作用,它讓我們不需要被明確告知,就能夠在字里行間知道:人們往往會在點完餐之后以及給小費之前,在餐廳里吃掉食物。
計算機同樣也需要常識。在一篇題為《常識程序》的論文中,就提到,在人工智能于1958年誕生后不久,常識推理便成為了人工智能研究的首要問題。紐約大學計算機科學家 Ernest Davis 自上世紀80年代便開始研究人工智能的常識問題,他表示,一般而言,沒有常識,計算機就無法完全理解自然語言,也無法進行視覺和規(guī)劃任務。
《常識程序》論文地址:http://www-formal.stanford.edu/jmc/mcc59.html
盡管人工智能領域開始研究常識問題已久,然而進展還是慢得出奇。一開始,研究人員嘗試將常識翻譯成計算機語言——邏輯。他們認為,如果能夠?qū)⑷祟惓WR中所有不成文的規(guī)則用計算機語言寫下來,那計算機就能夠像做算術一樣,利用這些常識進行推理。
這種符號推理方法,后來被稱作“有效的老式人工智能(Good Old-Fashioned Artificial Intelligence,GOFAI ) ”,這是通往常識的第一條道路,它讓人工智能早期在常識問題上取得的進展成為了可能。不過,這種方法依賴人工,不具有擴展性。正如新西蘭奧克蘭大學人工智能研究人員 Michael Witbrock 所說的,能夠方便地用邏輯形式表示的知識量,原則上是有限的,并且事實證明,這種方法實現(xiàn)起來非常艱巨。
即使是對所有可能的邏輯關系進行適度的映射,也會很快遇到麻煩。上圖所示的一些關系總是成立的(例如,吞咽總是飲食的一部分),有些關系只是偶爾成立的(一個人在餐館吃飯),有些關系是不一致的(當?shù)案膺€在烤箱中時,人是不能吃到蛋糕的)。而像“cook”這樣的節(jié)點,既可以指廚師,也可以指烹飪行為。
另一條通往常識的道路,是使用神經(jīng)網(wǎng)絡進行深度學習。研究人員設計這樣的人工智能系統(tǒng)來模擬生物大腦中相互連接的神經(jīng)元層,在不需要程序員事先指定的情況下學習模式。在過去的十幾年間,經(jīng)過大量數(shù)據(jù)訓練的越來越復雜的神經(jīng)網(wǎng)絡,已經(jīng)變革了計算機視覺和自然語言處理領域的研究。
然而,雖然神經(jīng)網(wǎng)絡具有較強的智能能力以及靈活性(實現(xiàn)自動駕駛,在國際象棋、圍棋中擊敗世界一流的玩家),但是這些系統(tǒng)卻仍然會犯很多令人啼笑皆非的常識性錯誤(有時甚至是致命的)。
3 從GPT-2 到 COMET,離常識更近了一步
艾倫人工智能研究所的研究員、華盛頓大學計算機科學家葉錦才(Yejin Choi)及其合作研究者對上述方法進行了統(tǒng)一,提出了自動知識圖譜構(gòu)建模型 COMET(Commonsense Transformers),融合了GOFAI 式的符號推理和深度學習兩種截然不同的人工智能方法。
論文地址:https://arxiv.org/pdf/1906.05317.pdf
COMET 的工作原理是,將常識推理想象成對新輸入生成即便不完美也是合理的響應過程,而不是通過查閱一個龐大的百科全書式的數(shù)據(jù)庫做嚴密的推理。
它的出現(xiàn),為聯(lián)合使用傳統(tǒng)符號推理和深度學習來研究常識推理,提供了新的思路,進而為同時解決覆蓋性和脆性問題提供了方向。
任何人都能夠使用日常語言在COMET中輸入相關的提示符,如果對應的事件已經(jīng)在系統(tǒng)的常識知識庫中表示出來了(例如在餐館點餐往往就意味著你要吃飯),COMET可以輕易地使用先前存在的信息進行推理。而對于沒有在系統(tǒng)的常識知識庫中表示出來的事件,神經(jīng)語言模型也實現(xiàn)了最好的預測結(jié)果:
通過實驗,COMET生成的這些預測,人類評估小組認為平均有77.5%的結(jié)果是“可信的”,這比人類水平差了不到10個百分點。例如,當被輸入“某X 給了某Y 一些藥片”,COMET推測出”某X 想要幫助某Y“;當被輸入“某X 謀殺某Y 的妻子”,COMET則預測“某X 想要藏尸”。
上述例子說明了COMET在處理超出其內(nèi)置常識以外的輸入方面(即覆蓋性)的不錯表現(xiàn),那脆弱性問題呢?
結(jié)果證明,COMET在解決脆弱性問題上,也可圈可點。
例如,當用方言以一個五歲小女孩的語氣在COMET輸入提示:“爸爸去上班了”,它的預測結(jié)果包括:爸爸想賺錢,工作,拿工資;他是努力工作的、有動力的、盡職盡責的;所以,別人對他引以為傲、心存感激。
針對前文中Marcus 用來測試GPT-2的句子:
當你把引火柴和木頭堆在壁爐里,然后往里面扔幾根火柴時,你一般是要......
葉錦才也曾將同樣的句子也輸入到了COMET中,它產(chǎn)生了 10 個推斷,并且前兩個都與火相關。
暫且先不論COMET是否具備了真正的常識,它上述案例中的表現(xiàn)倒確實可以說是讓計算機離常識近了一大步。
4 COMET,是階梯還是火箭?
Gary Marcus 喜歡用這么一句話來描述人工智能目前的進展:僅僅建好了一架更好的階梯,并不意味著你就建好了一架通往月球的階梯。
就拿COMET 來說,這一方法也面臨著深度學習的一個根本性的限制:統(tǒng)計≠理解。雖然COMET在預測某個句子可能包含的參數(shù)上,表現(xiàn)不錯,但是這并不等于它能夠理解這個句子。
正如現(xiàn)有的階梯一樣,即便再高,也不可能通達月球。神經(jīng)網(wǎng)絡無論在模仿語言模式上表現(xiàn)得多么嫻熟,即便真的“知道”把點燃的火柴扔到木柴上通常會引發(fā)火災,但這并不意味著它真正具有常識。
葉錦才也贊成Gary Marcus的這一觀點。她承認COMET在訓練數(shù)據(jù)時“依賴表層的語言模式”,而不是由于真正理解相關的概念來做出回應。不過,如果能夠給該模型提供更富有信息量的模式,它確實能表現(xiàn)得不錯,這也是一個重大的進展。
那什么才是更富有信息量的模式呢?一些研究者認為,要想讓計算機建立真正的常識,需要利用語言本身以外的媒介,例如視覺感知或具象感覺等。其中,更直接的“第一人稱”表示作為常識的基礎,而語言則作為常識的第二層。
比方說,“apple”一詞在一些語境中并不是指一個“蘋果”,這就需要除語言本身以外的某種形式來表示這樣的意義。
Salesforce 的高級研究科學家Nazneen Rajani也在在朝著類似的目標努力,她認為神經(jīng)語言模型的潛力尚未被完全開發(fā)出來。她表示,現(xiàn)實世界非常復雜,而自然語言則像是現(xiàn)實世界如何運行的低維的指標,人類現(xiàn)在可以教神經(jīng)網(wǎng)絡從文本提示中預測下一個詞,但這不應該是它們的極限,它們還能學習到更加復雜的東西。
雖然COMET可能還存在很多缺陷,尚且無法成為到達其他星球的火箭,但是它是目前能夠“脫離地面”的唯一階梯。
正如丘吉爾所說的:“在我們已經(jīng)嘗試過的政治體制中,民主是最好的了。”
參考資料:https://www.quantamagazine.org/common-sense-comes-to-computers-20200430/https://www.quantamagazine.org/machines-beat-humans-on-a-reading-test-but-do-they-understand-20191017/https://www.quantamagazine.org/computers-evolve-a-new-path-toward-human-intelligence-20191106/https://www.quantamagazine.org/computers-evolve-a-new-path-toward-human-intelligence-20191106/
ACL 2020原定于2020年7月5日至10日在美國華盛頓西雅圖舉行,因新冠肺炎疫情改為線上會議。為促進學術交流,方便國內(nèi)師生提早了解自然語言處理(NLP)前沿研究,AI 科技評論將推出「ACL 實驗室系列論文解讀」內(nèi)容,同時歡迎更多實驗室參與分享,敬請期待!
聯(lián)系客服