1 導(dǎo)言
圖靈獎得主、貝葉斯網(wǎng)絡(luò)之父Judea Pearl 曾自嘲自己是”AI 社區(qū)的反叛者“,因為他對人工智能發(fā)展方向的觀點與主流趨勢相反。Pearl 認(rèn)為,盡管現(xiàn)有的機器學(xué)習(xí)模型已經(jīng)取得了巨大的進步,但遺憾的是,所有的模型不過是對數(shù)據(jù)的精確曲線擬合。從這點而來看,現(xiàn)有的模型只是在上一代的基礎(chǔ)上提升了性能,在基本的思想方面沒有任何進步。近日,馬克斯·普朗克智能系統(tǒng)中心主任Bernhard Sch?lkopf 發(fā)表論文,談?wù)摿艘蚬P(guān)系和機器學(xué)習(xí)之間的聯(lián)系,并科普了一些相關(guān)的重要概念。
論文地址:https://arxiv.org/pdf/1911.10500.pdf
上圖是該文目錄結(jié)構(gòu)
Judea Pearl 轉(zhuǎn)發(fā)相關(guān)推文,表示”這是一篇非常全面、令人愉悅且極具啟發(fā)性的論文,適合所有人,而不僅僅是機器學(xué)習(xí)以及人工智能從業(yè)者閱讀?!?nbsp;那么這篇文章的最大啟發(fā)在哪里呢?下面是龔鶴揚和郭瑞東對該論文關(guān)于信息革命的內(nèi)容,也就是論文中的第二個章節(jié),進行翻譯和解讀。該章節(jié)最具備啟發(fā)性,而其他章節(jié)是有關(guān)因果理論框架以及因果思維如何融入機器學(xué)習(xí)的具體介紹。論文突出了信息的根基性地位,指出信息就是工業(yè)革命的能源,啟示了因果理論和機器學(xué)習(xí)的研究應(yīng)該要融入信息的視角。
2 信息處理的的機械化
第一次工業(yè)革命始于18世紀(jì)末,由蒸汽機和水力引發(fā);第二次工業(yè)革命始于大約一個世紀(jì)后,由電氣化推動。如果用我們更廣的角度來想,那么兩者都是關(guān)于如何產(chǎn)生和轉(zhuǎn)換各種形式的能量的問題(在這里“產(chǎn)生” 是通俗意義的理解)。然而在物理學(xué)上,能量是種守恒的量,因此不能產(chǎn)生,只能從其他形式的能量轉(zhuǎn)化獲取。有人認(rèn)為我們現(xiàn)在正處于另一場革命中,稱為數(shù)字革命,大數(shù)據(jù)革命,以及最近被稱之為AI革命或者信息革命。然而,這種轉(zhuǎn)變實際上是在20世紀(jì)中葉以控制論的名義開始的。它用信息代替了能量。就像能源一樣,信息也可以由人來處理,但是要在工業(yè)規(guī)模上進行處理,我們需要發(fā)明計算機,并且要智能地進行處理,現(xiàn)在我們使用AI,并沒有改變這一本質(zhì)。
當(dāng)機器學(xué)習(xí)應(yīng)用于金融行業(yè)時,我們經(jīng)常將用戶數(shù)據(jù)轉(zhuǎn)換為有關(guān)未來用戶行為的預(yù)測,從而獲得金錢。金錢本質(zhì)上可能是信息的一種形式,這一觀點與通過解密碼問題而產(chǎn)生的比特幣的思想是一致的,比特幣是信息也是金錢。一次工業(yè)革命使能源成為通用貨幣(Smil, 2017); 可能正在發(fā)生同樣的事情,即信息正成為通用貨幣。就像能源革命一樣。
3 信息革命的倆個組成部分
人們可以說,當(dāng)前的信息革命有兩個組成部分:第一個組成部分是基于電子計算機的出現(xiàn),高級編程語的發(fā)展以及由此產(chǎn)生的計算機科學(xué)領(lǐng)域的誕生,通過操縱符號創(chuàng)造AI的愿景。第二個我們目前正在經(jīng)歷的組成部分,它依賴于學(xué)習(xí)。通過學(xué)習(xí),可以從非結(jié)構(gòu)化數(shù)據(jù)中提取信息,并且可以自動從數(shù)據(jù)中推斷規(guī)則,而不是依靠人類來構(gòu)思和編程這些規(guī)則。
盡管Judea Pearl 的方法起源于傳統(tǒng)AI,但他還是很早認(rèn)識到對人類認(rèn)知規(guī)則進行編程存在的局限性的人之一,因此引領(lǐng)了將傳統(tǒng)AI與概率論結(jié)合(Pearl, 1988)。這催生了圖模型, 該模型被機器學(xué)習(xí)社區(qū)采用,但是在很大程度上沒有注重它們的因果語義。近年來,機器學(xué)習(xí)與因果關(guān)系之間已經(jīng)建立了真正的聯(lián)系,我們認(rèn)為如果想在AI的主要開放性困難問題上取得進展,這些聯(lián)系至關(guān)重要。
在工業(yè)革命時代,自動生成和轉(zhuǎn)化能量手段的發(fā)明改變了世界。它使勞動在某些領(lǐng)域變得多余,在其他領(lǐng)域產(chǎn)生了新的工作和市場。第一次工業(yè)革命創(chuàng)造了圍繞煤炭的工業(yè),第二次工業(yè)革命圍繞了電力。 而當(dāng)前信息革命的第一部分以電力為基礎(chǔ),創(chuàng)建了計算和IT行業(yè),第二部分是將IT公司轉(zhuǎn)變?yōu)椤?AI First”,并圍繞數(shù)據(jù)收集和“點擊”創(chuàng)建一個行業(yè)。帶標(biāo)簽的數(shù)據(jù)為當(dāng)前AI的主要數(shù)據(jù)(即監(jiān)督學(xué)習(xí)),人們可以預(yù)見,將來針對直接或干預(yù)性數(shù)據(jù)和信息會出現(xiàn)新的市場和行業(yè),而不僅僅是統(tǒng)計相關(guān)性數(shù)據(jù)和信息。
4 信息的物理本質(zhì)
但我們目前對信息的理解還很不完善, 就像前兩次工業(yè)革命中的能源概念 樣。數(shù)學(xué)家艾米·諾瑟(Emmy Noether)對能量概念有深刻的現(xiàn)代理解,他理解能量守恒是由于物理學(xué)基本定律的對稱性(or covariance)所致:無論我們?nèi)绾胃淖儠r間,現(xiàn)在,過去和未來它們都是一樣的。這是現(xiàn)代物理研究的基本思想:每種對稱性都隱含著一個守恒量。
愛因斯坦在建立能量與質(zhì)量之間的等價關(guān)系時,也依賴于對稱性原理。在基本物理學(xué)中,人們普遍認(rèn)為信息也應(yīng)該是守恒的,盡管這帶來了某些難題,尤其是在宇宙學(xué)方面??梢酝茰y,信息的保存也可能是對稱性的結(jié)果-這將是令人著迷的,它可以幫助我們理解信息的不同形式之間如何相互聯(lián)系,并定義統(tǒng)一的信息概念。
下面我們將介紹一種不變性或獨立性,它或許可以發(fā)揮對稱性的作用。從對稱變換開始,并通過對象在這些變換下的行為來定義對象。這些有趣想法不僅在物理領(lǐng)域而且在數(shù)學(xué)領(lǐng)域都富有成果。
我們前面雖然把信息比作能量,但是 digital goods 與 physical goods 有不同之處。一方面,一般情況下純粹的digital goods 可以以零成本進行復(fù)制(Brynjolfsson et al., 2019), 量子理論領(lǐng)域的時候是一個例外(Wootters and Zurek, 1982). 另外一方面,一般復(fù)制 physical good 的成本幾乎沒有減少 (例如重復(fù)制作一塊黃金的成本)。在一些情況下, 當(dāng)physical good 有一個非平凡的信息結(jié)構(gòu)是, 復(fù)制是成本比原來可以少點 (例如重復(fù)制作一塊芯片的成本)。在當(dāng)前信息革命的第一階段,可以對軟件進行復(fù)制,并且業(yè)界為防止這種情況付出了巨大的努力。在第二階段,復(fù)制會不僅僅需要數(shù)據(jù)集,也要合適的機器學(xué)習(xí)算法和計算資源,其他人才可以從數(shù)據(jù)集中提取相同的信息。與之相對的是,能量只能使用一次。
5 信息革命將走向何方
就像第一次工業(yè)革命對技術(shù),經(jīng)濟和社會產(chǎn)生重大影響一樣,當(dāng)前的變化也可能適用。可以說,我們的信息處理能力是人類在地球的統(tǒng)治地位的基礎(chǔ),也是人類對地球的重大影響的表現(xiàn)。由于與信息處理有關(guān),因此當(dāng)前的革命可能比前兩個工業(yè)革命更為重要。我們應(yīng)該努力充分利用這些技術(shù),以確保它們將為解決人類和地球的問題做出貢獻。相關(guān)的問題包括環(huán)境保護,隱私和個人自由。 在信息革命的初期,控制論專家Stafford Beer 與智利的阿連德政府合作,建立了控制論的治理機制(Medina, 2011)。在這場革命的當(dāng)前數(shù)據(jù)驅(qū)動階段,中國開始使用機器學(xué)習(xí)來觀察和激勵公民以公認(rèn)的方式行事(Chen and Cheung, 2018; Dai, 2018)。信息革命帶我們走向何方?我們很難知道,在這個問題上,科幻小說給出的答案,例如《美麗新世界》,將會給我們啟示。用原文的話是:this is science fiction at best, and the best science fiction may provide insightful thoughts on the topic.
關(guān)于該論文,如果您是研究 Causality for Machine Learning 的新手而又想和大家交流,請加入該論文的詳細(xì)研究項目:
https://github.com/Causal-Inference-ZeroToAll/causality4ml
更多和因果推斷相關(guān)的介紹
強人工智能之路中的必選項“因果”-《為什么》第十章書摘 Part1
聯(lián)系客服