因果模型理論所揭示的一個(gè)有用見解是根據(jù)每個(gè)類能夠回答的問題類型對(duì)因果信息進(jìn)行分類。這種分類形成了三層式的結(jié)構(gòu),只有當(dāng)層級(jí) j(j >= i)的信息可用時(shí)才能回答層級(jí) i(i = 1,2,3)的問題。
最低(第一)層被叫作關(guān)聯(lián)(Association),它涉及由裸數(shù)據(jù)定義的純統(tǒng)計(jì)關(guān)系。大多數(shù)機(jī)器學(xué)習(xí)系統(tǒng)運(yùn)行在這一層上。
第二層被叫作干預(yù)(Intervention),不僅涉及到能看到什么,還涉及你可能采取的行動(dòng)(干預(yù)措施)有哪些影響。我認(rèn)為增強(qiáng)學(xué)習(xí)系統(tǒng)是運(yùn)行在這個(gè)層上(例如,“如果我把騎士移到這個(gè)方格會(huì)怎樣?”)。增強(qiáng)學(xué)習(xí)系統(tǒng)傾向于在定義良好的環(huán)境中運(yùn)行,而干預(yù)層也包含了更多的開放性挑戰(zhàn)。作為例子,Pearl 提了一個(gè)問題:“如果我們將價(jià)格翻倍,將會(huì)發(fā)生什么?”
這些問題無法單獨(dú)從銷售數(shù)據(jù)中得到解答,因?yàn)樗鼈兩婕翱蛻粜袨榈淖兓▽?duì)新的價(jià)格作出反應(yīng))。
我個(gè)人認(rèn)為,如果銷售數(shù)據(jù)可以顯示出先前價(jià)格上漲所帶來的影響,那么很可能可以基于銷售數(shù)據(jù)構(gòu)建一個(gè)預(yù)測(cè)模型。Pearl 的反駁論點(diǎn)是,除非我們能夠準(zhǔn)確地復(fù)制之前價(jià)格達(dá)到當(dāng)前價(jià)格兩倍時(shí)的市場(chǎng)條件,否則我們無法真正知道客戶會(huì)做出怎樣的反應(yīng)。
最上面一層被稱為反事實(shí)(Counterfactual),解決的是“如果……會(huì)怎樣”問題。當(dāng)規(guī)模很小時(shí),序列到序列生成模型就能夠解決問題。我們可以“重放”序列的開頭,修改下一個(gè)數(shù)據(jù)值,然后查看輸出會(huì)發(fā)生什么變化。
這些層構(gòu)成了層次結(jié)構(gòu),介入性問題無法從純粹的觀察性信息中得到回答,而反事實(shí)性問題無法從純粹的介入性信息中得到回答(例如,我們無法對(duì)已經(jīng)接受了藥物的受試者重新進(jìn)行實(shí)驗(yàn),以便知道如果不為受試者提供藥物會(huì)怎樣)。在層級(jí) j 回答問題的能力意味著我們也可以回答層級(jí) i(<>
這種層次結(jié)構(gòu)及其所包含的形式限制解釋了為什么基于關(guān)聯(lián)的機(jī)器學(xué)習(xí)系統(tǒng)無法推理動(dòng)作、實(shí)驗(yàn)和因果解釋。
結(jié)構(gòu)因果模型(SCM)結(jié)合了圖形建模、結(jié)構(gòu)方程、反事實(shí)和介入邏輯。
我們可以使用這些工具正式表達(dá)因果問題,以圖解和代數(shù)形式編纂我們現(xiàn)有的知識(shí),然后利用數(shù)據(jù)來估計(jì)答案。此外,當(dāng)現(xiàn)有知識(shí)狀態(tài)或現(xiàn)有數(shù)據(jù)不足以回答我們的問題時(shí),這個(gè)理論會(huì)警告我們,然后建議其他知識(shí)或數(shù)據(jù)來源,讓問題變得可回答。
SCM“推理引擎”將假設(shè)(以圖形模型的形式)、數(shù)據(jù)和查詢作為輸入。
例如,下圖顯示 X(例如服用藥物)對(duì) Y 具有因果效應(yīng)(例如恢復(fù)),第三變量 Z(例如性別)影響 X 和 Y。
這讓我想起了我在貝葉斯決策方面看到的模型。
有三個(gè)輸出:
Estimand 是一個(gè)數(shù)學(xué)公式,根據(jù)假設(shè)提供從任何可用假設(shè)數(shù)據(jù)中回答查詢的方法。
Estimate 是查詢的答案,以及置信度的統(tǒng)計(jì)估計(jì)。
一組擬合指數(shù)(Fit Indices)用于衡量數(shù)據(jù)與假設(shè)的兼容程度。如果編碼的假設(shè)沒有任何可測(cè)試的含義,則該集合為空。
如果在給定模型假設(shè)的情況下無法回答查詢,則將其聲明為“無法識(shí)別”。
所幸的是,我們已經(jīng)開發(fā)出有效且完整的算法來確定可識(shí)別性,并為各種反事實(shí)查詢和各種數(shù)據(jù)類型生成估計(jì)。
Pearl 并沒有深入研究 SCM 的運(yùn)作細(xì)節(jié),而是列舉了 SCM 框架提供的七種因果推理工具。
透明度讓分析師能夠辨別出編碼假設(shè)是否合理,并且源于緊湊的圖形表示。
可測(cè)試性是通過一個(gè)叫作 d-separation 的圖形標(biāo)準(zhǔn)來增強(qiáng)的,這個(gè)標(biāo)準(zhǔn)提供了原因和概率之間的基本連接。它告訴我們,對(duì)于模型中任意給定的路徑模式,我們應(yīng)該期望在數(shù)據(jù)中找到哪些依賴模式。
這里的混淆似乎是指潛在變量的存在,潛在變量是兩個(gè)或多個(gè)已觀察到的變量的未知成因。如何選擇協(xié)變量來控制混淆早在 1993 年就已有定論,后來的 do-calculus 在可行的情況下預(yù)測(cè)政策干預(yù)的效果,并在假設(shè)不允許預(yù)測(cè)時(shí)退出。
現(xiàn)代因果關(guān)系研究的最大成就之一就是通過圖形表示形式化反事實(shí)推理。每個(gè)結(jié)構(gòu)方程模型都確定了每個(gè)反事實(shí)句子的真實(shí)性。因此,如果句子的概率是從實(shí)驗(yàn)或觀察研究或二者的組合估計(jì)出來的,那么我們就可以基于分析做出決策。
調(diào)解分析涉及發(fā)現(xiàn)中間機(jī)制,通過這些中間機(jī)制可以將原因傳給結(jié)果。我們可以發(fā)起諸如“X 對(duì) Y 的影響的哪些部分是由變量 Z 調(diào)節(jié)的”之類的查詢。
健壯性問題需要環(huán)境的因果模型,并且不能在 Association 層面處理...... do-calculus 提供了一種完整的方法用于克服由于環(huán)境變化而引起的偏差。它既可用于重新調(diào)整學(xué)習(xí)策略以規(guī)避環(huán)境變化,也可用于控制由非代表性樣本引起的偏差。
通過使用 SCM 因果模型,我們有可能對(duì)條件進(jìn)行正規(guī)化。在這些條件下,可以從不完整的數(shù)據(jù)中恢復(fù)因果關(guān)系和概率關(guān)系,并且只要滿足條件,就可以為所需關(guān)系生成一致的估計(jì)。
d-separation 標(biāo)準(zhǔn)讓我們能夠檢測(cè)并列舉給定模型的可測(cè)試含義。我們還可以推斷出與數(shù)據(jù)兼容的模型集。還有一些方法用于發(fā)現(xiàn)因果方向性。
一方面,這篇文章看起來像是在推廣 SCM:“關(guān)聯(lián)機(jī)器學(xué)習(xí)”方法與層次結(jié)構(gòu)中的關(guān)聯(lián)層緊密聯(lián)系。另一方面,豐富的因果推理理論似乎可以為傳統(tǒng)的機(jī)器學(xué)習(xí)方法提供很多補(bǔ)充。Pearl 肯定也是這么認(rèn)為的!
鑒于因果模型對(duì)社會(huì)科學(xué)和醫(yī)學(xué)科學(xué)產(chǎn)生的變革性影響,我們很自然會(huì)期待機(jī)器學(xué)習(xí)技術(shù)也會(huì)發(fā)生類似的變革。我期待這種共生產(chǎn)生的系統(tǒng)能夠使用原生因果語言與用戶溝通,并且借助這種能力成為下一代 AI 的主導(dǎo)。
英文原文:
https://blog.acolyer.org/2018/09/17/the-seven-tools-of-causal-inference-with-reflections-on-machine-learning/
聯(lián)系客服