科學(xué)無(wú)國(guó)界
我們是知識(shí)的搬運(yùn)工
今天我們將送出由圖靈新知提供的優(yōu)質(zhì)科普書(shū)籍《白話(huà)機(jī)器學(xué)習(xí)算法》。
文科生也看得懂的算法及數(shù)據(jù)科學(xué)入門(mén)書(shū)!本書(shū)用通俗易懂的人類(lèi)語(yǔ)言以及大量有趣的示例和插圖講解10多種前沿的機(jī)器學(xué)習(xí)算法。內(nèi)容涵蓋k均值聚類(lèi)、主成分分析、關(guān)聯(lián)規(guī)則、社會(huì)網(wǎng)絡(luò)分析等無(wú)監(jiān)督學(xué)習(xí)算法,以及回歸分析、k最近鄰、支持向量機(jī)、決策樹(shù)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等監(jiān)督學(xué)習(xí)算法,并概述強(qiáng)化學(xué)習(xí)算法的思想。
只要你認(rèn)真閱讀下面的這篇文章,思考文末提出的問(wèn)題,嚴(yán)格按照 互動(dòng):你的答案 的格式在評(píng)論區(qū)留言,就有機(jī)會(huì)獲得獎(jiǎng)品!
作者:John Pavlus
翻譯:Nothing
審校:loulou
眾所周知,計(jì)算機(jī)很多時(shí)候可以給我們的問(wèn)題一個(gè)很好的答案,但我們并不理解它是如何得到這些答案的。Been Kim一直在開(kāi)發(fā)一個(gè)“面向人類(lèi)的翻譯器(translator for humans)”,這樣我們就可以知道人工智能何時(shí)會(huì)失效。
Been Kim
如果一個(gè)醫(yī)生告訴你需要做手術(shù),你會(huì)想知道為什么,而且你會(huì)期望自己可以理解這個(gè)解釋?zhuān)词鼓銖奈瓷线^(guò)醫(yī)學(xué)院。谷歌大腦(Google Brain)的科學(xué)家Kim認(rèn)為,我們應(yīng)該對(duì)人工智能抱有更高的期望。作為“可解釋”機(jī)器學(xué)習(xí)(“interpretable” machine learning)的專(zhuān)家,她希望開(kāi)發(fā)能夠向任何人解釋自己的人工智能軟件。
自從大約十年前人工智能興起以來(lái),人工智能背后的神經(jīng)網(wǎng)絡(luò)技術(shù)使用其日益強(qiáng)大的學(xué)習(xí)和識(shí)別數(shù)據(jù)模式的能力,已經(jīng)改變了從電子郵件到藥物開(kāi)發(fā)的每一件事。但這種能力帶來(lái)了一個(gè)問(wèn)題:現(xiàn)代深度學(xué)習(xí)網(wǎng)絡(luò)的復(fù)雜性使之能夠成功地學(xué)會(huì)如何駕駛汽車(chē)和發(fā)現(xiàn)保險(xiǎn)欺詐,但即便是人工智能專(zhuān)家也無(wú)法了解它內(nèi)部工作的機(jī)制。如果一個(gè)神經(jīng)網(wǎng)絡(luò)被訓(xùn)練來(lái)識(shí)別像肝癌和精神分裂癥這樣的病人——就像2015年紐約西奈山醫(yī)院的“深度病人(Deep Patient)”系統(tǒng)一樣——我們不知道神經(jīng)網(wǎng)絡(luò)關(guān)注的是數(shù)據(jù)的哪些特征。這種“知識(shí)”被加諸于許多層的人工神經(jīng)元上,每層都有成百上千的連接。
隨著越來(lái)越多的行業(yè)試圖用人工智能實(shí)現(xiàn)自動(dòng)化或增強(qiáng)他們的決策能力,這種黑箱理論似乎顯示出根本性的缺陷。美國(guó)國(guó)防部高級(jí)研究計(jì)劃局(DARPA)的“XAI”項(xiàng)目(用于“可解釋的人工智能”)正在積極研究這個(gè)問(wèn)題,可解釋性已經(jīng)從機(jī)器學(xué)習(xí)研究的邊緣轉(zhuǎn)移到了它的中心。Kim說(shuō):“人工智能正處于這個(gè)關(guān)鍵時(shí)刻,人類(lèi)正試圖考察這項(xiàng)技術(shù)是否對(duì)我們有益。”“如果我們不解決這一可解釋性問(wèn)題,我認(rèn)為我們就不應(yīng)該繼續(xù)使用這項(xiàng)技術(shù)。我們可能會(huì)放棄它。”
Kim和她在Google Brain的同事最近開(kāi)發(fā)了一個(gè)名為“概念激活向量測(cè)試(TCAV)”的系統(tǒng),她將其描述為“面向人類(lèi)的翻譯器”,該系統(tǒng)允許用戶(hù)詢(xún)問(wèn)黑匣子人工智能一個(gè)特定的高層次概念在其推理中發(fā)揮了多大作用。例如,如果一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)已經(jīng)被訓(xùn)練識(shí)別圖像中的斑馬,那么一個(gè)人可以使用TCAV來(lái)確定系統(tǒng)在做出決定時(shí)對(duì)“條紋”概念給予了多少權(quán)重。
可解釋性是什么意思,它為什么如此重要,Kim一一給出了解答。
“可解釋性”這個(gè)詞到底是什么意思?
可解釋性有兩個(gè)分支。一種是科學(xué)的可解釋性:如果你把神經(jīng)網(wǎng)絡(luò)作為研究對(duì)象,那么你就可以進(jìn)行科學(xué)實(shí)驗(yàn)來(lái)真正理解關(guān)于模型的細(xì)節(jié)、它的反應(yīng)以及諸如此類(lèi)的事情。
可解釋性還有第二個(gè)分支,我主要關(guān)注的是人工智能的可解釋性。你不必了解模型的每一個(gè)細(xì)節(jié)。但是,只要你能夠理解并足夠安全地使用該工具就可以了,這就是我們的目標(biāo)。
你為什么能對(duì)一個(gè)你不完全理解其工作原理的系統(tǒng)有信心呢?
我給你打個(gè)比方。假設(shè)我后院有一棵樹(shù),我想砍掉它。我可能會(huì)用電鋸來(lái)做這項(xiàng)工作?,F(xiàn)在,我不完全理解電鋸是如何工作的。但手冊(cè)上說(shuō),“這些是你需要小心的事情,以免割到你的手指?!彼?,根據(jù)這本手冊(cè),我寧愿用電鋸也不愿用手鋸,手鋸的原理容易理解,但會(huì)讓我花五個(gè)小時(shí)來(lái)砍樹(shù)。
你知道“切割”是什么,即使你不完全知道完成這個(gè)動(dòng)作的機(jī)制是什么。
對(duì)。第二個(gè)可解釋性的第二個(gè)分支是:我們能充分理解一個(gè)工具,以便安全地使用它嗎?我們可以通過(guò)確認(rèn)工具中反映出的人類(lèi)已有的知識(shí)來(lái)形成這種理解。
“反映人類(lèi)知識(shí)”如何使人工智能更容易理解?
這有另一個(gè)例子。如果醫(yī)生使用機(jī)器學(xué)習(xí)模型來(lái)進(jìn)行癌癥診斷,醫(yī)生會(huì)想知道,該模型有沒(méi)有利用數(shù)據(jù)中我們不想涉及的隨機(jī)性。確保這一點(diǎn)的一種方法是確認(rèn)機(jī)器學(xué)習(xí)模型正在做醫(yī)生會(huì)做的事情。換句話(huà)說(shuō),證明醫(yī)生自己的診斷知識(shí)已經(jīng)反映在模型中。
因此,如果醫(yī)生在判斷一個(gè)細(xì)胞是否變成了癌細(xì)胞,他們可能會(huì)在標(biāo)本中尋找一種叫做“融合腺(fused glands)”的東西。他們還可以考慮患者的年齡,以及患者過(guò)去是否接受過(guò)化療。這些都是醫(yī)生診斷癌癥時(shí)關(guān)心的因素。如果我們能證明機(jī)器學(xué)習(xí)模型也注意到了這些因素,那么模型就更容易理解了,因?yàn)樗从沉酸t(yī)生作為人類(lèi)會(huì)具備的知識(shí)。
這就是TCAV所做的嗎?它揭示了機(jī)器學(xué)習(xí)模型使用哪些高級(jí)概念來(lái)做出決策?
對(duì)。在此之前,可解釋性方法只解釋了在輸入數(shù)據(jù)的特征上,神經(jīng)網(wǎng)絡(luò)做了什么工作。也就是說(shuō),如果您有圖像,每個(gè)像素都是一個(gè)輸入?yún)?shù)。事實(shí)上,Yann Lecun(一位早期的深度學(xué)習(xí)先驅(qū),目前是Facebook的人工智能研究主管)說(shuō),你可以查看神經(jīng)網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn),并查看每個(gè)輸入的數(shù)值。這對(duì)電腦來(lái)說(shuō)沒(méi)問(wèn)題,但人類(lèi)不會(huì)這樣做。我不會(huì)告訴你,“哦,看看100到200像素,RGB值是0.2和0.3?!蔽抑粫?huì)說(shuō),“有一張狗的照片,它的毛發(fā)真的很蓬松。”這就是人類(lèi)交流的方式——利用概念。
TCAV如何把輸入的數(shù)據(jù)轉(zhuǎn)化成概念?
讓我們回到使用機(jī)器學(xué)習(xí)模型的醫(yī)生的那個(gè)例子,這個(gè)機(jī)器學(xué)習(xí)模型已經(jīng)被訓(xùn)練為將細(xì)胞樣本的圖像按照可能存在的癌癥分類(lèi)。作為醫(yī)生,你可能想知道“融合腺體”的概念對(duì)預(yù)測(cè)癌癥有多重要。首先,你收集一些圖像,比如20個(gè),其中有一些含有融合腺體的細(xì)胞?,F(xiàn)在你將這些標(biāo)記的示例插入模型中。
那么TCAV內(nèi)部所做的就是所謂的“敏感性測(cè)試”,當(dāng)我們將這些包含融合腺體的圖片放入模型,癌癥陽(yáng)性預(yù)測(cè)的概率會(huì)增加多少?你可以將其輸出為一個(gè)介于0和1之間的數(shù)字,這是你的TCAV得分。如果概率增加,證明這是模型的一個(gè)重要概念。如果沒(méi)有,這就不是一個(gè)重要的概念。
“概念”是一個(gè)模糊的術(shù)語(yǔ)。有沒(méi)有TCAV不能處理的概念?
如果你不能使用數(shù)據(jù)表達(dá)你的概念,那么它將無(wú)法工作。如果你的機(jī)器學(xué)習(xí)模型是在圖像上訓(xùn)練的,那么這個(gè)概念必須是可視化的。比如說(shuō),我想用視覺(jué)表達(dá)“愛(ài)”的概念,這真的很難。
TCAV本質(zhì)上是為了建立對(duì)人工智能的信任,而不是真正的理解它嗎?
不是,我們從認(rèn)知科學(xué)和心理學(xué)的研究中知道,人類(lèi)很容易上當(dāng)受騙。這意味著欺騙一個(gè)人去相信某件事其實(shí)很容易。機(jī)器學(xué)習(xí)可解釋性的目標(biāo)與此相反。它告訴你一個(gè)系統(tǒng)是否安全,重要的是找到真相而不是建立信任。可解釋性的重點(diǎn)是揭示人工智能推理中的潛在缺陷。
它怎么能暴露自己的缺陷?
你可以使用TCAV向經(jīng)過(guò)訓(xùn)練的模型測(cè)試相關(guān)的概念。回到醫(yī)生使用人工智能進(jìn)行癌癥預(yù)測(cè)的例子,醫(yī)生們可能會(huì)突然想,“這臺(tái)機(jī)器似乎傾向于對(duì)帶有藍(lán)色陰影的圖像給出患有癌癥的預(yù)測(cè)。我們認(rèn)為不應(yīng)該考慮這一因素?!币虼?,如果帶有“藍(lán)色”的TCAV分?jǐn)?shù)很高,這就成為這個(gè)機(jī)器學(xué)習(xí)模型的一個(gè)缺陷。
TCAV是針對(duì)無(wú)法解釋的機(jī)器學(xué)習(xí)模型設(shè)計(jì)的。為什么不讓系統(tǒng)從一開(kāi)始就可以解釋呢?
可解釋性研究的一個(gè)分支,側(cè)重于建立反映人類(lèi)推理方式的固有可解釋模型。但我的看法是:現(xiàn)在你在任何地方都有人工智能模型,這些模型已經(jīng)被構(gòu)建,并且已經(jīng)得到重要應(yīng)用,而從一開(kāi)始我們就沒(méi)有考慮過(guò)可解釋性。這就是事實(shí)。谷歌就有很多這樣的情況!你可以說(shuō),“可解釋性是非常有用的,讓我為你建立另一個(gè)模型來(lái)取代你已有的模型。”那好吧,祝你好運(yùn)。
那你怎么辦?
我們?nèi)匀恍枰袛噙@項(xiàng)技術(shù)是否適合我們。這就是我為什么研究“后訓(xùn)練(Posttraining)”的可解釋性方法。如果你有一個(gè)別人給你的模型,而你不能改變它,你如何去為它的行為生成解釋?zhuān)员隳憧梢园踩厥褂盟??這就是TCAV工作的意義所在。
你相信如果沒(méi)有可解釋性,人類(lèi)可能會(huì)放棄人工智能技術(shù)嗎?考慮到它的強(qiáng)大功能,你真的認(rèn)為這是現(xiàn)實(shí)的可能性嗎?
是的。專(zhuān)家系統(tǒng)(智能計(jì)算機(jī)程序系統(tǒng))就是這樣。在20世紀(jì)80年代,我們確定他們比人工操作人員執(zhí)行某些任務(wù)更便宜。但現(xiàn)在誰(shuí)在使用專(zhuān)家系統(tǒng)呢?沒(méi)有人。之后我們進(jìn)入了人工智能的冬天。
因?yàn)槿斯ぶ悄茕佁焐w地的宣傳和資金的大量投入,現(xiàn)在看起來(lái)不太可能放棄人工智能。但從長(zhǎng)遠(yuǎn)來(lái)看,我認(rèn)為人類(lèi)可能發(fā)現(xiàn)——也許是出于恐懼,也許是因?yàn)槿狈ψC據(jù)——這項(xiàng)技術(shù)不適合我們。這也是可能的。
原文地址:
【互動(dòng)問(wèn)題:有哪些你并不知道原理卻用得很開(kāi)心的工具?】
請(qǐng)大家嚴(yán)格按照 互動(dòng):?jiǎn)栴}答案 的格式在評(píng)論區(qū)留言參與互動(dòng),格式不符合要求者無(wú)效。
截止到本周四中午12點(diǎn),點(diǎn)贊數(shù)前三名的朋友將獲得我們送出的圖書(shū)一本。
編輯:loulou
近期熱門(mén)文章Top10
↓ 點(diǎn)擊標(biāo)題即可查看 ↓
1. 首屆黑洞PS大賽來(lái)襲!為了這張「高糊」的圖,中國(guó)科學(xué)家做出了啥貢獻(xiàn)?
2. 物理學(xué)四大神獸,除了“薛定諤的貓”還有誰(shuí)?
3. 地下多大的金礦才能影響到單擺實(shí)驗(yàn)?| No.149
5. 為了替你出氣,我們給討厭的楊柳絮來(lái)個(gè)「以暴制暴」
6. 玩掃雷還有什么技巧?科學(xué)家的玩游戲方法你絕對(duì)想不到
7. 在我國(guó),沒(méi)有任何一張地圖能告訴你你的真實(shí)位置
8. 在客戶(hù)魚(yú)嘴里提供服務(wù)的小清潔蝦、清潔魚(yú),是怎么知道自己不會(huì)被吃掉的呢?
9. 你以為土撥鼠只會(huì)尖叫?其實(shí)它可能正在罵你
聯(lián)系客服