作者:MARIYA YAO, TOPBOTS
機(jī)器之心編譯
參與:蔣思源、李亞洲、韓小西
深度學(xué)習(xí)較其他機(jī)器學(xué)習(xí)方法在各類任務(wù)中都表現(xiàn)優(yōu)異,各個機(jī)構(gòu)或院校也花了巨大的精力和時間投入到深度學(xué)習(xí),并取得了令人驚嘆的成就。但深度學(xué)習(xí)近來也暴露出其內(nèi)在缺陷,很多學(xué)界領(lǐng)軍人物都在積極探討解決辦法和替代方案。因此本文力圖闡述深度學(xué)習(xí)的局限性,引發(fā)更多對深度學(xué)習(xí)的思考。
人工智能已經(jīng)達(dá)到了炒作的頂峰。新聞報告稱有的公司已經(jīng)使用 IBM Watson 取代了工人、算法在診斷上擊敗了職業(yè)醫(yī)生。每天都會有新的人工智能創(chuàng)業(yè)公司出現(xiàn),宣稱能使用機(jī)器學(xué)習(xí)取代你的私人和商業(yè)難題。
榨汁機(jī)、Wi-Fi 路由器這樣普通的物品也忽然宣稱是「由人工智能驅(qū)動」。智能的站立式桌子不僅能記住你調(diào)節(jié)的高度,也能為你點餐。
許多有關(guān)人工智能的喧嘩都由那些從未訓(xùn)練過神經(jīng)網(wǎng)絡(luò)的記者,創(chuàng)業(yè)公司或者從未真正解決過商業(yè)難題卻想要被高價聘請的編程人才所發(fā)出的。所以,有關(guān)人工智能的能力與限制,難免有如此多的誤解。
深度學(xué)習(xí)無疑使人興奮
神經(jīng)網(wǎng)絡(luò)創(chuàng)造于上世紀(jì) 60 年代,但近年來大數(shù)據(jù)和計算能力的增加使得它們在實際上變得有用。于是,一種名為「深度學(xué)習(xí)」的新的學(xué)科出現(xiàn),它能使用復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)以前所未有的準(zhǔn)確率建模數(shù)據(jù)中的模式。
結(jié)果無疑使人驚訝。計算機(jī)如今能比人類更好地識別圖像和視頻中的物體以及將語音轉(zhuǎn)錄為文本。谷歌就用神經(jīng)網(wǎng)絡(luò)取代了谷歌翻譯的架構(gòu),如今機(jī)器翻譯的水平已經(jīng)很接近人類了。
深度學(xué)習(xí)在實際應(yīng)用中也令人興奮。計算機(jī)能夠比 USDA 更好的預(yù)測農(nóng)作物產(chǎn)量,比醫(yī)師更準(zhǔn)確的診斷癌癥。DARPA 的主任 John Launchbury 曾這樣描述人工智能的三個浪潮:
像 IBM 的深藍(lán)或 Watson 這樣的人工編碼知識或?qū)<蚁到y(tǒng);
統(tǒng)計學(xué)習(xí),包括機(jī)器學(xué)習(xí)與深度學(xué)習(xí);
環(huán)境自適應(yīng),涉及到使用稀疏數(shù)據(jù)為真實的世界現(xiàn)象構(gòu)建可靠的、可解釋的模型,就像人類一樣。
作為目前人工智能浪潮的第二波,深度學(xué)習(xí)算法因為 Launchbury 所說的「流形假設(shè)(manifold hypothesis)」(見下圖)而更加有效。簡單解釋,它指代不同類型的高維自然數(shù)據(jù)如何聚成一塊,并在低維可視化中有不同的形狀。
通過數(shù)學(xué)運算并分割數(shù)據(jù)塊,深度神經(jīng)網(wǎng)絡(luò)能區(qū)分不同的數(shù)據(jù)類型。雖然神經(jīng)網(wǎng)絡(luò)能夠取得精妙的分類與預(yù)測能力,它們基本上還是 Launchbury 所說的「spreadsheets on steroids」。
深度學(xué)習(xí)也有深度難題
在最近的 AI By The Bay 大會上,F(xiàn)rancois Chollet 強(qiáng)調(diào)深度學(xué)習(xí)是比以前的統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)方法更為強(qiáng)大的模式識別方法?!溉斯ぶ悄苋缃褡钪匾膯栴}是抽象和推理,」Google 的人工智能研究員 Chollet 解釋到,他是著名的深層學(xué)習(xí)庫 Keras 的構(gòu)建者。他說:「目前的監(jiān)督感知和強(qiáng)化學(xué)習(xí)算法需要大量的數(shù)據(jù),在長遠(yuǎn)規(guī)劃中是很難實現(xiàn)的,這些算法只能做簡單的模式識別?!?/p>
相比之下,人類「從很少的案例中學(xué)習(xí),可以進(jìn)行長遠(yuǎn)規(guī)劃,他們能夠形成一種情境的抽象模型,并 [操縱] 這些模型實現(xiàn)極致的泛化。
即使是簡單的人類行為,也很難教授給深度學(xué)習(xí)算法。例如我們需要學(xué)習(xí)在路上避免被汽車撞上,如果使用監(jiān)督學(xué)習(xí),那就需要巨量的汽車情境數(shù)據(jù)集,且明確標(biāo)注了動作(如「停止」或「移動」),然后你需要訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)映射不同的情況和對應(yīng)的行動。
如果采用強(qiáng)化學(xué)習(xí),那你需要給算法一個目標(biāo),讓它獨立地確定理想的行動。為學(xué)習(xí)到在不同情況下躲避汽車,計算機(jī)可能需要先被撞上千次。Chollet 警告說:「僅僅通過擴(kuò)大今天的深度學(xué)習(xí)技術(shù),我們無法實現(xiàn)通用智能。
躲避汽車,人類只需要告知一次就行。我們具有從簡單少量的例子中概括出事物的能力,并且能夠想象(即模擬)操作的后果。我們不需要失去生命或肢體,就能很快學(xué)會避免被車撞上。
雖然神經(jīng)網(wǎng)絡(luò)在大樣本量上達(dá)到統(tǒng)計學(xué)上令人驚訝成果,但它們「對個例不可靠」,并且經(jīng)常會導(dǎo)致人類永遠(yuǎn)不會出現(xiàn)的錯誤,如將牙刷分類為棒球棒。
結(jié)果與數(shù)據(jù)一樣好。輸入不準(zhǔn)確或不完整數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)將產(chǎn)生錯誤的結(jié)果,輸出結(jié)果可能既尷尬又有害。在兩個最出名的缺陷中,Google 圖像錯誤地將非洲裔美國人分類為大猩猩,而微軟的 Tay 在 Twitter 上學(xué)習(xí)了幾個小時后,就出現(xiàn)了種族主義以及歧視女性的言論。
我們的輸入數(shù)據(jù)中隱含有不期望的偏差。Google 的大規(guī)模 Word2Vec 嵌入是在 Google 新聞的 300 萬字基礎(chǔ)上建立的。數(shù)據(jù)集中含有諸如「男性成為醫(yī)生,女性成為護(hù)士」這樣的性別偏見關(guān)聯(lián)。研究人員,如波士頓大學(xué)的 Tolga Bolukbasi,已經(jīng)采取了在 Mechanical Turk 上進(jìn)行人類評級的方式執(zhí)行「hard de-biasing」來撤銷這種關(guān)聯(lián)。
這樣的策略是至關(guān)重要的,因為根據(jù) Bolukbasi 的說法,「詞嵌入不僅反映了刻板印象,同時還會擴(kuò)大它們」。如果「醫(yī)生」代表的男性比女性更多,那么算法可能在開放醫(yī)師職位上將男性求職者定義優(yōu)先于女性求職者。
最后,生成對抗網(wǎng)絡(luò)(GAN)的提出者 Ian Goodfellow 表明,神經(jīng)網(wǎng)絡(luò)可能被對抗性樣本故意地欺騙。通過人眼不可見的方式在數(shù)學(xué)上處理圖像,復(fù)雜的攻擊者可以欺騙神經(jīng)網(wǎng)絡(luò)產(chǎn)生嚴(yán)重錯誤的分類。
深度學(xué)習(xí)之外是什么?
我們?nèi)绾慰朔疃葘W(xué)習(xí)的局限性,并朝著通用人工智能邁進(jìn)?Chollet 初步的計劃包括使用「超級人類模式識別(如深度學(xué)習(xí))增強(qiáng)顯式搜索和正式系統(tǒng)」,并且他準(zhǔn)備從數(shù)學(xué)證明的角度開始。自動定理證明(ATP)通常使用 brute force 算法進(jìn)行搜索,而這很快就會導(dǎo)致在實際使用中的組合暴漲。在 DeepMath 項目中,Chollet 和他的同事們使用深度學(xué)習(xí)輔助證明搜索過程,他們模擬數(shù)學(xué)家的直覺,即使用哪一類引理(證明中的輔助或中間定理)證明可能是對的。
另一種方法是開發(fā)更加可解釋性的模型。在手寫字體識別中,神經(jīng)網(wǎng)絡(luò)目前需要對幾萬到幾十萬個樣本進(jìn)行訓(xùn)練才能得出較為優(yōu)良的分類。然而,DARPA 的 Launchbury 并不僅僅關(guān)注像素,他解釋道生成模型能學(xué)習(xí)在任何給定字符后面的筆畫,并能使用這種物理結(jié)構(gòu)信息來消除類似數(shù)字間的歧義,如 9 或 4。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)的推動者,F(xiàn)acebook 的人工智能研究主管 Yann LeCun 提出了「基于能量的模型(energy-based models)」,該模型是克服深度學(xué)習(xí)限制的一種方法。通常,訓(xùn)練神經(jīng)網(wǎng)絡(luò)以得出單個輸出,如照片分類標(biāo)簽或翻譯的句子。而 LeCun 的基于能量模型(energy-based models)反而給出一整組可能的輸出,如句子所有可能的翻譯方式和每個配置的分?jǐn)?shù)。
深度學(xué)習(xí)的推動者 Geoffrey Hinton 希望使用「capsules」代替神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元,他相信其能更準(zhǔn)確地反映人類思維中的皮層結(jié)構(gòu)。Hinton 解釋道:「進(jìn)化一定已經(jīng)找到了一種有效的方法適應(yīng)感知通路的早期特征,所以它們更有助于以后幾個階段的特征處理?!顾M?capsule-based 神經(jīng)網(wǎng)絡(luò)架構(gòu)將更能抵抗 Goodfellow 上面所提到的對抗性樣本攻擊。
也許所有這些克服深度學(xué)習(xí)限制的方法都具有真實價值,也許都沒有。只有時間和持續(xù)的人工智能研究才能撥開一切迷霧。
聯(lián)系客服