Deep Learning論文筆記之(八)Deep Learning最新綜述
自己平時看了一些論文,但老感覺看完過后就會慢慢的淡忘,某一天重新拾起來的時候又好像沒有看過一樣。所以想習慣地把一些感覺有用的論文中的知識點總結(jié)整理一下,一方面在整理過程中,自己的理解也會更深,另一方面也方便未來自己的勘察。更好的還可以放到博客上面與大家交流。因為基礎(chǔ)有限,所以對論文的一些理解可能不太正確,還望大家不吝指正交流,謝謝。
本文的論文來自:
Bengio, Y., Courville, A., & Vincent, P. (2012). Representation Learning: A Review and New Perspectives。
這是一篇Deep Learning比較新的綜述。但是好長啊,讀完了也好多不懂,之前邊讀邊翻譯了前面兩節(jié),先擺上來。后面有時間再更新后續(xù)的了。另外,因為水平有限,有些地方翻譯和理解可能有錯誤,還望大家指正。謝謝。
另外,對于Deep Learning這里有個reading-list,感覺很不錯。大家可以參考里面的list來學習。
http://deeplearning.net/reading-list/
下面是自己對其中的一些知識點的理解:
《Representation Learning: A Review and New Perspectives》
摘要
機器學習算法的成功主要取決于數(shù)據(jù)的表達data representation。我們一般猜測,不同的表達會混淆或者隱藏或多或少的可以解釋數(shù)據(jù)不同變化的因素。盡管特定的領(lǐng)域知識可以有助于設(shè)計或者選擇數(shù)據(jù)的表達,但通過一般的先驗知識來學習表達也是有效的。而且,人工智能AI的要求也迫使我們?nèi)ふ腋鼜姶蟮奶卣鲗W習算法去實現(xiàn)這些先驗知識。
本文回顧非監(jiān)督特征學習和深度學習領(lǐng)域的一些近期工作,包括概率模型的發(fā)展、自動編碼機、流行學習和深度網(wǎng)絡(luò)。通過這些分析,可以激發(fā)我們?nèi)ニ伎家恍╅L久以來尚未解決的問題,例如如何學習好的表達?如何選擇適合的目標函數(shù)以便于計算表達?還有表達學習、密度估計和流行學習他們之間是否具有一定的幾何聯(lián)系?
1、介紹
眾所周知,機器學習方法的性能很大程度上取決于數(shù)據(jù)表達(或者特征)的選擇。也正是因為這個原因,為了使得機器學習算法有效,我們一般需要在數(shù)據(jù)的預處理和變換中傾注大部分的心血。這種特征工程的工作非常重要,但它費時費力,屬于勞動密集型產(chǎn)業(yè)。這種弊端揭露了目前的學習算法的缺點:在提取和組織數(shù)據(jù)的區(qū)分性信息中顯得無能為力。特征工程是一種利用人的智慧和先驗知識來彌補上述缺點的方法。為了拓展機器學習的適用范圍,我們需要降低學習算法對特征工程的依賴性。這樣,就可以更快的構(gòu)建新的應用,更重要的是,在人工智能AI領(lǐng)域邁出了一大步。人工智能最基本的能力就是能理解這個世界(understand the world around us)。我們覺得,只有當它能學會如何辨別和解開在觀測到的低級感知數(shù)據(jù)中隱含的解釋性因素時才能達到這個目標。
這篇文章主要講述表達學習representation learning的,或者說學習一種數(shù)據(jù)的表達使得提取對構(gòu)建分類器或者預測器有用的信息更加容易。以概率模型為例,一個好的表達總能捕捉觀測輸入數(shù)據(jù)的隱含解釋性因素的后驗概率分布。一個好的表達作為監(jiān)督預測器的輸入也是有用的。在表達學習的那么多不同的方法中,本文主要聚焦在深度學習方法:通過組合多個非線性變換,以得到更抽象和最終更有效的表達。這里,我們綜述這個快速發(fā)展的領(lǐng)域,其中還會強調(diào)當前進展中的特定問題。我們認為,一些基本問題正在驅(qū)動該領(lǐng)域的研究。特別的,是什么導致一種表達優(yōu)于另一種表達?我們應該怎樣去計算它的表達,換句話來說就是,我們應該如何進行特征提?。窟€有就是為了學習好的表達,怎樣的目標函數(shù)才是適合的?
2、我們?yōu)槭裁匆P(guān)心表達學習?
表達學習(亦被江湖稱作深度學習或者特征學習)已經(jīng)在機器學習社區(qū)開辟了自己的江山,成為學術(shù)界的一個新寵。在一些頂尖會議例如NIPS和ICML中都有了自己的正規(guī)軍(研究它的workshops),今年(2013)還專門為它搞了一個新的會議,叫ICLR(International Conference on Learning Representations),可見它在學術(shù)界得到的寵愛招人紅眼。盡管depth(深度)是這個神話的一個主要部分,但其他的先驗也不能被忽視,因為有時候,先驗知識會為表達的學習獻上一臂之力,畫上點睛之筆,更容易地學習更好的表達,這在下一章節(jié)中將會詳細討論。在表達學習有關(guān)的學術(shù)活動中最迅速的進展就是它在學術(shù)界和工業(yè)界都得到了經(jīng)驗性的顯著性的成功。下面我們簡單的聚焦幾點。
2.1、Speech Recognition and Signal Processing語音識別與信號處理
語音也是神經(jīng)網(wǎng)絡(luò)誕生時其最早的一個應用之一,例如卷積(或者時延)神經(jīng)網(wǎng)絡(luò)(Bengio在1993年的工作)。當然,在HMM在語音識別成功之后,神經(jīng)網(wǎng)絡(luò)也相對沉寂了不少。到現(xiàn)在,神經(jīng)網(wǎng)絡(luò)的復活、深度學習和表達學習的運用在語音識別領(lǐng)域可謂大展拳腳,重展雄風,在一些學術(shù)派和工業(yè)派人士(Dahlet al., 2010; Deng et al., 2010; Seide et al., 2011a; Mohamedet al., 2012; Dahl et al., 2012; Hinton et al., 2012)的努力下取得了突破性的成果,使得這些算法得到更大范圍的應用,并且實現(xiàn)了產(chǎn)品化。例如,微軟在2012年發(fā)布了它們的語音識別MAVIS (Microsoft Audio Video Indexing Service)系統(tǒng)的一個新版本,這個版本是基于深度學習的(Seide et al., 2011a)。對比現(xiàn)有的一直保持領(lǐng)先位置的高斯混合模型的聲學建模方法,他們在四個主要的基準測試集中把錯誤率降低了30%左右(例如在RT03S數(shù)據(jù)庫中從 27.4%的錯誤率降到18.5%)。在2012年,Dahl等人再次書學神話,他在一個小的大詞匯量語音識別基準測試集中(Bing移動商業(yè)搜索數(shù)據(jù)庫,語音長40小時)的錯誤率降到16%與23%之間。
表達學習算法還被應用的音樂方面上,在四個基準測試集中,比當前領(lǐng)先的polyphonic transcription (Boulanger-Lewandowskiet al., 2012)在錯誤率上取得了5%到30%之間的提升。深度學習還贏得了MIREX (Music Information Retrieval)音樂信息檢索競賽。例如2011年的音頻標注audio tagging上(Hamelet al., 2011)。
2.2、Object Recognition目標識別
在2006年,深度學習的開始,主要聚焦在MNIST手寫體圖像分類問題上(Hinton et al.,2006; Bengioet al., 2007),它沖擊了SVMs在這個數(shù)據(jù)集的霸主地位(1.4%的錯誤率)。最新的記錄仍被深度網(wǎng)絡(luò)占據(jù)著:Ciresanet al.(2012)聲稱他在這個任務(wù)的無約束版本(例如,使用卷積架構(gòu))的錯誤率是0.27%,為state-of-the-art。而Rifaiet al.(2011c)在MNIST的knowledge-free版本中保持著0.81%的錯誤率,為state-of-the-art。
在最近幾年,深度學習將其目光從數(shù)字識別移到自然圖像的目標識別,而最新的突破是在ImageNet數(shù)據(jù)庫中把領(lǐng)先的26.1%的錯誤率拉低到15.3% (Krizhevskyet al., 2012)。
2.3、Natural Language Processing自然語言處理
除了語音識別,深度學習在自然語言處理中也有很多應用。symbolic 數(shù)據(jù)的分布式表達由Hinton在1986年引入,在2003年由Bengio等人在統(tǒng)計語言模型中得到第一次的發(fā)展,稱為神經(jīng)網(wǎng)絡(luò)語言模型neural net language models (Bengio,2008)。它們都是基于學習一個關(guān)于每個單詞的分布式表達,叫做word embedding。增加一個卷積架構(gòu),Collobertet al.(2011)開發(fā)了一個SENNA系統(tǒng),它在語言建模、部分語音標記、chunking(節(jié)點識別)、語義角色標記和句法分解中共享表達。SENNA接近或者超于目前的在這些任務(wù)中的當前領(lǐng)先方法。但它比傳統(tǒng)的預測器要簡單和快速。學習word embeddings可以以某種方式與學習圖像表達結(jié)合,這樣就可以聯(lián)系文本和圖像。這個方法被成功運用到谷歌的圖像搜索上,利用大量的數(shù)據(jù)來建立同一空間中圖像與問題之間的映射(Weston et al.,2010)。在2012年,Srivastava等將其拓展到更深的多模表達。
神經(jīng)網(wǎng)絡(luò)語言模型也被通過在隱層中增加recurrence來改進(Mikolovet al., 2011)。改進效果比當下領(lǐng)先的平滑n-gram語言模型不僅在復雜度上降低,還降低了語音識別的錯誤率(因為語言模型是語音識別系統(tǒng)的一個重要組成部分)。這個模型還被應用到統(tǒng)計機器翻譯上面 (Schwenk et al., 2012; Leet al., 2013),改進了復雜度和BLEU分數(shù)。遞歸自動編碼機Recursive auto-encoders(產(chǎn)生recurrent網(wǎng)絡(luò))在全句釋義檢測full sentenceparaphrase detection上也達到了現(xiàn)有的領(lǐng)先水平,是以前技術(shù)的兩倍F1分數(shù)(Socheret al., 2011a) 。表達學習還用到了單詞歧義消除word sense disambiguation上 (Bordeset al., 2012),取得了準確率從67.8% 到 70.2%的提升。最后,它還被成功運用到sentimentanalysis (Glorotet al., 2011b; Socher et al., 2011b)上,并超越現(xiàn)有技術(shù)。
2.4、Multi-Task and Transfer Learning, Domain Adaptation多任務(wù)和遷移學習,域自適應
遷移學習(傳統(tǒng)的機器學習假設(shè)訓練數(shù)據(jù)與測試數(shù)據(jù)服從相同的數(shù)據(jù)分布。如果我們有了大量的、在不同分布下的訓練數(shù)據(jù),完全丟棄這些數(shù)據(jù)也是非常浪費的。如何合理的利用這些數(shù)據(jù)就是遷移學習主要解決的問題。遷移學習可以從現(xiàn)有的數(shù)據(jù)中遷移知識,用來幫助將來的學習。遷移學習(Transfer Learning)的目標是將從一個環(huán)境中學到的知識用來幫助新環(huán)境中的學習任務(wù)。)是指一個學習算法可以利用不同學習任務(wù)之間的共性來共享統(tǒng)計的優(yōu)點和在任務(wù)間遷移知識。如下面的討論,我們假設(shè)表達學習算法具有這樣的能力,因為它可以學習到能捕捉隱含因素的子集的表達,這個子集是對每個特定的任務(wù)相關(guān)的。如圖1所示。這個假設(shè)被很多的經(jīng)驗性結(jié)果所驗證,并且展現(xiàn)了表達學習在遷移學習場合中同樣具有優(yōu)異的能力。
圖1:表達學習發(fā)現(xiàn)了隱含的解釋性因素(中間隱層紅色的點)的示意圖。一些解釋了輸入(半監(jiān)督設(shè)置),一些解釋了每個任務(wù)的目標。因為這些子集間會重疊,所以會貢獻統(tǒng)計的優(yōu)點,利于generalization泛化。
給人印象深刻的是在2011年的兩個遷移學習的挑戰(zhàn)賽,都被表達學習算法奪魁。首先在由ICML2011一個workshop舉辦的Transfer Learning Challenge中,由無監(jiān)督逐層預訓練方法unsuper-vised layer-wise pre-training (Bengio, 2011; Mesnil et al.,2011)奪得。第二個挑戰(zhàn)賽同年舉辦,被Goodfellow et al. (2011)奪得。在相關(guān)的domain adaptation方面,目標保持不變,但輸入分布會改變(Glorot et al., 2011b; Chen et al., 2012)。在多任務(wù)學習方面multi-task learning,表達學習同樣表現(xiàn)出了其獨特的優(yōu)越性(Krizhevskyet al.(2012); Collobertet al.(2011)),因為它可以在任務(wù)間共享因素。
未完待續(xù)……
聯(lián)系客服