NewBeeNLP公眾號原創(chuàng)出品
公眾號專欄作者 @Maple小七
北京郵電大學·模式識別與智能系統(tǒng)
人類有終身不斷獲取、調(diào)整和轉(zhuǎn)移知識的能力,雖然在我們的一生中,我們確實傾向于逐漸忘記之前學習過的知識,但只有在極少的情況下,對新知識的學習會災難性地影響已經(jīng)學到的知識,這樣的學習能力被稱為增量學習的能力。
具體來講,「增量學習的能力就是能夠不斷地處理現(xiàn)實世界中連續(xù)的信息流,在吸收新知識的同時保留甚至整合、優(yōu)化舊知識的能力?!?/strong>
增量學習(Incremental Learning)已經(jīng)有20多年的研究歷史,但增量學習更多地起源于認知神經(jīng)科學對記憶和遺忘機制的研究,因此不少論文的idea都啟發(fā)于認知科學的發(fā)展成果,本文不會探討增量學習的生物啟發(fā),關于面向生物學和認知科學的增量學習綜述可見 Continual lifelong learning with neural networks: A review[1]。
在機器學習領域,增量學習致力于解決模型訓練的一個普遍缺陷:「災難性遺忘(catastrophic forgetting)」 ,也就是說,一般的機器學習模型(尤其是基于反向傳播的深度學習方法)在新任務上訓練時,在舊任務上的表現(xiàn)通常會顯著下降。
造成災難性遺忘的一個主要原因是「傳統(tǒng)模型假設數(shù)據(jù)分布是固定或平穩(wěn)的,訓練樣本是獨立同分布的」,所以模型可以一遍又一遍地看到所有任務相同的數(shù)據(jù),但當數(shù)據(jù)變?yōu)檫B續(xù)的數(shù)據(jù)流時,訓練數(shù)據(jù)的分布就是非平穩(wěn)的,模型從非平穩(wěn)的數(shù)據(jù)分布中持續(xù)不斷地獲取知識時,新知識會干擾舊知識,從而導致模型性能的快速下降,甚至完全覆蓋或遺忘以前學習到的舊知識。
為了克服災難性遺忘,我們希望模型一方面必須表現(xiàn)出從新數(shù)據(jù)中整合新知識和提煉已有知識的能力(可塑性),另一方面又必須防止新輸入對已有知識的顯著干擾(穩(wěn)定性)。這兩個互相沖突的需求構(gòu)成了所謂的「穩(wěn)定性-可塑性困境(stability-plasticity dilemma)」。
解決災難性遺忘最簡單粗暴的方案就是使用所有已知的數(shù)據(jù)重新訓練網(wǎng)絡參數(shù),以適應數(shù)據(jù)分布隨時間的變化。盡管從頭訓練模型的確完全解決了災難性遺忘問題,但這種方法效率非常低,極大地阻礙了模型實時地學習新數(shù)據(jù)。而增量學習的主要目標就是在計算和存儲資源有限的條件下,在穩(wěn)定性-可塑性困境中尋找效用最大的平衡點。
增量學習和持續(xù)學習(Continual Learning)、終身學習(Lifelong Learning)的概念大致是等價的,它們都是在連續(xù)的數(shù)據(jù)流中訓練模型,隨著時間的推移,更多的數(shù)據(jù)逐漸可用,同時舊數(shù)據(jù)可能由于存儲限制或隱私保護等原因而逐漸不可用,并且學習任務的類型和數(shù)量沒有預定義(例如分類任務中的類別數(shù))。
但增量學習目前還沒有一個特別清晰的定義,因此比較容易與在線學習,遷移學習和多任務學習等概念混淆,「尤其要注意增量學習和在線學習的區(qū)別,在線學習通常要求每個樣本只能使用一次,且數(shù)據(jù)全都來自于同一個任務,而增量學習是多任務的,但它允許在進入下一個任務之前多次處理當前任務的數(shù)據(jù)」。上圖表現(xiàn)了增量學習和其他學習范式的區(qū)別,一般來說,增量學習有如下幾個特點:
由于增量學習問題的復雜性和挑戰(zhàn)的多樣性,人們通常只討論特定設置下的增量學習。以一個圖像分類模型為例,我們希望模型具有增量學習新的圖像和新的類別的能力,但前者更多地與遷移學習有關,因此任務增量學習(Task-incremental Learning)和難度更高一點的類增量學習(Class-incremental Learning)是深度學習社區(qū)當前主要考慮的增量學習范式。
「本文主要討論近幾年關注度最高的類增量學習范式」,更廣泛更詳細的增量學習介紹可參考專著《Lifelong Machine Learning》[2]。
增量學習是一個連續(xù)不斷的學習過程,在這個過程中,我們假設模型已經(jīng)學習了前 個任務:,當面對任務 和對應的數(shù)據(jù) 時,我們希望可以利用從舊任務中學習到的先驗知識幫助 的學習,然后更新模型所學習到的知識。這個過程要求我們在當前任務 中尋找參數(shù) 最小化下面的損失函數(shù):
其中舊數(shù)據(jù) 是部分可見或完全不可見的。
增量學習方法的種類有很多種劃分方式,本文將其劃分為以下三種范式:
其中基于正則化和回放的增量學習范式受到的關注更多,也更接近增量學習的真實目標,參數(shù)隔離范式需要引入較多的參數(shù)和計算量,因此通常只能用于較簡單的任務增量學習。關于其他劃分方式和不同類別的增量學習的優(yōu)缺點對比可見A Comprehensive Study of Class Incremental Learning Algorithms for Visual Tasks[3],下面僅介紹基于正則化和回放的增量學習的經(jīng)典方法以及相關進展。
基于正則化的增量學習的主要思想是「通過給新任務的損失函數(shù)施加約束的方法來保護舊知識不被新知識覆蓋」,這類方法通常不需要用舊數(shù)據(jù)來讓模型復習已學習的任務,因此是最優(yōu)雅的一類增量學習方法。Learning without Forgetting (ECCV 2016)[4]提出的LwF算法是基于深度學習的增量學習的里程碑之作,在介紹LwF算法之前,我們先了解一些最簡單的增量學習方法。
上圖展示了一個具有多頭網(wǎng)絡結(jié)構(gòu)的模型學習新任務的不同策略,其中(a)為已經(jīng)訓練好的基于CNN的原始模型, 表示不同任務共享的CNN參數(shù), 表示與原始任務相關的MLP參數(shù),當加入一個新的分類任務時,我們可以增加一個隨機初始化的MLP參數(shù) ?;? 來學習 的方法包括如下幾類:
微調(diào)(Fine-tuning):微調(diào)沒有舊任務參數(shù)和樣本的指導,因此模型在舊任務上的表現(xiàn)幾乎一定會變差,也就是發(fā)生災難性遺忘。
聯(lián)合訓練(Joint Training):聯(lián)合訓練相當于在所有已知數(shù)據(jù)上重新訓練模型,效果最好,因此通常被認為是「增量學習的性能上界」,但訓練成本太高。
特征抽取(Feature Extraction):特征抽取只訓練 ,共享參數(shù) 沒有得到更新,雖然不影響模型在舊任務上的表現(xiàn),但不能有效捕獲新任務獨有的特征表示,在新任務上的表現(xiàn)通常不如人意。
LwF算法是介于聯(lián)合訓練和微調(diào)訓練之間的訓練方式,LwF的特點是它不需要使用舊任務的數(shù)據(jù)也能夠更新 。LwF算法的主要思想來自于knowledge distillation[5],也就是使新模型在新任務上的預測和舊模型在新任務上的預測相近。
具體來說,LwF算法先得到舊模型在新任務上的預測值,在損失函數(shù)中引入新模型輸出的蒸餾損失,然后用微調(diào)的方法在新任務上訓練模型,從而避免新任務的訓練過分調(diào)整舊模型的參數(shù)而導致新模型在舊任務上性能的下降。算法流程如下圖所示,其中 用于權(quán)衡模型的穩(wěn)定性和可塑性。
但是,這種方法的缺點是高度依賴于新舊任務之間的相關性,當任務差異太大時會出現(xiàn)任務混淆的現(xiàn)象(inter-task confusion),并且一個任務的訓練時間會隨著學習任務的數(shù)量線性增長,同時引入的正則項常常不能有效地約束模型在新任務上的優(yōu)化過程。
不少研究者圍繞著LwF算法的思想提出了很多改進策略,比較有名的包括Encoder Based Lifelong Learning (ICCV 2017)[6]提出的基于低維特征映射的EBLL算法,以及Overcoming catastrophic forgetting in neural networks (PNAS 2017)[7]提出的基于貝葉斯框架的EWC算法,EWC算法實際上對應了一個通用的「參數(shù)約束」方法,它引入了一個額外的和參數(shù)有關的正則損失:
該損失會根據(jù)不同參數(shù)的重要性來鼓勵新任務訓練得到的新模型參數(shù)盡量靠近舊模型參數(shù)。后續(xù)對EWC作出改進了論文也很多,比如Rotate your Networks: Better Weight Consolidation and Less Catastrophic Forgetting (ICPR 2018)[8]。
概括起來,基于正則化的增量學習方法通過引入額外損失的方式來修正梯度,保護模型學習到的舊知識,提供了一種緩解特定條件下的災難性遺忘的方法。不過,雖然目前的深度學習模型都是過參數(shù)化的,但模型容量終究是有限的,我們通常還是需要在舊任務和新任務的性能表現(xiàn)上作出權(quán)衡。近幾年,不少研究者也提出了各種類型的正則化手段,有興趣的話可以參考下面的論文:
從字面意思上來看,基于回放的增量學習的基本思想就是'溫故而知新',在訓練新任務時,一部分具有代表性的舊數(shù)據(jù)會被保留并用于模型復習曾經(jīng)學到的舊知識,因此「要保留舊任務的哪部分數(shù)據(jù),以及如何利用舊數(shù)據(jù)與新數(shù)據(jù)一起訓練模型」,就是這類方法需要考慮的主要問題。
iCaRL: Incremental Classifier and Representation Learning (CVPR 2017)[12]是最經(jīng)典的基于回放的增量學習模型,iCaRL的思想實際上和LwF比較相似,它同樣引入了蒸餾損失來更新模型參數(shù),但又放松了完全不能使用舊數(shù)據(jù)的限制,下面是iCaRL設計的損失函數(shù):
LwF在訓練新數(shù)據(jù)時完全沒用到舊數(shù)據(jù),而iCaRL在訓練新數(shù)據(jù)時為每個舊任務保留了一部分有代表性的舊數(shù)據(jù)(iCaRL假設越靠近類別特征均值的樣本越有代表性),因此iCaRL能夠更好地記憶模型在舊任務上學習到的數(shù)據(jù)特征。
另外Experience Replay for Continual Learning (NIPS 2019)[13]指出這類模型可以動態(tài)調(diào)整舊數(shù)據(jù)的保留數(shù)量,從而避免了LwF算法隨著任務數(shù)量的增大,計算成本線性增長的缺點?;趇CaRL算法的一些有影響力的改進算法包括End-to-End Incremental Learning (ECCV 2018)[14]和Large Scale Incremental Learning (CVPR 2019)[15],這些模型的損失函數(shù)均借鑒了知識蒸餾技術(shù),從不同的角度來緩解災難性遺忘問題,不過災難性遺忘的問題還遠沒有被滿意地解決。
iCaRL的增量學習方法會更新舊任務的參數(shù) ,因此很可能會導致模型對保留下來的舊數(shù)據(jù)產(chǎn)生過擬合,Gradient Episodic Memory for Continual Learning (NIPS 2017)[16]針對該問題提出了梯度片段記憶算法(GEM),GEM只更新新任務的參數(shù)而不干擾舊任務的參數(shù),GEM以不等式約束的方式修正新任務的梯度更新方向,從而希望模型在不增大舊任務的損失的同時盡量最小化新任務的損失值。
GEM方向的后續(xù)改進還有Efficient Lifelong Learning with A-GEM (ICLR 2019)[17]和Gradient based sample selection for online continual learning (NIPS 2019)[18]。
另外,也有一些工作將VAE和GAN的思想引入了增量學習,比如Variational Continual Learning (ICLR 2018)[19]指出了增量學習的貝葉斯性質(zhì),將在線變分推理和蒙特卡洛采樣引入了增量學習,Continual Learning with Deep Generative Replay (NIPS 2017)[20]通過訓練GAN來生成舊數(shù)據(jù),從而避免了基于回放的方法潛在的數(shù)據(jù)隱私問題,這本質(zhì)上相當于用額外的參數(shù)間接存儲舊數(shù)據(jù),但是生成模型本身還沒達到很高的水平,這類方法的效果也不盡人意。
總體來說,基于回放的增量學習的主要缺點是需要額外的計算資源和存儲空間用于回憶舊知識,當任務種類不斷增多時,要么訓練成本會變高,要么代表樣本的代表性會減弱,同時在實際生產(chǎn)環(huán)境中,這種方法還可能存在「數(shù)據(jù)隱私泄露」的問題。
增量學習的優(yōu)點是可以隨時訓練新數(shù)據(jù),不需要保留大量訓練數(shù)據(jù),因此存儲和計算開銷都比較小,同時還能夠有效避免用戶的隱私泄露問題,這在「移動邊緣計算的場景」下是非常有價值有意義的。「但目前的增量學習依舊是一個很開放的研究問題,很大程度上還處于理論探索階段,在很多方面學界都沒有達成統(tǒng)一的共識,不少論文給出的結(jié)論常常會相互沖突,因此增量學習還沒有在細分領域中得到大規(guī)模的應用和落地?!?/strong>
大部分增量學習研究都是面向圖像分類任務的,近幾年也有不少論文將增強學習推廣到了更復雜目標檢測和語義分割任務上,下面列舉了一些有代表性的工作。
目前增量學習的研究主要還是面向計算機視覺,在自然語言處理領域還沒有得到太多關注。一個主要原因是目前自然語言處理社區(qū)的注意力主要集中在以BERT為代表的自監(jiān)督表示學習上,在大規(guī)模預訓練模型的推廣下,增量學習的應用價值就不是太明顯了。
機器人是增量學習天然的應用場景,因為機器人必須學會通過連續(xù)的觀察來適應環(huán)境并與之互動,增量學習正好能夠很好地刻畫真實世界的環(huán)境,不過機器人領域本身有很多更重要的問題需要解決,因此增量學習的應用也不太多。
增量學習的一些常見評估指標包括「準確率、記憶能力和遷移能力」等,其中記憶能力和遷移能力是衡量模型可塑性和穩(wěn)定性的指標,但這些指標具體的公式定義卻是有爭議的。雖然人們已經(jīng)提出了各種各樣的增量學習方法,但是在基準數(shù)據(jù)集的選取和評估算法有效性的指標上還沒有達成廣泛的共識。
其中一點是增量學習通常需要引入額外的超參數(shù)來平衡模型的穩(wěn)定性和可塑性,這些超參數(shù)通常在驗證集上被優(yōu)化,「但這本質(zhì)上違反了增量學習不能獲取未來數(shù)據(jù)的因果律,從而會導致人們作出過于樂觀的結(jié)論,在真實的生產(chǎn)環(huán)境中常常無法重現(xiàn)實驗結(jié)果?!?/strong>
針對超參數(shù)選取的問題,A continual learning survey: Defying forgetting in classification tasks (2020)[35]提出了一種通用的增量學習超參數(shù)搜索框架,并設計了一系列相對公平的指標來比較增量學習算法,匯報了一些SOTA增量學習算法的表現(xiàn)。
在此基礎上,Class-incremental learning: survey and performance evaluation (2020)[36]在多個數(shù)據(jù)集上對最新的一些增量學習方法進行了綜合對比,作者發(fā)現(xiàn)在基于正則化的增量學習中,最早提出的LwF算法的表現(xiàn)是相當穩(wěn)健的,許多后續(xù)改進的方法在一些條件下反而不如LwF算法,另外基于數(shù)據(jù)約束的方法(LwF)實際上通常比基于參數(shù)約束的方法(EWC)表現(xiàn)得更好,然而目前人們的研究注意力是偏向后者的。下面是另外一些討論和提出增量學習評估指標和模型對比的論文,這里不再一一介紹:
增量學習本身是一個很開放的概念,目前人們研究的基于深度學習的增量學習大多限制在「有監(jiān)督分類、任務式增量和多頭網(wǎng)絡結(jié)構(gòu)的框架」下,這種特定領域的訓練方案通常不能直接應用于高度動態(tài)化和非結(jié)構(gòu)化的真實環(huán)境中,Towards Robust Evaluations of Continual Learning[40]指出「多頭設定下的增量學習隱藏了增量學習問題真正的難度」。另外,雖然目前人們主要研究的是有監(jiān)督學習,但探索更接近真實環(huán)境的無監(jiān)督增量學習,以及其他類型的增量方式也是非常有意義的。
目前的增量學習方法通常「隱式地要求任務的性質(zhì)差異不能太大」,當任務的性質(zhì)和難度差異太大時,大部分增量學習方法的性能都會嚴重下降,甚至低于簡單的基線模型。另外,有不少研究表明「目前還沒有任何一種增量學習方法在任何條件下都能表現(xiàn)良好」,大部分增量學習方法「對模型結(jié)構(gòu),數(shù)據(jù)性質(zhì)、超參設定都比較敏感」,因此探索在所有任務設定中表現(xiàn)更穩(wěn)健的增量學習方法也是很有意義的。
想和你一起學習進步!『NewBeeNLP』目前已經(jīng)建立了多個不同方向交流群(機器學習 / 深度學習 / 自然語言處理 / 搜索推薦 / 圖網(wǎng)絡 / 面試交流 / 等),名額有限,趕緊添加下方微信加入一起討論交流吧?。ㄗ⒁庖欢ㄒ?strong>備注信息才能通過)
Continual lifelong learning with neural networks: A review: https://arxiv.org/pdf/1802.07569.pdf
[2]《Lifelong Machine Learning》: https://www.cs.uic.edu/~liub/lifelong-machine-learning-draft.pdf
[3]A Comprehensive Study of Class Incremental Learning Algorithms for Visual Tasks: https://arxiv.org/abs/2011.01844
[4]Learning without Forgetting (ECCV 2016): https://arxiv.org/abs/1606.09282
[5]knowledge distillation: https://arxiv.org/abs/1503.02531
[6]Encoder Based Lifelong Learning (ICCV 2017): https://arxiv.org/abs/1704.01920
[7]Overcoming catastrophic forgetting in neural networks (PNAS 2017): https://arxiv.org/abs/1612.00796
[8]Rotate your Networks: Better Weight Consolidation and Less Catastrophic Forgetting (ICPR 2018): https://arxiv.org/abs/1802.02950
[9]Learning without Memorizing (CVPR 2019): https://arxiv.org/abs/1811.08051
[10]Learning a Unified Classifier Incrementally via Rebalancing (CVPR 2019): https://openaccess.thecvf.com/content_CVPR_2019/papers/Hou_Learning_a_Unified_Classifier_Incrementally_via_Rebalancing_CVPR_2019_paper.pdf
[11]Class-incremental Learning via Deep Model Consolidation (WACV 2020): https://arxiv.org/abs/1903.07864
[12]iCaRL: Incremental Classifier and Representation Learning (CVPR 2017): https://arxiv.org/abs/1611.07725
[13]Experience Replay for Continual Learning (NIPS 2019): https://arxiv.org/abs/1811.11682
[14]End-to-End Incremental Learning (ECCV 2018): https://arxiv.org/abs/1807.09536
[15]Large Scale Incremental Learning (CVPR 2019): https://arxiv.org/abs/1905.13260
[16]Gradient Episodic Memory for Continual Learning (NIPS 2017): https://arxiv.org/abs/1706.08840
[17]Efficient Lifelong Learning with A-GEM (ICLR 2019): https://arxiv.org/abs/1812.00420
[18]Gradient based sample selection for online continual learning (NIPS 2019): https://arxiv.org/abs/1903.08671
[19]Variational Continual Learning (ICLR 2018): https://arxiv.org/abs/1710.10628
[20]Continual Learning with Deep Generative Replay (NIPS 2017): https://arxiv.org/abs/1705.08690
[21]A comprehensive, application-oriented study of catastrophic forgetting in DNNs (ICLR 2019): https://arxiv.org/abs/1905.08101
[22]A Comprehensive Study of Class Incremental Learning Algorithms for Visual Tasks: https://arxiv.org/abs/2011.01844
[23]Incremental Few-Shot Object Detection (CVPR 2020): https://arxiv.org/abs/2003.04668
[24]Incremental Learning of Object Detectors without Catastrophic Forgetting (ICCV 2017): https://arxiv.org/abs/1708.06977
[25]Modeling the Background for Incremental Learning in Semantic Segmentation (CVPR 2020): https://arxiv.org/abs/2002.00718
[26]Incremental Learning Techniques for Semantic Segmentation (ICCV workshop 2019): https://arxiv.org/abs/1907.13372
[27]Incremental Learning for Semantic Segmentation of Large-Scale Remote Sensing Data: https://arxiv.org/abs/1810.12448
[28]LAMOL: LAnguage MOdeling for Lifelong Language Learning (ICRL 2020): https://arxiv.org/abs/1909.03329
[29]Episodic Memory in Lifelong Language Learning (NIPS 2019): https://arxiv.org/abs/1906.01076
[30]Continual Learning for Sentence Representations Using Conceptors (NAACL 2019): https://arxiv.org/abs/1904.09187
[31]Neural Topic Modeling with Continual Lifelong Learning (ICML 2020): https://arxiv.org/abs/2006.10909
[32]Incremental Natural Language Processing: Challenges, Strategies, and Evaluation (COLING 2018): https://arxiv.org/abs/1805.12518
[33]Continual Learning for Robotics: Definition, Framework, Learning Strategies, Opportunities and Challenges: https://arxiv.org/abs/1907.00182
[34]Efficient Adaptation for End-to-End Vision-Based Robotic Manipulation (ICML workshop 2020): https://openreview.net/forum?id=CVN5cZBFFFG
[35]A continual learning survey: Defying forgetting in classification tasks (2020): https://arxiv.org/abs/1909.08383
[36]Class-incremental learning: survey and performance evaluation (2020): https://arxiv.org/abs/2010.15277
[37]A comprehensive, application-oriented study of catastrophic forgetting in DNNs (ICLR 2019): https://arxiv.org/pdf/1905.08101.pdf
[38]Don’t forget, there is more than forgetting: new metrics for Continual Learning (ICML workshop 2020): https://marcpickett.com/cl2018/CL-2018_paper_5.pdf
[39]Towards robust evaluations of continual learning: https://arxiv.org/abs/1805.09733
[40]Towards Robust Evaluations of Continual Learning: https://arxiv.org/abs/1805.09733
- -
聯(lián)系客服