機器之心原創(chuàng)
采訪:ChainnZ、Yuxi
編輯:Rui Chen、ChainnZ、Qintong Wu、吳攀、李澤南
Richard S. Sutton 教授被認為是現(xiàn)代計算的強化學習創(chuàng)立者之一。他為該領域做出了許多重大貢獻,包括:時間差分學習(temporal difference learning)、策略梯度方法(policy gradient methods)、Dyna 架構。
但驚人的是,Sutton 博士進入的第一個領域甚至與計算機科學無關。他先是獲得了心理學學士學位,然后才轉向計算機科學。但是,他并不認為自己轉變了方向。他說:「和大多數(shù)心理學家關注的問題一樣,我也對學習(learning)的工作方式很感興趣,我在 1977 年獲得了心理學學士學位;那時候學習在計算機科學領域還并不是很流行。因為我對人工智能或與人工智能相關的一切感到很好奇,所以我就選擇了就讀計算機科學的碩士,然后又讀了博士。我對人工智能的看法受到了心理學領域關于人類和動物學習方面的影響——這也是我的秘密武器,因為人工智能領域的很多人都沒有我這樣的背景。我從心理學開始的,并且從中汲取了大量的靈感?!?/p>
1984 年,Sutton 博士在馬薩諸塞大學安姆斯特分校(University of Massachusetts at Amherst)獲得了博士學位。在 1985 年到 1994 年之間,他都是 GTE Laboratories 的計算機和智能系統(tǒng)實驗室的技術組的主要成員。1995 年,他以資深研究科學家的身份回到了馬薩諸塞大學安姆斯特分校并在那里一直呆到了 1998 年,之后他加入了 AT&T Shannon Laboratory 擔任人工智能部門的主要技術組成員。他的研究興趣圍繞著決策者與其環(huán)境交互時所面臨的學習問題,他將其看作是人工智能的核心問題。他也對動物學習心理學、連接網(wǎng)絡(connectionist networks)、以及廣義上的能夠持續(xù)改進自己對世界的表征和模型的系統(tǒng)。2003 年之后,他成了阿爾伯塔大學計算機科學系的教授和 iCORE Chair,在這里他領導著自己的「強化學習與人工智能實驗室
這個實驗室的名字 RLAI 似乎在說明強化學習(RL)是所有人工智能問題的解決方案。但是,Sutton 博士在這次采訪之中給了我們一個不同視角的解釋。他指出有些人認為強化學習只是人工智能問題的強化,但實際上強化學習問題是實現(xiàn)人工智能的一種抽象的方法。他說:「我想說我們正在使用一種實現(xiàn)人工智能的方法,『強化學習與人工智能』是很有意思,其中的英語單詞『and』意味著要么是兩個單獨的主題,要么就是互相包容的,它可能是『and』,也能是『or』。因為強化學習既是人工智能的一個子集,也是人工智能的一個源頭。其中的關系挺模糊的。我們也仍還在尋找答案?!?/p>
強化學習是現(xiàn)在人工智能領域里面最活躍的研究領域之一,它是一種用于學習的計算方法,其中會有一個代理在與復雜的不確定環(huán)境交互時試圖最大化其所收到的獎勵(reward)。現(xiàn)在,如果你是一個強化學習的初學者,由 Richard Sutton 和 Andrew Barto 合著的《Reinforcement Learning : An Introduction》可能就是你的最佳選擇。這本書提供了關于強化學習的簡單明了的關鍵思想和算法的解釋。Richard Sutton 和 Andrew Barto 的討論從該領域的知識基礎的歷史延伸到了最新的發(fā)展的應用。但是,在 20 世紀 70 年代的時候,盡管機器學習被人所知且日益流行,但那時還沒有出現(xiàn)強化學習這樣的東西。
近日,機器之心走進了阿爾伯塔大學與這位強化學習的教父聊了聊。讓我們看看 Sutton 在這次獨家專訪中說了些什么。
機器之心:強化學習是如何起步的?編寫算法的起點是什么?
Sutton:這一直以來都是一個明顯的思想——一個學習系統(tǒng)想要一些東西而且某些類型的學習方式缺失了。在 20 世紀 70 年代,Harry Klopf(1972,1975,1982)寫了幾篇解決類似問題的報告。他認識到適應性行為(adaptive behavior)的關鍵方面是失?。╞eing lost),而那時候學習領域的研究者幾乎都將關注的重心移到了監(jiān)督學習上面。試錯學習的關鍵思想?yún)s缺失了。我們試圖弄明白其中的基本思想,然后發(fā)現(xiàn)他是對的。這一思想還從未在任何領域得到過研究,尤其是在機器學習領域;控制論、工程學和模式識別等領域也都沒有研究——所有這些領域都忽略了這個思想。你可以在 50 年代看到一些早期的研究工作,那時候有人談論過試驗神經(trial neuro),但最后它還是變成了監(jiān)督學習。它有目標和訓練集,并且嘗試記憶和從中進行歸納。
我們現(xiàn)在在談論深度學習和強化學習,這很有意思。最開始的時候,情況也是類似——試圖將強化學習和監(jiān)督學習區(qū)分開。我們研究的目的是獲得一個可以學習的系統(tǒng),那就夠了。所以強化學習找到了一種可以表現(xiàn)和最大化這個世界的方法,而監(jiān)督學習只是記憶被給出的樣本然后將其泛化到新樣本上——但它們需要被告知該做些什么?,F(xiàn)在,強化學習系統(tǒng)可以嘗試很多不同的事物。我們必須嘗試不同的事物,我們必須搜索動作和空間或定義學習來最大化世界。這個思想后來被丟棄了,Andrew Barto 和我則逐漸意識到這并沒有出現(xiàn)在之前的研究中,而這是我們需要的。簡單來說,這就是我們成為了先驅的原因。
編輯注:實際上,自 1979 年以來,Sutton 博士就一直在開發(fā)和推廣強化學習。和其他人一樣,Sutton 博士感覺到強化學習已經在早期的控制論和人工智能研究中得到過了探索。盡管強化學習顯然受到最早期的一些關于學習的計算研究的啟發(fā),但這些研究中的大部分都轉向了其它方面,比如模式分類、監(jiān)督學習和適應性控制,或他們整體上放棄對學習的研究。此外,那時候計算機的計算能力還是很有限的,所以要將強化學習應用到真實世界問題上是很困難的,因為強化學習涉及到大量試錯,之后才能收斂到一個最優(yōu)策略,這可能會需要非常長的時間。
機器之心:你怎么看待強化學習自 20 世紀 70 年代以來的發(fā)展?因為那時候看起來強化學習還需要長時間的發(fā)展而且進展緩慢,你為什么還會對其有信心?
Sutton:我不同意你所說的強化學習進展很慢的說法,但我確實同意計算資源給這一領域帶來了很大的影響。我們需要時間等待可用的硬件。盡管那時候對深度學習來說還有一點早,它成功地使用了大量的計算提供助力。很長一段時間以來,人們都在說我們會在 2030 年擁有足以支持強人工智能的算力。但我認為這不僅僅依賴于廉價的硬件,還依賴于算法。我認為我們現(xiàn)在還沒有強人工智能的算法,但我們也許能在 2030 年之前實現(xiàn)它。
機器之心:那么在 2030 年之前,硬件和軟件哪一個更加關鍵?
Sutton:硬件優(yōu)先還是軟件優(yōu)先,這是個大問題。我們需要軟件來測試我們的硬件,我們也需要可用的硬件來推動人們研發(fā)軟件。在有限的計算資源上研究和工作,即使最聰明的人也不能帶來很大的價值。即使是在 2030 年我們有了合適的硬件,我們可能仍然需要 10 年以上的時間等待最聰明的研究者研究出算法。現(xiàn)在你理解我的推理過程了,你可以自己重新判斷一下或改變你原來的想法。
機器之心:近年來,人工智能已從心理學與神經科學的研究中受益良多,強化學習和卷積神經網(wǎng)絡都是這樣的例子。在你的新版《Reinforcement Learning: An Introduction》中,你也加入了相應的兩個章節(jié)。心理學/神經科學對人工智能/強化學習有多重要?
Sutton:強化學習最初受到大腦運行機制的啟發(fā)。目前認為大腦的運行機制類似于強化學習。這也被稱作是大腦中世界系統(tǒng)的標準模型(standard model of world system)。之所以稱之為標準模型并不是因為它是完美的,而是因為所有人都在使用它。這就像當你成名后所有人都知道你,大腦獎勵機制的理論也是一樣的套路。我們的大腦是研究心理學和動物行為學的完美模型。另外一個重要的事情是:這個模型是基于學習的,你可以進行規(guī)劃,這是對于各種可能發(fā)生情況的響應。這也是一個強化我們進行規(guī)劃的方式的模型,讓我們可以從不同的后果中學習經驗??紤]到兩者的關系,人工智能研究者正在試圖找出意識和心靈的本質。
強化學習研究決策和控制,試圖讓機器在未知環(huán)境中做出最佳決策。深度強化學習研究在強化學習算法中使用了神經網(wǎng)絡,讓原始感官輸入到原始電機輸出的映射成為可能,消除了人工設計的過程。因此,如今深度強化學習(DRL)已經成為解決諸如游戲、決策問題、機器人控制等許多類型的問題的非常流行的方法。
編輯注:Sutton 認為強化學習和深度學習的整合是很好的技術演進。在特定領域內(如計算機視覺(CV)),他說道:「你完全可以不用強化學習就完成一個計算機視覺,用已有數(shù)據(jù)集監(jiān)督學習正常訓練的樣本,但它不會有深度學習做出的結果那么好。我認為那會需要一點聰明和想象力才能做到。我認為計算機視覺如果使用一點強化學習的話,將會出現(xiàn)一個技術突破?!?/p>
Sutton:強化學習的最大優(yōu)勢在于,你可以在正常運行中學習。傳統(tǒng)的深度學習方式需要使用標記好的數(shù)據(jù)集進行訓練,而強化學習并不需要這樣做。你可以發(fā)揮想象力改變設定,因為你雖然沒有足夠的數(shù)據(jù),但你知道在正常情況下應該怎么做。
AlphaGo 在圍棋上的勝利則是另一回事。毫無疑問 AlphaGo 是一個偉大的成就,它的水平提高速度是前所未有的。AlphaGo 的成就很大程度上歸功于兩種技術的整合:蒙特卡洛樹搜索和深度強化學習。
機器之心:讓我們以 AlphaGo 作為例子。為什么自我對弈很重要?自我對弈有什么缺陷嗎?人工智能可以在自我學習的過程中持續(xù)提高性能嗎?
Sutton:自我對弈可以生成無限多的訓練數(shù)據(jù)。你不需要人力來為這些訓練數(shù)據(jù)做標注,這是我們都希望得到的。由此觀之,我們也可以讓計算機在模擬真實環(huán)境中生存和競爭。當然,AlphaGo 缺乏一個關鍵要素:理解世界運行機制的能力,例如對物理定律的理解,以及對物體動作反饋的預測。
這里就出現(xiàn)了一個問題,你只能在虛擬環(huán)境中自我對弈,而在現(xiàn)實環(huán)境中我們沒有類似與游戲的規(guī)則可循,現(xiàn)實生活是無限美好的(笑)。你知道當你按下手機上的接聽鍵接聽一個來電,將會有一些事會發(fā)生。但你無法預測會發(fā)生什么,這不是游戲里已經安排好的設定,很多事情你不知道結果會是什么。在游戲中自我對弈的缺陷就在于此。
機器之心:深度學習需要大量數(shù)據(jù)。強化學習通常也需要提供大量樣本進行訓練。但是最近提出的 one shot learning(一次性學習)試圖用很少的樣本進行學習,這有點像是人類學習的方式了。你認為 one shot learning 可以用在強化學習中嗎?
Sutton:目前的學習方式是慢速的,我認為 one shot 方式可以加快機器學習的速度。人類可以從一些經驗中很快地學習到大量知識,這意味著我們可以進行 one shot learning,從很少的經驗中汲取大量有用知識。
機器之心:談完了強化學習的優(yōu)勢與技術突破,讓我們來談談它的短處。你認為去強化學習和廣義上的人工智能的短處在哪里?
Sutton:有幾點非常重要,其中包括一個技術問題。先來談談大家都能理解的吧,這也是最大的問題。強化學習寬泛地說來,就是讓機器可以理解這個世界,隨后利用自己所學的知識完成人類指定的任務,糾正自主行為。像 AlphaGo 和深藍這樣的程序不需要知道世界運行的規(guī)律。它們知道下一步棋可能的落子位置,知道所有下一步會帶來局勢上的優(yōu)劣。人造系統(tǒng)現(xiàn)在已經可以在這方面做得很好了。我們希望把這種決策和預測的方式應用到其他領域中去,但這需要一種新的機制,需要讓機器對世界建模。我認為這是目前最大的問題。我們現(xiàn)在對動態(tài)的真實世界缺乏有效的模型,無法讓機器在其中對抉擇與抉擇的后果進行模擬以不斷學習。一旦我們做到了這一點,我們就會構建出更強大的人工智能。
另外一些問題有關知識。機器要以何種方式作出預測?我們人類是以何種方式作出預測的?我們會試著用不同方法進行嘗試看看后果,但不會全部試到全部結束。例如,當你走進一個房間,右手邊是一杯水,有一把椅子,還有一些其他家具和人。你對房間里其他人的交流,或者和物體的交互會獲得不同反饋,但人類只會去做一點點交互——也許永遠不會拿起那杯水——因為我看著它就知道那是怎么回事了。這種從特定經驗中學到的東西,我們稱之為離策略(off-policy)學習,這種方式是目前強化學習領域中的最大挑戰(zhàn)。
機器之心:這很有趣。我們還想知道更多的細節(jié),如何更好地理解離策略(off-policy)學習?
Sutton:想要有效地了解離策略功能,你需要規(guī)?;膶W習方式、需要使用未經處理的數(shù)據(jù),而不必要總是有標簽的圖像的訓練集,只需要通過純粹地與世界互動來獲取經驗,并學習世界的運行方式……這種強化(學習)的方法是非常有趣的思路,人們應該嘗試去做。
機器之心:感謝你的精彩論述。最后我們還想問問,你對強化學習的初學者有什么建議?
Sutton:學習基礎知識,先找一個簡單便宜的應用。從數(shù)據(jù)中推導東西的方式是有已知確定結果的。想象一下電梯,也許在午夜時你可以把它關閉來節(jié)約能源,當有人來乘坐時再把它打開。所以你需要為此設定一個時間表,收集信息在這里就很重要了,如果沒人乘坐,開啟的電梯就是在浪費能源。訓練數(shù)據(jù)也是同樣的道理,你不應該在缺乏信息的時候進行訓練,請記住這個準則。
聯(lián)系客服