昨日“人機對決”的硝煙還未散盡,今天上午 9 點 30 分DeepMind的掌門人哈薩比斯就在烏鎮(zhèn)發(fā)表了《 AlphaGo 研發(fā)介紹, AlphaGo 意味著什么?》的主題演講,將“怪獸”AlphaGo背后的重大升級細節(jié)和盤托出。不得不說,在經歷了幾番和人類選手的比拼之后,人工智能的力量已經進化的了難以想象的層次。
除此以外,在這次的論壇上,AlphaGo的主要開發(fā)者大衛(wèi)·席爾瓦(David Silver)和谷歌大腦(Google Brain)團隊負責人杰夫·迪恩(Jeff Dean)同時進一步揭秘了脫胎換骨之后的全新AlphaGo。
據悉,相較于之前12層卷積神經網絡的AlphaGo,此次出戰(zhàn)的AlphaGo已經達到的40層神經網絡,性能較上次和人類大戰(zhàn)60回合的Master也有了增強,更是比李世石的那一版強了三子的優(yōu)勢。正是在這種不斷自我訓練的情況下,AlphaGo已經生成了一代強過一代的神經網絡。
圖丨DeepMind團隊預測,Master版本比李世石版本提升了三子
如今的AlphaGo無論從哪個角度看都更像是一臺獨立的高性能秘密武器。憑借著十個谷歌自研的TPU,它擺脫了對外界的依賴;使用自己所積累的數(shù)據;更強大的策略網絡和價值網絡提高了的反應速度和判斷的準確性……強化學習的優(yōu)勢在AlphaGo身上表現(xiàn)得淋漓盡致,并且還將結出更加豐碩的成果。
以下是DT君在現(xiàn)場的編輯整理后哈薩比斯今日主題演講的內容精選:
我先簡單介紹一下 DeepMind。2010 年,DeepMind 創(chuàng)立于英國倫敦,2014年我們加入 Google。我們想要做的就是攻克人工智能。
對于 DeepMind 而言,我們希望網絡全世界的機器學習科學家,能夠結合計算能力,盡快解決人工智能的問題。另外,DeepMind 為了更好的進行研發(fā),創(chuàng)新了我們的組織方式。
可以說,Deep Mind的任務可以分兩步走:
第一步是要從根本上了解智能是什么,然后用人工方法去創(chuàng)造它。接下來就是要通過這種智能去嘗試解決其他所有問題。我們認為,AI會是人類歷史上最重要的技術發(fā)明之一。
具體來說我們會怎么做?在DeepMind,我們常會提到要建立通用型學習系統(tǒng)。最核心的概念就是“學習”,我們開發(fā)的所有系統(tǒng)都有學習相關的內核,這種學習系統(tǒng)從實踐經驗和數(shù)據中學習,而不需要預先輸入程序化的解決方案。
第二步是要解決AI的通用性問題。我們認為,單一系統(tǒng)或者算法組合并不能直接解決各種問題,更不用說以前沒遇到過的問題。這種系統(tǒng)最好的例子就是人腦,我們從某一任務中學習,并相關經驗應用于其他未遇到過的問題,即所謂的舉一反三。而機器在這方面是有很大問題的,DeepMind就是想賦予機器這種能力。
打造這種通用型學習系統(tǒng)涉及到幾項關鍵技術。首先是深度學習,即層疊的神經網絡,這個大家都很熟悉了;然后是強化學習,即讓機器自己學習,以達到最大化的收益。
我們將這種具有通用目標的學習系統(tǒng)稱為通用型人工智能,這與目前所謂的人工智能是不一樣的,因為目前的人工智能主要還是預先寫入的程序而已。
實際上,打造通用型學習系統(tǒng),最重要的是要學習。所有算法都會自動學習,更多的數(shù)據和更多的體驗不依賴于預設。
通用型的強人工智能與弱人工智能不一樣。最好的例子就是,在90年代末IBM開發(fā)的“深藍”系統(tǒng),擊敗了當時頂尖的國際象棋高手卡斯帕羅夫——這在當時是很大的成就,但“深藍”終究是一套預先寫入程序的系統(tǒng),相當于一位頂級程序員在和卡斯帕羅夫對弈,這位程序員嘗試揣摩卡斯帕羅夫腦子里在想什么,并把相應的對策全部編寫到程序里。這個技術了不起,但它不能解答人工智能之路在哪,只是在執(zhí)行預先寫入的命令,而不是自己來學習、決策。
然而,人類的大腦學到新的知識后卻可以舉一反三,我們可以用習得的現(xiàn)有經驗解決新的問題,這是機器所不擅長的。
所以說,與之前的相比,我們想要的是能夠自我學習的系統(tǒng),而這種系統(tǒng)需要在強化學習的框架下來開發(fā)。有必要先稍微解釋一下到底什么是所謂的強化學習。
在人工智能系統(tǒng)中,有一個我們稱之為Agent的主體,Agent發(fā)現(xiàn)它身處某種環(huán)境下,并需要完成某些任務。如果周圍的環(huán)境是真是世界,Agent可能會是一個機器人;但如果周圍環(huán)境是諸如游戲這類虛擬環(huán)境,Agent就可能是一個虛擬形象(Avatar)。
要完成某個任務,Agent會通過兩種方式與環(huán)境互動。首先是傳感器,DeepMind更多會使用視覺傳感器讓機器與環(huán)境互動,當然,如果你愿意,也可以使用語音、觸覺等方式。所以這類Agent通常通過自己的觀察來對環(huán)境建模。但是這里有個問題,真是環(huán)境通常是充滿噪聲、干擾、不完整的,所以需要Agent盡最大努力去預測周圍到底是什么樣的。
一旦這個環(huán)境模型建立,就要開始第二步了:如何在這個環(huán)境中做出最好的行為決策。當然,行為與環(huán)境間的互動可能是成功的,也可能是失敗的,這寫結果都會被實時納入Agent的觀察過程,這也就是強化學習的過程。
這兩年來,AlphaGo團隊專注于圍棋項目。與象棋相比,圍棋更加復雜。對于象棋來說,寫一個評價函數(shù)是非常簡單的。另外,圍棋更需要直覺,偉大的旗手往往難以解釋他們?yōu)槭裁聪铝诉@一步棋,象棋選手則可以給一個明確的答案,回答這么走的原因,有時候也許不盡如人意,但是起碼選手心中是有清晰的計劃的。
為什么圍棋的評估方程式這么難?相比象棋,圍棋是因為沒有物質性的概念,每一個棋子是等值的,而象棋有由估值的高低的。第二,圍棋是建設性的,圍棋是空的,你需要填充棋盤。特殊位點的評估,期盼在你心中,不斷摸索,圍棋手是建設性的,一切情況不得而知,需要棋手預測未來,進行布局,而象棋往往講究當下的時局。
另一個原因,一個棋子怎么走,一步輸步步輸,一發(fā)全身。圍棋更具有直覺性,歷史中我們覺得這是神的旨意,由靈感指導行為。
那么我們怎么寫出這個方程式呢?策略網絡……縮小范圍……價值網絡。我們曾經在《Nature》上發(fā)布了相關的論文,論文幫助一些國家和公司打造了他們自己版本的AlphaGo。
接下來,我們用比賽來測試更新的系統(tǒng),比如上一次的李世石,昨天的柯潔,這兩次比賽都引起了很大的關注。在和李世石的比賽中,AlphaGo贏了。但其實,我們十年磨一劍。勝利是很難的,也是很了不起,在AI領域更是這樣,十年磨一劍是常事。
我們贏了,最重要的是我們激發(fā)了更多的靈感,AlphaGo打出了好局,和李的比賽中,第二局第37不起令人驚嘆。這是專業(yè)人員都難以想象的,已經觸及到下棋的直覺方面。
AlphaGo把圍棋看做客觀的藝術,每下一步旗子都會產生客觀影響,而且它還能下得非常有創(chuàng)意。李世石在比賽中也受到了啟發(fā),他在第四局的第78著也很美妙,因此他贏了一局。
毫無疑問,AlphaGo對戰(zhàn)李世石的影響很大,全世界28億人在關注,35000多篇關于此的報道。西方世界開始更多地感受到圍棋這種東方游戲的魅力,當時圍棋的銷量還漲了10倍。我們很樂意看到西方世界也學習這種游戲。而李世石也有新的發(fā)現(xiàn),他在賽后表示,和狗比賽是其人生最美的體驗,狗也為創(chuàng)造了圍棋的新范式,李表示他對圍棋的興趣更大了,我開心他這么說。
回到直覺和創(chuàng)意上。什么是直覺?人們通過各種體驗獲得經驗,這是無法繼承,人們接受測試來檢驗他們直覺。AlphaGo已經能模仿直覺。而創(chuàng)造力上,它的一個定義是,整合新的知并創(chuàng)造新的點子或知識,阿狗顯然是有創(chuàng)造力,但這種創(chuàng)造力仍然僅局限于圍棋。
在過去一年中,DeepMind不斷打造AlphaGo,希望能解決科學問題并彌補它的知識空白,我們還將繼續(xù)完善它。之后,Master出現(xiàn)了,我們在今年一月對他進行上線測試,他取得了60連勝,還誕生了很好的點子,它的棋譜被全世界的棋手們研究。例如,AlphaGo打了右下角三三目,這種舉措在之前是不可想象的。
柯潔也說,人類3000年圍棋歷史,至今沒有一人曾經接近過到圍棋真理的彼岸。但是,人和AI的結合可以解決這個問題。古力也說,人類和AI共同探索圍棋世界的腳步開始了。
昨晚晚宴上,我了解到了圍棋大師吳清源的故事??赡蹵lphaGo也能帶來圍棋的新篇章,就像吳當年為圍棋貢獻的革命性力量一樣。象棋的下發(fā)都是策略性的,而AlphaGo能想出非常有戰(zhàn)略性的點子,也給棋手們帶來新點子。
曾經和DeepBlue(深藍)對戰(zhàn)的象棋世界冠軍GarryKasparov出過一本書,描述了他的一個觀點:深藍的時代已經結束了,狗的時代才剛開始。沒錯,AlphaGo是通用人工智能,未來我們能看到人機結合的愿景,人類是如此有創(chuàng)意的生物,我們可以能在AI的幫助下變得更強大。
AlphaGo是人類的新工具。就像天文學家利用哈勃望遠鏡觀察宇宙一樣,通過AlphaGo,棋手們可以去探索圍棋的未知世界和奧秘。我們發(fā)明AlphaGo,也希望能夠推動人類文明進步,更好地了解這個世界。
我們的愿景是最優(yōu)化他,最完美他。就像圍棋3000年以來都沒有答案,科學、技術、工程等領域也正面臨著同樣的瓶頸,但是,現(xiàn)在有了AI,我們迎來了新的探索機會。
圍棋比賽是我們測試人工智能的有效平臺,但我們的最終目的是把這些算法應用到更多的領域中。人工智能(特別是強人工智能)將是人們探索世界的終極工具。
當今世界面臨著很多挑戰(zhàn),不少領域本身有著過量的信息和復雜的系統(tǒng),例如醫(yī)療、氣候變化和經濟,即使是領域內的專家也無法應對這些問題。
我們需要解決不同領域的問題,人工智能是解決這些問題的一個潛在方式,從發(fā)現(xiàn)新的材料到新藥物研制治愈疾病,人工智能可以和各種領域進行排列組合。
當然,人工智能必須在人類道德基準范圍內被開發(fā)和利用。
我的理想就是讓AI科學成為可能。另外,我對人類的大腦運作非常感興趣,開發(fā)AI的同時,我也了解自己的大腦運作,例如大腦如何產生創(chuàng)意等,這個過程中我也更深入地了解了我自己。
哈薩比斯的青年傳奇人生:從研究海馬體開始
“AlphaGo 之父”、DeepMind 的創(chuàng)始人,現(xiàn)年 40 歲的哈薩比斯如今應成為了人工智能領域最為炙手可熱的明星,伴隨著 AlphaGo 的爆紅,這位被英國《衛(wèi)報》稱為是“人工智能英雄”的天才顯然已經成為了 AI 的代名詞。
在 2014 年年初,他將自己當時還名不見經傳的倫敦初創(chuàng)公司 DeepMind 以 4 億英鎊(約合 6.5 億美元)的價格賣給了 Google,成為了迄今為止 Google 在歐洲范圍內最大的一筆收購。
在 2014 年的溫哥華 TED 大會上,Google 的執(zhí)行總裁拉里·佩奇(Larry Page)不僅對哈薩比斯贊不絕口,更將其公司的技術稱為“長久以來我見過的最令人興奮的事件之一”。
哈薩比斯也表示,DeepMind 正在開發(fā)一種面對幾乎任何問題都能學習的人工智能軟件,這可以幫助人們處理一些世界上最為棘手的問題。他說:“人工智能有巨大的潛力,它會讓人類大吃一驚。”
事實上,這位出生于 1976 年 7 月 27 日的知名 AI 科學家也是從小出名的“神童”。4 歲的時候,僅用兩個星期就國際象棋大賽中擊敗成年人;8 歲開始接觸計算機,用他從國際象棋比賽中贏的 200 英鎊買了人生中第一臺計算機 ZX Spectrum;16 歲的時候被劍橋大學錄??;17 歲的時候就和別人共同制作了經典模擬游戲“Theme Park”,并成立了自己的電子游戲公司。這樣的人生不可謂不傳奇。
但開發(fā)計算機游戲限制了哈薩比斯踐行自己的真正的使命。最后,他決定,是時候該做一些以人工智能為首要任務的事情了。
在 2005 年,哈薩比斯開始在倫敦大學學院進修神經系統(tǒng)科學博士學位,希望通過研究真正的大腦來發(fā)現(xiàn)對研究人工智能有用的線索。他選擇了海馬體做研究對象——海馬體主要負責記憶以及空間導向,至今人類對它的認知還很少。哈薩比斯說:“我挑選的這些大腦區(qū)域的功能目前尚沒有好的運算法則與之對應?!?/span>
作為一個沒有學習過高中生物課程的計算機科學家和游戲企業(yè)家,哈薩比斯的表現(xiàn)超過了同一院系中的醫(yī)學博士和心理學家。他說:“我經常開玩笑說我對大腦的唯一認知是,它是在頭蓋骨里面的?!?/span>
但哈薩比斯很快就取得了成就。2007 年,他的一項研究被《科學》雜志評為“年度突破獎(Breakthrough of the Year)”。在這項研究中,他發(fā)現(xiàn) 5 位失憶癥患者因為海馬體受損而很難想象未來事件。從而證明了大腦中以往被認為只與過去有關的部分對于規(guī)劃未來也至關重要。
發(fā)現(xiàn)了記憶與預先規(guī)劃的交錯關系后,哈薩比斯進入下一階段的冒險――他在 2011 年終止了自己的博士研究,開始創(chuàng)立以“解決智能”為經營理念的DeepMind 科技公司。
哈薩比斯與人工智能專家謝恩·萊格(Shane Legg)和連續(xù)創(chuàng)業(yè)家穆斯塔·法蘇萊曼(Mustafa Suleyman)一起創(chuàng)立了 DeepMind。公司雇用了機器學習方面的頂尖研究人員,并吸引到一些著名的投資者,包括彼得·泰爾(Peter Thiel)的 Founders Fund 公司、以及特斯拉和 SpaceX 的創(chuàng)始人埃隆·馬斯克(Elon Musk)。但 DeepMind 一直保持低調,直到 2013 年 12 月,他們在一次業(yè)界領先的機器學習研究大會上上演了自己的處子秀。
在太浩湖畔的哈拉斯賭場酒店里(Harrah’s Casino),DeepMind的研究人員演示的軟件令人驚艷。該軟件不僅可以玩雅達利的三款經典游戲――乒乓、打磚塊和摩托大戰(zhàn),而且比任何人玩得都好。更關鍵的是,這款軟件并沒有獲得任何有關如何玩游戲的信息,提供給軟件的只有控制器、顯示器、得分規(guī)則,并告訴它盡可能得高分。程序通過不斷的試錯,最后成了專家級的玩家。
此前從未有人演示過具備這種能力的軟件,可以從零開始學習和掌握如此復雜的任務。事實上,DeepMind利用了一種機器學習技術――深度學習,這種技術通過模擬神經元網絡來處理數(shù)據。但它將深度學習與其他技巧結合,達到了不可思議的智能水平。
加州大學的人工智能專家斯圖亞特·拉塞爾(Stuart Russell)教授表示:“人們有點震驚,因為他們并未料想到我們能在現(xiàn)階段技術水平下做到這種程度。我想,人們驚呆了吧?!?/span>
DeepMind 將深度學習與另一種叫做“強化學習”的技術相結合,強化學習的靈感來自于斯金納(B.F. Skinner)等動物心理學家研究成果。它可以讓軟件通過在行動后接收對行動效果的反饋來學習,人類和動物通常都是這么做的。
人工智能研究人員對于強化學習的研究已有數(shù)十年了,但在 DeepMind 的 Atari 演示之前,還沒有人開發(fā)出像這種能夠玩游戲的具備復雜學習能力的系統(tǒng)。哈薩比斯表示,其原因之一可能是他借鑒了在海馬體上面的發(fā)現(xiàn)。那款可以玩雅達利游戲的軟件學習過程就部分地牽涉到了不斷重放過去經歷,以便深度和提取有關將來應該怎么做的最精確提示。
哈薩比斯說:“我們知道大腦就是這樣工作的,人在睡覺的時候,海馬體會把一天的記憶重放給大腦皮層。”
一年之后,拉塞爾和其他研究人員仍對 DeepMind 使用的技術和其他技巧究竟如何達到如此卓越的效果感到困惑不已,并且還苦苦思索這些技術的其他用途是什么。不過 Google 卻沒有想那么久,在太浩湖演示一個月之后就宣布收購這家公司。
哈薩比斯對于了解和創(chuàng)造人工智能的追求引領他經歷了三個職業(yè)生涯:游戲開發(fā)者、神經系統(tǒng)科學家和人工智能企業(yè)家。
現(xiàn)在,哈薩比斯的身份雖然已經轉變成了 Google DeepMind 的領導者,但他的 DeepMind 總部仍然位于倫敦,依舊把“解決智能”問題當作自己的使命宣言。加入 Google 時,公司大概有 75 人,而現(xiàn)在已經擴展到了 400 余人。此外,DeepMind 還在Google 總部擁有一支小的團隊,主要負責將DeepMind 的技術應用到 Google 的產品上。與此同時,在加入Google后,哈薩比斯還和其他聯(lián)合創(chuàng)始人一起成立了Google AI 倫理委員會。
加入Google之后,DeepMind 的技術被用來改善 YouTube 的視頻推薦功能或Google的移動語音搜索。哈薩比斯說:“很快,你就會看到我們的一些技術會嵌入到這類產品當中?!?/span>
當然,Google 并非是唯一相信 DeepMind 的方案能賺大錢的公司。哈薩比斯也因為其工作有可能令英國經濟受益而獲得了英國皇家學會的穆拉德獎。
不過相比之下,在談到改進現(xiàn)有產品的算法后還將做什么時,哈薩比斯顯得更加興奮。2015 年,DeepMind 發(fā)表有關學習掌握 Atari 游戲的算法的論文,并登上了 Nature 雜志的封面。之后,哈薩比斯和他的團隊又開始把注意力轉移到圍棋這一古老而又復雜的中國游戲上。其復雜程度難以想象,AI 科學家們研究了幾十年一直無法突破。
但DeepMind 終于實現(xiàn)了突破,2016 年 3 月,DeepMind 讓它的圍棋算法 “AlphaGo” 和圍棋世界冠軍李世乭進行了一場比賽。一共五局的比賽,DeepMind 贏了 4 局,最終取得勝利。
成功之后,哈薩比斯也獲得了無數(shù)贊譽,包括今年 5 月份的“亞洲獎”年度科技最佳貢獻獎,前一段時間被《時代》提名為全球最具影響力 100 人之一;2016 年被 Nature 雜志評為“年度十大人物”,等等。
也就是這樣一個技術驕子,他永遠不會對現(xiàn)狀滿足。如今,他又帶領自己的智能機器來到中國,試圖將人類智慧的最后尊嚴徹底打垮,信心所在,不可一世!
參考資料:
https://www.technologyreview.com/s/532876/googles-intelligence-designer/
http://uk.businessinsider.com/the-incredible-life-of-deepmind-cofounder-demis-hassabis-2017-5
https://en.wikipedia.org/wiki/Demis_Hassabis
https://www.ft.com/content/048f418c-2487-11e7-a34a-538b4cb30025
點擊圖片查看報名方式
聯(lián)系客服