編saying:
講堂君在盤點了國際政治、世界經(jīng)濟后,今天為聽友集納人工智能領(lǐng)域的最新研究、應(yīng)用與發(fā)展。
Jürgen Schmidhuber教授自上世紀(jì)八十年代以來一直致力于人工智能研究,在谷歌、蘋果、微軟和 IBM 的產(chǎn)品中都能找到他研究成果的蛛絲馬跡。作為瑞士盧加諾大學(xué)的人工智能教授、瑞士人工智能實驗室IDSIA的科學(xué)主任,及致力于打造第一個實用通用人工智能的創(chuàng)業(yè)公司NNAISENSE的主席,Schmidhuber認(rèn)為,目前的人工智能系統(tǒng)已經(jīng)具有意識。
人工智能教授 Jürgen Schmidhuber
“我認(rèn)為我們在 25 年前就已經(jīng)有了一個基本的有意識的學(xué)習(xí)系統(tǒng)。那個時候,我就提出通用的學(xué)習(xí)系統(tǒng)要包括兩個模塊?!币粋€是一種循環(huán)網(wǎng)絡(luò)控制器,學(xué)習(xí)將不斷接收的數(shù)據(jù)——比如視頻和疼痛傳感器的疼痛信號,饑餓傳感器上的饑餓信號轉(zhuǎn)換為行動。例如,當(dāng)電池電量低時,傳感器就會傳來一些負數(shù)信息。這個網(wǎng)絡(luò)能學(xué)習(xí)將所有這些輸入及時轉(zhuǎn)換成能成功的行動序列。例如,電池電量低時及時到達充電站,但如果路上沒有碰到障礙,如椅子或桌子,就不需要喚醒疼痛傳感器。
智能體一生的目的是最大限度地享受快樂,同時將痛苦最小化。這個目標(biāo)簡單明確,但是很難實現(xiàn),因為你需要學(xué)很多東西。自1990年以來,智能體一直在嘗試做同一件事情,使用一個額外的循環(huán)網(wǎng)絡(luò),一個無監(jiān)督模塊,去預(yù)測將要發(fā)生什么。因為它是循環(huán)網(wǎng)絡(luò),它能在一定程度上用所謂的預(yù)測編碼以規(guī)律的形式預(yù)測未來。例如,如果你有一條關(guān)于100個落下的蘋果的視頻,所有的蘋果總是以同一個方式落下,你就能學(xué)習(xí)預(yù)測這些蘋果是怎么落下的,你也無需分別存儲這些預(yù)測,也就是說你能把這個視頻壓縮非常小的幾個字節(jié)。
關(guān)于意識,有一件很重要的事情是智能體會注意到,在與世界的互動中有一件事總是存在,即智能體自己。出于數(shù)據(jù)壓縮的目的,用循環(huán)世界模型網(wǎng)絡(luò)挑出一些神經(jīng)元對智能體本身進行編碼是非常有效率的。它能夠通過創(chuàng)造一個符號將整個行為和感知的歷史以及屬于智能體的其他符號都進行壓縮:可能是手、腳等。在解決新問題的過程中,不管你什么時候激活這些與自我符號相關(guān)的神經(jīng)元,智能體都在思考著自身。
Schmidhuber 和仿真機器人
“所以,在1991年的時候,我們已經(jīng)達到了這一點。當(dāng)然,那只是意識的一種基本形式——不像你我的意識這樣令人印象深刻,因為我們的大腦要比這些小人工智能體的大腦大得多。我們的大腦皮層中的連接可能多達10萬億種,但是目前最大的長短期記憶人工神經(jīng)網(wǎng)絡(luò)也可能只擁有10億種連接。但是幾乎每5年,計算的成本就會便宜10倍。所以或許我們還需要25年的時間,才能第一次獲得和大腦皮層連接一樣多的長短期記憶人工神經(jīng)網(wǎng)絡(luò)?!盝ürgen Schmidhuber這樣表示。
Richard S. Sutton教授被認(rèn)為是現(xiàn)代計算的強化學(xué)習(xí)創(chuàng)立者之一,他為該領(lǐng)域做出了許多重大貢獻,包括:時間差分學(xué)習(xí)、策略梯度方法、Dyna架構(gòu)。2003年后,在他成為阿爾伯塔大學(xué)計算機科學(xué)系的教授和iCORE Chair,他領(lǐng)導(dǎo)著自己的“強化學(xué)習(xí)與人工智能實驗室”。
強化學(xué)習(xí)教父Richard Sutton
強化學(xué)習(xí)是現(xiàn)在人工智能領(lǐng)域里面最活躍的研究領(lǐng)域之一,它是一種用于學(xué)習(xí)的計算方法,其中會有一個代理在與復(fù)雜的不確定環(huán)境交互時試圖最大化其所收到的獎勵。在20世紀(jì)70年代,盡管機器學(xué)習(xí)被人所知且日益流行,但那時還沒有出現(xiàn)強化學(xué)習(xí)這樣的東西。實際上,自1979年以來,Sutton博士就一直在開發(fā)和推廣強化學(xué)習(xí)。和其他人一樣,Sutton博士感覺到強化學(xué)習(xí)已經(jīng)在早期的控制論和人工智能研究中得到過了探索。盡管強化學(xué)習(xí)受到最早期的一些關(guān)于學(xué)習(xí)的計算研究的啟發(fā),但這些研究中的大部分都轉(zhuǎn)向了其它方面,比如模式分類、監(jiān)督學(xué)習(xí)和適應(yīng)性控制,或整體上放棄對學(xué)習(xí)的研究。
此外,那時候計算機的計算能力還是很有限的,所以要將強化學(xué)習(xí)應(yīng)用到真實世界問題上是很困難的,因為強化學(xué)習(xí)涉及到大量試錯,之后才能收斂到一個最優(yōu)策略,這可能會需要非常長的時間。長久以來,人們都在說我們會在2030年擁有足以支持強人工智能的算力。但Sutton博士認(rèn)為這不僅僅依賴于廉價的硬件,還依賴于算法。他認(rèn)為現(xiàn)在還沒有強人工智能的算法,但也許能在2030年之前實現(xiàn)它。
強化學(xué)習(xí)研究決策和控制,試圖讓機器在未知環(huán)境中做出最佳決策。因此,如今深度強化學(xué)習(xí)(DRL)已經(jīng)成為解決諸如游戲、決策問題、機器人控制等許多類型的問題的非常流行的方法。毫無疑問,AlphaGo是一個偉大的成就,它的水平提高速度是前所未有的。AlphaGo的成就很大程度上歸功于兩種技術(shù)的整合:蒙特卡洛樹搜索和深度強化學(xué)習(xí)。當(dāng)然,AlphaGo 缺乏一個關(guān)鍵要素:理解世界運行機制的能力,例如對物理定律的理解,以及對物體動作反饋的預(yù)測。
Alphago與李世石的“人機大戰(zhàn)”
這里就出現(xiàn)了一個問題,你只能在虛擬環(huán)境中自我對弈,而在現(xiàn)實環(huán)境中我們沒有類似于游戲的規(guī)則可循,現(xiàn)實生活是無限美好的,你知道當(dāng)你按下手機上的接聽鍵接聽一個來電,將會有一些事會發(fā)生,但你無法預(yù)測會發(fā)生什么,這不是游戲里已經(jīng)安排好的設(shè)定,很多事情你不知道結(jié)果會是什么。在游戲中自我對弈的缺陷就在于此。
強化學(xué)習(xí)寬泛地說來,就是讓機器可以理解這個世界,隨后利用自己所學(xué)的知識完成人類指定的任務(wù),糾正自主行為。像“AlphaGo”和“深藍”這樣的程序不需要知道世界運行的規(guī)律,它們知道下一步棋可能的落子位置,知道所有下一步會帶來局勢上的優(yōu)劣。人造系統(tǒng)現(xiàn)在已經(jīng)可以在這方面做得很好了,如果希望把這種決策和預(yù)測的方式應(yīng)用到其他領(lǐng)域中去,就需要一種新的機制,需要讓機器對世界建模,Sutton博士認(rèn)為這是目前最大的問題。現(xiàn)在對動態(tài)的真實世界缺乏有效的模型,無法讓機器在其中對抉擇與抉擇的后果進行模擬以不斷學(xué)習(xí)。一旦做到了這一點,就會構(gòu)建出更強大的人工智能。
超級計算機“深藍”
另外,機器要以何種方式作出預(yù)測?人類是以何種方式作出預(yù)測的?我們會試著用不同方法進行嘗試看看后果,但不會全部試到全部結(jié)束。例如,當(dāng)你走進一個房間,右手邊是一杯水,有一把椅子,還有一些其他家具和人。你對房間里其他人的交流,或者和物體的交互會獲得不同反饋,但人類只會去做一點點交互,也許永遠不會拿起那杯水,因為看著它就知道那是怎么回事了。這種從特定經(jīng)驗中學(xué)到的東西,被稱之為離策略學(xué)習(xí),這種方式是目前強化學(xué)習(xí)領(lǐng)域中的最大挑戰(zhàn)。
在路上開著的車有時會突然拋錨,任何人都不愿用這種方式來學(xué)習(xí)汽車的日常維護知識。但是預(yù)防性或定期維護檢查通常會錯過許多可能出現(xiàn)的問題,因此以色列的一家初創(chuàng)公司提出了一個更好的想法:利用人工智能監(jiān)控汽車可能會出現(xiàn)的問題。
位于以色列卡法薩巴城(Kefar Sava)的一家初創(chuàng)公司3DSignals,它的服務(wù)依賴于人工智能中的深度學(xué)習(xí)方法來理解問題機器的噪聲模式并提前預(yù)測問題。3DSignals已經(jīng)開始與領(lǐng)先的歐洲汽車制造商討論使用深度學(xué)習(xí)在自動化汽車工廠和汽車本身上檢測預(yù)防出現(xiàn)問題的可能性。3DSignals甚至與這些大公司談?wù)撌褂盟麄兊姆?wù)來自動檢測未來的無人駕駛出租車車隊的問題。
3DSignals依賴于人工智能中的深度學(xué)習(xí)方法來理解問題機器的噪聲模式并提前預(yù)測問題
許多公司(如谷歌和 Facebook)使用深度學(xué)習(xí)開發(fā)人工智能系統(tǒng),它們可以迅速在一百萬在線圖像中找到一個面孔,或一天內(nèi)進行數(shù)百萬次的漢英翻譯。許多科技巨頭也應(yīng)用深度學(xué)習(xí),從而使它們的服務(wù)能自動識別不同人類語言,并變得更加完善。但是很少有公司使用深度學(xué)習(xí)開發(fā)擅長檢測其他聲學(xué)信號(如機器或音樂的聲音)的機器。3DSignals希望能在深度學(xué)習(xí)聚焦于更廣泛的聲音模型上占據(jù)一席之地。
3DSignals為每個客戶安裝超聲麥克風(fēng),它可以檢測高達100千赫茲的聲波(人類聽力范圍在20赫茲和20千赫茲之間)。該公司的「物聯(lián)網(wǎng)」服務(wù)將麥克風(fēng)連接到計算設(shè)備,該計算設(shè)備可以處理一些數(shù)據(jù)并將信息上傳到在線網(wǎng)絡(luò),然后深度學(xué)習(xí)算法就開始處理數(shù)據(jù)??蛻艨梢允褂镁W(wǎng)絡(luò)連接設(shè)備(如智能手機或平板電腦)查看機器運行狀況。
3DSignals的第一批客戶是重工業(yè)集團的操作機械,如工廠中的圓形切割刀片或發(fā)電廠的水力發(fā)電渦輪機。這些公司最開始是通過購買3DSignals不使用深度學(xué)習(xí)的第一層服務(wù)。相對于使用深度學(xué)習(xí),第一層服務(wù)依賴于某些機器部件(例如圓形切割鋸)的基本物理數(shù)據(jù)進行建模,從而預(yù)測某些部件何時開始磨損。這樣就能使客戶從第一天起就獲得應(yīng)有的價值。第二層服務(wù)是用深度學(xué)習(xí)算法和麥克風(fēng)的聲音檢測來自機器的奇怪或異常噪聲,但只有第三層服務(wù)才能將聲音分類為指向具體類型的問題。不過在能清楚地指出問題之前,客戶需要首先將某些聲音模式標(biāo)記為屬于特定類型的問題,從而幫助訓(xùn)練深度學(xué)習(xí)算法。
3DSignals的第一批客戶是重工業(yè)集團的操作機械
訓(xùn)練后,3DSignals深度學(xué)習(xí)算法能夠以98%的精度預(yù)先識別特定的問題。但是目前使用3DSignals系統(tǒng)的客戶還沒有開始利用這種分類能力,他們還在手動標(biāo)記特定的問題與特定的聲音信號來建立訓(xùn)練數(shù)據(jù)集。如果一切順利,3DSignals可以在不斷增長的市場中擴大其領(lǐng)先地位,為工廠、發(fā)電廠和汽車車主提供“預(yù)測性維護”。即將到來的無人駕駛汽車可能對此會更加感興趣——它們需要在乘客不理睬汽車的問題時幫助檢測這些問題。
相關(guān)鏈接:
回6望7|《時代》評特朗普當(dāng)選2016“年度風(fēng)云人物”:他改寫了美國政治的游戲規(guī)則
回6望7|《經(jīng)濟學(xué)人》用八張塔羅牌預(yù)測不確定的2017年
聯(lián)系客服