中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
理解計算-從根號2到AlphaGo 第4季 凜冬將至

  作者簡介:大學教師

  研究方向:機器學習、信息安全




在新中國誕生的那一年,加拿大生理學家唐納德﹒赫布(Donald O. Hebb)出版了《行為的組織》 (《The Organization of Behavior》)一書,書中有一個后來被廣泛引用的句子:“當細胞 A 的一個軸突和細胞 B 很近,足以對它產生影響,并且持久地、不斷地參與了對細胞 B 的興奮,那么在這兩個細胞或其中之一會發(fā)生某種生長過程或新陳代謝變化,以致于 A 作為能使 B 興奮的細胞之一,它的影響加強了。[1]” 被廣泛引用的原因是這句話為后來神經網絡參數的學習提供了最早的生理學來源,為定量描述兩個神經元之間是如何相互影響的給出了一個大膽的論斷。

圖1 赫布及其學習規(guī)則


圖1的右邊表示兩個相鄰(相近)的神經元i和神經元j,藍色表示這個神經元沒有被激活,回顧一下第3季,也就是說輸出y=0,橙色表示神經元被激活,對應的輸出y=1?,F在我們考慮一下兩個神經元之間的關系,確切的說是神經元i對j的影響,需要特別指出的是這種影響不僅僅由神經元i決定,而是兩者在某種事件多次重復發(fā)生時的一種條件反射。

1) 第一種事件,神經元i沒有激活,而神經元j由于其他神經元對它的刺激而激活。


2)第二種事件則是神經元i被其他神經元激活,而神經元j沒有激活。很明顯,情況1和情況2如果經常發(fā)生的話,盡管兩個神經元離得很近,這種經驗或事實表明神經元j的突觸幾乎感覺不到神經元i對它的影響,這時神經元j的突觸對神經元i的刺激的敏感度就會下降,實際上,連接權值wij可以看作神經元j的突觸對神經元i的一種敏感程度。


3)第三種事件,則表明如果神經元i和j經常同時激活的話,神經元j的突觸對神經元i的刺激的敏感度就會提高,這個過程也被稱為突觸學習學說。

造成這三種事件發(fā)生的原因并不特別清楚,但是,結果卻顯而易見,就是兩個神經元之間的關系wij變化了。以上更新過程可以表示為如下的公式:

其中

是表示學習速率的常數,這個常數很容易理解,比如初始狀態(tài),
=1,wij(t)=0, 我們需要讓事件3發(fā)生100次,就可以得到wij =100。如果在初始狀態(tài)
=100,事件3只需要發(fā)生一次,就可以使wij =100。也就是說學習速率實際上表明了每一次事件3的發(fā)生對wij產生影響的大小。yiyj這一項意味著如果yi與yj同時被激活,即yi與yj同時為正,那么wij將增大。如果yi被激活,而yj處于抑制狀態(tài),即yi為正yj為負,那么wij將變小。有意思的是,在當前所謂的大數據時代,數據本身就是事件。


這個過程非常重要,但又容易被忽略且不太容易理解,我需要再次表明以上過程實際上分為兩個階段,這兩個階段分別對應現在機器學習中的:訓練和測試。在訓練階段,讓某種看起來沒什么聯系的兩個事件同時發(fā)生(或者僅僅觀察確實已經存在的這些現象),從而讓(或觀察)神經元(或某種機器)的聯系發(fā)生變化(減弱或增強)以建立或隔斷它們之間的聯系,這一階段也可以稱之為學習,盡管目前來看學習的目標不太明確,這里僅僅是建立一種強或弱關聯。接下來進入一個測試階段,通過讓(或觀察)一個事件發(fā)生,看一看這件事發(fā)生產生的效果。這也是被稱之為人工智能三大學派之一的“連接主義(Conectionism)[2]”的核心思想, 這個思想的核心是不關心事件之間的因果關系,只關心相關關系。這種相關性本質上是一種通過訓練得來的一種條件反射,這種相關性學習也被稱為“端到端”學習(Ending-to-Ending Learning),這個名字意味著不關心中間的過程及原因,只關心結果。這種連接主義的思想也被一些人風趣的稱為“吃啥補啥”派[3]。


條件反射的思想最早來自于獲得諾貝爾獎的第一位生理學家伊凡·彼德羅維奇·巴甫洛夫的實驗[4]。巴甫洛夫是專心投入學術研究的典型學者,他只專心研究,完全不注意衣食住行生活細節(jié)。他幾乎按照與他同時代的卡哈爾提出的尋找配偶的原則[5]找到了知識女性,教育系的女學生謝拉菲瑪(Seraphima Vasilievna)作為自己的妻子。 更厲害的是,他結婚時即約定,妻子不干涉他的研究,他則不負責家庭事務,并向妻子承諾,不飲酒、不打牌、不應酬,每年9月至次年5月,每周工作7天,只有暑假陪妻子到鄉(xiāng)下度假。謝拉菲瑪則把他們的生活料理得井然有序,專注似乎是偉大科學家所尋求的一個目標。

 圖 2 巴甫洛夫的狗


巴甫洛夫做了一個相當著名的實驗[4],中學生物課本上都有他的事跡,他利用狗看到食物或吃東西之前會流口水的現象,在每次喂食前都先發(fā)出一些信號(一開始是搖鈴,后來還包括吹口哨、使用節(jié)拍器、敲擊音叉、開燈……等等),連續(xù)了幾次之后,他試了一次搖鈴但不喂食,發(fā)現狗雖然沒有東西可以吃,卻照樣流口水,而在重復訓練之前,狗對于“鈴聲響”是不會有反應的。通過這種訓練過程,巴甫洛夫的發(fā)現開辟了一條通往認知學的道路,讓研究人員研究動物如何學習時有一個最基本的認識。這種把學習看成是一種條件反射的認識,也是機器學習思想的最初來源,直接影響了赫布建立第一個學習規(guī)則。然而涉及到動物的實驗通常并不溫和,他也曾把狗的食道切斷,讓食物在盤子和嘴巴之間循環(huán),操縱稱之為迷走神經東西,觀察胃液的分泌情況。


巴甫洛夫為學習提供了一種解釋,1943年麥卡洛克和皮茨設計了神經元的數學模型,借助條件反射思想,1949年赫布用數學模型描述了兩個神經元之間的連接是如何變化的,這種變化現在被稱之為學習律。只是這種學習的目的不太明確,看起來好像僅僅是通過訓練過程,讓兩件事情的相關性發(fā)生變化罷了。然而,借鑒這個學習律像人一樣去完成一些真正的任務的重擔卻落在了一個叫弗蘭克羅森布拉特( Frank Rosenblatt)的年輕人身上。


作為一名醫(yī)生的兒子,羅森布拉特就讀于美國布朗克斯科學高中(Bronx High School of Science) 是美國紐約最著名的是三所老牌重點高中之一,1938年建校以來,有8名諾貝爾獎獲得者畢業(yè)于此。據我所知至少有兩位圖靈獎獲得者(馬文·明斯基(Marvin Minsky)[6], 和萊斯利·蘭伯特(Leslie Lamport)[7], 馬文·明斯基由于對人工智能的開創(chuàng)性貢獻獲得了人工智能領域的第一個圖靈獎。蘭伯特則以發(fā)明分布式關鍵技術而獲得了2013年的圖靈獎。實際上,要不是羅森布拉特去世的早,獲得那個相貌平平的小銀碗根本不是問題?,F在看來美國的高中教育跟國內也不是一個檔次的。沒有證據表明羅森布拉特在高中時是否與比他高一年級的明斯基是否打過交道,但是后來的事實可以推測要么他們之間不認識,要么就是關系不怎么樣。明斯基高中畢業(yè)后到海軍服役一年,所以兩人同年入讀大學:明斯基到哈佛大學讀物理,羅森布拉特則到康奈爾大學讀心理學,都在1950年畢業(yè)。1956年,羅森布拉特從康奈爾大學獲得博士學位,進入康奈爾航空實驗室認知系統部從事心理學研究,得到美國海軍研究辦公室資助。在那里,羅森布拉特將迎來自己的人生巔峰。

圖3 羅森布拉特VS明斯基


1957年,羅森布拉特在航空實驗室用IBM704計算機仿真了感知機算法。需要說明的是,從這個時候開始,存儲程序計算機開始成為實現人工智能的有力工具。1954年推出的IBM704 [8]是一臺意義非凡的機器。在它之前,沒有計算機擁有能完成浮點運算的硬件。所有的浮點運算都只能用軟件模擬,這是一個相當耗時的過程。IBM 704系統在硬件中同時支持變址尋址和浮點運算。硬件上的完善進一步崔生了高級程序語言的出現,704也是第一款采用 Fortran編程語言的機器。如果不是IBM開發(fā)了704計算機和Fortran語言,不知道什么時候才會出現C和Python這樣的高級語言。更重要的是,704同時也是第一款采用磁芯內存的機器,在此之前,所有的計算機的輸入都遵從18世紀法國人約瑟夫·雅卡爾為織布機所設計的方案[9]:用打了孔的卡片為機器編制程序。利用磁性材料進行存儲的想法最早來自于美籍華人王安[10],他造出了磁芯存儲器并獲得專利,并將這個專利賣給了IBM,靠這筆收入,他開創(chuàng)了一個傳奇且教訓深刻的王安公司,他的故事并非我們的文章所關心的內容,但是也從側面證明20世紀50-90年代,產業(yè)界的激烈競爭集中在計算機的設計與開發(fā),而非人工智能領域的競爭。在那個時代,沒有哪一家公司能夠和IBM相提并論。實際上,縱觀整個計算機科學發(fā)展史,也沒有哪一個公司的地位能和IBM相比。這個被稱為“最強大的電子大腦”的IBM704,將協助羅森布拉特模擬真正的大腦,盡管這個大腦簡單到只有一個神經元。

圖 4 感知機原理及Mark I型感知機


我們在第1季的時候就介紹了感知機的基本原理,在那里我們從一種計算的角度,給定一個初始值并不斷更新結果來達到計算的目的。實際上,由海軍資助的這個項目的目標是造出一個會學習的機器(learning machine),這實在是跟我們如今申請的很多項目類似,一些人總是喜歡看見硬件擺在那里才覺得踏實。羅森布拉特首先在704上進行了模擬,這時候感知機實際上只是一個程序。兩年后,羅森布拉特將這個程序硬件化,并給他起名“Mark I Perceptron”(馬克I型感知機)[11]這個機器占據了整個實驗室,它包括三層結構,運作機制并不復雜。感知器的一端,400個光傳感器模擬視網膜;傳感器多次連接一組512個電子觸發(fā)器,當它通過一個特定的可調節(jié)的興奮閾值時就會像神經元一樣激發(fā)。這些觸發(fā)器連接到最后一層,當一個物體與感知器受訓見過的對象相互匹配時,它就會發(fā)出信號。這個模型可以完成一些簡單的視覺識別任務,如圖4所示。這個硬件中, 直線的權值是由電位計(potentiometers)來表示,它的更新則依賴一些電動馬達。英語國家的人們喜歡將他們某項重要發(fā)明稱之為Mark I型。在1944年,美國海軍就支持哈弗大學和IBM構建了一個自動按序控制計算器——Mark Ⅰ。更早一點,英國研制并在1916年第一次世界大戰(zhàn)期間服役的Mark I坦克是世界上第一種正式參與戰(zhàn)爭的坦克。還有大家更熟悉的鋼鐵俠:MarkI是托尼·斯塔克創(chuàng)造的第一個機甲。但是,第一個神經網路的硬件并不歸功于羅森布拉特,而是他的高中學長馬文明斯基。


明斯基在哈弗大學畢業(yè)后來到普林斯頓攻讀數學,在此,他建造了一臺學習機Snare[6],Snare是世界上第一個神經網絡模擬器,其目的是學習如何穿過迷宮,其組成中包括40個“代理”(agent)和一個對成功給予獎勵的系統。在Snare的基礎上,明斯基綜合利用他多學科的知識,解決了使機器能基于對過去行為的知識預測其當前行為的結果這一問題,并以“神經網絡和腦模型問題”(Neural Nets and the Brain Model Problem)為題完成了他的博士論文。明斯基的一項偉大工作是與麥卡錫在1955年夏天于達特茅斯學院組織了一場稱為人工智能夏季研討會(Summer Research Project on Artificial Intelligence)的活動,如圖5所示。這個會議的名字比它取得的所有成果都重要的多,第一次真正出現了AI這個詞。英國數學家菲利普·伍德華德(Woodward)說這個詞是它在1956年的時候訪問MIT的時候告訴麥卡錫的[12],我想他肯定是記錯了時間! 現在,人們把1955年夏天那個漫長會議作為人工智能誕生的日子。

圖5 麥卡錫以及達特茅斯學院夏季研討會的大樓


按正常發(fā)展,以神經網絡畢業(yè)的明斯基應該在該領域取得更大的成績,可是羅森布拉特的感知機卻提前占了上風,幾乎獲得了所有人的關注,1958年夏,羅森布拉特和他的贊助方美國海軍舉行了新聞發(fā)布會。《紐約時報》[13]當時報道說:“海軍透露了一種電子計算機的雛形,它將能夠走路、說話、看、寫、自我復制并感知到自己的存在……據預測,不久以后,感知器將能夠識別出人并叫出他們的名字,立即把演講內容翻譯成另一種語言并寫下來。那個時候,人們對“會學習的機器”抱有極大的熱情,來自軍方的資助和新聞媒體的關注使得羅森布拉特簡直成了一個風云人物,他不斷的拋頭露面,簡直是個明星。而此時的明斯基卻顯得沒那么風光?;诓⒉皇智宄脑颍鳛樯窠浘W絡曾經的支持者,明斯基開始偏向反對神經網絡,據說再一次會議上, 他和發(fā)明感知機的高中學弟大吵了一架,并宣稱神經網絡并不能解決人工智能問題。不管在當時還是現在,明斯基得基本觀點幾乎沒錯。但他隨后所作的工作卻讓人工智能特別是神經網絡的研究逐漸進入一個漫長的冬季。明斯基是在一次學術會議上跟西摩爾·帕普特(Seymour Papert)認識,而且非常有趣的是,當時兩人提交了幾乎一模一樣的論文,明斯基邀請帕普特來到MIT,于是就開啟了被后人調侃為“魔鬼搭檔”的新組合,這主要是他們合著了一本具有極大爭議的魔法書《感知機:計算幾何導論》[14](Perceptrons: an introduction to computational geometry )簡稱《感知機》,這本書并不是推廣感知機,而是宣判了它的死刑。 伴隨著這本書的出現,人工智能的研究開始偏向以邏輯推理為主的另一個派別,“符號學派”,然而符號學派的好日子也并不長。


現在來看,這本書的最初版本具有明顯的惡意,“羅森布拉特的論文沒有多少科學價值” [3],在第一版里竟然這樣直白的寫道。我們很難回到那個時代去追問當事人的內心想法, 但是這種行為的原因是可以分析的,有兩個很明顯的原因,主觀和客觀??陀^上,感知機確實存在不小的問題。我們在第2季中已經看到,感知機本身就是一條直線,它只能對線性可分的樣本進行處理。對線性不可分的數據,感知機沒法終止,并不是感知機算法找不到這條直線,而是這樣的直線根本就不存在,感知機的弱點并不在其學習規(guī)則,而在于其簡單的網絡結構。然而可怕的是,明斯基和帕普特用一個最簡單的卻又明顯不可分的異或問題來展示感知機的弱點,這給了感知機幾乎致命的打擊。主觀上,我的猜測是明斯基和帕普特對羅森布拉特所取得的關注帶有一些負面的情緒,說是嫉妒也不是不可以。


當時的計算機科學,并沒有多少大數據的概念,那時只要能解決邏輯運算的問題,這個機器就威力無窮,就像MP模型一樣。但如上一季看到的那樣, MP模型的問題在于必須人工設計參數,才能完成復雜運算。羅森布拉特的感知機更加雄心勃勃,他宣稱可以通過機器自動學習來實現很多操作(識別,運算,處理等),當然得包括簡單的邏輯運算了。實現這種運算,也并不需要人為設計,只需要把數據(事件)擺在這里,讓機器自己學習,然后,感知機就可以作為一種最簡單的邏輯運算器了。例如,為了實現與運算,我們只需要把與運算的輸入和輸出看作條件反射就行了,為了與麥卡洛克和皮茨得MP對比,我們將給出用感知機模擬“與門”的方法。首先“與運算”的規(guī)則很簡單,對于所有的二元邏輯運算,總共就只有四種輸入,分別對應于p1-p4這四個二維向量,向量的每一維表示了二元運算的一個輸入,運算結果根據運算的定義而不同,在“與運算”的定義下, 運算結果的輸出t1-t4也可以看作是這對輸入的標記,如圖6所示。

圖 6 感知機實現的與邏輯運算


對這個明顯的線性可分問題而言,感知機得心應手,很快就能找到這樣的直線,此時的直線就是一個與門運算單元。重要的是得到這條直線是如此的簡單,幾乎都是自動化的。依然有可愛的同學會覺得納悶,既然與運算的規(guī)則這么簡單,為何還要這感知機? 感知機去做這些確實有點牛刀殺雞的感覺,但是僅僅通過數據或事件的訓練來構造一個邏輯門的方法在那時可真是開天辟地的大事。你可以想到那些在平面上可以線性可分的邏輯門(例如,或門)都可以用感知機來模擬。


遺憾的是,異或門(XOR)對于羅森布拉特的感知機就沒那么簡單了。明斯基和帕普特就以此為例給了感知機致命一擊,在這個問題中,數據與之前類似,pi表示向量,ti表示它對應的輸出標記,可以看到,p2和p3是一類,p1和p4是一類,如圖7所示。異或運算是實際上可以看作是二進制的不進位加法,因此意義非凡。

圖 7 感知機無法模擬的異或(XOR)運算


不用多說,這兩類數據根本無法用一條直線把他們分開,感知機在這里完全不起作用。對這個簡單的異或問題,感知機看起來幾乎徹底失敗了。實際上, 在當時,很多人已經知道,簡單的感知機確實存在這樣的問題,盡管明斯基和帕普特也承認,幾層相互連接的神經元能做的可能夠多,但是他們找不到研究這些神經元的方法,其他人也一樣。


現在我必須不情愿的再次給出感知機相對嚴格的表達,從而才能看出它的問題所在,以及困難之處。在這里我將給出它與MP模型以及Hebb學習規(guī)則之間的關系。羅森布拉特的感知機表示的神經元與麥卡洛克和皮茨的神經元幾乎一樣,只是缺少了一個控制信號I(請參考第三季神經元的數學模型)。單個神經元本身也可以看作是一個激活函數g(z)。

x1,...,xm是輸入,w1,...,wm則是權值,注意上面的式子里有一個θ,激活函數本身的定義就反映了神經元的“全或無法則”。為了讓這個式子更加簡單,可以把閾值θ進一步放在z的一邊,并定義,w0 = -θ 以及 x0 = 1, 這樣,上面的式子變得更加整齊:

此時,感知機本身從結構上可以表示成如圖8所示的一個神經元:

圖 8 用神經元表示的感知機


我們需要再一次強調,感知機的偉大之處在于它給出了一個自動獲得w的學習規(guī)則,這個學習規(guī)則:

1)首先隨機的初始化一個w值

2)對每一個樣本xi,計算當前的激活函數值g(z)=g(wTxi),然后根據g(z)的值進行更新。

具體而言,g(z)的輸出記作outputi,感知機利用outputixi本身的標記targeti之間的關系來更新w。更新w的規(guī)則反映了羅森布拉特的天才智慧,更新規(guī)則如下:

這個規(guī)則與 Hebb 學習規(guī)則形式上有些類似,只是將 w 以及xi的標記引入到了更新規(guī)則中,這個規(guī)則保證了只有錯分樣本能夠更新直線的參數 w。


盡管感知機只能在兩類樣本線性可分的情況下找到這條直線,但是并不是說它在線性不可分的時候一無是處,如果兩個類不能被線性決策邊界分隔,我們可以設置一個迭代次數(epochs)和/或一個閾值,用于容忍錯誤分類的數量。實際上,這個技巧是目前所有深度學習必須掌握的,因為他們面臨與感知機幾乎一樣的尷尬情景,線性分類器無法解決線性不可分,而深度學習無法找到最優(yōu)解,他們不能自己停下來,必須人為的進行干涉。圖9給出了迭代多次的感知機如何應對線性不可分的問題。

圖9  感知機處理線性不可分問題


1960年,斯坦福大學的Bernard Widrow和它的博士生Ted Hoff在MP模型和感知機的基礎上,提出了一個稱之為自適應線性神經元: Adaptive Linear Neuron (Adaline)的模型[15],這個模型比感知機更接近現在的神經網絡,更加重要的是,這個模型為下一步為20多年后神經網絡的復興埋下了伏筆。這個神經元與感知機非常相似卻又有明顯不同,如下圖10所示[16]:

圖 10 感知機(上圖)和Adaline的學習規(guī)則[16]


結構上看,它增加了一個量化器來保證輸出滿足要求。另一方面,為了讓參數w能夠更新,它引入了一個可微的線性激活函數來替代感知機的階躍激活函數。這個可微的激活函數導致的結果就是,由這個激活函數,可以定義一個評價w值性能好壞的代價(誤差)函數,從而讓尋找w變成了一個簡單的優(yōu)化問題。千萬不要小看個微小的改變,這個可微的代價函數的引入卻幾乎使現在的深度學習再也逃不出這個框架了。最小化代價函數也是其他類型機器學習算法的主要思想。Adaline引入的代價函數非常簡單,就是最常見的均方誤差函數(Sum of Squared Errors :SSE):

這個均方誤差的含義也十分明顯,對給定的一個 w,希望所有的樣本都能滿足自身的標記target 和模型的輸出 output 一致。如果代價 J 比較大,則修改 w 讓 J 變小。平方的引入使得這個函數 J 本身變成一個凸函數。我們可以使用梯度下降(gradient descent)的方法來解決這個問題,根據梯度下降方法的基本原理(由于篇幅原因,我們將在后面的文章中詳細介紹這個原理的背景知識),該過程可以描述成如下的一個圖形[16],w 只要沿著 J(w)在 w 的梯度的相反方向移動,就可以讓 J(w)的值下降,當 J(w)關于 w 的梯度下降到零(或者接近零)的時候,意味著 J(w)達到了一個局部最小值,如果 J(w)是一個凸函數,則局部最小就是全局最小。

圖11 代價函數J的梯度下降方法[16]


注意,此時w變成了代價函數的參數,我們的優(yōu)化問題的目標是尋找J達到最小值時對應的參數w,而不是J的最小值本身。每一次更新的w可以看作求解根號2時的一個新的猜測,不過這個猜測依賴J關于w的梯度罷了。更具體一點,我們先考慮J(w)在一個方向上的偏導數。

其中,(t = target, o = output), 根據梯度下降的學習規(guī)則,在這個方向上可以得到:

在不同方向上的偏導數構成的向量就是梯度,Adaline的更新規(guī)則如下:

其中,?w表示J關于w的梯度向量的相反方向,非常巧合地是,單從形式上看,感知機的更新規(guī)則跟Adaline看起來很像,但是o的含義不同, 在感知機中, o就是激活函數的輸出,它只有兩個值1,-1。而在Adaline中,o是一個實數。同時,注意到Adaline的J(w)實際上依賴所有的樣本的整體結果,而在感知機中, 每一次更新,只依賴一個樣本。因此,如果你非得把感知機得更新也看成是J(w)的梯度下降的話(實際上是不能這么認為,因為感知機根本沒有代價函數梯度下降的思想,而是直接給出了w的更新規(guī)則),它則是類似隨機梯度下降( stochastic gradient descent)方法,該方法每次只利用一個樣本來計算梯度,而Adaline屬于批量梯度下降(batch gradient descent)方法,該方法需要利用所有樣本來計算梯度。Adaline通過引入代價函數,利用了早已經提出的梯度下降方法來解決優(yōu)化問題,實際上Adaline也可以改進成隨機梯度下降,這樣就跟感知機更加相似了。但是他們的之間依然存在本質的不同,原因就在于線性激活函數以及代價函數的引入。從形式上看,他們還是太像了,很多人都認為感知機可以直接寫成梯度下降的形式,然而這是Adaline的功勞。按照我們第一季給出的計算的流程, Adaline的流程圖如下所示,其中

是用來表示梯度的通用記號。

圖12  Adaline引入代價函數和梯度下降的學習規(guī)則


以上的流程非常重要,幾乎是到目前為止所有深度神經網絡都共同遵守的流程。然而,由于Adaline和感知機本身的樣子還是一條直線,它們存在一樣的致命問題,都無法解決線性不可分的情況。1969年,當魔鬼搭檔出版那本《感知機》后,這種線性分類器的日子都不太好過。那么到底如何解決線性不可分問題呢?明斯基和帕普特特別指出需要多層感知機——亦即現在所謂的多層神經網絡——才可以完成這一任務,羅森布拉特的感知機被認為是單層感知機,也有看作雙層的(下圖左),這取決于你怎么看待它。然而三層及以上的神經網絡就像下面這個樣子(下圖右)。在多層神經網絡中,多個感知機的輸出作為另一個感知機的輸入。關鍵的問題是羅森布拉特的學習算法對多層并不管用,Adaline的方法也不管用。那些處在多層神經網絡中間層(隱含層)的神經元的權值(w1),在當時無法進行調整。因為感知機和Adaline只有兩層,他們直接建立了輸出層對參數w是如何影響的,并確立了簡單的更新規(guī)則,但是對多層網絡而言,實在是很難想到網絡的輸出對隱含的層中參數w1的影響。這種困難在Aadline看來,就是無法容易的求出多層神經網絡中代價函數對于所有參數w (w1及w2)的偏導數。這個問題對當時以及后來很長一段時期的人們,都是很困難的。在《感知機》出版后的十多年,也幾乎沒人(實際上有但被忽略了)找到一個比較好的求導數(梯度)的方法。連明斯基都以挑釁的口吻在書中寫道:“證實(或推翻)把感知機推廣到多層這個想法是沒有希望的這一看法將是一個重要的研究內容?!?/p>

圖13 看作2層神經網絡的感知機(左圖)和多層感知機


1973年,英國科學研究委員會請一位叫James Lighthill的數學家[17]撰寫了一份關于人工智能研究的評估報告,如下圖所示:在這份著名的“Lighthill Report”中, Lighthill對諸如人工智能中的機器人技術和語言處理等基礎領域的基礎研究提出了強烈批評,并給出最終結論:“迄今為止,AI各領域的發(fā)現并沒有帶來像預期一樣的重大影響” [17]。這為英國政府大范圍終止對人工智能研究的決定奠定了基礎。這份報告意味著從1974年開始,人工智能的研究進入漫長的冬季(AI Winter)。令人驚奇的是,就在1974年,哈弗大學的博士生Paul J. Werbos在他的博士論文《New Tools for Prediction and Analysis in the Behavioral Sciences》[18]中,詳細描述了如何利用誤差的反向傳播來訓練人工神經網絡。然而哈弗畢竟不是MIT,這篇經典的文獻在當時并沒有引起太多反響,因為冬天已經來臨,很多人工智能的研究人員得不到資助,甚至論文也無法發(fā)表。沒有多少人意識到這篇文章的重要價值,這種情況除了得感謝《感知機》以外,就要數Lighthill的報告了,難以置信的是這兩個文獻的封面竟然如此相似!

圖14 1969年明斯基和帕普特的《感知機》

 以及1973年Lighthill 的《人工智能》報告


然而,羅森布拉特甚至沒有等到1974年。在1971年7月11日,在43歲生日的那一天,羅森布拉特在劃皮艇的時候喪生。據說可憐的他連遺體也沒有找到。很多人懷疑他是自殺,甚至一些人將他可能自殺的原因歸結為《感知機》這本書給他帶來的壓力。在他去世前不久,還有一項不為多少人了解的重要發(fā)現。1971年羅森布拉特在一個關于天文學的期刊《ICARUS伊卡洛斯》上發(fā)表了一篇文章,探討了如何通過測量其他恒星的星光,來尋找這些恒星周圍的行星[19]。如果一顆行星從恒星和你的望遠鏡之間經過,你會看到光的強度略有下降。在此之前,天文學家大都嘗試用天體測量的方法尋找行星,也就是測量由于行星引力導致的恒星位置的變化。羅森布拉特的這篇文章,在同一年被比爾·博魯茨基發(fā)現,這堅定了博魯茨基利用光學技術以及望遠鏡尋找行星的工作。博魯茨基和他的同事們持續(xù)完善改進羅森布拉特的方法,作為著名的開普勒太空望遠鏡(Kepler)項目的提出者之一、首席科學家,比爾·博魯茨基發(fā)起的開普勒探測器計劃從2009年開始對銀河系內10萬多顆恒星進行探測,希望搜尋到能夠支持生命體存在的類地行星。2015年,開普勒的最新成果是確認了第一個與地球近似大小、圍繞一個類太陽恒星運轉、公轉軌道位于宜居帶內的行星Kepler-452b。 在不可預見的將來,如果人類在宇宙中成功尋找到了智慧生物或與地球一樣適宜人居的星球,我們也要銘記這位為人工智能做出杰出貢獻且英年早逝的科學家。


盡管神經網絡的研究進入寒冬,被人忽略的1974年反向傳播思想的提出預示著一定會有另一些人在另外的合適時間及場合重新發(fā)現這個神經網絡的救命稻草。我們還會看到一些學者的堅持,使得這個漫長得冬天并非那么寒冷,就像大家經常說的那樣,冬天來了,春天還會遠嗎?

 

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
凜冬將至:人工智能的繁榮與寒冬
黃鐵軍:電腦傳奇(中篇)智能之爭
深度|神經網絡和深度學習簡史(第一部分):從感知機到BP算法
木舟| 圖解人工智能歷史上的大神們 | ——閑著讀點書系列
人工智能神經網絡中的基礎概念有哪些?
人工智能的核心技術
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服