人工智能(AI)的最新進展已經(jīng)重新引起了人們對構(gòu)建像人們一樣學習和思考的系統(tǒng)的興趣。許多進步來自于使用深入的神經(jīng)網(wǎng)絡訓練端對端的任務,如對象識別,視頻游戲和棋類游戲,實現(xiàn)等于甚至在某些方面擊敗人類的性能。除了他們的生物靈感和績效成就,這些系統(tǒng)不同于人類智力在關鍵的方式。
我們回顧認知科學的進展,表明真正的人類學習和思維機器將不得不超越當前的工程學趨勢,他們學習什么,以及他們?nèi)绾螌W習它。具體來說,我們認為這些機器應該:
(a)構(gòu)建支持解釋和理解的世界的因果模型,而不是僅僅解決模式識別問題;
(b)物理學和心理學關于直覺理論的基礎研究,支持和豐富所學的知識;
(c)利用組合性和學習 - 學習來快速獲得知識并將其推廣到新的任務和情況。
對于這些目標,我們提出具體的挑戰(zhàn)和有希望的路線,結(jié)合最近的神經(jīng)網(wǎng)絡進步的優(yōu)勢與更結(jié)構(gòu)化的認知模型。
超過五十頁的論文看上去很費勁,除非像“Building machines that learn and think like people“這樣的,才值得花時間看。
我肯定我們會看到問題的規(guī)模越來越大,在這些方面我們是還有很多提升的空間
數(shù)據(jù)效率 - 使用比當今模型少得多的訓練數(shù)據(jù),將模型訓練到一定水平的熟練程度。
培訓時間 - 與數(shù)據(jù)效率密切相關,達到一定水平的熟練度,大大減少了培訓時間。
適應性 - 能夠在學習新任務時更有效地利用先前的“知識”(訓練模型)(這也意味著需要更少的數(shù)據(jù),培訓時間更短)。
此外,我希望,來自研究團隊和工業(yè)實驗室的一些奇妙的驚喜。 “建筑機器學習和思考像人一樣”通過詢問人類似乎學習什么來研究這些問題,我們?nèi)匀辉谛阅苌蟽?yōu)于最先進的機器學習系統(tǒng),以及為什么會是這樣。 這是類似于“Towards deep symbolic reinforcement learning”,這是我最喜歡的論文,在過去幾個月。
模式識別與模型構(gòu)建
像Garnelo等人看到基于統(tǒng)計模式識別的學習系統(tǒng)與建立他們可以推理的世界的一些模型的學習系統(tǒng)之間的重要區(qū)別。
模式識別方法可以發(fā)現(xiàn)具有一些共同點的特征的事物 。例如,在大量不同的訓練數(shù)據(jù)集中分類標簽。模型建立方法創(chuàng)建模型來理解和解釋世界,想象行動的后果,并制定計劃。
“模式識別和建模之間,預測和解釋之間的差異,是我們對人類智能觀點的核心。 正如科學家尋求解釋自然,而不是簡單地預測它,我們認為人類思想本質(zhì)上是一個建?;顒印!?/p>
兩個挑戰(zhàn)揭示目前的局限性
在認知科學中,我們不認為思想是從一開始就很少限制的通用神經(jīng)網(wǎng)絡。相反,(大多數(shù))認知科學家認為我們從一些早期歸納偏差開始,其中包括核心概念,如數(shù)量,空間,代理和對象,以及依靠先驗知識從少量訓練數(shù)據(jù)提取知識的學習算法。Lake 等人提出兩個簡單的挑戰(zhàn)問題,突顯其中一些差異。
字符識別
如果機器學習領域具有寵物商店,那可能是識別來自MNIST數(shù)據(jù)集的數(shù)字0-9。機器現(xiàn)在可以在這個任務上達到人類水準,所以到底有什么問題?與機器學習系統(tǒng)相比:
人類從更少的例子中學習(我們可以學習從單個示例中識別新的手寫字符)
人類學習更豐富的表示法...
“人們學習的不僅僅是如何做模式識別,他們學習一個概念 - 即一個類的模型,允許他們獲得的知識以新的方式靈活應用。除了識別新的例子,人們還可以生成新的例子,把一個字符解析成幾個重要的部分和關系,并生成新的字符給定一小組相關的字符。這些額外的能力隨著認識基本概念而來。即使對于這些簡單的視覺概念,人們?nèi)匀槐茸詈玫淖址R別算法更好。人們從更少的材料中學到更多東西,并且在機器中捕捉這些人類學習能力是 Characters Challenge?!?/p>
玩 Frostbite
Frostbite是DeepMind團隊訓練一個DQN來玩的49個Atari游戲之一。其中29個游戲達到了人類水準,但Frostbite需要更長遠的規(guī)劃策略,這對 DQN 來說非常困難。“Frostbite Bailey”必須在時間限制內(nèi)建造一座冰屋,同時跳上浮冰,收集魚類和避免危險。
“有趣的是,雖然DQN用很少的先驗知識訓練到人類水準,但是DQN用完全不同于人類的方法,學習玩 Frostbite 和其它游戲”
它需要更多的訓練時間 - DQN與只有有2小時的訓練時間的職業(yè)玩家進行比較; DQN用了38天,在受控測試期間達到了人類水平的10%以下。
人類可以在幾分鐘內(nèi)掌握游戲的基礎?!拔覀兺茰y,人們通過推出一種通用模式描述游戲的目標和對象的類型以及他們的交互,并運用各種直覺理論、建模能力,以及我們下面描述的基于模型的計劃機制?!?/p>
人類可以快速適應他們所學到的新目標。例如:獲得最低的分數(shù); 獲得最接近卻又不超過限制的分數(shù); 恰好在時間點擊零之前最晚通過每一關; 得到盡可能多的魚等等。
“這一目標突出了人類智能的一個重要組成部分:人們可以學習模型,并將其用于任意的新任務和目標?!?/p>
當然,人類可以快速學習和適應的原因之一是,我們可以處理具有廣泛的先前經(jīng)驗的新問題,而DQN從頭開始。我們?nèi)绾螛?gòu)建不總需要從頭開始的機器學習系統(tǒng)?
“我們?nèi)绾螏碡S富的先驗知識,以快速地學習新任務和解決新問題?先驗知識采用什么形式,以及它是如何構(gòu)建的,從內(nèi)置能力和以往經(jīng)驗的某種組合?“
接下來的三個部分突出介紹了應對這一挑戰(zhàn)的一些核心要素。
“...下一代的神經(jīng)網(wǎng)絡將看起來與當前的最先進的技術非常不同。他們可以被賦予直覺物理學,心理理論,因果推理和其他能力...“
直觀的物理學
如果你通過深度學習和Wolfram Alpha ++,你會得到什么?人類在其發(fā)展周期的早期對數(shù)個核心領域有了了解,包括數(shù)字,空間,物理和心理學。
“在2個月也許更早的時候,人類嬰兒期望無生命物體遵循持久性,連續(xù)性,內(nèi)聚性和堅實性的原則。年輕的嬰兒認為物體應該沿著平穩(wěn)的路徑移動,不眨眼進出現(xiàn)有的,不是相互穿透的,而不是在遠處行動...?!?/p>
6個月的時候,進一步的期望圍繞剛體,軟體和液體發(fā)展。12個月的時候有了如慣性,支持,遏制和碰撞的概念。
“在深度學習系統(tǒng)中嵌入或獲取這種物理直覺的前景是什么?“
來自Facebook AI Team 關于 PhysNet 的一篇的論文可能是朝這個方向邁出的一步 - 它可以學習對具有兩個,三個或四個立方體塊的塔的穩(wěn)定性進行簡單的“Jenga-style”計算。它對真實圖像處理達到人類水準,在模擬圖像上超過人類水準。PhysNet確實需要大量的訓練,而人們不需要那么多訓練,而效果卻更好。
“深層學習系統(tǒng)如PhysNet是否能捕獲這種靈活性,而不需要明確模擬三維物體之間的因果關系?我們不能確定,但我們希望這是他們將要承擔的挑戰(zhàn)?!?/p>
直覺心理學
我們不知道這是怎么做到的,一個解釋是使用行為選擇的生成模型(“貝葉斯理論”模型)。這些模型將諸如“目標”,“代理”,“規(guī)劃”,“成本”,“效率”和“信念”等概念形式化。通過模擬agent的規(guī)劃過程,人們可以預測下一步可能做什么,或者從一系列推斷agent所相信和使用的行為反過來推導。
“與對象和力量一樣,尚不清楚這些概念(代理,目標等)的完整表示是否可以從純粹的預測能力訓練的深層神經(jīng)網(wǎng)絡中出現(xiàn)...“
例如Frostbite挑戰(zhàn) - 看著一個專業(yè)玩家玩,直覺心理學讓我們推斷玩家的信念,欲望和意圖?!袄纾接薪?jīng)驗的玩家避開鳥類,我們可以學到應該躲開鳥類。我們不需要經(jīng)歷遇到一只鳥的一個例子 – 而是看著FrostbiteBailey 因為鳥死了 - 推斷鳥可能是危險的。
“有幾種方法可以將直覺心理學納入當前的深度學習系統(tǒng)中...。簡單的歸納偏差,例如發(fā)現(xiàn)有東西要移動其它東西,可以引導關于更抽象概念的推理。同樣,大量的目標導向和社會導向,也可以以一種可以與其他認知能力共享的方式,歸結(jié)為簡單的實用微積分。“
學習作為模型建設
兒童(和成人)具有“一次性”學習的巨大能力 – 例如,一把梳子、一個菠蘿或一把光劍,孩子理解其類別,“掌握無限集合的邊界,它定義了所有可能物體的無限集合中的每一個概念。
“不同于人類學習的高效,由于神經(jīng)網(wǎng)絡高度靈活的近似函數(shù)而具有通用性,神經(jīng)網(wǎng)絡是眾所周知需要大量數(shù)據(jù)。”
即使只有幾個例子,人們可以學習豐富的概念模型。例如,在看到一個新型兩輪車的例子之后,一個人可以繪制新的實例,將概念解析為其最重要的組件,或者甚至通過熟悉的概念的組合創(chuàng)建新的復雜的概念。
“這種豐富性和靈活性表明,模型建設式的學習比模式識別式的學習更好。此外,人類一次性學習的能力表明,這些模型建立在豐富的領域知識基礎上,而不是從空白開始?!?/p>
本文的作者開發(fā)了一種使用貝葉斯程序?qū)W習(BPL)的算法,該算法將概念表示為簡單隨機程序 - 結(jié)構(gòu)化過程,在執(zhí)行時生成概念的新示例。
“這些程序讓模型表達關于如何形成原始數(shù)據(jù)的因果知識,并且概率語義允許模型處理噪聲和執(zhí)行創(chuàng)造性任務。概念之間的結(jié)構(gòu)共享是通過隨機原語的組合重用來實現(xiàn)的,可用新方式組合以創(chuàng)建新概念?!?/p>
BPL在具有挑戰(zhàn)性的一次性分類任務中達到了人類水平。
另一個有趣的模型是因果模型。篇幅有限,我不會在這里討論它,但是在論文§4.2.2中有詳細論述。
作者在本節(jié)中討論的最終領域是“學會學習”:
“雖然遷移學習和多任務學習已經(jīng)是AI的重要主題,特別是深度學習沒有做出像人類一樣快速和靈活地學習新任務的系統(tǒng)...為了獲得人類從學習中獲得的全部好處AI系統(tǒng)可能首先需要采用我們上面論述的更具組合性(或更多類似語言)和因果形式的表示。“
例如,學習基于直觀物理學和心理學基礎的游戲的組成結(jié)構(gòu)的因果模型的系統(tǒng)可以更有效地傳遞知識,從而更快地學習新游戲。
“分層貝葉斯(Hierarchical Bayesian)模型運行在概率程序,用來處理類似理論的結(jié)構(gòu)和豐富的因果表示,但有對于高效推理還有強大的挑戰(zhàn)...對于程序或理論學習發(fā)展迅速的領域,人們可能采用inductive biases不僅用于評價假設,而且用于指導假設選擇?!?/p>
例如,“20英寸”不可能是問題“林肯誕生了什么年份”的答案。最近的工作嘗試使用前饋映射來解決這個挑戰(zhàn),以攤銷概率推理計算。參見論文§4.3.1。
在ML主流之外?
如果以上介紹引起了您的興趣,我們鼓勵您查閱完整的論文。如果我們要看到這種機器學習的突破,很可能是由那些記住早期的AI的人,或那些工作在主流以外開發(fā)的人。
Building Machines That Learn and Think Like People https://arxiv.org/abs/1604.00289
新智元招聘
職位 執(zhí)行總編、主編
職位年薪:50萬(工資+獎金)-100萬元(工資+獎金+期權)
工作地點:北京-海淀區(qū)
所屬部門:編輯部
匯報對象:CEO
下屬人數(shù):20人
年齡要求:25 歲至 40 歲
語 言:專業(yè)英語八級以上或海外留學從業(yè)背景
職位背景:在IT媒體領域有專業(yè)團隊管理經(jīng)驗與主流話語權學歷要求:碩士及以上
職位描述:
熱愛人工智能和媒體事業(yè);
具有3年以上媒體采編經(jīng)驗,在業(yè)內(nèi)有一定影響力及人脈;
具有原創(chuàng)+編譯團隊管理經(jīng)驗,善于部門間協(xié)作溝通;
對TMT領域有深入理解,對行業(yè)趨勢有獨到的洞察;
英文閱讀寫作及溝通能力優(yōu)異;
較強的抗壓能力和自驅(qū)力,能在競爭激烈的環(huán)境下激勵團隊;
具有創(chuàng)業(yè)精神及團隊精神,有恒心肯吃苦;
理工科背景優(yōu)先,有知名企業(yè)或知名媒體機構(gòu)工作經(jīng)驗者優(yōu)先。
職責
全權負責新智元內(nèi)容平臺策劃、生產(chǎn)與運營,對內(nèi)容質(zhì)量、用戶閱讀體驗、影響力負責。具體負責完成對內(nèi)容平臺定位和規(guī)劃,組建并管理采編團隊,策劃執(zhí)行重點選題,建立和維護供稿作者資源;監(jiān)控公眾號各項數(shù)據(jù)指標變動,并以此為基礎改進提升內(nèi)容質(zhì)量。
新智元歡迎有志之士前來面試,更多招聘崗位請訪問新智元公眾號
聯(lián)系客服