中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
探索強(qiáng)化學(xué)習(xí)算法背后的思想起源!

接受生物大腦的混亂和電子大腦的秩序

人們對(duì)人工智能的追求總是與另一場(chǎng)斗爭(zhēng)交織在一起,更富有哲理、更浪漫、更不切實(shí)際。因此需要對(duì)人類智能有著更好的理解。

雖然目前在監(jiān)督學(xué)習(xí)方面的突破似乎是基于優(yōu)化的硬件、復(fù)雜的訓(xùn)練算法和過(guò)于復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu),但強(qiáng)化學(xué)習(xí)仍然是比較傳統(tǒng)陳舊。

這個(gè)想法很簡(jiǎn)單:如果你是一個(gè)環(huán)境中的學(xué)習(xí)代理。我們假設(shè)你的目標(biāo)是滿足自己的需求(不是嗎?),那么你就會(huì)采取行動(dòng)。基于這些行為,環(huán)境會(huì)以獎(jiǎng)勵(lì)來(lái)回應(yīng),你可以根據(jù)獎(jiǎng)勵(lì)調(diào)整行為,以最大限度地提高自己的滿意度。

RL有限制嗎?已故的日本將棋(shogi)選手村上佐治在面對(duì)AlphaGo Zero時(shí)發(fā)表聲明, '計(jì)算機(jī)打敗職業(yè)游戲玩家的日子永遠(yuǎn)不會(huì)到來(lái)',但這個(gè)聲明已經(jīng)遭到現(xiàn)實(shí)的打擊。

我們花了很長(zhǎng)時(shí)間才把生物體通過(guò)強(qiáng)化和人工智能學(xué)習(xí)的能力聯(lián)系起來(lái)。早在1948年,圖靈就描述了一種享樂(lè)-痛苦系統(tǒng)(pleasure-pain system),該系統(tǒng)遵循幾十年后建立的強(qiáng)化學(xué)習(xí)規(guī)則。

智力是適應(yīng)變化的能力——斯蒂芬·霍金斯

由于其簡(jiǎn)單性,社區(qū)的第一次嘗試針對(duì)西洋雙陸棋(Backgammon)游戲,提供少量離散狀態(tài)和簡(jiǎn)單規(guī)則。如今我們有人工智能代理使用強(qiáng)化學(xué)習(xí)來(lái)玩雅達(dá)利(Atari)、我的世界(Minecraft)和翻轉(zhuǎn)煎餅(flip pancakes)游戲。那么,我們是如何做到這一切的呢?簡(jiǎn)短的回答是深度學(xué)習(xí)。

本文將探討更多的答案。它將探索我們幾十年來(lái)一直使用的強(qiáng)化學(xué)習(xí)算法背后的思想的起源。我們最近的成功不僅僅是深度神經(jīng)網(wǎng)絡(luò)的產(chǎn)物,而且是深層觀察歷史、結(jié)論和理解學(xué)習(xí)機(jī)制的嘗試。

強(qiáng)化學(xué)習(xí)是一個(gè)難以追溯的起源領(lǐng)域。它的大部分理論基礎(chǔ)都是控制理論家的。馬爾可夫決策過(guò)程是最優(yōu)控制問(wèn)題的離散隨機(jī)版本,因此幾乎所有的強(qiáng)化學(xué)習(xí)算法都是基于控制理論中推導(dǎo)出的解決方案,這不足為奇。

然而,控制理論提供的背景不足以創(chuàng)建強(qiáng)化學(xué)習(xí)。我們?nèi)缃袢匀皇褂玫乃惴ㄐ枰T如經(jīng)典條件學(xué)和時(shí)間差異學(xué)習(xí)之類的思想來(lái)形成學(xué)習(xí)的過(guò)程。

如果不是少數(shù)好奇的生物學(xué)家、心理學(xué)家和不守規(guī)矩的計(jì)算機(jī)科學(xué)家的努力,人工智能社區(qū)可能不會(huì)擁有實(shí)施學(xué)習(xí)的工具。

我們?nèi)绾卧诓豢深A(yù)見(jiàn)的情況下采取行動(dòng)?如何采納我們的行為?環(huán)境如何影響我們的行為?我們?nèi)绾胃倪M(jìn)?如何學(xué)習(xí)技能?

這是一個(gè)反復(fù)試驗(yàn)的世界

桑迪克(Thorndike)在1898年做了一個(gè)實(shí)驗(yàn),也許對(duì)他的貓感到非常生氣,或者可能對(duì)動(dòng)物的行為非常好奇。他把貓鎖在一個(gè)籠子里,并在籠面放了一盤(pán)美味的魚(yú),貓只能通過(guò)拉動(dòng)杠桿逃離籠子,才能吃到魚(yú)。

貓會(huì)怎么反應(yīng)?

沒(méi)有推理,也沒(méi)有推理或比較的過(guò)程,沒(méi)有思考事物,沒(méi)有這兩個(gè)事物放在一起。并且沒(méi)有想法,動(dòng)物也不會(huì)想到籠子、食物或者將要實(shí)施的行為。

桑迪克觀察到的是他的貓看起來(lái)并不聰明:它剛開(kāi)始在籠子中到處走動(dòng),并不急于出籠,只有當(dāng)它通過(guò)隨機(jī)機(jī)會(huì)拉動(dòng)杠桿并自行釋放時(shí),才會(huì)開(kāi)始提高其逃脫技能。

根據(jù)這一觀察結(jié)果,桑迪克提出了一個(gè)效果定律,該定律規(guī)定任何可能帶來(lái)愉快后果的行為都可能會(huì)重復(fù)出現(xiàn),并且任何可能導(dǎo)致不愉快后果的行為都可能會(huì)被制止。

這項(xiàng)法則引起了操作性條件反射領(lǐng)域,由斯金納(Skinner)于1938年正式定義。對(duì)于強(qiáng)化學(xué)習(xí)社區(qū),它提供了制定代理的理由,這些代理基于獎(jiǎng)勵(lì)及其與環(huán)境的互動(dòng)來(lái)學(xué)習(xí)政策。

它還為我們提供了關(guān)于動(dòng)物學(xué)習(xí)的新見(jiàn)解,因?yàn)樾Ч▌t可疑地類似于當(dāng)時(shí)眾所周知的另一種法則:自然選擇。我們的理智是否能成為適者生存的理念?

然而,有兩個(gè)特點(diǎn)使強(qiáng)化學(xué)習(xí)成為一個(gè)獨(dú)特的過(guò)程:

  • 它是選擇性的。這與監(jiān)督學(xué)習(xí)不同,因?yàn)榇頃?huì)嘗試各種選擇,并通過(guò)比較它們的結(jié)果來(lái)從中進(jìn)行選擇。
  • 它是聯(lián)想的。這意味著通過(guò)選擇找到的替代方案與特定情況或狀態(tài)相關(guān)聯(lián),以形成代理的策略。自然選擇是選擇過(guò)程的一個(gè)主要例子,但它不是關(guān)聯(lián)的。

'我們就是要反復(fù)做。因此,卓越不是一種行為而是一種習(xí)慣。'- 亞里士多德

享樂(lè)主義者的學(xué)習(xí)指南

在分析人類思維方面,克洛普夫(Klopf)的總結(jié)非常簡(jiǎn)潔:'人的基本本質(zhì)是什么?是享樂(lè)主義者。'

在他頗具爭(zhēng)議的名為《享樂(lè)主義神經(jīng)元——記憶、學(xué)習(xí)和智能理論》著作中,克洛普夫利用神經(jīng)科學(xué)、生物學(xué)、心理學(xué),以及解除他的推理的簡(jiǎn)單性和好奇心來(lái)說(shuō)服我們,我們的神經(jīng)元是享樂(lè)主義者。是的,神經(jīng)元和你一樣快樂(lè)。

當(dāng)面對(duì)他那個(gè)時(shí)代的主導(dǎo)神經(jīng)元模型,羅森布拉特(Rosenblatt)的感知器(Perceptron)(它是當(dāng)今神經(jīng)網(wǎng)絡(luò)的構(gòu)建塊)時(shí),克洛普夫?qū)Υ烁械狡婀郑?如果假設(shè)神經(jīng)元被認(rèn)為是非追求目標(biāo)的組成部分,那么追求目標(biāo)的大腦功能必須被視為一種新興現(xiàn)象。這樣的觀點(diǎn)是否能夠?qū)τ洃洠瑢W(xué)習(xí)以及更普遍的情報(bào)進(jìn)行解釋?'

他提出了一個(gè)名為基本異質(zhì)穩(wěn)定器的新構(gòu)建模塊,作為未來(lái)人工智能研究的基礎(chǔ)。克洛普夫還認(rèn)為,維持體內(nèi)平衡,追求一種良好穩(wěn)定的狀態(tài)并不是復(fù)雜系統(tǒng)的目的,例如人類和動(dòng)物。解釋植物的目標(biāo)可能已經(jīng)足夠了,但是我們可以假設(shè)人類在確保了休內(nèi)平衡之后,追求最大限度的愉悅,而不是穩(wěn)定它。為什么我們的神經(jīng)元會(huì)有所不同?

這些想法可能聽(tīng)起來(lái)難以置信,它們可以歸因于震動(dòng)人工智能的世界。克洛普夫認(rèn)識(shí)到,隨著學(xué)習(xí)研究人員幾乎專注于監(jiān)督學(xué)習(xí),適應(yīng)行為的基本方面正在喪失。根據(jù)克洛普夫的說(shuō)法,缺少的是行為的享樂(lè)方面,從環(huán)境中獲得某些結(jié)果的驅(qū)動(dòng)力,控制環(huán)境朝向期望的目的前進(jìn),遠(yuǎn)離不受歡迎的目的。

在一篇批評(píng)當(dāng)前控制論原理的廣泛章節(jié)中,正如機(jī)器學(xué)習(xí)在當(dāng)時(shí)被稱為的那樣,可以強(qiáng)調(diào)三種攻擊方式:

我們應(yīng)該使用深度神經(jīng)網(wǎng)絡(luò)嗎?

需要明確的是,兩層足以滿足上世紀(jì)50年代的網(wǎng)絡(luò)需求??寺迤辗蛩坪鯇?duì)感知器(Perceptron)模型感到滿意,但他質(zhì)疑它在深度網(wǎng)絡(luò)中的學(xué)習(xí)能力??寺迤辗蛱岢隽艘粋€(gè)問(wèn)題,即使在今天,也不能讓機(jī)器學(xué)習(xí)科學(xué)家置身事外:

'但是,該算法僅適用于單層自適應(yīng)網(wǎng)絡(luò)。許多后續(xù)研究未能為多層網(wǎng)絡(luò)的一般情況產(chǎn)生真正可行的確定性自適應(yīng)機(jī)制。一般情況下的核心問(wèn)題是,在系統(tǒng)行為不合適時(shí),確定任何給定網(wǎng)絡(luò)元素應(yīng)該做什么。事實(shí)證明,這非常困難,因?yàn)樯顚泳W(wǎng)絡(luò)中各個(gè)元素的大多數(shù)輸出??與系統(tǒng)的最終輸出具有非常間接的關(guān)系。 '

人工智能的目的是什么?

克洛普夫還質(zhì)疑人工智能研究的追求。在他試圖接近正確的學(xué)習(xí)目標(biāo)的過(guò)程中,他采用了一種論點(diǎn),我在后來(lái)的增強(qiáng)學(xué)習(xí)研究者中也發(fā)現(xiàn)了這個(gè)論點(diǎn):

https://www.sciencedirect.com/science/article/pii/S0921889005800259

'生命在這個(gè)星球上已經(jīng)進(jìn)化了大約30億年。在那段時(shí)間里,90%用于改進(jìn)我們與爬行動(dòng)物共享的神經(jīng)基質(zhì)。從爬行動(dòng)物的時(shí)代開(kāi)始,到人類出現(xiàn)之前,它只有相對(duì)較短的3億年。關(guān)于智力進(jìn)化的過(guò)程出現(xiàn)了一個(gè)問(wèn)題。如果進(jìn)化過(guò)程花費(fèi)90%的時(shí)間來(lái)開(kāi)發(fā)神經(jīng)基質(zhì),剩下的10%用于制定有效的更高水平的機(jī)制,那么為什么人工智能研究人員試圖以其他方式去做呢?'

智力是否聰明?

在下面的摘錄中,感覺(jué)好像桑迪克和克洛普夫一直是強(qiáng)化學(xué)習(xí)的伙伴:'人工智能研究人員對(duì)智力的感知似乎與生命系統(tǒng)中這種現(xiàn)象的本質(zhì)不符,還有另外一種方式。在生命系統(tǒng)中,智力往往不是智能的,至少不是研究人員有時(shí)看到的智力現(xiàn)象。與其相反,生命系統(tǒng)中的智能通常是有效的。如果一種'強(qiáng)力'性質(zhì)可以用于智能生物的日常信息處理,那么似乎會(huì)有很多。即使對(duì)于最聰明的人來(lái)說(shuō),開(kāi)展更加聰明的活動(dòng)也是困難的。因此,人們想知道,智力與更高層次的信息處理之間的聯(lián)系是否可能使人工智能研究人員對(duì)這一現(xiàn)象的看法過(guò)于狹隘。在短期內(nèi),更溫和的觀點(diǎn)會(huì)產(chǎn)生更有成效的理論嗎?'

巴甫洛夫的狗玩西洋雙陸棋

到目前為止,我們可能一直在討論強(qiáng)化學(xué)習(xí),但事實(shí)是,這個(gè)術(shù)語(yǔ)最初是由巴甫洛夫在1927年關(guān)于條件反射的專著的英譯本中使用的。

https://academic.oup.com/brain/article-abstract/51/1/129/268769?redirectedFrom=PDF

巴甫洛夫在他著名的實(shí)驗(yàn)中觀察到的是,當(dāng)一只狗被提供食物,并且在非常接近喂食時(shí)間時(shí)發(fā)出聲音,狗因此學(xué)會(huì)了將喂食與聲音聯(lián)系起來(lái),甚至在沒(méi)有食物的情況下,當(dāng)聽(tīng)到聲音時(shí),狗也會(huì)流口水。

https://www.simplypsychology.org/pavlov.html

通過(guò)這一觀察,巴甫洛夫?yàn)榻?jīng)典條件反射奠定了基礎(chǔ),這是第一個(gè)將時(shí)間納入學(xué)習(xí)過(guò)程的理論。如今,RL算法主要采用時(shí)差學(xué)習(xí),這意味著在計(jì)算動(dòng)作的'質(zhì)量'以做出決策時(shí),我們也會(huì)考慮未來(lái)的獎(jiǎng)勵(lì)。

1989年,克里斯·沃特金斯(Chris Watkins)開(kāi)發(fā)了Q-learning,這是最著名的強(qiáng)化學(xué)習(xí)算法之一,它將時(shí)間差異和最佳控制線程完全結(jié)合在一起。

1992年,Tesauro在玩西洋雙陸棋的代理身上采用了時(shí)差學(xué)習(xí)的概念。這是說(shuō)服研究界相信這種機(jī)器學(xué)習(xí)有潛力的時(shí)刻和應(yīng)用。

雖然目前的研究主題集中在深度學(xué)習(xí)和游戲,但我們?nèi)缃癫粫?huì)有強(qiáng)化學(xué)習(xí)的領(lǐng)域,而不是一群人談?wù)撠?、神?jīng)元和狗。

可以說(shuō),我們從解決西洋雙陸棋獲得的獎(jiǎng)勵(lì),直到那一點(diǎn)難以想象的艱巨任務(wù),促使我們進(jìn)一步探索強(qiáng)化學(xué)習(xí)的潛力。這是一個(gè)強(qiáng)化學(xué)習(xí)的例子嗎?

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
終于有人說(shuō)清AI、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的區(qū)別了!
人工智能,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)有什么區(qū)別?
腦機(jī)接口正在啟迪AI中的大腦
海布
理解計(jì)算-從根號(hào)2到AlphaGo 第4季 凜冬將至
終于有人把云計(jì)算、大數(shù)據(jù)和人工智能講明白了
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服