Carlos E. Perez的博弈和深度學(xué)習(xí)博文--東南大學(xué)崇志宏
譯自:譯自:https://medium.com/intuitionmachine/game-theory-maps-the-future-of-deep-learning-21e193b0e33a#.2vjbrl5di
新神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計中出現(xiàn)博弈論的概念是顯而易見的,這種直覺來自于以下兩方面的原因:其一,深度學(xué)習(xí)需要處理不完全信息;其二,深度模型不是單一模塊,更傾向于涉及多個一致或具有競爭關(guān)系的深度學(xué)習(xí)模型的組合。其中有力的例證是對抗網(wǎng)絡(luò),它包括兩個具有競爭關(guān)系的神經(jīng)網(wǎng)絡(luò),一個是生成網(wǎng)絡(luò),一個判別網(wǎng)絡(luò),前者試圖偽造圖像,后者試圖鑒別圖像真?zhèn)?。這些系統(tǒng)的有趣特征是閉式損失是不需要的。事實上,一些系統(tǒng)甚至具備發(fā)現(xiàn)自身損失函數(shù)的驚人能力!對抗網(wǎng)絡(luò)的缺點是它們訓(xùn)練困難。對抗學(xué)習(xí)包含了尋找兩人非合作游戲中的納什均衡(Nash Equilibrium)。Yann Lecun曾經(jīng)在一次關(guān)于無監(jiān)督學(xué)習(xí)的講座中稱,對抗網(wǎng)絡(luò)是近20年來機器學(xué)習(xí)中最酷的想法。目前的一些代表的成果:
David Balduzzi的Semantics, Representations and Grammars of Deep LearningDavid Silver以及Johannes Heinrich的Deep Reinforcement Learning from Self-play in imperfect-information games.Jason Hartford的Deep Learning for Predicting Human Strategic Behavior
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。