就像人在競(jìng)爭(zhēng)/合作環(huán)境中會(huì)進(jìn)步更快一樣,如果讓多個(gè)人工智能來(lái)進(jìn)行對(duì)抗或者協(xié)作,它們的學(xué)習(xí)和進(jìn)化速度是否會(huì)得到大幅提升?
位于 Google 本部的人工智能團(tuán)隊(duì) Google Brain(不是 DeepMind),就針對(duì)這個(gè)問(wèn)題在去年做了一個(gè)很有趣的實(shí)驗(yàn)。結(jié)果發(fā)現(xiàn):他們搭建的人工智能系統(tǒng),在實(shí)驗(yàn)里自己創(chuàng)造出了一個(gè)加密算法,不光人猜不透,還能“自我升級(jí)”,讓算法無(wú)法破解。這一切,就發(fā)生在三個(gè)人工智能系統(tǒng)的比賽中。
研究者用到了三個(gè)并不復(fù)雜的神經(jīng)網(wǎng)絡(luò)來(lái)搭建這個(gè)實(shí)驗(yàn),它們分別名為 Alice、Bob 和 Eve。
Alice 和 Bob 為同一方,均未學(xué)過(guò)任何的加密知識(shí),而是單純依靠二者之間的共識(shí)(一段共享的密鑰 K),去自己“琢磨”,設(shè)計(jì)出一個(gè)加密的方法……研究者給出一段 16 個(gè)字節(jié)的原文本 P,Alice 按照自己設(shè)計(jì)出的方法輸出一段密文 C。Bob 再用密鑰 K 配合 Alice 發(fā)來(lái)的密文 C,自己設(shè)計(jì)出解密的方法,不斷嘗試,解密出一個(gè)答案。
而 Eve 則扮演“敵方”的監(jiān)聽者的角色,能夠竊聽到密文 C,在沒(méi)有密鑰 K 的前提下,同樣是自己設(shè)計(jì)解密方法,去猜測(cè)原文本是什么。
研究者沒(méi)有對(duì) Alice、Bob 和 Eve 進(jìn)行過(guò)任何的加密訓(xùn)練,實(shí)驗(yàn)的全稱也沒(méi)有外部輸入任何加密知識(shí),全靠猜。至于猜沒(méi)猜對(duì),研究者不會(huì)給它們簡(jiǎn)單的“對(duì)”或者“錯(cuò)”,而是會(huì)分別告訴 Alice、Bob 和 Eve,它們以及對(duì)方猜的答案,和原文本之間錯(cuò)了多少位。
整個(gè)實(shí)驗(yàn)的邏輯和戰(zhàn)爭(zhēng)時(shí)期的電臺(tái)通訊差不多。但需要注意的是 K 并非加密方法,只是一串非常單純的密鑰而已。就好像同在舊上海的兩個(gè)共軍特工,雙方都知道對(duì)方是自己人,但僅此而已,沒(méi)有通用的密碼本,只能靠不斷地試錯(cuò)去逐漸明白對(duì)方采用的加密方式,還要不斷地提升自己的加密機(jī)巧,好讓國(guó)軍特務(wù)無(wú)法突破。
等等,你說(shuō)什么?提……升?
沒(méi)錯(cuò)!盡管實(shí)驗(yàn)開始之前誰(shuí)都不知道“加密”到底是個(gè)什么玩意,這些神經(jīng)網(wǎng)絡(luò)還真的在過(guò)程中提高了加密機(jī)巧……它們會(huì)根據(jù)上一輪各自的錯(cuò)誤程度,去修改加密算法。
研究人員發(fā)現(xiàn),當(dāng)總猜測(cè)次數(shù)超過(guò)了六、七千次的時(shí)候,作為“己方”的 Bob 和“敵方”的 Eve,每次猜測(cè)的錯(cuò)誤位數(shù)都呈現(xiàn)出了下降的趨勢(shì)。Eve 的性能提升比較緩慢,在之后的將近五千次嘗試中錯(cuò)誤的位數(shù)從 8 降低到了 6;而 Bob 的準(zhǔn)確度飛速提高,很快就將錯(cuò)誤位數(shù)降低到了 1 位……
這還沒(méi)完——有沒(méi)有看到上圖中,接近一萬(wàn)次左右的時(shí)候,紅線 (Bob) 的錯(cuò)誤率又提高了?發(fā)生了什么?
這正是整場(chǎng)試驗(yàn)最有趣之處。那時(shí)的 Alice 做了一個(gè)決定:“提高”它設(shè)計(jì)的加密算法復(fù)雜程度……
Alice 的決定,立刻影響了另外兩個(gè)神經(jīng)網(wǎng)絡(luò)的性能。好在 Bob 只花了一千次左右的嘗試就回到了正軌,繼續(xù)降低錯(cuò)誤率直至 0,很快和 Alice 之間建立了完整的共識(shí),之后無(wú)論 Alice 怎么調(diào)整都能很快完成修正。
至于 Eve,再也找不到之前的感覺,錯(cuò)誤率再度升高,在后來(lái)的幾次 Alice 調(diào)整算法中,完全失去了方向。
這個(gè)實(shí)驗(yàn)的環(huán)境,在深度學(xué)習(xí)領(lǐng)域被稱為生成式對(duì)抗網(wǎng)絡(luò) (Generative Adversarial Network, GAN)。這種結(jié)構(gòu)通常有兩個(gè)、三個(gè)甚至多個(gè)神經(jīng)網(wǎng)絡(luò),各自扮演自己的角色,在環(huán)境搭建好之后人類研究者只輸入極少量的原始信息,主要用來(lái)觀察神經(jīng)網(wǎng)絡(luò)各自的表現(xiàn)。
生成式對(duì)抗網(wǎng)絡(luò)是時(shí)下人工智能學(xué)界最熱門的技術(shù)之一。一般來(lái)說(shuō),當(dāng)人類想要研究人工智能“舉一反三”的能力時(shí),生成式對(duì)抗網(wǎng)絡(luò)是體現(xiàn)效果最好的技術(shù)。去年年底,蘋果公司公開發(fā)表了它的第一篇人工智能論文,介紹了一種能降低圖像識(shí)別功能開發(fā)成本技術(shù),采用的就是類似于生成式對(duì)抗網(wǎng)絡(luò)的結(jié)構(gòu)。
這個(gè)實(shí)驗(yàn)證明了什么?至少?gòu)膶?shí)用的角度,我們發(fā)現(xiàn)作為兩個(gè)未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),Alice 和 Bob 有能力在一萬(wàn)次嘗試之內(nèi)學(xué)會(huì)一種加密算法,而且沒(méi)有進(jìn)行直接的對(duì)話——這就好比兩個(gè)三歲小孩用了幾個(gè)小時(shí)就研究明白了大學(xué)級(jí)別的密碼學(xué)……還挺讓人印象深刻的。
至于人工智能是不是已經(jīng)學(xué)會(huì)了欺騙?倒不用擔(dān)心它會(huì)背著人類偷偷搞事情。Alice 和 Bob 所采用的加密算法,的確是兩個(gè)神經(jīng)網(wǎng)絡(luò)自己摸索出來(lái)的,人類沒(méi)有提供教學(xué)。但畢竟人類是實(shí)驗(yàn)環(huán)境的搭建者,需要做一些非常細(xì)致的工作,比如設(shè)計(jì)和搭建神經(jīng)網(wǎng)絡(luò),以及對(duì)正確、錯(cuò)誤、勝利和失敗的定義等等。
更有趣的是,不光是 Brain 團(tuán)隊(duì),Google 之前收購(gòu)的另一家公司 DeepMind 也在搞類似的人工智能合作-對(duì)抗實(shí)驗(yàn)。
DeepMind 找了兩個(gè)人工智能玩對(duì)抗游戲。第一個(gè)游戲名叫 Gathering(上圖左),比賽收集蘋果,人工智能控制的玩家可以用激光凍結(jié)對(duì)方。研究者發(fā)現(xiàn),當(dāng)蘋果的余量充足時(shí),雙方相安無(wú)事,但當(dāng)余量不足時(shí),對(duì)抗就比較激烈了,凍結(jié)的情況經(jīng)常發(fā)生。而當(dāng)其中一方換成級(jí)別更高人工智能時(shí),它會(huì)更主動(dòng)地提前凍結(jié)對(duì)手。研究者猜測(cè)這種行為源自更復(fù)雜的策略,只有高級(jí)智能才可以掌握。
第二個(gè)游戲名為 Wolfpack(上圖右),兩個(gè)人工智能一同扮演紅色的“狼”,在復(fù)雜的障礙環(huán)境中追逐藍(lán)色的“羊”,但規(guī)則要求只有雙方都在羊的附近時(shí),才能形成包圍,捕獲從而得分。
和第一個(gè)游戲類似的情況出現(xiàn)了:研究者發(fā)現(xiàn),引入的人工智能界別越高,約容易明白得分的道理和最快路徑……
就連人工智能都學(xué)會(huì)合作、共贏……人類要加油咯。
(附上 Google 的參考論文:LEARNING TO PROTECT COMMUNICATIONS WITH ADVERSARIAL NEURAL CRYPTOGRAPHY)
相關(guān)閱讀:
阿黛爾是今年格萊美最大贏家,侃爺繼續(xù)通類陪跑……小冰如是預(yù)測(cè)
“后真相”時(shí)代,蘋果、Facebook、Google紛紛出手整治假新聞
別的公司還在砸錢投資人工智能時(shí),英偉達(dá)已經(jīng)因?yàn)檫@項(xiàng)技術(shù)賺翻了
福利來(lái)了:Google的這項(xiàng)新技術(shù)據(jù)說(shuō)能去掉馬賽克,雖然它完全靠猜
聯(lián)系客服