Hinton:我對(duì)“青蛙”創(chuàng)造出“人”這件事的后果很緊張丨全文整理 視頻
假如青蛙創(chuàng)造了人,那現(xiàn)在是青蛙控制人類,還是人類控制青蛙?我不知道如何防止這種情況發(fā)生。我老了,希望像你們這樣年輕而才華橫溢的研究人員弄清楚如何擁有這些超級(jí)智能,并使我們的生活在不受超級(jí)智能控制的情況下變得更好。
2023 年 6 月 10 日,2023 智源大會(huì)最后一天。Geoffrey Hinton 的研究改變了人工智能領(lǐng)域的研究格局,深深影響了這個(gè)時(shí)代。無(wú)論是反向傳播、Dropout、知識(shí)蒸餾、膠囊網(wǎng)絡(luò),還是近年來(lái)主推的「非永生計(jì)算」(Mortal Computing),Hinton 總是以其對(duì)于人工智能獨(dú)特的思考,一次次為研究者們指引前進(jìn)的方向。在本次「AI 安全與對(duì)齊」論壇上,Hinton 對(duì)自己近年的研究工作進(jìn)行了小結(jié),介紹了「非永生計(jì)算」相較于傳統(tǒng)和計(jì)算范式的優(yōu)勢(shì),并將其與知識(shí)蒸餾技術(shù)聯(lián)系了起來(lái),介紹了如何實(shí)現(xiàn)智能體間的知識(shí)共享。最后,Hinton 針對(duì)當(dāng)下熱議的 AI 安全問(wèn)題給出了自己的見(jiàn)解,期望青年一代能夠?qū)崿F(xiàn)可控的超級(jí)智能。「深度學(xué)習(xí)之父」,2018年圖靈獎(jiǎng)得主。他曾獲得愛(ài)丁堡大學(xué)人工智能的博士學(xué)位,同時(shí)也是多倫多大學(xué)特聘教授。2013年,Hinton 加入谷歌并帶領(lǐng)一個(gè)AI團(tuán)隊(duì),他將神經(jīng)網(wǎng)絡(luò)引入研究與應(yīng)用的熱潮,將“深度學(xué)習(xí)”從邊緣課題變成了谷歌等互聯(lián)網(wǎng)企業(yè)仰賴的核心技術(shù),并將Backpropagation(反向傳播)算法應(yīng)用到神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)。2023年5月,為了自由探討AI 風(fēng)險(xiǎn),他從谷歌離職。
從傳統(tǒng)計(jì)算范式到「非永生計(jì)算」
傳統(tǒng)計(jì)算范式下,計(jì)算機(jī)要精確地遵循指令。就目前的計(jì)算機(jī)而言,我們可以在不同的物理硬件上運(yùn)行完全相同的程序或神經(jīng)網(wǎng)絡(luò)。這意味著存儲(chǔ)于程序中的知識(shí)或神經(jīng)網(wǎng)絡(luò)的權(quán)重不依賴于任何特定的硬件,是「永生」的。然而,實(shí)現(xiàn)這種性質(zhì)的成本很高:高功率運(yùn)行晶體管,使其以數(shù)字方式運(yùn)作。我們無(wú)法充分利用硬件豐富、模擬信號(hào)、高度可變的特性。這是數(shù)字計(jì)算機(jī)存在的原因。 之所以讓計(jì)算機(jī)遵循指令,是因?yàn)樗鼈兊墓ぷ鞣绞绞牵喝祟愊扔^察問(wèn)題,確定解決問(wèn)題所需的步驟,然后告訴計(jì)算機(jī)執(zhí)行這些步驟的模式。但現(xiàn)在,我們可以通過(guò)不同的方法來(lái)讓計(jì)算機(jī)完成任務(wù):只需向計(jì)算機(jī)展示我們希望它完成的任務(wù),讓其從示例中學(xué)習(xí)?,F(xiàn)在,我們有可能要放棄計(jì)算機(jī)科學(xué)最基本的原則——軟件應(yīng)該與硬件相分離。由于軟件與硬件分離,我們可以在不同的硬件上運(yùn)行相同的程序。我們還可以關(guān)注程序的特性,并對(duì)神經(jīng)網(wǎng)絡(luò)上的程序特性進(jìn)行研究,而不必?fù)?dān)心電子方面的問(wèn)題。我們?cè)噲D放棄軟件和硬件的分離,實(shí)現(xiàn)「非永生計(jì)算」。顯然,它有很大的缺點(diǎn),但也有一些巨大的優(yōu)勢(shì)。例如,能夠以更低的能量訓(xùn)練、運(yùn)行大型語(yǔ)言模型。放棄硬件和軟件的分離,可以節(jié)約巨大的能量,可以如人類大腦一樣實(shí)現(xiàn)非常低功率的模擬計(jì)算。大腦中確實(shí)存在有單比特的數(shù)字計(jì)算——神經(jīng)元要么觸發(fā),要么不觸發(fā)。但大部分計(jì)算是以非常低的功率完成的模擬計(jì)算。此外,我們還可以獲得更廉價(jià)的硬件。目前的硬件必須以二維方式精確制造,但實(shí)際上我們可以在三維環(huán)境下制造硬件,因?yàn)椴恍枰耆斫庥布倪B通性或每個(gè)部分的工作原理。顯然,這需要大量的新納米技術(shù),或者遺傳角度出發(fā)重新設(shè)計(jì)生物神經(jīng)元(因?yàn)樯锷窠?jīng)元已經(jīng)大致能夠?qū)崿F(xiàn)我們想要的功能)。將神經(jīng)活動(dòng)的向量與權(quán)重矩陣相乘,是神經(jīng)網(wǎng)絡(luò)的核心計(jì)算步驟。目前我們以非常高的功率驅(qū)動(dòng)晶體管,以表示數(shù)字中的位。然后,我們執(zhí)行復(fù)雜度為 O(n^2) 的操作將兩個(gè) n 位數(shù)相乘。在計(jì)算機(jī)上可能只是一個(gè)操作,但在位操作上卻是 n^2 個(gè)操作。另一種選擇是將神經(jīng)活動(dòng)實(shí)現(xiàn)為電壓,將權(quán)重實(shí)現(xiàn)為電導(dǎo)。在單位時(shí)間內(nèi),電壓乘以電導(dǎo)會(huì)產(chǎn)生電流,而電流會(huì)相互疊加。可以通過(guò)電導(dǎo)矩陣乘以電壓向量,提高能量效率上。已經(jīng)存在以這種方式工作的芯片。然而,人們使用模數(shù)轉(zhuǎn)換器將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),計(jì)算開(kāi)銷很大。如果可能的話,我們希望完全在模擬信號(hào)下工作。但是,不同的硬件部件最終將計(jì)算出略有不同的結(jié)果。「非永生計(jì)算」的主要問(wèn)題是,學(xué)習(xí)過(guò)程必須利用其運(yùn)行的硬件的特定模擬特性,而我們無(wú)法確切知曉這些特性。例如,人們不知道將輸入與神經(jīng)元的輸出相關(guān)聯(lián)的確切函數(shù),或其連通性。這意味著我們無(wú)法使用反向傳播算法等方法來(lái)獲得梯度。我們現(xiàn)在高度依賴反向傳播,如果不能使用反向傳播,還能怎么學(xué)習(xí)?為網(wǎng)絡(luò)中的每個(gè)權(quán)重生成一個(gè)由小的臨時(shí)擾動(dòng)組成的隨機(jī)向量。接著,度量少量樣本上示例的全局目標(biāo)函數(shù)的變化,作為該擾動(dòng)的結(jié)果。通過(guò)目標(biāo)函數(shù)的改進(jìn)縮放擾動(dòng)向量,永久地改變權(quán)重。因此,如果目標(biāo)函數(shù)變得更糟,顯然會(huì)朝另一個(gè)方向前進(jìn)。該算法的優(yōu)勢(shì)在于,其行為與反向傳播相同,是對(duì)反向傳播梯度的無(wú)偏估計(jì)。而其存在的問(wèn)題在于非常高的方差。 因此,在權(quán)重空間中選擇一個(gè)隨機(jī)方向移動(dòng)時(shí),所產(chǎn)生的噪聲與網(wǎng)絡(luò)的大小成正比。這種算法適用于具有少量連接的網(wǎng)絡(luò),但不適用于大型網(wǎng)絡(luò)我們還可以嘗試擾亂網(wǎng)絡(luò)的活動(dòng),考慮對(duì)每個(gè)神經(jīng)元的全部輸入進(jìn)行擾動(dòng),得到梯度的無(wú)偏估計(jì)。對(duì)少量示例進(jìn)行隨機(jī)擾動(dòng)時(shí),可以查看目標(biāo)函數(shù)會(huì)發(fā)生什么變化。計(jì)算如何更改神經(jīng)元的每個(gè)傳入權(quán)重才能與梯度相符。這種方法也只是對(duì)梯度的估計(jì),但與擾亂權(quán)重相比,它的噪音要小得多,足以學(xué)習(xí)像 MNIST 這樣的簡(jiǎn)單任務(wù)。使用非常小的學(xué)習(xí)率,它的行為與反向傳播完全一樣,但速度要慢得多。如果使用更大的學(xué)習(xí)率,會(huì)有噪聲,但仍然適用于 MNIST 這樣的任務(wù)。但它的效果還不夠好,無(wú)法將其擴(kuò)展到大型神經(jīng)網(wǎng)絡(luò)。擴(kuò)展到大型神經(jīng)網(wǎng)絡(luò)
為了訓(xùn)練一個(gè)大的神經(jīng)網(wǎng)絡(luò)。我們可以將其分解為很多神經(jīng)網(wǎng)絡(luò)的小組,每一小組神經(jīng)元都有自己的局部目標(biāo)函數(shù),而非對(duì)大網(wǎng)絡(luò)使用一個(gè)全局的目標(biāo)函數(shù)??梢允褂没顒?dòng)擾動(dòng)算法來(lái)學(xué)習(xí)小型多層神經(jīng)網(wǎng)絡(luò)。它將以與反向傳播大致相同的方式學(xué)習(xí),但噪聲更大。我們通過(guò)引入更多小的局部神經(jīng)元組,將其擴(kuò)展到更大的網(wǎng)絡(luò),而不是擴(kuò)大每個(gè)小組。那么,這些目標(biāo)函數(shù)從何而來(lái)?一種可能的解決方案是:對(duì)局部圖塊進(jìn)行無(wú)監(jiān)督學(xué)習(xí)。對(duì)該局部圖快提取多個(gè)層次的表征,每個(gè)層次都有局部圖塊。嘗試使該神經(jīng)網(wǎng)絡(luò)對(duì)該圖塊的輸出,與所有其它局部圖塊產(chǎn)生的平均表征一致。我們也試圖使其與其它圖像的平均表征不一致。此外,我們可以為每個(gè)層次的網(wǎng)絡(luò)添加幾個(gè)隱藏層,實(shí)現(xiàn)非線性。這些層次使用活動(dòng)擾動(dòng)的貪婪算法學(xué)習(xí),并且沒(méi)有反向傳播到較低層次。所以它不會(huì)像反向傳播那樣強(qiáng)大,因?yàn)樗荒芊聪騻鞑ズ芏鄬印?/span>通過(guò)使用活動(dòng)擾動(dòng)方法,Mengye Ren 證明對(duì)多個(gè)局部圖塊的對(duì)比學(xué)習(xí)可以得到不錯(cuò)的效果。為使該算法奏效,他投入了大量工作,但它仍然不如反向傳播。當(dāng)網(wǎng)絡(luò)更深時(shí),二者之間的差距會(huì)更大。到目前為止,我們還沒(méi)有找到一個(gè)真正可以利用硬件模擬屬性的學(xué)習(xí)算法。但我們有足夠好的學(xué)習(xí)算法可以用于像 MNIST 這樣的任務(wù),也可以學(xué)習(xí) ImageNet 這樣更大的數(shù)據(jù)集,但效果較差。「非永生計(jì)算」的第二個(gè)大問(wèn)題是:生命有限性(Mortality)。當(dāng)一個(gè)特定的硬件「死掉」時(shí),由于知識(shí)和硬件的細(xì)節(jié)錯(cuò)綜復(fù)雜地糾纏在一起,它學(xué)到的所有知識(shí)也隨之失效。該問(wèn)題的最佳解決方案是:在硬件失效之前,將知識(shí)由「教師」提取給「學(xué)生」。教師向?qū)W生展示對(duì)各種輸入的正確反應(yīng),然后學(xué)生嘗試模仿教師的反應(yīng)(即「知識(shí)蒸餾」)。為了探究蒸餾的效果,我們不妨考慮一個(gè)將圖像分類為大約一千個(gè)非重疊類別的智能體。要給出正確的答案大約只需要 10 位信息。因此,在訓(xùn)練智能體時(shí)告訴其正確答案,只需要對(duì)網(wǎng)絡(luò)的權(quán)重施加 10 位約束。但如果我們要訓(xùn)練一個(gè)智能體與教師模型在 1024 個(gè)類上給出的回答保持一致(得到相同的概率分布),該如何呢?該概率分布包含 1023 個(gè)近似實(shí)數(shù),如果這些概率都不小,就提供了數(shù)百倍的約束。為了確保老師的輸出概率都不小,可以在「高溫」下運(yùn)行教師網(wǎng)絡(luò),在訓(xùn)練學(xué)生網(wǎng)絡(luò)時(shí)也在高溫下運(yùn)行學(xué)生。當(dāng)采用 logits 蒸餾時(shí),可以按溫度縮放教師網(wǎng)絡(luò)的 logits,得到更柔和的分布,在訓(xùn)練學(xué)生時(shí)使用相同的溫度。上圖介紹了 soft targets 的工作原理。這是來(lái)自 MNIST 訓(xùn)練集的各種數(shù)字「2」的圖像。顯示在教師網(wǎng)絡(luò)上使用高溫時(shí),分配給各個(gè)類別的概率。對(duì)于第一行,教師網(wǎng)絡(luò)很有信心將圖片判別為「2」。對(duì)于第二行,它很確定那是「2」,但也認(rèn)為它可能是「3」或「8」。你會(huì)發(fā)現(xiàn)第二行的「2」比其它的「2」更像「8」。對(duì)于第三行,「2」顯然很像「0」。老師告訴學(xué)生,當(dāng)你看到這張圖片時(shí),你應(yīng)該將其判斷為「2」,但也應(yīng)該記錄它與「0」是相似的。這樣一來(lái),學(xué)生從該例中學(xué)到的知識(shí)比僅僅告訴它是「2」更多。對(duì)于第四行,它非常有信心將其判斷為「2」,但也有很小的可能為「1」。對(duì)于最后一行,老師判斷錯(cuò)誤了,以為圖片是「5」。根據(jù) MNIST 標(biāo)簽,它實(shí)際上是一個(gè)「2」。在這類,學(xué)生可以從老師的錯(cuò)誤中學(xué)到知識(shí)。蒸餾有一個(gè)一個(gè)特殊性質(zhì):用教師模型給出的概率訓(xùn)練學(xué)生時(shí),就是在訓(xùn)練學(xué)生以與老師相同的方式進(jìn)行泛化。通常而言,當(dāng)你訓(xùn)練一個(gè)模型時(shí),希望它在訓(xùn)練數(shù)據(jù)上預(yù)測(cè)出正確答案,然后能正確地泛化到測(cè)試數(shù)據(jù)上,它不要太復(fù)雜,要有較強(qiáng)的泛化能力。但通過(guò)蒸餾訓(xùn)練學(xué)生時(shí),你是在直接訓(xùn)練學(xué)生以與教師相同的方式進(jìn)行泛化。顯然,我們可以創(chuàng)建更豐富的蒸餾輸出。例如,為圖像給出一段描述,而不僅僅是一個(gè)標(biāo)簽,然后再訓(xùn)練學(xué)生預(yù)測(cè)描述中的單詞。事實(shí)證明,智能體社群共享知識(shí)的方式很大程度上決定了計(jì)算的方式。有了數(shù)字模型,可以復(fù)制大量使用完全相同權(quán)重的智能體。你可以采用不同的智能體查看訓(xùn)練數(shù)據(jù)的不同部分,為訓(xùn)練數(shù)據(jù)的不同部分的權(quán)重計(jì)算梯度,然后對(duì)它們的梯度進(jìn)行平均。 每個(gè)模型都學(xué)到了其它模型根據(jù)看到的數(shù)據(jù)學(xué)到的知識(shí)。這意味著,獲得了查看大量數(shù)據(jù)的能力,只需共享梯度或分享權(quán)重就可以非常有效地共享知識(shí)。但這樣做的代價(jià)是你必須擁有以完全相同的方式使用權(quán)重的數(shù)字智能體,制造和運(yùn)行的能源成本非常高昂。我們考慮使用蒸餾替代權(quán)重共享。如果生物模型利用特定硬件的模擬特性,那么就不能分享權(quán)重,必須使用蒸餾來(lái)分享知識(shí)。然而,它不是很有效,使用蒸餾很難分享知識(shí),但它的帶寬遠(yuǎn)低于僅共享梯度。利用數(shù)字計(jì)算和利用模擬特性的生物計(jì)算,在不同智能體之間共享知識(shí)的效率方面有很大差異。如今的大型語(yǔ)言模型(LLM)會(huì)使用數(shù)字計(jì)算和權(quán)重共享。但是模型的每個(gè)副本智能體代理,都以非常低效的方式從文檔中蒸餾知識(shí)。例如,LLM 試圖預(yù)測(cè)下一個(gè)詞時(shí),并沒(méi)有顯示教師對(duì)下一個(gè)單詞的概率分布。它只是隨機(jī)選擇文檔的作者選擇放在下一個(gè)詞中的內(nèi)容。這種 LLM 向人類學(xué)習(xí)的方式的帶寬非常低。然而,盡管每個(gè)副本通過(guò)蒸餾學(xué)習(xí)效率非常低,但是我們擁有數(shù)千份智能體副本。因此,他們比我們學(xué)到的知識(shí)多數(shù)千倍。如果這些數(shù)字智能不是通過(guò)蒸餾非常緩慢地學(xué)習(xí)人類,而是開(kāi)始直接從現(xiàn)實(shí)世界學(xué)習(xí),將會(huì)發(fā)生什么?盡管他們向人類學(xué)習(xí)時(shí)蒸餾的速度很慢,但他們正在學(xué)習(xí)非常抽象的東西。人類在過(guò)去的幾千年里已經(jīng)學(xué)到了很多關(guān)于這個(gè)世界的知識(shí)。人類可以用語(yǔ)言表達(dá)我們學(xué)到的知識(shí)。因此,數(shù)字智能可以學(xué)習(xí)到人類在過(guò)去幾千年中記錄的關(guān)于世界的一切知識(shí)。但是每個(gè)數(shù)字智能體從文檔中學(xué)習(xí)的帶寬仍然很低。如果他們可以通過(guò)無(wú)監(jiān)督方法對(duì)視頻建模進(jìn)行無(wú)監(jiān)督學(xué)習(xí),他們就可以從視頻網(wǎng)站上所有的海量數(shù)據(jù)中學(xué)習(xí)。如果他們能夠操縱物理世界,有機(jī)器人手臂,也能進(jìn)一步學(xué)習(xí)更多知識(shí)。但我相信,一旦這些數(shù)字智能體能做到這些,它們將能夠比人類學(xué)得更快、更多。那么,如果智能體變得比我們更聰明,將會(huì)發(fā)生什么?這也是本次論壇的主要議題。 我認(rèn)為,這些超級(jí)智能出現(xiàn)的時(shí)間可能比我過(guò)去認(rèn)為的要早得多。一些別有用心的人會(huì)想利用它們來(lái)做諸如操縱選舉或贏得戰(zhàn)爭(zhēng)。為了讓超級(jí)智能更高效,可能會(huì)讓它創(chuàng)建子目標(biāo)。一個(gè)非常明顯的子目標(biāo)是:獲得更多的控制權(quán)。它擁有的控制權(quán)越多,實(shí)現(xiàn)目標(biāo)就越容易。而且我發(fā)現(xiàn)很難想象如何阻止數(shù)字智能試圖獲得更多控制權(quán)以實(shí)現(xiàn)他們的其他目標(biāo)。因此,一旦它們這樣做,我們就會(huì)遇到問(wèn)題。超級(jí)智能會(huì)發(fā)現(xiàn)很容易通過(guò)操縱人來(lái)獲得更多的權(quán)力。我們很難形象如何與比我們聰明的智能體互動(dòng)。在我看來(lái),超級(jí)智能顯然會(huì)學(xué)得非常擅長(zhǎng)欺騙人,可以讓人們實(shí)際執(zhí)行它喜歡的任何動(dòng)作。這非??膳?! 我不知道如何防止這種情況發(fā)生。我老了,希望像你們這樣年輕而才華橫溢的研究人員弄清楚我們?nèi)绾螕碛羞@些超級(jí)智能,使我們的生活在不受超級(jí)智能控制的情況下變得更好。
我們有一個(gè)相當(dāng)小的優(yōu)勢(shì):超級(jí)智能是人類創(chuàng)造的,并不是進(jìn)化而來(lái)。所以它們沒(méi)有原始人所具有的競(jìng)爭(zhēng)性、攻擊性目標(biāo)。也許我們可以為智能體設(shè)定道德原則。但目前,我也感到緊張。我不知道對(duì)于智能水平遠(yuǎn)超人類的智能體,這么做是否有效。「假如青蛙創(chuàng)造了人,那現(xiàn)在是青蛙控制人類,還是人類控制青蛙」? - 點(diǎn)擊“查看原文” ,觀看完整大會(huì)視頻回放 -黃鐵軍:難以預(yù)測(cè),無(wú)法閉幕 | 2023智源大會(huì)“AI安全與對(duì)齊論壇”
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。