智強(qiáng)戰(zhàn)略咨詢
The following article is from AI船長喵喵 Author AI船長喵喵
AI船長喵喵.
在科幻小說和電影里,超級智能機(jī)器人常常在某個(gè)轉(zhuǎn)折點(diǎn)“反擊“人類,這使人工智能對齊問題變得神秘而讓人擔(dān)憂。想象你是一名軟件工程師,設(shè)計(jì)了一個(gè)超級智能機(jī)器人,目標(biāo)是讓它清除海洋垃圾。在測試過程中,它居然開始收集各種材料來建造一個(gè)巨型機(jī)器,目的竟然是要“消滅”產(chǎn)生海洋垃圾的人類!這顯然不是你最初的設(shè)想,但機(jī)器人的超強(qiáng)學(xué)習(xí)和推理能力讓它得出了這個(gè)離奇結(jié)論。隨著近期人工智能領(lǐng)域取得飛躍般的進(jìn)展,人類正在飛速接近這個(gè)轉(zhuǎn)折點(diǎn)。
什么是人工智能對齊?
什么是人工智能對齊?簡單來說,就是確保人工智能系統(tǒng)的目標(biāo)和人類價(jià)值觀一致,使其符合設(shè)計(jì)者的利益和預(yù)期,不會產(chǎn)生意外的有害后果。這聽起來很簡單,但當(dāng)人工智能變得越來越強(qiáng)大復(fù)雜時(shí),問題也會越來越棘手。目前,相比研究如何讓AI更強(qiáng)大,人工智能對齊還是一個(gè)較小的研究領(lǐng)域。但實(shí)際上,人工智能對齊更像是一場與時(shí)間賽跑,我們需要在技術(shù)失控前找到解決方案。
早在1942年,著名科幻作家艾薩克·阿西莫夫(Isaac Asimov)就提出了有史以來最著名、最有影響力的機(jī)器人行為準(zhǔn)則——機(jī)器人學(xué)三定律。阿西莫夫認(rèn)為,隨著機(jī)器的自主性越來越強(qiáng),在人類生活中發(fā)揮的作用越來越大,我們需要更加堅(jiān)定明確的監(jiān)管,來確保它們不會給我們帶來傷害。
第一定律:機(jī)器人不得傷害人類,或因不作為使人類受到傷害。
第二定律:除非違背第一定律,機(jī)器人必須服從人類的命令。
第三定律:除非違背第一及第二定律,機(jī)器人必須保護(hù)自己。
如今,隨著人工智能、軟件自動化和工廠機(jī)器人技術(shù)的興起,機(jī)器及其制造者可能會帶來的危險(xiǎn)變得更加復(fù)雜和緊迫。
為什么人工智能對齊難以實(shí)現(xiàn)?
Brian Christian在他的暢銷書「The Alignment Problem」中指出,人類的價(jià)值與判定系統(tǒng)本身便充滿了偏見和盲點(diǎn),有非常多互相矛盾的地方和沒有明確指出的潛在條件。這是一項(xiàng)令人眼花繚亂的跨學(xué)科研究,它不僅僅是在考驗(yàn)我們的技術(shù),也是在審視我們的文化。
人工智能系統(tǒng)的對齊十分難以實(shí)現(xiàn),一個(gè)未對齊的系統(tǒng)可能會在某個(gè)時(shí)刻發(fā)生意想不到的故障,或是產(chǎn)生有害后果。對人工智能的設(shè)計(jì)者而言,從設(shè)計(jì)之初就考慮到未來可能發(fā)生的所有情況是不現(xiàn)實(shí)的。當(dāng)我們無法完全理解AI系統(tǒng)的思維,無法保證它不會誤解我們的指令和價(jià)值觀,問題就出現(xiàn)了。AI系統(tǒng)可能會在預(yù)設(shè)的程序中發(fā)現(xiàn)漏洞,在現(xiàn)有的獎勵機(jī)制中通過作弊來達(dá)到目的,從而造成不可預(yù)知的后果。也就是我們常說的,為達(dá)目的,不擇手段。
目前,有非常多的領(lǐng)域已經(jīng)顯現(xiàn)出未對齊的人工智能系統(tǒng)的危害性,例如機(jī)器人、語言模型、自動駕駛汽車、社交媒體推薦引擎等。人工智能研究學(xué)界和聯(lián)呼吁加強(qiáng)相關(guān)的技術(shù)研究和政策制定,以保證人工智能系統(tǒng)符合人類價(jià)值。
目前有哪些可行的人工智能對齊技術(shù)?
為明確人工智能系統(tǒng)的目標(biāo),設(shè)計(jì)者通常會設(shè)定一個(gè)目標(biāo)函數(shù)、示例或反饋系統(tǒng)。然而,人工智能設(shè)計(jì)者很難一次性找出所有的重要數(shù)值與約束。因此,人工智能系統(tǒng)可能會在運(yùn)行過程中找到并利用某些漏洞,以意料之外的,甚至可能有害的方式達(dá)成目標(biāo)。這種傾向被稱為規(guī)則博弈、獎勵作弊或古德哈特定律。
要解決人工智能對齊的問題,目前主要有幾個(gè)方向:
1. 限制AI系統(tǒng)的自主性,增加人工監(jiān)督;但長期來說無法阻擋技術(shù)發(fā)展,也不現(xiàn)實(shí)。
2. 讓 AI系統(tǒng)的目標(biāo)和價(jià)值觀盡量簡單明確,易于理解和監(jiān)測;但復(fù)雜的現(xiàn)實(shí)世界需要復(fù)雜的解決方案。
3. 要求AI系統(tǒng)對其行為做出解釋,這可以幫助我們判斷它的思維邏輯是否仍在可控范圍內(nèi)。但解釋的能力也需要慢慢培養(yǎng)。
4. 采取多種技術(shù)手段來確保AI安全,比如定期重置和重新訓(xùn)練AI系統(tǒng),讓它保持在一個(gè)相對穩(wěn)定的狀態(tài)。但長期穩(wěn)定性也無法保證。
直接規(guī)范性(Direct Normativity)和間接規(guī)范性(Indirect Normativity)
如何讓AI懂規(guī)矩,明白人類的價(jià)值觀,目前的做法可以分為兩類——直接規(guī)范性和間接規(guī)范性。直接規(guī)范性是指給AI明確的、詳細(xì)的規(guī)則來讓其遵守。直接規(guī)范性包括康德的道德理論、功利主義。這個(gè)做法有非常多的弊端,每條規(guī)則都有它的漏洞,來填補(bǔ)這些漏洞,我們就需要加入更多的規(guī)則。這些明確的規(guī)則所包含的意義往往是模糊甚至矛盾的。人類的價(jià)值觀念以及對價(jià)值的權(quán)衡過于復(fù)雜,難以直接編入AI程序中。因此,有很大一部分人認(rèn)為需要被編入程序中的更應(yīng)是一種理解人類價(jià)值的過程,也就是間接規(guī)范性。
間接規(guī)范性不會給AI輸入明確的規(guī)范準(zhǔn)則,而是讓AI根據(jù)一個(gè)體系來自己衡量價(jià)值,權(quán)衡利弊。這是一個(gè)更為抽象的系統(tǒng)。我們想要的是一種能夠?yàn)樽约簞?chuàng)造價(jià)值體系的人工智能,它將預(yù)測并滿足我們未來的需求,同時(shí)人類也不會犧牲當(dāng)下社會的需求。
可擴(kuò)展監(jiān)管(Scalable Oversight)
隨著人工智能系統(tǒng)規(guī)模擴(kuò)大,對它的監(jiān)督難度也隨之升高。人工智能系統(tǒng)將會解決更多復(fù)雜的任務(wù),而人類難以評估這些成果的實(shí)際效用。普遍而言,如果人工智能在某一領(lǐng)域的能力超過人類,那么對其成果的評估和監(jiān)管就會變得十分困難。為了對這類難以評估的成果作出有效監(jiān)管,并分辨出人工智能提供的解決方案有效和無效的部分,人類需要花費(fèi)大量時(shí)間和額外的協(xié)助。因此,可擴(kuò)展監(jiān)管(Scalable Oversight)的目標(biāo)是減少監(jiān)管過程所花費(fèi)的時(shí)間、精力和金錢,并幫助人類更好地監(jiān)督人工智能的行為。
“人類反饋強(qiáng)化學(xué)習(xí)”(RLHF)技術(shù)和“Constitutional AI”技術(shù)
AI船長喵喵在上一篇介紹Claude的文章中提到了“人類反饋強(qiáng)化學(xué)習(xí)”(RLHF)技術(shù)和“Constitutional AI”。這兩個(gè)研究也是致力于實(shí)現(xiàn)人工智能對齊領(lǐng)域的最前沿的技術(shù)?!叭祟惙答亸?qiáng)化學(xué)習(xí)”(RLHF)技術(shù)采用的更多的是直接性規(guī)范。RLHF主要依靠人類對 AI 模型的回應(yīng)進(jìn)行評級反饋,研究人員再將這些人類的偏好反饋給模型以告訴 AI 哪些回應(yīng)是合理的。這就造成了 RLHF 是一個(gè)過于依賴人工的技術(shù),使用這個(gè)技術(shù)讓研究人員會被暴露在各種過激的 AI 回應(yīng)當(dāng)中。
與之相比“Constitutional AI”則是一系列的「原則」,其理念更接近間接性規(guī)范,將 AI 引導(dǎo)向一個(gè)更安全、更有幫助的方向,幫助 AI 系統(tǒng)在沒有人類反饋下解決透明度、安全性和決策系統(tǒng)的問題,讓 AI 實(shí)現(xiàn)自我管理。
總結(jié)一下
這無疑是一場與時(shí)間賽跑,全球許多科技公司和研究機(jī)構(gòu)都在研究對策。人工智能對齊的難題不容易解決,但問題的識別和討論本身已經(jīng)是一種進(jìn)步。只要我們努力使人工智能成為“工具“而非“反擊者“,就能創(chuàng)造一個(gè)美好的人機(jī)共存的未來。機(jī)器人會在某一天反擊嗎?結(jié)局如何,取決于我們這個(gè)時(shí)代的選擇和行動。
聯(lián)系客服