本文來自微信公眾號:騰訊研究院 (ID:cyberlawrc),作者:李子,題圖來自:《梅根》
上半年ChatGPT橫空出世,人工智能的潛能展現(xiàn),給許多職業(yè)帶來了一場生存危機(jī)的探討。它能夠通過律師和工程師資格考試,寫的大學(xué)論文能不掛科,甚至能夠“理解”笑話。它能回答人們的疑問,組織生動的語言結(jié)構(gòu),模仿各式各樣的語言風(fēng)格;而大語言模型和圖像生成AI結(jié)合的技術(shù),例如Midjourney,能夠讓絲毫沒有受過藝術(shù)訓(xùn)練的人,用只言片語“創(chuàng)造”出驚人的藝術(shù)圖像。
ChatGPT的本質(zhì),實(shí)際上是大語言模型(Large Language Model,LLM)疊加生成式人工智能。大語言模型,顧名思義,就是大,用海量的語素,用機(jī)器學(xué)習(xí)的方法訓(xùn)練一個(gè)計(jì)算機(jī)模型。生成式,則是用預(yù)測的方式,在對話時(shí)把最有可能出現(xiàn)的語素聯(lián)系展示出來。
對于知識“加工”和“消費(fèi)”者而言,大語言模型加上生成式人工智能的能力是巨大的。海量語素?cái)?shù)據(jù)、深度神經(jīng)網(wǎng)絡(luò)和極大的計(jì)算力,相當(dāng)于把整個(gè)來自互聯(lián)網(wǎng)的知識“壓平”,再通過人機(jī)互動進(jìn)行“整裝”。
從計(jì)算邏輯上來講,ChatGPT相當(dāng)于一個(gè)更加強(qiáng)大的搜索引擎。普通的搜索引擎例如谷歌和百度通過爬蟲的模式“扒”整個(gè)互聯(lián)網(wǎng)的信息,并通過復(fù)雜的算法進(jìn)行排序。而人工智能使用機(jī)器學(xué)習(xí)的方法,相當(dāng)于把這些扒出來的信息,用預(yù)測的方式進(jìn)行了符合語言邏輯的整理。知識加工變得更加便捷迅速,消費(fèi)變得更加簡明清晰——有的時(shí)候甚至過于簡便,給了考試論文作弊以可乘之機(jī)。
針對這一點(diǎn),技術(shù)樂觀主義者認(rèn)為,既然從今以后機(jī)器能夠生成的內(nèi)容,或許也不需要大多數(shù)的人類去動腦實(shí)現(xiàn),就如同搜索引擎取代了圖書館的館藏卡片、計(jì)算器取代珠算一般。的確,那些需要大量重復(fù)的文字類工作,或者機(jī)械地列舉、整理工作,即使AI不介入最終決策,確實(shí)也能夠提供相當(dāng)程度的生產(chǎn)力,輔助人類進(jìn)行知識的加工和消費(fèi)。
那么,讀書還有用嗎?各大高校、研究機(jī)構(gòu)的人員,是否也可以下班了?
機(jī)器能“學(xué)到”什么?
大語言模型和生成式人工智能,為將來的知識“生產(chǎn)者”帶來了一個(gè)繞不過的課題:何為知識?如何生產(chǎn)多樣、公正、真實(shí)的知識?
人工智能的“學(xué)習(xí)”能力是驚人的?,F(xiàn)有的大語言模型和人工智能的應(yīng)用,都脫不開機(jī)器學(xué)習(xí)作為其底色?!皩W(xué)習(xí)”二字,實(shí)質(zhì)上是用大量的數(shù)據(jù)訓(xùn)練預(yù)測模型,并在預(yù)測的準(zhǔn)確度,以及普適性上找到平衡。這種預(yù)測實(shí)際上是基于現(xiàn)有知識的,語言模型的預(yù)測,也是基于現(xiàn)有語言之間的聯(lián)系。例如輸入“紅燒”,機(jī)器預(yù)測“肉”;然后根據(jù)更多的輸入,例如地點(diǎn),人,習(xí)慣等等,給出更加精確的預(yù)測,比如“外婆做的紅燒牛肉”等等。
這種預(yù)測是怎么實(shí)現(xiàn)的呢?我們熟悉的坐標(biāo)系是二維的。比如整個(gè)人群中,身高和體重有一個(gè)大致的對應(yīng)關(guān)系,給出身高,機(jī)器預(yù)測一個(gè)平均體重,就是基于現(xiàn)有數(shù)據(jù)的預(yù)測。再加入另一個(gè)維度,比如性別,那么就成為了一個(gè)三維坐標(biāo),男女的預(yù)測會有所不同。如此下去,數(shù)據(jù)的維度可以是無限的,而機(jī)器學(xué)習(xí)的模型,就是在人腦所不能想象的多維空間中尋找此類聯(lián)系,并不斷調(diào)整各個(gè)維度之間的權(quán)重。比如,身高對體重的預(yù)測“有多重要”,可以在大量的數(shù)據(jù)輸入之后進(jìn)行調(diào)整。
因此,基于機(jī)器學(xué)習(xí)的人工智能,會把各種維度的數(shù)據(jù),在更高維度的空間里聯(lián)系起來,有發(fā)現(xiàn)數(shù)據(jù)之間潛在聯(lián)系的能力,也會“學(xué)到”一些現(xiàn)實(shí)中不存在的,但很可能發(fā)生的聯(lián)系。用在語言模型中,人工智能也能學(xué)習(xí)到不同的語言風(fēng)格,挖掘現(xiàn)有文字中的“精髓”和“問題”。
數(shù)據(jù)越大,模型越成熟,其計(jì)算和挖掘能力也越高。類似于 BERT、GPT 這樣誕生于大機(jī)構(gòu)的 AI,被許多人認(rèn)為走到了技術(shù)的“拐點(diǎn)”,量變產(chǎn)生質(zhì)變也不無道理——這對于知識生產(chǎn)者來講是好事。不過,大模型也有其內(nèi)在的問題,模型越大,問題也越尖銳,特別是涉及到知識的多樣、公正和真實(shí)方面。
怎樣才能生產(chǎn)真實(shí)且公正的知識?
新的知識能從現(xiàn)有知識的連結(jié)和新模式中產(chǎn)生,這一點(diǎn)不管是從人還是機(jī)器的層面都是成立的。然而,現(xiàn)有的知識是否足夠?是否充分?是否公平?如果現(xiàn)有知識的基礎(chǔ)是不足的、甚至是有偏見的,那么在此基礎(chǔ)上建立的新知識也會產(chǎn)生偏差。
自從機(jī)器學(xué)習(xí)的AI投入大規(guī)模應(yīng)用以來,學(xué)者們就在不斷地揭示出這些模型內(nèi)在的偏見:性別歧視、種族歧視、有違倫理的輸出等等。開發(fā)者們用各種補(bǔ)丁和糾偏的方式去彌補(bǔ),但大部分問題都潛藏于數(shù)據(jù)生產(chǎn)和訓(xùn)練過程中,而AI的偏見,亦是對社會偏見的反映和放大。
另外一個(gè)問題則是數(shù)據(jù)的質(zhì)量。機(jī)器學(xué)習(xí)不僅牽涉到訓(xùn)練模型的能力,還有數(shù)據(jù)的數(shù)量和質(zhì)量?,F(xiàn)有的開發(fā)過程,對模型的性能有著更多的強(qiáng)調(diào)甚至是迷信,反而會忽視更底層的數(shù)據(jù)來源問題。現(xiàn)在的大部分?jǐn)?shù)據(jù)都要依賴人工來清洗和格式,為數(shù)據(jù)分類、打標(biāo)簽等等。很多時(shí)候,這個(gè)制作數(shù)據(jù)的過程是不透明的,甚至是潦草的。比如,大公司的AI開發(fā)背后,是大量“臟亂差”的人工被外包到欠發(fā)達(dá)地區(qū)的“AI工廠”。這種過程一方面存在著勞工倫理問題,另一方面也對數(shù)據(jù)質(zhì)量提出了挑戰(zhàn)。
到了大模型時(shí)代,這個(gè)問題可能會被隱藏得更深一些:不是每個(gè)研究者或者團(tuán)隊(duì)都有能力從0開始開發(fā)AI模型,尤其是大語言、大圖像模型,大多都是在現(xiàn)有模型的基礎(chǔ)上進(jìn)行微調(diào)。而大模型本身的問題和偏差,會被遷移到更多的應(yīng)用模型上。而越是底層的偏差,越是難以通過微調(diào)糾偏的方式進(jìn)行處理。
現(xiàn)有語言模型的預(yù)測生成模式,甚至還會將數(shù)據(jù)現(xiàn)有的偏差放大,產(chǎn)生“過擬合”的效果:例如,某種疾病在某個(gè)族群中統(tǒng)計(jì)數(shù)據(jù)占比偏高,約有60%;但若讓語言模型去生成一個(gè)病人的畫像,那么有超過90%的可能,生成的病人描述會屬于該族群。
現(xiàn)在一些AI的模型訓(xùn)練,采用的是一種“互搏”模式——所謂“生成對抗網(wǎng)絡(luò)”(generative adversarial network),讓兩個(gè)模型不斷互相生成、彼此糾正。這種方式的確是提高了模型訓(xùn)練的效率,然而任何小的偏差,都會在這種“互搏”中被放大。同樣的原理,如果一個(gè)與機(jī)器緊密合作的知識生產(chǎn)者,其生產(chǎn)依賴于這類“生成”,那么一些來自于模型的偏見,就會被嵌入更多的新知識中,新知識再被吸收為數(shù)據(jù),又進(jìn)一步加強(qiáng)了模型的偏差。知識生產(chǎn)者在這個(gè)過程中必須保持警惕。
什么是新知識?AI的“生成”能代表新知識嗎?
所謂的新知識,究竟是什么?如果要充分使用AI來生產(chǎn)知識,那么知識生產(chǎn)者就必須要從人機(jī)的結(jié)合點(diǎn)去思考這個(gè)問題。任何信息,以及人類從真實(shí)世界中獲取的知識,都需要被“清洗”和“格式”成數(shù)據(jù)。除了上面提到的數(shù)據(jù)質(zhì)量以外,數(shù)據(jù)生成的過程也很重要。簡而言之,人們要研究的問題是什么?這個(gè)問題被翻譯成為了怎樣的數(shù)據(jù)?這些數(shù)據(jù)是怎么被生產(chǎn)出來的,又是否全面、公正地代表了知識生產(chǎn)者們想要研究的問題?
這個(gè)問題,對于“傳統(tǒng)”的知識生產(chǎn)者而言也是成立的。以歷史學(xué)為例,雖然歷史研究的是過去的事情,但過去的事情沒有百分百能夠蓋棺定論的。學(xué)者們通常會不斷地尋找新的史料,去補(bǔ)充對于歷史問題的理解,去不斷地挖掘過去被忽略的視角和聲音。有趣的是,當(dāng)下的史學(xué),也常常會求助于大量的數(shù)據(jù),特別是過去的經(jīng)濟(jì)、人口、氣候數(shù)據(jù),甚至依靠機(jī)器學(xué)習(xí),為歷史帶來的新認(rèn)識、新觀點(diǎn)。
同樣的,依靠機(jī)器生成的認(rèn)識和觀點(diǎn),也有可能放大了某一些數(shù)據(jù)來源的重要性。現(xiàn)在的知識生產(chǎn)者,過于依賴那些主流的、存在于互聯(lián)網(wǎng)的、電子的信息,去在那些已經(jīng)被別人“翻譯”為數(shù)據(jù)的東西上進(jìn)行創(chuàng)造。在AI時(shí)代,AI提供的便利和可延展性,也會潛在地讓人們更容易忽視沒有被數(shù)據(jù)化、電子化的,非主流的,經(jīng)驗(yàn)性的知識,從而錯過形成新觀點(diǎn)、新視角的可能性。
往更深層次講,新知識往往產(chǎn)生于對于新材料的挖掘,不同觀點(diǎn)、不同視角之間的碰撞,對于現(xiàn)有知識的重新解構(gòu)。大語言模型為知識的展現(xiàn)提供了許多可能性,然而其內(nèi)在的邏輯和架構(gòu)可能是和這種生產(chǎn)方式相悖的。
基于大語言模型的訓(xùn)練方式,和模型生成輸出的特征,排序靠前的、概率更高的輸出內(nèi)容,權(quán)重會變得更大,特征會變得更單一。“AI生成的”幾乎已經(jīng)變成了一個(gè)形容詞,去描述那些沒有特征的、不斷重復(fù)、說了像是沒說的片湯話。誠然,對于知識消費(fèi)者而言,那些“最有可能”出現(xiàn)的答案大大降低了理解門檻;但對于知識生產(chǎn)者而言,這些東西反而有可能成為阻礙。
新時(shí)代的知識生產(chǎn)者,該往哪里走?
可能很多和我一樣的社科研究者,都在使用ChatGPT的時(shí)候遇到過這個(gè)問題:問它解釋一個(gè)概念,說得頭頭是道;然而問起來源,就是“一本正經(jīng)地胡說八道”了,比如列舉出一個(gè)作者從來沒寫過的書、從來沒發(fā)表過的論文。領(lǐng)域越是狹窄、專業(yè),“胡說”的可能性越大。
退回到AI的原理,這種“創(chuàng)造”其實(shí)也是在海量的數(shù)據(jù)中,挖掘詞句“有可能”的聯(lián)系,但這些聯(lián)系在現(xiàn)實(shí)中是不存在的,說白了只是“聽起來很像”。這種新現(xiàn)象,在當(dāng)下被稱為“幻視”(hallucination)。對于知識生產(chǎn)者而言,如何活用人工智能去挖掘現(xiàn)有知識庫中的模式和聯(lián)系,但又對機(jī)器的“幻視”保持警惕,什么存在,什么存疑,是非常重要的技能。
與AI“對話”,也會變成一個(gè)新的技能。當(dāng)下的AI對于大部分非技術(shù)人員而言(甚至技術(shù)人員),依然是一個(gè)神秘的“黑箱”。如何從技術(shù)的底層或者中層入手,去更有效地與機(jī)器對話,理解和對抗“幻視”,需要知識生產(chǎn)者和技術(shù)從業(yè)人員的合作。
而對于新知識、新視角、新材料的研究,各個(gè)領(lǐng)域獨(dú)有的結(jié)構(gòu)和詮釋,在當(dāng)下依然是十分關(guān)鍵的。大語言模型和生成式AI的預(yù)測模式,依然是傾向單一、重復(fù)的,越是訓(xùn)練材料少的領(lǐng)域,能力就越是有限。想要機(jī)器和人能力的結(jié)合,就必須從數(shù)據(jù)的生產(chǎn)根源上著手,去用準(zhǔn)確的、多樣的、公正的、新穎的數(shù)據(jù)訓(xùn)練AI模型,建立良性的人機(jī)互動模式。
大語言模型和生成式AI的問世對研究人員帶來的挑戰(zhàn),僅僅是一個(gè)開始。與其探討“取代”,不如在更加審慎的目光下,尋求磨合與發(fā)展的可能。
作者介紹:李子,技術(shù)社會學(xué)博士,哥倫比亞大學(xué)醫(yī)學(xué)人文和倫理系博士后研究員
本文來自微信公眾號:騰訊研究院 (ID:cyberlawrc),作者:李子
聯(lián)系客服