人工智能 (AI) 在改變我們生活、工作和與技術(shù)互動的方式方面取得了巨大的進步。最近,取得重大進展的領(lǐng)域是大型語言模型 (LLM) 的開發(fā),例如GPT-3、ChatGPT和GPT-4。這些模型能夠準(zhǔn)確的執(zhí)行語言翻譯、文本摘要和問答等任務(wù)。
雖然很難忽視 LLM 不斷增加的模型規(guī)模,但同樣重要的是要認(rèn)識到,他們的成功很大程度上歸功于用于訓(xùn)練他們的大量高質(zhì)量數(shù)據(jù)。
在本文中,我們將從以數(shù)據(jù)為中心的 AI 角度概述 LLM 的最新進展。我們將通過以數(shù)據(jù)為中心的 AI 視角研究 GPT 模型,這是數(shù)據(jù)科學(xué)界中一個不斷發(fā)展的概念。我們通過討論三個以數(shù)據(jù)為中心的 AI 目標(biāo):訓(xùn)練數(shù)據(jù)開發(fā)、推理數(shù)據(jù)開發(fā)和數(shù)據(jù)維護,來揭示 GPT 模型背后以數(shù)據(jù)為中心的 AI 概念。
大型語言模型 (LLM) 和 GPT 模型
LLM 是一種自然語言處理模型,經(jīng)過訓(xùn)練可以在上下文中推斷單詞。例如,LLM 最基本的功能是在給定上下文的情況下預(yù)測缺失的標(biāo)記。為此,LLM 接受了訓(xùn)練,可以從海量數(shù)據(jù)中預(yù)測每個候選單詞的概率。下圖是在上下文中使用 LLM 預(yù)測丟失標(biāo)記的概率的說明性示例。
GPT模型是指OpenAI創(chuàng)建的一系列LLM,如GPT-1、GPT-2、GPT-3、InstructGPT、ChatGPT/GPT-4等。與其他 LLM 一樣,GPT 模型的架構(gòu)主要基于Transformers,它使用文本和位置嵌入作為輸入,并使用注意力層來模擬令牌的關(guān)系。
后來的 GPT 模型使用與 GPT-1 類似的架構(gòu),除了使用更多模型參數(shù)和更多層、更大的上下文長度、隱藏層大小等。
什么是以數(shù)據(jù)為中心的人工智能
以數(shù)據(jù)為中心的 AI是一種新興的思考如何構(gòu)建 AI 系統(tǒng)的新方法。以數(shù)據(jù)為中心的人工智能是系統(tǒng)地設(shè)計用于構(gòu)建人工智能系統(tǒng)的數(shù)據(jù)的學(xué)科。
過去,我們主要專注于在數(shù)據(jù)基本不變的情況下創(chuàng)建更好的模型(以模型為中心的 AI)。然而,這種方法在現(xiàn)實世界中可能會導(dǎo)致問題,因為它沒有考慮數(shù)據(jù)中可能出現(xiàn)的不同問題,例如標(biāo)簽不準(zhǔn)確、重復(fù)和偏差。因此,“過度擬合”數(shù)據(jù)集不一定會導(dǎo)致更好的模型行為。
相比之下,以數(shù)據(jù)為中心的人工智能專注于提高用于構(gòu)建人工智能系統(tǒng)的數(shù)據(jù)的質(zhì)量和數(shù)量。這意味著注意力在數(shù)據(jù)本身,模型相對更固定。使用以數(shù)據(jù)為中心的方法開發(fā)人工智能系統(tǒng)在現(xiàn)實場景中具有更大的潛力,因為用于訓(xùn)練的數(shù)據(jù)最終決定了模型的最大能力。
需要注意的是,“以數(shù)據(jù)為中心”與“數(shù)據(jù)驅(qū)動”有著根本的區(qū)別,后者只強調(diào)用數(shù)據(jù)來指導(dǎo)人工智能的發(fā)展,通常仍以開發(fā)模型而不是數(shù)據(jù)為中心。
以數(shù)據(jù)為中心的人工智能與以模型為中心的人工智能之間的比較
以數(shù)據(jù)為中心的 AI 框架包含三個目標(biāo):
訓(xùn)練數(shù)據(jù)開發(fā)就是收集和生產(chǎn)豐富、高質(zhì)量的數(shù)據(jù),以支持機器學(xué)習(xí)模型的訓(xùn)練。
推理數(shù)據(jù)開發(fā)是為了創(chuàng)建新的評估集,這些評估集可以提供對模型的更細粒度的洞察力,或者通過數(shù)據(jù)輸入觸發(fā)模型的特定功能。
數(shù)據(jù)維護是為了在動態(tài)環(huán)境下保證數(shù)據(jù)的質(zhì)量和可靠性。數(shù)據(jù)維護至關(guān)重要,因為現(xiàn)實世界中的數(shù)據(jù)不是一次性創(chuàng)建的,而是需要持續(xù)維護。
以數(shù)據(jù)為中心的 AI 框架
為什么以數(shù)據(jù)為中心的 AI 使 GPT 模型成功
幾個月前,Yann LeCun 在推特上表示 ChatGPT 并不是什么新鮮事。事實上,ChatGPT 和 GPT-4 中使用的所有技術(shù)(變壓器、從人類反饋中強化學(xué)習(xí)等)一點都不新鮮。然而,他們確實取得了以前模型無法實現(xiàn)的結(jié)果。那么,他們成功的原因什么?
訓(xùn)練數(shù)據(jù)開發(fā)。通過更好的數(shù)據(jù)收集、數(shù)據(jù)標(biāo)記和數(shù)據(jù)準(zhǔn)備策略,用于訓(xùn)練 GPT 模型的數(shù)據(jù)的數(shù)量和質(zhì)量有了顯著提高。
GPT-1:BooksCorpus 數(shù)據(jù)集用于訓(xùn)練。該數(shù)據(jù)集包含4629.00 MB 的原始文本,涵蓋各種類型的書籍,例如冒險、幻想和浪漫。
-以數(shù)據(jù)為中心的 AI 策略:無。
-結(jié)果:在該數(shù)據(jù)集上使用 GPT-1 可以通過微調(diào)提高下游任務(wù)的性能。
GPT-2:訓(xùn)練中使用WebText 。這是 OpenAI 中的一個內(nèi)部數(shù)據(jù)集,通過從 Reddit 抓取出站鏈接創(chuàng)建。
-以數(shù)據(jù)為中心的 AI 策略:(1) 僅使用來自 Reddit 的出站鏈接來整理/過濾數(shù)據(jù),該鏈接至少獲得 3 個業(yè)力。(2) 使用工具Dragnet和Newspaper來提取干凈的內(nèi)容。(3) 采用去重和其他一些基于啟發(fā)式的清洗。
-結(jié)果:過濾后得到 40 GB 的文本。GPT-2 無需微調(diào)即可獲得強大的零樣本結(jié)果。
GPT-3:GPT-3的訓(xùn)練主要基于Common Crawl。
-以數(shù)據(jù)為中心的 AI 策略:(1) 訓(xùn)練分類器根據(jù)每個文檔與WebText(高質(zhì)量文檔)的相似性過濾掉低質(zhì)量文檔。(2)利用Spark的MinHashLSH對文檔進行模糊去重。(3) 使用WebText、圖書語料庫和維基百科擴充數(shù)據(jù)。
- 結(jié)果:45TB的明文過濾后得到570GB的文本(本次質(zhì)量過濾只選擇了1.27%的數(shù)據(jù))。GPT-3 在零樣本設(shè)置中明顯優(yōu)于 GPT-2。
InstructGPT:讓人類評估調(diào)整GPT-3 的答案,使其更好地符合人類的期望。他們?yōu)闃?biāo)注者設(shè)計了測試,只有通過測試的人才有資格標(biāo)注。他們甚至設(shè)計了一項調(diào)查,以確保注釋者全心投入到注釋過程中。
-以數(shù)據(jù)為中心的 AI 策略:(1)使用人類提供的提示答案通過監(jiān)督訓(xùn)練調(diào)整模型。(2)收集比較數(shù)據(jù)以訓(xùn)練獎勵模型,然后使用此獎勵模型通過人類反饋強化學(xué)習(xí)(RLHF)調(diào)整GPT-3。
- 結(jié)果:InstructGPT 表現(xiàn)出更好的真實性和更少的偏差,即更好的對齊。
ChatGPT/GPT-4:OpenAI 沒有透露細節(jié)。但眾所周知,ChatGPT/GPT-4 很大程度上沿用了之前 GPT 模型的設(shè)計,他們?nèi)匀皇褂?RLHF 來調(diào)整模型(可能有更多和更高質(zhì)量的數(shù)據(jù)/標(biāo)簽)。人們普遍認(rèn)為,隨著模型權(quán)重的增加,GPT-4 使用了更大的數(shù)據(jù)集。
推理數(shù)據(jù)開發(fā)。由于最近的 GPT 模型已經(jīng)足夠強大,我們可以通過在模型固定的情況下調(diào)整提示或調(diào)整推理數(shù)據(jù)來實現(xiàn)各種目標(biāo)。例如,我們可以通過提供要總結(jié)的文本以及諸如“總結(jié)它”或“TL;DR”之類的指令來引導(dǎo)推理過程,從而進行文本摘要。
及時調(diào)整
設(shè)計正確的推理提示是一項具有挑戰(zhàn)性的任務(wù)。它嚴(yán)重依賴啟發(fā)式方法。一個很好的調(diào)查總結(jié)了不同的促銷方法。有時,即使是語義相似的提示也會有非常不同的輸出。在這種情況下,可能需要基于軟提示的校準(zhǔn)來減少方差。
LLM推理數(shù)據(jù)開發(fā)的研究仍處于早期階段。在不久的將來,可以在 LLM 中應(yīng)用更多已用于其他任務(wù)的推理數(shù)據(jù)開發(fā)技術(shù)。
數(shù)據(jù)維護。ChatGPT/GPT-4作為商業(yè)產(chǎn)品,不僅訓(xùn)練一次,而且不斷更新和維護。顯然,我們無法知道在 OpenAI 之外如何進行數(shù)據(jù)維護。因此,我們討論了一些通用的以數(shù)據(jù)為中心的 AI 策略,這些策略已經(jīng)或?qū)⒑芸赡苡糜?GPT 模型:
- 連續(xù)數(shù)據(jù)收集:當(dāng)我們使用 ChatGPT/GPT-4 時,我們的提示/反饋可能反過來被 OpenAI 使用進一步推進他們的模型??赡芤呀?jīng)設(shè)計并實施了質(zhì)量指標(biāo)和保證策略,以在此過程中收集高質(zhì)量數(shù)據(jù)。
- 數(shù)據(jù)理解工具:可以開發(fā)各種工具來可視化和理解用戶數(shù)據(jù),促進更好地了解用戶需求并指導(dǎo)未來改進的方向。
- 高效的數(shù)據(jù)處理:隨著ChatGPT/GPT-4用戶數(shù)量的快速增長,需要一個高效的數(shù)據(jù)管理系統(tǒng)來實現(xiàn)快速的數(shù)據(jù)采集。
上圖是ChatGPT/GPT-4 通過“贊”和“不贊”收集用戶反饋的示例。
數(shù)據(jù)科學(xué)界可以從這波 LLM 浪潮中學(xué)到什么
LLM的成功徹底改變了人工智能。展望未來,LLM可以進一步徹底改變數(shù)據(jù)科學(xué)生命周期。我們做出兩個預(yù)測:
以數(shù)據(jù)為中心的人工智能變得更加重要。經(jīng)過多年研究,模型設(shè)計已經(jīng)非常成熟,尤其是在Transformer之后。數(shù)據(jù)成為未來改進 AI 系統(tǒng)的關(guān)鍵方式。另外,當(dāng)模型變得足夠強大時,我們就不需要在日常工作中訓(xùn)練模型了。相反,我們只需要設(shè)計適當(dāng)?shù)耐评頂?shù)據(jù)來從模型中探索知識。因此,以數(shù)據(jù)為中心的人工智能的研發(fā)將推動未來的進步。
LLM將實現(xiàn)更好的以數(shù)據(jù)為中心的人工智能解決方案
許多繁瑣的數(shù)據(jù)科學(xué)工作可以在LLM的幫助下更有效地進行。例如,ChaGPT/GPT-4 已經(jīng)可以編寫可工作的代碼來處理和清洗數(shù)據(jù)。此外,LLM 甚至可以用于創(chuàng)建訓(xùn)練數(shù)據(jù)。例如使用 LLM 生成合成數(shù)據(jù)可以提高文本挖掘中的模型性能。
聯(lián)系客服