angelababyav视频,白俄罗斯美女视频,性感丰满美女视频

人工智能 (AI) 在改變我們生活、工作和與技術(shù)互動的方式方面取得了巨大的進步。最近，取得重大進展的領(lǐng)域是大型語言模型 (LLM) 的開發(fā)，例如GPT-3、ChatGPT和GPT-4。這些模型能夠準(zhǔn)確的執(zhí)行語言翻譯、文本摘要和問答等任務(wù)。

雖然很難忽視 LLM 不斷增加的模型規(guī)模，但同樣重要的是要認(rèn)識到，他們的成功很大程度上歸功于用于訓(xùn)練他們的大量高質(zhì)量數(shù)據(jù)。

在本文中，我們將從以數(shù)據(jù)為中心的 AI 角度概述 LLM 的最新進展。我們將通過以數(shù)據(jù)為中心的 AI 視角研究 GPT 模型，這是數(shù)據(jù)科學(xué)界中一個不斷發(fā)展的概念。我們通過討論三個以數(shù)據(jù)為中心的 AI 目標(biāo)：訓(xùn)練數(shù)據(jù)開發(fā)、推理數(shù)據(jù)開發(fā)和數(shù)據(jù)維護，來揭示 GPT 模型背后以數(shù)據(jù)為中心的 AI 概念。

大型語言模型 (LLM) 和 GPT 模型

LLM 是一種自然語言處理模型，經(jīng)過訓(xùn)練可以在上下文中推斷單詞。例如，LLM 最基本的功能是在給定上下文的情況下預(yù)測缺失的標(biāo)記。為此，LLM 接受了訓(xùn)練，可以從海量數(shù)據(jù)中預(yù)測每個候選單詞的概率。下圖是在上下文中使用 LLM 預(yù)測丟失標(biāo)記的概率的說明性示例。

GPT模型是指OpenAI創(chuàng)建的一系列LLM，如GPT-1、GPT-2、GPT-3、InstructGPT、ChatGPT/GPT-4等。與其他 LLM 一樣，GPT 模型的架構(gòu)主要基于Transformers，它使用文本和位置嵌入作為輸入，并使用注意力層來模擬令牌的關(guān)系。

GPT-1 模型架構(gòu)

后來的 GPT 模型使用與 GPT-1 類似的架構(gòu)，除了使用更多模型參數(shù)和更多層、更大的上下文長度、隱藏層大小等。

什么是以數(shù)據(jù)為中心的人工智能

以數(shù)據(jù)為中心的 AI是一種新興的思考如何構(gòu)建 AI 系統(tǒng)的新方法。以數(shù)據(jù)為中心的人工智能是系統(tǒng)地設(shè)計用于構(gòu)建人工智能系統(tǒng)的數(shù)據(jù)的學(xué)科。

過去，我們主要專注于在數(shù)據(jù)基本不變的情況下創(chuàng)建更好的模型（以模型為中心的 AI）。然而，這種方法在現(xiàn)實世界中可能會導(dǎo)致問題，因為它沒有考慮數(shù)據(jù)中可能出現(xiàn)的不同問題，例如標(biāo)簽不準(zhǔn)確、重復(fù)和偏差。因此，“過度擬合”數(shù)據(jù)集不一定會導(dǎo)致更好的模型行為。

相比之下，以數(shù)據(jù)為中心的人工智能專注于提高用于構(gòu)建人工智能系統(tǒng)的數(shù)據(jù)的質(zhì)量和數(shù)量。這意味著注意力在數(shù)據(jù)本身，模型相對更固定。使用以數(shù)據(jù)為中心的方法開發(fā)人工智能系統(tǒng)在現(xiàn)實場景中具有更大的潛力，因為用于訓(xùn)練的數(shù)據(jù)最終決定了模型的最大能力。

需要注意的是，“以數(shù)據(jù)為中心”與“數(shù)據(jù)驅(qū)動”有著根本的區(qū)別，后者只強調(diào)用數(shù)據(jù)來指導(dǎo)人工智能的發(fā)展，通常仍以開發(fā)模型而不是數(shù)據(jù)為中心。

以數(shù)據(jù)為中心的人工智能與以模型為中心的人工智能之間的比較

以數(shù)據(jù)為中心的 AI 框架包含三個目標(biāo)：

訓(xùn)練數(shù)據(jù)開發(fā)就是收集和生產(chǎn)豐富、高質(zhì)量的數(shù)據(jù)，以支持機器學(xué)習(xí)模型的訓(xùn)練。
推理數(shù)據(jù)開發(fā)是為了創(chuàng)建新的評估集，這些評估集可以提供對模型的更細粒度的洞察力，或者通過數(shù)據(jù)輸入觸發(fā)模型的特定功能。
數(shù)據(jù)維護是為了在動態(tài)環(huán)境下保證數(shù)據(jù)的質(zhì)量和可靠性。數(shù)據(jù)維護至關(guān)重要，因為現(xiàn)實世界中的數(shù)據(jù)不是一次性創(chuàng)建的，而是需要持續(xù)維護。

以數(shù)據(jù)為中心的 AI 框架

為什么以數(shù)據(jù)為中心的 AI 使 GPT 模型成功

幾個月前，Yann LeCun 在推特上表示 ChatGPT 并不是什么新鮮事。事實上，ChatGPT 和 GPT-4 中使用的所有技術(shù)（變壓器、從人類反饋中強化學(xué)習(xí)等）一點都不新鮮。然而，他們確實取得了以前模型無法實現(xiàn)的結(jié)果。那么，他們成功的原因什么？

訓(xùn)練數(shù)據(jù)開發(fā)。通過更好的數(shù)據(jù)收集、數(shù)據(jù)標(biāo)記和數(shù)據(jù)準(zhǔn)備策略，用于訓(xùn)練 GPT 模型的數(shù)據(jù)的數(shù)量和質(zhì)量有了顯著提高。

GPT-1：BooksCorpus 數(shù)據(jù)集用于訓(xùn)練。該數(shù)據(jù)集包含4629.00 MB 的原始文本，涵蓋各種類型的書籍，例如冒險、幻想和浪漫。
-以數(shù)據(jù)為中心的 AI 策略：無。
-結(jié)果：在該數(shù)據(jù)集上使用 GPT-1 可以通過微調(diào)提高下游任務(wù)的性能。
GPT-2：訓(xùn)練中使用WebText 。這是 OpenAI 中的一個內(nèi)部數(shù)據(jù)集，通過從 Reddit 抓取出站鏈接創(chuàng)建。
-以數(shù)據(jù)為中心的 AI 策略：(1) 僅使用來自 Reddit 的出站鏈接來整理/過濾數(shù)據(jù)，該鏈接至少獲得 3 個業(yè)力。(2) 使用工具Dragnet和Newspaper來提取干凈的內(nèi)容。(3) 采用去重和其他一些基于啟發(fā)式的清洗。
-結(jié)果：過濾后得到 40 GB 的文本。GPT-2 無需微調(diào)即可獲得強大的零樣本結(jié)果。
GPT-3：GPT-3的訓(xùn)練主要基于Common Crawl。
-以數(shù)據(jù)為中心的 AI 策略：(1) 訓(xùn)練分類器根據(jù)每個文檔與WebText（高質(zhì)量文檔）的相似性過濾掉低質(zhì)量文檔。(2)利用Spark的MinHashLSH對文檔進行模糊去重。(3) 使用WebText、圖書語料庫和維基百科擴充數(shù)據(jù)。
- 結(jié)果：45TB的明文過濾后得到570GB的文本（本次質(zhì)量過濾只選擇了1.27%的數(shù)據(jù)）。GPT-3 在零樣本設(shè)置中明顯優(yōu)于 GPT-2。
InstructGPT：讓人類評估調(diào)整GPT-3 的答案，使其更好地符合人類的期望。他們?yōu)闃?biāo)注者設(shè)計了測試，只有通過測試的人才有資格標(biāo)注。他們甚至設(shè)計了一項調(diào)查，以確保注釋者全心投入到注釋過程中。
-以數(shù)據(jù)為中心的 AI 策略：(1)使用人類提供的提示答案通過監(jiān)督訓(xùn)練調(diào)整模型。(2)收集比較數(shù)據(jù)以訓(xùn)練獎勵模型，然后使用此獎勵模型通過人類反饋強化學(xué)習(xí)(RLHF)調(diào)整GPT-3。
- 結(jié)果：InstructGPT 表現(xiàn)出更好的真實性和更少的偏差，即更好的對齊。
ChatGPT/GPT-4：OpenAI 沒有透露細節(jié)。但眾所周知，ChatGPT/GPT-4 很大程度上沿用了之前 GPT 模型的設(shè)計，他們?nèi)匀皇褂?RLHF 來調(diào)整模型（可能有更多和更高質(zhì)量的數(shù)據(jù)/標(biāo)簽）。人們普遍認(rèn)為，隨著模型權(quán)重的增加，GPT-4 使用了更大的數(shù)據(jù)集。

推理數(shù)據(jù)開發(fā)。由于最近的 GPT 模型已經(jīng)足夠強大，我們可以通過在模型固定的情況下調(diào)整提示或調(diào)整推理數(shù)據(jù)來實現(xiàn)各種目標(biāo)。例如，我們可以通過提供要總結(jié)的文本以及諸如“總結(jié)它”或“TL;DR”之類的指令來引導(dǎo)推理過程，從而進行文本摘要。

及時調(diào)整

設(shè)計正確的推理提示是一項具有挑戰(zhàn)性的任務(wù)。它嚴(yán)重依賴啟發(fā)式方法。一個很好的調(diào)查總結(jié)了不同的促銷方法。有時，即使是語義相似的提示也會有非常不同的輸出。在這種情況下，可能需要基于軟提示的校準(zhǔn)來減少方差。

LLM推理數(shù)據(jù)開發(fā)的研究仍處于早期階段。在不久的將來，可以在 LLM 中應(yīng)用更多已用于其他任務(wù)的推理數(shù)據(jù)開發(fā)技術(shù)。

數(shù)據(jù)維護。ChatGPT/GPT-4作為商業(yè)產(chǎn)品，不僅訓(xùn)練一次，而且不斷更新和維護。顯然，我們無法知道在 OpenAI 之外如何進行數(shù)據(jù)維護。因此，我們討論了一些通用的以數(shù)據(jù)為中心的 AI 策略，這些策略已經(jīng)或?qū)⒑芸赡苡糜?GPT 模型：
- 連續(xù)數(shù)據(jù)收集：當(dāng)我們使用 ChatGPT/GPT-4 時，我們的提示/反饋可能反過來被 OpenAI 使用進一步推進他們的模型?？赡芤呀?jīng)設(shè)計并實施了質(zhì)量指標(biāo)和保證策略，以在此過程中收集高質(zhì)量數(shù)據(jù)。
- 數(shù)據(jù)理解工具：可以開發(fā)各種工具來可視化和理解用戶數(shù)據(jù)，促進更好地了解用戶需求并指導(dǎo)未來改進的方向。
- 高效的數(shù)據(jù)處理：隨著ChatGPT/GPT-4用戶數(shù)量的快速增長，需要一個高效的數(shù)據(jù)管理系統(tǒng)來實現(xiàn)快速的數(shù)據(jù)采集。

上圖是ChatGPT/GPT-4 通過“贊”和“不贊”收集用戶反饋的示例。

數(shù)據(jù)科學(xué)界可以從這波 LLM 浪潮中學(xué)到什么

LLM的成功徹底改變了人工智能。展望未來，LLM可以進一步徹底改變數(shù)據(jù)科學(xué)生命周期。我們做出兩個預(yù)測：

以數(shù)據(jù)為中心的人工智能變得更加重要。經(jīng)過多年研究，模型設(shè)計已經(jīng)非常成熟，尤其是在Transformer之后。數(shù)據(jù)成為未來改進 AI 系統(tǒng)的關(guān)鍵方式。另外，當(dāng)模型變得足夠強大時，我們就不需要在日常工作中訓(xùn)練模型了。相反，我們只需要設(shè)計適當(dāng)?shù)耐评頂?shù)據(jù)來從模型中探索知識。因此，以數(shù)據(jù)為中心的人工智能的研發(fā)將推動未來的進步。
LLM將實現(xiàn)更好的以數(shù)據(jù)為中心的人工智能解決方案

許多繁瑣的數(shù)據(jù)科學(xué)工作可以在LLM的幫助下更有效地進行。例如，ChaGPT/GPT-4 已經(jīng)可以編寫可工作的代碼來處理和清洗數(shù)據(jù)。此外，LLM 甚至可以用于創(chuàng)建訓(xùn)練數(shù)據(jù)。例如使用 LLM 生成合成數(shù)據(jù)可以提高文本挖掘中的模型性能。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频