中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
胡泳|“萬(wàn)模大戰(zhàn)”下的冷思考:大型語(yǔ)言模型和人工智能的未來(lái)

1 大型語(yǔ)言模型成新寵

由于ChatGPT爆火的緣故,大型語(yǔ)言模型(LLM,Large Language Model)集萬(wàn)千寵愛于一身。但它們是什么呢?

簡(jiǎn)單地說(shuō),LLMs是一種計(jì)算機(jī)系統(tǒng),被設(shè)計(jì)用來(lái)學(xué)習(xí)文本語(yǔ)料庫(kù)的統(tǒng)計(jì)屬性,以生成模仿原始文本的風(fēng)格和內(nèi)容的新文本。換句話說(shuō),LLMs能夠生成現(xiàn)實(shí)而較為準(zhǔn)確的新文本,看起來(lái)像是由一個(gè)真實(shí)的人寫的。

LLMs的核心基于一種強(qiáng)大的機(jī)器學(xué)習(xí)技術(shù),即深度學(xué)習(xí)。深度學(xué)習(xí)是人工智能的一個(gè)子集,能夠自動(dòng)學(xué)習(xí)數(shù)據(jù)中的復(fù)雜模式。深度學(xué)習(xí)算法的靈感來(lái)自于大腦從經(jīng)驗(yàn)中學(xué)習(xí)的能力,它們通常使用神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)——計(jì)算系統(tǒng)的結(jié)構(gòu)與大腦非常相似。事實(shí)上,如果不使用先進(jìn)的水印策略,就不可能準(zhǔn)確區(qū)分由人類頭腦所寫的文本和由高度可并行的人工神經(jīng)網(wǎng)絡(luò)所產(chǎn)生的文本,后者的神經(jīng)連接數(shù)要少得多。

傳統(tǒng)機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法之間的一個(gè)關(guān)鍵區(qū)別是,深度學(xué)習(xí)算法可以擴(kuò)展到更大的數(shù)據(jù)集,它們可以從非結(jié)構(gòu)化或未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)。這使得它們非常適合于自然語(yǔ)言處理(NLP, natural language processing)等任務(wù),這也是LLMs的用途。它現(xiàn)在被認(rèn)為是人工智能的前沿,因其有可能執(zhí)行需要?jiǎng)?chuàng)造力、推理和理解自然語(yǔ)言的任務(wù)。

LLM于2017年在谷歌大腦(Google Brain)開始使用,研究人員推出了transformer(轉(zhuǎn)換器)架構(gòu),它是自然語(yǔ)言處理中使用的一個(gè)基于深度學(xué)習(xí)模型的神經(jīng)網(wǎng)絡(luò),訓(xùn)練可以實(shí)現(xiàn)并行化,這為訓(xùn)練真正的大模型首次提供了機(jī)會(huì)。

此后,大型語(yǔ)言和文本-圖像模型在領(lǐng)先的技術(shù)公司中激增,包括谷歌(BERT、GLaM、LaMDA、Chinchilla、PaLM)、Facebook(OPT-175B、Galactica、BlenderBot、LLaMA)、英偉達(dá)和微軟(Megatron-Turing),當(dāng)然還有OpenAI,微軟是主要的投資者(GPT-3/4用于文本,DALL-E2用于圖像,Whisper用于語(yǔ)音)。在線社區(qū),如Midjourney,以及HuggingFace等開源供應(yīng)商,也創(chuàng)造了生成模型。

▲ 圖源Pexels

新的玩家還在不斷進(jìn)場(chǎng)。2023年3月,彭博社推出BloombergGPT,系根據(jù)專有來(lái)源的金融數(shù)據(jù)訓(xùn)練的LLM,“在金融任務(wù)上比現(xiàn)有的模型有明顯的優(yōu)勢(shì),而不影響一般LLM的基準(zhǔn)性能”。彭博社計(jì)劃將其整合到通過終端軟件提供的功能中。4月,資助開發(fā)“穩(wěn)定擴(kuò)散”(Stable Diffusion)等開源生成式人工智能模型的Stability AI宣布推出其StableLM語(yǔ)言模型套件。在為多個(gè)領(lǐng)域(包括圖像、音頻、視頻、3D和生物學(xué))開發(fā)模型之后,這是該開發(fā)商首次跳入目前由技術(shù)大腕主導(dǎo)的語(yǔ)言模型游戲。

同在4月,亞馬遜在AWS中推出Bedrock服務(wù),在一個(gè)平臺(tái)上提供多種生成式人工智能模型。例如,Stability AI的Stable Diffusion圖像生成器,可以將文本變成圖像;AI21實(shí)驗(yàn)室的Jurassic-2模型是一個(gè)多語(yǔ)言LLM,可以生成德語(yǔ)、西班牙語(yǔ)、法語(yǔ)、葡萄牙語(yǔ)、荷蘭語(yǔ)和意大利語(yǔ)文本。Anthropic的Claude是一個(gè)ChatGPT的對(duì)手,可以自動(dòng)化工作流程,回答問題,并與用戶進(jìn)行交流。與微軟和Alphabet相比,亞馬遜可能看起來(lái)姍姍來(lái)遲,但它的打法相當(dāng)精明。通過Bedrock,亞馬遜不只是提供對(duì)上述第三方平臺(tái)的訪問,也提供對(duì)其專有的大型語(yǔ)言模型Titan的訪問,這可能使亞馬遜變成那些希望使用LLMs并根據(jù)其需求構(gòu)建應(yīng)用程序的企業(yè)的首選平臺(tái)。

時(shí)至今日,除了蘋果之外,美國(guó)每家主要科技公司都宣布了自己的LLM。中國(guó)的科技公司當(dāng)然亦不甘落后:2023年3月,百度推出文心一言并在官宣后為新浪財(cái)經(jīng)、澎湃新聞、愛奇藝、美的集團(tuán)、東風(fēng)日產(chǎn)等一系列企業(yè)提供接入服務(wù);2022年,阿里達(dá)摩院發(fā)布通義大模型,并在2023年4月正式推出通義千問;再加上2022年騰訊對(duì)外披露的混元大模型和2021年華為發(fā)布的盤古大模型等等,不一而足,人稱“萬(wàn)模大戰(zhàn)”。

LLMs對(duì)大型科技公司很重要,因?yàn)樗鼈兛梢詫?shí)現(xiàn)新的產(chǎn)品和服務(wù),從而吸引更多的用戶,產(chǎn)生更多的收入,并創(chuàng)造更多的價(jià)值。例如,LLMs可用于改進(jìn)搜索引擎、社交網(wǎng)絡(luò)、云計(jì)算、數(shù)字助理、電子商務(wù)、游戲、教育、醫(yī)療保健等。此外,科技公司可以用LLMs來(lái)改進(jìn)企業(yè)的現(xiàn)有產(chǎn)品線,生成式模型的重要價(jià)值之一是它們與生產(chǎn)力應(yīng)用程序的整合。例如,微軟在企業(yè)Office套件市場(chǎng)中有明顯的優(yōu)勢(shì),正在將生成式模型整合到Word、Outlook和Teams等應(yīng)用程序中。中國(guó)科技巨頭阿里巴巴在生成式人工智能方面的最新努力,在某種程度上讓人聯(lián)想到微軟,即通過讓人們用自然語(yǔ)言來(lái)描述他們想要建立的東西,令使用各種應(yīng)用程序變得更容易。阿里巴巴宣布,通義千問將被整合到公司的各項(xiàng)業(yè)務(wù)中,以改善用戶體驗(yàn),客戶和開發(fā)人員可以通過利用該模型創(chuàng)建定制的人工智能功能。

▲ 圖源Pixabay

2 人工智能為什么非得是大模型?

就這樣,大型通用人工智能模型被業(yè)界宣傳為“基礎(chǔ)性的”,是該領(lǐng)域科學(xué)進(jìn)步的主要轉(zhuǎn)折點(diǎn)。這類敘述分散了“規(guī)模病癥”的注意力,這些病癥每天都變得更加根深蒂固:大規(guī)模的人工智能模型主要由大科技公司控制,因?yàn)樗鼈冃枰薮蟮挠?jì)算和數(shù)據(jù)資源,并且還引發(fā)了圍繞歧視、隱私和安全漏洞以及負(fù)面環(huán)境影響等多方面的擔(dān)憂。

例如,GPT-3最初是在45TB的數(shù)據(jù)上訓(xùn)練的,并采用了1750億個(gè)參數(shù)來(lái)進(jìn)行預(yù)測(cè);GPT-3的一次訓(xùn)練就花費(fèi)了1200萬(wàn)美元。另?yè)?jù)報(bào)道,ChatGPT每天給OpenAI帶來(lái)70萬(wàn)美元的成本。大多數(shù)公司沒有數(shù)據(jù)中心能力或云計(jì)算預(yù)算來(lái)從頭開始訓(xùn)練這類模型,包括許多現(xiàn)成的、預(yù)訓(xùn)練的人工智能模型,作為云人工智能服務(wù)的一部分提供,而此市場(chǎng)本已集中在大科技公司手中,如AWS(亞馬遜)、GCP(谷歌云平臺(tái))和Azure(微軟)。這些云供應(yīng)商每年總共花費(fèi)超過1000億美元的資本支出,確保擁有最全面、最可靠和最具成本競(jìng)爭(zhēng)力的平臺(tái)。特別是在生成式人工智能方面,它們也受益于供應(yīng)限制,因?yàn)樗鼈兛梢詢?yōu)先獲得稀缺的硬件(如Nvidia A100和H100 GPU)。

大科技公司可能會(huì)保持先發(fā)優(yōu)勢(shì),因?yàn)樗鼈冇袝r(shí)間和市場(chǎng)經(jīng)驗(yàn)來(lái)磨練基礎(chǔ)語(yǔ)言模型,并發(fā)展寶貴的內(nèi)部專業(yè)知識(shí)。因此,較小的企業(yè)或初創(chuàng)公司可能難以成功進(jìn)入這一領(lǐng)域,從而使得LLM的巨大處理能力集中在少數(shù)幾家大科技公司手中

2021年,埃米莉·本德(Emily M. Bender)博士、蒂姆尼特·蓋布魯(Timnit Gebru)博士、安吉麗娜·麥克米蘭-梅杰(Angelina McMillan-Major)和瑪格麗特·米切爾(Margaret Mitchell)博士在一篇題為《論隨機(jī)鸚鵡的危險(xiǎn)》的論文中對(duì)LLM的潛在成本和危害提出警告,這篇論文導(dǎo)致谷歌將蓋布魯和米切爾從人工智能倫理團(tuán)隊(duì)的共同領(lǐng)導(dǎo)位置上趕走。

該論文在確定困擾LLM的規(guī)模病癥方面有先見之明。當(dāng)公眾討論被圍繞著ChatGPT和其他LLMs的令人窒息的炒作所吞噬,這項(xiàng)研究提出了清醒的警告:我們需要討論社會(huì)是否應(yīng)該建立這類技術(shù),而不是如何建立,更不是不加批判地將其作為進(jìn)步的同義詞而加以全盤接受。本德等人問道:“越來(lái)越大的語(yǔ)言模型是不可避免的還是必須的?這一研究方向有什么成本,我們?cè)谧非笏皯?yīng)該考慮什么?”

擇其要者,大型語(yǔ)言模型可見的成本就有:

● 環(huán)境和財(cái)務(wù)成本。

LLMs的訓(xùn)練需要大量的能源,并產(chǎn)生大量的二氧化碳排放。環(huán)境問題與種族問題的交匯,意味著被邊緣化的人和來(lái)自多數(shù)世界/全球南方的人更有可能體驗(yàn)到能源消耗和二氧化碳排放增加所帶來(lái)的傷害,盡管他們也是最不可能體驗(yàn)到這種模型的好處的一群。此外,進(jìn)入和訓(xùn)練這些模型的成本很高,這意味著只有一小部分全球精英能夠發(fā)展并受益于LLMs。所以,環(huán)境和財(cái)務(wù)成本應(yīng)該成為自然語(yǔ)言處理研究中的首要考慮因素。

● 不負(fù)責(zé)任的訓(xùn)練數(shù)據(jù)。

使用大量未經(jīng)整理的訓(xùn)練數(shù)據(jù)集有可能創(chuàng)造出鞏固主導(dǎo)性、霸權(quán)性觀點(diǎn)的語(yǔ)言模型。這些訓(xùn)練數(shù)據(jù)集的龐大規(guī)模并不能保證多樣性,因?yàn)樗鼈兺菑木W(wǎng)站上刮來(lái)的,而這些網(wǎng)站由于互聯(lián)網(wǎng)接入不足、代表性不足、過濾或騷擾等問題而排除了邊緣化人群的聲音。這些數(shù)據(jù)集有“價(jià)值鎖定”的風(fēng)險(xiǎn),或?qū)⒂泻Φ钠娋幋a到難以徹底審計(jì)的語(yǔ)言模型中。

如果模型是在過濾有限的大量互聯(lián)網(wǎng)數(shù)據(jù)上訓(xùn)練出來(lái)的,它們就會(huì)吸收事實(shí)和錯(cuò)誤信息,有偏見的內(nèi)容和公平的內(nèi)容,有害的材料和無(wú)害的材料。如果沒有辦法在回答提示之前評(píng)估這些標(biāo)準(zhǔn),LLMs就有可能陷入復(fù)制、放大和傳播有問題的內(nèi)容和錯(cuò)誤信息的危險(xiǎn)。

● 隨機(jī)鸚鵡的誕生。

本德等人進(jìn)一步警告說(shuō),對(duì)語(yǔ)言模型的追求可能是一個(gè)誤導(dǎo)性的研究方向。她們觀察到,語(yǔ)言模型就好比“隨機(jī)鸚鵡”(stochastic parrot),“根據(jù)關(guān)于如何組合的概率信息,胡亂地將它在龐大的訓(xùn)練數(shù)據(jù)中觀察到的語(yǔ)言形式序列[縫合]在一起,但沒有任何對(duì)意義的參考”。

▲ 圖源Pexels

最終,我們需要問自己,為什么要把人工智能的未來(lái)全部押注在大型語(yǔ)言模型一條路上?紐約大學(xué)教授兼Meta首席AI科學(xué)家楊樂昆(Yann LeCun)就認(rèn)為L(zhǎng)LM是“一個(gè)下坡路”,遠(yuǎn)離了通往更強(qiáng)大的AI的道路。“大型語(yǔ)言模型能有多聰明,能有多準(zhǔn)確,都是有限度的,因?yàn)樗鼈儧]有現(xiàn)實(shí)世界的經(jīng)驗(yàn),而這確實(shí)是語(yǔ)言的基本現(xiàn)實(shí)?!?/span>他指出,人類所學(xué)的大部分內(nèi)容都與語(yǔ)言無(wú)關(guān)。“我們學(xué)習(xí)如何投擲籃球,讓它穿過籃圈”,深度學(xué)習(xí)的另一位先驅(qū)者杰弗里·辛頓(Geoffrey Hinton)說(shuō)?!拔覀兏静皇褂谜Z(yǔ)言來(lái)學(xué)習(xí)。我們從試驗(yàn)和錯(cuò)誤中學(xué)習(xí)?!?/p>

就算語(yǔ)言是發(fā)展人工智能的重要途徑,事情也很明顯:無(wú)論 LLMs及其訓(xùn)練數(shù)據(jù)集變得多么龐大,它們也永遠(yuǎn)無(wú)法像我們一樣學(xué)習(xí)和理解我們的語(yǔ)言。吊詭的是,語(yǔ)言模型的限制導(dǎo)致了一種研究趨勢(shì),即專注于研究這類模型的知識(shí)和行為。換言之,人類正在學(xué)習(xí) LLMs 的語(yǔ)言,并尋找更好地與它們溝通的方法。

這是因?yàn)?,語(yǔ)言模型是神經(jīng)網(wǎng)絡(luò),根據(jù)從網(wǎng)絡(luò)收集的數(shù)據(jù)進(jìn)行訓(xùn)練。經(jīng)過訓(xùn)練后,模型可以接收提示并預(yù)測(cè)其后的單詞。神經(jīng)網(wǎng)絡(luò)越大,模型的學(xué)習(xí)能力就越強(qiáng)。數(shù)據(jù)集越大,模型接觸不同單詞序列的機(jī)會(huì)就越大,生成文本時(shí)就越準(zhǔn)確。

可問題是,人類語(yǔ)言不僅僅是文本。事實(shí)上,語(yǔ)言是一種將信息從一個(gè)大腦傳輸?shù)搅硪粋€(gè)大腦的壓縮方式。我們的談話經(jīng)常忽略共享知識(shí),例如視覺和聽覺信息、世界的物理體驗(yàn)、過去的談話、我們對(duì)人和物體行為的理解、社會(huì)結(jié)構(gòu)和規(guī)范等等。

正如楊樂昆和紐約大學(xué)計(jì)算機(jī)科學(xué)系博士后雅各布·布朗寧(Jacob Browning) 在最近的一篇文章中所寫到的,“僅靠語(yǔ)言訓(xùn)練的系統(tǒng)永遠(yuǎn)不會(huì)接近人類智力,即使從現(xiàn)在開始訓(xùn)練直到宇宙熱寂”。但兩位科學(xué)家也指出,如果我們停留在表面上,語(yǔ)言模型“無(wú)疑會(huì)接近[人類智能]。而且,在許多情況下,表面就足夠了”。

▲ 圖源Pexels

3 大型語(yǔ)言模型的三大發(fā)展方向

像LLMs這樣的大規(guī)模人工智能模型,在過去一段時(shí)間里中受到了最多的炒作,也帶來(lái)了最大的恐懼。圍繞這些系統(tǒng)的興奮和焦慮都有助于強(qiáng)化如下概念,即這些模型是“基礎(chǔ)性的”,盡管它們無(wú)法對(duì)人類提示作出有意義的回應(yīng)的例子數(shù)不勝數(shù)。值得注意的是,這些模型之所以作為“基礎(chǔ)性”的技術(shù)而引入,意在將它們等同于無(wú)可置疑的科學(xué)進(jìn)步,成為“通用人工智能”(這是另一個(gè)模糊的術(shù)語(yǔ),讓人聯(lián)想起科幻小說(shuō)中關(guān)于取代或超越人類智能的概念)道路上的踏腳石,從而使其廣泛采用成為必然。

在最近的一次采訪中,OpenAI首席執(zhí)行官山姆·阿爾特曼(Sam Altman)說(shuō):“我認(rèn)為我們正處于時(shí)代的盡頭,那里將會(huì)是這些巨大的模型,我們將以其他方式讓它們變得更好?!边@些“其他方式”是什么?一個(gè)可能的途徑是在更多的高質(zhì)量數(shù)據(jù)上對(duì)模型進(jìn)行微調(diào),創(chuàng)造更好的訓(xùn)練技術(shù)。人工管策的數(shù)據(jù)集可能是非常有價(jià)值的,但創(chuàng)建成本高,速度慢。

正因如此,我來(lái)斗膽預(yù)測(cè)一下大型語(yǔ)言模型的三大發(fā)展方向:

第一,我們需要致力于教會(huì)語(yǔ)言模型表達(dá)不確定性。

在大多數(shù)情況下,人類知道他們知識(shí)的局限性(即使他們不直接承認(rèn))。他們可以表達(dá)不確定和懷疑,并讓他們的對(duì)話者知道他們對(duì)自己所傳授的知識(shí)有多自信。另一方面,語(yǔ)言模型總是對(duì)任何提示都給出現(xiàn)成的答案,即使它們的輸出是毫無(wú)意義的。神經(jīng)網(wǎng)絡(luò)通常提供某個(gè)預(yù)測(cè)正確概率的數(shù)值。然而就語(yǔ)言模型而言,這些概率分?jǐn)?shù)并不代表模型對(duì)提示響應(yīng)的可靠性的信心。

OpenAI和牛津大學(xué)的研究人員最近發(fā)表的一篇論文表明,可以通過教LLMs“用語(yǔ)言表達(dá)它們的不確定性”來(lái)彌補(bǔ)這一缺點(diǎn)??梢詫?duì) LLMs進(jìn)行微調(diào),以使用自然語(yǔ)言表達(dá)認(rèn)知上的不確定性,研究者將其描述為“語(yǔ)言化概率”(verbalized probability),即用語(yǔ)言表達(dá)出來(lái)的概率。這是一個(gè)重要的發(fā)展方向,尤其是在用戶希望將語(yǔ)言模型的輸出轉(zhuǎn)化為某個(gè)動(dòng)作的應(yīng)用程序中。研究人員建議,表達(dá)不確定性可以令語(yǔ)言模型誠(chéng)實(shí)?!叭绻粋€(gè)誠(chéng)實(shí)的模型出現(xiàn)一個(gè)誤導(dǎo)或惡意的內(nèi)部狀態(tài),那么它可以將這種狀態(tài)傳達(dá)給可以采取相應(yīng)行動(dòng)的人類?!?/span>

第二,與其致力于模型之大,不如專攻特定模型。

鑒于LLMs不理解它們所處理的語(yǔ)言,也不理解所收到的提示和自己的回應(yīng),所以補(bǔ)救辦法一是靠規(guī)模的力量,即訓(xùn)練數(shù)據(jù)和模型參數(shù)的巨大規(guī)模,二是靠專業(yè)的力量,即在為特定行業(yè)或領(lǐng)域(如醫(yī)療保健和醫(yī)學(xué))定制開發(fā)更專門的模型的情況下,有針對(duì)性地管策訓(xùn)練數(shù)據(jù),這將有助于解決LLMs在涉及特定問題時(shí)的某些局限性。

想象一下,像ChatGPT這樣的LLM已經(jīng)在最好的醫(yī)學(xué)文獻(xiàn)上接受了訓(xùn)練,但訓(xùn)練數(shù)據(jù)當(dāng)中也有討論健康問題的Reddit線程。人工智能有時(shí)可以通過檢索和參考高質(zhì)量的信息來(lái)回應(yīng),但其他時(shí)候它通過使用完全不可靠的Reddit信息來(lái)回應(yīng)。事實(shí)上,假如醫(yī)學(xué)文獻(xiàn)中沒有這些信息(例如一種非常罕見的疾?。锌赡芫幵爝@些信息(此即人工智能行業(yè)常說(shuō)的幻覺)。

所以我們需要通過使用較小和較高質(zhì)量的數(shù)據(jù)集為特定的知識(shí)領(lǐng)域進(jìn)行訓(xùn)練。例如,擁有數(shù)十億參數(shù)的大型臨床語(yǔ)言模型可以利用電子健康記錄中的非結(jié)構(gòu)化文本幫助提取醫(yī)學(xué)概念和回答醫(yī)學(xué)問題,預(yù)測(cè)疾病或再入院風(fēng)險(xiǎn),并總結(jié)臨床文本。而一個(gè)專門為法律行業(yè)設(shè)計(jì)的模型可以接受法律術(shù)語(yǔ)和行話的訓(xùn)練,使其更好地處理法律文件。

▲ 圖源Pexels

第三,高質(zhì)量的數(shù)據(jù)將成為L(zhǎng)LM稱霸的新戰(zhàn)場(chǎng)。

限制LLM持續(xù)改進(jìn)的最重要限制是可用的訓(xùn)練數(shù)據(jù)量。《經(jīng)濟(jì)學(xué)人》報(bào)道說(shuō),2022 年 10 月發(fā)表的一篇論文得出的結(jié)論是,“高質(zhì)量語(yǔ)言數(shù)據(jù)的存量將很快耗盡,可能在 2026 年之前”??隙ㄓ懈嗫捎玫奈谋荆鼈儽灰恍K一小塊地鎖定在公司數(shù)據(jù)庫(kù)或個(gè)人設(shè)備上,無(wú)法以Common Crawl允許的規(guī)模和低成本加以訪問。這種數(shù)據(jù)稀缺對(duì)LLM的進(jìn)一步發(fā)展提出了挑戰(zhàn)。

2023年4月18日,Reddit宣布,它將開始對(duì)其API的訪問收費(fèi)。這一決定是在Twitter對(duì)其API實(shí)施類似限制之后作出的。近年來(lái),Reddit的系列聊天成為谷歌、OpenAI 和微軟等公司的免費(fèi)教具。這些公司使用 Reddit 的對(duì)話來(lái)幫助開發(fā)巨型人工智能系統(tǒng)。然而現(xiàn)在Reddit聯(lián)合創(chuàng)始人兼首席執(zhí)行官史蒂夫·赫夫曼(Steve Huffman)稱:“我們不需要把所有這些價(jià)值免費(fèi)提供給世界上最大的一些公司?!?/span>

隨即,Stack Overflow 也宣布將開始對(duì)其 API收費(fèi)。首席執(zhí)行官普拉桑斯·錢德拉塞卡爾(Prashanth Chandrasekar)表示:“我們非常支持 Reddit 的做法?!薄盀?LLM 提供動(dòng)力的社區(qū)平臺(tái)絕對(duì)應(yīng)該因其貢獻(xiàn)而得到補(bǔ)償,這樣像我們這樣的公司就可以重新注資到社區(qū),讓其繼續(xù)蓬勃發(fā)展?!?/span>

Reddit和Stack Overflow等平臺(tái)為微調(diào)LLM提供了快速訪問具體主題和問題的寶貴數(shù)據(jù)。而這些平臺(tái)的所有者正意識(shí)到它們所掌握的數(shù)據(jù)的價(jià)值。數(shù)據(jù)市場(chǎng)日益激烈的競(jìng)爭(zhēng)可能推動(dòng)行業(yè)走向更少的共享和更多的貨幣化。

不幸的是,激進(jìn)的貨幣化將進(jìn)一步增強(qiáng)能夠負(fù)擔(dān) API 成本的大型科技公司的能力。 另一方面,小型實(shí)驗(yàn)室和資金緊張的初創(chuàng)公司將不得不處理手頭可用的低質(zhì)量數(shù)據(jù)。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
人工智能已經(jīng)可以解決復(fù)雜的數(shù)學(xué)問題了,還有哪些工作是無(wú)法被取代的?
大型語(yǔ)言模型(LLMs)是什么及應(yīng)用、優(yōu)勢(shì)和挑戰(zhàn)
ChatGPT以及其對(duì)汽車有什么影響?
GPT-4等大語(yǔ)言模型對(duì)教育的未來(lái)意味著什么?
微軟贏麻了!數(shù)十億文本-圖像對(duì)訓(xùn)練,多模態(tài)Florence開啟免費(fèi)體驗(yàn),登上Azure
談?wù)凣PT 模型背后以數(shù)據(jù)為中心的 AI
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服