大語(yǔ)言模型的市場(chǎng)格局變了。
文丨賀乾明
編輯丨龔方毅
當(dāng)一家公司的新技術(shù)遙遙領(lǐng)先,眼看要獨(dú)占一個(gè)行業(yè),追趕者們應(yīng)該怎么辦?
2008 年,iPhone 發(fā)布后一年,各大手機(jī)廠商奮力研發(fā)操作系統(tǒng)追趕蘋果。微軟有 Windows Mobile、黑莓有 BBOS、諾基亞基于 Linux 系統(tǒng)開(kāi)發(fā)了 Maemo、Palm 在秘密研發(fā) WebOS……
又過(guò)了不到五年,還賣得動(dòng)的智能手機(jī)要么來(lái)自蘋果,要么裝著開(kāi)源的 Android 系統(tǒng)?,F(xiàn)在,蘋果的競(jìng)爭(zhēng)對(duì)手們不再有屬于自己的操作系統(tǒng),但它們占據(jù)著超過(guò) 80% 的智能手機(jī)市場(chǎng)。
一整個(gè)行業(yè)圍繞開(kāi)源技術(shù),協(xié)力對(duì)抗領(lǐng)先者,這一幕在今天的技術(shù)競(jìng)爭(zhēng)中不斷發(fā)生。
Windows 系統(tǒng)難以挑戰(zhàn),不滿微軟的科技行業(yè)將 Linux 變成了網(wǎng)站和互聯(lián)網(wǎng)應(yīng)用的操作系統(tǒng)。亞馬遜 AWS 開(kāi)創(chuàng)了云計(jì)算行業(yè),阿里云、IBM 等競(jìng)爭(zhēng)公司將 Google 的 Kubernetes(K8S)開(kāi)源技術(shù)奉為標(biāo)準(zhǔn)。幾乎所有移動(dòng)處理器都依賴 ARM 架構(gòu),于是 RISC-V 正得到廣泛的投資支持。
昨夜 Meta 又貢獻(xiàn)了一個(gè)這樣的例子。他們宣布將大語(yǔ)言模型 Llama 2 有條件地開(kāi)源給商業(yè)使用(月活用戶超過(guò) 7 億需要單獨(dú)申請(qǐng)),正是在牽頭做大模型時(shí)代的開(kāi)源標(biāo)準(zhǔn)。而 OpenAI 的密切合作伙伴微軟,這一次成了 Llama 2 的首要合作伙伴。
微軟是在同一天舉行的 Inspire 大會(huì)宣布這項(xiàng)合作的,而且就在宣布的 2 分鐘前,微軟還在一張 PPT 上畫著 “微軟 ?? OpenAI”。微軟與有競(jìng)爭(zhēng)關(guān)系的閉源 OpenAI 和開(kāi)源 Llama 2 兩頭牽手,反映了如今大模型激烈的技術(shù)競(jìng)賽之外,多變的商業(yè)合縱連橫。
微軟 CEO 薩蒂亞·納德拉(Satya Nadella)發(fā)布會(huì)上強(qiáng)調(diào)微軟與 OpenAI 關(guān)系親密(上)。Meta CEO 馬克·扎克伯格(Mark Zuckerberg)與納德拉的合影(下),圖片來(lái)自扎克伯格的社交媒體。
ChatGPT 去年底亮相后,全球大小科技公司和各類研究機(jī)構(gòu)都在奮力追趕,造出了上百個(gè)大模型。而在 Meta 開(kāi)源 Llama 2 之后,這些模型中的大多數(shù)還沒(méi)有商用就已經(jīng)過(guò)時(shí)。
“Llama 2 看起來(lái)非常強(qiáng)大(超越 GPT-3),經(jīng)過(guò)微調(diào)的聊天模型看起來(lái)與 ChatGPT 處于同一水平?!盚uggingFace 機(jī)器學(xué)習(xí)科學(xué)家內(nèi)森·蘭伯特( Nathan Lambert )說(shuō),“對(duì)開(kāi)源來(lái)說(shuō)是一個(gè)巨大的飛躍,但對(duì)閉源的大模型公司是一個(gè)巨大打擊,這個(gè)模型(Llama 2)將滿足大多數(shù)公司對(duì)更低成本和個(gè)性化的需求”。
水平在 GPT-3 到 GPT-3.5 之間
今年 2 月,ChatGPT 發(fā)布 3 個(gè)月,Meta 就開(kāi)源了第一版 Llama 大語(yǔ)言模型。當(dāng)時(shí)開(kāi)發(fā)者能拿到的只是 Llama 預(yù)訓(xùn)練模型、且只被允許用作研究,而不是一個(gè)像 ChatGPT 那樣針對(duì)特定任務(wù)或者需求訓(xùn)練過(guò)的應(yīng)用。
支持商用的 Llama 2 看上去更強(qiáng)。本次 Meta 一共發(fā)布 70 億、130 億和 700 億三種參數(shù)規(guī)模的模型,其公布了模型訓(xùn)練數(shù)據(jù)、訓(xùn)練方法、數(shù)據(jù)標(biāo)注等大量細(xì)節(jié),展示了 Llama 2 的水平:
同等參數(shù)規(guī)模, Llama 2 能力超過(guò)所有的開(kāi)源大模型;
700 億參數(shù)的模型在推理層面接近 ChatGPT 背后的 GPT-3.5,但寫代碼的能力還有較大差距。
多位測(cè)試過(guò) Llama 2 模型的開(kāi)發(fā)者基本證實(shí)了 Meta 的說(shuō)法:“代碼測(cè)試環(huán)節(jié)挺不了 15 分鐘”。70 億參數(shù)的模型可以在 Mac 上運(yùn)行,每秒鐘能處理 6 個(gè)字符,比 Google 發(fā)布的 PaLM 2 最小的模型 “壁虎” 慢 70%。但 Google 并沒(méi)有公布 “壁虎” 的具體參數(shù)。
根據(jù) Meta 公布的信息,Llama 2 的訓(xùn)練數(shù)據(jù)(都來(lái)自公開(kāi)數(shù)據(jù))提升到 2 萬(wàn)億個(gè) Token(指一個(gè)常用單詞、標(biāo)點(diǎn)或數(shù)字),較第一代多 40%。其上下文長(zhǎng)度擴(kuò)展到了 4000 個(gè)字符,對(duì)文本語(yǔ)義的理解更強(qiáng)。
Meta 還像 OpenAI 那樣,借助人類反饋強(qiáng)化學(xué)習(xí)(RLHF)機(jī)制,用 100 萬(wàn)人類標(biāo)記數(shù)據(jù)訓(xùn)練出了類似 ChatGPT 的對(duì)話應(yīng)用。這也是開(kāi)源社區(qū)過(guò)去幾個(gè)月微調(diào)訓(xùn)練 Llama 的常用方法。Meta 稱 “大語(yǔ)言模型的卓越寫作能力,從根本上是由 RLHF 驅(qū)動(dòng)的?!?/p>
訓(xùn)練 Llama 2 可能并不便宜。HuggingFace 機(jī)器學(xué)習(xí)科學(xué)家內(nèi)森·蘭伯特估算 Llama 2 的訓(xùn)練成本可能超過(guò) 2500 萬(wàn)美元,不比 OpenAI 三年前訓(xùn)練 GPT-3 的花費(fèi)少。他說(shuō),有充足的跡象表明,Meta 還在繼續(xù)訓(xùn)練更強(qiáng)的 Llama。
Meta 的 Llama 2 在多個(gè)數(shù)據(jù)集上表現(xiàn)好過(guò)其他開(kāi)源模型。圖片來(lái)自 Meta。
“改變大語(yǔ)言模型的市場(chǎng)格局”
作為基礎(chǔ)設(shè)施,大模型在產(chǎn)品中處于底層。用戶使用大模型應(yīng)用,感受到的就是對(duì)話框和大模型處理過(guò)的內(nèi)容,不會(huì)看到用的什么大模型、什么技術(shù)。
大模型的這個(gè)特點(diǎn),一定程度上決定了它競(jìng)爭(zhēng)局面——只要有更符合用戶或企業(yè)需求的大模型出現(xiàn),換起來(lái)的障礙并不高,甚至不會(huì)對(duì)用戶造成太多負(fù)面影響?!叭绻竽P湍芰ο嗖畈淮螅恍枰鲆恍┱{(diào)度工作就可以解決,開(kāi)發(fā)量不大。” 一位 AI 開(kāi)發(fā)者說(shuō)。
有了 Llama 2 這樣的開(kāi)源大模型,自研的意義更小了。連競(jìng)爭(zhēng)對(duì)手 OpenAI 的研究科學(xué)家、特斯拉前人工智能總監(jiān)安德烈·卡帕西(Andrej Karpathy)都說(shuō),Llama 2 的發(fā)布是人工智能和大模型發(fā)展過(guò)程中的重要一天,“Llama 2 是任何人都可以拿到模型權(quán)重(參數(shù)特征,一個(gè)模型最關(guān)鍵的信息)的最強(qiáng)大語(yǔ)言模型?!?/p>
Meta 副總裁、人工智能部門負(fù)責(zé)人楊立昆(Yann LeCun)說(shuō),Llama 2 將改變大語(yǔ)言模型市場(chǎng)的格局。一位中國(guó)大模型創(chuàng)業(yè)公司高管解釋了這句話:“很快就能看到許多開(kāi)發(fā)大模型應(yīng)用的公司,把基礎(chǔ)模型換成 Llama 2”。
多位人工智能研究者認(rèn)同楊立昆的說(shuō)法,隨著 Llama 2 發(fā)布,Meta 可以用開(kāi)源、支持商用的策略會(huì)改變大模型的格局和生態(tài)。
今年 6 月,美國(guó)紅杉資本發(fā)現(xiàn)在其投資的 33 家創(chuàng)業(yè)公司和上市公司中,65% 已經(jīng)上線了大模型應(yīng)用、94% 正用 OpenAI 的大模型接口(API)開(kāi)發(fā)應(yīng)用。
它們使用大模型的方法大多較為簡(jiǎn)單:直接調(diào)用 ChatGPT 的接口處理私有數(shù)據(jù)完成特定任務(wù),如多語(yǔ)言互譯、生成文本或者網(wǎng)頁(yè)內(nèi)容摘要等。很少有公司會(huì)做更深入的開(kāi)發(fā),比如用大量數(shù)據(jù)微調(diào)模型。
在中國(guó),許多公司選擇從頭收集數(shù)據(jù)或者用公開(kāi)數(shù)據(jù)集訓(xùn)練大模型,過(guò)去半年發(fā)布了 80 多個(gè)大模型,不乏有公司和機(jī)構(gòu)開(kāi)源模型,把支持商用當(dāng)做競(jìng)爭(zhēng)點(diǎn),然后做起生意。
《晚點(diǎn) LatePost》了解到,中國(guó)一家備受關(guān)注的大模型創(chuàng)業(yè)公司推出的開(kāi)源 60 億參數(shù)大模型,企業(yè)想買商用授權(quán)要花百萬(wàn)元;沒(méi)有開(kāi)源的千億參數(shù)模型,售價(jià)每年上千萬(wàn)元。
一位上市公司人工智能部門負(fù)責(zé)人 5 月告訴《晚點(diǎn) LatePost》,他們打算用 OpenAI 的 GPT-3.5 開(kāi)發(fā)功能,但成本太高——每天成本預(yù)計(jì)上萬(wàn)元,而且想定制做開(kāi)發(fā)很困難,也不支持同一時(shí)間響應(yīng)大量用戶的請(qǐng)求。
最后他們選擇了參數(shù)量更小的 Llama(60 億)和一個(gè)中國(guó)公司的開(kāi)源大模型,這意味著訓(xùn)練和部署成本更低,而且經(jīng)過(guò)數(shù)據(jù)微調(diào)后,在他們的業(yè)務(wù)場(chǎng)景中,基于 Llama 與中國(guó)開(kāi)源模型的開(kāi)發(fā)效果和使用 GPT-3.5 差別不大。
中國(guó)大模型公司當(dāng)時(shí)的另一個(gè)優(yōu)勢(shì)是可以談商業(yè)授權(quán),而 Llama 不能。當(dāng) Llama 2 開(kāi)始允許商用,中國(guó)大模型公司的這一優(yōu)勢(shì)現(xiàn)在也沒(méi)有了。
開(kāi)源大模型正迅速追趕
ChatGPT 去年底剛發(fā)布時(shí),它憑看上去充滿意義的回復(fù)和強(qiáng)大的寫代碼能力等功能震撼了世界。許多公司都在關(guān)注怎樣才能做出一個(gè)類似的產(chǎn)品。
半年多過(guò)去,從大公司到普通程序員,都能借助開(kāi)源社區(qū)做出來(lái)一個(gè)類似 ChatGPT 的應(yīng)用。云端開(kāi)發(fā)平臺(tái) Replit 發(fā)現(xiàn),使用他們服務(wù)的開(kāi)源大模型的項(xiàng)目數(shù)量,每個(gè)季度都在翻倍。
在 Llama 等開(kāi)源大模型基礎(chǔ)上,開(kāi)發(fā)者們做出了各種開(kāi)源數(shù)據(jù)集,比如基于人類反饋強(qiáng)化學(xué)習(xí)(RLHF)的數(shù)據(jù)集,持續(xù)提升開(kāi)源大模型的能力。
根據(jù)加州大學(xué)伯克利分校、卡耐基梅隆大學(xué)等高校多位教授和學(xué)生成立的 LMSYS Org 評(píng)估,過(guò)去幾個(gè)月,開(kāi)源大模型與 GPT-4 的差距正明顯縮小——從相差 191 分到近期的 115 分。在追趕過(guò)程中,開(kāi)源社區(qū)還先大公司一步做出了在電腦、手機(jī)上運(yùn)行的大模型,比 Google 早一個(gè)多月。
隨著 Meta 開(kāi)源 Llama 2,大模型開(kāi)源社區(qū)的力量將會(huì)變得更強(qiáng)。Meta 稱, 第一版不支持商用的模型開(kāi)源后,他們收到了超過(guò) 10 萬(wàn)個(gè)研究人員的使用申請(qǐng)——這還沒(méi)算那些直接從網(wǎng)上下載模型的人。
“大公司的人工智能研究人員因?yàn)殚_(kāi)源許可問(wèn)題對(duì)第一版 Llama 持謹(jǐn)慎態(tài)度,現(xiàn)在我認(rèn)為他們中的許多人會(huì)跳上這艘船(Llama 2)并貢獻(xiàn)他們的火力?!?英偉達(dá)資深人工智能科學(xué)家 Jim Fan 說(shuō),就算現(xiàn)在 Llama 2 編程能力不行,開(kāi)源后很快就會(huì)追上來(lái)。
這次 Llama 2 最大開(kāi)源參數(shù)版本(700 億)的訓(xùn)練數(shù)據(jù)量還不到 OpenAI 三年前訓(xùn)練好的 GPT-3 的一半,但效果好于 GPT-3,就是最好的例證之一。
開(kāi)源的邏輯偏向于大模型達(dá)到一定能力后,就擴(kuò)大新技術(shù)的覆蓋范圍,讓更多人使用技術(shù),然后從大量應(yīng)用中改進(jìn)模型。而閉源的公司,如 OpenAI 更偏向于技術(shù)領(lǐng)先,研發(fā)強(qiáng)大模型后再推廣給更多人。
就像 iOS 與 Andriod 在手機(jī)操作系統(tǒng)上的競(jìng)爭(zhēng),開(kāi)源與閉源的競(jìng)爭(zhēng)并不都是在同一維度上的短兵相接,大模型領(lǐng)域也會(huì)出現(xiàn)類似的分化。
在這種新的競(jìng)爭(zhēng)格局下,連 Google 都沒(méi)有信心繼續(xù)保持領(lǐng)先。
今年 5 月,Google 一位高級(jí)工程師在內(nèi)部撰文稱,盡管 Google 在大模型的質(zhì)量上仍然略有優(yōu)勢(shì),但開(kāi)源產(chǎn)品與 Google 大模型的差距正在以驚人的速度縮小,開(kāi)源的模型迭代速度更快,使用者能根據(jù)不同的業(yè)務(wù)場(chǎng)景做定制開(kāi)發(fā),更利于保護(hù)隱私數(shù)據(jù),成本也更低。
“只需要幾周時(shí)間,他們用 100 美元和 130 億參數(shù)的模型,就能做成我們花 1000 萬(wàn)美元和 540 億參數(shù)模型很難做到的事情。” 他說(shuō),“我們沒(méi)有護(hù)城河,OpenAI 也沒(méi)有”。
昨天,Meta 在宣布 Llama2 開(kāi)源后解釋說(shuō),開(kāi)源對(duì)于當(dāng)今人工智能模型的發(fā)展是正確的,尤其是在技術(shù)迅速發(fā)展的生產(chǎn)領(lǐng)域,“通過(guò)公開(kāi)提供人工智能模型,它們可以惠及所有人ーー而不僅僅是少數(shù)幾家大公司”。
一場(chǎng)不同于過(guò)去的新式競(jìng)爭(zhēng)正在生成式人工智能領(lǐng)域開(kāi)展。開(kāi)源社區(qū)憑借開(kāi)放協(xié)作的力量,正在以驚人的速度追趕商業(yè)巨頭們建立的領(lǐng)先優(yōu)勢(shì)。而過(guò)去習(xí)慣于技術(shù)封閉和市場(chǎng)壟斷的大公司,也在逐步擁抱開(kāi)源。
題圖來(lái)源:烈火戰(zhàn)車 Chariots of Fire (1981)
聯(lián)系客服