作者丨張 進(jìn)
編輯丨陳彩嫻
11 月中旬,AI 科技評(píng)論在元象位于深圳濱海大道的辦公室見到了姚星。
此次會(huì)面的兩周前,元象宣布開源了其新近自研的 650 億參數(shù)通用大模型 XVERSE-65B,開發(fā)者可無(wú)條件免費(fèi)商用,引起了國(guó)內(nèi)人工智能領(lǐng)域的廣泛關(guān)注與討論。
此前,國(guó)內(nèi)可商用開源大模型的上限是 14B,各家大模型在開源上的參數(shù)策略也十分一致,即:將參數(shù)小的模型(如 6B、13B、14B)進(jìn)行開源,參數(shù)大的模型用于商業(yè)化。國(guó)內(nèi)的開發(fā)者原以為國(guó)產(chǎn)大模型的開源將止步于 14B,沒(méi)想到元象放出 XVERSE-65B,一下子在參數(shù)上將國(guó)產(chǎn)開源拉到了國(guó)際水平。
更值得注意的是,在 XVERSE-65B 出來(lái)前,成立于 2021年的元象在外界口中一直是一家用AI技術(shù)做3D引擎和元宇宙的公司。因此,XVERSE-65B 的開源出乎許多人的意料。
一位開發(fā)者向 AI 科技評(píng)論評(píng)價(jià),“元象的 XVERSE 開源了基礎(chǔ)核心代碼,同時(shí)公開語(yǔ)料,對(duì)于有 to SQL 或 to Python 要求的團(tuán)隊(duì)來(lái)說(shuō)是很友好的,開發(fā)者無(wú)需做大量訓(xùn)練就能知道哪塊能力不足、需要加強(qiáng)訓(xùn)練以達(dá)到效果,也降低了開發(fā)成本?!?/span>
元象為什么入局大模型?又為何要將 XVERSE-65B 進(jìn)行開源?
元象創(chuàng)始人姚星告訴 AI 科技評(píng)論,在訓(xùn)練 XVERSE-65B 的過(guò)程中,元象一共花費(fèi)了 300 多萬(wàn)美金(約 2000 萬(wàn)人民幣)。在當(dāng)前的國(guó)產(chǎn)大模型開源中,元象作為創(chuàng)業(yè)公司,此舉可謂氣魄十足。
據(jù)姚星講述,事實(shí)上,無(wú)論是元宇宙還是大模型,元象的成立初心一直沒(méi)有變:像全球最頂尖的人工智能團(tuán)隊(duì)一樣,期待通用人工智能(AGI)的實(shí)現(xiàn)。
成立元象前,姚星是騰訊 AI Lab 的創(chuàng)建人。另一個(gè)少為人知的事實(shí)是,2016 年 AlphaGo 出來(lái)時(shí),姚星是中國(guó)最早見到 DeepMind 創(chuàng)始人 Demis Hassabis 的一批互聯(lián)網(wǎng)從業(yè)者,并從與 Hassabis 的交流中洞識(shí)到 AGI 的潛力。ChatGPT 爆火前,AGI 的代言人一直是 DeepMind。
姚星2019年演講
DeepMind 最早談 AGI,是基于深度強(qiáng)化學(xué)習(xí)的技術(shù)路線,該路線一度是 AI 從業(yè)者的主流信仰;但 GPT-3 發(fā)布后,大模型的技術(shù)路線開始成為實(shí)現(xiàn) AGI 的主流途徑。親歷了行業(yè)轉(zhuǎn)變的姚星,在追求 AGI 的路上也對(duì) AGI 有了迭代的認(rèn)知。
據(jù)姚星介紹,目前元象同時(shí)設(shè)立了元宇宙和大模型兩大事業(yè)群。
姚星2004 年就加入騰訊,曾在騰訊平臺(tái)部、基礎(chǔ)架構(gòu)部、搜索技術(shù)部等多個(gè)核心技術(shù)部門任總經(jīng)理,主導(dǎo)研發(fā)了騰訊存儲(chǔ)系統(tǒng)、搜索引擎、云平臺(tái)、微信紅包等核心平臺(tái)和業(yè)務(wù)。2016 年,時(shí)任騰訊副總裁的姚星主導(dǎo)創(chuàng)建了騰訊首個(gè)人工智能實(shí)驗(yàn)室 AI Lab,2018 年又率領(lǐng)創(chuàng)建了騰訊首個(gè)機(jī)器人實(shí)驗(yàn)室Robotics X,并兼管騰訊技術(shù)工程事業(yè)群(TEG)的多個(gè)技術(shù)部門。
從互聯(lián)網(wǎng)的身經(jīng)百戰(zhàn),到人工智能的新戰(zhàn)場(chǎng),姚星對(duì) AGI 有持續(xù)的認(rèn)知迭代,而這段故事要從 2016 年姚星在騰訊帶領(lǐng)團(tuán)隊(duì)研發(fā)圍棋 AI 說(shuō)起。
以下是 AI 科技評(píng)論與姚星的對(duì)話實(shí)錄:
AI 科技評(píng)論:您從什么時(shí)候開始關(guān)注 AGI?
姚星:我第一次關(guān)注到 AGI,是 2016 年去英國(guó)訪問(wèn) DeepMind 時(shí)聽它的創(chuàng)始人 Demis Hassabis 講的。
那時(shí) AlphaGo 還沒(méi)出來(lái),國(guó)內(nèi)知道 DeepMind 的人并不多。會(huì)面時(shí) DeepMind的人一直在跟我講通用人工智能(AGI),講仿真世界,我還覺(jué)得有點(diǎn)奇怪。因?yàn)楫?dāng)時(shí)國(guó)內(nèi)AI應(yīng)用主要在做模式識(shí)別,比如人臉識(shí)別、語(yǔ)音識(shí)別,要不就是用傳統(tǒng)自然語(yǔ)言處理(NLP)方法做一些簡(jiǎn)單對(duì)話服務(wù),比如客服系統(tǒng)。對(duì)AI的認(rèn)知是用深度學(xué)習(xí)技術(shù)解決一些檢查、分割、識(shí)別、理解的問(wèn)題。AI研究主要做計(jì)算機(jī)視覺(jué)(CV)、語(yǔ)音識(shí)別或文字轉(zhuǎn)語(yǔ)音(ASR/TTS)、自然語(yǔ)言處理(NLP)等。這些方向似乎跟 AGI 沒(méi)什么關(guān)系,但DeepMind對(duì)AGI就是有一種莫名的熱情。后來(lái)的故事大家都知道了,AlphaGo戰(zhàn)勝世界冠軍李世石,舉世轟動(dòng),這就是我對(duì)AGI的認(rèn)知開端。
AI 科技評(píng)論:當(dāng)時(shí) DeepMind 對(duì) AGI 的理解是怎樣的?
姚星:DeepMind 對(duì) AGI 的理解是,要實(shí)現(xiàn) AGI,首先要?jiǎng)?chuàng)建一個(gè)仿真世界(Simulator),在虛擬世界里仿真數(shù)據(jù),他們選擇了深度強(qiáng)化學(xué)習(xí)方法,讓AI能達(dá)到超越人類智力的水平。
DeepmMind走的路線,是先從游戲這個(gè)虛擬世界來(lái)仿真數(shù)據(jù)。游戲被認(rèn)為是測(cè)試Agent(智能代理)的首選工具,DeepmMind最先從Atari游戲開始,然后依次探索了圍棋(動(dòng)作空間或狀態(tài)空間計(jì)算復(fù)雜度為10的172次方)、星際爭(zhēng)霸游戲(復(fù)雜度10的1682次方)。
為什么用游戲?因?yàn)橛螒虮旧砭褪且粋€(gè)虛擬世界,它提供了豐富的任務(wù),讓AI Agent必須用復(fù)雜策略來(lái)應(yīng)對(duì)。其次,游戲有簡(jiǎn)單的進(jìn)度度量標(biāo)準(zhǔn):游戲分?jǐn)?shù)。這就方便進(jìn)一步優(yōu)化Agent的表現(xiàn)。
那虛擬世界、強(qiáng)化學(xué)習(xí)和AGI有什么關(guān)系呢?如果你在游戲中設(shè)定一個(gè)好的目標(biāo),運(yùn)行AI Agent,就能產(chǎn)生大量數(shù)據(jù);然后給Agent制定一個(gè)激勵(lì)方式(reward),就能讓產(chǎn)生的數(shù)據(jù)越來(lái)越優(yōu)化。而到了優(yōu)化數(shù)據(jù)足夠多的時(shí)候,理論上就能通過(guò)這些數(shù)據(jù)訓(xùn)練出一個(gè)足以超越人類智能的AI,從而實(shí)現(xiàn)AGI。
AI 科技評(píng)論:所以回國(guó)后,您也開始在騰訊探索 AGI。
姚星:是的。我們也開始使用深度強(qiáng)化學(xué)習(xí)方法,想探索一條騰訊的 AGI 路徑。當(dāng)時(shí)我?guī)ьI(lǐng)的團(tuán)隊(duì)主要是基于游戲場(chǎng)景來(lái)探索多個(gè)智能體在決策協(xié)作上的復(fù)雜能力,如騰訊在 2016 年推出的圍棋 AI 系統(tǒng)、現(xiàn)在已經(jīng)成為圍棋國(guó)家隊(duì)陪練的“絕藝”,2017 年推出的王者榮耀 AI“絕悟”(計(jì)算復(fù)雜度為10的20000次方)。
當(dāng)時(shí)的這些工作,都是如今十分火熱的 AI Agents(AI 智能體)早期雛形。(AI科技評(píng)論注:騰訊是國(guó)內(nèi)最早研究游戲 AI Agents 的技術(shù)團(tuán)隊(duì)之一。)
AI 科技評(píng)論:那時(shí)候您被 AGI 震撼。
姚星:是的,但現(xiàn)實(shí)也很殘酷。躬身入局后我逐漸認(rèn)識(shí)到 DeepMind 的 AGI 路線也有它的局限性:
首先,仿真只能局部仿真,要仿真一個(gè)足夠復(fù)雜的世界特別難。其次,深度強(qiáng)化學(xué)習(xí)是以目標(biāo)為導(dǎo)向,跟人的認(rèn)知不符合,人的認(rèn)知并不是都有強(qiáng)目標(biāo)的,例如人類在面對(duì)電車難題,如“如果你是列車司機(jī),你愿意犧牲1個(gè)人來(lái)救5個(gè)人嗎”這種倫理問(wèn)題時(shí),人是很難做抉擇的。而 AGI 必須要有清晰的目標(biāo),圍棋就是最好的例子,圍棋的目標(biāo)就是打敗對(duì)面的對(duì)手,所以早期 AI 更多用在博弈系統(tǒng)里,但人類復(fù)雜世界中的許多場(chǎng)景無(wú)法列出清晰目標(biāo)。
這也是我 2020 年從騰訊出來(lái)創(chuàng)辦元象做元宇宙的很大一部分原因,就是覺(jué)得 DeepMind 的 AGI 路線未必走得通,我想做去仿真世界。因?yàn)樵钪嬉彩欠抡?,所以?dāng)時(shí)覺(jué)得入局元宇宙,可以先攻克實(shí)現(xiàn) AGI 的一個(gè)難題。所以我們心中的元宇宙,一直是用AI方法來(lái)生成3D世界內(nèi)容。
沒(méi)想到元宇宙研究了一年多后,2022 年年底 ChatGPT 問(wèn)世了。ChatGPT 的大模型路線與DeepMind的深度強(qiáng)化學(xué)習(xí)路線不同,它不用去虛擬世界仿真數(shù)據(jù),而是直接從真實(shí)世界中拿到大量的高質(zhì)量自監(jiān)督數(shù)據(jù),這樣的數(shù)據(jù)具備多樣性,提升了GPT的泛化能力,可以做不同的任務(wù)類型,而且這些數(shù)據(jù)都是人類長(zhǎng)期積累的經(jīng)驗(yàn)和知識(shí)數(shù)據(jù),讓AI具備很強(qiáng)的認(rèn)知能力。
AI 科技評(píng)論:大模型讓您看到新的希望。
姚星:是的,所以今年2月底剛解封,我就去美國(guó)拜訪了 OpenAI,見了 OpenAI 的很多人,當(dāng)時(shí)的想法就是去了解大模型究竟是怎么回事、是不是也適合我們研究。最后結(jié)論是我們能做,我們也必須做。
我們能做,是因?yàn)楫?dāng)時(shí)覺(jué)得GPT是一個(gè)復(fù)現(xiàn)工程,理論上我們有機(jī)會(huì)做出一個(gè)不錯(cuò)水平的。我們必須做,是因?yàn)檫@個(gè)方向的確是元宇宙的有力補(bǔ)充,它讓虛擬世界的真實(shí)性更加完整,即真實(shí)的感知智能(元宇宙/3D)+真實(shí)的認(rèn)知智能(AI)。
最后從AGI角度,元宇宙后續(xù)可能也會(huì)為大模型提供更多樣化、高質(zhì)量的自監(jiān)督數(shù)據(jù)。
AI 科技評(píng)論:元象 XVERSE-65B 是怎么訓(xùn)練出來(lái)的?
姚星:首先我們要肯定Meta開源Llama對(duì)整個(gè)大模型行業(yè)貢獻(xiàn)巨大。大模型是一個(gè)成本和試錯(cuò)都需要非常多開銷的系統(tǒng)。Llama的開源把整個(gè)行業(yè)的試錯(cuò)成本大大的降低了。
我相信目前不僅是國(guó)內(nèi)、甚至可能全球大部分大模型都在結(jié)構(gòu)上借鑒了Llama。但Llama開源了結(jié)構(gòu),整個(gè)訓(xùn)練過(guò)程、訓(xùn)練語(yǔ)料是沒(méi)有公開的。而對(duì)絕大部分團(tuán)隊(duì),想從零訓(xùn)練一個(gè)大模型,也是非常不容易的。除了已知算法以外,還有很多實(shí)戰(zhàn)性的tricks(技巧)需要摸索,比如如何處理數(shù)據(jù)shuffle、分詞,如何應(yīng)對(duì)訓(xùn)練過(guò)程中的諸多意外情況,比如損失函數(shù)產(chǎn)生NaN值導(dǎo)致的訓(xùn)練中斷。這里的關(guān)鍵,在于保證訓(xùn)練結(jié)果好的同時(shí)提升訓(xùn)練效率,也就是我們常說(shuō)的系統(tǒng)架構(gòu)的高性能和穩(wěn)定性。
從零訓(xùn)練65B絕不容易,參數(shù)量到了一定程度,我們不能再通過(guò)單卡或單機(jī)裝載整個(gè)模型,而跨卡跨機(jī)通訊會(huì)帶來(lái)很大的性能和穩(wěn)定性風(fēng)險(xiǎn)。為了加快訓(xùn)練速度,要同時(shí)并行跑多個(gè)訓(xùn)練副本,副本數(shù)據(jù)要保持一致,這些成本、性能、數(shù)據(jù)一致性等構(gòu)成了互斥問(wèn)題,很難同時(shí)兼顧。
這些問(wèn)題最終會(huì)折算成解決顯存優(yōu)化問(wèn)題,卡間/機(jī)間通訊IO、計(jì)算IO并行問(wèn)題、多副本一致性問(wèn)題,以及設(shè)備或網(wǎng)絡(luò)故障的穩(wěn)定性問(wèn)題。
所以在研發(fā)當(dāng)中,元象除了做算法優(yōu)化和語(yǔ)料數(shù)據(jù)收集整理等,也針對(duì)上述問(wèn)題進(jìn)行了自主設(shè)計(jì)和研發(fā),這讓我們7B、13B到65B,能以較低成本、較快速度訓(xùn)練出來(lái),也堅(jiān)持了“高性能”的定位。
AI科技評(píng)論:XVERSE-65B 訓(xùn)練過(guò)程有哪些創(chuàng)新?
姚星:除了常規(guī)的一些算法工程以外,65B 主要聚焦在性能和穩(wěn)定性架構(gòu)設(shè)計(jì)優(yōu)化上。
一是顯存優(yōu)化。大模型能達(dá)到智能涌現(xiàn),業(yè)界共識(shí)是參數(shù)量要大,因此高效利用GPU顯存成了關(guān)鍵因素。除了常規(guī)的參數(shù)混合精度設(shè)計(jì),我們對(duì)優(yōu)化器顯存使用有獨(dú)特優(yōu)化,還在參數(shù)、梯度、優(yōu)化器上做了很多分布式考慮,這些都大幅提升了顯存使用率。
二是計(jì)算IO優(yōu)化。在并行計(jì)算上,我們考慮了多種并行計(jì)算的可能,包括transformer 不同block之間的通訊和計(jì)算單元的設(shè)計(jì),還在transformer 矩陣運(yùn)算上做了獨(dú)特處理,提升了并行計(jì)算性能。
三是架構(gòu)穩(wěn)定性優(yōu)化,大模型訓(xùn)練的核心挑戰(zhàn)之一是設(shè)備龐大、故障率高。遇到故障時(shí),傳統(tǒng)訓(xùn)練方法是停下來(lái)恢復(fù)到上一個(gè)checkpoint重新訓(xùn)練,這樣設(shè)備越多,系統(tǒng)穩(wěn)定性會(huì)持續(xù)下降?;诖?,我們?cè)O(shè)計(jì)了一套持續(xù)訓(xùn)練架構(gòu),高穩(wěn)定、低中斷、強(qiáng)容錯(cuò),把每周有效訓(xùn)練率提升至98.6%,保證了模型訓(xùn)練的效率和穩(wěn)定。
AI 科技評(píng)論:訓(xùn)練 XVERSE-65B 一共耗費(fèi)了多少錢?
姚星:300 多萬(wàn)美金。
AI 科技評(píng)論:為什么有如此魄力將耗費(fèi)了 300 多萬(wàn)美金的大模型開源出去?
姚星:首先是我們發(fā)現(xiàn)行業(yè)需要 65B 參數(shù)規(guī)模的大模型,如果開源出去,大家就不用重復(fù)造輪子了,而每個(gè)人都去做一遍的成本就不止 300 萬(wàn)了。
其次,GPT-4 出來(lái)后,我不僅震驚于 GPT-4 本身,還震驚于 OpenAI 在 9 月就開始招募各學(xué)科的專家加盟 OpenAI 紅隊(duì),設(shè)置紅隊(duì)藍(lán)隊(duì)的安全性對(duì)抗以提高 AI 模型的安全性,我當(dāng)時(shí)還感慨他們這么早就開始設(shè)置對(duì)抗。正是他們對(duì)這些不被我們重視、但可能會(huì)影響人類未來(lái)的維度(如 AI 安全)的重視,深深觸動(dòng)了我,也激勵(lì)了元象開源 XVERSE-65B。
未來(lái)元象還是想堅(jiān)持做一些利他的、更長(zhǎng)期的事情,所以就決定把 65B 開源出去,供需要的人、供行業(yè)使用。(本文作者長(zhǎng)期跟蹤大模型等AI領(lǐng)域的人物、公司故事與行業(yè)動(dòng)態(tài),歡迎添加作者微信 zzjj752254 互通有無(wú)。)
AI 科技評(píng)論:哪些人需要 65B 規(guī)模的大模型?
姚星:不一定是商業(yè)公司,更重要的是科研機(jī)構(gòu)。到了 65B 規(guī)模,模型才會(huì)出現(xiàn)所謂的智能涌現(xiàn),有利于科研機(jī)構(gòu)的從業(yè)者去做研究,特別是生命科學(xué)類的。
我曾在騰訊做過(guò)一個(gè)類似于 AlphaFold 的、解決蛋白質(zhì)折疊問(wèn)題的 AI 工具 tFold,還在CAMEO(全球唯一的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)自動(dòng)評(píng)估平臺(tái))的國(guó)際測(cè)評(píng)中連續(xù)半年保持周度冠軍。當(dāng)年這個(gè)項(xiàng)目里的很多人出來(lái)創(chuàng)業(yè)做生物醫(yī)療,我跟他們都交流過(guò),大家很希望能把大模型技術(shù)用起來(lái),例如對(duì)蛋白質(zhì)的 DNA、RNA 序列進(jìn)行檢測(cè),這就是 AI for Science(用 AI 研究科學(xué)問(wèn)題)。
所以開源 XVERSE-65B 的一個(gè)很重要的出發(fā)點(diǎn)是,希望科研機(jī)構(gòu)、特別是一些跨領(lǐng)域的科研機(jī)構(gòu)使用大模型技術(shù),用大模型幫助他們做一些更深入的研究。畢竟對(duì)這些科研機(jī)構(gòu)來(lái)說(shuō),花幾百萬(wàn)美金去訓(xùn)練大模型是不現(xiàn)實(shí)的。
AI 科技評(píng)論:開源對(duì)元象的價(jià)值和意義是什么?
姚星:對(duì)元象而言,開源不僅是一種態(tài)度,也是一種能力,能持續(xù)深入了解開發(fā)者真實(shí)的需求和使用場(chǎng)景,增加模型通識(shí)能力和安全部署,也可以持續(xù)打磨自身技術(shù)。
其次從商業(yè)角度來(lái)看,海量中小企業(yè)、研究者和 AI 開發(fā)者如果能早一步用起來(lái) XVERSE-65B,便可以突破現(xiàn)在“小”模型的一些應(yīng)用局限,探索更大的應(yīng)用可能性。
AI 科技評(píng)論:開源 XVERSE-65B 會(huì)影響元象的商業(yè)化嗎?
姚星:我們開源 XVERSE-65B 其實(shí)是想讓更多的科研機(jī)構(gòu)、更多非從事大模型的人和公司能夠用起來(lái),而不是通過(guò)開源去建生態(tài)做商業(yè)化,這還比較遠(yuǎn)。
AI 科技評(píng)論:為什么還比較遠(yuǎn)?
姚星:到目前為止,我覺(jué)得大模型商業(yè)化在中國(guó)還需要繼續(xù)探索,無(wú)論是To B還是To C。目前我更看好To C。
To B在國(guó)內(nèi)太卷,很多是賦能行業(yè)或提效工具,這樣大模型基本是打輔助,公有云化的產(chǎn)品會(huì)由云廠商獲得利潤(rùn),如果只是私有化部署,會(huì)導(dǎo)致絕大部分是解決方案,成本大部分為硬件成本。
To C我覺(jué)得未來(lái)有兩種可能,一是通過(guò)大模型產(chǎn)生新的“Super App(超級(jí)應(yīng)用)”,二是通過(guò)大模型賦能UGC,為終端用戶降低門檻,帶來(lái)更高創(chuàng)造力,類似GPTs。GPTs肯定是大廠必爭(zhēng)之地,我們作為創(chuàng)業(yè)公司可能還是要聚焦大模型驅(qū)動(dòng)的新型APP。
AI 科技評(píng)論:那您覺(jué)得開源跟商業(yè)是什么關(guān)系?
姚星:對(duì)元象來(lái)說(shuō),商業(yè)化不依賴開源。元象并不是要通過(guò)開源去吸引用戶、做生態(tài)。開源就是開源,商業(yè)化是商業(yè)化,這是兩碼事。我們的大模型商業(yè)化會(huì)聚焦在To C上。
AI 科技評(píng)論:未來(lái)會(huì)持續(xù)開源嗎?
姚星:我們根據(jù)中小企業(yè)和科研機(jī)構(gòu)的算力判斷,目前推出的 XVERSE-7B、13B 到 65B,高性能、全開源、無(wú)條件免費(fèi)商用條件下,基本能覆蓋大部分科研機(jī)構(gòu)和中小企業(yè)商用需求。
大家只要根據(jù)不同場(chǎng)景,選擇適合的開源模型就行,不同場(chǎng)景下,可能需要更大、更全面的模型,也可能只需要很小但更專業(yè)、更聚焦的模型。
原來(lái)騰訊有句話,叫做“科技點(diǎn)亮人文之光”,我們也會(huì)把開源大模型當(dāng)作長(zhǎng)期事業(yè)去做。
AI 科技評(píng)論:國(guó)內(nèi)只要發(fā)一個(gè)模型就說(shuō)自己趕超 GPT-3.5,或者接近GPT-4,您怎么看?
姚星:有一些被行業(yè)吐槽的是刷榜行為、把評(píng)測(cè)集數(shù)據(jù)放到訓(xùn)練語(yǔ)料去用,其實(shí)意義不大,,
刷榜是一種陋習(xí)。如果大家都說(shuō)接近甚至超過(guò) GPT-4,這明顯不符合實(shí)際情況,這會(huì)讓大家對(duì)中國(guó)大模型能力沒(méi)有清晰認(rèn)知,偏離真實(shí)發(fā)展,導(dǎo)致行業(yè)浮夸之風(fēng)盛行。(本文作者長(zhǎng)期跟蹤大模型等AI領(lǐng)域的人物、公司故事與行業(yè)動(dòng)態(tài),歡迎添加作者微信 zzjj752254 互通有無(wú)。)
AI 科技評(píng)論:國(guó)內(nèi)可以從哪些方面趕超 GPT-4?
姚星:國(guó)內(nèi)一直在追趕 GPT,中國(guó)團(tuán)隊(duì)復(fù)現(xiàn)能力很強(qiáng),未來(lái)肯定也會(huì)有人能做出 GPT-4,但我覺(jué)得雙方的差距還是很遠(yuǎn),除了基礎(chǔ)研究能力、、客觀條件上有限制,比如算力,另外理念上也有不小的差距,我們太多方面比較看重短期利己,例如對(duì) AI 安全的不夠重視。
AI 科技評(píng)論:未來(lái)國(guó)產(chǎn)大模型會(huì)往什么方向發(fā)展?
姚星:?jiǎn)螐奈谋菊J(rèn)知角度來(lái)看,如果 OpenAI 沒(méi)有推出一個(gè)更加炸裂的前沿技術(shù),只是沿著大語(yǔ)言模型這條路一直往下走,那么中國(guó)公司有能力跟上。但從多模態(tài)來(lái)講,國(guó)內(nèi)可能有不小差距,這跟算力吃緊也有關(guān)系,多模態(tài)要求的算力遠(yuǎn)遠(yuǎn)高于文本。
短期制約來(lái)看,主要還是算力和商業(yè)模式的問(wèn)題。
AI 科技評(píng)論:您覺(jué)得大家的時(shí)間還很多嗎?
姚星:其實(shí)不多,如果找不到可持續(xù)的商業(yè)化模式,隨著人員、設(shè)備膨脹,大家手里的錢其實(shí)都很難維持燒很多年。
AI 科技評(píng)論:現(xiàn)在元象在元宇宙與大模型兩個(gè)業(yè)務(wù)上的人員配比是怎樣的?
姚星:元宇宙跟大模型在元象內(nèi)部是兩個(gè)團(tuán)隊(duì),算是兩個(gè)事業(yè)部,人員配比大約是7:3。
跟Meta這類元宇宙公司不同,元象的定位并不是生產(chǎn)終端設(shè)備,而是聚焦用AI技術(shù)解決3D數(shù)字內(nèi)容從生產(chǎn)到消費(fèi)(呈現(xiàn))的問(wèn)題。這里的AI技術(shù),既有傳統(tǒng)的計(jì)算機(jī)圖形學(xué)技術(shù),比如NeRF神經(jīng)輻射場(chǎng)技術(shù),能高效低成本進(jìn)行三維重建,也有大模型AIGC技術(shù),如擴(kuò)散模型Diffusion Model等。
AI 科技評(píng)論:現(xiàn)在市場(chǎng)都在唱衰元宇宙,很多大廠都已經(jīng)裁撤了元宇宙部門,為什么元象還要堅(jiān)持做元宇宙?
姚星:也不是堅(jiān)持做元宇宙。而是我理解的AGI,是通過(guò)仿真方式來(lái)實(shí)現(xiàn),而元宇宙恰好是仿真環(huán)境的絕佳技術(shù)。
我們會(huì)堅(jiān)持大模型和元宇宙兩條腿走下去。通過(guò)元宇宙構(gòu)建感知智能,仿真更多的自監(jiān)督數(shù)據(jù);通過(guò)大模型構(gòu)建認(rèn)知智能,用超強(qiáng)計(jì)算能力達(dá)到事物高水平理解和決策。
有很多公司都在兩條腿并行走路,只是表達(dá)方式不太一樣,比如Meta是元宇宙和大模型并行,DeepMind和OpenAI也是,但他們更強(qiáng)調(diào)強(qiáng)化學(xué)習(xí)。
我覺(jué)得 AGI 是值得我們長(zhǎng)期堅(jiān)持和追隨的,這是一條難而正確的路。
AI 科技評(píng)論:您覺(jué)得 AGI 的實(shí)現(xiàn)需要哪些元素?
姚星:圖靈說(shuō)人工智能是機(jī)器學(xué)會(huì)像人一樣思考,也就是機(jī)器通過(guò)接收信息進(jìn)行自主決策,比如接收語(yǔ)言信號(hào)、視覺(jué)信號(hào),或語(yǔ)言+視覺(jué)信號(hào),再進(jìn)行推理。
要實(shí)現(xiàn)AGI,AI要能接收和理解輸入信號(hào)(語(yǔ)言+視覺(jué)),推理決策后輸出信號(hào)(語(yǔ)言、創(chuàng)造、動(dòng)作等),所以AGI離不開對(duì)輸入信號(hào)的理解(感知智能)、AI的推理決策(認(rèn)知智能,如大模型),到輸出信號(hào)(感知智能),這也就是我經(jīng)常說(shuō)的 AGI = 感知智能+認(rèn)知智能。
AI 科技評(píng)論:所以大模型能實(shí)現(xiàn)AGI?
姚星:目前方式感覺(jué)挺難的。大模型開始顯現(xiàn)它的局限性,原因就在于大模型本質(zhì)依然是一種對(duì)齊技術(shù)。
什么意思呢?對(duì)齊并非推理。我們?nèi)祟悓W(xué)會(huì)九九乘法表,就能算出所有數(shù)字的相乘之積,但大模型不能。它的推理是建立在見過(guò)相關(guān)數(shù)據(jù)的前提之下,進(jìn)行的一種關(guān)聯(lián),所以它還是鸚鵡學(xué)舌,沒(méi)見過(guò)就沒(méi)法對(duì)齊。大模型本質(zhì)上是有多少數(shù)據(jù)、發(fā)揮多大力量,這就是它的局限性。
未來(lái)大模型發(fā)展的一個(gè)很大挑戰(zhàn)是探索自監(jiān)督數(shù)據(jù),因?yàn)榇竽P湍壳鞍岩阎祟惙e累的自監(jiān)督文本數(shù)據(jù)語(yǔ)料基本用完了。要達(dá)到AGI,可能還要去思考怎么生產(chǎn)更多高質(zhì)量的自監(jiān)督數(shù)據(jù),比如通過(guò)仿真模擬環(huán)境,合成更多的自監(jiān)督數(shù)據(jù)。特別是vision2action的數(shù)據(jù),因?yàn)槿祟惖妮斎胄盘?hào)并非只有文本信息,大量是視覺(jué)信息,比如游戲,比如開車等,是需要通過(guò)視覺(jué)信息再進(jìn)行判斷推理。強(qiáng)化學(xué)習(xí)肯定是一種非常有用的手段,但強(qiáng)化學(xué)習(xí)也有很多局限,比如泛化性很差,比如有效Q函數(shù)很難找到等。
因此在我看來(lái),要實(shí)現(xiàn)遠(yuǎn)大的 AGI 理想,大模型還是不夠,可能要把對(duì)齊和仿真結(jié)合,才有機(jī)會(huì)。
這也是元象為什么還在堅(jiān)持做元宇宙。通過(guò)元宇宙對(duì)真實(shí)世界仿真模擬,創(chuàng)建大量的vision2action數(shù)據(jù),實(shí)際上我心目中的AGI,也許就是大模型+元宇宙。
AI 科技評(píng)論:您怎么看今天大模型給我們整個(gè)世界帶來(lái)的變化?
姚星:前段時(shí)間聽陸奇講大模型帶來(lái)新的范式,給我?guī)?lái)很大的觸動(dòng)。每個(gè)人都能依靠大模型,通過(guò)自然語(yǔ)言與計(jì)算機(jī)交流的方式去做自己的 APP、游戲、網(wǎng)站、工具等等,這在以前是很不可思議的。
云時(shí)代把軟件系統(tǒng)的部署和運(yùn)營(yíng)問(wèn)題解決了,大家不需要對(duì)互聯(lián)網(wǎng)海量系統(tǒng)有過(guò)多的經(jīng)驗(yàn),直接接入云服務(wù),就能提供互聯(lián)網(wǎng)海量服務(wù)(海量的用戶和訪問(wèn))。
大模型帶領(lǐng)我們進(jìn)入 AI 時(shí)代,極大降低創(chuàng)作門檻,每個(gè)人能創(chuàng)造的,不再局限于文本、圖片或視頻,而是用大模型創(chuàng)造網(wǎng)站、游戲、APP這樣更“高級(jí)”或更高維度的信息,創(chuàng)造更多操作和交互、更智能有用的工具,這意味著云+大模型能讓每個(gè)人自由創(chuàng)作。在大模型時(shí)代,人人都能是程序員,都能創(chuàng)作。
未來(lái)是一個(gè)靈感肆意迸發(fā)并能將其實(shí)現(xiàn)的世界,你不覺(jué)得這樣的世界、這樣的人生特別有意思嗎?
聯(lián)系客服