作者 | 李梅
編輯 | 岑峰
在魔都的東南角臨港新片區(qū),商湯科技人工智能計算中心AIDC在2022年啟動運(yùn)營,樓宇俯瞰宛若芯片。自ChatGPT以來,國內(nèi)各家對大模型的追逐馬不停蹄,繼百度「文心一言」、阿里「通義千言」之后,昨日下午,商湯終于在AIDC亮相了其自研千億參數(shù)中文語言大模型——「商量 SenseChat」。
而商湯這次拿出的,不止一個類ChatGPT。在技術(shù)交流日現(xiàn)場,商湯科技CEO徐立展示了商湯「日日新 SenseNova」大模型研發(fā)體系,以及文生圖、數(shù)字人視頻生成、3D內(nèi)容生成等一系列AIGC應(yīng)用,演示期間驚嘆和掌聲此起彼伏。
商湯科技CEO徐立展示「日日新」大模型體系
回過頭看商湯在過去幾年大模型研發(fā)和算力基礎(chǔ)設(shè)施上的積累,觀賽者們驚覺:在這一波大模型的競技場上,商湯原來早有準(zhǔn)備,出場迅速,且武藝絕佳。
—— 01 ——
商湯,出場
「茍日新、日日新、又日新」,這句話出自《禮記·大學(xué)》中湯之《盤銘》,也是商湯「日日新SenseNova」大模型體系的取名由來,承載了今天我們對大模型快速迭代、走向通用人工智能(AGI)的期待。
目前,商湯已經(jīng)打造了視覺、自然語言、AIGC多個方向的AI大模型,正在以多模態(tài)大模型結(jié)合決策智能大模型為起點(diǎn)朝AGI走去。
在商湯這次推出的大模型體系中,備受關(guān)注的當(dāng)是語言大模型「商量」,它的口號是「商量商量,都能解決」。
「商量」一名,實際上點(diǎn)出了ChatGPT類模型的核心,即用戶在多輪對話中,通過Prompt「魔法」調(diào)教,挖掘大模型解決問題的能力。
在現(xiàn)場,徐立向我們演示了如何與「商量」商量商量。在邏輯推演、語言理解的廣度和深度,以及知識的自動及時更新等方面,「商量」的表現(xiàn)都令人印象深刻。
你可以和「商量」互動創(chuàng)作一個故事,過程中用合適的Prompt能引導(dǎo)它講故事的走向:
對于數(shù)學(xué)推理題,「商量」也能回答得有理有據(jù):
除了通用的對話能力,商湯還基于語言大模型打造了PDF文件閱讀助手、AI代碼助手、健康咨詢助手等工具。
其中AI代碼助手能提供代碼補(bǔ)全、注釋生成代碼、測試代碼生成、代碼翻譯、代碼修正、代碼重構(gòu)、復(fù)雜度分析等功能。據(jù)內(nèi)部測試,使用AI代碼助手的編程效率可提高62%,未來程序員們可以減少枯燥的重復(fù)性工作、專注創(chuàng)造性編程了。
基于「日日新」大模型體系,商湯此次還發(fā)布了一系列的AIGC模型及應(yīng)用,包括:
文生圖創(chuàng)作平臺「秒畫 SenseMirage」、數(shù)字人視頻生成平臺「如影SenseAvatar」、3D內(nèi)容生成平臺「瓊宇 SenseSpace」/「格物 SenseThings」等。這些應(yīng)用不僅名字取得典雅而不失貼切,而且其AI生成能力都十分驚艷。
使用「秒畫」,基于單卡A100支持,2秒就能獲得一張512K分辨率的圖片,而且光影真實、細(xì)節(jié)豐富、風(fēng)格多變:
一只戴著珍珠耳環(huán)的鸚鵡,維米爾風(fēng)格,12K,高畫質(zhì),高清,Octane Render
古代中國,唐朝,山峰,河流,夜晚,滿月,螢火蟲,石橋,超現(xiàn)實,cg渲染,高度細(xì)致,華麗,榮耀,史詩,電影感
令人驚嘆的史詩中國古代主題,飛龍,巨大,恐高癥,青白色薄荷,山脈,云朵,全景,極端全景,中國墨水風(fēng)格。藝術(shù)風(fēng)格,動態(tài),電影,令人驚嘆,逼真的明暗處理,生動,充滿活力,8k,辛烷值渲染,不真實,高度細(xì)致,概念藝術(shù)
更令人稱奇的是,只需要20張訓(xùn)練圖片,人人都能在5分鐘內(nèi)定制屬于自己的LoRA模型。比如當(dāng)你使用想生成「80年代港風(fēng)」女子人像,但結(jié)果并不理想時,就可以上傳20張風(fēng)格更為貼近的圖片,經(jīng)過幾步點(diǎn)擊后得到新的LoRA模型。這時再輸入相同的Prompt,生成的圖像風(fēng)格相似度就會顯著提升。
上行圖片由自訓(xùn)練LoRA模型生成
在數(shù)字人視頻生成平臺上,只需要5分鐘的真人視頻,你就可以用「如影」制作自己的數(shù)字人分身,聲音動作自然、口型準(zhǔn)確,還能說多語語言。這在短視頻、電商直播、教育等領(lǐng)域都大有用武之地。
借助「瓊宇」和「格物」,用戶則可以更高效、低成本地生成三維場景和精細(xì)化物件,元宇宙觸手可及。
其中,「瓊宇」專注于復(fù)刻和還原真實空間,其空間重建生成能力可達(dá)大城市級尺度,100平方公里的空間也不在話下。傳統(tǒng)人工建模10000人/天的建模任務(wù),通過瓊宇只需要2天就能完成。
「格物」支持物體3D內(nèi)容生成,使用它來復(fù)刻還原物體的光照、材質(zhì)細(xì)節(jié),效率相比傳統(tǒng)建模能提升400%。
—— 02 ——
從視覺走向多模態(tài)
超大規(guī)模神經(jīng)網(wǎng)絡(luò)的能力「涌現(xiàn)」,是一種發(fā)現(xiàn)而非發(fā)明。ChatGPT演示了AI大模型的能力,建立了人們對大模型實現(xiàn)通用人工智能(AGI)潛力的共識,也掀起了AIGC淘金熱。
對商湯而言,ChatGPT則印證了:過去幾年,商湯做對了。
在國內(nèi)群雄逐鹿AI大模型的當(dāng)下,商湯在其中究竟扮演了怎樣的角色?雷峰網(wǎng)的觀點(diǎn)是,各家有各家的位置。商湯的位置已經(jīng)清晰:
一是「日日新SenseNova」大模型體系以CV、NLP、AIGC等為核心,目標(biāo)打造多模態(tài)大模型、最終通向AGI;
二是擁有業(yè)內(nèi)稀缺的大模型專業(yè)基礎(chǔ)設(shè)施SenseCore AI大裝置;
三是以「大模型+大裝置」的路線在業(yè)務(wù)和行業(yè)落地。
自2018年起,商湯便在往通用模型的方向走,在2019年預(yù)見性地儲備了1000張GPU。10億參數(shù)的圖像大模型就是2019年發(fā)布,在之后的招股書中,商湯更是把AI大模型的布局寫了進(jìn)去。到2022年,商湯訓(xùn)練出了320億參數(shù)的通用視覺大模型,是迄今全球最大的通用視覺模型,在目標(biāo)檢測、圖像分布、多物體識別等任務(wù)上取得了非常好的性能。
2021年,商湯也啟動了語言大模型的訓(xùn)練,并在NLP頂級賽事中拿下過多個第一。最近則調(diào)動資源火速訓(xùn)練出了1800億參數(shù)的中文語言大模型「商量SenseChat」,已經(jīng)開始和客戶對接測試。
多模態(tài)方面,商湯在今年三月開源了30億參數(shù)的「書生2.5」大模型,具備很強(qiáng)的圖文跨模態(tài)開放任務(wù)處理能力,而且是目前全球開源模型中ImageNet準(zhǔn)確度最高、規(guī)模最大、物體檢測標(biāo)桿數(shù)據(jù)集COCO中唯一超過65.0 mAP的模型。
這種依托領(lǐng)先的視覺技術(shù)優(yōu)勢,逐步向多模態(tài)拓展的技術(shù)路線,既是視覺AI領(lǐng)跑者商湯的必然選擇,也在技術(shù)層面有著邏輯合理性。
視覺是人類獲取周遭世界信息的最主要渠道,五感中大約有80%的信息都是以肉眼獲取的。另外,視覺信息也在互聯(lián)網(wǎng)數(shù)據(jù)分布中占很高的比例,據(jù)統(tǒng)計,若爬取整個互聯(lián)網(wǎng)的文本數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗后得到的只有不到10個T,而已有的圖像公開數(shù)據(jù)集中最大的包含50億張圖像,大小約240T,所謂「一圖勝千言」,AI要處理的視覺信息遠(yuǎn)比文本信息要多得多。所以,在視覺與語言信息具有互通性的前提下,以視覺為起點(diǎn)去擴(kuò)展大模型的其他能力如語言、代碼、數(shù)學(xué)等,符合人類理解世界的方式。
還有很重要的一點(diǎn)是,以ChatGPT為代表的語言大模型其核心并不在于「語言」,而在于作為一種新方法的「大模型」。在這一波語言大模型浪潮中,為什么原本做NLP的一批公司并未如預(yù)想的那樣崛起,反而有的還「倒」在了大模型的腳下?就是因為通用大模型基于深度學(xué)習(xí)和超大規(guī)模神經(jīng)網(wǎng)絡(luò)(Transformer為代表),把這些公司原本在傳統(tǒng)NLP技術(shù)上的競爭優(yōu)勢給無情抹平了。
所以,基于對大模型、大裝置領(lǐng)域的長期積累,以及基礎(chǔ)設(shè)施投入,讓商湯在短時間內(nèi)交出了千億級別的語言大模型,并確立了完整的商湯日日新大模型體系。
在商湯看來,多模態(tài)大模型是通往AGI的光明之路。如果以人的受教育程度來衡量大模型的智能水平,GPT-4目前已能媲美90%以上的大學(xué)生。讓大模型能夠「考上大學(xué)」、「通修全科」,這也是商湯的AGI愿景。
—— 03 ——
算力的長跑
大模型非一日之功,大算力更非一天能建成。大模型浪潮掀起,但入局者大多面臨著算力之困:許多下場的企業(yè)并沒有足夠的算力儲備;英偉達(dá)A100和A800仍是訓(xùn)練大模型的最優(yōu)選,國產(chǎn)芯片目前還僅能去做小模型和中模型的訓(xùn)練和推理,在大模型上性價比沒那么高。
真正能夠馬上提供足夠算力支持的沒有幾家,商湯就是其中一個。支持商湯大模型訓(xùn)練的SenseCore AI大裝置目前擁有2.7萬塊GPU,是亞洲最大的智算中心之一。其輸出的算力十分驚人:
峰值算力高達(dá)5000Petaflops;可以并行訓(xùn)練20個以上的ChatGPT類模型;1750億參數(shù)的GPT-3在AIDC一天就能完成1次訓(xùn)練。
商湯臨港智算中心AIDC商湯之所以能在這一波迅速入局,一個重要原因是商湯很早意識到算力的重要性并有長期布局。
商湯科技CEO徐立提出,AGI時代的大模型新公式是:大模型參數(shù)量×處理的數(shù)據(jù)量=計算量。其中,大模型參數(shù)量的指數(shù)級增長對算力的需求無需多言,商湯對大算力的預(yù)見性還在于多模態(tài)數(shù)據(jù)方面,這種預(yù)見很自然地發(fā)生在商湯的視覺模型研發(fā)經(jīng)驗中。
一個對比是,由于視覺數(shù)據(jù)的數(shù)量、質(zhì)量和信息容量上都比語言數(shù)據(jù)要大得多,視覺模型對算力的消耗相當(dāng)于語言模型的10倍。商湯在2019年訓(xùn)練出的10億參數(shù)視覺模型,實際上就要求有支撐100億語言模型訓(xùn)練的算力,這促使商湯很早就開始了算力長跑。
不過,高算力并不是簡單地堆砌大量GPU卡就能實現(xiàn),而是需要一個有強(qiáng)大系統(tǒng)設(shè)計的超大規(guī)模訓(xùn)練集群,因為大模型的計算量是GPU數(shù)量、并行效率、運(yùn)行時間三者的乘積。這當(dāng)中,并行效率和運(yùn)行時間是兩個技術(shù)關(guān)鍵,商湯大裝置在這兩個方面已經(jīng)造就了工程奇跡。
一是并行效率非常高。從1千卡級到3、4千卡級,再到1萬張卡級大規(guī)模集群的部署,訓(xùn)練集群的規(guī)模會有可預(yù)見的增長,但大模型訓(xùn)練的并行效率才決定了實際算力。如果系統(tǒng)效率低下,1萬張卡相比1千張卡的訓(xùn)練效率只能提高2倍,經(jīng)濟(jì)上很不劃算。現(xiàn)在商湯大裝置在千卡級已經(jīng)達(dá)到90%以上的線性度,能夠以最大4千卡的規(guī)模集群進(jìn)行單任務(wù)訓(xùn)練。
事實上,商湯很早就奠定了強(qiáng)大的系統(tǒng)和架構(gòu)能力。19年商湯曾創(chuàng)造一個記錄,實現(xiàn)了全球最快的AlexNet訓(xùn)練速度,當(dāng)時已具備并行計算上千塊GPU的能力,這是很罕見的。
二是系統(tǒng)穩(wěn)定性極強(qiáng),目前可以做到7天以上不間斷的穩(wěn)定訓(xùn)練。商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群副總裁陳宇恒介紹,每天每1千張GPU中,約有1張卡會出現(xiàn)故障,那么有1萬張卡的時候,每天的故障率會更多,估計下來,平均無故障時間可能就只有一兩個小時,這樣的系統(tǒng)是沒法使用的。
商湯從硬件的可靠性到軟件的容錯度都實現(xiàn)了良好的設(shè)計,7天,實際上是非常了不起的,即使是背靠微軟Azure的OpenAI也望塵莫及,據(jù)官方公布,OpenAI訓(xùn)練模型時兩三天就可能斷一次點(diǎn)。
—— 04 ——
「大模型+大裝置」雙輪落地
商湯一次性推出大模型體系和多個生成式AI應(yīng)用,向業(yè)界表明,商湯大模型的技術(shù)與落地是在同時進(jìn)行的。
從數(shù)十億參數(shù)級的大模型開始,在每一次的迭代中,商湯都將大模型用在實際的產(chǎn)品和行業(yè)中,構(gòu)建用戶反饋的閉環(huán)。通過飛輪效應(yīng),一方面把模型越做越大,另一方面把模型越做越有用,而非一步登天地做出一個萬億級模型、卻無法在真實場景中落地。
這種更為平滑的路線,適合商湯自身,也向行業(yè)釋放了大模型的生產(chǎn)力。
如今,商湯的產(chǎn)品體系和技術(shù)體系,都可以依托大模型去做支撐。「日日新」大模型體系已經(jīng)深度結(jié)合在商湯的智能汽車、智慧生活、智慧商業(yè)、智慧城市四大業(yè)務(wù)板塊中。
比如在自動駕駛方面,商湯已通過視覺大模型解決了邁向L3、 L4商用級過程之中的至少兩個痛點(diǎn)。一是把視覺大模型用作一個過濾器和半自動標(biāo)注的機(jī)器人,去進(jìn)行數(shù)據(jù)的篩選和預(yù)標(biāo)注,能提高4倍的效率。二是視覺大模型能避免數(shù)據(jù)遺忘,有非常強(qiáng)的泛化能力,因此能解決傳統(tǒng)小模型無能為力的Corner Case(邊緣場景)問題。
另外在生物醫(yī)藥領(lǐng)域,商湯去年與生物企業(yè)合作,通過AI大裝置為蛋白質(zhì)結(jié)構(gòu)大模型提供推理算力,把推理時間縮短了60倍,只需要數(shù)分鐘就能得到蛋白質(zhì)結(jié)構(gòu)預(yù)測結(jié)果。
同時,商湯還通過大裝置AI云將大模型的能力輸出到了各個行業(yè)和場景中。
關(guān)于大模型的行業(yè)落地,最近很熱的一個概念是「模型即服務(wù)」(Model as a Service,MaaS )。在商湯看來,MaaS只是AI大模型商業(yè)化、產(chǎn)品化的其中一個模式,人工智能即服務(wù)(AI as a service,AIaaS)是一個包含更廣的概念。2022年,商湯AIDC開啟商業(yè)化,將AI能力移植上云,在包括MaaS在內(nèi)的各個層面都提供了不同服務(wù)和商業(yè)模式的方向:
·在計算基礎(chǔ)設(shè)施服務(wù)層(IaaS),提供AI專用的算力存儲網(wǎng)絡(luò)服務(wù),輸出大算力。
·在平臺層(PaaS):既提供多種MaaS服務(wù),包括自動化數(shù)據(jù)標(biāo)注平臺「商湯明眸SenseAnnotation」、自定義大模型訓(xùn)練、模型增量訓(xùn)練、模型推理部署、開發(fā)效率提升等,同時也開放API接口,支持自由調(diào)用「日日新」大模型的各項AI技術(shù)能力。
這一套服務(wù)在商業(yè)化上是很成功的。數(shù)據(jù)顯示,目前大裝置已經(jīng)服務(wù)8家客戶訓(xùn)練大模型,總共提供了7000多張GPU卡,支持了超過10個大模型訓(xùn)練項目。在收入方面,大裝置的對外服務(wù)收入占到了整個智慧商業(yè)板塊收入的20%,AlaaS收入約2.93億元。
如今的商湯已經(jīng)進(jìn)入無人之境。在算力基礎(chǔ)設(shè)施層面,如何將上萬塊的計算卡與低延遲、高穩(wěn)定、高吞吐的方式去互聯(lián),完成超大規(guī)模訓(xùn)練任務(wù),是商湯接下來要應(yīng)對的挑戰(zhàn)。在大模型技術(shù)層面,未來怎樣通過端云的配合完成大模型的應(yīng)用閉環(huán),也是一個長期命題。AGI的征途還很遠(yuǎn),商湯會繼續(xù)做時間的朋友。
(公眾號:雷峰網(wǎng))
聯(lián)系客服