報(bào)告出品/作者:華西計(jì)算機(jī)團(tuán)隊(duì)、劉澤晶
以下為報(bào)告原文節(jié)選
------
1.1 ChatGPT為API接口收費(fèi),我國(guó)需自主可控
ChatGPT,AI的曠世之作,持續(xù)引爆市場(chǎng): 是OpenAI于 2022年11月推出的聊天機(jī)器人,由于其功能強(qiáng)大,例如實(shí)現(xiàn)文章創(chuàng)作、代碼創(chuàng)作、回答問題等功能,我們認(rèn)為其具有跨時(shí)代的意義,例如實(shí)現(xiàn)勒“模糊搜索”到“精準(zhǔn)推送”的跨越,因此持續(xù)引爆市場(chǎng)。
ChatGPT為AI接口收費(fèi),我國(guó)需自主可控: OpenAI(ChatGPT母公司)的商業(yè)模式為API接口收費(fèi),客戶可以通過接入OpenAI的API接口獲取獲取相關(guān)圖像、語言、代碼調(diào)整服務(wù),我們認(rèn)為此種商業(yè)模式具有“卡脖子”的風(fēng)險(xiǎn),一旦海外禁止API接口權(quán)限,會(huì)對(duì)我國(guó)AIGC生態(tài)造成嚴(yán)重影響,因此我國(guó)需要發(fā)展自主可控的“ChatGPT”。
國(guó)產(chǎn)生態(tài)正在逐步繁榮,百度打響“ChatGPT”領(lǐng)域“第一槍”:百度是少有預(yù)訓(xùn)練模型(大模型)語言訓(xùn)練能力的公司,其在算法、算力、數(shù)據(jù)、生態(tài)、平臺(tái)五方面皆有儲(chǔ)備,根據(jù)百度官方公眾號(hào),百度計(jì)劃于2023年3月16日在北京總部召開新聞發(fā)布會(huì),圍繞國(guó)產(chǎn)版ChatGPT文心一言,我們認(rèn)為此舉正式意味著我國(guó)自主可控的“ChatGPT”即將問世。
1.2 ChatGPT的競(jìng)爭(zhēng)本質(zhì)即大模型儲(chǔ)備競(jìng)賽
大模型的是人工智能發(fā)展的必然趨勢(shì): 大模型即“大算力+強(qiáng)算法”結(jié)合的產(chǎn)物。大模型通常是在大規(guī)模無標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練,學(xué)習(xí)出一種特征和規(guī)則?;诖竽P瓦M(jìn)行應(yīng)用開發(fā)時(shí),將大模型進(jìn)行微調(diào),如在下游特定任務(wù)上的小規(guī)模有標(biāo)注數(shù)據(jù)進(jìn)行二次訓(xùn)練,或者不進(jìn)行微調(diào),就可以完成多個(gè)應(yīng)用場(chǎng)景的任務(wù)。
大模型是輔助式人工智能向通用性人工智能轉(zhuǎn)變的堅(jiān)實(shí)底座: 大模型增強(qiáng)了人工智能的泛化性、通用性,生產(chǎn)水平得到質(zhì)的飛躍,過去分散化模型研發(fā)下,單一AI應(yīng)用場(chǎng)景需要多個(gè)模型支撐,每個(gè)模型需要算法開發(fā)、數(shù)據(jù)處理、模型訓(xùn)練、參數(shù)調(diào)優(yōu)等過程。大模型實(shí)現(xiàn)了標(biāo)準(zhǔn)化AI研發(fā)范式,即簡(jiǎn)單方式規(guī)?;a(chǎn),具有“預(yù)訓(xùn)練+精調(diào)”等功能,顯著降低AI開發(fā)門檻,即“低成本”和“高效率”。
數(shù)據(jù)、平臺(tái)、算力是打造大模型生態(tài)的必備基礎(chǔ): 數(shù)據(jù)是訓(xùn)練大模型參數(shù)的必備,我們認(rèn)為可以理解成“燃料”;算力是訓(xùn)練大模型的底層動(dòng)力源泉,一個(gè)優(yōu)秀的算力底座在大模型(AI算法)的訓(xùn)練和推理具備效率優(yōu)勢(shì);平臺(tái)是大模型和算力之間的“橋梁”,可針對(duì)不同的模型和硬件,實(shí)現(xiàn)資源的合理分配,達(dá)到軟硬件的最優(yōu)組合,從而大幅提升訓(xùn)練模型的效率。
1.3 大模型帶來的AI技術(shù)與應(yīng)用變革潛能被廣泛驗(yàn)證
大模型帶來的AI技術(shù)與應(yīng)用變革潛能被廣泛驗(yàn)證,可以分為四類,分別是NLP(自然語言處理)、CV(計(jì)算機(jī)視覺)、多模態(tài)和科學(xué)計(jì)算。
NLP: 近年來,隨著預(yù)訓(xùn)練技術(shù)(大模型)、算力提升以及NLP海量數(shù)據(jù)和任務(wù)特性,大模型預(yù)訓(xùn)練在該領(lǐng)域取得顯著突破,2018年,隨著BERT(谷歌)的誕生,是利用海量無標(biāo)注文本的監(jiān)督學(xué)習(xí),已經(jīng)刷新多個(gè)AI權(quán)威技術(shù)榜單,3億參數(shù)的BERT模型在權(quán)威GLUE的11任務(wù)刷新紀(jì)錄,基準(zhǔn)值推至80.4%,絕對(duì)值提升7.6個(gè)點(diǎn)。
CV: 目前,主要以卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Transformer為支撐的計(jì)算機(jī)大模型快速發(fā)展,比如,2021年的150億參數(shù)的V-MoE推出,在ImageNET準(zhǔn)率高達(dá)90.35%,此外,國(guó)內(nèi)廠商也逐漸發(fā)力,盤古CV大模型可提供OCR文字識(shí)別,并在多個(gè)場(chǎng)景落地。
多模態(tài): 大模型技術(shù)推動(dòng)多模態(tài)模型不斷迭代升級(jí),比如阿里大模型M6,模型參數(shù)10萬億級(jí)別,持續(xù)拓寬大模型應(yīng)用廣度,覆蓋電商、智能交互等場(chǎng)景,此外,OpenAI的CLIP(文本圖像匹配)以及DALL·E2(文生圖)持續(xù)落地。
科學(xué)計(jì)算: AI+科學(xué)計(jì)算持續(xù)引發(fā)大變革,比如生物制藥、氣象預(yù)報(bào)、地震探查、材料等領(lǐng)域,例如Deep-Mind推出的AlphaFold2能夠覆蓋98.5%的人類蛋白質(zhì)組,并對(duì)20種其他生物蛋白結(jié)構(gòu)進(jìn)行預(yù)測(cè)。
1.4 中美科技巨頭廠商開啟大模型儲(chǔ)備“軍備賽”
美國(guó)科技巨頭公司開啟AI大模型 “軍備賽” :u 谷歌: 谷歌推出聊天機(jī)器人Bard,底層代碼為L(zhǎng)aMDA,我們認(rèn)為L(zhǎng)aMDA與ChatGPT算法具備一戰(zhàn)之力。此外,BERT算法具備庫時(shí)代的意義。
微軟:目前,根據(jù)智東西報(bào)道,微軟推移動(dòng)版Bing,語音接入、AI群聊等功能。此外,微軟本身也有在NLP、CV相關(guān)大模型的技術(shù)儲(chǔ)備。
其他: 例如FaceBook、亞馬遜、DeepMind、英偉達(dá)等廠商已經(jīng)加入大模型的“軍備賽”,并分別在NLP、CV或多模態(tài)方面已有相應(yīng)的技術(shù)儲(chǔ)備,應(yīng)用在語言生成、推理、代碼生成、跨模態(tài)搜索等領(lǐng)域中。
我國(guó)需有自主可控AI大模型,生態(tài)正逐漸繁榮:ü 百度: 是少有預(yù)訓(xùn)練模型(大模型)語言訓(xùn)練能力的公司,已經(jīng)經(jīng)歷多次迭代,目前已覆蓋眾多方向,目前已有近百萬開發(fā)者使用文心大模型,生態(tài)正在逐步繁榮,合作廠商覆蓋科技、教育、工業(yè)、媒體、金融等諸多產(chǎn)業(yè)。
阿里: 根據(jù)鈦媒體數(shù)據(jù),M6模型是中文多模態(tài)模型,參數(shù)規(guī)模高達(dá)萬億,已在超40個(gè)場(chǎng)景中應(yīng)用,可以實(shí)現(xiàn)劇本創(chuàng)作等功能。
其他: 例如騰訊、京東、科大訊飛、字節(jié)跳動(dòng)、網(wǎng)易等紛紛加入“軍備賽”,分別擁有獨(dú)特技術(shù)架構(gòu),應(yīng)用在智慧音效、AI視頻創(chuàng)作、AI語音、AI作文、AI搜索等應(yīng)用場(chǎng)景中。
資料來源:公開資料整理,騰訊《AIGC發(fā)展趨勢(shì)報(bào)告2023》,華西證券研究所
2.1 百度文心一言開啟國(guó)產(chǎn)ChatGPT新征程
百度是少有大模型語言訓(xùn)練能力的公司: 其文心大模型和Open AI的GPT模型類似,在2019年就已經(jīng)推出,并且已經(jīng)迭代了多代,從單一的自然語言理解延伸到多模態(tài),包括視覺、文檔、文圖、語音等多模態(tài)多功能,因此“文心一言”所基于的ERNIE系列模型也已經(jīng)具備較強(qiáng)泛化能力和性能。
我們認(rèn)為百度作為國(guó)產(chǎn)ChatGPT“領(lǐng)軍企業(yè)”,符合數(shù)據(jù)、平臺(tái)、算力、大模型、生態(tài)多重要素需求: 算力方面,百度擁有自主生態(tài)的算力底座,比如百度智算中心;AI芯片方面,坐擁昆侖芯加速器,實(shí)現(xiàn)了核心自主可控,且性能優(yōu)異;平臺(tái)方面,百度具備百度百舸 · AI異構(gòu)計(jì)算平臺(tái),具有高性能、高彈性等優(yōu)勢(shì);大模型儲(chǔ)備方面,百度實(shí)現(xiàn)了全生態(tài)的布局,其中包括NLP、CV、大模型、生物計(jì)算等領(lǐng)域,且在不同場(chǎng)景中已有較多應(yīng)用。數(shù)據(jù)方面,根據(jù)IDC數(shù)據(jù),其擁有5500億條知識(shí),且已經(jīng)應(yīng)用于百度搜索、信息流、智能駕駛、百度地圖、小度等產(chǎn)品。
2.2.1 百度文心一言大模型儲(chǔ)備齊全: NLP(自然語言處理)
百度文心一言NLP方向算法儲(chǔ)備齊全: 其中著名的 ERNIE系列,是基于知識(shí)增強(qiáng)的千億模型,用于智能創(chuàng)作、摘要生成、問答、語義檢索、情感分析、信息抽取、文本匹配、文本糾錯(cuò)等各類自然語言理解和生成任務(wù),并且模型已經(jīng)可應(yīng)用于醫(yī)療、金融、圖語言、編程、跨模態(tài)、信息抽取等各個(gè)方面。此外,PLATO模型,是全球首個(gè)超百億參數(shù)規(guī)模的中英文對(duì)話訓(xùn)練模型,可以讓機(jī)器人像人一樣具有邏輯且自由對(duì)話。
百度文心一言NLP功能強(qiáng)大: 例如ERNIE系列,ERNIE3.0基于知識(shí)增強(qiáng)的多范式統(tǒng)一預(yù)訓(xùn)練框架,深入融合的千億級(jí)知識(shí),具備強(qiáng)大的語言理解能力與小說、摘要、文案創(chuàng)意、歌詞、詩歌等文學(xué)創(chuàng)作能力。其中與鵬城實(shí)驗(yàn)室合作發(fā)布了知識(shí)增強(qiáng)千億大模型 “鵬城-百度·文心“。目前文心ERNIE已經(jīng)刷新93個(gè)中文NLP任務(wù)基準(zhǔn),并多次登頂SuperGLUE全球榜,已在機(jī)器閱讀理解、文本分類、語義相似度計(jì)算等60多項(xiàng)任務(wù)中實(shí)際應(yīng)用。
2.2.2 百度文心一言大模型儲(chǔ)備齊全: CV(計(jì)算機(jī)視覺)
百度文心一言CV具有顛覆性: VIMER-CAE: 為視覺自監(jiān)督預(yù)訓(xùn)練大模型,創(chuàng)新性地提出 “在隱含的編碼表征空間完成掩碼預(yù)測(cè)任務(wù)”的預(yù)訓(xùn)練框架,在圖像分類、目標(biāo)檢測(cè)、語義分割等經(jīng)典下游任務(wù)上刷新SOTA結(jié)果。
VIMER-UFO 2.0: 多任務(wù)學(xué)習(xí)模型,行業(yè)最大170億參數(shù)視覺多任務(wù)模型,覆蓋人臉、人體、車輛、商品、食物細(xì)粒度分類等 20+ CV 基礎(chǔ)任,具備支持各類任務(wù)、各類硬件的靈活部署等優(yōu)勢(shì),可以有效解決大模型參數(shù)量大,推理性能差等問題。
OCR -VIMER-StrucTexT 2.0: 為表征學(xué)習(xí)預(yù)訓(xùn)練模型解決了訓(xùn)練數(shù)據(jù)匱乏和傳統(tǒng) OCR + NLP 鏈路過長(zhǎng)導(dǎo)致的模型表達(dá)能力不足、優(yōu)化效率偏低等問題,能夠廣泛應(yīng)用于文檔、卡證、票據(jù)等圖像文字識(shí)別和結(jié)構(gòu)化理解,例如泛卡證票據(jù)信息抽取應(yīng)用、政務(wù)辦公文檔還原應(yīng)用等場(chǎng)景。
VIMER-UMS: 是行業(yè)首個(gè)統(tǒng)一視覺單模態(tài)與多源圖文模態(tài)表征的商品多模態(tài)預(yù)訓(xùn)練模型,可實(shí)現(xiàn)統(tǒng)一圖文表征預(yù)訓(xùn)練同時(shí)覆蓋商品視覺單模態(tài)、多模態(tài)識(shí)別與檢索任務(wù),可以顯著改善商品視覺檢索和商品多模態(tài)檢索體驗(yàn)。
2.2.3 百度文心一言大模型儲(chǔ)備齊全: 跨模態(tài)、生物計(jì)算
文心跨境大模型優(yōu)勢(shì)顯著: ERNIE-ViLG2.0是知識(shí)增強(qiáng)的 AI 作畫大模型,在公開權(quán)威評(píng)測(cè)集MS-COCO上取得了當(dāng)前該領(lǐng)域的領(lǐng)先效果,在語義可控性、圖像清晰度、中國(guó)文化理解等方面均展現(xiàn)出了顯著優(yōu)勢(shì);跨模態(tài)文檔智能大模型ERNIE-Layout,基于布局知識(shí)增強(qiáng)技術(shù),融合文本、圖像、布局等信息進(jìn)行聯(lián)合建模,在文檔抽取、布局理解等5類11項(xiàng)任務(wù)刷新業(yè)界SOTA;ERNIE-VIL是首個(gè)只是業(yè)界首個(gè)融合場(chǎng)景圖知識(shí)的多模態(tài)預(yù)訓(xùn)練模型。在視覺常識(shí)推理、跨模態(tài)圖像檢索、跨模態(tài)文本檢索等 典型多模態(tài)任務(wù)中刷新了世界記錄。
文心生物計(jì)算大模型在全球具有領(lǐng)先優(yōu)勢(shì): HelixFold-Single是秒級(jí)別的蛋白結(jié)構(gòu)預(yù)測(cè)大模型,從近3億的無標(biāo)注蛋白質(zhì)數(shù)據(jù)中隱式的學(xué)習(xí)MSA信息,在90% 的單體蛋白場(chǎng)景上預(yù)測(cè)效果持平AF2,在抗體結(jié)構(gòu)預(yù)測(cè)場(chǎng)景下,比AlphaFold2預(yù)測(cè)結(jié)果更優(yōu);HelixGEM-2為小分子藥物研發(fā)模型,在量子化學(xué)屬性預(yù)測(cè)和虛擬篩選雙場(chǎng)景上達(dá)到領(lǐng)先效果,其上個(gè)版本是業(yè)界首個(gè)基于幾何構(gòu)象增強(qiáng)的化合物表征模型,引入化合物的三維空間信息,在14個(gè)藥物屬性預(yù)測(cè)相關(guān)的benchmarks上效果達(dá)到業(yè)界最優(yōu);HelixFold模型可以端到端地學(xué)習(xí)蛋白質(zhì)結(jié)構(gòu),在國(guó)產(chǎn)DCU環(huán)境下訓(xùn)練千萬級(jí)別蛋白僅需到2.6天,在 GPU 上相同硬件環(huán)境配置下,訓(xùn)練性能和部分場(chǎng)景效果顯著優(yōu) AlphaFold2。
2.3.1 百度底層算力技術(shù)實(shí)力強(qiáng)勁: 百度智算中心
百度智算中心是數(shù)字經(jīng)濟(jì)的重要底座: 百度自身具有建設(shè)智能算力中心的實(shí)力,百度智算中心面向人工智能應(yīng)用場(chǎng)景,為政府和行業(yè)客戶提供普惠算力、算法模型和數(shù)據(jù)服務(wù)的人工智能基礎(chǔ)設(shè)施??擅鎸?duì)人工智能應(yīng)用場(chǎng)景,支持大規(guī)模部署的同時(shí),滿足高并發(fā)、高彈性、高精度等不同計(jì)算需求,可支撐城市大腦、產(chǎn)業(yè)金融、自動(dòng)駕駛等各個(gè)垂直化行業(yè)。
方案優(yōu)勢(shì)強(qiáng)大,具備多重領(lǐng)先優(yōu)勢(shì): 1、技術(shù)領(lǐng)先,現(xiàn)有千卡并行環(huán)境下實(shí)現(xiàn)加速比90%,可支持大規(guī)模模型訓(xùn)練場(chǎng)景;2、綠色低碳,數(shù)據(jù)中PUE可以低至1.08,左到低能耗、高性能運(yùn)行;3、自主可控,AI芯片、AI框架、開發(fā)平臺(tái)、大模型層面、可以做到全棧自研自主可控;4、開放生態(tài),飛槳已累計(jì)凝聚477萬開發(fā)者等。
目前已在江蘇鹽城、湖北宜昌等地落地,建設(shè)內(nèi)容包括智算中心、城市級(jí)視頻中臺(tái)、數(shù)據(jù)中臺(tái)系統(tǒng)、核心物聯(lián)網(wǎng)通信系統(tǒng)、大規(guī)模圖譜分析體系,以及超過270類不同人工智能算法模型。
資料來源:百度智能云官網(wǎng),華西證券研究所
2.3.2 百度底層算力技術(shù)實(shí)力強(qiáng)勁:百度百舸 · AI異構(gòu)計(jì)算平臺(tái)
百度AI異構(gòu)計(jì)算平臺(tái)技術(shù)積累濃厚:包含AI計(jì)算、AI存儲(chǔ)、AI加速、AI容器四大核心套件,具有高性能、高彈性、高速互聯(lián)、高性價(jià)比等特性,其中平臺(tái)已經(jīng)充分汲取了百度多年技術(shù)積累,具備深度融合推薦、無人駕駛、生命科學(xué)、NLP等場(chǎng)景的實(shí)踐經(jīng)驗(yàn),能為AI場(chǎng)景提供軟硬一體解決方案,加速AI工程化落地。
百度智能計(jì)算平臺(tái)具備多重優(yōu)勢(shì): 1、高效率,提供AI超級(jí)服務(wù)器、RDMA網(wǎng)絡(luò)、大吞吐低延時(shí)的并行文件系統(tǒng),可大幅提升訓(xùn)練速度和推理效率;2、高密度,支持GPU資源共享與隔離、架構(gòu)感知調(diào)度,提升異構(gòu)資源的容器化部署密度,提升資源利用率;3、良好易用性,支持PaddlePaddle、TensorFlow、Pytorch等多種主流深度學(xué)習(xí)框架;4、多場(chǎng)景部署,可根據(jù)業(yè)務(wù)需求在不同場(chǎng)景部署落地,公有云、IDC等場(chǎng)景;5、樂高式拼接,AI計(jì)算、AI存儲(chǔ)、AI容器三大核心產(chǎn)品均可各自獨(dú)立提供服務(wù)。
應(yīng)用場(chǎng)景廣泛: 可用于營(yíng)銷廣告、無人駕駛、生物科技、語音語義、計(jì)算機(jī)視覺等場(chǎng)景中的訓(xùn)練及推理。
2.3.3 百度底層算力技術(shù)實(shí)力強(qiáng)勁: 昆侖芯云服務(wù)器
百度昆侖云服務(wù)器服務(wù)器專為AI算力而生:昆侖芯云服務(wù)器是一種彈性按需、提供高性能通用AI算力的云服務(wù)器,應(yīng)用于AI推理和AI訓(xùn)練加速。昆侖芯云服務(wù)器是搭載昆侖芯的云服務(wù)器,支持K100和R200型號(hào)。其中昆侖芯為自主研發(fā)的 AI 通用處理器芯片。其中R200AI芯片采用7nm制成,廣泛應(yīng)用于計(jì)算機(jī)視覺、自然語言處理、大規(guī)模語音識(shí)別、大規(guī)模推薦等場(chǎng)景。
昆侖芯云服務(wù)器技術(shù)壁壘濃厚: 1、領(lǐng)先的AI計(jì)算能力,基于7nm制程,單卡算力達(dá)到128TFLOPS,支持推理和訓(xùn)練;2、生態(tài)兼容,支持主流深度學(xué)習(xí)開發(fā)框架,例如Tensorflow、Pytorch、PaddlePaddle等;3、具備硬件虛擬化能力,優(yōu)化了加速芯片的利用率,在保證延時(shí)和吞吐量的情況下支持推理和訓(xùn)練等混合工作負(fù)載;4、易開發(fā),支持多種開發(fā)組件工具,編譯引擎支持C和C++編程。
典型案例: 1、互聯(lián)網(wǎng)搜索,可支持搜索系統(tǒng)對(duì)高并發(fā)要求,提高NLP推理的效率;2、超算中心,實(shí)現(xiàn)人工智能算力大規(guī)模、高密度部署;3、工業(yè)質(zhì)檢,利用深度學(xué)習(xí)技術(shù)替代人工質(zhì)檢,大大節(jié)省了人力成本,提高整廠的智能化水平,幫助企業(yè)降低損耗,提升約10%的良品率;4、智慧城市,全方位支撐智慧政務(wù)、綜合治理等智慧城市核心板塊。
2.3.4 百度底層算力技術(shù)實(shí)力強(qiáng)勁: 昆侖芯AI芯片
百度自身AI芯片技術(shù)實(shí)力濃厚: 昆侖芯AI芯片是百度自主研發(fā)的芯片,昆侖芯科技前身是百度智能芯片及架構(gòu)部昆侖芯科技深耕AI加速領(lǐng)域已十余年,是一家在體系結(jié)構(gòu)、芯片實(shí)現(xiàn)、軟件系統(tǒng)和場(chǎng)景應(yīng)用均有積累的AI芯片企業(yè)。昆侖芯1代是百度自妍的第一一代昆侖芯片,2020年底實(shí)現(xiàn)量產(chǎn);昆侖芯2代也已于2021年8月量產(chǎn);根據(jù)百度集團(tuán)執(zhí)行副總裁沈抖透露,昆侖芯3代將于2024年初量產(chǎn)。
昆侖芯2代AI芯片可提供龐大算力支撐,具有性能優(yōu)勢(shì): 采用7nm架構(gòu),對(duì)比上一代,R200全面提升AI負(fù)載的運(yùn)行效率,巔峰算力可達(dá)256 TOPS@INT8,昆侖芯2代具備多重優(yōu)勢(shì),1、創(chuàng)新架構(gòu),通用和專用指令集融合,支持訓(xùn)練、推理、虛擬化;2、算力支撐強(qiáng)大,通用計(jì)算能力明顯增強(qiáng),可靈活支持AI算法的演進(jìn),3、高速互聯(lián),高性能分布式AI系統(tǒng),加速AI數(shù)據(jù)和模型并行中的數(shù)據(jù)交換。此外,昆侖芯在著名算法的功耗比已有顯著優(yōu)勢(shì)。
2.4 百度文心一言生態(tài)愈發(fā)繁榮
百度模型評(píng)估結(jié)果屬于第一梯隊(duì),彰顯其強(qiáng)大技術(shù)實(shí)力: 根據(jù)IDC的數(shù)據(jù)評(píng)估先實(shí),百度文心大模型在市場(chǎng)格局中處于第一梯隊(duì),產(chǎn)品能力、生態(tài)能力達(dá)到L4水平,應(yīng)用能力達(dá)到L3水平。產(chǎn)品能力呈現(xiàn)出較強(qiáng)技術(shù)實(shí)力和平臺(tái)積累, “文心大模型+深度學(xué)習(xí)平臺(tái)”創(chuàng)新了人工智能研發(fā)應(yīng)用范式達(dá)到行業(yè)前端水平;應(yīng)用能力方面,百度已在金融、能源、制造、城市、傳媒、互聯(lián)網(wǎng)等行業(yè)擁有實(shí)際落地的標(biāo)桿案例,截止目前文心已累計(jì)發(fā)布11個(gè)行業(yè)大模型;在生態(tài)能力方面,百度文心大模型在社區(qū)用戶的基礎(chǔ)上,可以實(shí)現(xiàn)與開發(fā)者、行業(yè)用戶、上下游產(chǎn)業(yè)的正向互動(dòng),在評(píng)估廠商中處于行業(yè)領(lǐng)先位置。
百度大模型賦能千行百業(yè),已有落地應(yīng)用:目前百度文心在能源、金融、航天、制造、傳媒、城市、社科以及影視等領(lǐng)域與國(guó)網(wǎng)、浦發(fā)、吉利、TCL、人民網(wǎng)、哈爾濱、上海辭書出版社等均有案例應(yīng)用的行業(yè)大模型。這些行業(yè)大模型作為重要AI底座,在各行業(yè)的技術(shù)效果突破、產(chǎn)品創(chuàng)新、生產(chǎn)流程變革、降本增效等維度產(chǎn)生價(jià)值。
2.4 百度文心一言生態(tài)愈發(fā)繁榮
百度文心一言場(chǎng)景愈發(fā)繁榮,目前已有諸多廠商開展合作,我們認(rèn)為其商業(yè)模式同樣為API接口收費(fèi),屬于SAAS商業(yè)模式,合作廠商分別覆蓋科技、金融、航天、影視、汽車、電子制造等諸多產(chǎn)業(yè)。
2.5 百度文心一言五大要素齊全,開啟全新篇章
我們認(rèn)為大模型成功必備的五要素,分別是數(shù)據(jù)、算力、平臺(tái)、模型和生態(tài),而百度作為國(guó)產(chǎn)ChatGPT的領(lǐng)頭羊,五大要素皆已配備。
海量數(shù)據(jù): 即訓(xùn)練大參數(shù)模型的“燃料”,根據(jù)IDC數(shù)據(jù),其擁有5500億條知識(shí),且已經(jīng)應(yīng)用于百度搜索、信息流、智能駕駛、百度地圖、小度等產(chǎn)品。
模型儲(chǔ)備:百度實(shí)現(xiàn)了全生態(tài)的布局,其中包括NLP、CV、跨境大模型、生物計(jì)算等領(lǐng)域。
NLP領(lǐng)域: ERNIE系列,是基于知識(shí)增強(qiáng)的千億模型,用于智能創(chuàng)作、摘要生成、問答、語義檢索、情感分析、信息抽取等能力。PLATO模型,是全球首個(gè)超百億參數(shù)規(guī)模的中英文對(duì)話訓(xùn)練模型,可以讓機(jī)器人像人一樣具有邏輯且自由對(duì)話的功能。
CV領(lǐng)域: VIMER-CAE,應(yīng)用于圖像分類、目標(biāo)檢測(cè)、語義分割等場(chǎng)景;VIMER-UFO,擁有170億參數(shù),覆蓋人臉、人體、車輛、商品、食物細(xì)粒度分類等 20+的視覺多任務(wù)模型;OCR -VIMER-StrucTexT廣泛應(yīng)用于文檔、卡證、票據(jù)等圖像文字識(shí)別和結(jié)構(gòu)化理解;VIMERUMS業(yè)內(nèi)首發(fā)多源圖文模態(tài)表征的商品多模態(tài)預(yù)訓(xùn)練模型;
跨境大模型:可實(shí)現(xiàn)AI作畫、場(chǎng)景融合視覺常識(shí)推理、跨模態(tài)圖像檢索、跨模態(tài)文本檢索等多場(chǎng)景。
生物計(jì)算: 應(yīng)用場(chǎng)景為蛋白結(jié)構(gòu)預(yù)測(cè)和小分子藥物研發(fā)等領(lǐng)域。
平臺(tái)方面: 擁有自主生態(tài)的百度百舸 · AI異構(gòu)計(jì)算平臺(tái),具備高效率、多密度、高易用性、多場(chǎng)景部署、樂高式拼接等能力。
算力底座:百度自身具有建設(shè)智能算力中心的實(shí)力,技術(shù)領(lǐng)先且自主可控,已有典型落地案例;服務(wù)器方面擁有自妍的昆侖芯云服務(wù)器,具有AI計(jì)算能力領(lǐng)先、生態(tài)兼容、兼具硬件虛擬化、易開發(fā)等能力;芯片方面,昆侖芯AI芯片是百度自主研發(fā)的芯片,2代芯片已量產(chǎn),具備算力支撐強(qiáng)、高速互聯(lián)等多重優(yōu)勢(shì)。
生態(tài): 百度大模型賦能千行百業(yè),已有落地應(yīng)用,合作廠商分別覆蓋科技、金融、航天、影視、汽車、電子制造等諸多產(chǎn)業(yè)。
--------------------------------------------------------------------------
聯(lián)系客服