核心觀點
GPT4有望于2023年發(fā)布。根據(jù)《財富》雜志報道,OpenAI還有更多創(chuàng)新蓄勢待發(fā),OpenAI在貝塔測試版GPT-4中采用了更強大的大語言模型,預(yù)計該版本將于今年甚至很快發(fā)布。關(guān)于GPT4的猜測眾說紛紜,塵囂甚上,且公開信息較為有限,我們在此總結(jié)各路信息、展望未來,供各位投資者參考:
相較前代,GPT4可能不會有參數(shù)量上的巨幅提升,而是在其他方向?qū)で筇岣摺?/strong>在2023年1月18日的一場公開采訪中,當(dāng)OpenAI的CEO Sam Altman被問及一張在推特上被瘋轉(zhuǎn)的圖表時(該圖表稱GPT-3擁有1750億參數(shù),而GPT-4可能擁有100萬億參數(shù)),Altman稱其 '完全是胡說'。這證明了即將到來的GPT4可能不會往一味巨幅擴大參數(shù)量的方向去走,而可能向其他方向?qū)で筇嵘?/p> GPT4有可能是一個多模態(tài)模型,可用于圖像等領(lǐng)域。根據(jù)The Seattle Times新聞報道,GPT4可能是一個很像ChatGPT的系統(tǒng),只生成文本;或者它也可以把圖像和文字結(jié)合起來。一些風(fēng)投機構(gòu)和微軟員工已經(jīng)看到了它的運行情況,但是OpenAI還沒有確定新系統(tǒng)是否會發(fā)布涉及圖像的功能。此外,根據(jù)財富雜志報道,OpenAI也確實在開發(fā)一款通過文字能生成視頻的AI模型。 若GPT4轉(zhuǎn)向多模態(tài),未來輸入輸出可能出現(xiàn)圖像、視頻等形態(tài),有望打開下游千行百業(yè)應(yīng)用空間。NLP只是大模型的應(yīng)用領(lǐng)域之一,未來大模型的輸入輸出可以不僅限于文字,雖然當(dāng)前影響力最強的ChatGPT是NLP模型,還可以包括圖像、視頻等多種形式,成為多模態(tài)模型,例如OpenAI的繪畫AI模型DALL-E2,在AIGC界引起過巨大反響的Stable Diffusion等等。 傳統(tǒng)的CNN演繹下視覺應(yīng)用解決問題都是單點模式,CHATGPT多模態(tài)有望帶來通用模式。傳統(tǒng)CNN模式下,視覺AI公司傾向于采用單點方式,在各個碎片場景中做客制化落地,定制化程度相對較高;若轉(zhuǎn)向大模型模式,GPT4的多模態(tài)能力有望帶來通用化的模式,顯著提升AI模型生產(chǎn)效率。例如,商湯科技的SenseCore AI大裝置中,模型層的模型工廠可以大幅降低人工智能生產(chǎn)要素的成本,提高人工智能的生產(chǎn)效率,實現(xiàn)人工智能以自動化、自適應(yīng)的方式進行生產(chǎn)和落地,模型工廠已開發(fā)超過 49000 個商用人工智能模型。我們認為,若GPT4轉(zhuǎn)向多模態(tài),圖像、視頻等應(yīng)用將層出不窮涌現(xiàn)。其使用場景將遠遠不僅限于文字、問答與辦公,打開有望未來AI在下游千行百業(yè)的應(yīng)用空間,進一步打開市場想象力。 投資建議。建議關(guān)注:1)視頻場景:當(dāng)虹科技、數(shù)碼視訊;2)視覺場景:??低?、大華股份、云從科技、商湯科技。 風(fēng)險提示:AI技術(shù)迭代不及預(yù)期風(fēng)險;經(jīng)濟下行超預(yù)期風(fēng)險;行業(yè)競爭加劇風(fēng)險。 報告正文 01 GPT4展望:發(fā)力未必在規(guī)模,有望轉(zhuǎn)向多模態(tài) GPT4有望于2023年發(fā)布。根據(jù)《財富》雜志報道,OpenAI還有更多創(chuàng)新蓄勢待發(fā),OpenAI在貝塔測試版GPT-4中采用了更強大的大語言模型,預(yù)計該版本將于今年甚至很快發(fā)布。關(guān)于GPT4的猜測眾說紛紜,塵囂甚上,且公開信息較為有限,我們在此總結(jié)各路信息、展望未來,供各位投資者參考: l 相較前代,GPT4可能不會有參數(shù)量上的巨幅提升,而是在其他方向?qū)で筇岣摺?/strong>在2023年1月18日的一場公開采訪中,當(dāng)OpenAI的CEO Sam Altman被問及一張在推特上被瘋轉(zhuǎn)的圖表時(該圖表稱GPT-3擁有1750億參數(shù),而GPT-4可能擁有100萬億參數(shù)),Altman稱其 '完全是胡說'。這證明了即將到來的GPT4可能不會往一味巨幅擴大參數(shù)量的方向去走,而可能向其他方向?qū)で筇嵘?/p> l GPT4有可能是一個多模態(tài)模型,可用于圖像等領(lǐng)域。根據(jù)The Seattle Times新聞報道,GPT4可能是一個很像ChatGPT的系統(tǒng),只生成文本;或者它也可以把圖像和文字結(jié)合起來。一些風(fēng)投機構(gòu)和微軟員工已經(jīng)看到了它的運行情況,但是OpenAI還沒有確定新系統(tǒng)是否會發(fā)布涉及圖像的功能。此外,根據(jù)財富雜志報道,OpenAI也確實在開發(fā)一款通過文字能生成視頻的AI模型。 實際上,NLP只是大模型的應(yīng)用領(lǐng)域之一,圖像、視頻等領(lǐng)域也可使用Transformer大模型這一技術(shù)路徑。Transformer雖然最早提出之時,用于NLP領(lǐng)域,但隨著這一技術(shù)路徑不斷普及流行,圖像、視頻、音樂等領(lǐng)域也開始使用Transformer的技術(shù)路線,探索各類跨類別任務(wù)(比如根據(jù)文字指令輸出圖像等) 未來大模型的輸入輸出可以不僅限于文字,還可以包括圖像、視頻等多種形式,成為多模態(tài)模型。雖然當(dāng)前影響力最強的ChatGPT是NLP模型,但大模型的能力遠遠不僅限于文字。輸入文字生成圖像、輸入文字生成音樂、輸入圖像生成圖像……此類功能現(xiàn)在已經(jīng)可以通過AI大模型一定程度上實現(xiàn),這類模型被稱為多模態(tài)模型,實際上OpenAI的繪畫AI模型DALL-E2就是目前最知名的多模態(tài)模型之一。除此之外,其他知名多模態(tài)模型還包括在AIGC界引起過巨大反響的Stable Diffusion,以及谷歌推出的音樂生成AI模型MusicLM等。 1)DALL-E 2:OpenAI推出的AI繪畫模型,在前代DALL-E的基礎(chǔ)之上有了很大提升,可以直接根據(jù)文字生成圖像,也可以輸入圖像后、子現(xiàn)成圖像上根據(jù)文字指令進行部分修改,功能強大。 2)Stable diffusion:由stability.ai公司在去年開源的AI繪畫模型,可以通過輸入文字生成對應(yīng)圖像。由于效果極佳,模型一經(jīng)開源即在AIGC界引起極大反響。 多模態(tài)模型訓(xùn)練數(shù)據(jù)為圖像、視頻等,規(guī)模遠大于語言類模型,算力需求有望激增。由于多模態(tài)模型使用圖像、視頻等多媒體數(shù)據(jù)進行訓(xùn)練,而此類文件大小遠超文字。1)以Stable diffusion為例,根據(jù)公司官網(wǎng)信息披露,該模型訓(xùn)練數(shù)據(jù)集為LAION 5B的一個子數(shù)據(jù)集,而LAION 5B的數(shù)據(jù)包至少80TB,規(guī)模已經(jīng)遠超傳統(tǒng)語言類大模型訓(xùn)練時使用的數(shù)據(jù)量(一般是GB級的)。該模型使用4000塊英偉達A100訓(xùn)練了一個月,算力需求龐大,若按AWS官網(wǎng)上租用價格(32.77美元/小時/8 GPU)計算,則該模型訓(xùn)練成本可高達4000/8*32.77*24*30=1179.72萬美元。2)無獨有偶,DALL-E2模型在訓(xùn)練時使用了6.5億張圖片,按單張圖片大小512*512像素(約256kb)估算,整體訓(xùn)練數(shù)據(jù)集大小高達約155TB。由此可見,多模態(tài)大模型的訓(xùn)練對算力芯片數(shù)量需求遠勝語言類模型,算力需求有望激增。 傳統(tǒng)的CNN演繹下,下游場景碎片化導(dǎo)致視覺應(yīng)用解決問題傾向于單點模式。傳統(tǒng)CNN模式下,視覺AI公司傾向于采用單點方式,在各個細分場景中做客制化落地,定制化程度相對較高。曠視科技聯(lián)合創(chuàng)始人、CTO唐文斌在2022年9月的人工智能與產(chǎn)業(yè)融合論壇上談道,現(xiàn)階段的AI,一個核心挑戰(zhàn)在于應(yīng)用場景碎片化導(dǎo)致算法多樣化。比如森林大火,識別有沒有煙需要一種算法;倉庫物流場景里,收貨紙箱有沒有破需要一種算法。算法多樣化,一方面意味著需要規(guī)模化生產(chǎn)大量算法,另一方面需要考慮如何低成本生產(chǎn)每個算法。 CHATGPT多模態(tài)有望帶來通用模式,顯著提升模型生產(chǎn)效率與下游落地效率。例如,商湯科技的SenseCore AI大裝置,它由模型層、深度學(xué)習(xí)平臺、計算基礎(chǔ)設(shè)施三個部分架構(gòu)而成。其中,模型層的模型工廠可以大幅降低人工智能生產(chǎn)要素的成本,提高人工智能的生產(chǎn)效率,實現(xiàn)人工智能以自動化、自適應(yīng)的方式進行生產(chǎn)和落地,模型工廠已開發(fā)超過 49000 個商用人工智能模型。 我們認為,若GPT4轉(zhuǎn)向多模態(tài),將大幅提升AI視覺方向生產(chǎn)效率,圖像、視頻等應(yīng)用將層出不窮涌現(xiàn)。其使用場景將遠遠不僅限于文字、問答與辦公,打開有望未來AI在下游千行百業(yè)的應(yīng)用空間,進一步打開市場想象力。 02 建議關(guān)注: 1)視頻場景:當(dāng)虹科技、網(wǎng)達軟件; 2)視覺場景:海康威視、大華股份。 $當(dāng)虹科技(SH688039)$$網(wǎng)達軟件(SH603189)$$海康威視(SZ002415)$
投資建議
聯(lián)系客服