中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
專訪高雪峰:從GPT3.5到4,超強推理能力的實現(xiàn)與“圖”密不可分 | Chat AI

2023年3月15日,GPT4亮相。盡管以GPT3.5為基礎(chǔ)的ChatGPT更具里程碑意義,畢竟引發(fā)了全球C端用戶的使用,但是在更多AI從業(yè)者看來,GPT4的意義遠高于3.5,這是因為,GPT4具備了令人驚艷的“邏輯推理”能力。

但為什么能夠?qū)崿F(xiàn)“推理”?以往熱衷分享技術(shù)細節(jié)的OpenAI,這次卻“諱莫如深”,這讓全球用從業(yè)者和用戶都在猜測其中技術(shù)原理。

高雪峰也是其中一員,他的想法是,“大圖”和“大模型”是支持AGI發(fā)展的兩條腿,二者缺一不可?,F(xiàn)在,業(yè)內(nèi)普遍認可大模型的價值,并因此出現(xiàn)了一眾大模型創(chuàng)業(yè)者,但是對于“大圖”在AGI發(fā)展過程中發(fā)揮的作用,卻并不清晰。

高雪峰告訴36氪,深度學習就是通過概率的方式來記憶和存儲泛化知識,也就是大家熟知的“向量”,大模型就是“計算概率”領(lǐng)域的杰出代表;與“概率”相對應的,“符號邏輯”是邏輯推理領(lǐng)域的代表實現(xiàn),圖論是邏輯推理最好的支撐。他從產(chǎn)品角度出發(fā),認為至少可以在prompts engineering的階段,結(jié)合“圖”來實現(xiàn)GPT4的“推理”目的。大模型可以很好的沉淀泛化知識,但是如何把泛化的知識進行關(guān)聯(lián)并為人所用,就需要符號邏輯系統(tǒng)的深度參與。

高雪峰,歷任IBM認知計算研究院院長,阿里大數(shù)據(jù)&AI產(chǎn)品部門總經(jīng)理,在大數(shù)據(jù)和AI應用領(lǐng)域擁有多年的產(chǎn)品研發(fā)和商業(yè)化經(jīng)驗積累,曾帶領(lǐng)團隊打造出多款具備國際影響力的大數(shù)據(jù)和AI 類相關(guān)產(chǎn)品。在AI行業(yè)的摸爬滾打,讓他洞察到了AI的趨勢,并在2021年決定出來做AI 基礎(chǔ)層的創(chuàng)業(yè)。

Fabarta成立于2021年,以“大圖”能力為核心。在創(chuàng)業(yè)初始,隨著美國公司Snowflake的上市且市值最高曾達1200億美元,國內(nèi)也引發(fā)了數(shù)據(jù)庫創(chuàng)業(yè)熱潮,但在那時,高雪峰就決定不做數(shù)倉,他認為那是BI的infra,他要做的是AI的infra。

一年半研發(fā)時間讓Fabarta等來了行業(yè)的變化,此刻,高雪峰認為最重要的就是團結(jié)所有力量,學界、大模型、應用方、基礎(chǔ)設施團隊,合作碰撞出“大圖”和“大模型”的結(jié)合點,做出真正具備推理能力的中國AI。

01 GPT4的超強推理能力,源于“圖”

36氪:你在2021年開始創(chuàng)業(yè)時,那時OpenAI的GPT3應該已經(jīng)出現(xiàn)了,當時行業(yè)里是怎么認知的?

高雪峰:那時開源的是GPT2。大家舉的例子就是:你看OpenAI做了幾年也就那樣,中國有啥大模型?

我在阿里時就負責大數(shù)據(jù)和AI的相關(guān)產(chǎn)品與解決方案,在大數(shù)據(jù)方面以離線和實時數(shù)倉,數(shù)據(jù)湖的產(chǎn)品為主,在IBM認知計算解決方案研究院里主要負責幫助企業(yè)智能化升級過程中需要的大數(shù)據(jù),數(shù)據(jù)分析和AI的相關(guān)技術(shù)。

2021年,Snowflake締造的神話,讓很多人意識到了數(shù)倉的價值,因此那時很多投資機構(gòu)跟我說:“雪峰你做數(shù)倉,數(shù)倉這個項目最火,估值也可以很高?!?/p>

但我不做。如果是在五六年前做數(shù)倉,我覺得可以做,因為數(shù)倉是面向BI的基礎(chǔ)設施。但時代已經(jīng)不同了,2021年,我想做的是AI核心基礎(chǔ)設施。

所以我就跟很多投資人說,未來AGI的核心基礎(chǔ)就是大模型和大圖體系結(jié)合在一起,只有這樣才能作為通用人工智能的支撐。當時大部分人認為大模型和大圖都不靠譜。

36氪:您提到的大圖和大模型是AGI的基礎(chǔ),怎么理解?

高雪峰:真正做到AI需要兩個名詞,一個叫向量,一個叫符號,分別對應著大模型和大圖。

向量就是概率,可以把大模型transformer理解成在向量領(lǐng)域計算概率,利用大量高維參數(shù)組成的向量,通過矩陣運算來計算概率。一長串字符之后是a,它會預測下一個字符可能是b,b之后可能是d,d之后可能是a,就是這種預測,最后用文本生成。不管是之前的 Bert,還是現(xiàn)在廣為流行的各種基于 Prompts 的多模態(tài)大模型,都不改變它做概率預測這件事。

但它沒有辦法做邏輯推理,GPT3.5也沒有辦法做邏輯推理。

比如我們問它:姚明出生的那一年NBA季后賽的亞軍教練是誰?這個看起來挺簡單的問題,放到GPT3里,它就回答得亂七八糟。教練是誰也不知道,年份也弄錯了。

GPT3能猜對時間年份,但很多中國的模型會把那道題放在2002年。

36氪:為什么是2002年?

高雪峰:姚明出生那年是1980年,2002年應該是姚明第一次獲得CBA冠軍的時間,網(wǎng)上它的信息會很多,概率不知道問的是生日還是什么東西。

為什么我不問冠軍?因為冠軍宣傳得多,亞軍宣傳得就少,問亞軍的話它可能就亂了。這完全就是概率,看網(wǎng)上或wiki上哪個信息或更多一些。

但GPT4的邏輯推理能力是很強的,它可以很清晰地把我剛才的問題拆解,并準確回答。目前看來只有GPT4能夠做到。

36氪:3.5和4中間究竟是什么技術(shù)的出現(xiàn)或者應用,導致了這種變化的發(fā)生呢?

高雪峰:拋開多模態(tài)的新能力,核心就是邏輯推理能力的提升。GPT4的推理能力變得非常強。就像剛才提到的,大模型就是計算概率,符號邏輯才能去輔助推理,圖論是它最好的支撐。這就是為什么我們要把大知識圖譜而不是傳統(tǒng)意義上小數(shù)據(jù)量圖譜的力量融合在一起,才能具備核心的推理能力。

GPT4里一定加了很多推理的能力,但是具體怎么融合的,OpenAI不公開,我們也不得而知。

你直接問ChatGPT “你知識圖譜的能力都用在了哪些部分?”,它就會回答“在預訓練、prompts的梳理都用到了圖技術(shù)”。你再問“你用了一些開源的圖的技術(shù)嗎?”就會被告知“都是自研的技術(shù)”。后面就不會回答了。

為什么我說 GPT 不同版本的技術(shù),推理能力的顯著提升,一定跟圖相關(guān)技術(shù)的結(jié)合是密不可分的,還是從一個例子出發(fā),用這個問題來去挑戰(zhàn)各個LLM:“姚明出生的那一年的NBA季后賽亞軍球隊的教練是誰?”

目前來看,除了 GPT4 以外,其他的大模型都無法給出正確的答案。 但是,如果我們將問題拆解,“姚明出生在哪年?” “1980年NBA季后賽的冠亞軍球隊分別是誰?” “1980年,費城76人隊的教練是誰?” ,有很多優(yōu)秀的 LLM 都可以給出對的答案。之所以出現(xiàn)這種落差,其本質(zhì)還是 GPT4 在純概率的模型之上進行偏向符號的邏輯推理,那一定會產(chǎn)生讓人意想不到的結(jié)果。

先不說GPT4可以在很多專業(yè)的領(lǐng)域知識,比如很多經(jīng)典的科學定律,規(guī)則等進行現(xiàn)象和邏輯的推理,至少從上面我們提到的很簡單的例子里,在輸入Token里關(guān)鍵實體與其邏輯關(guān)系的解析和提取上,我推測一定采用了一些與圖有關(guān)的技術(shù)來進行處理。 所以我們說代表符號和連接主義的工程實現(xiàn),與代表概率和向量領(lǐng)域的工程實現(xiàn)融合在一起,才能體現(xiàn)出令人越來越驚訝的智能。

圖的技術(shù)與 Transformer 的技術(shù)有很多可以結(jié)合的點: 1. Transformer的訓練架構(gòu)接收圖結(jié)構(gòu)的數(shù)據(jù),使得模型更好的理解輸入數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。 2. 用圖結(jié)構(gòu)的數(shù)據(jù)來訓練Transformer模型。 3. 圖結(jié)構(gòu)的知識蒸餾,以應對細分領(lǐng)域的專家知識。 4. 損失函數(shù)的處理上結(jié)合圖數(shù)據(jù)形式的重新定義。

就像我們?nèi)四X有個很典型的特點,比如去年的某一天,我在一個公園里遇到了一個多年未見的老友,相談甚歡。 那這個人的模糊印象(向量特征),與當時公園的環(huán)境,天氣,體感(向量特征),以及我們在做什么事情 (連接關(guān)系) 都會記憶在人腦之中。 當我在到這個公園,熟悉的環(huán)境,我就可能通過發(fā)生過的這個鏈接關(guān)系,想起這個老友的樣子。 構(gòu)建這樣一個能夠把實體,以及其連接關(guān)系,還有對應的向量特征融合在一起的多模存儲與計算的大規(guī)模引擎,就是未來我們想要做的事情。

36氪:所以GPT3.5到4,在向量這個層面困難沒有更多本質(zhì)的變化了對嗎?

高雪峰:它可能參數(shù)更多,數(shù)據(jù)量也會更大。

36氪:質(zhì)的飛躍,原因集中在符號這個層面?

高雪峰:對,沒錯。GPT具備推理上的能力,才是最恐怖的。比如根據(jù)物理學的原理或公式,我告訴它一個現(xiàn)象,它就會告訴我有什么結(jié)果發(fā)生,幫你做出推理。

畢竟,GPT3.5出來的時候,我們都沒有感覺這種東西將馬上顛覆世界,我覺得就是大力出奇跡,量變會帶來質(zhì)變的必然過程。包括New Bing出來后,其實都是圍繞GPT在產(chǎn)品上做創(chuàng)新和變革,比如New Bing能把實時搜索出來的信息summarize并很好地組織起來,然后編輯適當?shù)膒rompts調(diào)用大模型的API,得到結(jié)果后把結(jié)果組織起來反饋給產(chǎn)品上的客戶。這其實就是產(chǎn)品的融合,并沒有讓我們太驚艷。

36氪:所以我們需要追趕的,不僅是大模型一件事。

高雪峰:我們很多本土的開源大模型還停留在拿大量的數(shù)據(jù)、prompts以及transformer的性能上。但真正要實現(xiàn)一定是向量加符號的融合,這也是學術(shù)上大家都認可的方向。

向量就是概率,概率就是不可解釋,符號的圖論就是可解釋,兩者融合在一起才能走向真正的智能。GPT有思維邏輯,概率會補充思維邏輯,思維邏輯這張大圖又會驗證概率,修正概率預測的參數(shù)模型,就可以實時且相輔相成地學習新東西。這就是我們未來通用人工智能所需要的智能。

這也是我們創(chuàng)業(yè)選擇圖賽道和方向的原因,因為大圖和大模型是通用人工智能的兩條腿。

我們等來了大模型的爆發(fā),但目前找不出真正具備分布式計算能力的大圖系統(tǒng),也沒有開源,所以我們只能一步步去做。這需要時間的沉淀,不是一兩年就能做出舉世聞名的大圖系統(tǒng)。真正能承載符號推理的大圖系統(tǒng),一定能幫助未來通用AI實現(xiàn)非常強大的推理能力。

36氪:GPT4,或者說在AGI的基礎(chǔ)設施中,其“圖能力”是怎么發(fā)揮作用的,是類似于引擎嗎?

高雪峰:你可以把它理解成一個圖的引擎,能夠存儲圖結(jié)構(gòu)的數(shù)據(jù),并在圖結(jié)構(gòu)數(shù)據(jù)上做高速的檢索。像搜索引擎Google、百度背后都有龐大的圖的能力做搜索的支撐,但并不能直接拿出來作為通用產(chǎn)品給別的應用使用。

GPT4如果有圖的系統(tǒng),一定深入融合在預訓練各方面的過程里,不是可剝離可抽離的東西。我們未來想做的是開源開放且具備分布式存儲和分布式計算性能的大圖引擎,我們也會跟國內(nèi)外開源的LLM或多模態(tài)模型進行深度的合作,來確定怎么利用大圖的能力去支撐預訓練、prompt engineering或者是重新定義loss function這樣一些收斂能力進行深度結(jié)合。這一定是需要嘗試糾偏,再去調(diào)整的的過程。

36氪:那從您的角度,現(xiàn)在大圖該怎么樣做,才能助力中國的AGI發(fā)展?

高雪峰:這里面有很多核心的技術(shù),目前尚不可知。這需要學術(shù)上研究它們的理論結(jié)合點,從工程上我們跟大模型的公司合作完成這件事。

我們也會開源,也要把大圖的分布式計算效率解決。圖上的分布式計算很少有人做,但數(shù)倉這種二維關(guān)系的分布式計算很多人做,其中的原因是圖的分布式是一個NP問題,也就是在數(shù)學上無解的問題。不管怎么去拆分你的大圖,分成什么樣邏輯的partition,分布式的通信都不能達到最優(yōu)的效率。因為圖最擅長的應用就是多跳,大規(guī)模多跳的情況下,如果出發(fā)點是1000個點配上全連通的圖,1000個點5跳6跳的路徑會把所有的點全部遍歷一遍,數(shù)據(jù)量非常大,這就很難拆分,下一步不可預測。不管怎么拆都涉及到不同的分布式計算節(jié)點之間頻繁的網(wǎng)絡通信,這個就是所謂圖的 Np問題。

我們現(xiàn)在在工程實現(xiàn)上做了很多優(yōu)化,比如利用原圖內(nèi)存當中的多級緩存,就可以很容易預判多跳應該訪問哪些計算節(jié)點,避免產(chǎn)生頻繁的網(wǎng)絡通信和風暴,這就是我們做的工程上的優(yōu)化。

我們預計會在下半年開源核心引擎,到時應該是世界上唯一一個真正做圖的分布式計算來支撐大圖的開源系統(tǒng)?,F(xiàn)階段大部分圖的相應應用,還都是以mpp架構(gòu)為基礎(chǔ),不能做到云原生的大圖存算分離以及分布式計算這種典型架構(gòu)。

02 要做加油站旁邊的便利店,而不是再做一個加油站

36氪:你剛才提到和大模型的結(jié)合,咱們現(xiàn)在進展到什么程度了?

高雪峰:我們自己內(nèi)部也做了一些Hackathon的創(chuàng)新嘗試。在輸入prompts的階段把圖的能力引入進來,其實還是做prompts engineering,我覺得這種方法能迅速地讓沒有推理能力的大模型產(chǎn)生推理能力。我認為還是偏產(chǎn)品層面的組合,有點像New Bing的實現(xiàn)方式,或是微軟office 365的Copilot。Copilot里也推出了新的產(chǎn)品,你聽說過微軟推出圖的產(chǎn)品嗎?但它推了一個Microsoft Graph,把不同文檔或微軟的組件和工具用圖的方式組織起來,不同的文檔之間才能互通,它也是利用產(chǎn)品的方式,再去調(diào)用大模型API產(chǎn)生協(xié)同價值。

我覺得這一點是可以做的,但也需要我們圖和產(chǎn)品的能力,更重要的是在預訓練過程中將向量、邏輯符號和圖的邏輯推理能力融合在一起。這一點需要不斷的工程實踐,才知道如何融合。

這個問題扔到業(yè)界隨便問一個人,研究過這個的都會覺得有結(jié)合的點在,但結(jié)合的點在哪需要大家一起來試。

36氪:現(xiàn)在大家都還在探索的階段?

高雪峰:肯定要探索。我們和一些知名院校在圖計算領(lǐng)域做學術(shù)共研,真正的階段性的學術(shù)成果可以發(fā)非常多頂刊論文。

共同探索也是我們選擇開源的最主要原因。既然我的引擎是唯一的具備分布式計算能力架構(gòu)的引擎,我悶聲去跟云廠商合作賺錢就好,為什么要開源呢?就為了最終的目的,開源以后,大家可以拿來碰撞去試,甚至debate這樣的架構(gòu)里哪些性能對預期模型支持時有本質(zhì)的差別,我們才知道大家怎么用;如果是封閉的東西,就很難形成合力。選擇開源不是因為要通過開源做商業(yè)化的轉(zhuǎn)化,而是為了真正想要實現(xiàn)的目的。

36氪:你剛才提到,在2021年已經(jīng)看到AI的趨勢了,為什么沒有選擇做大模型?

高雪峰:我當時認為,一定要做AI的基礎(chǔ)設施。雖然很多科學家在做深度學習,但要讓我找上百人的話,這在中國比較難,但要做成大模型,我覺得沒有上百人是實現(xiàn)不了的。

而且訓練大模型的資源成本很高,對于創(chuàng)業(yè)團隊來說,這都是很難逾越的障礙。最重要的就是用于訓練的資源,現(xiàn)在我們整個兒的 A100 卡的資源都非常的緊張,很多的領(lǐng)域都需要 GPU卡的集群, 除了大家都在談論的AI大模型的訓練和推理外,自動駕駛,金融的量化分析等等都需要 GPU 的資源。而現(xiàn)在云廠商也都在自己集中力量做屬于中國的大模型,還有越來越多的創(chuàng)業(yè)公司加入到這個隊伍中來。云廠商開放的 GPU 的服務通常都是公共的分時服務,也很難在一段時間之內(nèi)集中大量地給到哪些企業(yè)進行大模型的訓練。

這就會出現(xiàn)用于訓練和推理資源擠兌的問題。所以大廠在做大模型的這件事情上還是有先天的資源上的優(yōu)勢的。

36氪:創(chuàng)業(yè)公司做大模型,還是需要源源不斷資金來源的。

高雪峰:我覺得,踏踏實實地做客戶做業(yè)務,與客戶、社區(qū)一起成長,這是做To B該有的心態(tài)。

如果我去做大模型,可能瞬間就會燒掉我所有的錢,然后還沒有明顯的商業(yè)化結(jié)果,別人不會為你買單。

OpenAI經(jīng)歷那么多年,燒了那么多錢,是因為它被定義成非盈利組織;直到微軟投進來,才決定改變自己的營利性原則。有了投資盈利100倍的盈利目標然后再去做非盈利的事情。

可成立一個公司還是需要奔著商業(yè)化的方向去做,所以國外目前跑出來的寥寥,真正出圈的就是一家做大模型的OpenAI。

36氪:現(xiàn)在大模型創(chuàng)業(yè)熱潮已經(jīng)來了,所有公司都想要成為中國版OpenAI。

高雪峰:大模型現(xiàn)在不是一種容易復制的東西,OpenAI也經(jīng)歷了很多波折。

早期的 Open AI 在prompts和design之類的枯燥工作上也下了很多的功夫,而Transformer的技術(shù)很早就有了,像之前的 Bert等也都是基于transformer來做的,所以業(yè)界在算法上也都在走這個路線。

所以并不是說大模型是一種容易復制的東西,我不認為有幾億人民幣就能搞定這件事情。訓練一次千億級別參數(shù)的模型,像GPT3.5或GPT4這種,各種成本疊加起來,肯定需要上億美金,這是不可能改變的。

現(xiàn)在也有一些公司專門做框架的優(yōu)化和分布式訓練的優(yōu)化,想辦法讓大模型參數(shù)很多時,所需的資源變得越來越少。但優(yōu)化不了多少,它沒有辦法改變量級。所以LLM的技術(shù)或者模型的發(fā)展,在給自己帶來商業(yè)價值與營收之前,先是給像英偉達這種 GPU 的廠商帶來特別多的營收利潤和發(fā)展前景。

還有一件確定的事是,耗電量的提升和導致全球變暖。

36氪:前兩天我還看到新聞,說GPT目前每天的用電量抵美國的一個小鎮(zhèn)。

高雪峰:是的。所以做大模型,是非常有挑戰(zhàn)的事情,不管是從算法,優(yōu)化,數(shù)據(jù)的整合,以及算力資源的調(diào)配,當然還有持續(xù)的資金的支持,都非常具有挑戰(zhàn)。

36氪:現(xiàn)在還有一個爭議,就是大模型走開源還是閉源的路線。

高雪峰:我跟一些圈里技術(shù)人的交流中關(guān)注到這個爭議,我個人覺得閉源的大模型這件事是有一定局限的,也都相信肯定會快速地涌現(xiàn)出各種開源領(lǐng)域的 LLM 或者多模態(tài)的通用大模型,甚至是在不同的專業(yè)領(lǐng)域的專有大模型。

為什么閉源有局限性?一是相對更耗錢。二是閉源就是封閉的生態(tài),這樣就很難產(chǎn)生有階段性的商業(yè)價值、好的未來商業(yè)潛力。

我認為,在AI這個領(lǐng)域里,真正的分布式工程化能力非常重要。好的工程化AI平臺,和承載很多優(yōu)秀的開源大模型的公共平臺,我覺得都有價值的。

比如美國的Hugging Face,我覺得它的潛力應該是更大的。隨著模型生態(tài)越來越多,需要有社區(qū)把不同的模型和其潛在用戶、訓練者、優(yōu)化者這些不同角色的人鏈接起來。這個能量可以比喻成當時的品牌經(jīng)濟,像阿里巴巴的天貓,它就是把商品和消費者在平臺上鏈接起來。阿里做了ModelScope,也想實現(xiàn)像Hugging Face的初衷與目的。Hugging Face目前的營收雖不多,但它如果真的想盈利,瞬間就會做成很大的營收。你可以看一下上面各種模型的下載量,它們投入了很多扎實的功力,幫助優(yōu)化模型讓它可用。

所以,在這樣大的細分領(lǐng)域里,一定有很多機會可以去做,并不是所有人都得去做大模型。在中國就是好多人沖進來做大模型,而且融了很多錢。在美國出現(xiàn)一個加油站,特別掙錢,所以加油站附近就又出現(xiàn)了快餐店和小旅館等,慢慢地加油站旁邊就形成了一個小鎮(zhèn);反過來在中國很典型的場景是,一個加油站非常掙錢,周圍就會出現(xiàn)十幾家加油站,把這塊地給掏空。

GPT出來后,美國涌現(xiàn)出很多AI通用的工程化平臺和各種各樣細分領(lǐng)域大模型。雖然不是像OpenAI那樣通用的大模型,但是在細分領(lǐng)域里效果是非常好的。參數(shù)可以不用那么大,達到百億或者近千億的規(guī)模,但它可以通過優(yōu)化的方式。因為它是特定領(lǐng)域,不是完全通用的,數(shù)據(jù)來源也會容易一些,不用像OpenAI找那么多的公開數(shù)據(jù)以及書籍,對數(shù)據(jù)的質(zhì)量還有極高的要求。

而開源能夠加速生態(tài)發(fā)展。

36氪:現(xiàn)在國內(nèi)做大模型的創(chuàng)業(yè)公司、大廠很多,會不會出現(xiàn)資源分散的問題?

高雪峰:目前來看,對中國來說算力是最難突破的,科學家的儲備也不足。但是相對于算力來說,數(shù)據(jù)這個領(lǐng)域,中國應該會越來越有優(yōu)勢,中國現(xiàn)在數(shù)據(jù)量占世界的9.9%,四年之后可能會占到世界的20%,如果能用來進行多模態(tài)大模型訓練肯定對中國大模型發(fā)展十分有好處。

并且今年大數(shù)據(jù)局的成立,在我們行業(yè)從業(yè)者看來是一個非常利好的消息。

03 AI時代,要有自己的Infra

36氪:圖引擎和圖數(shù)據(jù)庫的關(guān)系究竟是什么樣的?

高雪峰:我們把fabarta的產(chǎn)品定義成圖分布式的交互式查詢和圖計算融合的引擎,沒有把它定義成圖數(shù)據(jù)庫。為了迎合大家的理解,我會把它比喻成大圖TP與AP融合的分布式數(shù)據(jù)庫能力,但其實定義成“集圖數(shù)據(jù)的存儲,交互式查詢與圖計算算法融合的引擎“更合適。

數(shù)據(jù)庫是非常泛的概念,當前很多圖數(shù)據(jù)庫也能解決當下的問題,但需要圖分析平臺這類低代碼化產(chǎn)品,客戶才能很好地使用,否則也會面臨很多問題。但它沒辦法直接演變到我想要的星辰大海。關(guān)系型數(shù)據(jù)庫、數(shù)倉都是由各種引擎組成的,比如存儲引擎、計算引擎、分析引擎。數(shù)據(jù)庫更像是一個大的概念,處理關(guān)系型數(shù)據(jù)的各種引擎協(xié)同在一起,可以稱為數(shù)據(jù)庫,處理非關(guān)系型,比如圖的數(shù)據(jù)的各種引擎聚合在一起,也可以叫做數(shù)據(jù)庫。

數(shù)據(jù)庫只是一個名詞?,F(xiàn)在泛數(shù)據(jù)庫更像基礎(chǔ)設施的代名詞,對于各種數(shù)據(jù)存儲計算和處理就叫數(shù)據(jù)庫。no SQL數(shù)據(jù)庫、時序數(shù)據(jù)庫與多模數(shù)據(jù)庫都是存儲各類不同種類數(shù)據(jù)的數(shù)據(jù)庫。

原來的圖計算與圖數(shù)據(jù)庫是完全割裂的,圖計算是學術(shù)上做的各種各樣算法,可解釋的AI,然后是分布式的計算框架,跟數(shù)據(jù)庫沒有關(guān)系。圖數(shù)據(jù)庫是在數(shù)據(jù)之上做數(shù)據(jù)存儲、數(shù)據(jù)多跳查詢,也是SQL解析之類的工作。這就是圖數(shù)據(jù)庫與圖計算很割裂的表現(xiàn)。

我覺得引擎也好、數(shù)據(jù)庫也好,都只是個概念,AI的infra structure需要大圖引擎與大模型協(xié)同在一起才能去工作。

而infra這個概念,其實大家也不一定已有共識。傳統(tǒng)的infra概念來自于云廠商體系;而目前, AI沒有形成水電煤氣這樣通用的能力,那就不需要具備自己的“infra”。

但是未來, AI將來能成為真正的水電煤氣,這是我堅信的。大模型出來后,大家才開始談AI的infra。有人會把AI的infra等價為大模型,我不認可,這并不是通用人工智能未來的基礎(chǔ)。

所以我一直說大圖大模型的深度融合就是未來 AGI 的 Infra。

36氪:有人認為,AI快速增長會擠占一定的云計算市場,您是怎么看待的。

高雪峰:如果AI下面的技術(shù),比如大圖、大模型變成真正的infra,它一定需要云原生。因為它需要彈性擴張,所以一定要放在云上,那怎么擠占云的資源呢?大模型推理起來,需要GPU,一定會讓云市場變得更大。

也要看你如何定義市場,如果是傳統(tǒng)面向ERP workflow或面向BI 統(tǒng)計分析指標分析傳統(tǒng)數(shù)倉,或者像游戲這類TP,我認為這部分市場才是既有云的市場,這樣的話一定會擠占。

36氪:你們?nèi)绾我贿厔?chuàng)新,一邊喂飽自己?

高雪峰:Fabarta 構(gòu)建在多云之上的云原生分布式圖數(shù)據(jù)庫引擎可以將企業(yè)不同數(shù)據(jù)源的數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系用圖的方式進行存儲和分析,基于Fabarta 圖分析平臺的低代碼化能力結(jié)合在行業(yè)中的圖分析算法與框架的沉淀,可以更好的幫助企業(yè)級客戶構(gòu)建基于圖的場景化分析 (風控,營銷,智能化運維,行業(yè)知識圖譜等)。

36氪:也就是說,你們現(xiàn)在業(yè)務其實分為兩部分,一部分是給客戶使用的圖引擎+低代碼產(chǎn)品,另一部分是與LLM結(jié)合的大圖產(chǎn)品?

高雪峰:你可以理解成三部分:

一個是最上層,圖與細分場景的深度融合,比如Data Fabric,下一代的數(shù)據(jù)平臺,這個市場是無限大的,因為大家已經(jīng)不可能做數(shù)據(jù)的大集中。而且湖倉一體的發(fā)展會導致越來越多數(shù)據(jù)割裂在不同的地方,而且沒法治理。我先做基于圖數(shù)據(jù)組織的數(shù)據(jù)資產(chǎn)地圖,慢慢把它做成下一代的Data Fabric,解決分散的,異構(gòu)數(shù)據(jù)之間的協(xié)同計算問題,這是一個星辰大海的市場。

中間是Intelligent workflow。當前大模型的能力出來后,企業(yè)既有的工作流就智能了嗎?并不是的,將AI的能力,融入企業(yè)的工作流,還是有非常多的挑戰(zhàn),所以低代碼平臺要先一步步把這件事做出來。我們先通過將對圖數(shù)據(jù)的各種模式查詢和算法分析的能力抽象沉淀在平臺上,在通過低代碼,進而無代碼的方式對業(yè)務組件進行編排并產(chǎn)生業(yè)務價值,最后通過 App 的 Builder 直接生成可以為用戶帶來價值的應用組件,先通過可解釋AI賦能企業(yè)工作流的智能化改造,進而融入其他AI的能力,打造企業(yè)的 Intelligent Workflow。

最后的引擎就是通用人工智能未來核心的基礎(chǔ)設施之一。這就是我們?yōu)橹Φ姆较颉?/p>

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
中科院 AI 團隊最新研究發(fā)現(xiàn),大模型可通過自我驗證提高推理性能
All in AI,你退休前的最后一站 | 42章經(jīng)
一位AI Agent創(chuàng)業(yè)者,看完 OpenAI DevDay 的感想
地表最強的GPT-3,是在推理,還是胡言亂語?
GPT-4和ChatGPT大比拼,究竟誰勝?
ChatGPT以及LLM(大語言模型)的思考 | 一起用AI
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服