這一輪 AI 浪潮基本已經(jīng)走完了技術(shù)革命的“上半場(chǎng)”,正式進(jìn)入拼落地、拼應(yīng)用的“下半場(chǎng)”。
很多人可能對(duì)“下半場(chǎng)”這一論斷感到困惑。ChatGPT 剛剛實(shí)現(xiàn)了對(duì)話(huà)機(jī)器人的史詩(shī)級(jí)飛躍,整個(gè) AI 界正處于百花齊放、百家爭(zhēng)鳴的爆發(fā)期,將現(xiàn)在定義為“下半場(chǎng)”是否言之過(guò)早?
回看半年前紅極一時(shí)的 ChatGPT 橫空出世,讓人們看到通用 AGI 的曙光,AI 從業(yè)者們振臂高呼,“大模型將滲透到生活的各個(gè)角落,帶來(lái)工業(yè)革命級(jí)別的革新”。
然而,現(xiàn)實(shí)還是給了人們當(dāng)頭一棒。ChatGPT 增長(zhǎng)下滑,曾經(jīng)的網(wǎng)紅獨(dú)角獸 Jasper 被曝裁員自救……年初至今,除微軟的 Office 集成 CoPilot,New Being 升級(jí)了問(wèn)答功能,以及谷歌等巨頭運(yùn)用大模型對(duì)原有業(yè)務(wù)進(jìn)行升級(jí)以外,似乎鮮有新的超級(jí)應(yīng)用出現(xiàn)。
我們不禁反思,ChatGPT 到底是不是工業(yè)革命級(jí)別的革新?大模型現(xiàn)在正處于什么樣的階段,未來(lái)的路將怎么走?大模型企業(yè)如何構(gòu)建自己的壁壘?Agent 和多模態(tài)是靠譜的方向嗎?巨頭紛紛下場(chǎng)后,AI 創(chuàng)業(yè)公司該如何定義新商業(yè)模式殺出一條血路?
這些問(wèn)題的答案,或許可以從出門(mén)問(wèn)問(wèn)創(chuàng)始人兼 CEO 李志飛最近的思考中找到?!捌鋵?shí)這一次大模型的創(chuàng)業(yè),和上一代有很多相似性。我們需要的是全球視野下的創(chuàng)新?!睔v經(jīng)十年 AI 創(chuàng)業(yè),探索過(guò) AI 算法、智能硬件、企業(yè)服務(wù)、SaaS 等商業(yè)模式的李志飛坦言。
9 月 17 日,在南京人工智能大會(huì),李志飛發(fā)表題為《大模型的下半場(chǎng):Agent、多模態(tài)、ToPC/ToSMB 商業(yè)模式》的主旨演講。
具體內(nèi)容如下:
01.
大模型的上半場(chǎng):海外極速開(kāi)卷 國(guó)內(nèi)「百模大戰(zhàn)」
如何定義大模型的“上半場(chǎng)”和“下半場(chǎng)”?
所謂上半場(chǎng),聚焦“認(rèn)知層”,是從去年 ChatGPT 發(fā)布至今,大眾對(duì)于大模型的認(rèn)知——包括它的優(yōu)缺點(diǎn)、擅長(zhǎng)以及不擅長(zhǎng)的,有哪些玩家以及何種商業(yè)模式,都越來(lái)越清晰的階段。而此刻開(kāi)始的下半場(chǎng),聚焦“應(yīng)用層”,是真正比拼技術(shù)落地、決定勝負(fù)的戰(zhàn)場(chǎng)。開(kāi)始討論“下半場(chǎng)”之前,不妨先回顧一番大模型“上半場(chǎng)”的歷程,以此更好地判斷大模型的當(dāng)下和未來(lái)。2020 年 6 月,GPT-3 發(fā)布。在 GPT-3 之前,所有人工智能技術(shù)都是專(zhuān)用系統(tǒng),模型不通用,而作為一個(gè)單一模型,GPT-3 讓我們看到了通用語(yǔ)言智能的可能性,這是 NLP 幾十年發(fā)展以來(lái)大家一直在追求,卻始終無(wú)法實(shí)現(xiàn)的理想。2022 年 11 月,ChatGPT問(wèn)世,迅速在全球掀起了通用人工智能熱浪。ChatGPT 在理論上與 GPT-3 并無(wú)區(qū)別,它把普通人無(wú)法使用的大語(yǔ)言模型,變成了一個(gè)讓普羅大眾零距離接觸的通用 AI 應(yīng)用,也可以理解為它對(duì) GPT-3 做了一個(gè) Alignment。OpenAI 將 GPT-3 模型與人類(lèi)聊天習(xí)慣進(jìn)行了對(duì)齊,普通用戶(hù)在使用中不再需要 Few Shot——每次問(wèn)它一個(gè)問(wèn)題,還需要舉幾個(gè)例子,比如問(wèn) GPT-3 數(shù)學(xué)問(wèn)題之前,先要告訴它 “1 + 1 = 2”,再問(wèn)它“5 + 8”等于多少,它才能回答。很顯然,這樣的操作方式只有硅谷的極客才能用,普通人不可能使用這樣的系統(tǒng)。所以 ChatGPT 做的一個(gè)事情就是把 Few shot(小樣本)變成 Zero shot(零樣本),你可以直接問(wèn)它 5+8 等于多少,而不用舉例子。通過(guò) Supervised Fine-tuning(監(jiān)督微調(diào)),ChatGPT 讓大語(yǔ)言模型以極快的速度從硅谷極客的圈子進(jìn)入到了大眾的生活當(dāng)中。
2023年3 月,GPT-4 推出,微軟 AI 科學(xué)家團(tuán)隊(duì)發(fā)表名為《AGI 的火花:GPT-4 的早期試驗(yàn)》的論文,通過(guò) GPT-4 在數(shù)學(xué)、編程、視覺(jué)、醫(yī)學(xué)、法律、心理學(xué)等領(lǐng)域復(fù)雜任務(wù)中的優(yōu)秀表現(xiàn), 展示 GPT-4 迸發(fā)出堪比人類(lèi)的智能的水平。同時(shí) GPT-4 也開(kāi)發(fā)了多模態(tài),但也只是曇花一現(xiàn),并沒(méi)有持續(xù)掀起太多的水花。隨后,AutoGPT 的出現(xiàn)點(diǎn)燃了無(wú)數(shù)人對(duì)大模型落地各行業(yè)的熱情。AutoGPT 由 GPT-4 驅(qū)動(dòng),是一個(gè)自主規(guī)劃、自主推理、自主執(zhí)行任務(wù)的系統(tǒng),在收到用戶(hù)任務(wù)指令后,可以自主使用第三方工具、思考,并操作電腦。AutoGPT 實(shí)現(xiàn)了“行動(dòng)→觀察結(jié)果→思考→決定下一步行動(dòng)”這條路徑的打通以及循環(huán),是第一款基于大模型的 Agent 產(chǎn)品。2023年7月,谷歌發(fā)布RT-2——將大模型在互聯(lián)網(wǎng)上學(xué)到的知識(shí),遷移到機(jī)械臂。如同 GPT-3 讓我們看到了通用語(yǔ)言智能的希望一樣,RT-2 讓我們看到了通用機(jī)器人的可能性。隨著大模型“上半場(chǎng)”的技術(shù)拼殺,在全球共識(shí)極速達(dá)成的半年之際,海內(nèi)外的巨頭們演繹著一系列里程碑事件。去年底,OpenAI 和微軟一拍即合,出盡風(fēng)頭,成為科技界最火熱的“CP”。而攜手 OpenAI 的微軟也突然如煥發(fā)青春一般,展現(xiàn)出空前的創(chuàng)新活力,頗有一番王者歸來(lái)的氣勢(shì)。不過(guò)長(zhǎng)遠(yuǎn)來(lái)看,OpenAI 和微軟的未來(lái)依然存在很大變數(shù),甚至已有“貌合神離”的裂痕「初現(xiàn)」。與此同時(shí),昔日 AI王者 Google 在 OpenAI 和微軟的聯(lián)合攻勢(shì)下,一度潰不成軍。直到最近 Google 似乎重新找到了一點(diǎn)“感覺(jué)”,無(wú)論是團(tuán)隊(duì)建設(shè)還是大模型的落地,都有了一些不錯(cuò)的起色。Meta 帶著出其不意洗牌巨頭格局。Meta 是一家非常具有創(chuàng)業(yè)精神,極能吸引優(yōu)秀人才的公司。雖然小扎為元宇宙豪擲 300 億美元差點(diǎn)淪為笑柄,但 All in LLaMA 扛起開(kāi)源大旗之后,收獲了不少好評(píng)。隨后,中國(guó)大模型接力,幾個(gè)月內(nèi)認(rèn)知不斷被踏平,幾乎瞬間,“百模大戰(zhàn)”席卷而來(lái)。但一切似乎都是熟悉的配方,熟悉的味道——上一波 AI 、自動(dòng)駕駛,芯片的老故事,又重新被講述著。
02.
上半場(chǎng)的共識(shí)與非共識(shí):規(guī)模、開(kāi)源、通用
OpenAI 的成功本質(zhì)上是一場(chǎng)非共識(shí)的勝利。
2017 年,谷歌推出 Transformer,僅采用 Attention 機(jī)制進(jìn)行機(jī)器翻譯任務(wù)。自此,大模型的發(fā)展大致走上了兩條路,BERT和GPT,而 OpenAI 選擇了一條“少有人走的路”,恰恰是這種非共識(shí)性的選擇突破了 Scaling Law,引領(lǐng)了當(dāng)下的大模型盛世。
GPT 從非共識(shí)到共識(shí)的歷程,正是人類(lèi)創(chuàng)新史的縮影。回顧人類(lèi)科技史,從地心說(shuō)到萬(wàn)有引力,從蒸汽機(jī)到電力革命,人類(lèi)的科技進(jìn)步始終在非共識(shí)與共識(shí)中間螺旋上升。大模型也不例外,在 GPT-3 第一次向人們展示了大模型帶來(lái)的超越文本生成本身的能力后,GPT 模型是通用人工智能最佳路徑的共識(shí)便在 AI 界迅速達(dá)成。大數(shù)據(jù)、大算力、大算法也被業(yè)界奉為圭臬,“力大磚飛”似乎成為了唯一真理。那么,在今天的大模型語(yǔ)境下,規(guī)模到底重不重要?選擇開(kāi)源還是閉源?是不是一定要做通用大模型?超大模型 VS 大模型
根據(jù)大模型的參數(shù)規(guī)模,我們可以將模型分成兩大類(lèi),一類(lèi)是萬(wàn)億級(jí)別的超大模型,一類(lèi)是數(shù)百億級(jí)別的普通大模型。超大模型的使命是探索能力天花板,普通大模型更重要的使命是承載落地。今天有一種氛圍,似乎大家都沉浸于對(duì)“暴力”的崇拜,不斷堆疊算力、無(wú)限擴(kuò)大參數(shù)規(guī)模似乎成了通往 AGI 唯一選擇。GPT-3是“暴力美學(xué)”的勝利,在中國(guó)我可能是最早提出來(lái)的,但是“暴力”本身并不值得崇拜,我們更應(yīng)該研究“美學(xué)”,而非“暴力”。一旦陷入“暴力”的邏輯,我們很容易將所有希望都寄托在模型的參數(shù)規(guī)模上,不斷堅(jiān)定規(guī)??梢越鉀Q所有問(wèn)題的信仰?;?Scaling Law ,這種觀點(diǎn)不無(wú)道理,但是萬(wàn)億級(jí)以及更大參數(shù)規(guī)模的模型,其意義更多在于探索智能的天花板,而非實(shí)用。因?yàn)橛?xùn)練這種模型耗費(fèi)的資源、花費(fèi)的時(shí)間巨大,絕大部分企業(yè)都無(wú)法承受。而且,模型的規(guī)模越大,智力越強(qiáng),在某些領(lǐng)域的幻覺(jué)也會(huì)越嚴(yán)重。所以在應(yīng)用層,百億或者數(shù)百億參數(shù)級(jí)別的普通大模型反而更適用。開(kāi)源 VS 閉源
很多 OpenAI 的粉絲說(shuō),閉源的 OpenAI 一定會(huì)碾壓所有人,遙遙領(lǐng)先。實(shí)際上,開(kāi)源的 LLaMA 正在快速追趕。正如谷歌泄露出來(lái)的內(nèi)部信中提到的,大模型技術(shù)本身并沒(méi)有壁壘,開(kāi)源總有一天會(huì)迎頭趕上。未來(lái),開(kāi)源一定會(huì)與閉源并存,甚至分庭抗禮,這是關(guān)于大模型發(fā)展趨勢(shì)的另一個(gè)基本認(rèn)知。有人會(huì)說(shuō)開(kāi)源也沒(méi)有商業(yè)模式,開(kāi)源是否可以持續(xù)呢?小公司開(kāi)源的目的可能未必清晰,但像 Meta 這樣的公司開(kāi)源是有道理的,它在元宇宙都能虧 300 億美金,那它一年虧 10 億美金做一個(gè)開(kāi)源模型 LLaMA,這種「為愛(ài)發(fā)電」是可持續(xù)的。就像以前谷歌開(kāi)源安卓系統(tǒng),就是在下一盤(pán)「目光長(zhǎng)遠(yuǎn)」的棋。然而,中國(guó)在業(yè)內(nèi)存在一種怪象,感覺(jué)基于開(kāi)源迭代很丟臉一樣,一定要從頭開(kāi)始自己搞。這其實(shí)不盡然,全世界在科技層面是一個(gè)協(xié)作體,基于開(kāi)源并不丟臉,關(guān)鍵是要建立比較好的認(rèn)知,開(kāi)源不意味著就沒(méi)有任何壁壘,關(guān)鍵是要找到自己的定位。無(wú)論是開(kāi)源還是閉源,對(duì)大模型來(lái)說(shuō),在能力層面沒(méi)有絕對(duì)的區(qū)別。因?yàn)榛陂_(kāi)源模型也需要做預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)、Inference優(yōu)化、清洗數(shù)據(jù)等,它只是降低了冷啟動(dòng)的門(mén)檻。如果真的想要做出一個(gè)性能達(dá)到業(yè)界領(lǐng)先水平的模型以及應(yīng)用,還是需要花很多精力。通用大模型VS垂直大模型
大模型要找到自己的核心定位,要明確通用大模型與垂直大模型的區(qū)別。早在今年 2 月,包括我自己在內(nèi),對(duì)通用大模型非常著迷。然而,在很多情況下,通用大模型并不一定是唯一的解決方案,尤其在 ToB 應(yīng)用中,需要根據(jù)具體情況進(jìn)行選擇。比如,要做一個(gè)芯片設(shè)計(jì)的應(yīng)用,那么這個(gè)模型應(yīng)該專(zhuān)注于回答與芯片設(shè)計(jì)相關(guān)的問(wèn)題,沒(méi)必要回答一些諸如明星八卦之類(lèi)的無(wú)意義問(wèn)題。也就是說(shuō),泛娛樂(lè)的ToC 場(chǎng)景更適合通用模型;而行業(yè) ToB 更適合垂直,但要深度可靠。另外一個(gè)觀點(diǎn)是,不會(huì)有垂直行業(yè)的大模型。行業(yè)范圍太寬泛,比如金融行業(yè),它包括人力資源、財(cái)務(wù)、法務(wù)等各種不同的工種。從目前來(lái)看,大模型很難跨工種應(yīng)用,因?yàn)槊總€(gè)工種都有自己的流程和知識(shí)。沒(méi)有垂直行業(yè)大模型,但可以有垂直工種大模型。
03.
算力、數(shù)據(jù)、算法,誰(shuí)是真正的競(jìng)爭(zhēng)壁壘?
無(wú)論是萬(wàn)億參數(shù)規(guī)模的超大模型,還是數(shù)百億參數(shù)級(jí)別的普通大模型,閉源模型或開(kāi)源模型,任何大模型的研發(fā)、訓(xùn)練都要依靠算力、數(shù)據(jù)、算法。大模型競(jìng)爭(zhēng)壁壘,自然也需要從這三要素入手構(gòu)建。
首先,算力是一種消耗品,本身不構(gòu)成壁壘。如果我們與 OpenAI 的人溝通,問(wèn)他們到底有什么秘方,為什么做得這么好?他會(huì)告訴你,“我們就是規(guī)模大”。但絕大部分公司在“暴力美學(xué)”上走不下去,因?yàn)槿绻晃犊勘┝?,一年可能需要至?10 億美金的算力投入。算力的壁壘,本質(zhì)上是錢(qián)的壁壘。消耗掉的算力就像燃燒掉的燃料一樣,算力用完了,就相當(dāng)于把錢(qián)花完了。像有的創(chuàng)業(yè)公司比誰(shuí)卡用的最多,這是一件笑談。那是不是意味著你什么也不懂,就只能燒卡?所以,關(guān)于算力大家要理性,單純比拼 GPU 的數(shù)量沒(méi)有任何意義,要想清楚在消耗掉海量的算力之后,自己能沉淀出什么。尤其是創(chuàng)業(yè)企業(yè)、中小型企業(yè)更不要想著自建算力中心,這個(gè)完全是頭腦發(fā)熱,怎么可能在計(jì)算利用率上面超過(guò)云巨頭?要知道除了足夠多的 GPU 之外,算力中心的計(jì)算利用率同樣非常重要。我記得某云巨頭的人講過(guò),1000 張 H800 能做到 60% 以上的計(jì)算利用率,其背后有著龐大的團(tuán)隊(duì)持續(xù)優(yōu)化操作系統(tǒng)、網(wǎng)絡(luò)、數(shù)據(jù)傳輸?shù)龋行∑髽I(yè)難以望其項(xiàng)背。那么模型的算法是否能夠成為企業(yè)的護(hù)城河呢?答案是不能,需要說(shuō)明的是算法本身的壁壘沒(méi)有大家想象那么高。雖然長(zhǎng)期來(lái)看,GPT 用非共識(shí)選擇走出了一條獨(dú)特的道路,但是當(dāng)下大模型的算法架構(gòu)已經(jīng)基本固定,短期不會(huì)有什么變化,很難再有大的突破。最底層是 Transformer 的模型結(jié)構(gòu),中間層是 Decoder Only 的多層神經(jīng)網(wǎng)絡(luò) GPT,最后是基于 Next Token Prediction 的目標(biāo)函數(shù)。不過(guò),長(zhǎng)期來(lái)說(shuō)量變引起質(zhì)變,新架構(gòu)超越現(xiàn)有架構(gòu)是大概率會(huì)發(fā)生的事件。在大模型的三要素中,大家都知道數(shù)據(jù)非常重要,是最有可能成為壁壘的。但需要強(qiáng)調(diào)的是,大家都容易獲取的數(shù)據(jù)不是壁壘。比如,互聯(lián)網(wǎng)上爬來(lái)的數(shù)據(jù),開(kāi)源社區(qū)公開(kāi)的數(shù)據(jù)集,大家都能夠獲得并且應(yīng)用到訓(xùn)練中,這種數(shù)據(jù)無(wú)法成為壁壘。只有用戶(hù)在自己產(chǎn)品中交互沉淀的數(shù)據(jù)才是壁壘,構(gòu)建數(shù)據(jù)飛輪很難,但一旦建立將是比模型和算力更靠譜的壁壘。
04.
ChatGPT真的是工業(yè)革命級(jí)別的革新嗎?
ChatGPT 無(wú)疑是一款商業(yè)奇跡般的產(chǎn)品,僅用兩個(gè)月便收獲了超過(guò) 1 億的用戶(hù)。它用簡(jiǎn)單的對(duì)話(huà)窗口,讓大眾體驗(yàn)到了大模型的神奇能力,讓 AI 從業(yè)者高呼,“大模型將滲透到生活的各個(gè)角落,帶來(lái)工業(yè)革命級(jí)別的革新”。然而此刻反思,這是真的嗎?不可否認(rèn),ChatGPT 的確讓我們看到了通用 AGI 的曙光。但是如果將它定義為一場(chǎng)“技術(shù)革命”,它就必須要革新各行各業(yè)。如果 ChatGPT 始終是一個(gè)純文本的應(yīng)用,或者它始終無(wú)法解決高度幻覺(jué)的問(wèn)題,它便只能應(yīng)用于非嚴(yán)肅的內(nèi)容創(chuàng)作或者娛樂(lè)領(lǐng)域。那么,它很有可能成為本世紀(jì)最大的科技泡沫。而能否革新各行各業(yè),多模態(tài)和 Agent 是否靠譜決定了這場(chǎng)革命的真實(shí)性。
05.
Agent ,全村的希望?
想要革新千行百業(yè),大模型就必須落地到具體場(chǎng)景,而 CoPilot/Agent 是大模型應(yīng)用到企業(yè)場(chǎng)景的唯一之路。Agent 指的是能自主理解、規(guī)劃決策、執(zhí)行復(fù)雜任務(wù)的智能體。說(shuō)到 Agent,大家一定會(huì)想到 AutoGPT,AutoGPT 最大的特點(diǎn)在于它能全自動(dòng)地分解任務(wù)指令并自主執(zhí)行,中間環(huán)節(jié)不需要用戶(hù)參與——作為一個(gè) AI,它居然有了自主規(guī)劃的能力!AutoGPT 的自主規(guī)劃能力打破了我們對(duì)以往 AI 的認(rèn)知,如果說(shuō) ChatGPT 是服從用戶(hù)指令,用戶(hù)讓它干什么它就干什么,那么 AutoGPT 就是“自己覺(jué)得應(yīng)該干什么就干什么”,它就像是一個(gè)遇到不懂的問(wèn)題能自行百度的人類(lèi)。而能夠培養(yǎng)一個(gè)具有自主規(guī)劃、預(yù)測(cè)能力的模型,使其能夠端到端地完成整個(gè)任務(wù),這可能是整個(gè)計(jì)算機(jī)領(lǐng)域或人工智能領(lǐng)域的至高理想。要實(shí)現(xiàn) Agent 并非朝夕之事。Agent 的成功依賴(lài)于 LLM 可靠的規(guī)劃和推理能力,以及 LLM 對(duì)環(huán)境的動(dòng)態(tài)適應(yīng)能力。Agent 由大模型驅(qū)動(dòng),而大模型的規(guī)劃能力不夠強(qiáng),還亟待提升。持續(xù)與環(huán)境交互是 Agent 另外一個(gè)非常重要的環(huán)節(jié),Agent 需要能夠根據(jù)環(huán)境的反饋不斷調(diào)整規(guī)劃,進(jìn)而更好的完成任務(wù)。ChatGPT 這類(lèi)模型和物理世界沒(méi)有任何交互,而現(xiàn)實(shí)世界的環(huán)境很復(fù)雜,與文本世界或者說(shuō)虛擬世界有著本質(zhì)區(qū)別,我們所謂的應(yīng)用場(chǎng)景也是一種環(huán)境,如果沒(méi)有環(huán)境的動(dòng)態(tài)學(xué)習(xí)能力,Agent 很難成功。因此,如何與環(huán)境交互是發(fā)展 Agent 必須要解決的問(wèn)題。目前,這個(gè)問(wèn)題還沒(méi)有成熟的解決方案,與環(huán)境交互并不能像大模型一樣建立一個(gè) Transformer + GPT + Next Token 的簡(jiǎn)單架構(gòu)。Agent 現(xiàn)在還處于山頂洞人的階段,仍然有很長(zhǎng)的路要走。可以想象一下,我們是從山頂洞人時(shí)代進(jìn)入城市生活,讓今天的我們面前有一個(gè)電子屏幕,大家圍坐在一起聽(tīng)我演講。協(xié)作是文明的底層邏輯。人類(lèi)之所以能夠建立輝煌的現(xiàn)代文明,根本原因是人類(lèi)能夠進(jìn)行大規(guī)模的社會(huì)分工和團(tuán)隊(duì)協(xié)作,如果多 Agent 能夠取得成功,將會(huì)超越人類(lèi)所有的想象。06.
多模態(tài),是C位,不是花瓶
Agent 的輸入、輸出都依賴(lài)于多模態(tài),沒(méi)有多模態(tài),就沒(méi)有 Agent。多模態(tài)是一種 Grounding,可以讓語(yǔ)言構(gòu)建的虛擬世界和物理世界連接起來(lái),它也是接地氣的有效途徑,可以降低大語(yǔ)言模型的幻覺(jué)。跨模態(tài)的泛化和知識(shí)遷移可能是大模型對(duì) AGI 最大的貢獻(xiàn)。未來(lái),純文本的大模型也許不再是主角,加上多模態(tài)的大模型才是主角。大語(yǔ)言模型不只是一個(gè)語(yǔ)言模型,更是一個(gè)認(rèn)知模型,是智能的核心和基礎(chǔ)。有了好的認(rèn)知模型,只要加入少量數(shù)據(jù)就能有視覺(jué)、聽(tīng)覺(jué)、動(dòng)作等多模態(tài)能力。比如 RT-2,基于LLM的多模態(tài)為我們打開(kāi)了一扇新天窗。今年7月,谷歌推出 RT-2——將模型裝進(jìn)了機(jī)械臂。當(dāng)它收到“將滅絕的動(dòng)物拿起來(lái)”的指令之后,它可以觀察并理解到恐龍是滅絕的動(dòng)物這類(lèi)二級(jí)推理的問(wèn)題,使之可以輕松地將恐龍模型夾起來(lái)。有了基于 LLM 的認(rèn)知后,機(jī)械臂實(shí)現(xiàn)“夾起恐龍”反而是最輕松的事情。
07.
巨頭共識(shí)內(nèi)卷之下,創(chuàng)業(yè)公司還能怎么玩?
雖然,現(xiàn)在 ChatGPT 是否真的是工業(yè)革命級(jí)別的革新還尚未可知。但是,大模型是不能錯(cuò)過(guò)的商業(yè)機(jī)會(huì),已經(jīng)成為了巨頭們乃至整個(gè)科技圈的共識(shí)。海內(nèi)外巨頭們紛紛下場(chǎng),不惜成本投入大量資源,確保自己不會(huì)在這場(chǎng) AI 浪潮中掉隊(duì)。這種情況下,創(chuàng)業(yè)公司還能怎么玩?如何才能挖掘出自己的生存空間?雖然創(chuàng)業(yè)公司也可以選擇做通用大模型,但將模型和應(yīng)用垂直整合可能是更適合創(chuàng)業(yè)公司的路徑。眾所周知,純應(yīng)用沒(méi)有壁壘,純模型沒(méi)有商業(yè)模式,或者說(shuō)商業(yè)模式會(huì)很短。如果能夠?qū)?yīng)用和模型結(jié)合起來(lái)形成數(shù)據(jù)飛輪,對(duì)創(chuàng)業(yè)公司來(lái)說(shuō)更加靠譜。但是,要做應(yīng)用和模型的垂直整合模式,作為創(chuàng)業(yè)公司必須要回答“為什么一定要有自己的大模型”這個(gè)問(wèn)題,是因?yàn)閾碛凶约旱拇竽P椭竽軌蛴行Ы档屯评沓杀?,還是因?yàn)閿?shù)據(jù)隱私必須要本地部署?是特殊 API 的調(diào)用需求,還是發(fā)展多模態(tài)模型的需要?自研大模型,一定是為了解決切實(shí)問(wèn)題,而不是隨波逐流,別人都在做所以我也要做。比如,Character.AI 構(gòu)建自己大模型的理由就很充分,因?yàn)檎{(diào)用 OpenAI、谷歌等模型的 API 無(wú)法滿(mǎn)足其用戶(hù)的娛樂(lè)化需求。在商業(yè)模式選擇上,按照過(guò)去的習(xí)慣,以客戶(hù)的體量可以將商業(yè)模式分為四類(lèi):ToC,面向普通消費(fèi)者;ToPC (Professional Consumer),面向?qū)I(yè)個(gè)人;ToSMB (Small and Middle Business),面向中小企業(yè);ToB,面向企業(yè)大客戶(hù)。以前互聯(lián)網(wǎng)公司一般都是 ToC,通過(guò)應(yīng)用搶占用戶(hù)的注意力,獲取海量流量后利用廣告變現(xiàn),羊毛出在豬身上;而傳統(tǒng) AI 公司主要 ToB,以 Case by Case 的定制化項(xiàng)目服務(wù)大客戶(hù),在這種模式下很多公司逐漸蛻變成了系統(tǒng)集成商(SI),最終淪為虧錢(qián)的高級(jí)人力外包。在大模型的加持下, AIGC 展現(xiàn)出了強(qiáng)大的通用性,擁有良好的用戶(hù)體驗(yàn)。因此,大模型創(chuàng)業(yè)公司擁有了調(diào)整自己商業(yè)策略的可能性,即可采用 ToPC 或者 ToSMB 的商業(yè)模式。這種商業(yè)模式的好處在于,一方面可以避免跟巨頭競(jìng)爭(zhēng),另外一方面能夠避免上一代 AI 公司做B端項(xiàng)目,持續(xù)虧錢(qián)的狀態(tài)。但 ToPC 也并非是無(wú)腦操作,在精準(zhǔn)定位客戶(hù)群體的基礎(chǔ)上,還需要客單價(jià)足夠平民化(年千元或萬(wàn)元級(jí)別),產(chǎn)品體驗(yàn)足夠閉環(huán)簡(jiǎn)單,真正為用戶(hù)提升效率或創(chuàng)收。
08.
出門(mén)問(wèn)問(wèn)定位:應(yīng)用和大模型的垂直整合
從 2020 年發(fā)布第一支 AIGC 產(chǎn)品「魔音工坊」至今,出門(mén)問(wèn)問(wèn)持續(xù)優(yōu)化多模態(tài)大模型、拓展 AIGC 商業(yè)化布局,將 AI 聲音、AI 寫(xiě)作、AI 作圖、數(shù)字人等一站式 AIGC 產(chǎn)品矩陣打磨至極致,不斷重塑內(nèi)容創(chuàng)作者的工作流。這支科比視頻,是一個(gè)人借助出門(mén)問(wèn)問(wèn)的 AIGC 產(chǎn)品矩陣,僅用幾個(gè)小時(shí)輕松創(chuàng)作的 AIGC 系列作品,而對(duì)創(chuàng)作者來(lái)說(shuō),這在半年前還是難以想象的事情。半年后的今天,隨著大模型進(jìn)入“下半場(chǎng)”,百模大戰(zhàn)之后的落地應(yīng)用也在持續(xù)加速、遍地開(kāi)花,未來(lái)的各種模態(tài)融合演進(jìn)、滿(mǎn)目琳瑯。出門(mén)問(wèn)問(wèn)已有清晰的定位,將應(yīng)用與大模型垂直整合,踐行 ToPC/ToSMB 的商業(yè)模式——面向 PC 用戶(hù)打造 All-In-One 的 AIGC 產(chǎn)品矩陣,面向 SMB 客戶(hù)打造優(yōu)質(zhì)的 CoPilot 應(yīng)用。在模型層面,出門(mén)問(wèn)問(wèn)重點(diǎn)探索多模態(tài)和可學(xué)習(xí) Agent 的大模型。多模態(tài)的實(shí)現(xiàn)是一個(gè)循序漸進(jìn)的過(guò)程,先用文本建立認(rèn)知,然后加入語(yǔ)音、Vision、3D Motion 等。在這種路徑下,因新模態(tài)加入而增加的數(shù)據(jù)或參數(shù)都比較小,不會(huì)對(duì)訓(xùn)練造成太大的壓力。多模態(tài)、可學(xué)習(xí) Agent 的大模型,其優(yōu)點(diǎn)在于,它可以將從虛擬世界學(xué)習(xí)到的知識(shí)遷移到物理世界,為我們打開(kāi)廣闊的想象空間。如果一個(gè) Agent 在虛擬世界環(huán)境中能夠完成各種復(fù)雜的動(dòng)作,我們便可以將這些知識(shí)遷移到物理世界,驅(qū)動(dòng)具有實(shí)體的機(jī)器人在現(xiàn)實(shí)世界中執(zhí)行各種任務(wù)。我們希望將每一種探索都打造成普通人能夠真正使用的產(chǎn)品,而不只是一個(gè)開(kāi)源的 PaaS,或是可以 ToB 定制的系統(tǒng)。我們希望讓更多消費(fèi)者成為創(chuàng)作者,讓更多人借助AI來(lái)拓展智慧、知識(shí)和想象力的邊界。作為國(guó)內(nèi)起步最早的 AIGC 公司之一,出門(mén)問(wèn)問(wèn)早在 2020 年開(kāi)始大模型的研發(fā)和 AIGC 的應(yīng)用布局。「魔音工坊」是我們?cè)贏I聲音領(lǐng)域打造的第一款 AIGC產(chǎn)品。大眾在抖音、快手等各大音視頻平臺(tái)的解說(shuō)類(lèi)視頻中經(jīng)常聽(tīng)到的聲音,大部分皆由「魔音工坊」生成。此外,「魔音工坊」還覆蓋了有聲書(shū)、在線(xiàn)教育、有聲電臺(tái)、新聞播報(bào)、體育賽事等諸多領(lǐng)域。目前「魔音工坊」(海外版dubdup)已在全球范圍內(nèi)獲超百萬(wàn)量級(jí)用戶(hù),為海內(nèi)外創(chuàng)作者帶來(lái)了快樂(lè)、高效和成就。「魔音工坊」的聲音商店擁有 1000 余款的 AI 聲音風(fēng)格,支持 37 種語(yǔ)言、15 種方言,用戶(hù)可以隨心創(chuàng)作。企業(yè)版支持多人多端協(xié)同,極大提升創(chuàng)作效率。其中“聲音版的word編輯器”是「魔音工坊」獨(dú)家首創(chuàng)的特色功能之一,可以實(shí)現(xiàn)如同用 word 編輯文字一樣編輯聲音。為什么要推出這一功能?因?yàn)?AI 再精準(zhǔn),在聲音生成方面也無(wú)法做到絕對(duì)精準(zhǔn),比如多音字、重讀、連讀很容易出錯(cuò);或在配音中,我們希望對(duì)話(huà)在磁性男聲和溫柔女聲之間自如切換,此時(shí)的語(yǔ)音算法很難靈活應(yīng)對(duì),而有了編輯器之后,只需通過(guò)簡(jiǎn)單的操作便能一鍵調(diào)整為我們想要的形態(tài)。結(jié)合底層大模型之后,「魔音工坊」(海外版DupDub)還支持寫(xiě)文案、配圖等,它已經(jīng)從之前單一的配音產(chǎn)品變成了集文案、配音、剪輯等全流程于一體的一站式 AI 創(chuàng)作應(yīng)用。基于大模型的多模態(tài)為我們打開(kāi)了一扇新天窗——「魔音工坊」擁有“捏聲音”的能力。只要對(duì)「魔音工坊」輕松描述一下“我想要一個(gè)什么樣的聲音”,它就可以直接生成出來(lái)。甚至給它一個(gè) 3 秒的音頻,然后跟它說(shuō)“請(qǐng)按這個(gè)風(fēng)格為文字配音”,它即刻生成風(fēng)格一致的音頻結(jié)果。比如給它一個(gè) 3 秒哭腔的音頻,它立刻就能學(xué)會(huì),這就是大模型的 Zero shot。這一功能極大降低了聲音制作的門(mén)檻,即將在「魔音工坊」上線(xiàn)。面向創(chuàng)作者的數(shù)字影像領(lǐng)域,出門(mén)問(wèn)問(wèn)推出數(shù)字人平臺(tái)「奇妙元」。「奇妙元」擁有 100 余款數(shù)字人、1000 余款 3D 數(shù)字資產(chǎn)及 1000 余種聲音。憑借多模態(tài)生成技術(shù),「奇妙元」同時(shí)支持圖片建模(2D數(shù)字人)、視頻建模(2.5D數(shù)字人)、3D建模 (3D數(shù)字人)三種不同形式的數(shù)字人生成。其中,圖片建模的 2D 數(shù)字人生成,用戶(hù)只需要「一張照片」即可生成自己的專(zhuān)屬數(shù)字人;視頻建模的 2.5D 數(shù)字人僅需一段5分鐘的真人視頻,即可 1:1 復(fù)刻用戶(hù)的形象神態(tài),為用戶(hù)打造聲音一致、動(dòng)作自然的數(shù)字人分身。從 3D 到 2D,從專(zhuān)業(yè)創(chuàng)作者到普通大眾,「奇妙元」不斷降低用戶(hù)創(chuàng)作門(mén)檻,推動(dòng)數(shù)字人走向平民化。目前,出門(mén)問(wèn)問(wèn)AIGC 產(chǎn)品累計(jì)服務(wù)的用戶(hù)量已超 1000 萬(wàn),注冊(cè)用戶(hù)量超 600萬(wàn),其中付費(fèi)的用戶(hù)量 40 萬(wàn)。據(jù)灼識(shí)咨詢(xún)報(bào)告,出門(mén)問(wèn)問(wèn)是亞洲起步最早、收入規(guī)模最大專(zhuān)注于生成式 AI 的人工智能公司。同時(shí),出門(mén)問(wèn)問(wèn)也在積極布局AIGC的全球化。我們堅(jiān)信這項(xiàng)技術(shù)的革命性力量,也認(rèn)為 AIGC 并非終局目的,對(duì)“人機(jī)”互相成就的踐行才是更核心的目標(biāo)。任何時(shí)代都存在著機(jī)會(huì),亦面臨挑戰(zhàn)。大模型下半場(chǎng),應(yīng)用層成為兵家必爭(zhēng)之地,如何在應(yīng)用層的“逐鹿之戰(zhàn)”中脫穎而出,值得我們思考。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。