最近兩個多月,刺猬公社(ID:ciweigongshe)前往上海、杭州、成都、廣州等城市拜訪了多家公司。一個驚人的事實(shí)是,幾乎所有公司——不論是做游戲的,還是做直播電商、新消費(fèi)、教育培訓(xùn)、健身、播客、長短視頻的——都在討論一個共同話題:
以Chat GPT為代表的AIGC,會如何闖入并改變我們所在的行業(yè)?取代我的工作,還是給產(chǎn)業(yè)帶來新的機(jī)會?
這個問題,Chat GPT暫時還回答不了。它可能組織一段邏輯通順的語言,但想要獲得更多新知,乃至找尋AIGC創(chuàng)業(yè)的參考,還得把目光放在大廠之外的AIGC創(chuàng)新者們。
在AI生成設(shè)計、AI生成虛擬人、AI生成音樂和對話式AI等四個AIGC創(chuàng)業(yè)的主流領(lǐng)域,刺猬公社對話了四家不同賽道的創(chuàng)業(yè)公司。相比Open AI等國內(nèi)外大廠,我們能看到他們走出了一條完全不一樣的道路:
從某種程度上講,這些AIGC創(chuàng)新者所展現(xiàn)出的產(chǎn)品、商業(yè)和公司組織特質(zhì),甚至是“反傳統(tǒng)互聯(lián)網(wǎng)”的。
不問出處,都在人工智能創(chuàng)業(yè)
2023年2月,一份叫《ChatGPT團(tuán)隊(duì)背景研究報告》的文章在AIGC創(chuàng)業(yè)圈、投資圈和媒體圈盛傳。研究團(tuán)隊(duì)針對ChatGPT項(xiàng)目做出貢獻(xiàn)的87個成員進(jìn)行了背景研究,其中,團(tuán)隊(duì)成員絕大多數(shù)擁有名校學(xué)歷,且具有全球知名企業(yè)工作經(jīng)歷。他們的顯著特征是“年紀(jì)很輕”“背景豪華”“聚焦技術(shù)”“積累深厚”“崇尚創(chuàng)業(yè)”和“華人搶眼”。
在以上這些特征中,名校背景以及技術(shù)實(shí)力奪人眼球,但更重要的是,對于這些人才來說,走前人未走過的路、開拓一個全新領(lǐng)域,是他們最重要的追求之一。這也鮮明的體現(xiàn)在了刺猬公社拜訪的四家AIGC創(chuàng)業(yè)公司身上,盡管AI浪潮在2022年才正式開始,但這些公司創(chuàng)立的時間要早得多,在AIGC概念尚不清晰的時代,他們就已經(jīng)開始了努力。
只不過那時的AI創(chuàng)業(yè),沒有如今的喝彩與關(guān)注。
時間撥回2016年,伴隨VR浪潮的起伏,成維忠和創(chuàng)業(yè)團(tuán)隊(duì)把目光瞄準(zhǔn)虛擬人賽道,于是,專攻虛擬人動作和表情生成技術(shù)的中科深智誕生了。但在動捕技術(shù)與動作表情庫剪輯占主流的虛擬人市場,由深層次AI算法驅(qū)動虛擬人技術(shù),并沒有引起市場足夠的重視。成維忠告訴我們,直到現(xiàn)在,國內(nèi)外市場中使用這項(xiàng)技術(shù)的公司也并不多。
這也讓公司的早期融資面臨著不小的問題。在研發(fā)虛擬人驅(qū)動技術(shù)的過程中,中科深智也采用過動作捕捉與動作表情庫剪輯,但成維忠始終認(rèn)為,這些都不是虛擬人的原生技術(shù),AI算法驅(qū)動才是未來最正確的道路。直到創(chuàng)業(yè)四年后,公司迎來了第一筆融資,從2020年中到2021年末,中科深智獲得了三輪融資,AI道路得以持續(xù)。
中科深智的部分產(chǎn)品展示
2022年是個變局,在此之前,AIGC不能算是虛擬人生成領(lǐng)域的最優(yōu)解,但大模型技術(shù)的發(fā)展成熟正在改變一切。在此基礎(chǔ)上,中科深智也探索出了虛擬人動作表情驅(qū)動的深層次技術(shù)——多模態(tài)大模型技術(shù)。根據(jù)成維忠的設(shè)想,虛擬人生成技術(shù)將會突飛猛進(jìn)。幾年內(nèi),AI將能完成動畫電影級別的制作,80%以上的動畫產(chǎn)品都可以利用AI生成,未來電影工業(yè)或許將會發(fā)生一場AI革命。
整個行業(yè)在“飛躍”,對于幾年前的國內(nèi)AI創(chuàng)業(yè)人們來說,這是難以想象的。
同樣是2016年,還在清華讀博的劉曉光加入了清華大學(xué)的一個專攻AI音樂的興趣小組,這便是新音樂產(chǎn)業(yè)公司DeepMusic的前身。DeepMusic最早的目標(biāo)是幫助音樂愛好者更高效率地創(chuàng)作音樂。但在當(dāng)時的團(tuán)隊(duì)內(nèi)部,已經(jīng)萌生了AI基于人的交互生成音樂內(nèi)容的想法,其實(shí)已經(jīng)很“AIGC”了。
2018年,在劉曉光的帶領(lǐng)下,DeepMusic從一個興趣小組變成了一家科技公司,并拿到了清華系基金和音樂人李健的投資。用AI幫助音樂人創(chuàng)作,乃至AI自主創(chuàng)作音樂,成為了DeepMusic的目標(biāo)。讓劉曉光印象最深刻的是兩年之后的2020年,全民K歌找到了他們,希望能夠在平臺內(nèi)開發(fā)“一鍵remix”的功能,將已有的音樂伴奏進(jìn)行風(fēng)格化改編。
“他們提出的訴求是,一個月做出5萬首左右的伴奏。一般來說,一個20人的音樂人團(tuán)隊(duì)需要兩年左右才能完成?!眲怨饣貞?,盡管DeepMusic的AI生成技術(shù)已經(jīng)相對成熟,但并沒有產(chǎn)品化,“這個要求是我們產(chǎn)能的10倍?!?/span>
這是DeepMusic第一次大規(guī)模地應(yīng)用自己的技術(shù),在建立起了一個流水線化的生產(chǎn)流程后,一個月,他們最終完成了任務(wù),5萬首伴奏的通過率達(dá)到99%。與中科深智一樣,DeepMusic的AI技術(shù)同樣是應(yīng)用在企業(yè)端的,早期的AIGC創(chuàng)業(yè)公司與傳統(tǒng)的互聯(lián)網(wǎng)公司不同,他們不追求直接觸達(dá)C端,而是以輸出技術(shù)的方式加持B端,這不僅關(guān)于技術(shù)能力的發(fā)展,更是由市場需求決定的。
直到2022年AI作畫興起,AIGC才真正開始走進(jìn)C端市場,而DeepMusic一類的創(chuàng)業(yè)公司,則在B端更高要求的應(yīng)用中,不斷推進(jìn)技術(shù)的發(fā)展。2022年,DeepMusic已經(jīng)成為了國內(nèi)頭部的AI音樂公司,不僅擁有“配樂貓”“口袋音樂”等創(chuàng)作產(chǎn)品,還與QQ音樂等頭部音樂平臺展開合作,推出了多個AI音樂系統(tǒng)。
伴隨時間的推移,在國內(nèi),真正面向更廣闊用戶,人們觸手可及的AI產(chǎn)品也開始出現(xiàn)。計算美學(xué)旗下的畫宇宙平臺正是其中之一。
“從很早開始,我們就覺得人工智能加設(shè)計肯定是未來。”計算美學(xué)聯(lián)合創(chuàng)始人趙哲析告訴刺猬公社,在營銷場景不斷增加的情況下,國內(nèi)設(shè)計人才與設(shè)計力仍舊存在短板。想要解決長久以來的供求不平衡,必然需要新技術(shù)帶來新變革。2020年12月,趙哲析和幾個同學(xué)一起創(chuàng)辦了計算美學(xué),專攻AI設(shè)計領(lǐng)域。
計算美學(xué)生成的風(fēng)格化圖片
他們最先拿出了一款A(yù)I生成logo的產(chǎn)品,之后的2022年1月,進(jìn)階產(chǎn)品“圖宇宙”正式推出,可以在AI技術(shù)的加持下實(shí)時生成海報。在當(dāng)時的國內(nèi)市場,AI生成海報的產(chǎn)品僅計算美學(xué)一家,2021年末,計算美學(xué)也獲得了高瓴創(chuàng)投的數(shù)千萬融資,新的產(chǎn)品也被提上日程。
不同于大多數(shù)AI作畫平臺,計算美學(xué)從一開始的目標(biāo)就是希望利用AI賦能專業(yè)設(shè)計,2023年初,他們搭建起一個專業(yè)級別的智能設(shè)計平臺——“畫宇宙”,能夠?qū)崿F(xiàn)“無限畫板”“實(shí)時編輯”,在AI的交互和可控方面更進(jìn)一步。
值得關(guān)注的是,無論是計算美學(xué)和DeepMusic,他們的創(chuàng)業(yè)團(tuán)隊(duì)都有著深厚的名校背景。DeepMusic脫胎于清華大學(xué)的興趣小組,核心成員基本都來自清華大學(xué)。計算美學(xué)同樣有著類似的基因,據(jù)聯(lián)合創(chuàng)始人趙哲析的介紹,計算美學(xué)的設(shè)計團(tuán)隊(duì)基本都來自清華大學(xué)美術(shù)學(xué)院,技術(shù)方面的成員則基本都來自清華和北大。
國內(nèi)頂尖高校背景、年輕的研發(fā)團(tuán)隊(duì),他們依靠著自身的學(xué)術(shù)圈層聚集在一起,共同步入了一個未來風(fēng)口之中。
而在對談中,幾位公司的創(chuàng)始人都提到了團(tuán)隊(duì)的一大特點(diǎn),那就是團(tuán)隊(duì)的穩(wěn)定。“對于很多算法工程師來說,做AIGC不一樣,需要很深度的團(tuán)隊(duì)協(xié)作,在人工智能的團(tuán)隊(duì)里,長期投入才能看到成果?!?/span>成維忠告訴刺猬公社,AI創(chuàng)業(yè)并不簡單,無論是研發(fā)技術(shù)還是產(chǎn)品,都需要長時間的投入。因此,相比于人員變動頻繁的互聯(lián)網(wǎng)行業(yè)來說,AI創(chuàng)業(yè)公司的技術(shù)團(tuán)隊(duì)非常穩(wěn)固,創(chuàng)業(yè)幾年過去,團(tuán)隊(duì)中最早的一批成員仍舊是中流砥柱。
“我們的核心算法團(tuán)隊(duì)從來沒有變過。”秘塔科技聯(lián)合創(chuàng)始人、首席運(yùn)營官王益為告訴刺猬公社,他的另一個身份被更多人熟知:B站知名UP主“王一快”。
在AI創(chuàng)業(yè)之前,王一快是一名律師,2018年,他和幾位NLP領(lǐng)域的技術(shù)專家一起成立了秘塔科技,最早從AI翻譯服務(wù)切入,并逐步推出文本校對、改寫潤色等功能服務(wù)。秘塔科技是國內(nèi)較早利用大語言模型技術(shù)推動AIGC內(nèi)容的公司,“我們的技術(shù)路線,從2019年開始做寫作貓就已經(jīng)決定了。”
“2018年左右,我們都認(rèn)為AI理解上下文語境是非常困難的,當(dāng)時基本都是單輪問答,甚至單輪問答里面也不能設(shè)置太長的條件。”依靠對自身語言模型的不斷的深度學(xué)習(xí)訓(xùn)練,2021年末,秘塔科技已經(jīng)能夠?qū)崿F(xiàn)AI的多輪對話。
2023年,ChatGPT席卷全球;3月,秘塔科技推出了自研AI文本生成產(chǎn)品“對話寫作貓”,算得上國內(nèi)第一批“中文ChatGPT產(chǎn)品”。在實(shí)際的體驗(yàn)中,對話寫作貓已經(jīng)能進(jìn)行流暢的中文連續(xù)對話,并且在法律內(nèi)容領(lǐng)域展現(xiàn)出了一定的優(yōu)勢。
向?qū)υ拰懽髫執(zhí)釂柸踔前蓡栴}
但差距仍然存在,“我們現(xiàn)在這個百億級別參數(shù)的訓(xùn)練量還沒有跑完,這更像是個Demo。”不過王一快對于未來信心滿滿。“我們還有很多辦法讓多輪對話去變得更加智能,可以期待,在半年之內(nèi)能夠達(dá)到跟ChatGPT持平的效果。”
在與四家公司的對談中,我們能夠勾勒出中國AI創(chuàng)業(yè)人的大體樣貌:他們來自各行各業(yè),基本都非常年輕、擁有名校背景、與此同時關(guān)注垂直領(lǐng)域,并擁有足夠穩(wěn)固的團(tuán)隊(duì)。跟許多互聯(lián)網(wǎng)公司不同,他們不在意營銷與流量,在AI這個全新的世界里,技術(shù)就是王道,而新浪潮的來臨,則為他們帶來了新的機(jī)會與新的挑戰(zhàn)。
總的來說,不論AI生成設(shè)計、AI生成虛擬人,還是AI生成音樂、對話式AI,這些和大洋彼岸的Open AI、Google和Midjourney們處在同一賽道的中國AI創(chuàng)業(yè)者們,都想發(fā)揮自己的優(yōu)勢,努力向前奔跑。
中國AI創(chuàng)新者,不想“大干快上”
“我們想用對話寫作貓給大家看一下,不是只有巨頭才能干好,其實(shí)用少一點(diǎn)的資源、小一點(diǎn)點(diǎn)的模型,也能輸出一個非常好的效果?!蓖跻豢煺f。
在訪談中,王一快常常把訓(xùn)練模型的過程比作“一個龐大而精細(xì)的工程”。它不是可控核聚變那樣的顛覆性創(chuàng)新,但AI創(chuàng)新者們需要做的,是在資源有限的條件下,去完成這個可能有著海量細(xì)節(jié)的工程,為用戶呈現(xiàn)出最佳的體驗(yàn)。那些“沒錢干不了大模型”“百億規(guī)模的模型就是不行”的聲音,王一快并不認(rèn)同。
以對話寫作貓為例,其模型的成本、規(guī)模比ChatGPT低了一個數(shù)量級,但依然屬于大語言模型,同樣可以完成效果近似的中文對話。王一快透露,這是因?yàn)閷υ拰懽髫埖哪P蛥?shù)規(guī)模更小,但做了更精細(xì)化的調(diào)優(yōu)工作。“Open AI和某組織差不多,無限的彈藥量——堆算力、扔數(shù)據(jù),打出一個比較好的效果;我們創(chuàng)業(yè)公司沒有那么多錢,用非常有限的資源,只能這么打?!?/span>
即便效果可能并不是100分,但對于中國的AIGC創(chuàng)新者來說,有和無的問題更為重要?!拔覀円欢ㄊ窍饶靡粋€60分的產(chǎn)品出來用著,然后在罵聲和叫好聲中成長,慢慢地走到80分?!蓖跻豢煺f。
除了低成本和“小步快跑”,將創(chuàng)業(yè)方向放到互聯(lián)網(wǎng)大廠尚未涉足的細(xì)分領(lǐng)域,也是很多AI創(chuàng)新者們的選擇。
“我們在2018年前后判斷,因?yàn)榇髲S的數(shù)據(jù)最多、資本集中,歌詞生成這種自然語言的問題一定是大廠去做的?!?/span>而一般的算法工程,很難理解伴奏該怎么變、樂器該怎么彈、旋律該怎么寫這類“小眾”問題,這就是DeepMusic要去解決的。
在生成音樂的技術(shù)路線上,DeepMusic用的是“符號生成音樂”的路徑,而不是音頻的直接生成。也就是說,讓AI檢測中音頻中的音樂知識,把音樂拆解成各種各樣的模態(tài)符號,再利用符號去生產(chǎn)音樂。 “當(dāng)符號描述出來以后,一個音樂人已經(jīng)知道這些符號該怎么去配所有的樂器了?!?/span>
這樣一來,生成所需技術(shù)的復(fù)雜度比大模型小很多,但通過符號生成,也可以通過自己的路徑達(dá)到一個較好的音樂效果。
劉曉光表示,DeepMusic相當(dāng)重視AI在專業(yè)用戶中的應(yīng)用,比如,他們希望讓AI輔助音樂生產(chǎn)者的工作,真正嵌入音樂的生產(chǎn)流程里面。
在AI生成的過程中,可控是最難的。比如,當(dāng)我們生成一段10秒的音樂時,想控制這段的音樂第二秒是什么樣的非常困難。而如果不能實(shí)現(xiàn)可控,AI也就沒辦法被音樂生產(chǎn)者真正用上。此外,想要嵌入音樂人的工作流,還要做出一個音樂工作站——蘋果系統(tǒng)里的“庫樂隊(duì)”,就是一個簡易版的音樂工作站。DeepMusic同樣花費(fèi)了很多技術(shù)精力,做出了一個音樂工作站,支持詞、曲、編、錄、混的AI生成,并且用一個音樂引擎把這些模態(tài)結(jié)合起來。
與大廠在技術(shù)路線上的差異,體現(xiàn)在更多AIGC的細(xì)分賽道。CEO成維忠向我們對比了Open AI等大廠和中科深智的區(qū)別:
大廠們一般走從大語言模型到文生圖再到文字生成視頻、動畫的技術(shù)路徑,從生成圖片到讓圖片動起來,“順理成章”,這種動畫、視頻被業(yè)內(nèi)稱為“幀視頻”,本質(zhì)上是2D技術(shù);
中科深智的技術(shù)則更類似3D,能夠直接生成3D的動作表情數(shù)據(jù),而這些數(shù)據(jù)本身是看不到的。它繞過了文字生成圖片的環(huán)節(jié),在渲染引擎的支持下,可以直接給出3D效果的虛擬形象。
而“3D”能帶來的好處是,在視頻質(zhì)量和實(shí)時生成上有較大優(yōu)勢,能夠滿足專業(yè)內(nèi)容和人機(jī)交互的需要。在元宇宙中也能更加適配3D立體環(huán)境,成為元宇宙的基礎(chǔ)設(shè)施。
“我們自己的定位首先是個技術(shù)公司,不是應(yīng)用公司。”成維忠向我們強(qiáng)調(diào),“我們的核心是搞定生成式AI?!?/span>對于業(yè)內(nèi)流行的動作庫、表情庫、動作捕捉等技術(shù)去驅(qū)動虛擬人,中科深智從2022年上半年起就逐漸用AI生成,替換用模型庫來創(chuàng)造虛擬人的方式。
這不意味著AI創(chuàng)新公司和大廠之間是對立的,也不乏兩者合作的案例。比如中科深智,就和英偉達(dá)、Unity等公司合作;計算美學(xué),和百度文心大模型以調(diào)用接口的方式進(jìn)行合作。這可以讓AI創(chuàng)新公司們“站上巨人的肩膀”,將更多資源用在自己的競爭優(yōu)勢上。
計算美學(xué)的一大優(yōu)勢在于打通了各種AI技術(shù)之間的壁壘,可以在AI生成的過程中做消除、擦除,也可以做擴(kuò)展延伸,還可以根據(jù)文字進(jìn)行調(diào)優(yōu)。
“我們應(yīng)用層更多的是以需求為導(dǎo)向去做創(chuàng)新”。趙哲析告訴刺猬公社,AI產(chǎn)業(yè)可以分為三層——基礎(chǔ)層,也就是阿里云、騰訊云、華為云等云計算廠商,他們負(fù)責(zé)提供算力;模型層,以百度文心、Open AI等大模型廠商為代表;而計算美學(xué)處于第三層——應(yīng)用層,在以上底層能力的基礎(chǔ)上,開發(fā)創(chuàng)新性的應(yīng)用產(chǎn)品,而不是做前期投入較高的基礎(chǔ)性研究。
商業(yè)化:AI、G、C,該走哪條路?
在AIGC的商業(yè)化上,追趕Google和Open AI的中國AI創(chuàng)業(yè)者們常常被詬病的,不是商業(yè)化太慢了,而是太早就趕著去做商業(yè)化。
有人舉例子說,百度度秘(小度前身)剛學(xué)會基本對話就做了小度AI、阿里達(dá)摩院對話機(jī)器人剛能說話就轉(zhuǎn)向阿里小蜜客服機(jī)器人、無人駕駛剛學(xué)會低速行駛和認(rèn)障礙物就搞無人車配送,認(rèn)為“國內(nèi)的AI一出生就接受生存教育,未成年就走出家門去賺錢?!?/span>
先不論這種聲音是否片面,但它道出了國內(nèi)AIGC創(chuàng)業(yè)的一個困境:要在何時、以何種方式走向市場,與千行百業(yè)發(fā)生聯(lián)系?
“作為一個實(shí)際的從業(yè)者,抱怨或者指責(zé)沒有意義?!睂τ凇皣鴥?nèi)AI商業(yè)化是否操之過急”的問題,王一快認(rèn)為各個國家有不同的國情,AI產(chǎn)業(yè)的發(fā)展模式也不會相同。只有順應(yīng)潮流,滿足大家對AI發(fā)展的期待。
“你不早點(diǎn)讓它落地,這事就做不起來?!彼f,特別是在國內(nèi),“用戶和企業(yè)都是非常實(shí)際的,誰效果好、誰能快速地給我?guī)碇苯拥氖找?,我就用誰的,而不是迷信大廠?!?/span>
除了對于“何時搞商業(yè)化”的討論,AIGC商業(yè)化的焦點(diǎn)還集中在以下兩個維度:
一是AIGC商業(yè)化的方向,是靠AI賺錢,還是靠AI生產(chǎn)出的內(nèi)容?
二是要做To B,還是To C?
先看第一個問題。對于“AIGC”這四個字母,劉曉光將之拆分為AI、G和C,其中AI意味著內(nèi)容生產(chǎn)的形式,G代表內(nèi)容生產(chǎn)的過程,C就是生產(chǎn)出來的內(nèi)容。
AI的意義,在于讓生產(chǎn)變得更快、更便宜。內(nèi)容本來就可以不依靠AI生產(chǎn)出來,但AI的參與,能讓投入產(chǎn)出比小于1的事情大于1,讓它變得商業(yè)價值。從這個角度看,AI的商業(yè)化核心,在于解決To B的問題。
相對來說,G和C更加偏向To C,就是“做一個AI,讓用戶能夠生產(chǎn)出可消費(fèi)的內(nèi)容”。而這種模式和20年前互聯(lián)網(wǎng)“羊毛出在豬身上狗買單”的商業(yè)模式?jīng)]有本質(zhì)區(qū)別,都是通過產(chǎn)品吸引用戶停留,然后在用戶時長的基礎(chǔ)上賣廣告。
“現(xiàn)在沒有流量紅利了,所以這種模式可能并不是現(xiàn)在應(yīng)該優(yōu)先嘗試的方向。”劉曉光說,“做一個更好的內(nèi)容生產(chǎn)工具,讓人生產(chǎn)出可消費(fèi)內(nèi)容,然后聚集起來做一個平臺,這件事可能很困難?!?/span>
比如DeepMusic的產(chǎn)品“口袋樂隊(duì)”,在沒怎么投流的狀態(tài)下仍能留存不少忠實(shí)用戶,但劉曉光不認(rèn)為在此基礎(chǔ)上做個內(nèi)容社區(qū)是個好選擇。相比無數(shù)渴望實(shí)現(xiàn)從工具到社區(qū)跨越的互聯(lián)網(wǎng)從業(yè)者,這種思路顯得頗為不同。
DeepMusic AI生成的音樂集
在UGC時代,內(nèi)容就已經(jīng)迎來了大爆發(fā),到了AIGC時代,內(nèi)容生產(chǎn)的成本又低了幾個量級,C的供給越發(fā)遠(yuǎn)大于求。比如音樂,2022年中國生產(chǎn)了大約300萬首音樂,而人們會去聽的,只有幾千首。在流量紅利消失之時,只有那些具有消費(fèi)潛力的內(nèi)容——那些用戶愿意去看、愿意去聽的——才有價值。
既然AI內(nèi)容社區(qū)和AI內(nèi)容本身的商業(yè)化困難重重,那么,什么才是AIGC商業(yè)化的希望所在?
“C可能并不是下一個爆發(fā)點(diǎn)。”劉曉光說,“G可能是下一個內(nèi)容生產(chǎn)的爆發(fā)點(diǎn)?!?/span>
他進(jìn)一步解釋,過去可能有人對一件事感興趣,但被一些復(fù)雜的學(xué)習(xí)門檻卡在外面;現(xiàn)在,由于AI的參與,不用學(xué)習(xí)也可以參與制作,擺脫知識的局限,并在其中找到心流體驗(yàn)、感受有趣的生產(chǎn)過程。最終,人們可以利用AI工具去完成藝術(shù)探索,實(shí)現(xiàn)AIGC對UGC的反哺?!拔覀儗?shí)際上是在做AI音樂制作人,把音樂生產(chǎn)各個環(huán)節(jié)里的輔助工具給到用戶,讓AI告訴你怎么去做音樂。”
至于做To B還是To C,受制于國內(nèi)用戶付費(fèi)習(xí)慣的限制,面向To B客戶做標(biāo)準(zhǔn)化產(chǎn)品,是AIGC創(chuàng)業(yè)中的主流選擇?!白黾夹g(shù)的公司一旦開始個性化定制,規(guī)模效應(yīng)就出不來。我們公司成立以來,只要是做都是以標(biāo)準(zhǔn)化產(chǎn)品為主?!背删S忠說,目前主要收入來自于SaaS服務(wù),即使有定制的需求,也只提供虛擬人底層能力的定制,其他的定制工作都是交給其他合作伙伴集成商完成的。
“一定是要做標(biāo)品的?!蓖跻豢煲脖硎荆赥o B的業(yè)務(wù)中以標(biāo)準(zhǔn)化產(chǎn)品為主,向用戶提供大模型的API接口。“如果做模型的定制,目前看來耗費(fèi)的人力、提供的服務(wù)還是非常重的,可能只會按照大的行業(yè)去進(jìn)行調(diào)優(yōu)?!?/span>
趙哲析也認(rèn)為,“AIGC商業(yè)化更多的機(jī)會還是在To B上面?!盩o C更多的只是圍繞流量做用戶轉(zhuǎn)化,但嘗鮮用戶的多是一次性行為,深入使用和付費(fèi)意愿也相對較低。因此,計算美學(xué)從一開始做產(chǎn)品就是定位在面向To B行業(yè)。
想要在To C上做商業(yè)化,也不是完全沒有空間,只不過機(jī)會可能不在國內(nèi)。成維忠透露,他們想要在海外布局一個可以由文字生成3D動畫的產(chǎn)品,以訂閱制方式做商業(yè)化,不再區(qū)分To B還是To C。
不過,對于AIGC創(chuàng)業(yè)者們來說,一切其實(shí)都在變化,遠(yuǎn)未來到定局。趙哲析告訴我們, 他的工作時間里7成是在解決現(xiàn)有的需求,3成要在做探索。“最懂AIGC的應(yīng)該是我們這些從業(yè)者,不能指望著你的客戶去你提需求提得特別精準(zhǔn)。”
這種工作邏輯有點(diǎn)像調(diào)查和實(shí)驗(yàn):提出假設(shè)、論證假設(shè),修改假設(shè)再去論證假設(shè),最后把它變?yōu)檎嬲苈涞氐臇|西?!皠?chuàng)業(yè)最怕剃頭挑子一頭熱,你以為解決了一個天大的需求,找到目標(biāo)客戶一問人家說不需要?!壁w哲析說,“我們是很務(wù)實(shí)的。
AI的未來,人機(jī)交互革命?
商業(yè)化、供需、應(yīng)用,在一系列行業(yè)面對的實(shí)際問題之下,AI創(chuàng)業(yè)者們腳踏實(shí)地,但也把目光投向了未來。
在與四位創(chuàng)始人的對談中,幾乎每位都提到了“人機(jī)交互”,在他們看來,AIGC不僅是生成內(nèi)容的變革,更在于人機(jī)交互形式的革新,這也是他們能在浪潮來臨前入局AIGC創(chuàng)業(yè)的深層原因。
“最早我們與計算機(jī)交互可能是紙上打孔,之后是DOS系統(tǒng)的代碼,隨后是利用鼠標(biāo)和鍵盤與計算機(jī)交互,再到如今用手指點(diǎn)屏幕,下一步,很可能就是利用語音直接與機(jī)器進(jìn)行交互?!痹趧怨饪磥?,未來可能會出現(xiàn)基于自然語言交互的操作系統(tǒng),對于偏向內(nèi)容型的服務(wù)行業(yè),會有一個新的入口可以去占領(lǐng)。
“我們希望音樂能夠被更多感官所感受,實(shí)現(xiàn)更游戲化的音樂欣賞過程以及娛樂過程?!?/span>在做音樂AIGC的過程中,DeepMusic一直希望把音樂變成一種“不只通過耳朵攝入的內(nèi)容”,用聲音的模態(tài)和圖像、視頻的模態(tài)結(jié)合起來,生成多模態(tài)的內(nèi)容,為用戶提供一種新的服務(wù)形式。
這并不是一種“空中樓閣”式的設(shè)想,在劉曉光的認(rèn)知里,AIGC將開拓更多元的交互場景與內(nèi)容消費(fèi)方式。“一些小公司沒有能力去做大模型,那是大資本集中去做的事。但在應(yīng)用上,AIGC可以做到許多新的服務(wù)形式,并且找到新的入口去占領(lǐng)?!?/span>
劉曉光特別看好教育和游戲領(lǐng)域的“強(qiáng)人機(jī)交互”屬性,“用戶在付費(fèi)的時候都會有一個心理錢包的問題,比如說為了一個工具、一個視頻平臺付費(fèi),意愿可能沒那么強(qiáng),但為了游戲可能會花很多錢?!币虼?,AIGC第一波成功的商業(yè)化,很可能發(fā)生在游戲化或者教育化的應(yīng)用上。
計算美學(xué)同樣是在人機(jī)交互協(xié)作的理念下,才開發(fā)出了畫宇宙這樣的工具類AI產(chǎn)品,他們考慮到的則是未來內(nèi)容生產(chǎn)模式的變化。
計算美學(xué)生成的風(fēng)格化圖片
“人機(jī)協(xié)作方式利用AI把設(shè)計變得可量化,幫助設(shè)計師的生產(chǎn)?!?/span>交互也體現(xiàn)在了產(chǎn)品的設(shè)計上,“畫宇宙”讓AI作圖不僅是人輸入指令、AI生產(chǎn)作品那么簡單,而且利用智能工具總結(jié)梳理素材,并進(jìn)行實(shí)時修改與編輯,真正實(shí)現(xiàn)人機(jī)的共創(chuàng),“這是以往產(chǎn)品形態(tài)做不到的”。
這并非是一廂情愿的構(gòu)想,在2023年,AIGC及大語言模型技術(shù)已經(jīng)在改變內(nèi)容生產(chǎn)的模式,“人機(jī)交互”的革新也正在發(fā)生。3月16日,微軟的Copilot正式發(fā)布,其將大型語言模型的能力嵌入到Microsoft 365應(yīng)用程序中,在Word、Excel、PowerPoint、Outlook等產(chǎn)品中都有應(yīng)用。
我們能夠清晰的看到生產(chǎn)與工作的方式在被改變,無論是根據(jù)用戶需求生成文檔、PPT,還是協(xié)助用戶分析數(shù)據(jù),制定計劃、編寫講稿,借由AI強(qiáng)大的理解能力,人機(jī)交互變得更加有效,大量的生產(chǎn)力將被解放。
這或許將不亞于從DOS系統(tǒng)打孔輸入指令到鼠標(biāo)鍵盤交互的變革。AIGC的發(fā)展不僅是AI智能提升這么簡單,更重要的是其能更好的整合數(shù)據(jù)資源,實(shí)現(xiàn)高效率的指令觸達(dá),并且這種提升是指數(shù)級的,人與機(jī)器、算力的關(guān)系將被重構(gòu)。
“我們最近在梳理一個新的領(lǐng)域,NUI,也就是自然用戶界面?!蓖瑯拥?,在中科深智的構(gòu)想中,AIGC的發(fā)展將催動下一代操作系統(tǒng)的誕生。過往的功能菜單將會被自然語言對話取代,想要實(shí)現(xiàn)交互,只要最簡單的對話與動作就能實(shí)現(xiàn)。
成維忠還將人機(jī)交互革新擴(kuò)展開來。他提到了元宇宙概念,作為把沉浸式體驗(yàn)作為核心研發(fā)方向的公司,中科深智一開始就把AI算法驅(qū)動虛擬人視為通往真正元宇宙的入口。
他認(rèn)為,在視覺技術(shù)、XR技術(shù)的發(fā)展之下,元宇宙的場景、物品都能得到不錯的解決方案,目前相關(guān)技術(shù)也已經(jīng)較為成熟,但在元宇宙中“人”則是最難點(diǎn)。無論是虛擬空間的NPC,還是現(xiàn)實(shí)人類的虛擬化身,都需要更好的交互體驗(yàn),而AIGC則是最重要的解決方案。
“元宇宙它本身其實(shí)是更加社交屬性的,在虛擬化的社區(qū)里,人和人之間的交流就變得非常的重要,沒有非常好的Ai的技術(shù),實(shí)際上就做不到真正的千人千面,所有人的動作表情都一樣。”AI則能成為解決實(shí)時交互問題的核心技術(shù),在成維忠的眼中,AIGC的發(fā)展成熟更能夠催動真正元宇宙的來臨。
對于元宇宙行業(yè)來說,ChatGPT及大語言模型為代表的AI生產(chǎn)力或許并非取代者,而能夠帶來真正的加持。在過去的元宇宙設(shè)想中,高效率的數(shù)字資產(chǎn)生產(chǎn)與有效的社交交互是虛擬世界的最大痛點(diǎn)之一,而在AI技術(shù)的加持下,無論是場景、道具生成,還是虛擬人驅(qū)動,或許都將迎來新的機(jī)會。
在未來,3D內(nèi)容創(chuàng)作者或許也可以將AIGC技術(shù)應(yīng)用于創(chuàng)作中。不同于以前的費(fèi)力建模,伴隨AIGC的發(fā)展,輸入prompt、或者“口述”,場景與人物、道具就能直接生成,同樣也能加持人們的虛擬體驗(yàn)。據(jù)悉,世界最大的“元宇宙”平臺Roblox正在構(gòu)建一個AIGC平臺,希望發(fā)展通過語音、文本或基于觸摸的手勢,取代鼠標(biāo)和鍵盤移動,即可實(shí)現(xiàn)傻瓜式創(chuàng)建的便利工具,通過AIGC將其平臺上5880萬用戶打造成為創(chuàng)作者。AIGC正在真實(shí)的改變這些新興的行業(yè)。
說回國內(nèi)的AIGC創(chuàng)業(yè)者們。在這場人機(jī)交互革命之中,微軟、谷歌、OpenAI等大廠所做的,就是依賴大模型產(chǎn)品搭建新一代操作系統(tǒng)的基礎(chǔ)設(shè)施,正如百度CEO李彥宏在近期的訪談中所說,不會再出現(xiàn)一個OpenAI,沒必要重復(fù)造輪子,在技術(shù)底層、大模型技術(shù)領(lǐng)域,在客觀條件之下,國內(nèi)AIGC創(chuàng)業(yè)公司或許已經(jīng)失去機(jī)會,但在應(yīng)用層,一切都還剛剛開始。
大廠們忙著搞“基礎(chǔ)設(shè)施”,而我們所關(guān)注到的這些AIGC創(chuàng)業(yè)公司們,則在各個垂直領(lǐng)域深扎下去,依靠他們掌握的技術(shù)及產(chǎn)品,或許能夠成為這個未來操作系統(tǒng)的組成部分,也就是一個個具體的“功能”。這也是屬于他們的天地。
尾聲
在刺猬公社遇見的AIGC創(chuàng)業(yè)者中,始終有著一個疑問,AI產(chǎn)業(yè)的春天真的到了嗎?
而產(chǎn)業(yè)大爆發(fā)的卡點(diǎn),恰恰是AIGC技術(shù)本身。
成維忠舉了AI生成虛擬人方面的例子——現(xiàn)在能生成雙人的交互,多人交互還做不到。只有進(jìn)一步突破技術(shù)障礙,才能未來在游戲、動畫等領(lǐng)域大規(guī)模應(yīng)用。劉曉光表示DeepMusic希望做些“增量”,在AI技術(shù)的支持下,讓更多人參與到音樂的生產(chǎn)過程中,“真正讓內(nèi)容生產(chǎn)者,用AI工具做自己想做的事?!?/span>
至于商業(yè)化的難點(diǎn),“我認(rèn)為沒啥難點(diǎn)?!背删S忠說,“因?yàn)榧夹g(shù)還沒到,所以能啃下的市場還是很少。挖空心思地'想出一個市場’去規(guī)避掉技術(shù)問題,我覺得沒必要?!蔽磥恚鯝IGC還是要拼技術(shù)賺錢。
因此,此時此刻正處于聚光燈下、浪尖之上的AIGC創(chuàng)業(yè)者們,也要做“時間的朋友”。
“等風(fēng)口過去了之后,才真正進(jìn)入落地的場景。”王一快說,“就像我們當(dāng)初討論5G一樣,等到現(xiàn)在都不討論這件事了,說明它已經(jīng)成了一個基礎(chǔ)設(shè)施,大家真正能用上了。”
聯(lián)系客服