刘亦菲亲嘴视频,日本美女换衣视频,美女视频免费视频免费观看

01. 引言

02. 主流數(shù)字人的技術(shù)原理和應用

03. 數(shù)字人在商業(yè)領域的崛起

04. 生成式AI技術(shù)讓數(shù)字人“活”起來

05. 國內(nèi)數(shù)字人和生成式AI技術(shù)的發(fā)展現(xiàn)狀和機遇

06. 生成式AI技術(shù)何時走向成熟和規(guī)?；瘧?/span>

引言

數(shù)字人技術(shù)即將普及化的時代正在迅速來臨！

從前年開始，很多品牌主紛紛啟用虛擬人作為品牌代言人。請明星不但要承擔過高的預算，還有隨時可能“塌房”的風險，真人各種不可控的因素讓品牌們苦不堪言，于是他們只好轉(zhuǎn)投可以由自己百分百掌控的“數(shù)字人”。

而虛擬人爆火的同時，數(shù)字人的另一種形態(tài)——數(shù)字分身也在蔚然成風。這兩者的區(qū)別簡單來說就是“虛擬人”是完全虛構(gòu)的，直接由計算機生成的，而“數(shù)字分身”則是一個真實人物的數(shù)字孿生體。

△倒映有聲為知名醫(yī)學專家陶勇醫(yī)生打造的AI數(shù)字分身

生成式AI技術(shù)作為一種利用深度學習模型從數(shù)據(jù)中學習并生成新的內(nèi)容的技術(shù)，可以根據(jù)文本、圖像、音頻等輸入，生成各種類型的輸出，如3D模型、視頻、動畫、音樂、詩歌等。生成式AI技術(shù)的進步將為數(shù)字人提供了強大的支撐，使其能夠適應不同的場景和需求，展現(xiàn)出無限的可能性。這也意味著人們在線交流的形式將徹底發(fā)生改變。數(shù)字人栩栩如生的外觀，生動的表情，再加上AI技術(shù)加持下具備“最強大腦”，會為我們營造出逼真的互動性。

△元分身數(shù)字人直播產(chǎn)品

每個人可以隨便“生產(chǎn)”數(shù)字人，甚至擁有自己的數(shù)字孿生（兄弟姐妹）的夢幻景象將成為現(xiàn)實，一切都將只是時間問題，甚至在可見的兩三年內(nèi)即可實現(xiàn)。

數(shù)字人目前最先進的底層技術(shù)是什么樣？已經(jīng)在哪些商業(yè)場景和行業(yè)內(nèi)有成熟應用？生成式AI將如何賦能數(shù)字人的發(fā)展？二者的交融會為元宇宙帶來哪些新的想象？

帶著這些問題，我們采訪和調(diào)研了國內(nèi)6家代表性數(shù)字人服務商的創(chuàng)始團隊，他們分別是一知智能、倒映有聲、元境科技、拓元智慧、創(chuàng)想數(shù)維、宙予科技。本篇文章即是對訪談內(nèi)容的全面和體系化呈現(xiàn)。

主流數(shù)字人的技術(shù)原理和應用

目前國內(nèi)的數(shù)字人技術(shù)廠商底層技術(shù)主要以NLP（Natural Language Processing自然語言處理）技術(shù)、多模態(tài)融合交互（不同形式的輸入組合（例如，語音、手勢、觸摸、凝視等）被稱為多模態(tài)交互模式，其目標是向用戶提供與計算機進行交互的多種選擇方式，以支持自然的用戶選擇。）和大模型（大模型又可以稱為Foundation Model（基石）模型，模型通過億級的語料或者圖像進行知識抽取，學習進而生產(chǎn)了億級參數(shù)的大模型。）、XR技術(shù)（Extended Reality擴展現(xiàn)實，是指通過計算機將真實與虛擬相結(jié)合，打造一個可人機交互的虛擬環(huán)境，這也是AR、VR、MR等多種技術(shù)的統(tǒng)稱。）這三種技術(shù)為底層技術(shù)依托打造數(shù)字人。

其中NLP技術(shù)以創(chuàng)始團隊為浙江大學計算機學院人工智能研究所出身的一知智能、上市公司天娛數(shù)科戰(zhàn)略投資的專門做元宇宙虛擬人相關(guān)業(yè)務的科技營銷公司元境科技兩家為典型代表。

一知智能

一知智能CTO李一夫在采訪中表示，一知智能創(chuàng)始團隊一開始就是研究NLP技術(shù)的，目前一知智能的智能客服等產(chǎn)品就是結(jié)合一知智能的NLP能力研發(fā)的。在持續(xù)探索商業(yè)化的過程中，一知智能研發(fā)團隊也在積極關(guān)注和思考前沿技術(shù)的發(fā)展。

當一知智能研發(fā)團隊認為多模態(tài)語音交互領域要想繼續(xù)往前發(fā)展的話，就需要一個語音和文本結(jié)合、仿真外觀形象和動態(tài)視頻結(jié)合的模態(tài)，因此便在兩年前便積極布局虛擬數(shù)字人，往多模態(tài)交互、多模態(tài)大模型的方向發(fā)展。

△一知智能技術(shù)圖譜

一知智能CTO李一夫向非凡產(chǎn)研記者介紹，與同行業(yè)產(chǎn)品對比中，尤其是在真人驅(qū)動以及口唇同步效果方面，一知智能的數(shù)字人在行業(yè)中應該是處于遙遙領先的狀態(tài)。尤其在技術(shù)優(yōu)勢方面，由于一知智能過去幾年積累了大量的語料，迭代出領先的消費行業(yè)語音與語義相關(guān)的模型，結(jié)合自身在多模塊交互方面的研究沉淀，未來一知智能將會在數(shù)字人的基礎上疊加交互的部分，從而擴大技術(shù)方面的競爭優(yōu)勢。

另一方面，一知智能過去在消費領域積累的客戶、業(yè)務優(yōu)勢，將會使一知智能的數(shù)字人在幫助客戶找PMF的應用中取得更大的競爭力。

元境科技

元境科技很早之前就開始布局NLP技術(shù)和應用，NLP核心的語義理解，預訓練多模態(tài)大模型、NLP 算法集、NLP開發(fā)套件等已經(jīng)集成到了元享智能云平臺，具備企業(yè)級的落地實力。元境科技創(chuàng)始人王智武表示，元境在做就是通過元境自身的研發(fā)實力，降低其他企業(yè)在NLP及其他尖端術(shù)在應用層的使用門檻。

△元享智能云平臺界面

元境科技的產(chǎn)品體系為1+X，其中“1”指元境科技自主研發(fā)的產(chǎn)品平臺“元享”，通過這個平臺元境科技將持續(xù)架設很多產(chǎn)品，聚焦垂直賽道和細分領域，同時提供專業(yè)產(chǎn)品服務和集成服務，簡化和降低技術(shù)的應用門檻。元境科技目前的市場定位、探索主要聚焦在如何把一些最新自主訓練技術(shù)、自主研發(fā)技術(shù)整合投放個一些垂直行業(yè)的應用場景。相比通用型產(chǎn)品，元境科技未來聚焦的方向?qū)⒁源怪睉脠鼍盀橹鳌?/span>

倒映有聲

倒映有聲成立四年多以來，則一直聚焦在多模態(tài)的驅(qū)動和生成技術(shù)。創(chuàng)始人兼CEO肖朔介紹說，倒映有聲把文本、聲音和圖像，以及數(shù)字人相關(guān)的動作驅(qū)動幾個環(huán)節(jié)整合到一起，形成“多模態(tài)的神經(jīng)渲染引擎”。目前，倒映有聲主要服務B端客戶場景，提供AI數(shù)字人技術(shù)解決方案、可視化的操作界面、以及直接調(diào)取API技術(shù)接口，幫助客戶去做數(shù)字人音頻和視頻內(nèi)容生產(chǎn)，最終實現(xiàn)解放真人勞動力、降本增效的目的。

在倒映有聲創(chuàng)始人兼CEO肖朔看來，目前的技術(shù)流派可以分為兩種：第一種是基于傳統(tǒng)的3D建模方式，用海外比較成熟的UE或unity的引擎來進行渲染，這套方案在游戲或者影視當中應用較多，現(xiàn)在也有很多優(yōu)秀的技術(shù)公司把它應用在了數(shù)字人或元宇宙場景，也同樣取得了不錯的應用效果。而倒映有聲采用的是另外一套技術(shù)方案，不需要做傳統(tǒng)的3D建模，能夠節(jié)約大量的人力成本和時間成本，以及不需要再借用海外壟斷性質(zhì)的渲染引擎，因此倒映有聲可以實現(xiàn)用更低的成本和更標準化的模式，在云端快速地完成與數(shù)字人相關(guān)的多模態(tài)內(nèi)容生產(chǎn)。

拓元智慧

另一家人工智能公司拓元智慧則致力于運用自研多模態(tài)大模型、認知推理、因果模型、心智模型等前沿AI技術(shù)，為客戶核心提供內(nèi)容生成和虛實交互解決方案。目前已經(jīng)在真人數(shù)字分身、AI協(xié)同創(chuàng)作、企業(yè)數(shù)智服務等領域形成標化產(chǎn)品，服務客戶百余家。拓元智慧聯(lián)合創(chuàng)始人兼元分身平臺總經(jīng)理黃偉鵬向非凡產(chǎn)研介紹，在應用落地方面，拓元智慧主要關(guān)注以認知AI為核心的AGI領域的幾個主要方向，包括文案和圖像視頻生成、個性化交互及自主規(guī)劃型AI大腦等。

△拓元智慧多模態(tài)認知AI平臺示意圖

基團隊的多模態(tài)AIGC與互動技術(shù)，元分身平臺可以打造媲美真人的AI數(shù)智人，應用于視頻合成、直播、互動等場景，為客戶提供數(shù)智人定制、視頻制作服務平臺、直播服務平臺、個性化交互等服務。其中，視頻創(chuàng)作及合成應用適合教育、醫(yī)學、科技、金融、企事業(yè)等泛內(nèi)容傳播，直播應用適用于本地生活商家、品牌店鋪、私域24小時直播門店等場景，而交互數(shù)字人則適用于售前售后客服和專家型咨詢陪伴等場景。

創(chuàng)想數(shù)維

與其他幾家不同的是，創(chuàng)想數(shù)維目前正在開發(fā)的是XR技術(shù)（擴展現(xiàn)實技術(shù)）。與傳統(tǒng)技術(shù)如綠幕相比，XR技術(shù)在畫面效果和操作便利性等方面具有更大的優(yōu)勢。創(chuàng)想數(shù)維CEO吳未的目標是將XR技術(shù)小型化并推廣到其他數(shù)字內(nèi)容生產(chǎn)領域，例如企業(yè)活動、綜藝、直播和短視頻等，讓更多人受益。

△創(chuàng)想數(shù)維業(yè)務范圍

創(chuàng)想數(shù)維的核心技術(shù)特點包括：首先，具備優(yōu)秀的自出研發(fā)和生產(chǎn)硬件設備的能力，且成本相對較低；其次，擁有一個核心的、平臺級別的軟件，包括渲染服務器和軟件，這也是創(chuàng)想數(shù)維技術(shù)的一個核心組成部分。除此之外，創(chuàng)想數(shù)維正在開發(fā)利用AIGC技術(shù)快速生成3D場景和動畫等算法和工具。

宙予科技

宙予科技是生成式AI驅(qū)動的空間化電商全案服務商。去年宙予科技開發(fā)了618京東元宇宙電商項目。作為全球首個元宇宙電商項目，在轉(zhuǎn)化率等核心指標，達到傳統(tǒng)電商十倍之多，實現(xiàn)了3D互聯(lián)網(wǎng)場景營銷轉(zhuǎn)化效果的重大突破。目前宙予科技正在進行5000萬人民幣或等值美元的A輪融資。創(chuàng)始人朱峰是北京大學本碩，從物理轉(zhuǎn)修電影導演/文化產(chǎn)業(yè)。宙予合伙人團隊由四位相識20年的發(fā)小組成，是北京四中、北京大學的高中/大學/碩博士同年級同學，包括兩位電商老兵和兩位元宇宙渲染引擎專家，是空間化元宇宙電商創(chuàng)業(yè)的最優(yōu)搭配。

△宙予科技AI虛擬主播

“AIGC”全稱為“Artificial Inteligence Generated Content 人工智能生成內(nèi)容”，中國信通院發(fā)布的《人工智能生成內(nèi)容（AIGC）白皮書》認為，目前關(guān)于 AIGC 的概念并沒有統(tǒng)一界定，國內(nèi)產(chǎn)學研界的理解是“繼專業(yè)生成內(nèi)容(Professional Generated Content，PGC)和用戶生成內(nèi)容(User Generated Content UGC)之后，利用人工智能技術(shù)自動生成內(nèi)容的新型生產(chǎn)方式”。維基百科給出的解釋則是“人工智能合成媒體(AI-generated Media 或 Synthetic Media)”，指“通過人工智能算法對數(shù)據(jù)或媒體進行生產(chǎn)、操控和修改的統(tǒng)稱”。

數(shù)字人在商業(yè)領域的崛起

隨著數(shù)字人技術(shù)的不斷成熟，國內(nèi)數(shù)字人廠商也都積極探索商業(yè)化應用場景，而且都有不錯表現(xiàn)。本章節(jié)我們將為大家介紹數(shù)字人的主流應用場景、主要落地行業(yè)、C端用戶變現(xiàn)場景。

1、數(shù)字人的三種主流應用場景

目前數(shù)字人主要有三大應用場景。

第一個是圍繞類流媒體的播報場景。這類場景的人員播講內(nèi)容和模式通常都比較固定，不需要太復雜的情感演繹，因此這類重復的勞動力很容易用AIGC的方式來代替。倒映有聲創(chuàng)始人兼CEO肖朔介紹，他們已經(jīng)在融媒體新聞播報、教育培訓、醫(yī)療科普、金融、泛娛樂等場景成功應用數(shù)字人。

第二類是對時效性要求比較高的，比如過往一些行業(yè)的視頻節(jié)目內(nèi)容從完成初稿到節(jié)目播出可能需要至少花5-6個小時，期間還要經(jīng)歷審核校對等多個復雜流程，并且人力在這個過程中也有很多不可為的點，必須一個新聞主播，每天最多可能只能錄10-20條。

△倒映有聲數(shù)字人分身內(nèi)容創(chuàng)作平臺

依托倒映有聲的融媒體AI數(shù)字人技術(shù)解決方案，只需10分鐘有效音畫數(shù)據(jù)采集，就可以打造1個主播的AI數(shù)字分身。在倒映有聲旗下的數(shù)字分身內(nèi)容創(chuàng)作平臺上，只需要輸入文字，就可以一鍵生成音頻和視頻。AI主播/AI數(shù)字人可以24小時不間斷進行內(nèi)容生產(chǎn)和播報。這也數(shù)字人的一個極具代表性的應用場景。

拓元智慧的數(shù)字人除了可以還原主播真人的外形、表情、動作和聲音，還支持多語種功能。無論在視覺效果或是語音語調(diào)上，拓元智慧數(shù)字人已具有超過95%的擬真度，整體表現(xiàn)與真人無異甚至超越真人主播。真正實現(xiàn)一個運營頂一個團隊，孵化并管理多個IP，極大地降低制作成本，10倍以上提高效率。

第三種是短視頻、直播帶貨這樣的娛樂場景。數(shù)字人能為小B或者大C類用戶提供低成本的代替他們的人工在長尾的時間段去進行內(nèi)容的持續(xù)化輸出。拓元智慧數(shù)字人直播產(chǎn)品，可以隨時代替真人主播出鏡，通過AI自動編排話術(shù)模塊，搭載智能對話問答系統(tǒng)，實現(xiàn)7*24小時直播，輕松獲得閑時流量收益。

2、數(shù)字人的主要落地行業(yè)

元境科技創(chuàng)始人王智武表示數(shù)字人在以下幾大賽道有天然優(yōu)勢。第一個是直播。比如在娛樂直播方面，娛樂直播通常需要主播具備很多的才藝，而生成式AI技術(shù)應用到數(shù)字人后，數(shù)字人相當于自帶才藝了，并且AIGC技術(shù)還在不斷迭代，生數(shù)據(jù)的效果越來越好，在這方面會很有潛力。

另一點就是虛擬人數(shù)字人可以24小時不間斷直播、和個性化定制，能夠聚焦更多人群，同時可以通過技術(shù)手段進行批量生產(chǎn)，橫向和縱向擴展性很強，現(xiàn)在很多企業(yè)和團隊就在應用我們的元享平臺的智播模塊進行直播，效果很不錯，并且虛擬人數(shù)字人的直播模式是批量可復制的，因此一旦能成功，便會給企業(yè)降本增效帶來很明顯的變化。而且這個賽道的核心競爭優(yōu)勢不是技術(shù)，而是對業(yè)務和場景的編排能力。

第二個賽道是AI虛擬人教育。目前很多高校都有在這方面加強投入的意愿。以元境科技目前己上線的“元趣”產(chǎn)品為例，它可以基于真人圖像深度學習然后生成2.5D虛擬人，然后只需要輸入文本或者生成文本，它就能夠按照文本開始說話，而且不需要真人去驅(qū)動。這個技術(shù)更可以規(guī)?；瘧迷诶蠋熃虒W場景中。

第三個賽道是文旅行業(yè)。全國各地的旅游景點圍繞智慧導游、智慧伴游、數(shù)字博物館等場景都有很強的需求。元境科技也在加緊這方面的布局。

此外還有律所、保險和To G行業(yè)也有大量需求。目前元境科技已經(jīng)在教育、文旅行業(yè)，還有跟一些大的消費品牌、新能源汽車等都有成功落地經(jīng)驗。

創(chuàng)想數(shù)維CEO吳未告訴非凡產(chǎn)研，除了文旅行業(yè)，創(chuàng)想數(shù)維還跟MCN機構(gòu)和一些agency共同有很多應用和探索。而且體驗過的客戶都反饋很好，能有效降低他們制作內(nèi)容的時間和預算成本。

宙予科技將自己定位成“幫助電商平臺和消費品牌邁入元宇宙的基礎服務商”，宙予科技創(chuàng)始人朱峰認為，品牌不一定需要元宇宙，但一定需要流量，而元宇宙能夠為品牌帶來新的流量。而電商平臺里本身就有很多流量。因此宙予科技的打法非常獨特，他們把元宇宙直接放進流量核心，也就是電商APP里面。以此為基點，形成“人”“貨”“場”三方面的服務。

宙予科技打造的24小時AI虛擬主播，一方面可以很好地進行產(chǎn)品的介紹，另一方面可以回答消費者的問題，未來虛擬主播的能量可以在“場”里面得到進一步的釋放。

拓元智慧總經(jīng)理黃偉鵬則表示，除了新聞資訊類和醫(yī)學、教育、財會等泛知識類博主，企業(yè)售前售后服務、本地生活等領域也需要AI數(shù)字人的加持。拓元智慧從數(shù)智人視頻到直播的一站式創(chuàng)作，直擊傳統(tǒng)視頻和直播中效率低、成本高等痛點，讓內(nèi)容創(chuàng)作者專注腳本創(chuàng)作及營銷策略優(yōu)化，幫助個人和商家構(gòu)建全新的數(shù)智化運營模式，通過數(shù)字人大眾化解放生產(chǎn)力。

3、數(shù)字人的C端用戶變現(xiàn)場景

除了服務B端客戶之外，倒映有聲和元境科技還都有面向C端用戶的產(chǎn)品和服務。

對于同樣有制作數(shù)字人需求的C端用戶，倒映有聲提供了一個數(shù)字分身內(nèi)容創(chuàng)作平臺，平臺上擁有豐富的通用型服務型數(shù)字人來支持C端用戶制作數(shù)字人。

元境可以則分別有“元享”和“元趣”兩個C端產(chǎn)品版本，分別是3D和2D產(chǎn)品形態(tài)。并且“元享”即是平臺又是產(chǎn)品，將來還會為C端開放免費捏臉系統(tǒng)?！霸ぁ蹦壳耙孕〕绦驗橹鳎饕且豢钺槍Ψ奖戕D(zhuǎn)播的2C用戶的免費應用。

創(chuàng)想數(shù)維也計劃推出一些針對C端用戶的產(chǎn)品和解決方案。例如快速從2D草圖生成3D場景，全面實現(xiàn)剪輯、調(diào)色和燈光等方面的 AI 自動化，從而完全擺脫中之人或人為操作。

生成式AI技術(shù)讓數(shù)字人“活”起來

數(shù)字人雖然已經(jīng)誕生了很長時間，但其長期以來被吐槽最多的就是大部分數(shù)字人都過于呆板，除了表情和姿勢過于僵硬之外，還完全沒法與用戶個性化，甚至實時互動。一項數(shù)據(jù)表明，人和人之間55%的交流靠肢體語言，38%靠語調(diào)，只有7%是靠語言。因此數(shù)字人的互動能力對提升用戶體驗非常重要。而隨著生成式AI（Generative AI）技術(shù)的爆發(fā)，將會很好的賦能數(shù)字人，極大提升數(shù)字人的生動力。

1、生成式AI技術(shù)是提升數(shù)字人交互能力的拐點

一知智能CTO李一夫認為生成式AI技術(shù)是提示數(shù)字人交互能力的一個重要技術(shù)拐點。但目前面臨的主要問題在于生成式AI通過大模型形成答案的速度還比較慢，而交互場景對于實時性的速度要求又非常高，所以當前生成式AI還不能直接運用到數(shù)字人的交互上，這個也是未來需要大模型去解決的問題之一。目前一知智能在產(chǎn)品上也在研究如何提高接入大模型以及生成式AI的能力，大模型如果能在響應速度上得到飛躍的提升，那數(shù)字人的發(fā)展將會迎來很大進步。

元境科技創(chuàng)始人王智武認為，目前行業(yè)內(nèi)的一些數(shù)字人交互能力還不夠強主要有以下幾個原因，首先因為語料庫特別少，比如在10個人同時提問一個問題的場景中，AI產(chǎn)出的答案永遠只有一個，這樣給人的感覺就是新鮮感特別低，我們也是通過自建語料庫去改善重復度高的這個問題。

其次，在智能問答的應用場景中，數(shù)字人的表情、神態(tài)、動作都比較僵硬，給人很假的感覺。

第三，在聲音選擇上，虛擬人之前是沒有辦法去模擬情緒的。元境在這塊下了很大的研發(fā)力度，請很多的專家和大牛組成技術(shù)團隊，攻克數(shù)字人交互中的核心難點，通過AIGC和預訓練大模型以及龐大的動作數(shù)據(jù)庫才實現(xiàn)了近乎真人的交互表現(xiàn)效果。

如果今后其他團隊和公司想要提升數(shù)字人交互能力，可以嘗試自建語料庫和在大模型、AIGC這塊下功夫，實現(xiàn)百分之90的相似度是可以做到的，攻堅到百分之百的相似度是行業(yè)內(nèi)所有人的共同目標。

隨著生成式AI技術(shù)的進步，尤其有了ChatGPT這樣的語言大模型，就能支撐數(shù)字人的回答變得多樣性且具備擬人語氣。另外生成式AI技術(shù)也將會讓數(shù)字人在聲音訓練、表情模擬以及情緒表達上有很大的飛躍。比如過去以文本驅(qū)動虛擬人嘴型的模式會讓發(fā)聲顯得僵硬，而現(xiàn)在要驅(qū)動虛擬人很好表達情緒的話，則是會用audio2face技術(shù)用聲音驅(qū)動唇形及面部表情，通過情緒的判斷及傳遞實現(xiàn)虛擬人的情緒表達，虛擬人也因此給人感覺更逼真。

2、生成式AI技術(shù)如何賦能數(shù)字人

拓元智慧聯(lián)合創(chuàng)始人黃偉鵬介紹，目前元分身平臺的數(shù)字人已經(jīng)可以通過AIGC技術(shù)在短視頻、直播和一對一服務等場景中直接生成，并且可以與用戶進行智能互動。例如，在直播中，可以解析用戶的彈幕內(nèi)容并直接回答他們的問題。在短視頻創(chuàng)作中，設有AI文案功能，幫助運營者生成文案或改寫文案，極大減輕視頻工作者的創(chuàng)作壓力。

同時，在互動客服、業(yè)務引導等方面，元分身也可以實現(xiàn)實時的一對一驅(qū)動，將ASR轉(zhuǎn)化為NLP，進而生成答案并合成語音，在前端輸出時還可以進行面部表情、手勢等交互操作。通過這些技術(shù)優(yōu)化，可以明顯提示數(shù)字人的交互能力。

創(chuàng)想數(shù)維CEO吳未表示數(shù)字人制作流程一般包括設計、建模制作、驅(qū)動和運營環(huán)節(jié)。在這個流程中，就可以應用大量的人工智能算法和模型，來加快速度。同時，生成式AI也能使數(shù)字人的響應更加智能化，更符合人類特性。舉例來說，以前數(shù)字人驅(qū)動一般需要構(gòu)建知識圖譜，然后將其制作成語音庫和動作庫，只能回答知識圖譜范圍內(nèi)的問題。但有了大語言模型，只需要組合其他組件，如文字轉(zhuǎn)語音、語音轉(zhuǎn)動作、表情庫和動作庫，就能生成一個可以響應任何問題的智能化AI驅(qū)動程序。因此，我們可以像搭樂高積木一樣，將各種人工智能組件拼接起來，以更低的成本獲得更好的數(shù)字人驅(qū)動效果。

宙予科技創(chuàng)始人朱峰表示數(shù)字人的交互一般指的是視覺、聽覺和觸覺三方面。這三個方面目前都有不同的公司在做。而觸覺的提升還屬于超早期的階段，現(xiàn)階段暫時還沒有已經(jīng)能夠落地的方案出來。在視、聽覺這兩塊，已經(jīng)有很大進展。尤其在聽覺方面，小冰、科大訊飛，阿里等企業(yè)都在努力克服TTS（Text To Speech）生成的語言的連貫性和情緒問題。

目前數(shù)字人已經(jīng)都能很流暢平靜的表達，但在聲音的抑揚頓挫，音量變化方面仍然有很大提升空間。尤其是人類的情緒變化很多變，語言常常很難準確表達，如何精確培訓數(shù)字人具備這一敏感度，將會有很大挑戰(zhàn)。

再說圖像領域，目前一個趨勢是傳統(tǒng)計算機圖形學的動搖甚至消亡。原來的計算機圖形圖像學指的是mesh和texture的體系，就是每一個電腦動畫要先建出來模型，模型上面有蒙皮，然后兩個東西加在一起才有了傳統(tǒng)的模型。后來有了神經(jīng)網(wǎng)絡輻射場（Nerf），然后通過Nerf去做三維空間，從點、云和三角片狀的一些非常零散的呈現(xiàn)面，去表現(xiàn)一個非常真實的立體空間的折射反射現(xiàn)象。它雖然和以往的三維模型加材質(zhì)工作流不完全兼容，但在UE里面已經(jīng)實現(xiàn)將Nerf模型直接放入傳統(tǒng)工作流形成的環(huán)境中直接渲染的案例了，不做動畫的話，效果甚至不錯。

所以最近的一個技術(shù)熱點就是把Nerf本身的呈現(xiàn)方式還原成點云，然后再進一步地還原成傳統(tǒng)的mesh和texture去和它兼容，試著做動畫的打通。這還是對于以往的流程的一種改良。但是目前通過prompt就能實現(xiàn)文生圖的技術(shù)，對于傳統(tǒng)流程非常大的顛覆性，意味著幾毫秒就能實時生成一堆圖。在現(xiàn)在 AGI技術(shù)大流行的前提之下，將來整個傳統(tǒng)三維的實時渲染工作流將可能全部被革新，這是未來的虛擬人可以走的三條路。

2、生成式AI將帶來數(shù)字人的交互場景創(chuàng)新

一旦數(shù)字人的交互能力有很大進步之后，將會為下面幾個場景的用戶體驗帶來很大的提升。

倒映有聲創(chuàng)始人兼CEO肖朔認為，數(shù)字人交互能力落地后首先帶來改變的就是，可以解決游戲場景中NPC角色配音問題，以及讓NPC擁有更豐富的互動能力，產(chǎn)生不一樣的文本響應，尤其對于一些養(yǎng)成類游戲的用戶體驗的提高將會帶來很大幫助。

第二類是對短視頻領域的AI直播帶貨場景將會有很大優(yōu)化。現(xiàn)在的AI數(shù)字人直播技術(shù)依然有很明顯的缺陷，比如說虛擬主播手上不能拿商品，而且沒有真人主播那么及時的響應速度，所以目前虛擬主播還很難替代真人。但如果虛擬主播的交互能力得到很大提升之后，再加上虛擬主播可以24小時在線，這將會為直播帶貨行業(yè)帶來革命性變化。

第三種是對一些功能性場景的體驗和能力優(yōu)化。比如AI老師，AI券商分析師早期可能只能單純地做內(nèi)容輸出，后面交互技術(shù)提升了就能接入比如實時問答系統(tǒng)，可以及時回答用戶的專業(yè)問題。后面他會接上一些。我們其實是叫做問答系統(tǒng)。

但目前整個的渲染技術(shù)，包括虛擬人的形象等還需要再去提升，因為客戶端的體驗非常重要。在做交互之前，第一步要先要把畫面呈現(xiàn)達到一定水平，再結(jié)合交互，這樣才能夠真正產(chǎn)生商業(yè)化的價值。尤其大品牌會要求虛擬人跟自己的品牌形象和品牌調(diào)性高度契合，所以對此要求會比較高。

國內(nèi)數(shù)字人和生成式AI技術(shù)的發(fā)展現(xiàn)狀和機遇

國內(nèi)外在數(shù)字人和生成式AI技術(shù)領域內(nèi)的差異顯而易見，只有正視自身短處，才能找到前進動力和方向。采訪嘉賓們也分別為我們介紹了目前國內(nèi)在技術(shù)、商業(yè)化方面的短板在哪里。

1、數(shù)字人要克服的挑戰(zhàn)和難點

倒映有聲創(chuàng)始人兼CEO肖朔認為，數(shù)字人的技術(shù)離天花板尚有很遠的距離，雖然大家要面臨很多挑戰(zhàn)，但也意味著大量的創(chuàng)業(yè)公司依然有很多機會窗口。他說，以3D數(shù)字人和2D數(shù)字人兩種技術(shù)解決方案為例， 3D數(shù)字人的技術(shù)能夠做到很高端精細的效果，但是財務成本、時間成本、人力成本都很高，那么，破局之道就是解決成本問題。而對于同倒映有聲一樣深耕 2D 數(shù)字人技術(shù)解決方案的公司來說，核心競爭力則是要在人物動作的復雜度上不斷加強，更擬真、更細化、更交互、更有情感，以及模態(tài)的更深融合，都是需要進一步投入研發(fā)的。

創(chuàng)想數(shù)維CEO吳未認為國內(nèi)數(shù)字人技術(shù)面臨以下幾大挑戰(zhàn)。首先，國內(nèi)企業(yè)需要跟上研發(fā)的節(jié)奏，因為現(xiàn)在很多核心組件都需要在國外廠商那里投入資源去研發(fā)。國內(nèi)的替代速度相對較慢，所以行業(yè)需要更好、更便宜的組成部件來降低整體解決方案的成本，同時周邊生態(tài)也要能跟上。

其次，需要降低流量和算力成本。這對于行業(yè)的擴張非常重要。如果有大公司愿意牽頭，建立流量和算力平臺，將有助于其他內(nèi)容創(chuàng)意者和創(chuàng)意團隊更好地拓展業(yè)務。最后，客戶了解和認識新技術(shù)的速度和影響力也都需要加強，這些新技術(shù)能為因為數(shù)字內(nèi)容創(chuàng)意行業(yè)提供有效的生產(chǎn)力。但距離盡快普及還有很長的客戶教育之路要走。

2、國內(nèi)生成式AI技術(shù)的挑戰(zhàn)和難點

1）商業(yè)模式層面

一知智能CTO李一夫認為，國內(nèi)的生成式AI在技術(shù)方面很多還是依賴GPT、diffusion等API或開源框架。在商業(yè)化方面，整個生成式AI中，大模型可分為“底層”跟“應用層”兩層，其中“底層”又包含大模型的“模型層”等，而目前底層模型仍存在非常大的難點需要去攻克，因此關(guān)于商業(yè)化的討論我們更多的都是針對應用層的公司。

拓元智慧聯(lián)創(chuàng)兼元分身平臺總經(jīng)理黃偉鵬表示，這兩年處于AI技術(shù)發(fā)展的拐點，去年11月到現(xiàn)在，全球已經(jīng)公布總計超過20個大模型產(chǎn)品，讓科技圈都看到了希望，除了前期需要大量的創(chuàng)新實踐，去探索前沿技術(shù)的商業(yè)可行性，資金支持也是必不可少的。

目前國內(nèi)應用層的創(chuàng)業(yè)者公司主要有下面兩類，一種是自身有一定技術(shù)背景，然后依賴國外廠商API的公司，他們在垂直化模型研發(fā)的過程中，可能遇到的挑戰(zhàn)是大模型開放API后，固有技術(shù)壁壘的競爭優(yōu)勢會受到影響，同時也會面臨訓練成本高的問題。另外一種企業(yè)可能原來是在做SaaS工具且具備業(yè)務know-how的公司，他們會在原有的產(chǎn)品上疊加AIGC的能力，但由于缺乏自主研發(fā)的基因，因此即便預算足夠聘請算法工程師，但在對生成式AI的理解以及產(chǎn)品的落地方面往往會受限，這類廠商對商業(yè)化以及大廠提供生成式AI的依賴度較高，而部分連業(yè)務knowhow也缺乏的公司，更是面臨很高的創(chuàng)業(yè)成本。

2）技術(shù)層面

拓元智慧聯(lián)創(chuàng)兼元分身平臺總經(jīng)理黃偉鵬表示，最大的挑戰(zhàn)是在數(shù)據(jù)量和算力上。在數(shù)據(jù)量上，優(yōu)質(zhì)的專門數(shù)據(jù)和資金支持研發(fā)，兩者缺一不可。而在算力上，像A100大算力顯卡供應，在國內(nèi)仍處于卡脖子狀態(tài)，所以國內(nèi)的AIGC技術(shù)會和海外研發(fā)造成一定的差距。

創(chuàng)想數(shù)維CEO吳未認為，首先，發(fā)展生成式AI技術(shù)的必要條件之一就是要有優(yōu)質(zhì)的數(shù)據(jù)，而不是簡單的數(shù)據(jù)。然而，國內(nèi)很缺乏優(yōu)質(zhì)的結(jié)構(gòu)化數(shù)據(jù)，這是我們面臨的首要挑戰(zhàn)之一。其次，發(fā)展AI技術(shù)需要長期投入研發(fā)資金，這可能需要5-10年的時間，而且在此之前很大概率并不賺錢。中國資本、政策以及企業(yè)家是否有足夠的定力看到這一點，并認識到其發(fā)展的必要性將是很大的考驗。

元境科技創(chuàng)始人王智武強調(diào)，國內(nèi)的整個數(shù)據(jù)壁壘比較高，而且在國內(nèi)的整個的大環(huán)境下，受開發(fā)環(huán)境及政策的影響，數(shù)據(jù)的共享很難實現(xiàn)，高質(zhì)量的數(shù)據(jù)也難以獲取。相比之下，國外的開發(fā)端口比較豐富，高質(zhì)量數(shù)據(jù)的獲取也相對便捷。第三個問題是國外的開源社區(qū)很多，國內(nèi)的開源社區(qū)特別少。第四個問題在算力方面，國內(nèi)算力受限比較嚴重，一方面在硬件比如顯卡，國內(nèi)外顯卡性能差距較大，另一方面在人才，國外在這方面的人才相對較多，相比之下國內(nèi)相對匱乏且僅在大廠商內(nèi)，這些綜合因素都造成了國內(nèi)目前在AI領域相對落后等一些問題。

3）人才層面

行業(yè)人才缺乏甚至斷檔也是目前整個行業(yè)面臨的一大難題。雖然這個賽道今年才開始爆火，但其實已經(jīng)存在了十多年，只不過一直都處于比較邊緣地帶。因此人才梯度有嚴重缺失，會造成短期一兩年內(nèi)人才斷檔。再加上大企業(yè)招人更有優(yōu)勢，因此這對獨立廠商搭建團隊將會帶來一定影響。

3、國內(nèi)外行業(yè)生態(tài)差距對比

對于國內(nèi)外差距對比，倒映有聲創(chuàng)始人兼CEO肖朔概括了三個值得關(guān)注的現(xiàn)象。首先，是否有健全的開源生態(tài)。鑒于海內(nèi)外迥然不同的競爭格局和商業(yè)模式，國外開源生態(tài)更利于新興企業(yè)的技術(shù)崛起。其次，是否有付費習慣和付費能力。海外商業(yè)環(huán)境下，即使一家AI創(chuàng)業(yè)公司只做了一個簡單的模塊，依然可以產(chǎn)生盈利，但是國內(nèi)卻很難，會快速地陷入到“價格戰(zhàn)”的競爭環(huán)境中，所以國內(nèi)AI創(chuàng)業(yè)企業(yè)的生存難度遠高于國外。

第三，是否實現(xiàn)工具化的應用。從技術(shù)角度來說，海外目前是全面開花，工具化應用也落地更顯著。比如，基于GPT的Jasper.ai，NotionAI的營銷軟件、基于語音識別的Descript等，都已經(jīng)走出了成熟的商業(yè)模式。

宙予科技創(chuàng)始人朱峰表示，目前國際上圖形學的生成式AI技術(shù)的頂峰是生成3D模型，但目前國內(nèi)外都還沒有好的解決方案，依然在嘗試通過數(shù)據(jù)集把生成式3D模型能訓練出來。而且這需要投入大量的金錢和人力成本。目前已經(jīng)成熟的技術(shù)里，StableDiffusion是開源的，而Midjourney是閉源的，并且Midjourney對于圖像的生成已經(jīng)到了能生成非常精致的圖片的程度，尤其第五代版本是以超寫實的，照片級的合成為主方向發(fā)展的。但是國內(nèi)的技術(shù)能力還達不到這個程度，目前頂多在第四代水平。大語言模型體現(xiàn)出了“涌現(xiàn)能力”的特征，這是一種“追趕效應”的體現(xiàn)，領先者進化的速度和加速度都會大于落后者。現(xiàn)實世界里差半年時間，在人工智能的世界里可能意味著差十年，要想跟上對方步伐真的很困難。所以在這個前提之下，國內(nèi)的AI圖形生成技術(shù)相比海外差距還是蠻大的。

在其他領域，比如交互領域商業(yè)化有一個非常大的難題，就是廠商對于生成答案的控制和審核的要求，國內(nèi)外各有側(cè)重。漢語比較難的地方在于其本身的高維度語義呈現(xiàn)，可以隱藏在卷曲的語義里面。這就對每一個公司的審核能力要求很高。如果某一家公司的審核能力不夠強，其他公司調(diào)用了他們的接口，那么就很難界定責任方。這意味著國內(nèi)做生成式AI的公司在商業(yè)化過程中要遇到一個重要挑戰(zhàn)，就是要為自己說的話負責，但這個負責該如何體現(xiàn)，獎懲機制如何平衡等都將是很大的難題。

生成式AI技術(shù)何時走向成熟和規(guī)?；瘧?/span>

元境科技創(chuàng)始人王智武認為生成式AI還有很長的路要走。目前的ChatGPT3.5甚至4相對來說仍只處于10%- 20%的一個基礎階段，因為未來的世界不僅僅是文本，一定是多模態(tài)，這意味著未來的生成式人工智能需要能夠處理多種數(shù)據(jù)類型，例如圖像、音頻、視頻等，成為各種各樣的形式互相穿插的技術(shù)形態(tài)。因此雖然前期會有爆發(fā)式的增長，但后面需要落實到技術(shù)沉淀中，相對增長也會變得緩慢，但越緩慢代表越來越成熟。

另外，隨著AI技術(shù)的不斷發(fā)展，雖然一些傳統(tǒng)的崗位可能會被淘汰，但同時又會催生出很多元宇宙中的崗位。在元宇宙的世界里面，比如基礎的程序員會被淘汰，但可能會催生出比如調(diào)試員、調(diào)優(yōu)員之類的崗位，除此之外，還會衍生出元宇宙設計師、建筑師、VR/AR工程師等職業(yè)，就業(yè)種類也許會變得更多。所以我們需要更加積極地適應這種變化，發(fā)展和運用技術(shù)。另外在基礎的一些文本生成方面，文案策劃、新媒體運營這樣的崗位不一定會被代替，但生產(chǎn)模式可能會隨著AI技術(shù)而升級。還有就是中之人、演員行業(yè)，也會隨著AI替換技術(shù)的成熟發(fā)生很大變化，比如在元宇宙世界中進行表演，將會讓藝術(shù)變得更加天馬行空，想象力會被徹底釋放。

拓元智慧聯(lián)合創(chuàng)始人黃偉鵬表示，中國有數(shù)以千萬計的中小型商家，在直播帶貨的投入預算上相對有限，且能帶動直播及營銷效果的主播也比較稀缺，導致供需出現(xiàn)了嚴重的失衡和脫鉤現(xiàn)象。在這種情況下，數(shù)字人、AIGC的相關(guān)應用在直播行業(yè)是非常有前景的。區(qū)別于傳統(tǒng)真人直播、3D虛擬人直播方案，元分身平臺打造了具有互動體驗更真實、性價比更高、使用門檻更低、業(yè)務搭建更快捷等優(yōu)勢的數(shù)智人直播方案。在團隊自研的多模態(tài)AIGC及互動平臺的技術(shù)加持下，具備“真人形象和聲音+動作多變靈動+自動問答、智能互動”能力的AI數(shù)智人主播，對比真人直播GMV超3倍，有效幫助企業(yè)打造可靠的7x24小時的超級直播間。

宙予科技創(chuàng)始人朱峰的觀點是，以ChatGPT為代表的生成式AI技術(shù)，大都正在經(jīng)歷落地化應用前的最后一站，有了每一個行業(yè)準確的知識再進行進一步的優(yōu)化之后，插件就會變得越來越多。Plugin Store也就即將是未來的App Store，隨著這個應用商店的不斷成熟，未來還會涌現(xiàn)出更多的基于AI的APP，這將是下一個時代的真實的落地應用的一個大前提，帶來的變革和影響會是非常劇烈的。

創(chuàng)想數(shù)維CEO吳未認為，隨著生成式AI技術(shù)的不斷成熟，在3到5年內(nèi)，單個崗位的工作效率可能會提高5到10倍。這是第四次工業(yè)革命的開始，從今年開始就是生成式AI的時代，它將先從以服務類、文娛、內(nèi)容產(chǎn)業(yè)為主的第三產(chǎn)業(yè)開始普及。當AIGC真正深入到企業(yè)的生產(chǎn)環(huán)節(jié)中，企業(yè)的人均產(chǎn)值會大幅提升。作為企業(yè)家，一定要有清醒的認識，未來可能會出現(xiàn)競爭對手，他們的人均產(chǎn)值是你的3倍甚至5倍。如果不能跟上這個趨勢，就會被淘汰。因此，現(xiàn)在就要開始補充這個領域的知識，全員都需要了解如何利用AI來提高公司的生產(chǎn)效率。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

1、生成式AI技術(shù)是提升數(shù)字人交互能力的拐點

2、生成式AI將帶來數(shù)字人的交互場景創(chuàng)新

1、數(shù)字人要克服的挑戰(zhàn)和難點

2、國內(nèi)生成式AI技術(shù)的挑戰(zhàn)和難點

3、國內(nèi)外行業(yè)生態(tài)差距對比

1、生成式AI技術(shù)是提升數(shù)字人交互能力的拐點

1、數(shù)字人要克服的挑戰(zhàn)和難點

2、國內(nèi)生成式AI技術(shù)的挑戰(zhàn)和難點

3、國內(nèi)外行業(yè)生態(tài)差距對比