本文來源:物聯(lián)傳媒 本文作者:露西
上周,OpenAI發(fā)布文生視頻大模型Sora,貢獻(xiàn)了新年第一個(gè)科技圈熱點(diǎn)。
Sora可以根據(jù)用戶提供的文本創(chuàng)建連貫、逼真的視頻,且時(shí)長(zhǎng)能做到60s,遠(yuǎn)超行業(yè)平均4s的文生視頻長(zhǎng)度。
Sora的其他能力還包括多機(jī)位、多角度、互動(dòng)性、持久性,不成熟之處則體現(xiàn)在無法理解因果關(guān)系、空間細(xì)節(jié)不夠、難以準(zhǔn)確模擬復(fù)雜場(chǎng)景等。
結(jié)合2022年底大語言模型ChatGPT發(fā)布及后續(xù)的迭代動(dòng)作,其實(shí)我們能發(fā)現(xiàn)包括大語言模型、文生視頻模型在內(nèi)的大模型行業(yè)還處在發(fā)展早期,但發(fā)展速度卻要比過去其他行業(yè)更快。
似乎稍不注意,就可能有行業(yè)被顛覆,就可能錯(cuò)過時(shí)代轉(zhuǎn)折機(jī)遇。
于是,一大批與AI大模型相關(guān)的科技上市公司,正在被投資者詢問對(duì)Sora的看法與是否布局。
海康威視稱公司視覺大模型主要用在智能物聯(lián)行業(yè),可用于對(duì)現(xiàn)實(shí)拍到的視頻進(jìn)行人工智能分析,起到智能識(shí)別并推動(dòng)完成業(yè)務(wù)閉環(huán)的作用。而Sora是生成式的,與公司偏向“感知智能”的產(chǎn)品方向不太一致。(來源澎湃新聞)
大華股份擁有視覺大模型“星漢”,正在優(yōu)先試點(diǎn)城市治理、電力兩大行業(yè)。但“星漢”是解析式視覺大模型,能夠判斷視頻里發(fā)生了什么,而Sora是生成式的,可見這兩者方向也存在區(qū)別。(來源澎湃新聞)
投資者提問:看到公司發(fā)布的智能掃拖寶RS20 Pro在工作過程中還能自動(dòng)識(shí)別和抓拍寵物,自動(dòng)進(jìn)行聚合、剪輯和配樂,每日生成愛寵時(shí)光Vlog推送,非常喜歡這個(gè)功能。近期,OpenAI發(fā)布了首個(gè)文生視頻模型Sora,可以生成特定視頻,希望RS20 Pro也可以開發(fā)互動(dòng)訂制特定類型寵物視頻的功能以提高廣大用戶使用體驗(yàn),比如說寵物進(jìn)食時(shí),睡覺時(shí)或活動(dòng)時(shí),不知能否實(shí)現(xiàn)?
董秘回復(fù):Sora在媒體內(nèi)容生成上帶來了新的可能性。公司堅(jiān)持自主技術(shù)創(chuàng)新,保持對(duì)AI等核心技術(shù)的投入力度,會(huì)持續(xù)關(guān)注此類技術(shù)創(chuàng)新與公司產(chǎn)品和服務(wù)結(jié)合的可能性。
云從科技稱公司擁有的從容大模型已實(shí)現(xiàn)利用diffusion、GAN等生成式技術(shù)圍繞人物圖像、人物視頻數(shù)據(jù)進(jìn)行建模,通過文本和音頻實(shí)現(xiàn)對(duì)圖像和視頻內(nèi)容進(jìn)行生成、控制、編輯。公司正在積極布局文生圖像、視頻等跨模態(tài)領(lǐng)域,并認(rèn)為Sora大模型不僅在技術(shù)層面提升了AI的理解與生成能力,更在商業(yè)模式上開辟新的探索空間,未來有可能誕生更多跨領(lǐng)域的應(yīng)用解決方案,比如高效的內(nèi)容創(chuàng)作工具、精準(zhǔn)的決策支持系統(tǒng)或全新的用戶交互界面。
科大訊飛正在全力加大對(duì)星火認(rèn)知大模型的研發(fā)投入,其技術(shù)也已在學(xué)習(xí)、辦公、醫(yī)療、工業(yè)等領(lǐng)域有商業(yè)落地。根據(jù)2023年半年報(bào),星火認(rèn)知大模型的7大核心能力為:多風(fēng)格多任務(wù)長(zhǎng)文本生成能力、多層次跨語種語言理解能力、泛領(lǐng)域開放式知識(shí)問答能力、情境式思維鏈邏輯推理能力、多題型可解析數(shù)學(xué)能力、多功能多語言代碼能力、多模態(tài)輸入和表達(dá)能力。
其中多模態(tài)指的是以認(rèn)知智能大模型為核心,將語音、圖像、視頻等其他模型對(duì)齊到統(tǒng)一語義空間中,結(jié)合插件工具實(shí)現(xiàn)多模態(tài)協(xié)同涌現(xiàn)。目前星火大模型可實(shí)現(xiàn)虛擬人合成、圖文理解、文圖生成、多模態(tài)交互等多模態(tài)的輸入輸出,據(jù)透露也已擁有相對(duì)基礎(chǔ)的文生視頻功能。
星火大模型的目標(biāo),是實(shí)現(xiàn)通用模型對(duì)標(biāo)ChatGPT,且實(shí)現(xiàn)中文超越、英文相當(dāng)。
物聯(lián)網(wǎng)場(chǎng)景里有內(nèi)容產(chǎn)生的地方,就可以用上大模型。
從產(chǎn)品角度看,無論是ChatGPT還是Sora,它們都是變革性的、軟件形態(tài)的生產(chǎn)效率工具。
只不過有些行業(yè)優(yōu)先更適合使用這類工具,比如ChatGPT對(duì)新聞報(bào)道、客戶咨詢服務(wù)等行業(yè)產(chǎn)生影響,Sora則大概率在廣告、短視頻、影視、游戲等行業(yè)引爆變革。
物聯(lián)網(wǎng)行業(yè)是否也需要這些大模型產(chǎn)品?
在過去物聯(lián)傳媒記者對(duì)中科創(chuàng)達(dá)物聯(lián)網(wǎng)事業(yè)群副總裁楊新輝先生的采訪中,對(duì)相似的問題進(jìn)行了回答,即今天的大模型浪潮主要還是在AIGC大的范疇里,是基于人工智能做內(nèi)容產(chǎn)生。物聯(lián)網(wǎng)場(chǎng)景里有內(nèi)容產(chǎn)生的地方,比如說跟人有反復(fù)交互的產(chǎn)品類型,不管是語言還是圖像形式,大模型就會(huì)有突出的應(yīng)用價(jià)值。
當(dāng)然回到文章開頭,我們認(rèn)為大模型行業(yè)仍處在早期階段,從技術(shù)到產(chǎn)品、從產(chǎn)品到市場(chǎng)還有一段過程,計(jì)劃將大模型產(chǎn)品廣泛落地到物聯(lián)網(wǎng)細(xì)分行業(yè)可能也需要時(shí)間。
并且即便每次新聞事件發(fā)生時(shí)行業(yè)都十分熱鬧,但大模型的門檻其實(shí)很高,壁壘集中在數(shù)據(jù)、算力和算法三大方面,本質(zhì)上也是長(zhǎng)期的工作。
~END~
聯(lián)系客服