“紫東太初”大模型
中科院推出全球首個(gè)千億
參數(shù)多模態(tài)大模型
#導(dǎo)語#
中科院自動(dòng)化研究所研究員張家俊介紹了“紫東太初”大模型,這是全球首個(gè)千億參數(shù)多模態(tài)大模型,它支持多任務(wù)自監(jiān)督學(xué)習(xí),能夠?qū)崿F(xiàn)模態(tài)理解與模態(tài)生成統(tǒng)一建模。該模型能夠執(zhí)行跨模態(tài)檢索與生成實(shí)例,如以文搜圖、以圖生音、以音生圖等2。
中科院對(duì)于“紫東太初”看法
東太初是中國科學(xué)院自動(dòng)化研究所研發(fā)的跨模態(tài)通用人工智能平臺(tái),它是全球首個(gè)圖文音(視覺-文本-語音)三模態(tài)預(yù)訓(xùn)練模型(OPT-Omni-Perception pre-Trainer),具備跨模態(tài)理解與跨模態(tài)生成能力。該平臺(tái)以多模態(tài)大模型為核心,基于全棧國產(chǎn)化基礎(chǔ)軟硬件平臺(tái)昇騰AI,并依托武漢人工智能計(jì)算中心算力支持。紫東太初大模型由武漢人工智能研究院、中科院自動(dòng)化所與華為聯(lián)合研發(fā),實(shí)現(xiàn)了圖像、文本、語音三個(gè)模態(tài)數(shù)據(jù)之間的“統(tǒng)一表示”。
紫東太初的命名寓意著紫氣東來、混沌初開,象征著人工智能從專用邁向通用,從感知智能邁向認(rèn)知智能的過程。此外,紫東太初還具有全模態(tài)理解能力、生成能力和關(guān)聯(lián)能力,不僅能讀懂文字、圖像和音頻,還能理解視頻、3D點(diǎn)云等。它通過有效編碼語音、文本和目標(biāo)區(qū)域之間的時(shí)空關(guān)系,首次實(shí)現(xiàn)了'語音生成視頻'的功能。
紫東太初2.0是在原有基礎(chǔ)上的升級(jí)版,它以自動(dòng)化所自研算法為核心,以昇騰AI硬件及昇思MindSpore AI框架為基礎(chǔ),進(jìn)一步探索通用人工智能的可能性。這一版本不僅保持了對(duì)三模態(tài)的理解和生成能力,還擴(kuò)展到了全模態(tài),包括視頻、3D點(diǎn)云等,為認(rèn)知智能時(shí)代的加速到來提供了強(qiáng)有力的支持。
紫東太初及其2.0版本代表了中國在通用人工智能領(lǐng)域的重要進(jìn)展,通過其跨模態(tài)的理解與生成能力,以及全模態(tài)的擴(kuò)展,為人工智能的發(fā)展開辟了新的道路。
紫東太初的具體技術(shù)架構(gòu)和算法原理是什么?
紫東太初的具體技術(shù)架構(gòu)和算法原理主要包括以下幾個(gè)方面:
全模態(tài)開放式接入:紫東太初2.0在技術(shù)架構(gòu)上實(shí)現(xiàn)了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的全模態(tài)開放式接入,這意味著它能夠處理包括語音、圖像、文本、視頻、傳感信號(hào)、3D點(diǎn)云等多種類型的數(shù)據(jù)。
多模態(tài)分組認(rèn)知編解碼技術(shù):該技術(shù)能夠?qū)π畔⑦M(jìn)行充分理解和靈活生成。這是通過將不同模態(tài)(如視覺、文本、語音)映射到統(tǒng)一的語義空間中實(shí)現(xiàn)的,然后利用多頭自注意力機(jī)制來學(xué)習(xí)模態(tài)之間的關(guān)系。
認(rèn)知增強(qiáng)多模態(tài)關(guān)聯(lián)技術(shù):這項(xiàng)技術(shù)能夠融合多個(gè)任務(wù),提高模型的認(rèn)知能力。它允許模型在處理多種類型的數(shù)據(jù)時(shí),能夠更好地理解和關(guān)聯(lián)這些數(shù)據(jù)之間的關(guān)系。
全棧國產(chǎn)化支持:紫東太初支持華為昇騰NPU、Nvidia GPU、Arm64架構(gòu)的硬件資源,并兼容MindSpore、Pytorch等計(jì)算框架,實(shí)現(xiàn)了全棧國產(chǎn)化,確保了模型的可控性和可信度。
紫東太初的技術(shù)架構(gòu)和算法原理主要圍繞全模態(tài)數(shù)據(jù)處理、多模態(tài)認(rèn)知編解碼以及認(rèn)知增強(qiáng)的多模態(tài)關(guān)聯(lián)等方面展開,同時(shí)通過全棧國產(chǎn)化的支持,確保了模型的應(yīng)用靈活性和安全性。
01
紫東太初在實(shí)際應(yīng)用中
的案例或成效展示有哪些?
紫東太初在實(shí)際應(yīng)用中的案例或成效展示主要包括以下幾個(gè)方面:
在紡織工業(yè)生產(chǎn)線中,紫東太初通過融合多模態(tài)信息,利用語音識(shí)別判斷斷緯和斷經(jīng),通過視覺識(shí)別判斷布匹的缺陷,展示了其強(qiáng)大的綜合研判能力和廣闊的應(yīng)用前景。
紫東太初還被應(yīng)用于三維虛擬人“小初”的創(chuàng)建,實(shí)現(xiàn)了不同模態(tài)間的互相轉(zhuǎn)換和生成,包括視頻生成、視頻描述、圖像生成、智能問答、語音識(shí)別等多個(gè)功能。
在數(shù)字物聯(lián)時(shí)代,紫東太初2.0能夠理解三維場(chǎng)景、信號(hào)等重要信息,完成音樂、圖片和視頻等數(shù)據(jù)之間的跨模態(tài)對(duì)齊,處理音樂視頻分析、三維導(dǎo)航等多模態(tài)關(guān)聯(lián)應(yīng)用需求,并可實(shí)現(xiàn)音樂、視頻等多模態(tài)內(nèi)容的理解和生成。
“嫦娥工程”案例展示了紫東太初在骨科手術(shù)領(lǐng)域的應(yīng)用,憑借其卓越的技術(shù)實(shí)力和產(chǎn)業(yè)應(yīng)用價(jià)值,成功入選《2024中國大模型先鋒案例TOP30》榜單。
在智能座艙領(lǐng)域,基于紫東太初多模態(tài)大模型,長(zhǎng)安汽車引入了元宇宙的概念,創(chuàng)造了YYDS虛擬數(shù)字人,展示了其在智能汽車領(lǐng)域的應(yīng)用潛力。
紫東太初支持以文搜圖、以圖生音、以音生圖等跨模態(tài)檢索與生成實(shí)例,如輸入一個(gè)真實(shí)圖像,就能生成個(gè)性化的3D形象,展示了其在內(nèi)容創(chuàng)造和交互方面的強(qiáng)大能力。
這些案例和成效展示了紫東太初在多個(gè)領(lǐng)域的廣泛應(yīng)用和顯著成效,從工業(yè)生產(chǎn)到虛擬人物創(chuàng)建,再到醫(yī)療手術(shù)和智能汽車,紫東太初展現(xiàn)了其作為全模態(tài)大模型的強(qiáng)大潛力和廣泛應(yīng)用前景。
02
紫東太初如何解決跨模態(tài)理解
與生成的挑戰(zhàn),特別是在視頻
、3D點(diǎn)云等復(fù)雜數(shù)據(jù)處理上
的策略是什么?
紫東太初在解決跨模態(tài)理解與生成的挑戰(zhàn),特別是在視頻、3D點(diǎn)云等復(fù)雜數(shù)據(jù)處理上的策略主要包括以下幾點(diǎn):
全模態(tài)理解能力:紫東太初2.0具備全模態(tài)理解能力,能夠理解和處理包括文本、圖片、音頻、視頻、3D點(diǎn)云和傳感信號(hào)等多種模態(tài)的數(shù)據(jù)。這種全模態(tài)的理解能力使得模型能夠更好地處理和分析復(fù)雜的數(shù)據(jù)類型。
跨模態(tài)對(duì)齊:紫東太初2.0完成了音樂、圖片和視頻等數(shù)據(jù)之間的跨模態(tài)對(duì)齊,這意味著它能夠在不同模態(tài)之間建立聯(lián)系,從而更好地理解和生成跨模態(tài)內(nèi)容。
多任務(wù)統(tǒng)一生成式學(xué)習(xí)框架:紫東太初2.0首次提出了全模態(tài)多任務(wù)統(tǒng)一生成式學(xué)習(xí)框架,通過全模態(tài)分組對(duì)齊、分組解碼和聯(lián)合解碼的學(xué)習(xí)方式,形成了全模態(tài)邏輯推理鏈。這種學(xué)習(xí)框架有助于提高模型在處理復(fù)雜數(shù)據(jù)時(shí)的效率和準(zhǔn)確性。
跨模態(tài)遷移:紫東太初2.0還強(qiáng)調(diào)了跨模態(tài)遷移的重要性,這有利于知識(shí)獲取和產(chǎn)生更多的創(chuàng)新應(yīng)用。通過跨模態(tài)遷移,模型能夠在不同模態(tài)之間進(jìn)行有效的知識(shí)轉(zhuǎn)移和應(yīng)用拓展。
結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理:在技術(shù)架構(gòu)上,紫東太初2.0實(shí)現(xiàn)了對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理能力,這包括視頻、傳感信號(hào)、3D點(diǎn)云等更多模態(tài)的數(shù)據(jù)。這種能力使得模型能夠更靈活地應(yīng)對(duì)各種數(shù)據(jù)格式和類型,從而提高其在復(fù)雜數(shù)據(jù)處理上的性能。
紫東太初通過全模態(tài)理解能力、跨模態(tài)對(duì)齊、多任務(wù)統(tǒng)一生成式學(xué)習(xí)框架、跨模態(tài)遷移以及對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理等策略,有效解決了跨模態(tài)理解與生成的挑戰(zhàn),尤其是在視頻、3D點(diǎn)云等復(fù)雜數(shù)據(jù)處理上的表現(xiàn)。
紫東太初對(duì)于中國通用人工智能發(fā)展的影響及其在全球人工智能領(lǐng)域的競(jìng)爭(zhēng)地位是怎樣的?
紫東太初對(duì)于中國通用人工智能發(fā)展的影響顯著,其在全球人工智能領(lǐng)域的競(jìng)爭(zhēng)地位也逐漸顯現(xiàn)。首先,紫東太初2.0的發(fā)布標(biāo)志著中國在探索通用人工智能方面又邁出了重要一步。該模型以全模態(tài)大模型為基礎(chǔ),旨在實(shí)現(xiàn)可自主進(jìn)化的通用人工智能,并探索與類腦智能、博弈智能等技術(shù)路徑的相互融合。這表明紫東太初不僅關(guān)注于技術(shù)層面的創(chuàng)新,還致力于推動(dòng)這些技術(shù)在更多領(lǐng)域的應(yīng)用,為中國的數(shù)字經(jīng)濟(jì)快速發(fā)展貢獻(xiàn)力量。
紫東太初的研發(fā)和應(yīng)用,依托于國產(chǎn)化基礎(chǔ)軟硬件平臺(tái)昇騰AI和武漢人工智能計(jì)算中心的算力支持,展現(xiàn)了中國在通用人工智能領(lǐng)域自主創(chuàng)新的能力。這種基于國產(chǎn)化軟硬件平臺(tái)的全棧國產(chǎn)化通用人工智能底座的打造,不僅有助于減少對(duì)外部技術(shù)的依賴,還能促進(jìn)國內(nèi)相關(guān)產(chǎn)業(yè)鏈的發(fā)展,提升中國在全球人工智能領(lǐng)域的競(jìng)爭(zhēng)力。
此外,紫東太初的開發(fā)和應(yīng)用也反映了中國對(duì)通用人工智能發(fā)展的重視。隨著通用人工智能加速走進(jìn)現(xiàn)實(shí),它將成為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量。中國已逐步建立起涵蓋理論方法和軟硬件技術(shù)的體系化研發(fā)能力,紫東太初等項(xiàng)目的發(fā)展正是這一戰(zhàn)略部署的具體體現(xiàn)。
聯(lián)系客服