12月6日,谷歌發(fā)布大模型Gemini 1.0,并在技術(shù)報告中聲稱其Ultra版在絕大部分測試中優(yōu)于GPT-4。(1)Gemini Ultra,對標GPT-4,主要用于數(shù)據(jù)中心,在32項基準測試中30項優(yōu)于GPT-4,絕大部分文本和推理測試中略勝于GPT-4,在幾乎所有多模態(tài)(圖像、視頻、音頻)任務(wù)中略勝于GPT-4V。預(yù)計2024年初可以通過Bard的高級版訪問。(2)Gemini Pro,對標GPT3.5,在8項基準測試中6項優(yōu)于GPT3.5,適用于廣泛的任務(wù),目前已部署在Bard(僅支持文本),開發(fā)者和企業(yè)客戶12月13日可以通過Google AI Studio或Google Cloud Vertex AI訪問Gemini Pro。(3)Gemini Nano,支持在安卓設(shè)備上本地離線訪問,目前已在Pixel 8 Pro上部署,可以實現(xiàn)文本摘要、上下文智能回復(fù)、語法糾正等功能,在Gemini Nano支持下,Pixel 8 Pro可以在沒有網(wǎng)絡(luò)連接的情況下總結(jié)錄音內(nèi)容。 目前創(chuàng)建多模態(tài)模型時,往往分別訓練不同模態(tài)的模型并加以拼接。OpenAI就是單獨訓練了支持圖像和語言的模型DALL-E和Whisper。而Gemini為原生多模態(tài)大模型,由多模態(tài)數(shù)據(jù)集訓練而來,一開始就在不同模態(tài)上進行預(yù)訓練,可以處理跨文本、圖像、音頻、視頻和代碼的復(fù)雜任務(wù),因此能夠?qū)斎氲母髂B(tài)內(nèi)容順暢地理解和推理,效果較優(yōu)。多模態(tài)能力將是未來大模型廠商技術(shù)發(fā)展重點,谷歌、OpenAI、Adobe等巨頭紛紛發(fā)力多模態(tài),人工智能有望加速邁進“通感”時代,應(yīng)用場景和生態(tài)也將進一步豐富。 A股多模態(tài)相關(guān)概念股有約40只,受Gemini發(fā)布的影響,近期表現(xiàn)搶眼。網(wǎng)達軟件(603189.SH)拿下6天4板,公司稱促進AI技術(shù)在視頻圖像領(lǐng)域的應(yīng)用,可對媒資內(nèi)容進行視頻結(jié)構(gòu)化分析,實現(xiàn)自動打點、自動標注、自動快剪、自動人物集錦等功能,以減少了人工標注的工作量。此外,參股公司上海蛙色產(chǎn)品可以實現(xiàn)AI摳圖生成嵌入視頻/圖文,位置匹配系統(tǒng)可實現(xiàn)多模態(tài)動態(tài)交互,打造科技創(chuàng)意效果。因賽集團(300781.SZ)近6天內(nèi)收獲3次20%漲停,公司基于各類第三方大型模型和自研營銷領(lǐng)域?qū)S玫腁IGC多模態(tài)模型,實現(xiàn)文本、圖片、視頻等多種形式的智能化內(nèi)容生成,并應(yīng)用于智能策劃、文案撰寫、平面設(shè)計、視頻制作等具體的業(yè)務(wù)場景。蘇州科達(603660.SH)兩連板,公司是網(wǎng)絡(luò)視頻會議和網(wǎng)絡(luò)安防領(lǐng)域龍頭,推出了著眼于安防行業(yè)實際應(yīng)用場景的大模型KD-GPT,包括多模態(tài)大模型、AIGC圖像大模型和行業(yè)大模型已經(jīng)初具雛形,并開始在實際項目中投入應(yīng)用聲訊股份(003004.SZ):公司在多源多模態(tài)算法和模型上有長期的積累,在沉淀多年的行業(yè)大數(shù)據(jù)基礎(chǔ)上,經(jīng)過長期訓練形成了安防、檢領(lǐng)域的行業(yè)化智能應(yīng)用。公司在安防、安檢類的數(shù)據(jù),如視頻數(shù)據(jù)、音頻數(shù)據(jù)、報警圖像數(shù)據(jù)、X光成像數(shù)據(jù)等方面,有著豐富的大數(shù)據(jù)基礎(chǔ),形成了安防與安檢千萬級的可見光視頻圖像數(shù)據(jù)、光圖像數(shù)據(jù)以及其他結(jié)構(gòu)光的圖像數(shù)據(jù)。
投資是一項系統(tǒng)性工程,此處分享的僅僅是其中的冰山一角,沒有人能夠僅憑這一點就能取得投資成功。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。