在去年ChatGPT引領(lǐng)的大模型浪潮之后,AI Agent迅速嶄露頭角,成為業(yè)界的新焦點(diǎn)。比爾蓋茨撰文預(yù)測(cè)它將顛覆軟件行業(yè)和人機(jī)交互方式,引起了廣泛關(guān)注。
據(jù)外媒MattSchlicht報(bào)道:“至少有100個(gè)項(xiàng)目正致力于將AI代理商業(yè)化,近10萬名開發(fā)人員正在構(gòu)建自主Agent。”微軟、OpenAI和谷歌等國外科技巨頭更是將其視為下一階段發(fā)展的關(guān)鍵戰(zhàn)場(chǎng)。那么,AI Agent究竟是什么?
AI Agent被翻譯為人工智能體或AI代理。 OpenAI將 AI Agent 定義為以大語言模型(LLM)為大腦驅(qū)動(dòng),具有自主理解、感知、規(guī)劃、記憶和使用工具的能力,能自動(dòng)化執(zhí)行復(fù)雜任務(wù)的系統(tǒng)。它可以模擬人類的智能行為,處理復(fù)雜的任務(wù),并根據(jù)環(huán)境的變化進(jìn)行自適應(yīng)和學(xué)習(xí),從而提高智能化水平和性能。
簡單來說,就是有能力主動(dòng)思考和行動(dòng)的智能體。用一個(gè)通俗易懂的例子來講,“大語言模型只能編個(gè)簡易俄羅斯方塊,而AI Agent可以整出一個(gè)和平精英?!?/span>
眾所周知,移動(dòng)互聯(lián)網(wǎng)時(shí)代的產(chǎn)品形態(tài)是APP,那么AGI時(shí)代的應(yīng)用形態(tài)則是AI Agent。
AI agent的核心組件包括記憶、規(guī)劃、工具。
記憶組件負(fù)責(zé)存儲(chǔ)信息,包括長期記憶和短期記憶。目前的GPT等大模型只有基礎(chǔ)的短期記憶能力,一旦進(jìn)行多輪對(duì)話就容易忘記之前的內(nèi)容。
而AI Agent則在擁有更強(qiáng)的上下文和跨對(duì)話記憶的基礎(chǔ)上,不僅能記住先前的對(duì)話內(nèi)容和用戶偏好,還能記住對(duì)環(huán)境的感知形成世界觀,從而提供更個(gè)性化和連貫的交流體驗(yàn)。
規(guī)劃組件負(fù)責(zé)對(duì)未來行動(dòng)的決策和計(jì)劃制定,在執(zhí)行復(fù)雜任務(wù)時(shí)將其分解為子目標(biāo),分步解決,并根據(jù)外界的反饋進(jìn)行反思和優(yōu)化。
工具組件負(fù)責(zé)調(diào)用外部工具來獲取額外的信息或執(zhí)行能力。GPT4的插件生態(tài)與此類似,但這需要用戶根據(jù)需求自己選擇相應(yīng)的插件,而AI Agent可以自動(dòng)調(diào)用工具使用。
那AI Agent 和GPTs相比到底有哪些區(qū)別呢?
OpenAI 發(fā)布的GPTs算是 AI Agent 初級(jí)形態(tài)產(chǎn)品。但目前GPTs是基于prompt(提示詞)實(shí)現(xiàn)的,針對(duì)某個(gè)單項(xiàng)任務(wù),只有當(dāng)你輸入明確有效的prompt時(shí),才有可能得到想要的結(jié)果。
而 AI Agent 就如同《星際穿越》里的塔斯、《鋼鐵俠》里的賈維斯一樣,可以根據(jù)你提出的需求,自主思考并決策,將目標(biāo)任務(wù)拆解為多個(gè)子任務(wù),然后利用外部工具一步步執(zhí)行,直到達(dá)成目標(biāo)。
AI Agent和大模型的區(qū)別在于擁有長期記憶,可以感知世界、協(xié)同處理任務(wù),會(huì)解決問題并做出決策。
舉一個(gè)例子,來自斯坦福大學(xué)以及谷歌的人工智能研究團(tuán)隊(duì)創(chuàng)造了斯坦福維爾虛擬村莊,里面的村民是25個(gè)不同的AI Agent,他們通過訓(xùn)練具備了一定的社交技能并擁有各自的性格和社會(huì)角色。
在小鎮(zhèn)的生活中他們會(huì)記住每天發(fā)生的事,并基于新的記憶進(jìn)入新的一天。而且隨著互動(dòng)的增加建立了復(fù)雜的關(guān)系,形成各類群體,并參與各種游戲和活動(dòng),甚至自主策劃了一場(chǎng)情人節(jié)派對(duì),表現(xiàn)出了令人驚訝的自主性和智能性。
再舉一個(gè)生活中的例子,當(dāng)你需要做年終匯報(bào)PPT時(shí),AI Agengt自動(dòng)將任務(wù)分為幾步,并調(diào)用其他工具搜集資料、制作圖表、生成內(nèi)容,甚至協(xié)同其他Agengt工作,最終完成PPT。而你使用GPTs則需要自己使用各類插件,每一步都要輸入相應(yīng)的提示詞,并且進(jìn)行反復(fù)調(diào)試才可能得到想要的結(jié)果。
那么目前除了上面提到的斯坦福維爾虛擬村莊,還有其他已經(jīng)開發(fā)出來的AI Agent嗎?
事實(shí)上,國外已經(jīng)存在很多AI Agent架構(gòu)與產(chǎn)品,例如:AutoGPT、Generative Agent、GPT-Engineer、BabyAGI、MetaGPT、GPT Researcher,這些搭載了大型語言模型能力的Agent不僅可以生成內(nèi)容,還可以直接解決各種場(chǎng)景中的各種問題,涉及零售、房地產(chǎn)、旅游、客戶服務(wù)、人力資源、金融、制造業(yè)等多個(gè)領(lǐng)域。
AI Agent開源性項(xiàng)目的典型代表之一是AutoGPT,它相當(dāng)于一個(gè)完整的工具包,可以為各種項(xiàng)目構(gòu)建和運(yùn)行自定義AI Agent。該工具使用OpenAI的GPT-4和GPT-3.5大語言模型(LLM),允許為各種個(gè)人和商業(yè)項(xiàng)目構(gòu)建Agent。
AI Agent閉源性項(xiàng)目包括:使用個(gè)人知識(shí)庫的金融人工智能代理平臺(tái),“開發(fā)人員虛擬實(shí)習(xí)生”BitBuilder,人工智能驅(qū)動(dòng)的軟件開發(fā)商GitHub Copilot X等。
美國大語言模型明星創(chuàng)業(yè)公司Inflection AI也準(zhǔn)備加入其中。據(jù)透露其正在開發(fā)一款私人助理,可以充當(dāng)導(dǎo)師,以及處理在旅行過程中的行程預(yù)定、航班積分、酒店預(yù)定等任務(wù)。去年6月,Inflection AI的估值就達(dá)到40億美元,累計(jì)融資額15.25億美元,在基礎(chǔ)大模型公司中僅次于OpenAI。
亞馬遜云科技也宣布了Amazon Bedrock Agents新功能,它可以把開發(fā)、部署和管理多個(gè)Agent的能力打包集成在一起,開發(fā)者只需要幾次點(diǎn)擊,就可以構(gòu)建Agent應(yīng)用。
而在國內(nèi),釘釘總裁在采訪時(shí)稱釘釘計(jì)劃在4月份推出AI Agent Store,目標(biāo)是成為中國最活躍的AI Agent孵化、分發(fā)和交易平臺(tái),三年內(nèi)產(chǎn)生1000萬個(gè)AI助理。聯(lián)想集團(tuán)副總裁對(duì)媒體表示,聯(lián)想個(gè)人Agent將在不久后與用戶見面。
但是目前的AI Agent還未能達(dá)到理想效果,其發(fā)展仍然面臨一些困境,一方面它的底層技術(shù)大模型還不夠完善,復(fù)雜推理能力有待提高。
另一方面外部生態(tài)融合度不高,比如我們無法直接使用GPTs直接操作SAP或金蝶等ERP系統(tǒng),目前AI Agent的第三方API基本以搜索和文件讀取功能為主,很難做到比較完整的跨應(yīng)用生態(tài)。
不過AI Agent是當(dāng)前通往AGI的主要探索方向,它是釋放大模型潛能的關(guān)鍵。
隨著的研究發(fā)展,AI Agent與人的合作將逐漸加深,人機(jī)協(xié)作的模式逐漸從人類完成絕大部分工作的嵌入(Embedding)模式、人類和AI協(xié)作工作的副駕駛(Copilot)模式,逐漸過渡到AI完成絕大部分工作的智能體(Agent)模式。
AI Agent可以讓大模型從“超級(jí)大腦”進(jìn)化為人類的“全能助手”。 比爾·蓋茨預(yù)測(cè) 在未來的5年內(nèi),AI Agent將得到廣泛應(yīng)用,每個(gè)用戶都將擁有一個(gè)專 屬AI Agent 。在人機(jī)融合加深的趨勢(shì)下,每個(gè)普通個(gè)體都有可能成為 超級(jí)個(gè)體
聯(lián)系客服