機(jī)器之能報(bào)道
DO anything
在推出了一款 AI 寫(xiě)作助手之后,人工智能初創(chuàng)公司 HyperWriteAI 又走在了前面——最近,他們推出了一款可以像人類(lèi)助手一樣辦事的數(shù)字助理 Personal Assistant 。
一經(jīng)推出,口碑不俗。
生成式 AI 初創(chuàng)企業(yè) Cohere 聯(lián)合創(chuàng)始人兼 CEO AidanGomez 贊賞其為「......第一次看到真正的『個(gè)人智能體』。」
網(wǎng)友反響也不錯(cuò),聲稱(chēng)這項(xiàng)工作讓人震撼,瀏覽網(wǎng)頁(yè)操作自動(dòng)化將迎來(lái)變革。
要說(shuō)個(gè)人助理,市面競(jìng)品其實(shí)不少,Personal Assistant 究竟有何獨(dú)特魅力?與眾不同?
公司宣稱(chēng),Personal Assistant 是第一個(gè)可以與瀏覽器交互操作的 AI 智能體(AI Agent)。
如果你覺(jué)得這個(gè)回答有點(diǎn)抽象,我們幫你問(wèn)了 Personal Assistant,讓它解釋一下自己「與其他 LLM 驅(qū)動(dòng)的虛擬助手最大區(qū)別是什么?」
「我可以與網(wǎng)頁(yè)瀏覽器交互?!顾f(shuō)。
其他助手基于海量的知識(shí)來(lái)生成文本和答案,而我擅長(zhǎng)的是搜索信息、導(dǎo)航到某個(gè)網(wǎng)站、填寫(xiě)表格以及與網(wǎng)頁(yè)上的各種 ARIA 元素交互。
Personal Assistant 回答自己與其他大模型驅(qū)動(dòng)的助理的最大區(qū)別。
那么,什么是智能體(Agent)?
在大模型語(yǔ)境下,可以理解成能自主理解、規(guī)劃、執(zhí)行復(fù)雜任務(wù)的系統(tǒng)。
AI 智能體( AI Agent)并非 ChatGPT 升級(jí)版,它不僅告訴你答案,更重要的是它會(huì)幫你去做 (do it),等于給雙手雇了一個(gè)「跑腿」的(ChatGPT 不擅長(zhǎng))。
給你的瀏覽器安裝 Personal Assistant 這個(gè)插件后,AI 就可以幫你完成人類(lèi)在網(wǎng)上所做的事情,無(wú)論是在上面做研究、買(mǎi)東西、訂購(gòu)服務(wù)還是瀏覽新聞、收集信息,等等。
你要做啥,就告訴 Personal Assistant,然后做你的甩手掌柜,它會(huì)為你自動(dòng)完成任務(wù)。
接下來(lái),我們感受一下它的神奇能力。
如果需要出行,想預(yù)訂行程,告訴 Personal Assistant 出發(fā)地與目的地以及具體時(shí)間,Personal Assistant 會(huì)進(jìn)入瀏覽器頁(yè)面主動(dòng)搜索符合要求的出行方案。
公司的DEMO演示接下來(lái),Personal Assistant 會(huì)挑選出幾個(gè)較為合適的方案供你選擇。選擇后,你的行程就將預(yù)訂成功。
Personal Assistant 還能為你搜索和總結(jié)信息。
「Find the Techcrunch article about the HyperWrite AI Agent and summarize the information。」我們給了它一個(gè)命令。
接著,系統(tǒng)打開(kāi)谷歌瀏覽頁(yè),在搜索框里自動(dòng)輸入相關(guān)要求,等待一段時(shí)間后,相關(guān)網(wǎng)頁(yè)一一呈現(xiàn)出來(lái),一共兩頁(yè)。
不過(guò),Personal Assistant 發(fā)現(xiàn) HyperwriteAI 的產(chǎn)品根本未被 Techcrunch 報(bào)道過(guò),所以找到另一家科技媒體的報(bào)道文章并給出內(nèi)容總結(jié)。
接下來(lái),我們嘗試了 Personal Assistant 的寫(xiě)郵件能力。
我們告訴它,「Navigate to Gmail and send a creative one line email to xxx thanking her for pretty gift for my birthday?!?br>
系統(tǒng)隨后導(dǎo)航到 Gmail 頁(yè)面,獲得郵件服務(wù)授權(quán)后進(jìn)入郵箱,自動(dòng)填充收信人并根據(jù)你的提示撰寫(xiě)郵件內(nèi)容。
我們也可以手動(dòng)這一過(guò)程,例如在通信錄里選擇收信人地址、讓系統(tǒng)根據(jù)你設(shè)定的主題生成郵件內(nèi)容。
推特網(wǎng)友還使喚 Personal Assistant 買(mǎi)窗簾......
更夸張的例子是 Personal Assistant 可以自主操作 ChatGPT,從單個(gè)提示開(kāi)始構(gòu)建網(wǎng)站。
你可以使喚 Personal Assistant 做很多事情,包括訂披薩、在 Linkedln 選找合適的工程人選等。
每一個(gè)應(yīng)用的運(yùn)作程序也都差不多。
通過(guò)搜索引擎找到相應(yīng)頁(yè)面,瀏覽網(wǎng)站,與網(wǎng)站互動(dòng)并完成基本的在線任務(wù)。AI 能自行查找需要填寫(xiě)的內(nèi)容,比如出發(fā)地、目的地、收獲地址、填寫(xiě)郵編、付錢(qián)完成訂單。
讓我們印象深刻的是,每進(jìn)入一個(gè)環(huán)節(jié)、步驟,Personal Assistant 都會(huì)向我們做出解釋?zhuān)@也是思維過(guò)程的提示,我們也可以對(duì)每個(gè)步驟點(diǎn)贊或者批評(píng),幫助 LLM 推理問(wèn)題,提高性能。
遺憾的是,雖然官方給出的早期測(cè)試案例中,Personal Assistant 可以幫助完成發(fā)推特的活兒,但我們沒(méi)有成功,系統(tǒng)始終無(wú)法進(jìn)入推特或者微博頁(yè)面進(jìn)行進(jìn)一步操作。
另外,盡管是在電腦上操作,我們?nèi)匀幻黠@感到每個(gè)環(huán)節(jié)的響應(yīng)速度都比較慢。
這還不是最終產(chǎn)品。HyperWriteAI 聯(lián)合創(chuàng)始人、CEO Matt Shumer表示,之所以讓大家先睹為快,目的在于讓更多人了解這類(lèi)個(gè)人助理將成為每個(gè)用戶(hù)瀏覽體驗(yàn)不可或缺的一部分。
就像 OpenAI 聯(lián)合創(chuàng)始人,特斯拉前人工智能總監(jiān)Andrej Karpathy 曾經(jīng)預(yù)測(cè)的,「AI Agent 代表著一個(gè)瘋狂的未來(lái)。」
而就在前不久,思必馳聯(lián)合創(chuàng)始人、首席科學(xué)家俞凱在接受我們的專(zhuān)訪時(shí)也談到了這一趨勢(shì)。
俞凱認(rèn)為,大模型的使用范式會(huì)經(jīng)歷三個(gè)階段。
最開(kāi)始是多模態(tài)專(zhuān)用大模型,它有可能是語(yǔ)言或者圖像的,但都旨在解決專(zhuān)用任務(wù),雖然也會(huì)彼此組合,但各個(gè)通道之間基本上彼此獨(dú)立,不能兩兩交叉。這種使用方式早就存在。
第二階段會(huì)實(shí)現(xiàn)不同模態(tài)大模型之間的跨模態(tài)應(yīng)用,比如通過(guò)語(yǔ)言對(duì)話修改化學(xué)分子的設(shè)計(jì),或者將大模型創(chuàng)作的故事通過(guò)合成聲音甚至數(shù)字人講述出來(lái)。
第三個(gè)階段涉及智能體系統(tǒng)。大模型自身具備通識(shí),同時(shí)還會(huì)具備調(diào)用其他大模型的能力,調(diào)用方式可能是對(duì)話,另一個(gè)大模型也有回復(fù)的方式?!肝磥?lái)一定是以這種方式組合智能體?!顾J(rèn)為。
GPT-4 驅(qū)動(dòng)的 Auto-GPT 已初見(jiàn)端倪。它不再是 ChatGPT ,因?yàn)樗梢园?stable diffusion 這個(gè)文生圖大模型和語(yǔ)言大模型結(jié)合起來(lái),通過(guò)十分精巧的 prompt,生出很好的圖片。
「它(Auto-GPT)由單個(gè)通用人工智能大模型,變成了一個(gè)可以指揮很多其他模型的智能體。」俞凱表示,你可以認(rèn)為它就是一個(gè)比較完整的模型智能體,可以通過(guò)大模型去調(diào)用各種工具,包括其他大模型。
Meta 也看到了 AI Agents 的機(jī)會(huì)。
6月,扎克伯格在一次員工全體會(huì)議上宣布了一系列處于不同開(kāi)發(fā)階段的技術(shù),其中一個(gè)就是將帶來(lái)不同個(gè)性和能力的 AI Agents,最初主要用于 Messenger 和 WhatsApp。
據(jù) Matt Shumer介紹,目前 Personal Assistant 的底座是基于自主研發(fā)的模型與來(lái)自 Cohere 等投資者的開(kāi)源和未開(kāi)源大語(yǔ)言模型的組合。
HyperWrite 也正在開(kāi)發(fā)自己的大語(yǔ)言模型「Agent-1」,計(jì)劃在未來(lái)一個(gè)月內(nèi)用它來(lái)驅(qū)動(dòng) AI 智能體(AI Agent )。
Shumer 認(rèn)為,類(lèi)似 Cohere 、GPT-4 通用 LLM 的問(wèn)題在于其設(shè)計(jì)初衷都是為了完成各種任務(wù),從寫(xiě)詩(shī)到解數(shù)學(xué)題,并不勝任處理操作軟件,所以訓(xùn)練進(jìn)展緩慢,成本也高。
如果說(shuō),通用大模型存儲(chǔ)了大量的知識(shí),為推理留下較少的參數(shù),那么,「Agent-1 」側(cè)重于瀏覽網(wǎng)頁(yè),目標(biāo)是將模型的所有動(dòng)力都用于動(dòng)態(tài)推理,使他們的模型能夠處理它從未訓(xùn)練過(guò)的情況,因此與其他 LLM 相比要簡(jiǎn)單得多,速度也更快且成本低、更可靠。
「Agent-1 」不依賴(lài)于對(duì)特定站點(diǎn)的知識(shí),而是自己想辦法使用它。建立在這個(gè)模型基礎(chǔ)上的軟件也會(huì)不斷學(xué)習(xí),而不會(huì)浪費(fèi)模型參數(shù)。隨著模型不斷快速改進(jìn),它在更復(fù)雜軟件操作上的可靠性也會(huì)提高。
「我們的目標(biāo)是超越人類(lèi)的能力——一個(gè)可以操作任何軟件并代表用戶(hù)可靠地完成復(fù)雜目標(biāo)的助手?!筂att Shumer 表示。
這里是 Personal Assistant 試用地址:
https://www.hyperwriteai.com/personal-assistant
聯(lián)系客服