本報告包含四個主要研究目標:具身感知、具身互動、具身智能體、sim2real,同時覆蓋了當前最佳方法、基本范式和全面的基準數(shù)據(jù)集。此外文中還探討了虛擬和具身MLM的復(fù)雜性,強調(diào)了它們在促進動態(tài)數(shù)字和物理環(huán)境中的互動的重要性。最后總結(jié)了具身智能的挑戰(zhàn)和局限性,及未來潛在的研究方向。
論文:https://arxiv.org/pdf/2407.06886
Github地址:
https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List
前言
Embodied AI最初由艾倫·圖靈在1950年提出“具身圖靈測試”,目的是測試智能體是否能夠在復(fù)雜和不可預(yù)測的物理世界中導(dǎo)航,而不僅僅是解決虛擬環(huán)境中的抽象問題。與虛擬空間中的無具身AI相對,物理空間中的智能體被稱為具身智能。MLMs的最新進展為具身智能注入了強大的感知、交互和規(guī)劃能力,使其能夠積極與虛擬和物理環(huán)境互動。具身智能被認為是MLMs的最佳載體,最近代表作是RT-2和RT-H。但MLMs在長期記憶、理解復(fù)雜意圖和分解復(fù)雜任務(wù)的能力方面仍有限。
為了實現(xiàn)AGI,具身智能發(fā)展被視為一個基本途徑。與像ChatGPT這樣的對話agents智能體不同,具身智能認為通過控制物物體并與模擬和物理環(huán)境互動,才能實現(xiàn)真正的AGI。智能體是具身智能的基礎(chǔ),必須理解語言指令、感知環(huán)境并執(zhí)行復(fù)雜任務(wù)。多模態(tài)模型的發(fā)展迅速,在復(fù)雜環(huán)境中表現(xiàn)出優(yōu)越的靈活性、技巧和泛化能力。先進的視覺編碼器和大型語言模型(LLMs)使機器人更好地理解語言指令并感知復(fù)雜環(huán)境。下圖為基于MLM和WM的具身智能體框架。
智能體AI的發(fā)展引起了研究社區(qū)的顯著關(guān)注,并被認為是實現(xiàn)AGI的可行途徑。盡管如此,研究社區(qū)仍缺乏一份全面的調(diào)查,幫助整理現(xiàn)有的智能體AI研究、面臨的挑戰(zhàn)以及未來的研究方向。盡管已有多篇綜述論文針對具身智能,但大多數(shù)論文已經(jīng)過時,因為它們是在2023年前發(fā)布的MLMs時代之前。2023年之后只有一篇綜述論文專注于視覺-語言-動作具身智能模型,但MLMs、WMs和具身智能體并未得到充分考慮。
本研究提供了一個全面的綜述,涵蓋了具身智能的各個方面,上圖為綜述關(guān)于具身智能的整體框架,具體包括以下幾個部分:
具身機器人,具身智能在物理世界中的硬件方案;
具身仿真平臺,高效且安全地訓(xùn)練具身智能體的數(shù)字空間;
具身感知,主動感知 3D 空間并綜合多模態(tài)感知;
具身交互,有效合理地與環(huán)境進行交互甚至改變環(huán)境以完成指定任務(wù);
具身智能體,利用多模態(tài)大模型理解抽象指令并將其拆分為一系列子任務(wù)再逐步完成;
Sim2Real,將數(shù)字空間中學(xué)習(xí)到的技能遷移泛化到物理世界中
具身機器人
具身機器人積極地與物理環(huán)境互動,涵蓋了從機器人到智能家電、智能眼鏡、自動駕駛車輛等廣泛的具身形態(tài),而機器人也是最突出的具身形態(tài)之一。根據(jù)應(yīng)用的不同,機器人被設(shè)計成各種形式,以利用其硬件特性來完成特定的任務(wù)。
主要有以下類別:
固定底座機器人如機械臂,由于其緊湊性和高精度操作,在實驗室自動化、教育培訓(xùn)和工業(yè)制造中得到了廣泛應(yīng)用。
輪式機器人,以其高效的機動性而廣受歡迎,被廣泛應(yīng)用于物流、倉儲和安保檢查中。
履帶式機器人,具有強大的越野能力和機動性,在農(nóng)業(yè)、建筑和災(zāi)害恢復(fù)領(lǐng)域顯示出潛力。
四足機器人,因其穩(wěn)定性和適應(yīng)性而特別適合于復(fù)雜地形探索、救援任務(wù)和軍事應(yīng)用。
人形機器人,外部形態(tài)與人類似,在服務(wù)業(yè)、醫(yī)療保健和協(xié)作環(huán)境中廣泛應(yīng)用。
仿生學(xué)機器人,通過模擬自然生物的有效運動和功能,在復(fù)雜和動態(tài)的環(huán)境中執(zhí)行任務(wù)。
仿真平臺
仿真平臺對于具身智能至關(guān)重要,因為它們提供了成本效益高的實驗方式,確保了通過模擬潛在的危險場景的安全性,為測試在各種環(huán)境中提供了可擴展性,快速原型設(shè)計的能力,對更廣泛的研究社區(qū)的可訪問性,精確研究的受控環(huán)境,用于訓(xùn)練和評估的數(shù)據(jù)生成,以及用于算法比較的標準基準。
為了使智能體能夠與環(huán)境互動,有必要構(gòu)建一個現(xiàn)實的模擬環(huán)境。這需要考慮環(huán)境的物理特性,物體的屬性以及它們之間的相互作用。文中主要介紹兩種仿真平臺,
通用仿真平臺,提供了一個虛擬環(huán)境,它與物理世界緊密相似,允許進行算法開發(fā)和模型訓(xùn)練,這為AI技術(shù)的發(fā)展提供了顯著的成本、時間和安全優(yōu)勢。包含Isaac、Gazebo、Mujoco等
基于真實場景的仿真平臺,大多應(yīng)用于嵌入式AI領(lǐng)域。收集真實世界的數(shù)據(jù),創(chuàng)建逼真的3D資產(chǎn),并使用3D游戲引擎,如UE5和Unity,構(gòu)建場景。
具身感知
未來的視覺感知“north stars”以具身為中心的視覺推理和社會智能。與僅僅識別圖像中的對象不同,具有具身感知的智能體必須在物理世界中移動并與環(huán)境互動。這需要對3D空間和動態(tài)環(huán)境的更深層次理解。具身感知需要視覺感知和推理,理解場景中的3D關(guān)系,并根據(jù)視覺信息預(yù)測和執(zhí)行復(fù)雜的任務(wù)。
主要內(nèi)容如下:
主動視覺感知,進行狀態(tài)估計、場景感知和環(huán)境探索。包含
視覺定位和地圖構(gòu)建(SLAM)技術(shù),它在不了解環(huán)境的情況下確定移動機器人的位置,同時構(gòu)建該環(huán)境的地圖
3D場景理解,3D場景理解旨在區(qū)分物體的語義,識別它們的位置,并從3D場景數(shù)據(jù)中推斷幾何屬性
主動探索,在被動感知的基礎(chǔ)上,由于機器人具有移動能力和頻繁與周圍環(huán)境互動的能力,它們也能夠主動探索和感知其環(huán)
3D視覺定位(3DVG) ,任務(wù)涉及使用自然語言在3D中定位物體。包含
兩階段3DVG,分為物體檢測階段和語義理解后物體匹配階段
一階段3DVG,則是將上述兩階段合并
視覺語言導(dǎo)航(VLN),旨在使智能體能夠在未知的環(huán)境中遵循語言指令進行導(dǎo)航。
觸覺傳感器,為智能體提供關(guān)于紋理、硬度以及溫度的詳細信息。
具身交互
具身交互指的是智能體在與人類和環(huán)境在物理或模擬空間中交互的情景。典型任務(wù)包含:
具身問答(EQA),智能體需要從第一人稱視角探索環(huán)境以收集回答給定問題所需的信息。具有自主探索和決策能力的智能體不僅需要考慮采取哪些行動來探索環(huán)境,還需要確定何時停止探索以回答問題。
具身抓取。除問答互動外,抓取指的是根據(jù)人類指令執(zhí)行操作,如抓取和放置物體,從而完成機器人、人類和物體之間的互動。具身抓取需要全面的語義理解、場景感知、決策制定和穩(wěn)健的控制規(guī)劃。
具身智能體
具身智能體是指能夠感知其環(huán)境并采取行動以實現(xiàn)特定目標的自主物體。機器學(xué)習(xí)模型(MLM)的最新進展進一步擴展了智能體的應(yīng)用范圍到實際場景中。當這些基于MLM的智能體被賦予實際物體時,它們可以將自己的能力有效地從虛擬空間轉(zhuǎn)移到物理世界,從而成為具身智能體。
為了使具身智能體能夠在信息豐富且復(fù)雜的現(xiàn)實世界中運作,已經(jīng)開發(fā)了具有強大多模態(tài)感知、交互和規(guī)劃能力的具身智能體如下圖所示。為了完成一個任務(wù),具身智能體通常涉及以下過程:
高層具身任務(wù)規(guī)劃,將抽象且復(fù)雜的任務(wù)分解為具體子任務(wù)。
低層具身動作規(guī)劃,通過有效地利用具身感知和具身交互模型,或者利用基礎(chǔ)模型的策略功能,逐步實施這些子任務(wù),這被稱為。
這里需要注意的是,任務(wù)規(guī)劃涉及在行動之前思考,因此通常在網(wǎng)絡(luò)空間中考慮。相比之下,動作規(guī)劃必須考慮到與環(huán)境的有效互動,并將此信息反饋給任務(wù)規(guī)劃者以調(diào)整任務(wù)規(guī)劃。因此,對于具身智能體來說,將能力從網(wǎng)絡(luò)空間轉(zhuǎn)移到物理世界是非常重要的。
主要內(nèi)容包括:
具身多模態(tài)模型,通過視覺識別其環(huán)境,通過聽覺理解指令,并通過理解自身的狀態(tài)來促進復(fù)雜交互和操作。這要求一個模型能夠整合多種感官模態(tài)和自然語言處理能力,通過綜合多種數(shù)據(jù)類型來增強智能體的理解和決策能力。
具身任務(wù)規(guī)劃,任務(wù)動作通常在模擬器中預(yù)先定義,或者在真實世界場景中使用預(yù)先訓(xùn)練的策略模型執(zhí)行。如一個任務(wù)“將蘋果放在盤子上”,任務(wù)規(guī)劃器將會將其分解為子任務(wù)“找到蘋果,拿起蘋果”,“找到盤子”,“放下蘋果”。由于如何找到(導(dǎo)航任務(wù))或拿起/放下動作(抓取任務(wù))并不在任務(wù)規(guī)劃的范圍內(nèi)。
具身行動規(guī)劃,行動規(guī)劃必須應(yīng)對現(xiàn)實世界的不確定性,因為任務(wù)規(guī)劃提供的子任務(wù)粒度不足以引導(dǎo)智能體在環(huán)境中的交互。一般來說,智能體可以通過兩種方式實現(xiàn)行動規(guī)劃:
使用預(yù)訓(xùn)練的具身感知和具身交互模型作為工具,通過API逐步完成任務(wù)規(guī)劃指定的子任務(wù);
利用VLA模型的固有功能來推導(dǎo)行動規(guī)劃。
Sim2Real
仿真到現(xiàn)實關(guān)注于如何將仿真環(huán)境中訓(xùn)練和測試得到的機器人或自動化系統(tǒng)策略,有效地遷移到現(xiàn)實世界中去應(yīng)用。它涉及驗證和改進在模擬中開發(fā)的算法、模型和控制策略的有效性,以確保它們在物理環(huán)境中表現(xiàn)穩(wěn)健和可靠。
一般包含三部分內(nèi)容:
具身世界模型,(Sim-to-Real)涉及在模擬中創(chuàng)建與現(xiàn)實世界環(huán)境密切相似的世界模型,幫助算法在轉(zhuǎn)移時更好地進行泛化。世界模型方法旨在構(gòu)建一個端到端的模型,該模型將視覺映射到動作,甚至可以映射任何輸入到任何輸出,通過以生成或預(yù)測的方式預(yù)測下一個狀態(tài)來做出決策。注意與VLA模型的區(qū)別
數(shù)據(jù)搜集和訓(xùn)練,主要用于高質(zhì)量數(shù)據(jù)獲取,包含真實數(shù)據(jù)和模擬數(shù)據(jù)
具身控制,通過與環(huán)境的交互學(xué)習(xí),并使用獎勵機制優(yōu)化行為以獲得最佳策略,從而避免了傳統(tǒng)物理建模方法的缺點。包含DRL和模仿學(xué)習(xí)
挑戰(zhàn)和未來發(fā)展方向
盡管具身智能取得了迅速的進步,但它面臨著若干挑戰(zhàn),并預(yù)示著激動人心的未來發(fā)展方向。
高質(zhì)量的機器人數(shù)據(jù)集:獲取足夠數(shù)量的真實世界機器人數(shù)據(jù)仍然是一個重大挑戰(zhàn)。收集這些數(shù)據(jù)既耗時又耗資源。單純依賴模擬數(shù)據(jù)加劇了“模擬到現(xiàn)實”差距問題。創(chuàng)建多樣化的真實世界機器人數(shù)據(jù)集需要各機構(gòu)之間密切且廣泛的合作。此外,開發(fā)更真實、更高效的模擬器對于提高模擬數(shù)據(jù)的質(zhì)量至關(guān)重要。當前的工作RT-1 使用了基于機器人圖像和自然語言命令的預(yù)訓(xùn)練模型。RT-1在導(dǎo)航和抓取任務(wù)中取得了良好的結(jié)果,但獲取真實世界機器人數(shù)據(jù)非常困難。為了構(gòu)建能夠在機器人跨場景和跨任務(wù)應(yīng)用中具有一般化能力的模型,構(gòu)建大規(guī)模的數(shù)據(jù)集至關(guān)重要,利用高質(zhì)量的模擬環(huán)境數(shù)據(jù)輔助真實世界的數(shù)據(jù)。
有效利用人類示范數(shù)據(jù):有效利用人類示教數(shù)據(jù)涉及利用人類演示的動作和行為來訓(xùn)練和改進機器人系統(tǒng)。這一過程包括收集、處理和從大型、高質(zhì)量的數(shù)據(jù)集中學(xué)習(xí),其中人類執(zhí)行機器人旨在學(xué)習(xí)的任務(wù)。當前的工作R3M使用動作標簽和人類示教數(shù)據(jù)來學(xué)習(xí)具有高成功率的泛化表征,但復(fù)雜任務(wù)的高效性仍然需要改進。因此,有效地利用大量未結(jié)構(gòu)化、多標簽和多模態(tài)的人類示教數(shù)據(jù)以及動作標簽數(shù)據(jù)來訓(xùn)練具有各種任務(wù)學(xué)習(xí)能力的具身模型至關(guān)重要。通過有效利用人類示教數(shù)據(jù),機器人系統(tǒng)可以在相對較短的時間內(nèi)實現(xiàn)更高的性能和適應(yīng)性,使它們能夠在動態(tài)環(huán)境中更有效地執(zhí)行復(fù)雜任務(wù)。
復(fù)雜環(huán)境認知:復(fù)雜環(huán)境認知指的是物理或虛擬環(huán)境中具身智能體感知、理解和在復(fù)雜現(xiàn)實世界環(huán)境中導(dǎo)航的能力?;趶V泛常識知識,Say-Can 利用預(yù)訓(xùn)練的LLM模型任務(wù)分解機制,該機制在為簡單任務(wù)規(guī)劃時嚴重依賴大量常識知識,但在復(fù)雜環(huán)境中缺乏對長期任務(wù)的理解。對于無結(jié)構(gòu)的開放環(huán)境,當前的工作通常依賴于利用大量常識知識對預(yù)訓(xùn)練的LLM模型進行任務(wù)分解,但對于具體場景的理解則缺乏。在復(fù)雜環(huán)境中增強知識轉(zhuǎn)移和概括能力至關(guān)重要。一個真正多功能的機器人系統(tǒng)應(yīng)該能夠理解和執(zhí)行跨多樣化和未見場景的自然語言指令。這需要開發(fā)可適應(yīng)和可擴展的具身智能體架構(gòu)。
長期任務(wù)執(zhí)行:對于機器人來說,執(zhí)行單個指令往往涉及到長期的任務(wù),例如命令“清潔廚房”,這涉及到活動如重新排列物體、掃地、擦桌子等。成功完成這樣的任務(wù)需要機器人能夠規(guī)劃并執(zhí)行一系列低級動作,持續(xù)時間較長。盡管目前的高級任務(wù)規(guī)劃者已經(jīng)顯示出初步的成功,但它們在多樣化的場景中往往因為缺乏針對有形任務(wù)的調(diào)校而顯得不足。解決這一挑戰(zhàn)需要開發(fā)高效的規(guī)劃者,配備有強大的感知能力和大量的常識知識。
因果關(guān)系發(fā)現(xiàn):現(xiàn)有基于數(shù)據(jù)驅(qū)動的具身智能體決策是基于數(shù)據(jù)內(nèi)部的固有相關(guān)性。然而,這種建模方法并不允許模型真正理解知識、行為和環(huán)境之間的因果關(guān)系,導(dǎo)致策略存在偏見。這使得確保它們能夠在可解釋、健壯和可靠的方式下在真實世界環(huán)境中運行變得困難。因此,對于具身智能體來說,被世界知識驅(qū)動,能夠進行自主的因果推理是非常重要的。通過互動了解世界并通過歸納推理學(xué)習(xí)其工作機制,我們可以進一步增強在復(fù)雜真實世界環(huán)境中多模態(tài)具身智能體的適應(yīng)性、決策可靠性和泛化能力。對于具身任務(wù),通過交互式指令和狀態(tài)預(yù)測在模態(tài)之間建立空間-時間因果關(guān)系是必要的。此外,智能體需要理解物體的 affordances來實現(xiàn)適應(yīng)性任務(wù)規(guī)劃和動態(tài)場景中的長距離自主導(dǎo)航。為了優(yōu)化決策制定,有必要結(jié)合反事實和因果干預(yù)策略,從反事實和因果干預(yù)的角度追蹤因果關(guān)系,減少探索迭代并優(yōu)化決策。基于世界知識構(gòu)建因果圖,并通過主動因果推理實現(xiàn)模擬到現(xiàn)實的智能體轉(zhuǎn)移,將形成一個統(tǒng)一的具身智能框架。
持續(xù)學(xué)習(xí):在機器人應(yīng)用中,持續(xù)學(xué)習(xí)[389]對于在多樣化的環(huán)境中部署機器人學(xué)習(xí)策略至關(guān)重要,但這一領(lǐng)域仍然是一個未被充分探索的領(lǐng)域。盡管一些最近的研究已經(jīng)考察了持續(xù)學(xué)習(xí)的一些子話題,如增量學(xué)習(xí)、快速運動適應(yīng)和人類參與式學(xué)習(xí),但這些解決方案通常是為單一任務(wù)或平臺設(shè)計的,尚未考慮基礎(chǔ)模型。開放的研究問題和可行的方法包括:1) 在對最新數(shù)據(jù)進行微調(diào)時,混合不同比例的先驗數(shù)據(jù)分布,以緩解災(zāi)難性遺忘;2) 開發(fā)從先驗分布或課程中獲取的效率更高的原型,以在新任務(wù)中進行任務(wù)推斷;3) 提高在線學(xué)習(xí)算法的訓(xùn)練穩(wěn)定性和樣本效率;4) 識別無縫將大型容量模型集成到控制框架中的原則方法,可能通過層次學(xué)習(xí)或慢-快控制,以實現(xiàn)實時推斷。
統(tǒng)一評估基準:盡管存在許多用于評估低級控制策略的基準,但這些基準往往在評估的技能方面存在顯著差異。此外,這些基準中包含的物體和場景通常受限于模擬器的限制。為了全面評具身智能模型,需要涵蓋廣泛技能并使用真實模擬器的基準。至于高級任務(wù)規(guī)劃者,許多基準側(cè)重于通過問答任務(wù)評估規(guī)劃能力。然而,更理想的方法是評估高級任務(wù)規(guī)劃者和低級控制策略的組合,以執(zhí)行長期任務(wù)并測量成功率,而不是僅依賴于對規(guī)劃者的孤立評估。這種集成方法提供了一個更全面的評估具身智能系統(tǒng)的能力。
總之具身智能使智能體能夠感知、認知并與數(shù)字空間和物理世界中的各種物體互動,顯示了其在實現(xiàn)通用人工智能方面的重要意義。本綜述全面回顧了具身機器人、具身仿真平臺、具身感知、具身交互、具身智能體、虛擬到現(xiàn)實的機器人控制以及未來的研究方向,這對沿著促進具身智能的發(fā)展具有重要意義。
聯(lián)系客服