《科創(chuàng)板日報》5月17日訊(編輯 鄭遠方)AI發(fā)展的下一站在哪里?“算力霸主”英偉達創(chuàng)始人兼首席執(zhí)行官黃仁勛給出了答案:具身智能/具身人工智能。
在ITF World 2023半導體大會上,黃仁勛表示,人工智能的下一個浪潮將是具身智能(embodied AI),即能理解、推理、并與物理世界互動的智能系統(tǒng)。
同時,他也介紹了英偉達的多模態(tài)具身智能系統(tǒng)Nvidia VIMA,其能在視覺文本提示的指導下,執(zhí)行復雜任務、獲取概念、理解邊界、甚至模擬物理學,這也標志著AI能力的一大顯著進步。
而在今年3月,谷歌聯(lián)合柏林工業(yè)大學團隊發(fā)布PaLM-E,這是一種多模態(tài)具身視覺語言模型,也是史上最大的“通才”AI模型,其不僅可以理解圖像,還能理解、生成語言,可執(zhí)行各種復雜的機器人指令而無需重新訓練,且表現(xiàn)出很好的遷移能力。
值得注意的是,政策端也已開始著目于具身人工智能。
北京市日前發(fā)布《北京市促進通用人工智能創(chuàng)新發(fā)展的若干措施(2023-2025年)(征求意見稿)》,其中便提出探索具身智能、通用智能體和類腦智能等通用人工智能新路徑,包括推動具身智能系統(tǒng)研究及應用,突破機器人在開放環(huán)境、泛化場景、連續(xù)任務等復雜條件下的感知、認知、決策技術(shù)。
▌何為具身智能?如何實現(xiàn)?
具身智能指的是智能體通過與環(huán)境產(chǎn)生交互后,通過自身的學習,產(chǎn)生對于客觀世界的理解和改造能力。
換言之,一個具身智能機器人需要:首先聽懂人類語言,之后分解任務、規(guī)劃子任務,移動中識別物體,與環(huán)境交互,最終完成相應任務。
正如斯坦福大學計算機科學教授李飛飛所說,“具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能?!?/p>
若想要實現(xiàn)具身智能,離不開多個學科的交叉互助:
1)機器人學為具身智能提供機械身體和基本運動控制;
2)深度學習中的神經(jīng)網(wǎng)絡是具身智能中主要工具;
3)強化學習是具身智能機器人的主要學習手段之一;
4)機器視覺給具身智能提供了處理視覺信號的能力;
5)計算機圖形學開發(fā)的物理仿真環(huán)境為具身智能提供了真實物理世界的替代;
6)自然語言給具身智能帶來了與人類交流、從自然文本中學習的可能;
7)認知科學進一步幫助具身智能體理解人類、構(gòu)建認知和價值。
實際上,“具身智能”最初可追溯到1950年,當時圖靈在論文《Computing Machinery and Intelligence》中首次提出了這一概念。但在之后的幾十年中,具身智能都沒有取得特別顯著的進展,大多數(shù)機器人的行動依舊仰賴人類的手寫指令與代碼。
這也是為何上文那個谷歌“史上最大'通才’AI模型”能引起業(yè)內(nèi)轟動——它無需預先處理的場景,因此也不用人類對相關(guān)數(shù)據(jù)進行預處理或注釋。只需要一句簡單的指令,便可實現(xiàn)更為自主的機器人控制。更重要的是,PaLM-E生成的行動計劃還具有“彈性”,即可對周圍環(huán)境變化作出相應反應。
實現(xiàn)通用人工智能是行業(yè)的一大愿景。但人工智能中集成了太多概念,其中一些概念難以被測量或驗證。而正如上海交通大學教授盧策吾所說的那樣,雖然人工智能能給你輸出一個表征,但很難檢驗它們是否真的理解了這些概念?!八晕覀兛梢韵仍谝恍┛沈炞C、可測量的概念上面做出個閉環(huán)。而具身智能剛好是這樣一個閉環(huán),這樣的具身智能可能是邁向通用智能的一個很好的起點,因為它可測量、可解釋、可檢驗?!?/strong>
聯(lián)系客服