編輯:桃子 好困
周末,特斯拉人形機器人「擎天柱」一波更新,引眾多網(wǎng)友圍觀。
官方發(fā)布的一個視頻中,「擎天柱」現(xiàn)在可以自主對對象進行排序。
這全憑背后的神經(jīng)網(wǎng)絡(luò)完成了端到端的訓練,即「視頻輸入,控制輸出」。
它現(xiàn)在能夠自我精確操控手部,以及腿部的動作,更高效學習各種任務。
甚至,只利用視覺和關(guān)節(jié)位置編碼器,就能夠在空間中精確定位手的位置。
另外,它的神經(jīng)網(wǎng)絡(luò)完全在車載設(shè)備上運行,而且僅使用視覺能力。
在強大技術(shù)加持背后,使得「擎天柱」能夠自動分類不同顏色的積木塊。
即便是有人干擾,「擎天柱」也不畏懼,還在認真工作。它還有自主糾正的能力,積木倒了,拿起來再擺正。
不僅能分類積木,還能執(zhí)行與之相反的動作,把積木再拿出來。
干了一天的活,再做個舒展運動。此時,「擎天柱」單腿直立,雙臂伸展,有模有樣。
最后雙手合十「Namaste」。
看過視頻的網(wǎng)友驚嘆道,不到2年前,「擎天柱」還需要被推上舞臺,而現(xiàn)在卻能如此快速地完成表演!而且,這不是事先編好的戲法!它使用的是AGI,太神奇了 !
還有網(wǎng)友調(diào)侃道,看看「擎天柱」那平衡感......已經(jīng)在瑜伽上打敗我了。
這是2022年10月,在AI DAY上,「擎天柱」原型被三個壯漢,抬上來和大家打招呼。
馬斯克曾介紹,「擎天柱」與特斯拉FSD(全自動駕駛)構(gòu)建的強大視覺系統(tǒng)能夠共通,兩者的底層模塊已經(jīng)打通。
在他看來,特斯拉一直以來都是一家AI公司,而不僅僅是汽車公司。
「很快,我們將會看到『擎天柱』的數(shù)量,將遠遠超過特斯拉汽車?!?/span>
如何實現(xiàn)?
在今年特斯拉的股東大會上,放出了5個「擎天柱」同時向前行進的視頻。
相較于與去年首次亮相的「擎天柱」,已經(jīng)完成了非常大的迭代升級。
再到這次,通過視覺,精細控制手部動作,更是加滿了buff。
英偉達高級科學家Jim Fan對擎天柱進行了「逆向工程」,對其技術(shù)堆??赡軐崿F(xiàn)的方式進行了分析。
值得一提的是,Jim Fan的深度分析,甚至吸引到了馬斯克的回關(guān)!
1. 模仿學習
幾乎可以肯定,Optimus流暢的手部動作,是基于對人類操作員的模仿學習(行為克?。┒柧毘鰜淼?。
相比之下,如果采用在模擬中進行強化學習的方法,則會造成抖動的動作和不自然的手部姿勢。
具體來說,有至少4種方法,可以用于收集人類的示范:
(1)定制遠程操作系統(tǒng):這是特斯拉團隊最有可能采用的手段。
開源實例:ALOHA是斯坦福、UC伯克利和Meta開發(fā)的一種低成本的雙機械臂和遠程操作系統(tǒng)。它能實現(xiàn)非常精確、靈巧的動作,例如將AAA電池裝入遙控器或操作隱形眼鏡。
ALOHA項目地址:https://tonyzhaozh.github.io/aloha/
(2)動作捕捉(MoCap)方法一:利用好萊塢電影中使用的MoCap系統(tǒng)來捕捉手部關(guān)節(jié)的細微動作。
Optimus具有五個指頭的雙手是一個很好的設(shè)計策,從而可以實現(xiàn)直接映射——與人類操作員沒有「具象化差距」。
例如,演示人員戴上CyberGlove并抓住桌上的方塊。此時,CyberGlove會實時捕捉運動信號和觸覺反饋,并將其重新定向到Optimus上。
(3)動作捕捉(MoCap)方法二:通過計算機視覺技術(shù)。
英偉達的DexPilot可以實現(xiàn)少標注、無手套的數(shù)據(jù)采集,人類操作員只用自己的雙手即可完成任務。
其中,4個英特爾RealSense深度攝像頭和2個英偉達Titan XP GPU(是的,這是2019年的工作),可以將像素轉(zhuǎn)化為精確的運動信號,供機器人學習。
英偉達官方演示中,DexPilot系統(tǒng)加持下的機器人手臂,能夠精準完成抓握、放置任務。
(4)VR頭顯:將訓練室變成VR游戲,讓人類「扮演」Optimus。
使用原生VR控制器或CyberGlove來控制虛擬Optimus的雙手,可以帶來遠程數(shù)據(jù)收集的優(yōu)勢——來自世界各地的標注人員可以在不到現(xiàn)場的情況下做出貢獻。
比如,Jim Fan參與的iGibson家庭機器人模擬器等研究項目,就有類似的VR演示技術(shù)。
iGibson項目地址:https://svl.stanford.edu/igibson/
以上4種并不相互排斥,Optimus可以根據(jù)不同的場景進行組合使用。
2. 神經(jīng)架構(gòu)
Optimus是端到端訓練的:輸入視頻,輸出動作。
可以肯定,這是一個多模態(tài)Transformer,其中包含以下組件:
(1)圖像:高效的ViT變體,或者只是舊的ResNet/EfficientNet骨干網(wǎng)絡(luò)。塊的取放演示不需要復雜的視覺技術(shù)。圖像骨干的空間特征圖可以很容易地進行分詞。
EfficientNet論文地址:https://arxiv.org/abs/1905.11946
(2)視頻:兩種方法。要么將視頻壓縮成一系列圖像并獨立生成token,要么使用視頻級的分詞器。
高效處理視頻像素卷的方法有很多。你不一定需要Transformer骨干網(wǎng)絡(luò),例如SlowFast Network和RubiksNet。
SlowFast Network論文地址:https://arxiv.org/abs/1812.03982
RubiksNet項目地址:https://stanfordvl.github.io/rubiksnet-site/
(3)語言:目前還不清楚Optimus是否支持語言提示。如果是的話,就需要一種將語言表征與感知進行「融合」的方法。
比如,輕量級神經(jīng)網(wǎng)絡(luò)模塊FiLM,就可以實現(xiàn)這個目的。你可以直觀地將其視為語言嵌入圖像處理神經(jīng)通路中的「交叉注意力」。
FiLM論文地址:https://arxiv.org/abs/1709.07871
(4)動作分詞:Optimus需要將連續(xù)運動信號轉(zhuǎn)換為離散的token,從而使自回歸Transformer能夠正常工作。
- 直接將每個手關(guān)節(jié)控制的連續(xù)值分配到不同的區(qū)間。[0,0.01)->token#0,[0.01,0.02)->token#1,等等。這種方法簡單明了,但由于序列長度較長,效率可能不高。
- 關(guān)節(jié)運動彼此高度依賴,這意味著它們占據(jù)了一個低維的「狀態(tài)空間」。將VQVAE應用于運動數(shù)據(jù),可獲得長度更短的壓縮token集合。
(5)將上述部分組合在一起,我們就有了一個Transformer控制器,它消耗視頻token(可選擇性地通過語言進行微調(diào)),并一步一步地輸出動作token。
表格中的下一幀畫面會反饋給Transformer控制器,這樣它就知道了自己動作的結(jié)果。這就是演示中展示的自我糾正能力。
其結(jié)構(gòu)與谷歌的RT-1和英偉達的VIMA會比較相似:
Google RT-1:https://blog.research.google/2022/12/rt-1-robotics-transformer-for-real.html?m=1
NVIDIA VIMA:https://vimalabs.github.io
3. 硬件質(zhì)量
正如前面提到的,緊跟人類形態(tài)是一個非常明智的決定,這樣在模仿人類時就沒有任何差距了。
從長遠來看,相比于波士頓動力簡陋的手部,Optimus具有五根手指的的雙手,將會在日常工作中表現(xiàn)得更加出色。
FSD是前菜,擎天柱才是未來
還有一位網(wǎng)友對特斯拉人形機器人的升級,感慨道「這將永遠改變世界」。
在接下來的長文中, 他分析了擎天柱的技術(shù)升級,還有未來憧憬。
2021年8月19日,特斯拉首次向世界,展示了將要推出的一款人形機器人「Optimus Bot」。
當場現(xiàn)身跳舞的只是穿著機器人演出套裝的人類。
然后,馬斯克進行了10分鐘的演示,概述了將產(chǎn)品陣容擴展到人形機器人的計劃。
時間快進到現(xiàn)在,特斯拉已經(jīng)造出多個可用的機器人原型。
它們能夠自主行走、拾取、放置物體、周圍環(huán)境導航,以及執(zhí)行排序等任務。
最新視頻中,擎天柱已經(jīng)能夠完成積木分類。
乍一看,可能不會令人印象深刻,特別是當你將它與波士頓動力的機器人Artemis進行后空翻和跑酷相比時。
但它「如何學會排序」是我想要關(guān)注的突破,這不僅對特斯拉,而且對全球勞動力市場都具有令人興奮的影響。
「視頻輸入,控制輸出。」
這是馬斯克已經(jīng)談論了很長一段時間的主題。前提是構(gòu)建一個神經(jīng)網(wǎng)絡(luò)系統(tǒng),不需要人類編寫告訴機器做什么的代碼。
而且,這套原理與特斯拉自動駕駛系統(tǒng)FSD相通。
前段時間,馬斯克直播試駕FSD v12時,自豪地介紹背后神經(jīng)網(wǎng)絡(luò)的訓練,全部使用的視頻數(shù)據(jù),任務執(zhí)行的能力,不需要手寫一行代碼。
特斯拉總部有一個「AI大腦」,可以分析汽車收集的大量視頻數(shù)據(jù),然后告訴汽車如何在道路上遇到的每個場景中行走。
特斯拉FSD沒有一行人類編寫代碼來解釋停車標志、交通信號燈等,而是通過AI學會了如何通過觀察駕駛的情況來做到這一點。
這的確是一件大事。
這意味著,特斯拉現(xiàn)在受限于,可以從其電動汽車駕駛中收集多少視頻數(shù)據(jù),以及有多少芯片(來自英偉達H100及和內(nèi)部DOJO芯片)來處理這些數(shù)據(jù)。
好在,他們不再受到「代碼」突破的限制,所擁有的AI大腦,可以通過足夠的例子來解決這個問題。
更重要的是,這種解決現(xiàn)實世界駕駛問題的方法可以應用于任何物理任務。
只需要輸入視頻,AI就會發(fā)出控制信號。于是,「擎天柱」機器人才是真正的未來。
即使「擎天柱」和特斯拉汽車看起來像是兩個完全不同的物體,但它們的共同點比看上去要多得多。
它們都使用軟件來導航其環(huán)境的物理對象,使用相同的車載計算機來處理所述軟件,使用相同的電池為電機供電,使每個物體都能移動,使用人工智能大腦,通過分析無數(shù)視頻數(shù)據(jù)來自學如何執(zhí)行任務。
根據(jù)特斯拉迄今為止公布的信息,可以安全地假設(shè)機器人能夠做到這一點,不是因為人類編寫的代碼「拿起藍色塊,放入藍色區(qū)域」......
但通過分析按適當顏色排序的塊的視頻片段,這與汽車學習自動駕駛的方式?jīng)]有什么不同。
一個看似不起眼的動作凸顯了這一點,但卻證明了這種方法有多么強大。
包括后面片段中,「擎天柱」擺正了側(cè)倒出的積木。這可能意味著AI大腦擁有的視頻片段顯示,物體被正面朝上分類,而不是側(cè)面朝上。
機器人無需人類代碼即可自動理解它所排序的塊落在其一側(cè),將其拾起,調(diào)整方向,然后將其放回正確的一側(cè)。
這意味著機器人能夠動態(tài)調(diào)整,無需任何關(guān)于如何處理現(xiàn)實世界的復雜性的明確指示。
只要特斯拉能夠制造出一種能夠從物理角度可靠地執(zhí)行命令的機器人。這意味著執(zhí)行器、電池、手、關(guān)節(jié)等都被制造得極其耐用并且能夠重復處理任務。
世界將永遠被改變。
憑借足夠的力量和靈活性,特斯拉的機器人只需觀看人們執(zhí)行上述任務的視頻片段,就可以處理幾乎所有的體力任務。
拿起吸塵器并在房子里運行、分類折疊衣物、收拾屋子、將物料從A點移動到B點、撿起垃圾并將其放入垃圾箱、推著割草機、監(jiān)控某個區(qū)域是否存在安全相關(guān)問題、砌磚、錘擊釘子、使用電動工具、清洗盤子……
與汽車一樣,機器人在處理上述任務時不受代碼突破的限制。
它受限于特斯拉AI大腦可以處理的視頻數(shù)據(jù)和芯片數(shù)量的限制,來告訴機器人該做什么。
現(xiàn)在,憑借「擎天柱」,特斯拉開始轉(zhuǎn)型為世界上絕大多數(shù)人認為,需要幾十年甚至幾千年才能實現(xiàn)的產(chǎn)品類別。但事實上,該公司正在敲響范式轉(zhuǎn)變的大門,這可能會顛覆工作的意義。
在最新的「馬斯克傳」中,摘錄了馬斯克和他的工程師之間的討論。
「機器人的目標應該是在不充電的情況下運行16小時。」這相當于2個8小時輪班的人力勞動,而且完全不間斷。
它極大地降低了勞動力成本,使產(chǎn)品和服務的預算可能只是現(xiàn)在的一小部分。而且它讓企業(yè)沒有理由在5年內(nèi)以7倍的成本來雇用一個人來生產(chǎn)產(chǎn)品和服務,做同樣的工作。
現(xiàn)實是,這個未來比許多人想象的要近得多。
特斯拉似乎已經(jīng)解決了人類勞動中最困難的問題——AI大腦將根據(jù)在現(xiàn)實世界中分析的視頻自動生成動作。
憑借其制造專業(yè)知識,他們應該能夠在未來幾十年內(nèi),每年生產(chǎn)數(shù)百萬個這樣的產(chǎn)品,這應該會帶來巨大的豐富。
參考資料:
https://twitter.com/Tesla_Optimus/status/1705728820693668189
https://twitter.com/DrJimFan/status/1705982525825503282
https://twitter.com/farzyness/status/1706006003135779299
聯(lián)系客服