文章來源:肖群稀 鮑雁辛 國君產(chǎn)業(yè)研究
AI大模型+人形機器人,邁出了通向通用人工智能的一大步。機器人進(jìn)化路徑:從固定到移動,從獨立到協(xié)作,從單一到通用。服務(wù)機器人商業(yè)化落地的前提是產(chǎn)品能提供真實價值,真實價值的判斷在于機器人能否通用。把機器人做成人形,就是為了使機器人的執(zhí)行能力更加通用,上游核心零部件隨著協(xié)作機械臂的興起快速發(fā)展,促進(jìn)了人形機器人硬件本體制造能力的提升,同時伴隨自動駕駛技術(shù)的高速發(fā)展,人形機器人在視覺、SLAM與基礎(chǔ)AI上有了更多的方案選擇,大模型的出現(xiàn),會從語音、視覺、決策、控制等多方面實現(xiàn)同人形機器人的結(jié)合,形成感知、決策、控制閉環(huán)。我們認(rèn)為機器人產(chǎn)業(yè)將進(jìn)入滲透率快速提升的新階段,看好機器人產(chǎn)業(yè)發(fā)展前景。
AI大模型從語音、視覺、決策、控制等多方面實現(xiàn)同人形機器人的結(jié)合,形成感知、決策、控制閉環(huán),使機器人具備常識。1)語音:語言大模型為機器人的自主語音交互難題提供了解決方案,在上下文理解、多語種識別、多輪對話、情緒識別、模糊語義識別等通用語言任務(wù)上,ChatGPT顯著優(yōu)于深度學(xué)習(xí),表現(xiàn)出了不亞于人類的理解力和語言生成能力。2)視覺:人形機器人的場景相對工業(yè)機器人更通用、更復(fù)雜,通用視覺大模型的All in One 的多任務(wù)訓(xùn)練方案能使得機器人更好地適應(yīng)人類生活場景:大模型的強擬合能力使人形機器人在進(jìn)行目標(biāo)識別、避障、三維重建、語義分割等任務(wù)時,具備更高的精確度;通用視覺大模型通過大量數(shù)據(jù)學(xué)到更多的通用知識,并遷移到下游任務(wù)中,基于海量數(shù)據(jù)獲得的預(yù)訓(xùn)練模型具有較好的知識完備性,提升場景泛化效果。3)決策:基于多模態(tài)的預(yù)訓(xùn)練大模型將增強機器人可完成任務(wù)的多樣性與通用性,讓其不局限于文本和圖像等單個部分,而是多應(yīng)用相容,拓展單一智能為融合智能,使機器人能結(jié)合其感知到的多模態(tài)數(shù)據(jù)實現(xiàn)自動化決策。
驅(qū)動:相比工業(yè)機器人,人形機器人硬件需求更復(fù)雜、更多元,特斯拉采用的電驅(qū)方案具備商業(yè)化應(yīng)用基礎(chǔ)。特斯拉Optimus采取電驅(qū)方案,預(yù)計全身共40個執(zhí)行器,其中:身體關(guān)節(jié)28個執(zhí)行器,旋轉(zhuǎn)關(guān)節(jié)方案采用伺服電機+減速器方案,我們推測單臺人形機器人將搭載6臺RV減速器(髖、腰腹)和8臺諧波減速器(肩、腕);我們猜測擺動角度不大的關(guān)節(jié)(膝、肘、踝、腕)采用力矩電機+行星滾柱絲杠方案,將使用14個線性執(zhí)行器。2)機械手采用微型電機+腱繩驅(qū)動傳動結(jié)構(gòu),單手6個電機,11個自由度??招谋姍C結(jié)構(gòu)緊湊、能量密度高、能耗低,和人形機器人機械手需求契合度高。
減速器、伺服電機、線性執(zhí)行器、滾柱絲杠是人形機器人的運動控制產(chǎn)業(yè)鏈中價值量較大的硬件設(shè)備。1)電機:數(shù)量更多、品類更豐富,需滿足全身各關(guān)節(jié)的驅(qū)動需求,手部需采用微型電機。2)減速器、傳動裝置:數(shù)量更多,旋轉(zhuǎn)執(zhí)行器延續(xù)了對RV、諧波減速器的需求,線性執(zhí)行器中需要用到行星滾柱絲杠作為線性傳動裝置。3)環(huán)境感知:區(qū)別工業(yè)機器人在固定場景外接機器視覺設(shè)備實現(xiàn)識別的方案,人形機器人場景復(fù)雜,需采用激光雷達(dá)、攝像頭等方案實現(xiàn)環(huán)境感知、三維重建并實現(xiàn)路徑規(guī)劃,對設(shè)備品類、算法、實時算力要求更高。4)運動控制:類似于工業(yè)機器人,運控算法均是廠商自研,開發(fā)難度大,是核心競爭力之一;特斯拉Optimus復(fù)用特斯拉汽車的感知和計算能力,在全自動駕駛FSD芯片基礎(chǔ)上開發(fā)適合人形機器人的控制器系統(tǒng)。人形機器人傳感器數(shù)量、品類、執(zhí)行機構(gòu)復(fù)雜程度遠(yuǎn)高于工業(yè)機器人,對控制器實時算力、集成度要求高。
風(fēng)險提示:1)經(jīng)濟(jì)復(fù)蘇低于預(yù)期;2)AI大模型、超融合發(fā)展速度低于預(yù)期;3)出現(xiàn)相似技術(shù)。
正文:
1. 通用——解決機器人高需求和低滲透率的矛盾
1.1. 機器人進(jìn)化路徑:從固定到移動,從獨立到協(xié)作,從單一到通用
服務(wù)機器人商業(yè)化落地的前提是產(chǎn)品能提供真實價值,真實價值的判斷在于機器人能否通用。在全球勞動力短缺的背景下,機器人產(chǎn)業(yè)蓬勃發(fā)展,2022年全球服務(wù)機器人市場規(guī)模217億美元,過去5年復(fù)合增速超過20%。然而,在高速發(fā)展背景下,服務(wù)機器人滲透率仍然不高,規(guī)?;虡I(yè)落地并不順利。
我們認(rèn)為原因在于:目前大多數(shù)服務(wù)機器人都或多或少的存在場景適應(yīng)性的問題,如無法適應(yīng)環(huán)境變化,環(huán)境變化后,用戶無法通過簡單操作實現(xiàn)場景適配;智能化程度低,行人避障及功能表現(xiàn)不理想;機器人部署流程復(fù)雜(如SLAM建圖、目標(biāo)點標(biāo)注等),所有部署操作只能由機器人現(xiàn)場部署工程師執(zhí)行,使用者難以操作及參與,且當(dāng)需要變更時,仍需現(xiàn)場部署工程師進(jìn)行操作。以商超場景為例:
· 環(huán)境復(fù)雜:場景中鏤空的貨架(超高類障礙物)、狹窄的通道、易跌落區(qū)域、低矮類障礙物及臨時的攤鋪,考驗機器人的通過性、感知能力、任務(wù)規(guī)劃能力。
· 高動態(tài)化:商場人流大,易聚集,動態(tài)障礙物多,對機器人安全避障能力要求高。
· 特殊物體較多,場景光線變化大:如玻璃護(hù)欄、自動扶梯、玻璃轉(zhuǎn)門、玻璃墻等高透物體大多數(shù)機器人基本無法識別,且容易對激光雷達(dá)產(chǎn)生干擾,導(dǎo)致機器人誤判,發(fā)生碰撞、跌落、無法靠近作業(yè)。對于依賴視覺傳感器的機器人來說,要在普通光線、黑暗、過曝等光照條件都能穩(wěn)定運行難度較大。
以上問題在工業(yè)機器人領(lǐng)域同樣存在,影響了工業(yè)機器人滲透率的提升,直到協(xié)作機器人的出現(xiàn)。2022年全球協(xié)作機器人市場規(guī)模89.5億元人民幣,預(yù)計2022~2028年市場規(guī)模將以22.05%的增速達(dá)到300億元。2017~2022年中國協(xié)作機器人銷量從3618臺增長至19351臺,預(yù)計2023年出貨將超過2.5萬臺,2016~2021年市場規(guī)模從3.6億人民幣增長至20.39億人民幣,復(fù)合增速41.5%。協(xié)作機器人也可以被認(rèn)為是服務(wù)機器人,因為他們旨在與人類并肩作戰(zhàn)。傳統(tǒng)工業(yè)機器人在柵欄后與人分開作業(yè),完成的工作也有限,例如焊接、噴涂、吊裝等。協(xié)作機器人更靈活,更智能,更容易合作,更具有適應(yīng)能力,使汽車、電子等制造行業(yè)能夠?qū)⒆詣踊瘮U(kuò)展到最終產(chǎn)品組裝,完成任務(wù)(例如拋光和施涂涂層)以及質(zhì)量檢查等等。
1.2. 如何讓機器人更加通用?
使機器人更加通用,需要機器人的感知能力、思考和決策能力、行動執(zhí)行能力的全面提升。我們認(rèn)為GPT(預(yù)訓(xùn)練大預(yù)言模型)和人形機器人的出現(xiàn),是機器人在邁向通用人工智能的道路上的一大步。
感知世界的能力(機器人的眼睛):機器人自主移動的感知和定位技術(shù)中激光和視覺導(dǎo)航是主流應(yīng)用方案。計算機視覺的發(fā)展經(jīng)歷了基于以特征描述子代表的傳統(tǒng)視覺方法、以CNN卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù),目前通用的視覺大模型正處于研究探索階段,人形機器人的場景相對工業(yè)機器人更通用、更復(fù)雜,視覺大模型的All in One 的多任務(wù)訓(xùn)練方案能使得機器人更好地適應(yīng)人類生活場景。一方面,大模型的強擬合能力使得人形機器人在進(jìn)行目標(biāo)識別、避障、三維重建、語義分割等任務(wù)時具備更高的精確度;另一方面,大模型解決了深度學(xué)習(xí)技術(shù)過分依賴單一任務(wù)數(shù)據(jù)分布,場景泛化效果不佳的問題,通用視覺大模型通過大量數(shù)據(jù)學(xué)到更多的通用知識,并遷移到下游任務(wù)中,基于海量數(shù)據(jù)獲得的預(yù)訓(xùn)練模型具有較好的知識完備性,提升場景泛化效果。
思考和決策的能力(機器人的大腦):目前的機器人都是專用機器人,只能在限定場景中應(yīng)用,即使是機器人抓取,基于計算機視覺,仍然是在限定場景中,算法僅用于識別物體,如何做、做什么仍需要人的定義。要讓機器人通用,叫他去澆花,他就知道去拿水壺,接水,然后澆花,這是需要常識才能完成的事情。如何能讓機器人擁有常識?在大模型出現(xiàn)之前,這個問題幾乎是無解的。大模型讓機器人可以擁有常識,從而具備通用性去完成各種任務(wù),徹底改變通用機器人實現(xiàn)的模式。
執(zhí)行能力(機器人的四肢):行動能力(腿)+精細(xì)操作(手)。把機器人做成人形,就是為了讓機器人的執(zhí)行能力更加通用。機器人執(zhí)行任務(wù)時所處的環(huán)境是按照人類的體型建造起來的:建筑、道路、設(shè)施、工具等,這個世界是為了方便人類這種人形生物才這樣設(shè)計。如果出現(xiàn)了某種新形態(tài)的機器人,人們就必須重新設(shè)計一套機器人適應(yīng)的全新環(huán)境。設(shè)計在某個特定范圍內(nèi)執(zhí)行任務(wù)的機器人相對容易,如果想要提高機器人的通用性,就必須選擇可以作為分身的人形機器人。此外,人類與人形機器人更容易有情感上的交流,人形機器人會讓人感到親近。日本機器人專家森昌弘的假設(shè)指出:由于機器人與人類在外表、動作上相似,所以人類亦會對機器人產(chǎn)生正面的情感。
1.3. 人形機器人進(jìn)入商業(yè)化前夜
從2015年DARPA Robotics Challenge,到2019年人形機器人各種科研項目被砍,業(yè)內(nèi)普遍唱衰,再到2022年特斯拉帶動的百花齊放,人形機器人產(chǎn)業(yè)處于螺旋式向上的發(fā)展之中。波士頓動力的Atlas、Tesla的Optimus、小米CyberOne、ihmc的Nadia,Agility Robotics的Nadia、日系A(chǔ)simo與HRP-5P都在探索人形機器人的商業(yè)形態(tài)。我們對人形機器人發(fā)展過程中有代表性的產(chǎn)品進(jìn)行了梳理:
第一臺人形機器人WABOT-1(1973年)。1973年日本早稻田大學(xué)加藤一郎帶領(lǐng)團(tuán)隊研發(fā)出世界上第一臺真人大小的人形智能機器人——WABOT-1。該機器人有肢體控制系統(tǒng)、視覺系統(tǒng)和對話系統(tǒng),胸部裝有兩個攝像頭,手部裝有觸覺傳感器。
本田 E系列機器人(1986~1993年),奠定穩(wěn)定行走基礎(chǔ)。本田推出E系列雙足機器人,E0到E6,走路速度由慢變快,從走直線到在臺階或坡地上均可實現(xiàn)穩(wěn)定行走,為下一步P系列類人機器人的研發(fā)奠定了基礎(chǔ),是機器人歷史的里程碑。
本田P系列機器人(1993-1997年)& ASIMO(2000~2011)。1993年本田開發(fā)第1個仿人機器人原型P1,2000年P(guān)系列中的第4臺也是最后一臺機器人P4誕生,通俗稱呼阿西莫(ASIMO)。2011年推出的第三代ASIMO身高1.3米,體重48公斤,行走速度是0-9km/h,2012最新版的ASIMO,除具備了行走功能與各種人類肢體動作之外,還可以預(yù)先設(shè)定動作,并依據(jù)人類的聲音、手勢等指令,做出相應(yīng)動作。他還具備了基本的記憶與辨識能力。2018年本田宣布停止人形機器人ASIMO的研發(fā),專注于該技術(shù)的更多實際應(yīng)用。
HPR系列機器人(1998~2018)代替建筑行業(yè)的繁重工作:這是由日本經(jīng)濟(jì)產(chǎn)業(yè)省和新能源與產(chǎn)業(yè)技術(shù)開發(fā)組織贊助,川田工業(yè)株式會社(Kawada Industries)牽頭與國立先進(jìn)工業(yè)科學(xué)技術(shù)研究院(AIST)和川崎重工株式會社共同研發(fā)的通用家庭助手機器人的開發(fā)項目。項目起始于1998年HPR-1(Honda P3),先后推出了HPR-2P、HRP-2、HRP-3P、HRP-3、HRP-4C、HRP-4等多個人形機器人。目前最新的機器人HPR-5P于2018年發(fā)布,該機器人身高182cm,體重101kg,全身總共37個自由度,旨在替代建筑行業(yè)中的繁重工作。
波士頓動力(1986~2023):腿足式機器人運控技術(shù)最前沿,軍事化應(yīng)用特征明顯。波士頓動力最早因研發(fā)的Big Dog而被世界聞名,公司發(fā)布了BigDog、Rise、LittleDog、PETMAN、LS3、Spot、Handle、Atlas等多個機器人,從單足、多足機器人到人形機器人,有著明顯的軍事化應(yīng)用的路線特征。波士頓動力是一家典型的技術(shù)驅(qū)動的公司,從機械結(jié)構(gòu)、算法步態(tài)控制、動力系統(tǒng)耗能等方面對機器人持續(xù)迭代更新,核心在于發(fā)展腿式機器人以適應(yīng)不同環(huán)境的使用,技術(shù)關(guān)鍵在于動力學(xué)研究和機器人平衡態(tài)的控制。
Digit系列機器人(2019~2023):具備行走能力,專注物流領(lǐng)域商業(yè)化。Digit系列是Agility Robotics公司在物流領(lǐng)域商業(yè)化的嘗試,公司是從俄勒岡州立大學(xué)(OSU)拆分出來的機器人公司,致力于研發(fā)和制造雙足機器人,前后開發(fā)了MABEL、ATRIAS、CASSIE、DIGIT系列足式機器人。其中CASSIE可實現(xiàn)4m/s的驚人配速,是腿足式機器人在快速行走能力上里程碑式的成果。2019年,Agility推出了人形機器人Digit,在Cassie的基礎(chǔ)上加上了軀干、手臂,并增加了更多計算能力,支持負(fù)載18kg的箱子,可進(jìn)行移動包裹、卸貨等工作。
小米“鐵大“機器人(2022):21年小米曾發(fā)布一款機械狗Cyberdog,是其在足式機器人的首次嘗試。2022年8月,小米首個全尺寸人形仿生機器人 CyberOne 亮相秋季發(fā)布會。CyberOne 身高 177cm,體重52kg,藝名“鐵大”,能感知 45 種人類語義情緒,分辨85 種環(huán)境語義;搭載小米自研全身控制算法,可協(xié)調(diào)運動 21 個關(guān)節(jié);配備了 Mi Sense 視覺空間系統(tǒng),可三維重建真實世界;全身 5 種關(guān)節(jié)驅(qū)動,峰值扭矩 300Nm。
特斯拉Optimus機器人(2022年):推動人形機器人商業(yè)化。Optimus原型機亮相于2022年特斯拉AI day,身高1.72m,體重 57kg,可負(fù)載 20kg,最快運動速度 8km/h。目前Optimus仍處于研發(fā)進(jìn)展迅速,僅8個月機器人已可實現(xiàn)直立行走、搬運、灑水等復(fù)雜動作。
交互型機器人索菲亞(2015)和阿梅卡(2021),面部表情擬人化的嘗試: 索菲亞(Sophia)是由漢森機器人技術(shù)公司(Hanson Robotics)開發(fā)的類人機器人,2015年面世。索菲婭皮膚由Frubber仿生材料制成,基于語音識別、計算機視覺技術(shù),可以識別和復(fù)制各種各樣的人類面部表情,并通過分析人類表情和語言同人類對話。阿梅卡(Ameca)由英國領(lǐng)先的仿生娛樂機器人設(shè)計和制造公司——工程藝術(shù)有限公司(Engineered Arts)打造,具有12個全新的面部致動器,經(jīng)過面部表情升級后,能對著鏡子眨眼、抿嘴、皺眉、微笑。阿梅卡能夠自由進(jìn)行幾十種仿人類的肢體運動,被認(rèn)為是“世界上最逼真機器人”。
我們選擇了7款有代表性的人形機器人,從驅(qū)動、感知、控制器三個方面進(jìn)行技術(shù)路線梳理。
2. AI大模型+人形機器人:給機器人提供常識
2.1. AI大模型訓(xùn)練過程及發(fā)展趨勢
大模型 = 預(yù)訓(xùn)練+微調(diào)。從2017年Transformer開始,到GPT-1、BERT、GPT-2、GPT-3、GPT-4模型的出現(xiàn),模型的參數(shù)量級實現(xiàn)了從億到百萬億量級的突破,大模型(預(yù)訓(xùn)練模型、Foundation Models)在無標(biāo)注的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,利用專用的小規(guī)模的標(biāo)注數(shù)據(jù)對模型進(jìn)行微調(diào)(fine- tuning),可用于下游任務(wù)預(yù)測。遷移學(xué)習(xí)是預(yù)訓(xùn)練模型的主要思想,當(dāng)目標(biāo)場景數(shù)據(jù)不足時,先在數(shù)據(jù)量大的公開數(shù)據(jù)集上訓(xùn)練基于深度神經(jīng)網(wǎng)絡(luò)的AI模型,然后將其遷移到目標(biāo)場景中,通過目標(biāo)場景中的小數(shù)據(jù)集進(jìn)行微調(diào),使模型達(dá)到要求的性能。預(yù)訓(xùn)練模型極大地減少了模型在標(biāo)記數(shù)據(jù)量下游工作的需要,從而適用于一些難以獲得大量標(biāo)記數(shù)據(jù)的場景。
大模型的發(fā)展過程和趨勢:從參數(shù)規(guī)模上看,大模型經(jīng)歷了從預(yù)訓(xùn)練模型、大規(guī)模預(yù)訓(xùn)練模型、超大規(guī)模預(yù)訓(xùn)練模型的階段,參數(shù)量實現(xiàn)了從億級到百萬億級的發(fā)展。從數(shù)據(jù)模態(tài)來看,大模型正在從文本、語音、視覺等單一模態(tài)大模型,向著多種模態(tài)融合的通用人工智能方向發(fā)展。
2.2. AI大模型讓人形機器人具備通用任務(wù)解決能力
AI大模型將會從語音、視覺、決策、控制等多方面實現(xiàn)同人形機器人的結(jié)合,形成感知、決策、控制閉環(huán),大大提升機器人的“智慧”程度:
語音:ChatGPT作為一種預(yù)訓(xùn)練語言模型,可以被應(yīng)用于機器人與人類之間的自然語言交互。例如,機器人可以通過ChatGPT來理解人類的自然語言指令,并根據(jù)指令進(jìn)行相應(yīng)的動作。自然語言是人類最通用的交互媒介,語音作為自然語言的載體將會是機器人擬人化的關(guān)鍵任務(wù)。盡管深度學(xué)習(xí)的出現(xiàn)已經(jīng)將以語音識別技術(shù)、自然語言處理、語音生成技術(shù)為構(gòu)成模塊的語音交互技術(shù)推向相對成熟的階段,但實際過程中仍然容易出現(xiàn)語義理解偏差(反諷等)、多輪對話能力不足、文字生硬的情況。語言大模型為機器人的自主語音交互難題提供了解決方案,在上下文理解、多語種識別、多輪對話、情緒識別、模糊語義識別等通用語言任務(wù)上,ChatGPT表現(xiàn)出了不亞于人類的理解力和語言生成能力。在以ChatGPT為代表的大模型的加持下,人形機器人對通用語言的理解和交互才能提上日程,這將會是通用AI賦能通用服務(wù)機器人的開始。
視覺:視覺大模型賦能人形機器人識別更精確,場景更通用。計算機視覺的發(fā)展經(jīng)歷了基于以特征描述子代表的傳統(tǒng)視覺方法、以CNN卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù),目前通用的視覺大模型正處于研究探索階段。一方面,大參數(shù)量模型的強擬合能力使得人形機器人在進(jìn)行目標(biāo)識別、避障、三維重建、語義分割等任務(wù)時具備更高的精確度;另一方面,通用大模型解決了過去以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù)過分依賴單一任務(wù)數(shù)據(jù)分布,場景泛化效果不佳的問題,通用視覺大模型通過大量數(shù)據(jù)學(xué)到更多的通用知識,并遷移到下游任務(wù)中,基于海量數(shù)據(jù)獲得的預(yù)訓(xùn)練模型具有較好的知識完備性,大大提升場景泛化效果。人形機器人的場景相對工業(yè)機器人更通用、更復(fù)雜,視覺大模型的All in One 的多任務(wù)訓(xùn)練方案能使得機器人更好地適應(yīng)人類生活場景。
決策:通用語言、環(huán)境感知能力是自動化決策的基礎(chǔ),多模態(tài)大模型契合人形機器人的決策需求。單一模態(tài)智能無法解決設(shè)計多模態(tài)信息的決策問題,如“語音告知機器人去取桌子上綠色蘋果”的任務(wù)。多模態(tài)統(tǒng)一建模,目的是增強模型的跨模態(tài)語義對齊能力,使模型逐步標(biāo)準(zhǔn)化,使得機器人能綜合視覺、語音、文本多維度信息,實現(xiàn)各感官融合決策的能力?;诙嗄B(tài)的預(yù)訓(xùn)練大模型或?qū)⒊蔀槿斯ぶ悄芑A(chǔ)設(shè)施,增強機器人可完成任務(wù)的多樣性與通用性,讓其不只局限于文本和圖像等單個部分,而是多應(yīng)用相容,拓展單一智能為融合智能,使機器人能結(jié)合其感知到的多模態(tài)數(shù)據(jù)實現(xiàn)自動化決策。
控制:生成式AI賦能機器人自我控制,最終形成感知、決策、控制閉環(huán)。使得人形機器人具備通用能力,首先需要其具備“常識”,即通用的語言理解能力(語音)和場景理解能力(視覺);其次需要其具備決策能力,即接收指令后產(chǎn)生的對任務(wù)的拆解;最后,需要其具備自我控制和執(zhí)行性能,生成式AI的代碼生成能力將最終使得機器人的感知、決策、動作形成閉環(huán),達(dá)到自我控制的目的。事實上,近來微軟團(tuán)隊已經(jīng)嘗試將ChatGPT應(yīng)用于機器人控制的場景中,通過提前寫好機器人底層函數(shù)庫,并對其描述功能作用及目標(biāo),ChatGPT能生成完成任務(wù)的代碼。在生成式AI的推動下,機器人編程的門檻將會慢慢降低,最終實現(xiàn)自我編程、自我控制,并完成人類習(xí)以為常的通用任務(wù)。
2.3. OpenAI和微軟將大語言模型應(yīng)用于機器人
OpenAI領(lǐng)投挪威人形機器人公司1X Technologies。2017年OpenAI推出了用于機器人的開源軟件Roboschool,在機器人中部署了新的單樣本模仿學(xué)習(xí)算法,通過人類在VR中向機器人演示如何執(zhí)行任務(wù)。2018年,OpenAI發(fā)布了8個模擬機器人環(huán)節(jié)和事后經(jīng)驗回訪基線實施,并用來訓(xùn)練在物理機器人上工作的模型。22年,Halodi Robotics在挪威Sunnaas醫(yī)院測試了醫(yī)護(hù)助理機器人EVE,讓其執(zhí)行后勤工作。2023年3 月 28 日,OpenAI領(lǐng)投挪威人形機器人公司1X Technologies(前稱 Halodi Robotics)。Halodi Robotics通過Ansys初創(chuàng)公司計劃利用Ansys仿真軟件開發(fā)能在日常場景中與人安全協(xié)作的人形機器人。
微軟提出ChatGPT for Robotics,利用ChatGPT 解決機器人應(yīng)用程序編寫問題。2023年4月,微軟在其官網(wǎng)發(fā)表了一篇名為《機器人 ChatGPT:設(shè)計原則和模型能力(ChatGPT for Robotics: Design Principles and Model Abilities)》論文,這項研究的目標(biāo)是觀察ChatGPT是否可以超越文本思考,并對物理世界進(jìn)行推理來幫助完成機器人任務(wù)。人類目前仍然嚴(yán)重依賴手寫代碼來控制機器人,該團(tuán)隊一直在探索如何改變這一現(xiàn)實,使用OpenAI的新人工智能語言模型ChatGPT實現(xiàn)自然的人機交互。
人類可以從機器人流程中的in the loop變?yōu)閛n the loop。論文提出,不要求LLM輸出特定于機器人平臺或者庫的代碼,只是創(chuàng)造簡單的高級函數(shù)庫供ChatGPT調(diào)用,并在后端講高級函數(shù)庫鏈接到各個平臺,場景和工具的現(xiàn)有庫和API。結(jié)果證明,ChatGPT的引入,使得人類通過自然語言等高級語言命令于語言模型交互,用戶通過文本對話不斷將人類的感知信息輸入ChatGPT,ChatGPT解析觀察流并在對話系統(tǒng)中輸出相關(guān)操作,不需要生成代碼。這樣,人類可以實現(xiàn)無縫部署各種平臺和任務(wù),人類對ChatGPT輸出的質(zhì)量和安全性進(jìn)行評估。
人類在機器人pipeline中的任務(wù)主要是:1)首先,定義一組高級機器人 API 或函數(shù)庫。該庫可以針對特定的機器人類型進(jìn)行設(shè)計,并且應(yīng)該從機器人的控制棧或感知庫映射到現(xiàn)有的低層次具體實現(xiàn)。為高級 API 使用描述性名稱非常重要,這樣 ChatGPT 就可以推理它們的行為。2)為 ChatGPT 編寫一個文本提示,描述任務(wù)目標(biāo),同時明確說明高級庫中的哪些函數(shù)可用。提示還可以包含有關(guān)任務(wù)約束的信息,或者 ChatGPT 應(yīng)該如何組織它的答案,包括使用特定的編程語言,或使用輔助解析組件等。3)用戶通過直接檢查或使用模擬器來評估ChatGPT 的代碼輸出。如果需要,用戶使用自然語言向 ChatGPT 提供有關(guān)答案質(zhì)量和安全性的反饋。4)當(dāng)用戶對解決方案感到滿意時,就可以將最終的代碼部署到機器人上。
ChatGPT可以以zero-shot的方式解決簡單的機器人任務(wù)。對于簡單的機器人任務(wù),用戶只需要提供文本提示和函數(shù)庫描述,不需要提供具體的代碼實例,ChatGPT就可以zero-shot解決時空推理(ChatGPT控制一個平面機器人,用視覺伺服捕捉籃球位置)、控制真實無人機完成物體尋找、操縱虛擬無人機實現(xiàn)工業(yè)檢測等問題。
在人類用戶on the loop交互下,ChatGPT可以完成更復(fù)雜的機器人控制任務(wù)。1)課程學(xué)習(xí):教授ChatGPT簡單的拾取和放置物體的技能,并將所學(xué)會的技能按照邏輯組合用于更復(fù)雜的區(qū)塊排列任務(wù);2)Airsim避障:ChatGPT構(gòu)建了避障算法的大部分關(guān)鍵模塊,但需要人工反饋無人機朝向等信息。人工反饋高級的自然語言,ChatGPT能夠理解并在適當(dāng)?shù)奈恢眠M(jìn)行代碼修正。
ChatGPT的對話系統(tǒng)能夠解析觀察并輸出相關(guān)操作。1)帶API的閉環(huán)對象導(dǎo)航:為ChatGPT提供了對計算機視覺模型的訪問,作為其函數(shù)庫的一部分。ChatGPT在其“代碼“輸出中構(gòu)建感知-動作循環(huán),實現(xiàn)估計相對物體角度、探索未知環(huán)境、并導(dǎo)航到用戶指定對象的功能;2)使用ChatGPT的對話進(jìn)系統(tǒng)進(jìn)行閉環(huán)視覺語言導(dǎo)航。在模擬場景下,人類用戶將新的狀態(tài)觀測值作為對話文本輸入,ChatGPT的輸出僅返回向前的運動距離和轉(zhuǎn)彎角度,實現(xiàn)了用“對話系統(tǒng)”指導(dǎo)機器人一步步導(dǎo)航到感興趣區(qū)域。
3. 人形,讓機器人的運動執(zhí)行更加通用
執(zhí)行能力(機器人的四肢):行動能力(腿)+精細(xì)操作(手)。把機器人做成人形,是為了讓機器人的執(zhí)行能力更加通用。機器人執(zhí)行任務(wù)時所處的環(huán)境是按照人類的體型建造起來的:建筑、道路、設(shè)施、工具等,這個世界是為了方便人類這種人形生物才這樣設(shè)計。如果出現(xiàn)了某種新形態(tài)的機器人,人們就必須重新設(shè)計一套機器人適應(yīng)的全新環(huán)境。設(shè)計在某個特定范圍內(nèi)執(zhí)行任務(wù)的機器人相對容易,如果想要提高機器人的通用性,就必須選擇可以作為分身的人形機器人。本章選擇兩個代表性產(chǎn)品波士頓動力Altas和特斯拉Optimus,從驅(qū)動、環(huán)境感知、運動控制三方面對比方案差異,探尋人形機器人運動控制方案商業(yè)化的趨勢。
波士頓動力Altas定位于技術(shù)的前瞻性研究,側(cè)重探索技術(shù)應(yīng)用的可能性而非商業(yè)化。從硬件架構(gòu)來看, Altas具備出色的動態(tài)性能、瞬時功率密度和穩(wěn)定的運動姿態(tài),可以實現(xiàn)高負(fù)載、高復(fù)雜度的運動, 像是一場技術(shù)驅(qū)動的盛宴。商業(yè)化并非波士頓動力當(dāng)前主要考量因素,Altas項目更多作為一個研究平臺供研究者進(jìn)行學(xué)術(shù)試驗,側(cè)重探索技術(shù)應(yīng)用的可能性而非商業(yè)化。
特斯拉Optimus發(fā)心于人形機器人的規(guī)?;⑸虡I(yè)化、標(biāo)準(zhǔn)化,商業(yè)化的目標(biāo)驅(qū)動下,成本、能耗成為特斯拉團(tuán)隊的考量指標(biāo)。
3.1. 驅(qū)動:液壓驅(qū)動 VS 電動驅(qū)動
3.1.1. 電驅(qū)成本低、易于維護(hù)、控制精度高,商業(yè)化潛力高
主流人形機器人的驅(qū)動方案包括液壓驅(qū)動和電氣驅(qū)動(伺服電機+減速器)兩種。相比電氣驅(qū)動,液壓驅(qū)動輸出力矩大、功率密度高和過載能力強,因而能滿足波士頓動力Atlas高負(fù)載動作和快速運動的需求;但液壓驅(qū)動的方式能耗大、成本高,同時容易出現(xiàn)漏液等問題、可維護(hù)性差。一方面,商用場景下高負(fù)載動作(如跑酷、后空翻等)屬于非必要行為,另一方面,隨著電驅(qū)系統(tǒng)功率密度和響應(yīng)速度的不斷提升,我們認(rèn)為結(jié)合電驅(qū)成本低、易于維護(hù)且技術(shù)應(yīng)用成熟的優(yōu)勢,基于電驅(qū)的人形機器人商業(yè)化可能性更高。
3.1.2. 波士頓動力Atlas:采用“液壓驅(qū)動”方案
波士頓動力全身共28個液壓執(zhí)行器,可執(zhí)行高負(fù)載復(fù)雜動作。HPU(Hydraulic Power Unit)作為Atlas的液壓動力源具備極小尺寸的高能量密度(~5kW/5Kg),電液經(jīng)由流體管線連接至各液壓泵,可實現(xiàn)快速響應(yīng)和精確力控,其高瞬時功率密度的液壓驅(qū)動器能支持機器人實現(xiàn)奔跑、跳躍、后空翻等復(fù)雜動作,機器人的結(jié)構(gòu)強度得益于其高集成度的結(jié)構(gòu)總成。根據(jù)官方披露影像及專利細(xì)節(jié),我們推測:踝、膝、肘關(guān)節(jié)由液壓缸驅(qū)動;髖、肩、腕關(guān)節(jié)及腰腹由擺動液壓缸驅(qū)動。
3.1.3. 特斯拉Optimus:采用“電動驅(qū)動”方案
單臺Optimus全身40個執(zhí)行器,是單臺多關(guān)節(jié)機器人的6~7倍。其中:身體關(guān)節(jié)部分采用減速器/絲桿+伺服電機的傳動方式,共計28個執(zhí)行器;機械手基于欠驅(qū)動方案,采用電機+腱繩驅(qū)動(tendon-driven)的傳動結(jié)構(gòu),單手6個電機,11個自由度。
根據(jù)Testla AI Day,特斯拉自主研發(fā)的六種執(zhí)行器中,旋轉(zhuǎn)關(guān)節(jié)方案繼承工業(yè)機器人,線性執(zhí)行器和微型伺服電機是人形機器人新需求,具體看:
旋轉(zhuǎn)關(guān)節(jié)方案(肩、髖、腰腹):伺服電機+減速器,我們推測,單臺人形機器人將搭載6臺RV減速器(髖、腰腹)和8臺諧波減速器(肩、腕)。根據(jù)特斯拉Optimus執(zhí)行器方案,RV減速器體積大、負(fù)載能力強、剛度高,適用于髖、腰腹大負(fù)載關(guān)節(jié),其中髖關(guān)節(jié)2*2臺、腰腹兩個自由度2臺,共計6臺;諧波減速器體積小、傳動比高、精密度高,適用于肩、腕關(guān)節(jié),其中肩關(guān)節(jié)3*2臺、腕關(guān)節(jié)1*2臺,共計8臺。隨著更多廠商的涌入,其執(zhí)行器方案可能存在差異,若線性執(zhí)行器被旋轉(zhuǎn)執(zhí)行器替代,單臺機器人減速器數(shù)量將有所提升。
擺動角度不大的關(guān)節(jié)(膝、肘、踝、腕):線形執(zhí)行器(伺服電機+絲杠)。一體化伺服電動缸(伺服電機+絲杠)方案具備自鎖能力,能耗比純旋轉(zhuǎn)關(guān)節(jié)方案低。線性執(zhí)行器空間利用率高、能提供較大的推動力。我們猜測,線性執(zhí)行器基于力矩電機結(jié)合行星滾柱絲杠的方案將應(yīng)用于線性執(zhí)行器關(guān)節(jié)(髖、膝、踝、肘、腕)中,預(yù)計合計將使用14個線性執(zhí)行器。
行星滾柱絲杠以其高承載、高剛度、長壽命的特點或成為人形機器人線性執(zhí)行器的關(guān)鍵傳動裝置,通過適配人形機器人需求實現(xiàn)降本是大規(guī)模放量的前提。根據(jù)Tesla AI Day 2022會上展示的信息來看,Optimus線性執(zhí)行器采用的方案即為行星滾柱絲杠一體式伺服電動缸。我們認(rèn)為下肢髖、膝、踝關(guān)節(jié)及上肢的肘關(guān)節(jié)的伺服電缸采用高承載、高剛度的行星滾柱絲杠作為傳動裝置可能性比較大。行星滾柱絲杠結(jié)構(gòu)復(fù)雜、加工難度大因而成本很高,通過調(diào)整設(shè)計、工藝方案適配人形機器人的需要來實現(xiàn)降本是其大規(guī)模應(yīng)用的前提。
機械手:Optimus單手包括6個執(zhí)行器,可實現(xiàn)11個自由度,由微型電機驅(qū)動,“欠驅(qū)動”方案性價比高,“繩驅(qū)“傳動結(jié)構(gòu)不確定性較大。“欠驅(qū)動”,系統(tǒng)執(zhí)行器的數(shù)目小于其自由度數(shù)目,因為機械手本身高自由度數(shù)目的特性,出于提高系統(tǒng)設(shè)計的集成性、緊湊性和降低成本、更出于簡化后續(xù)運動控制的考慮,設(shè)計者們會減少所使用電機的數(shù)目(即執(zhí)行器的數(shù)目),形成了執(zhí)行器的數(shù)目小于其自由度數(shù)目的欠驅(qū)動方案。通過機械結(jié)構(gòu)的優(yōu)化實現(xiàn)以較少的執(zhí)行機構(gòu)驅(qū)動更多的自由度,節(jié)省成本,是目前商業(yè)產(chǎn)品及高校機械手研發(fā)的主流選擇。
特斯拉Optimus機械手采取電機+腱繩驅(qū)動的方式,可能對手部傳動方案進(jìn)行優(yōu)化。盡管繩驅(qū)給機械手帶來了極大的靈活性,且可以極大簡化設(shè)計難度和系統(tǒng)的復(fù)雜性,但其可靠性、傳動效率都低于傳統(tǒng)連桿、齒輪齒條等方式,可能是研發(fā)團(tuán)隊短期開發(fā)的權(quán)宜之計。
機械手驅(qū)動方案差異較大,電機的輕量化、低成本是關(guān)鍵。空心杯電機結(jié)構(gòu)緊湊、能量密度高、能耗低,和人形機器人機械手需求契合度高。機械傳動結(jié)構(gòu)上,機械手的主流方案包括繩驅(qū)(Tendon Driven)、連桿、齒輪齒條、材料形變等。各機械手驅(qū)動方案差異很大:Ritsumeikan Hand Ritsumeikan Hand通過耦合走線實現(xiàn)了2個驅(qū)動器對15個關(guān)節(jié)的驅(qū)動;Stanford/JPL靈巧手單手16個電機;Shadow Hand單手30個電機,合計24個自由度。人形機器人機械手需要滿足質(zhì)量輕、結(jié)構(gòu)緊湊和抓取力強的要求,因此電機應(yīng)具有尺寸小、質(zhì)量輕、精度高、扭矩大的特點。
3.2. 環(huán)境感知:深度相機+激光雷達(dá) VS 純視覺方案
用于實現(xiàn)機器人自主移動的感知和定位技術(shù)原理主要包括視覺、激光、超聲波、GPS、IMU等,對應(yīng)機器人感知系統(tǒng)的不同傳感器類別。SLAM(即時定位與地圖構(gòu)建)是發(fā)展比較成熟、應(yīng)用廣泛的定位技術(shù),它是機器人通過對各種傳感器數(shù)據(jù)進(jìn)行采集和計算,生成對其自身位置姿態(tài)的定位和場景地圖信息的系統(tǒng)。SLAM問題可以描述為:機器人在未知環(huán)境中從一個未知位置開始移動,在移動過程中根據(jù)位置估計和傳感器數(shù)據(jù)進(jìn)行自身定位,同時建造增量式地圖。獲取定位和地圖后,再根據(jù)路徑規(guī)劃算法(全局、局部、避障)實現(xiàn)自主移動。
3.2.1. 波士頓動力Atlas:深度相機+激光雷達(dá)
波士頓動力Atlas感知方案融合深度相機和激光雷達(dá),基于多平面分割算法實現(xiàn)步態(tài)規(guī)劃。Atlas機器人感知視覺技術(shù)發(fā)展相對成熟,它借鑒Google Transformer模型,搭建HydraNet神經(jīng)網(wǎng)絡(luò)模型,優(yōu)化視覺算法,完成了自動駕駛純視覺系統(tǒng)的遷移; Atlas使用ToF深度相機以每秒15 幀的頻率生成點云,基于多平面分割算法從點云中提取環(huán)境表面,數(shù)據(jù)經(jīng)過映射后完成對周邊物體的識別。之后,工控機基于識別到的表面和物體信息進(jìn)行步態(tài)規(guī)劃,以實現(xiàn)避障、探測地面狀況以和巡航等任務(wù)。IHMC全稱為“人類與機器認(rèn)知研究所”,是一家專注于研發(fā)機器人控制算法的頂尖機構(gòu),主要研發(fā)人形機器人行走所需的關(guān)鍵算法,而指揮Atlas機器人站立、行走等算法就來自于IHMC。
3.2.2. 特斯拉Optimus:純視覺方案,成本更低
特斯拉Optimus環(huán)境感知采用基于攝像頭的純視覺方案,移植特斯拉全自動駕駛系統(tǒng),成本更低。Optimus頭部搭載三枚攝像頭(魚眼攝像頭+左右攝像頭),通過全景分割+自研的三維重建算法(Occupancy Network)實現(xiàn)環(huán)境感知,純視覺方案相比激光雷達(dá)等感知設(shè)備成本更低,但對算力要求高。機器人繼承了Autopilot算法框架,通過重新采集數(shù)據(jù)訓(xùn)練適用于機器人的神經(jīng)網(wǎng)絡(luò),以實現(xiàn)環(huán)境的三維重建、路徑規(guī)劃、自主導(dǎo)航、動態(tài)交互等。特斯拉強大的全自動駕駛系統(tǒng)(FSD)的移植,使機器人視覺方案在不增加硬件成本的前提下朝著更精確、更智能的方向進(jìn)步。
3.3. 運動控制:尚未形成通用的控制器解決方案
運控算法是核心競爭力,各家人形機器人控制算法均為自研。人形機器人對運動控制能力及感知計算能力要求較高,且不同廠商的執(zhí)行器數(shù)量和類別差異較大,未來運控算法或成為廠商核心競爭力,且自研可能性較大;此外人形機器人控制方案,對于客戶應(yīng)用場景的了解程度及工藝要求也是重要因素,目前下游場景分散,單獨一家廠商還很難將人形機器人做到各個場景的通用。
3.3.1. 運動控制算法:思路相似,均為離線行為庫和實時調(diào)整
波斯頓動力Atlas:基于離線行為庫和模型預(yù)測控制(MPC)實現(xiàn)行為控制。離線行為庫基于軌跡優(yōu)化算法(質(zhì)心運動學(xué)優(yōu)化+運動學(xué)優(yōu)化)和動作捕捉(Motion Capture)創(chuàng)建,技術(shù)人員可通過向庫中添加新軌跡為機器人添加新功能;機器人被指定行為目標(biāo)后,從行為庫中選擇盡可能接近目標(biāo)的行為,獲得理論上可行的動態(tài)連續(xù)動作。模型預(yù)測控制(MPC)根據(jù)傳感器反饋的實時信息,基于行為庫調(diào)整部分參數(shù)(力、姿勢、關(guān)節(jié)動作時間等)的細(xì)節(jié),以適應(yīng)真實環(huán)境同理想的差異和其他實時因素。MPC這種在線控制方式允許機器人偏離模版行動,同時可以為兩個行為(如跳躍和后空翻)間預(yù)測過渡動作,簡化了行為庫的創(chuàng)建過程。
特斯拉Optimus:步態(tài)規(guī)劃算法思路和Altas類似,運動規(guī)劃器生成參考軌跡,控制器根據(jù)傳感器信息實時調(diào)整優(yōu)化行為,控制算法尚不成熟。步態(tài)控制算法中,運動規(guī)劃器首先基于預(yù)期路徑,生成參考軌跡,確定機器人模型的動力學(xué)參數(shù)??刂破骰趥鞲衅鲾?shù)據(jù)對機器人進(jìn)行姿態(tài)估計,根據(jù)現(xiàn)實環(huán)境和理想模型的差異,對機器人行為參數(shù)進(jìn)行校正,得到真實行為。此外,在連續(xù)的步態(tài)間,算法結(jié)合了人類行走時的腳步狀態(tài)(腳掌初始著地->腳趾最后離地),結(jié)合上半身的協(xié)調(diào)擺臂運動,實現(xiàn)自然擺臂、大跨步以及盡可能的直膝行走,提高行走效率與姿態(tài)。目前機器人的步態(tài)控制方案還不夠成熟,抗干擾能力較弱,動態(tài)穩(wěn)定性差,特斯拉技術(shù)人員表示Optimus的平衡問題可能需要18~36個月解決。
類似的,Optimus上肢操作借助基于動捕和逆運動學(xué)映射構(gòu)成的離線行為庫,通過實時軌跡優(yōu)化實現(xiàn)自適應(yīng)操作。
3.3.2. 運動控制器:多為自主設(shè)計,不同廠商需求差異大
人形機器人采集并處理多種模態(tài)數(shù)據(jù),執(zhí)行機構(gòu)復(fù)雜程度遠(yuǎn)高于工業(yè)機器人,對控制器實時算力、集成度要求高。人形機器人傳感器類型、數(shù)量遠(yuǎn)超工業(yè)機器人,行動過程中需同時完成3D地圖構(gòu)建、路徑規(guī)劃、多傳感器數(shù)據(jù)采集、采集運算并實現(xiàn)閉環(huán)控制等等,流程相對繁雜,數(shù)據(jù)維度、數(shù)據(jù)量均高于工業(yè)機器人,對算力要求高。工業(yè)機器人一般通過外接的圖像采集卡和圖像處理軟件實現(xiàn)識別和檢測;移動場景下的人形機器人要求圖像處理器集成于控制器芯片中,對芯片集成度有要求。
人形機器人控制器多為自主設(shè)計,不同廠商需求差異大。目前人形機器人下游場景的不確定性較強,不同廠商研發(fā)的機器人驅(qū)動方案(如驅(qū)動方式、電機方案)、感知方案(純視覺、多傳感器融合等)、控制算法差異較大,機器人對控制器的算力、存儲等有不同的需求,因此控制器的組成有差異,以自主設(shè)計為主。我們認(rèn)為人形機器人控制器采用分布式控制系統(tǒng)的方案可能性較大,即由一個核心控制器和多個小型控制器構(gòu)成,其中小型控制器用于驅(qū)動各個身體區(qū)域的關(guān)節(jié)。
波士頓動力Atlas:機器人本體搭載3臺工控機負(fù)責(zé)運控系統(tǒng)的計算。控制器接收來自激光雷達(dá)、ToF深度相機的數(shù)據(jù),生成地圖和路徑后基于離線行為庫中規(guī)劃目標(biāo)行為;實際運動過程中通過采集 IMU、關(guān)節(jié)位置、力、油壓、溫度等傳感器數(shù)據(jù),針對動作序列進(jìn)行實時調(diào)整和優(yōu)化。
特斯拉Optimus:復(fù)用特斯拉汽車的感知和計算能力,在全自動駕駛FSD芯片基礎(chǔ)上開發(fā)適合人形機器人的控制器系統(tǒng)。FSD芯片集成了中央處理器、神經(jīng)網(wǎng)絡(luò)處理器(NPU)、圖像處理器(GPU)、同步動態(tài)隨機存儲器(SDRAM)、信號處理器(ISP)、視頻編碼器(H.265)和安全模塊,能高效率地實現(xiàn)圖像處理、環(huán)境感知、通用計算和實時行為控制。為了匹配人形機器人和汽車的需求差異,Optimus控制器芯片在FSD芯片基礎(chǔ)上做了適應(yīng)性修改,增加了對視、聽、觸覺等數(shù)據(jù)采集實現(xiàn)多模態(tài)信息輸入支持,植入語音交互和無線連接模塊支持人機溝通,具備硬件保護(hù)功能以保障機器人和周邊人員安全,進(jìn)而實現(xiàn)行為決策和運動控制。
4. 投資結(jié)論及產(chǎn)業(yè)鏈?zhǔn)崂?/span>
目前人形機器人廠商多為自行采購上游零件,集成以實現(xiàn)對自家機器人的適配,控制算法和控制器的設(shè)計是機器人運動控制的核心和壁壘,可能會延續(xù)工業(yè)機器人廠商負(fù)責(zé)本體制造+控制器部分的產(chǎn)業(yè)鏈分工。目前,通用的人形機器人控制器方案還沒出現(xiàn),出現(xiàn)類似工業(yè)機器人運動控制卡這樣通用的、集成化解決方案作為獨立的產(chǎn)品供應(yīng)至少需要人形機器人量產(chǎn)之后。
相比工業(yè)機器人,人形機器人硬件需求更復(fù)雜、更多元。減速器、伺服電機、線性執(zhí)行器、滾柱絲杠是人形機器人的運動控制產(chǎn)業(yè)鏈中價值量較大的硬件設(shè)備。1)電機:數(shù)量更多、品類更豐富,需滿足全身各關(guān)節(jié)的驅(qū)動需求,手部需采用微型電機。2)減速器、傳動裝置:數(shù)量更多,旋轉(zhuǎn)執(zhí)行器延續(xù)了對RV、諧波減速器的需求,線性執(zhí)行器中需要用到行星滾柱絲杠作為線性傳動裝置。3)環(huán)境感知:區(qū)別工業(yè)機器人在固定場景外接機器視覺設(shè)備實現(xiàn)識別的方案,人形機器人場景復(fù)雜,需采用激光雷達(dá)、攝像頭等方案實現(xiàn)環(huán)境感知、三維重建并實現(xiàn)路徑規(guī)劃,對設(shè)備品類、算法、實時算力要求更高。4)運動控制:類似于工業(yè)機器人,運控算法均是廠商自研,開發(fā)難度大,是核心競爭力之一;人形機器人傳感器數(shù)量、品類、執(zhí)行機構(gòu)復(fù)雜程度遠(yuǎn)高于工業(yè)機器人,對控制器實時算力、集成度要求高。
5. 風(fēng)險提示
1)經(jīng)濟(jì)復(fù)蘇低于預(yù)期;2)AI大模型、超融合發(fā)展速度低于預(yù)期;3)出現(xiàn)相似技術(shù)。
聯(lián)系客服