中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
BAI資本:萬字干貨帶你入門“具身智能”|BAI觀點(diǎn)

編者按:

盡管人工智能已取得了令人矚目的進(jìn)步,但它仍局限于數(shù)字領(lǐng)域。這種局限性導(dǎo)致人們?cè)絹碓叫枰环N新的人工智能范式,一種能夠有效彌合數(shù)字智能與現(xiàn)實(shí)世界交互之間差距的范式。

具身智能 (Embodied AI) 為解決這種局限性提供了前景廣闊的方案,即創(chuàng)建能像人類一樣與現(xiàn)實(shí)世界互動(dòng)的人工智能系統(tǒng)。它植根于“具身認(rèn)知”的概念,認(rèn)為智能并不完全來自“大腦”,還來自身體與周圍環(huán)境的互動(dòng)方式,身體形態(tài)和感官能力在具身智能中至關(guān)重要。

具身智能機(jī)器人已然成為資本市場的新焦點(diǎn)。到底何為具身智能機(jī)器人?它又是如何通過“大腦”和“小腦”來完成對(duì)外部環(huán)境的感知理解,以及自發(fā)做出決策并完成動(dòng)作執(zhí)行?當(dāng)前全球最領(lǐng)先的具身智能機(jī)器人技術(shù)有哪些?具身智能機(jī)器人未來商業(yè)化的機(jī)會(huì)在哪里?BAI團(tuán)隊(duì)將為你一一展開~

什么是具身智能

具身智能擁有支持感知和運(yùn)動(dòng)的物理身體,可以進(jìn)行主動(dòng)式感知,也可以執(zhí)行物理任務(wù)。更重要的是,具身智能強(qiáng)調(diào)“感知-行動(dòng)回路”(perception-action loop)的重要性,即感受世界—對(duì)世界進(jìn)行建?!M(jìn)而采取行動(dòng)—進(jìn)行驗(yàn)證并調(diào)整模型的過程;這一過程正是“紙上得來終覺淺,絕知此事要躬行”,與我們?nèi)祟惖膶W(xué)習(xí)和認(rèn)知過程一致。雖然在現(xiàn)今技術(shù)條件下通過與環(huán)境的互動(dòng)以第一視角得到的數(shù)據(jù)不夠穩(wěn)定,但這種類似于人類自我中心感知的學(xué)習(xí),從視覺、語言和推理到一個(gè)人工具象(Artificial Embodiment),可以幫助解決更多現(xiàn)實(shí)世界中的問題。具身智能相比上一代傳統(tǒng)AI視覺機(jī)器人,更具有泛化性,適合重交互性、可自適應(yīng)的場景。
所謂具身智能機(jī)器人,即具有主動(dòng)性的第一人稱智能,其本質(zhì)上是可與環(huán)境交互感知,能自主規(guī)劃、決策、行動(dòng),具有執(zhí)行能力的機(jī)器人。其核心目標(biāo)是能夠聽到人類語言,然后分解任務(wù),規(guī)劃子任務(wù),在移動(dòng)中識(shí)別物體,與環(huán)境交互,最終完成相應(yīng)任務(wù)。
具身智能的本質(zhì)是智能體具備和環(huán)境交互感知能力,以及基于感知到的任務(wù)和環(huán)境進(jìn)行自主規(guī)劃-決策-行動(dòng)-執(zhí)行等一系列行為的能力。我們判斷,未來的機(jī)器人需要真正做到和人一樣,通過實(shí)現(xiàn)規(guī)劃決策(大腦)、運(yùn)動(dòng)控制(小腦)、主控系統(tǒng)、主干結(jié)構(gòu)及零部件的組合(類似于人的一系列關(guān)節(jié)和肌肉)達(dá)成這一目標(biāo)。

「大腦」頂層規(guī)劃決策

具身智能機(jī)器人的“大腦”負(fù)責(zé)人機(jī)交互,能通過視覺在語義層面理解場景(例如video-question answering),理解long-horizon任務(wù),對(duì)任務(wù)進(jìn)行分解以及規(guī)劃,負(fù)責(zé)高層次的決策。近年來大模型的迅速發(fā)展對(duì)“大腦”有了長足的促進(jìn),因此,“大腦”的成熟度較高,也不太存在數(shù)據(jù)的匱乏問題,因?yàn)榇蟛糠帜芰梢詮囊延腥祟悢?shù)據(jù)中習(xí)得(如語言數(shù)據(jù))。對(duì)于具身機(jī)器人而言,大腦的長期發(fā)展高度依賴于大模型的進(jìn)展,尤其是多模態(tài)大模型。

常見“大腦”技術(shù)路線

SayCan:  SayCan主要關(guān)注于把LLM(Large Language Model)用于任務(wù)規(guī)劃,著重解決grounding問題(自然語言文本與視覺場景之間的對(duì)齊或連接),提出用語言模型以及affordance來對(duì)任務(wù)步驟進(jìn)行選擇,這樣機(jī)器人就能有效選擇它可以執(zhí)行的步驟(比如機(jī)器人只會(huì)抓取,但大模型不會(huì)輸出過于復(fù)雜的指令)。

PaLM-E:PaLM-E的理念是訓(xùn)練編碼器,將各種輸入轉(zhuǎn)換token化成自然詞后,嵌入相同的空間;PaLM-E是一個(gè) decoder-only 的 LLM,其訓(xùn)練數(shù)據(jù)為包含視覺、連續(xù)狀態(tài)估計(jì)和文本輸入編碼的多模式語句。PaLM-E 提供了一種訓(xùn)練通用模型的新范式,它通過一種共同的表示方法將機(jī)器人任務(wù)和視覺語言任務(wù)結(jié)合在一起:將圖像和文本作為輸入,并輸出文本讓機(jī)器人有了大腦,可以將復(fù)雜自然語言指令分解為簡單指令,然后再去調(diào)用 RT-1執(zhí)行動(dòng)作;PaLM-E所做的只是自然語言理解以及 Planning 部分的工作,并不涉及機(jī)器人動(dòng)作本身。

具身智能“大腦”發(fā)展特點(diǎn)

軟硬件解耦:“大腦”完全依賴于算法和數(shù)據(jù)驅(qū)動(dòng),不依賴硬件,各個(gè)巨頭皆是基于Transformer為底座進(jìn)行模型研發(fā),同一大腦可以運(yùn)用在不同硬件上進(jìn)行決策。

大模型驅(qū)動(dòng):目前主流算法大部分基于LLM 以及LMM (Large Multimodal Model) ,現(xiàn)階段的主要難點(diǎn)在于如何提高大腦語義理解能力和效率,以及如何將理解后的信息映射到機(jī)器人的行動(dòng)中。

較優(yōu)的泛化能力:在開放環(huán)境下,基于大模型的具身智能相較rule-base算法具有一定程度的多場景任務(wù)泛化能力。

綜上,具身智能機(jī)器人“大腦”在某種程度上和自動(dòng)駕駛相似,在開放場景和路徑規(guī)劃上具有一定的遷移性。大模型的發(fā)展對(duì)具身智能的大腦起到了長足的影響,具身智能機(jī)器人“大腦”的長遠(yuǎn)發(fā)展依賴于大模型,尤其是多模態(tài)大模型。核心技術(shù)難點(diǎn)為算法的開發(fā),BAI非常關(guān)注具有算法和數(shù)據(jù)領(lǐng)先性的公司。

「小腦」底層控制算法

小腦是具身智能底層控制的核心(把“大腦”對(duì)語義信息的理解轉(zhuǎn)化為動(dòng)作),其能力可以廣泛地理解為“三歲小孩可以做到的運(yùn)動(dòng)控制以及對(duì)物體的操作”。此類數(shù)據(jù)極其匱乏,單任務(wù)執(zhí)行起來都有困難,遑論任務(wù)間的泛化了。目前看來,小腦部分是具身智能在技術(shù)層面較大的瓶頸,其發(fā)展成熟度尚不及大腦部分。


常見“小腦”技術(shù)路線

模型預(yù)測(cè)控制(Model Predictive Control):通過預(yù)測(cè)未來系統(tǒng)行為來做出決策,在未來的一個(gè)給定時(shí)間窗口內(nèi)解決一個(gè)最優(yōu)化問題,以尋找控制輸入,最小化成本并滿足約束。MPC需要系統(tǒng)模型、成本函數(shù)、預(yù)測(cè)時(shí)間段、約束和反饋來運(yùn)作,通過預(yù)測(cè)了未來會(huì)發(fā)生什么事情,機(jī)器人可以產(chǎn)生相應(yīng)的動(dòng)作來進(jìn)行“預(yù)判”,在一定程度上加大了機(jī)器人的實(shí)用性。以足式機(jī)器人為例,一種使用方法是將MPC用于全身控制(Whole Body Control),由于利用MPC預(yù)測(cè)了未來一個(gè)預(yù)測(cè)時(shí)間步長的狀態(tài)與控制序列,使得機(jī)器人可以協(xié)調(diào)身體的各個(gè)部分,可以通過觀測(cè)到的地面環(huán)境提前給出相應(yīng)的控制量,減緩欠驅(qū)動(dòng)狀態(tài)下的系統(tǒng)的不穩(wěn)定性,通過優(yōu)化得出最佳地面接觸力作為控制量,在欠驅(qū)動(dòng)狀態(tài)下與地面的短時(shí)接觸中,減少接觸模態(tài)的干擾,增強(qiáng)四足的穩(wěn)定性。

此類路線的代表為波士頓動(dòng)力,它的優(yōu)點(diǎn)是傳統(tǒng)算法可靠性高、可解釋性強(qiáng),而缺點(diǎn)是對(duì)于corner case(例如光滑地面)處理不好。

強(qiáng)化學(xué)習(xí)(Reinforcement Learning):相比于MPC依賴于線上優(yōu)化以及物理模型,強(qiáng)化學(xué)習(xí)可以讓機(jī)器人自主學(xué)習(xí):智能體能夠從環(huán)境中獲取一種狀態(tài),由智能體進(jìn)行決策,對(duì)環(huán)境作出一種行為,再由環(huán)境反饋獎(jiǎng)勵(lì)信號(hào)給智能體,透過多次的上述過程,智能體由過往的經(jīng)歷學(xué)習(xí)獲得的獎(jiǎng)勵(lì)信號(hào)最佳的行。以游戲?yàn)槔?,如果在游戲中采取某種策略可以取得較高的得分,那么就進(jìn)一步強(qiáng)化這種策略,以期繼續(xù)取得較好的結(jié)果;通過激勵(lì),具身智能體在模擬器中不斷試錯(cuò)最終提升能力。在機(jī)器人領(lǐng)域中,因?yàn)閷W(xué)習(xí)效率普遍較低,機(jī)器人往往要在模擬器中進(jìn)行學(xué)習(xí),而現(xiàn)在的模擬器和真實(shí)世界有差距(sim-to-real gap),往往需要大量的努力才能讓在模擬器中訓(xùn)練好的機(jī)器人遷移到真實(shí)世界。

此類路線的優(yōu)點(diǎn)是可適應(yīng)性強(qiáng)、方法簡單易懂,而缺點(diǎn)是需要大規(guī)模預(yù)訓(xùn)練、不易對(duì)行為進(jìn)行分析(本質(zhì)是黑盒)。

模仿學(xué)習(xí)(Imitation Learning):模仿學(xué)習(xí)專注于從demo中進(jìn)行學(xué)習(xí),比如我們可以給機(jī)器人展示一次如何打掃桌子,而機(jī)器人的目標(biāo)就是學(xué)出其中的要點(diǎn),并且自主完成這個(gè)任務(wù)。優(yōu)點(diǎn)是方法比較直接簡單,可以直接在真實(shí)世界中收集數(shù)據(jù),缺點(diǎn)是需要人去收集demo,較難規(guī)?;?/span>

由于“小腦”模型處在非結(jié)構(gòu)化的環(huán)境,導(dǎo)致機(jī)器人部署十分困難,主要難點(diǎn)集中在數(shù)據(jù)匱乏,因此,我們這里通過數(shù)據(jù)來源來總結(jié)最近技術(shù)的進(jìn)展。

常見“小腦”數(shù)據(jù)來源

現(xiàn)實(shí)世界機(jī)器人數(shù)據(jù)

這種方法的常用收集方式為遙操作,常用算法為模仿學(xué)習(xí),它的優(yōu)點(diǎn)是來源于真實(shí)物理、數(shù)據(jù)多樣且高質(zhì)量,而缺點(diǎn)是耗時(shí)耗力且大規(guī)模scale up比較困難。

學(xué)術(shù)界代表人物及其工作(非完整列表):

Google機(jī)器人團(tuán)隊(duì): Sergey Levine, Chelsea Finn, Karol Hausman, Andy Zeng, Pete Florence, Fei Xia, Ted Xiao, Brian Ichter, Tianhe Yu, Yevgen Chebotar … (參見相關(guān)工作SayCan, RT-1, RT-2, RT-X)

UC Berkeley: Sergey Levine (參見相關(guān)工作Bridge Dataset)

Stanford: Chelsea Finn (參見相關(guān)工作ALOHA)

Stanford: Shuran Song (參見相關(guān)工作Diffusion Policy)

Toyota Research Institute: Russ Tedrake(最近目標(biāo)為scale up Diffusion Policy)

上交大:Cewu Lu(參見相關(guān)工作RH20T)

仿真機(jī)器人數(shù)據(jù)

近年得益于NVIDIA對(duì)于仿真環(huán)境的GPU加速以及對(duì)于Omniverse的開發(fā)投入,對(duì)于高維控制任務(wù)例如靈巧手、機(jī)器狗推動(dòng)尤為巨大,這種方法的常用算法為強(qiáng)化學(xué)習(xí),它的優(yōu)點(diǎn)是數(shù)據(jù)收集過程無需人工,而缺點(diǎn)是物理仿真難以真實(shí)(有sim-to-real難點(diǎn))、強(qiáng)化學(xué)習(xí)算法需要針對(duì)每個(gè)任務(wù)單獨(dú)調(diào)節(jié)(前期需較大工程量)。

學(xué)術(shù)界代表人物及其工作(非完整列表):

仿真環(huán)境:
NVIDIA: Isaac Gym, Omniverse, Isaac ORBIT
Stanford: Fei-Fei Li(相關(guān)工作BEHAVIOR
UCSD: Hao Su (相關(guān)工作SAPIEN/ManiSkill)
UT Austin: Yuke Zhu(相關(guān)工作Robosuite)
算法:
ETH / Anybotics: Marco Hutter(相關(guān)工作集中在機(jī)器狗領(lǐng)域)
Google: Jie Tan(相關(guān)工作集中在機(jī)器狗領(lǐng)域)
UC Berkeley: Jitendra Malik(相關(guān)工作集中在靈巧手以及機(jī)器狗領(lǐng)域)
UCSD:  Wang(相關(guān)工作集中在靈巧手以及機(jī)器狗領(lǐng)域)
CMU: Deepak Pathak(相關(guān)工作集中在靈巧手以及機(jī)器狗領(lǐng)域)
MIT: Pulkit Agrawal(相關(guān)工作集中在靈巧手以及機(jī)器狗領(lǐng)域)
Meta: Ankur Handa、Vikash Kumar(相關(guān)工作集中在靈巧手領(lǐng)域)
UC Berkeley: Ken Goldberg (相關(guān)工作集中在抓取領(lǐng)域)
上交大: Cewu Lu(相關(guān)工作集中在抓取領(lǐng)域)

現(xiàn)實(shí)世界人類數(shù)據(jù)

此類主要利用人類視頻數(shù)據(jù)進(jìn)行學(xué)習(xí),統(tǒng)一特點(diǎn)是數(shù)據(jù)不包含機(jī)器人可用的動(dòng)作信息,因此也可以理解為passive data。

這一方法的優(yōu)點(diǎn)是數(shù)據(jù)已有、無需人工收集、數(shù)據(jù)場景多樣且廣泛,而缺點(diǎn)是沒有action、噪聲很大、質(zhì)量不高。

學(xué)術(shù)界代表人物及其工作(非完整列表):

Meta: Aravind Rajeswaran, Vikash Kumar
UC Berkeley: Pieter Abbeel
CMU: Abinav Gupta,Deepak Pathak
UCSD: Xiaolong Wang
UC Berkeley: Jitendra Malik

利用預(yù)訓(xùn)練大模型進(jìn)行學(xué)習(xí)

此類主要運(yùn)用已經(jīng)訓(xùn)練好的語言模型以及多模態(tài)大模型進(jìn)行學(xué)習(xí),由于這些大模型輸出還限制于文字,許多工作專注于“大腦”部分,但也有近期工作探索在“小腦”部分的應(yīng)用。

這一類的優(yōu)點(diǎn)是可以利用大模型的泛化能力且使用簡單,缺點(diǎn)是無直接可用的動(dòng)作信息、grounding(將語言模型與具體的環(huán)境相連接)困難。

近期工作:

RT-1(Robotic Transformer 1):建立在Transformer架構(gòu)上的35M參數(shù)網(wǎng)絡(luò),從不同的感官輸入(視覺、文本)中生成簡單指令,只能執(zhí)行拿起、放下、向左、向右等基本指令;模型中沒有思維鏈,也不具備推理能力。該模型是一個(gè)多任務(wù)模型,對(duì)機(jī)器人的輸入和輸出動(dòng)作(如攝像頭圖像、任務(wù)指令和電機(jī)命令)進(jìn)行標(biāo)記化,以便在運(yùn)行時(shí)進(jìn)行高效推理,從而實(shí)現(xiàn)實(shí)時(shí)控制。

RT-2(Robotic Transformer 2):RT-2 是建立在 VLM的基礎(chǔ)上的視覺-語言-動(dòng)作VLA模型(Vision-Language-Action),該模型是端到端end to end的集成解決方案,它能夠看懂從未見過的物體,理解人類的復(fù)雜指令,中間不再需要將其轉(zhuǎn)化成簡單指令,通過自然語言就可得到最終的 Action;RT-2 不輸出中間過程的Hard decision,這是end-to-end系統(tǒng)與 Pipeline 機(jī)器學(xué)習(xí)系統(tǒng)的最大區(qū)別。RT-2 通過知識(shí)遷移可以先讓模型在網(wǎng)上學(xué)習(xí)大量知識(shí),然后將這些知識(shí)與視覺模型對(duì)齊,機(jī)器人模型可以理解并處理在訓(xùn)練數(shù)據(jù)里沒見過的新對(duì)象、新環(huán)境和新背景,并非視覺或機(jī)器人本身的“涌現(xiàn)”,而是多模態(tài)大模型的“涌現(xiàn)”。RT-2還具備多步推理能力,可以完成二階甚至高階邏輯。

RT-X:構(gòu)建多樣化數(shù)據(jù)集是訓(xùn)練通用模型的關(guān)鍵,Google DeepMind與33家學(xué)術(shù)研究機(jī)構(gòu)匯集了22種不同機(jī)器人類型的數(shù)據(jù),涵蓋100萬個(gè)片段,展示了機(jī)器人500多項(xiàng)技能和16萬項(xiàng)任務(wù)表現(xiàn),創(chuàng)建Open X-Embodiment數(shù)據(jù)集,這是目前最全面的機(jī)器人數(shù)據(jù)集。利用該數(shù)據(jù)集,在RT-1和RT-2模型上訓(xùn)練出能力更強(qiáng)的RT-1-X和RT-2-X。RT-1-X的成功率提升了50%,RT-2-X無障礙解鎖新技能,實(shí)現(xiàn)了RT-2以前無法實(shí)現(xiàn)的技能,例如對(duì)空間的更好理解。

VoxPoser:可以在真實(shí)世界的操縱任務(wù)中零樣本合成軌跡,對(duì)于自由形式語言指令的開放集和對(duì)象的開放集都能適用。由于數(shù)據(jù)對(duì)于泛化至關(guān)重要,但機(jī)器人數(shù)據(jù)稀缺且昂貴。因此為了避免在標(biāo)記數(shù)據(jù)上進(jìn)行策略訓(xùn)練,VoxPoser 的研究工作采用 LLM大型語言模型+VLM 視覺-語言模型中提取機(jī)會(huì)和約束的方法,利用生成的代碼來構(gòu)建 3D 值地圖,以供運(yùn)動(dòng)規(guī)劃器使用,用于零樣本合成日常操縱任務(wù)的軌跡,從而實(shí)現(xiàn)在真實(shí)世界中的零樣本機(jī)器人操縱。


學(xué)術(shù)界代表人物及其工作(非完整列表):

Google: Andy Zeng, Fei Xia, Pete Florence, Brian Ichter, Karol Hausman, Ted Xiao, Igor Mordatch…
Stanford: Shuran Song, Jeannette Bohg, Fei-Fei Li, Wenlong Huang
MIT: Shuang Li, Yilun Du

具身智能“小腦”發(fā)展特點(diǎn)

短期軟硬結(jié)合,算法是主要壁壘,但依賴于硬件:小腦運(yùn)動(dòng)控制的核心也在算法,但短期內(nèi)較難與硬件拆分開;算法高度依賴硬件的形態(tài)&采集數(shù)據(jù)的維度,算法只有適配硬件才能更好發(fā)揮效果。

長期軟硬脫鉤,硬件壁壘降低:運(yùn)動(dòng)控制的算法核心會(huì)逐步向計(jì)算控制模組固化,逐步通過輕量化編程可在不同硬件本體上實(shí)現(xiàn)隨插隨用。長期來看,硬件壁壘將消失,傳統(tǒng)機(jī)器人廠商如四大家族/上一代AI工業(yè)機(jī)器人或?qū)⒊掷m(xù)受益于產(chǎn)業(yè)鏈上下游協(xié)同優(yōu)勢(shì)(供應(yīng)鏈&銷售渠道),在硬件本體上仍具有領(lǐng)先地位。

數(shù)據(jù)是護(hù)城河,是真正的壁壘:具身智能機(jī)器人的數(shù)據(jù)高度依賴硬件本體采集,目前全球在數(shù)據(jù)采集角度而言,皆處于早期階段;真正的具身智能機(jī)器人的壁壘一定來自于大規(guī)模的數(shù)據(jù)采集,包括多傳感器多維度數(shù)據(jù)采集。

綜上,BAI團(tuán)隊(duì)在現(xiàn)階段重點(diǎn)關(guān)注在大小腦算法+硬件運(yùn)動(dòng)控制上較為出色的軟硬件一體(算法+機(jī)器人)公司,若具備核心通用算法模組能力(可適配不同硬件形態(tài))的公司是plus;中長期我們期待具有規(guī)?;瘮?shù)據(jù)采集能力,能建立數(shù)據(jù)壁壘的公司出現(xiàn),同時(shí)具備大規(guī)模量產(chǎn)的產(chǎn)品化能力至關(guān)重要;我們同時(shí)關(guān)注“送水人”,提供數(shù)據(jù)采集核心傳感器技術(shù)服務(wù)商、以及第三方數(shù)據(jù)采集提供商。

中國是更適合具身智能機(jī)器人發(fā)展的土壤

具身智能機(jī)器人顧名思義還屬于機(jī)器人范疇,是硬件本體。正如前文所說,真正的壁壘是數(shù)據(jù),數(shù)據(jù)依賴硬件本體的采集,基于不同應(yīng)用場景的海量數(shù)據(jù)需要有海量的量產(chǎn)落地應(yīng)用的機(jī)器人硬件來采集。中國無論從機(jī)器人的生產(chǎn)制造層面,還是應(yīng)用場景采集數(shù)據(jù)層面,都具有得天獨(dú)厚的優(yōu)勢(shì),故而是最適合具身智能機(jī)器人發(fā)展的土壤。

從生產(chǎn)制造角度而言,具身智能機(jī)器人相比傳統(tǒng)工業(yè)機(jī)器人,核心零部件類似,生產(chǎn)工藝類似,且不涉及高精尖芯片、零部件,供應(yīng)鏈和生產(chǎn)制造體系完全可以復(fù)用。中國在具身智能機(jī)器人的生產(chǎn)制造層面有極高的優(yōu)勢(shì)——成本低、效率高。因而為具身智能機(jī)器人的大規(guī)模量產(chǎn)商用奠定了供給端基礎(chǔ)。

從應(yīng)用場景而言,基于中國是制造業(yè)大國也是服務(wù)業(yè)大國,無論to B還是to C場景,機(jī)器人都有眾多廣泛的的應(yīng)用場景。加之移動(dòng)互聯(lián)網(wǎng)所帶來的數(shù)字化基礎(chǔ)設(shè)施的領(lǐng)先優(yōu)勢(shì),數(shù)據(jù)的采集和收集都十分便捷,數(shù)據(jù)隨著機(jī)器人端-移動(dòng)APP端-云端形成完整的數(shù)據(jù)閉環(huán),豐富的使用場景貢獻(xiàn)了海量的多維度數(shù)據(jù),從而數(shù)據(jù)飛輪反哺具身智能機(jī)器人算法。

具身智能離規(guī)模性商業(yè)化并不遙遠(yuǎn)

理想的具身智能機(jī)器人相比上一代傳統(tǒng)AI視覺機(jī)器人,具有顯著更強(qiáng)的泛化性,較適合重交互性、可自適應(yīng)的場景——原來需要買5個(gè)機(jī)器人、分任務(wù)部署,未來可能只需要兩個(gè),甚至一個(gè)就可以完成。就發(fā)展趨勢(shì)而言,我們有如下猜測(cè):

機(jī)械臂(操作)先于人型雙足(移動(dòng))

人類的多數(shù)操作是由上肢加手完成,因而機(jī)械臂(已相對(duì)成熟)+靈巧手即可解決大多數(shù)操作場景而輪式底盤在絕大多數(shù)平面場景的穩(wěn)定性、魯棒性、成本、電池續(xù)航等性能遠(yuǎn)超于人型雙足——有人說,可是這個(gè)社會(huì)的構(gòu)造都是根據(jù)人類生理結(jié)構(gòu)構(gòu)建的,人形機(jī)器人理論上應(yīng)該是最合適的?但如果放眼實(shí)際的工廠、倉庫、道路等等地方,你會(huì)發(fā)現(xiàn)特定場景內(nèi)的問題解決,實(shí)在不一定要用到復(fù)雜度幾何級(jí)提高的“腿”,除非在少數(shù)特定的室外巡檢、軍事場景,需要四足/雙足,而四足穩(wěn)定性又高于雙足。

To B 先于 To C

短期,To B的科教場景落地:人型雙足目前更多是在科研、教育、導(dǎo)覽等研究示范性場景出貨。

中短期,To B的工業(yè)場景落地:例如汽車、3C產(chǎn)線,相比傳統(tǒng)的工業(yè)機(jī)器人,具身機(jī)械臂&工具手可進(jìn)行多工序的復(fù)雜裝配/協(xié)作裝配;具身“大腦”有泛化性,故而更容易換線;形態(tài)會(huì)是輪式底盤+可升降高度機(jī)械臂+靈巧手/夾爪/三指。

中期,To B的服務(wù)場景落地:零售(分揀、理貨)、酒店&餐廳(收餐、遞送)、清潔(非平面操作清潔)、巡檢(辦公樓);形態(tài)會(huì)是現(xiàn)有商用機(jī)器人形態(tài)+機(jī)械臂+靈巧手/夾子/三指。

遠(yuǎn)期,To C服務(wù)場景落地:To C場景首先落地大概率是情感交互需求(兒童娛樂、老人看護(hù)、成人陪伴),操作需求(家用清潔&收納等)落地時(shí)間會(huì)非常遠(yuǎn);形態(tài)可能是輪式亦或是人型雙足(類人形態(tài)更利于情感交互)。

AI四小龍”發(fā)展歷程帶來的啟發(fā)

這次具身智能在資本市場上掀起的浪花,讓人想到當(dāng)年機(jī)器視覺時(shí)代的百舸爭流。2013至2016年是中國CV初創(chuàng)企業(yè)瘋狂涌現(xiàn)的階段,有一半以上企業(yè)均在此期間創(chuàng)立,競爭高度激烈。2012年國內(nèi)新注冊(cè)CV公司僅為9家,累計(jì)數(shù)量不足20家。到2016年時(shí)中國CV領(lǐng)域企業(yè)數(shù)量累計(jì)已超100家。其中2015年全年新增數(shù)量達(dá)到頂峰,那一年新增了約40家CV公司。

而到2017年時(shí),CV領(lǐng)域競爭格局已經(jīng)基本定型,行業(yè)集中度已經(jīng)大幅提高,新增CV領(lǐng)域初創(chuàng)企業(yè)數(shù)量下滑嚴(yán)重,僅剩下大約2家。根據(jù)IDC,2017年CV“四小龍”總體市場份額達(dá) 69.4%,剩余其他廠商總體僅占市場30.6%的份額。市場份額前四名的分別是商湯,依圖,曠視和云從,所占市場份額分別為20.6%、17.3%、16.4%,15%。

最后為什么“四小龍”遙遙領(lǐng)先于其他人呢?答案是:

稟賦:最根正苗紅的技術(shù)團(tuán)隊(duì)

商湯的技術(shù)源頭為香港科技大學(xué)深度學(xué)習(xí)視覺領(lǐng)域應(yīng)用的先驅(qū)湯曉鷗教授及其團(tuán)隊(duì),是學(xué)術(shù)界最早涉獵深度學(xué)習(xí)的華人團(tuán)隊(duì)之一,也是我國計(jì)算機(jī)視覺行業(yè)主要龍頭企業(yè)之一。并貢獻(xiàn)出了11年-14年CVPR 和 ICCV 兩大全球計(jì)算機(jī)視覺世界頂級(jí)學(xué)術(shù)會(huì)議上一半的學(xué)術(shù)論文,并重金網(wǎng)羅了業(yè)內(nèi)最優(yōu)秀的一批視覺技術(shù)人才,在業(yè)內(nèi)有絕對(duì)的人才優(yōu)勢(shì)。

依圖科技有限公司成立于2012年,由朱瓏、林晨曦共同創(chuàng)立。朱瓏曾在麻省理工學(xué)院人工智能實(shí)驗(yàn)室任博士后研究員,在紐約大學(xué) Yann Lecun 的數(shù)學(xué)研究所擔(dān)任研究員。林晨曦曾先后任微軟亞洲研究院研究員、以及阿里云資深專家,曾帶領(lǐng)團(tuán)隊(duì)搭建了阿里云飛天分布式云計(jì)算操作系統(tǒng)。依圖曾蟬聯(lián)三屆由美國國家標(biāo)準(zhǔn)技術(shù)局(NIST)主辦的全球人臉識(shí)別測(cè)試(FRVT)冠軍,其人臉識(shí)別準(zhǔn)確率位于世界最前列,并于2019年入選2019年CB Insights全球AI百強(qiáng)榜單'AI 100'。

云從科技2015年由周曦創(chuàng)立。2010年,UIUC周曦以“百人計(jì)劃”專家身份回國,與大學(xué)好友李繼偉和溫浩一同組建了當(dāng)時(shí)中科院最大的人臉識(shí)別研究團(tuán)隊(duì)。2015 年放棄了中科院的編制,帶領(lǐng)團(tuán)隊(duì)的部分核心成員,正式成立了云從科技。

選擇:切入最廣泛的場景

據(jù)華經(jīng)產(chǎn)業(yè)數(shù)據(jù),中國計(jì)算機(jī)視覺下游應(yīng)用結(jié)構(gòu)分布為:安全影響分析67.9%,廣告營銷18.1%,泛金融7.7%,互聯(lián)網(wǎng)娛樂4%,手機(jī)2%,創(chuàng)新領(lǐng)域1%。具體根據(jù)IDC,2017年CV“四小龍”總體市場份額達(dá) 69.4%,剩余其他廠商總體僅占市場30.6%的份額。四家公司在應(yīng)用場景的落地上極其相似,都以目前比較成熟的市場安防和金融為主。

商湯科技的主要業(yè)務(wù)場景:智慧商業(yè)、智慧城市、智慧生活、智能汽車四大板塊。

曠視科技主要深耕方向三大垂直領(lǐng)域:個(gè)人物聯(lián)網(wǎng)、城市物聯(lián)網(wǎng)、供應(yīng)鏈物聯(lián)網(wǎng)。

依圖科技應(yīng)用領(lǐng)域:智能安防、依圖醫(yī)療、智慧金融、智慧城市、智能硬件等。

云從科技技術(shù)運(yùn)用于智慧金融、智慧治理、智慧出行、智慧商業(yè)等重點(diǎn)行業(yè)市場。云從是唯一一家同時(shí)受邀制定人臉識(shí)別國家標(biāo)準(zhǔn)、公安部標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)的企業(yè)。

努力:構(gòu)建銷售能力切入了客戶需求,實(shí)現(xiàn)算法和數(shù)據(jù)的飛輪效應(yīng)

商湯科技市場占有率居四小龍前列,商湯科技是中國最大的AI算法提供商,在人臉識(shí)別場景中有很成熟的落地,國內(nèi)外多家企業(yè)均為其客戶。

曠視科技是人臉識(shí)別領(lǐng)域的獨(dú)角獸,以人臉識(shí)別為核心技術(shù),客戶包括支付寶、今日頭條、滴滴、vivo等的人臉識(shí)別以及在線身份驗(yàn)證。

依圖科技CV人工智能領(lǐng)域4大新創(chuàng)獨(dú)角獸之一,在智能安防領(lǐng)域技術(shù)處于領(lǐng)先地位。

云從科技重點(diǎn)布局安防和銀行金融,有“中國銀行業(yè)第一大AI供應(yīng)商”的稱號(hào),客戶覆蓋六大行,簽約超過100家銀行的總行平臺(tái),覆蓋全國超14.7萬個(gè)網(wǎng)點(diǎn)。

回顧歷史有助于我們理解當(dāng)下和為未來做好準(zhǔn)備,我們也充滿信心地期待具身領(lǐng)域能夠出現(xiàn)推動(dòng)世界進(jìn)步的公司。BAI團(tuán)隊(duì)也將持續(xù)深耕人工智能領(lǐng)域,關(guān)注具身智能賽道最新動(dòng)態(tài),也歡迎行業(yè)內(nèi)的伙伴、創(chuàng)業(yè)者和我們一起交流討論~

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
AI的終點(diǎn)是物聯(lián)網(wǎng)與智能硬件,資本市場已認(rèn)可
機(jī)器人ChatGPT來了:大模型進(jìn)現(xiàn)實(shí)世界,DeepMind重量級(jí)突破
特斯拉“擎天柱”發(fā)布新進(jìn)展,AI機(jī)器人的ChatGPT時(shí)刻到了嗎?
邊緣AI芯片遭受四重沖擊
人工智能與商業(yè)的8個(gè)連接,可預(yù)見的黃金10年
稚暉君人形機(jī)器人問世:大模型加持,會(huì)自己換胳膊,要上生產(chǎn)線造車
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服