當(dāng)城市NOH逐步落地時(shí),智駕技術(shù)迭代的核心邏輯正在發(fā)生根本性的變化。
毫末AI DAY
對(duì)于關(guān)注智能駕駛的從業(yè)者而言,截至目前,毫末AI DAY依然還是全球范圍內(nèi),唯一的智能駕駛技術(shù)交流平臺(tái)。
2022年9月13日,第六屆毫末AI DAY如期舉行。
中國(guó)工程院院士、清華大學(xué)教授張亞勤,毫末智行董事長(zhǎng)張凱、毫末智行CEO顧維灝、阿里巴巴集團(tuán)副總裁賈揚(yáng)清、寒武紀(jì)CEO陳天石等行業(yè)人士發(fā)表了演講,并分享了一些智駕相關(guān)的前瞻性思考。
張亞勤認(rèn)為,垂直領(lǐng)域的自動(dòng)駕駛將會(huì)更快落地,并逐漸擴(kuò)散到實(shí)現(xiàn)通用自動(dòng)駕駛能力。
張凱則提出,漸進(jìn)式技術(shù)路線是實(shí)現(xiàn)自動(dòng)駕駛的必由之路。
顧維灝認(rèn)為,智能駕駛在經(jīng)過多年發(fā)展之后,正在進(jìn)入以數(shù)據(jù)驅(qū)動(dòng)為主要特征的3.0時(shí)代。
賈揚(yáng)清則分享了其對(duì)自動(dòng)駕駛領(lǐng)域AI工程化的思考。
陳天石則分享了其對(duì)智駕產(chǎn)業(yè)發(fā)展過程中,計(jì)算所面臨的挑戰(zhàn)和解決方案,并給出從云到端的全棧計(jì)算解決方案。
在中美科技戰(zhàn)中,寒武紀(jì)的全棧解決方案,會(huì)是高端GPGPU對(duì)中國(guó)的禁運(yùn)的一個(gè)有效替代方案。
在AI DAY上,魏牌、毫末和高通再次聯(lián)合亮相,承諾搭載毫末城市NOH的魏牌摩卡DHT-PHEV激光雷達(dá)版將在9月量產(chǎn),年內(nèi)發(fā)售。
魏牌摩卡DHT-PHEV激光雷達(dá)版,有一定的概率會(huì)是全球范圍內(nèi)首個(gè)落地城市NOH系統(tǒng)的車型,它將會(huì)與小鵬G9角逐這一桂冠。
但是,魏牌摩卡DHT-PHEV激光雷達(dá)版,肯定會(huì)是全球范圍內(nèi)首個(gè)落地的、不搭載高精地圖的、擁有城市NOH系統(tǒng)的車型。
張凱指出,魏牌摩卡DHT-PHEV是毫末智行實(shí)現(xiàn)的第10個(gè)帶有高級(jí)輔助駕駛能力的量產(chǎn)車型,該公司同時(shí)還在推進(jìn)31個(gè)量產(chǎn)車型項(xiàng)目。
這些車型的陸續(xù)上市,將會(huì)幫助毫末智行實(shí)現(xiàn)未來兩年“高階智能駕駛車隊(duì)規(guī)模達(dá)到100萬輛”的目標(biāo)。
此外,到2023年底,該公司還計(jì)劃在國(guó)內(nèi)100個(gè)城市落地城市NOH。
截至目前,這也是唯一一家提出類似目標(biāo)的智能駕駛公司。
為支持上述目標(biāo)的實(shí)現(xiàn),毫末智行聯(lián)合其生態(tài)伙伴,發(fā)布了兩項(xiàng)智能駕駛AI訓(xùn)練的產(chǎn)業(yè)基礎(chǔ)設(shè)施:
1.毫末智行超算中心。
這是繼特斯拉Dojo、小鵬“扶搖”之后中國(guó)第二個(gè)智能駕駛超算中心,全球第三個(gè)超算中心。
2.實(shí)景仿真系統(tǒng)。
毫末智行、阿里云、德清市政府在活動(dòng)中宣布,發(fā)布“中國(guó)首個(gè)基于車路協(xié)同云服務(wù)的大規(guī)模自動(dòng)駕駛場(chǎng)景庫(kù)”。
該場(chǎng)景庫(kù)主要聚焦了各式各樣的路口信息,將采用真實(shí)的路口攝像頭信息,并將其引入仿真系統(tǒng),使得智駕模型可基于真實(shí)路口模型驗(yàn)證算法可靠性。
在顧維灝看來,該公司所有的工作和發(fā)布,都圍繞著一個(gè)重要的智駕產(chǎn)業(yè)變革:智能駕駛產(chǎn)業(yè),正從2.0時(shí)代進(jìn)入到3.0時(shí)代,從軟件驅(qū)動(dòng)技術(shù)迭代,向數(shù)據(jù)驅(qū)動(dòng)技術(shù)迭代階段邁進(jìn)。
自動(dòng)駕駛3.0時(shí)代
現(xiàn)代智能駕駛產(chǎn)業(yè),大概從2009年起步。
作為國(guó)內(nèi)最早研究量產(chǎn)智能駕駛的從業(yè)者,根據(jù)駕駛里程、感知、認(rèn)知和迭代模式四個(gè)維度,顧維灝將自動(dòng)駕駛產(chǎn)業(yè)的發(fā)展分為3個(gè)階段:
分別是“硬件時(shí)代”、“軟件時(shí)代”和“數(shù)據(jù)時(shí)代”,并將其定義為自動(dòng)駕駛1.0時(shí)代、自動(dòng)駕駛2.0時(shí)代和自動(dòng)駕駛3.0時(shí)代。
時(shí)間劃分上,顧維灝認(rèn)為,2018年、2019年之前,都可稱為以硬件驅(qū)動(dòng)的“自動(dòng)駕駛1.0時(shí)代”。
在那個(gè)時(shí)代,車上掛滿了各種激光雷達(dá)、堆滿線束、塞滿計(jì)算機(jī)器……硬件性能的提升,驅(qū)動(dòng)智能駕駛能力的進(jìn)步。
在那個(gè)時(shí)代,駕駛里程通常以100萬公里計(jì),在感知上,以激光雷達(dá)為主,在認(rèn)知上,主要基于規(guī)則進(jìn)行決策規(guī)劃,在技術(shù)迭代上,由硬件迭代驅(qū)動(dòng)。
在2018年、2019年的時(shí)候,顧維灝認(rèn)為,自動(dòng)駕駛開始進(jìn)入到以軟件為主要驅(qū)動(dòng)力的2.0階段。
在那個(gè)時(shí)代,自動(dòng)駕駛技術(shù)開始在量產(chǎn)車上規(guī)模化落地。
自動(dòng)駕駛產(chǎn)業(yè)已不能靠不計(jì)成本地堆硬件提升系統(tǒng)的能力,車規(guī)級(jí)的硬件,有嚴(yán)格的功能和成本要求。
在那個(gè)時(shí)代,駕駛里程以千萬公里計(jì),在感知上,各個(gè)傳感器各自為戰(zhàn),用一些小模型和少量數(shù)據(jù)做訓(xùn)練,得到單個(gè)傳感器的識(shí)別結(jié)果,然后進(jìn)行感知結(jié)果級(jí)的融合,在認(rèn)知上,還是以規(guī)則為主進(jìn)行決策規(guī)劃。
在自動(dòng)駕駛2.0時(shí)代,技術(shù)迭代由小模型和小數(shù)據(jù)驅(qū)動(dòng),或者說軟件能力驅(qū)動(dòng)。
在2022年底、2023年初,顧維灝認(rèn)為,自動(dòng)駕駛開始進(jìn)入3.0時(shí)代,特斯拉是這個(gè)時(shí)代的典型代表。
在這個(gè)時(shí)代,駕駛里程以億公里計(jì),在感知上,以視覺和融合感知為主,在認(rèn)知上,則用AI模型解決決策規(guī)劃問題。
在自動(dòng)駕駛3.0時(shí)代,技術(shù)迭代由大模型和大數(shù)據(jù)驅(qū)動(dòng),數(shù)據(jù)規(guī)模將會(huì)成為智能駕駛的核心競(jìng)爭(zhēng)力。
顧維灝為自動(dòng)駕駛3.0時(shí)代定義了幾個(gè)重要的特征:
1.算法模型以大模型為基礎(chǔ)。
2.訓(xùn)練數(shù)據(jù)基于億公里級(jí)駕駛里程,這些數(shù)據(jù)將無法采用人工標(biāo)注,訓(xùn)練方式只能采取無監(jiān)督學(xué)習(xí)方式進(jìn)行。
3.決策規(guī)劃采用AI模型。
顧維灝認(rèn)為,上述幾個(gè)條件,是智能駕駛不斷迭代發(fā)展并實(shí)現(xiàn)高階智能駕駛的必由之路。
在被問及小模型小數(shù)據(jù)和大模型大數(shù)據(jù)之間的區(qū)別時(shí),顧維灝指出,小模型和大模型的核心區(qū)別在于參數(shù)規(guī)模:
小模型參數(shù)規(guī)模級(jí)別為幾百萬個(gè)參數(shù),而大模型參數(shù)規(guī)模達(dá)到1000億個(gè)以上,比如谷歌的GPT-3模型的參數(shù)規(guī)模達(dá)到了1750億個(gè)。
小數(shù)據(jù)和大數(shù)據(jù)的核心區(qū)別在于數(shù)據(jù)是否由人工標(biāo)注:
對(duì)于小規(guī)模的數(shù)據(jù)集而言,由人工標(biāo)注是可行的和成本可控的;但涉及億公里這種當(dāng)量的數(shù)據(jù)集,采取人工標(biāo)注的成本無法承受。
這些無標(biāo)注的海量數(shù)據(jù)直接被用于大模型的無監(jiān)督訓(xùn)練,是大模型大數(shù)據(jù)的特點(diǎn)。
顧維灝指出,在智能駕駛領(lǐng)域,Transformer模型和原先的CNN技術(shù)路線相比,結(jié)合海量數(shù)據(jù),其模型收斂的訓(xùn)練時(shí)間只需原來的三分之一,而模型精度顯著提高。
Transformer大模型在城市NOH領(lǐng)域的一個(gè)現(xiàn)實(shí)優(yōu)勢(shì)是,依托于時(shí)序BEV機(jī)制,可高效地實(shí)時(shí)感知三維空間信息。
這是特斯拉能夠不依托于高精地圖,就可實(shí)現(xiàn)高級(jí)別輔助駕駛的原因。
利用Transformer大模型,毫末智行是全球范圍第二家、中國(guó)第一家,在不依賴高精地圖情況下實(shí)現(xiàn)城市NOH的公司。
自動(dòng)駕駛的大模型大數(shù)據(jù)時(shí)代的到來,主要是基于以下兩個(gè)方面的原因:
一方面,智駕開始進(jìn)入到城市NOH時(shí)代。
與此前的低階輔助駕駛和高速NOH相比,城市NOH的難度系數(shù)和數(shù)據(jù)規(guī)模,都有了質(zhì)的躍升。
在難度上,顧維灝認(rèn)為,由于城市道路養(yǎng)護(hù)活動(dòng)頻繁、車流密集、變道空間狹窄、交通環(huán)境復(fù)雜等因素,智能駕駛的難度與之前相比,提升了不止一個(gè)數(shù)量級(jí)。
在數(shù)據(jù)規(guī)模上,城市NOH的使用頻率和高速NOH相比至少高一個(gè)數(shù)量級(jí),而在接管頻次上,城市NOH也將顯著高于高速NOH。
上述因素綜合作用,將會(huì)使城市NOH所產(chǎn)生的數(shù)據(jù)規(guī)模比高速場(chǎng)景至少高出2個(gè)數(shù)量級(jí)。
高技術(shù)難度和大數(shù)據(jù)規(guī)模,是當(dāng)下智能駕駛實(shí)踐的典型特征。
這是大模型大數(shù)據(jù)技術(shù)路線產(chǎn)生的現(xiàn)實(shí)需求。
另一方面,大模型大數(shù)據(jù)也是AI技術(shù)的趨勢(shì)。
據(jù)顧維灝介紹,自2014年起,基于Attention機(jī)制的大模型開始應(yīng)用在NLP領(lǐng)域并獲得成功,使得Transformer模型統(tǒng)治了NLP領(lǐng)域。
年2020,Attention機(jī)制在計(jì)算機(jī)視覺領(lǐng)域大獲成功,Google的ViT模型和微軟亞洲研究院的SwinTransformer刷爆各大CV比賽的排行榜。
這使得Transformer模型繼完成了NLP領(lǐng)域的壟斷之后,開始占領(lǐng)CV領(lǐng)域的陣地。
此后,非常迅速地,各種基于Attention機(jī)制的多模態(tài)大模型奔涌而出,并涌現(xiàn)了Graph Attention等各類變種,它們可以接受多種不同模態(tài)的輸入——語言、圖像、視頻、語音等等,也可以輸出多種模態(tài),在各個(gè)領(lǐng)域都取得了驚人的效果。
據(jù)顧維灝介紹,截至目前,基于Attention機(jī)制的transformer結(jié)構(gòu)似乎能成為一種有效的通用AI模型范式。
基于Attention機(jī)制的大模型,正在成為AI技術(shù)發(fā)展的趨勢(shì)。
最后,由于像高通驍龍Ride、英偉達(dá)Orin X、地平線J5等大算力車端芯片的量產(chǎn),也使得像Transformer這樣的大模型在車端落地應(yīng)用成為可能。
技術(shù)挑戰(zhàn)
大模型大數(shù)據(jù)驅(qū)動(dòng)的智駕算法迭代模式,有很明顯的優(yōu)勢(shì),但也有很大的技術(shù)挑戰(zhàn)。
一個(gè)最明顯的挑戰(zhàn)是,如何將基于Attention機(jī)制的大模型在智駕領(lǐng)域落地,既包括云端的訓(xùn)練,也包括在車端的落地。
在云端訓(xùn)練方面,毫末智行在進(jìn)行模型切換時(shí),做了很多的基礎(chǔ)工作,包括:
訓(xùn)練平臺(tái)的改造升級(jí)、數(shù)據(jù)規(guī)格和標(biāo)注方法的切換準(zhǔn)備,和針對(duì)感知、認(rèn)知具體任務(wù)的模型細(xì)節(jié)探索等等。
當(dāng)然了,核心挑戰(zhàn)之一是啟動(dòng)無監(jiān)督學(xué)習(xí)。
毫末選擇的方式是將所有的感知任務(wù)backbone都統(tǒng)一,然后利用無標(biāo)注數(shù)據(jù)先訓(xùn)練好這個(gè)統(tǒng)一backbone并鎖定,模型剩余部分再用標(biāo)注樣本來訓(xùn)練。
當(dāng)然了,這并不容易。
在實(shí)現(xiàn)無監(jiān)督學(xué)習(xí)之后,智能駕駛才會(huì)啟動(dòng)真正意義上的大數(shù)據(jù)驅(qū)動(dòng)模型迭代時(shí)代。
在車端落地大模型,算力無疑是最大的挑戰(zhàn)。
在云端訓(xùn)練,算力的供應(yīng)理論上是無限的。
在車端,則由一塊360TOPS的高通驍龍Ride提供計(jì)算,盡管這已經(jīng)是當(dāng)下最強(qiáng)大的終端AI計(jì)算平臺(tái)之一,但如何能夠讓大模型流暢地跑在這個(gè)計(jì)算平臺(tái)之上,依然需要一些辦法。
顧維灝指出,盡管大模型的算力需求是小模型的100倍,但這些算力之中,大概只有6.9%的算力貢獻(xiàn)了94%的價(jià)值,剩余的算力在做大量的弱關(guān)聯(lián)的計(jì)算,效率并不高。
基于上述發(fā)現(xiàn),通過優(yōu)化車端模型,大幅減少弱關(guān)聯(lián)計(jì)算,可顯著降低模型對(duì)算力的消耗,又不會(huì)影響模型的精度。
相同的工作可在芯片層面上進(jìn)行。
此外,還可在數(shù)據(jù)的調(diào)度、算力的利用率方面進(jìn)行優(yōu)化,提升計(jì)算效率,使得大模型可在車端實(shí)現(xiàn)落地。
除了大模型在車端的落地挑戰(zhàn)之外,顧維灝認(rèn)為,將基于Attention機(jī)制的大模型應(yīng)用于智能駕駛,還面臨兩大核心挑戰(zhàn):
1.如何通過低碳超算,降低智能駕駛訓(xùn)練成本。
2.如何組織數(shù)據(jù),讓大模型發(fā)揮更大的作用。
在大模型對(duì)算力的消耗方面,毫末智行提供了一組CNN模型和Transformer模型在訓(xùn)練中對(duì)算力需求的對(duì)比圖:通常情況下,訓(xùn)練大模型所需算力是小模型的100倍。
這將會(huì)極大地提升智能駕駛模型訓(xùn)練的成本,包括資金成本和時(shí)間成本。
如何降低超算成本?
毫末智行做了多方面的研究并分享了一些具有啟發(fā)性的成果:
1.使用增量學(xué)習(xí),提高新數(shù)據(jù)使用效率。
在此之前,智能駕駛行業(yè)的模型訓(xùn)練比較低效的一個(gè)原因在于:每次增加新數(shù)據(jù)的時(shí)候,所有的模型都需要在全量數(shù)據(jù)(即存量 增量數(shù)據(jù)中)重新訓(xùn)練一遍,包括感知模型、決策模型。
在訓(xùn)練完畢之后,還需要再走一遍驗(yàn)證流程(包括仿真驗(yàn)證和場(chǎng)地驗(yàn)證)之后,才會(huì)通過OTA部署到車端。
毫末智行是國(guó)內(nèi)第一家提出增量學(xué)習(xí)概念的企業(yè),即有了新的corner case數(shù)據(jù)之后,模型只針對(duì)新數(shù)據(jù)和少量存量數(shù)據(jù)進(jìn)行訓(xùn)練。
聯(lián)系客服