編者按:FSD V12 實(shí)現(xiàn) End - to - End AI
瑞鵬資產(chǎn) 趙圣斌
智能駕駛行業(yè)真是太卷了,年初大家還在爭(zhēng)相宣傳“無圖”智駕,可以不依賴高精度地圖,全國都能開。僅僅幾個(gè)月之后,“無圖”智駕就不再受人追捧,“端到端”一躍成為這個(gè)行業(yè)最靚的崽。那么到底什么是“端到端”,有哪些優(yōu)點(diǎn),如何實(shí)現(xiàn),本文就給大家做個(gè)詳細(xì)解析。
一、什么是“端到端”?
智能駕駛系統(tǒng)一般采用模塊化模型,“感知、預(yù)測(cè)、規(guī)劃、控制”等幾個(gè)功能模塊都有獨(dú)立的模型。每個(gè)模型的技術(shù)棧差異較大,處于下游的規(guī)劃模型需要依賴工程師編寫大量代碼去制定行駛規(guī)則。在模塊化的技術(shù)架構(gòu)下,信息的傳遞會(huì)出現(xiàn)減損,系統(tǒng)的維護(hù)難度大,無法從容應(yīng)對(duì)復(fù)雜路況。
而端到端模型則截然不同,該模型將“感知、預(yù)測(cè)、規(guī)劃、控制”等幾個(gè)模型融為一體,無需程序員編寫冗長的代碼去制定規(guī)則,而是用海量數(shù)據(jù)去訓(xùn)練系統(tǒng),賦予機(jī)器自主學(xué)習(xí)、思考和分析的能力。端到端模型不會(huì)出現(xiàn)信息傳遞減損,能夠更好地處理復(fù)雜的駕駛?cè)蝿?wù),解決了模塊化模型存在的所有“痛點(diǎn)”。
智能駕駛信息的傳遞不應(yīng)該是“你畫我猜”,而是像人類一樣對(duì)所見到的信息作出最直接的反應(yīng)。模塊化模型是將一個(gè)復(fù)雜任務(wù)分解成多個(gè)子任務(wù),逐個(gè)解決,這樣的解決問題方式既曲折又容易出錯(cuò)。而端到端模型則是基于問題的根本,直接尋求最優(yōu)的解決方案。
二、“端到端”智駕系統(tǒng)的優(yōu)點(diǎn)
模塊化的智駕系統(tǒng)是“Rule-based”,是基于規(guī)則的,需要在智駕軟件中編寫無數(shù)的駕駛規(guī)則。但是由于實(shí)際交通道路上總是有突發(fā)狀況,也就是corner case,所以Rule-based的智駕系統(tǒng)總是不能讓人放心。傳統(tǒng)的自動(dòng)駕駛系統(tǒng)是靠規(guī)則寫出來的,只有感知層那一部分是靠神經(jīng)網(wǎng)絡(luò)。后面融合、定位、規(guī)控、決策這些都是靠規(guī)則寫。那么實(shí)際自動(dòng)駕駛的世界,很多情況很復(fù)雜,很多事情是用規(guī)則寫不清楚的,很多Corner Case解決不了,那么智駕系統(tǒng)在大規(guī)模商用推廣后就存在很大的安全隱患。
“端到端”的智駕系統(tǒng),是“Learning-based”,是基于人類實(shí)際駕駛數(shù)據(jù)訓(xùn)練出來的。有一些公司做的“端到端”是分兩段,前面的感知層用一個(gè)網(wǎng)絡(luò),后面的規(guī)控、決策再用一個(gè)網(wǎng)絡(luò),然后把規(guī)則替掉。但是它的“輸入”還是感知的一個(gè)“輸出”,感知的輸出信息量已經(jīng)被大大簡(jiǎn)化了。
“端到端”還有一個(gè)優(yōu)點(diǎn),可以學(xué)習(xí)不同駕駛員的(駕駛)風(fēng)格,比如偏激進(jìn)式的還是保守型,它也能夠?qū)W到。你可以選擇不同的這些風(fēng)格。另外,“端到端”智駕系統(tǒng)基本上都是多模態(tài)的大模型,它的輸入不光是這些各種傳感器的信號(hào),還有人的語言指令讓它怎么去開。因?yàn)楝F(xiàn)在本來就眾口難調(diào),駕駛風(fēng)格上有的是換道、超車比較激進(jìn);有的時(shí)候不想換道、超車,那就待在左車道,想自己放松一下,駕駛起來不要太緊張。那么這時(shí)候,可以通過語言的指令去控制車的駕駛情況。再比如我要跟前面這輛車,它去換道的時(shí)候你也去可以跟隨它。
三、如何實(shí)現(xiàn)“端到端”智駕
訓(xùn)練出來一個(gè)優(yōu)秀的“端到端”智駕大模型,需要數(shù)據(jù)、算法和算力的協(xié)同。
數(shù)據(jù)端,是訓(xùn)練好算法的重中之重,如何收集海量的有效數(shù)據(jù),并且通過訓(xùn)練讓模型在相應(yīng)的場(chǎng)景表現(xiàn)出對(duì)應(yīng)的駕駛行為考驗(yàn)著開發(fā)者的技術(shù)能力。由于端到端的訓(xùn)練,不再會(huì)由工程師編寫規(guī)劃控制的規(guī)則,所有模型的行為全部由訓(xùn)練模型的視頻數(shù)據(jù)來決定,因此訓(xùn)練數(shù)據(jù)的質(zhì)量就顯得尤為重要,平庸的數(shù)據(jù)不僅不能改善自動(dòng)駕駛的性能,還可能會(huì)起到負(fù)面的影響。特斯拉開發(fā)了眾多軟件來篩選數(shù)據(jù),決定使用那些數(shù)據(jù)以及明確什么數(shù)據(jù)是高質(zhì)量數(shù)據(jù)是關(guān)鍵。例如,在此前的軟件堆棧中,紅燈、綠燈、交通燈的位置和車道的對(duì)應(yīng)關(guān)系都會(huì)被明確的識(shí)別和表示,但FSD V12 中,并沒有顯式的信息,全部由視頻讓算法來判斷何時(shí)應(yīng)該剎停何時(shí)應(yīng)該啟動(dòng)。另外一個(gè)例子也被多次提到,即海外的監(jiān)管機(jī)構(gòu)要求特斯拉自動(dòng)駕駛車輛在STOP標(biāo)志附近完全剎停,而人類司機(jī)通常很少在標(biāo)志牌附近完全停住,因此特斯拉必須在駕駛數(shù)據(jù)里面尋找一些罕見的案例,來訓(xùn)練并“教會(huì)”算法在STOP 標(biāo)志牌附近完全剎停。
算力端,是訓(xùn)練自動(dòng)駕駛模型的基礎(chǔ)。在2022 年的特斯拉AI DAY 上,馬斯克表示目前特斯拉擁有超過1.4 萬顆GPU的超算中心。2023年8月特斯拉又啟動(dòng)了1萬顆英偉達(dá)H100GPU的新訓(xùn)練集群。而特斯拉還明確目標(biāo),依靠英偉達(dá)的GPU和自身的Dojo超級(jí)計(jì)算機(jī),特斯拉的算力要在2024年底達(dá)到100EFlops,如此規(guī)模的算力集群給端到端模型的訓(xùn)練和快速迭代提供了良好的土壤,對(duì)實(shí)現(xiàn)端到端自動(dòng)駕駛必不可缺。
算法端,“端到端”的算法實(shí)際上需要依賴此前模塊化算法的基礎(chǔ),如何構(gòu)建好的算法模塊和體系對(duì)開發(fā)者來說也尤為重要,同時(shí)算法的剪裁、訓(xùn)練亦是打造完美端到端算法的重心。
四、總結(jié)
從上面的分析可以看出,席卷全球的大語言模型和GPU軍備競(jìng)賽,催生出了“端到端”智駕系統(tǒng),給自動(dòng)駕駛的真正商業(yè)化落地帶來了曙光。
截至到2024年5月底,將“端到端”智駕系統(tǒng)真正投入商業(yè)化運(yùn)營的,全球只有特斯拉。我國的華為、小鵬、百度、元戎啟行、商湯也對(duì)外宣稱正在開發(fā)和測(cè)試“端到端”智駕系統(tǒng),并有望在2024年下半年投入商用。
隨著特斯拉FSD入華腳步的逐漸臨近,中國將成為全球智駕系統(tǒng)的頂級(jí)賽場(chǎng),從而正式開啟智能汽車革命的“下半場(chǎng)”。