在很長一段時間里自動駕駛技術都在龜速進步,不僅消費者沒有耐心“吃大餅”了,自動駕駛工程師也沒有耐心“愚公移山”了。最近,進擊的“端到端”似乎開啟了一個蟲洞,一夜間,它為自動駕駛行業燃起了希望,那么它到底是什么捷徑?是萬能藥嗎?
今年3月16日,特斯拉突然對所有FSD用戶推送了V12.3版本。一經亮相引發眾多大佬為其代言。英偉達首席執行官黃仁勛表示:“特斯拉在自動駕駛方面遙遙領先。特斯拉FSD V12版本真正具有革命性的一點,它是一個端到端的生成模型。”小鵬汽車董事長何小鵬在6月份特意飛到加州體驗了一下最新版本FSD,得出結論,FSD比他作為加州新手司機開得更好。
FSD V12帶火“端到端”。
療效怎樣呢?由三方網站FSD Tracker統計的特斯拉車輛接管里程數據也表明了性能的提升。較之前版本,用戶完全無接管的行程次數占比從47%提升到了73%,平均接管里程從116英里提高到333英里。業界普遍猜測,FSD V12大規模推送后,用戶訂閱比例從以前版本的2%提升至20%。

FSD性能提升明顯
與此同時,別忘了,V12版本迭代速度也大大提高,其中從V12.3.1到V12.3.5,四個版本迭代僅用時15天。近日,V12.5版本也已更新。特斯拉自動駕駛團隊負責人Ashok Elluswamy此前在社交平臺曾說過,FSD V12僅訓練數月,就已經完全超過V11版本數年積累。
成就自動駕駛?
當前主流智駕系統分模塊運行,包括感知、規劃和控制。傳感器對周圍環境進行準確感知,系統規劃行車軌跡,然后執行系統對車輛進行閉環控制。在人工編寫規則的自動駕駛時代,團隊每天靠人工去調試各種各樣的Corner case。智駕的規控優化成了一項愚公移山式的勞動密集型作業,行業也戲謔為“用人工堆出來的智能”。

“端到端”和“模塊化”的比較
在規則體系下,如果說工程師們在不同場景反復寫“if……then/else”代碼還不夠悲催的話,那么他們在日復一日的這種“頭痛醫頭、腳痛醫腳”的打補丁進化方式中尋找智駕未來,會更為絕望。在場景沒窮盡之前,規則之間就已經開始相互打架,整個模塊的可維護性越來越差。很長時間里,消費者感受到的是智駕功能的機械感和不可預期的宕機、錯誤,而智駕工程師們則手忙腳亂地淹沒在無窮無盡的Corner case中。于是,消費者和工程師們隔著鴻溝面面相覷。

端對端過程
2022年12月,特斯拉的智駕工程師Dhaval Shroff建議馬斯克,拋掉那些手寫的規則,搭建一張神經網絡,讓它大量觀看人類司機的駕駛視頻,要求它輸出正確的行駛軌跡。在反復訓練中,這張神經網絡可能會習得與人類相仿的駕駛知識。這個建議當即被采納。經過一年的研發,今年1月份采用端到端架構的FSD V12向北美用戶推送。

端到端三種流行范式:包括兩種模仿學習框架(行為克隆和逆最優控制)以及在線強化學習
端到端的本質就是將駕駛行為的過程“神經網絡化”,這一方案有很多優點。比如決策更擬人,駕駛更舒適,泛化能力更強,場景覆蓋更加多樣。歷史徹底被改寫。神經網絡的優異特性體現在,它遵循大數據與大算力組合產生奇跡的暴力美學。
某自動駕駛芯片公司AI負責人提到,諸如“道路上一灘正在起火的油”與“道路上的積水”、“正面飄來的空塑料袋”和“前車落下的鋼筋”這類需要常識推理的場景,以及“不同地區的不同紅綠燈外觀和路口等待規則”這類需要復雜環境理解能力的場景,要么很難用規則準確描述,要么其開發工程量巨大。

自動駕駛解放雙手
而這些,對于端到端系統來說,都可以被訓練為隱式的中間表示。端到端的作用當然不僅僅是原地撤回一個“愚公移山”任務,更重要的是在模塊間的信息傳遞過程中,再也不用為了強行讓感知和規控“對齊顆粒度”苦心孤詣,系統在決策時,丟失的信息越少,參考的信息越全面,達成全局最優的天花板越高。從感知層到決策層、再到執行層,信息傳遞更密集。小馬智行CTO樓天城也表示:“端到端的好處是解決了信息丟失問題。以前不同的模塊非要描述一些東西,其實在一定程度上限制了給下游傳遞的信息。”
國內跑步進場
端到端有多好,國內的玩家就有多追捧,跑步進場是基本的尊重。5月,小鵬汽車宣布國內首個端到端量產上車,預計四季度實現“門到門”智能駕駛。7月,理想汽車提出將端到端規劃為三個模塊:BEV(Bird's Eye View)感知模型;預測、決策和規劃統一放在一個模塊;紅綠燈檢測作為一個模塊單獨拎出來。8月14日,寶駿汽車聯合卓馭共同宣布,即將上市的寶駿云海將搭載“成行平臺”最新成果,將二段式端到端模型在主流車型上量產落地。此外,蔚來、華為、小馬智行、元戎啟行、商湯絕影等也陸續宣布相關方案。

大疆端到端
從他們推出的方案看,大部分還只是兩段式的端到端,并不是最終形態。感知端仍保持上一代的解決方案,但預測、決策、規劃已經被集成到同一個神經網絡中。未來,演進還要經歷“感知模塊輸出特征向量,而非基于人類理解定義的結果”階段,再到One Model,這一階段沒有明確的功能劃分,從原始信號輸入到最終規劃軌跡的輸出直接采用同一個神經網絡。

理想汽車端到端方案
值得一提的是,神經網絡黑箱在獲取更高上限的過程中,讓渡了一部分傳統模塊方案具備的可解釋性。國內普遍的決策,還是穩中求進的態度。余承東此前公開表示:“端到端上限很高,下限也很低。”也就是說,貿然采用端到端,可能系統表現還不如此前。“現階段,端到端還是一個需要老師傅手工打磨的工藝,并不是完全輸入信息,輸出結果的自動工廠。”樓天城解釋,“分段式,肯定會存在信息丟失,整個模型表達能力確實不如One Model。但好處是,訓練的難度會低一些,每段之間會有明確的輸出披露。One Model的模型表達會更強,但訓練難度也更大。”
需要的IT“民工”少了
中國電動汽車百人會發布的《特斯拉FSD的發展和影響報告》顯示,特斯拉FSD V12版本人工代碼由30萬行縮減至3000行。隨著端到端的到來,自動駕駛團隊的工作模式被徹底改變,團隊明顯變得更加精簡。據悉,特斯拉自動駕駛算法團隊300人左右,除去芯片設計端的100多人,軟件端只有不到200人。此前負責planning control(規劃控制)的負責人離職了。

自動駕駛架構演進示意圖(自制)
而理想汽車裁員風波,李想在6月8日的中國汽車重慶論壇上給出的相關言論也是,“不需要養幾千人的團隊去搞Corner case”。也側面印證了團隊的精簡。過去人海戰術的投入產出實在不成正比。元戎啟行CEO周光曾說過:“在模塊化架構下,一位工程師一天只能處理10多個case,效率不高。”華為自動駕駛有6000位工程師,主要用來寫各種規則。這個龐大的團隊每年僅薪資成本就非常驚人。但此前華為ADS智駕系統在終端的實際落地價為單車6000元。
車企們調轉方向的時間就在最近。年初蔚來將感知和規控團隊合并為大模型團隊,集成團隊重組為交付團隊。理想汽車在7月份才組建了200余人的“端到端自動駕駛”組織,其中理想智能駕駛技術研發負責人賈鵬負責“端到端”研發。比亞迪也在七月份引入百度艙駕融合智駕技術負責人周鵬,由其負責比亞迪的端到端大模型規控算法開發,獨立于比亞迪規劃院智能駕駛研發中心,新設立的團隊300人左右。顯而易見,主流車企智駕部門成立的端到端團隊,規模都在200~300人左右,相較于傳統智駕團隊動輒近千人的規模,端到端團隊精簡得多。
需要的數據、算力多了
人力成本雖然省去,但不代表這場競賽的難度驟然下降。首先,沒有數據支持,計算就無從談起。端到端智駕需要的視頻數據獲取成本和難度極高,數據質量要求也很嚴苛。一位自動駕駛工程師提到,他們在訓練端到端模型時發現,已有路測數據只有2%可以用。在這方面,特斯拉巨大的銷量促使其累計了全球最多的高質量行車數據,FSD累計行駛里程量級到20億公里。

鴻蒙智行
特斯拉在端到端神經網絡開發之初,就投喂了1000萬個經過篩選的人類駕駛視頻片段,以每段15秒計,也超過4萬小時。這只是馬斯克在2023年初透露的信息。此后,特斯拉人駕視頻數據還在以每天1600億幀/天的速度增加。而全球最大的自動駕駛公開數據集Nuplan的規模是1200小時。國內上海AI lab浦駕團隊搜羅了整個Youtube,最終搭建了一個2000小時的數據集OpenDV-2K,涵蓋240多個城市駕駛數據。截至8月,華為智駕總里程約為4.6億公里,隨著鴻蒙智行旗下車型銷量逐步增高,有望與特斯拉縮小數據量差距。

特斯拉Dojo超級計算機用了非常多英偉達的GPU
根據特斯拉的計算,完成一個端到端自動駕駛的訓練至少需要100萬個、分布多樣、高質量的clips(視頻片段)才能正常工作。“毫不夸張地說,數據會占據端到端自動駕駛開發中80%以上的研發成本。”毫末智行數據智能科學家賀翔如此表示。除了數據層面的差距,國內智駕團隊在算力儲備上差距也不小。到今年年底,特斯拉預計將擁有100eflops云端算力,國內相關企業參數最高的是商湯的12eflops。智駕投入較為激進的華為,云端算力是5eflops。小鵬智駕云端最新算力儲備是2.51eflops。集越汽車首席執行官夏一平也指出,端到端成本投入不在于開發模型,而是算力投資。

特斯拉超算中心為智駕提供算力
6月4日,馬斯克在推特上說,買了10萬片卡,但沒地方放,就在德州工廠上擴展了一個數據中心,放了5萬片進去。在國內,這實在是一種奢侈。蔚來AI平臺負責人白宇利說:“想要做端到端,至少是萬卡。”

小鵬AI算力儲備
結語:端到端是好,難也是真難。何小鵬在小鵬汽車的520 AI DAY上提出,端到端之后,頭部效應會越來越明顯。在筆者看來,智駕是一條技術路徑逐漸收斂的賽道,也是龐大的資源吞噬器。對于,資本、技術等實力并不那么強大的車企,在艙內深耕消費者體驗,可能更有效。
(本文來源于汽車之友微信公眾號)