“端到端”是萬能藥嗎?——一個可能拯救自動駕駛的技術(shù)

      發(fā)布日期:2024-10-30 11:57:53

      在很長一段時間里自動駕駛技術(shù)都在龜速進步,不僅消費者沒有耐心“吃大餅”了,自動駕駛工程師也沒有耐心“愚公移山”了。最近,進擊的“端到端”似乎開啟了一個蟲洞,一夜間,它為自動駕駛行業(yè)燃起了希望,那么它到底是什么捷徑?是萬能藥嗎?

      圖片

      今年3月16日,特斯拉突然對所有FSD用戶推送了V12.3版本。一經(jīng)亮相引發(fā)眾多大佬為其代言。英偉達首席執(zhí)行官黃仁勛表示:“特斯拉在自動駕駛方面遙遙領(lǐng)先。特斯拉FSD V12版本真正具有革命性的一點,它是一個端到端的生成模型。”小鵬汽車董事長何小鵬在6月份特意飛到加州體驗了一下最新版本FSD,得出結(jié)論,F(xiàn)SD比他作為加州新手司機開得更好。


      FSD V12帶火“端到端”。

      療效怎樣呢?由三方網(wǎng)站FSD Tracker統(tǒng)計的特斯拉車輛接管里程數(shù)據(jù)也表明了性能的提升。較之前版本,用戶完全無接管的行程次數(shù)占比從47%提升到了73%,平均接管里程從116英里提高到333英里。業(yè)界普遍猜測,F(xiàn)SD V12大規(guī)模推送后,用戶訂閱比例從以前版本的2%提升至20%。


      FSD性能提升明顯

      與此同時,別忘了,V12版本迭代速度也大大提高,其中從V12.3.1到V12.3.5,四個版本迭代僅用時15天。近日,V12.5版本也已更新。特斯拉自動駕駛團隊負責人Ashok Elluswamy此前在社交平臺曾說過,F(xiàn)SD V12僅訓練數(shù)月,就已經(jīng)完全超過V11版本數(shù)年積累。


      成就自動駕駛?

      當前主流智駕系統(tǒng)分模塊運行,包括感知、規(guī)劃和控制。傳感器對周圍環(huán)境進行準確感知,系統(tǒng)規(guī)劃行車軌跡,然后執(zhí)行系統(tǒng)對車輛進行閉環(huán)控制。在人工編寫規(guī)則的自動駕駛時代,團隊每天靠人工去調(diào)試各種各樣的Corner case。智駕的規(guī)控優(yōu)化成了一項愚公移山式的勞動密集型作業(yè),行業(yè)也戲謔為“用人工堆出來的智能”。


      “端到端”和“模塊化”的比較

      在規(guī)則體系下,如果說工程師們在不同場景反復寫“if……then/else”代碼還不夠悲催的話,那么他們在日復一日的這種“頭痛醫(yī)頭、腳痛醫(yī)腳”的打補丁進化方式中尋找智駕未來,會更為絕望。在場景沒窮盡之前,規(guī)則之間就已經(jīng)開始相互打架,整個模塊的可維護性越來越差。很長時間里,消費者感受到的是智駕功能的機械感和不可預期的宕機、錯誤,而智駕工程師們則手忙腳亂地淹沒在無窮無盡的Corner case中。于是,消費者和工程師們隔著鴻溝面面相覷。


      端對端過程

      2022年12月,特斯拉的智駕工程師Dhaval Shroff建議馬斯克,拋掉那些手寫的規(guī)則,搭建一張神經(jīng)網(wǎng)絡(luò),讓它大量觀看人類司機的駕駛視頻,要求它輸出正確的行駛軌跡。在反復訓練中,這張神經(jīng)網(wǎng)絡(luò)可能會習得與人類相仿的駕駛知識。這個建議當即被采納。經(jīng)過一年的研發(fā),今年1月份采用端到端架構(gòu)的FSD V12向北美用戶推送。


      端到端三種流行范式:包括兩種模仿學習框架(行為克隆和逆最優(yōu)控制)以及在線強化學習

      端到端的本質(zhì)就是將駕駛行為的過程“神經(jīng)網(wǎng)絡(luò)化”,這一方案有很多優(yōu)點。比如決策更擬人,駕駛更舒適,泛化能力更強,場景覆蓋更加多樣。歷史徹底被改寫。神經(jīng)網(wǎng)絡(luò)的優(yōu)異特性體現(xiàn)在,它遵循大數(shù)據(jù)與大算力組合產(chǎn)生奇跡的暴力美學。

      某自動駕駛芯片公司AI負責人提到,諸如“道路上一灘正在起火的油”與“道路上的積水”、“正面飄來的空塑料袋”和“前車落下的鋼筋”這類需要常識推理的場景,以及“不同地區(qū)的不同紅綠燈外觀和路口等待規(guī)則”這類需要復雜環(huán)境理解能力的場景,要么很難用規(guī)則準確描述,要么其開發(fā)工程量巨大。


      自動駕駛解放雙手

      而這些,對于端到端系統(tǒng)來說,都可以被訓練為隱式的中間表示。端到端的作用當然不僅僅是原地撤回一個“愚公移山”任務(wù),更重要的是在模塊間的信息傳遞過程中,再也不用為了強行讓感知和規(guī)控“對齊顆粒度”苦心孤詣,系統(tǒng)在決策時,丟失的信息越少,參考的信息越全面,達成全局最優(yōu)的天花板越高。從感知層到?jīng)Q策層、再到執(zhí)行層,信息傳遞更密集。小馬智行CTO樓天城也表示:“端到端的好處是解決了信息丟失問題。以前不同的模塊非要描述一些東西,其實在一定程度上限制了給下游傳遞的信息。”


      國內(nèi)跑步進場

      端到端有多好,國內(nèi)的玩家就有多追捧,跑步進場是基本的尊重。5月,小鵬汽車宣布國內(nèi)首個端到端量產(chǎn)上車,預計四季度實現(xiàn)“門到門”智能駕駛。7月,理想汽車提出將端到端規(guī)劃為三個模塊:BEV(Bird's Eye View)感知模型;預測、決策和規(guī)劃統(tǒng)一放在一個模塊;紅綠燈檢測作為一個模塊單獨拎出來。8月14日,寶駿汽車聯(lián)合卓馭共同宣布,即將上市的寶駿云海將搭載“成行平臺”最新成果,將二段式端到端模型在主流車型上量產(chǎn)落地。此外,蔚來、華為、小馬智行、元戎啟行、商湯絕影等也陸續(xù)宣布相關(guān)方案。


      大疆端到端

      從他們推出的方案看,大部分還只是兩段式的端到端,并不是最終形態(tài)。感知端仍保持上一代的解決方案,但預測、決策、規(guī)劃已經(jīng)被集成到同一個神經(jīng)網(wǎng)絡(luò)中。未來,演進還要經(jīng)歷“感知模塊輸出特征向量,而非基于人類理解定義的結(jié)果”階段,再到One Model,這一階段沒有明確的功能劃分,從原始信號輸入到最終規(guī)劃軌跡的輸出直接采用同一個神經(jīng)網(wǎng)絡(luò)。


      理想汽車端到端方案

      值得一提的是,神經(jīng)網(wǎng)絡(luò)黑箱在獲取更高上限的過程中,讓渡了一部分傳統(tǒng)模塊方案具備的可解釋性。國內(nèi)普遍的決策,還是穩(wěn)中求進的態(tài)度。余承東此前公開表示:“端到端上限很高,下限也很低。”也就是說,貿(mào)然采用端到端,可能系統(tǒng)表現(xiàn)還不如此前。“現(xiàn)階段,端到端還是一個需要老師傅手工打磨的工藝,并不是完全輸入信息,輸出結(jié)果的自動工廠。”樓天城解釋,“分段式,肯定會存在信息丟失,整個模型表達能力確實不如One Model。但好處是,訓練的難度會低一些,每段之間會有明確的輸出披露。One Model的模型表達會更強,但訓練難度也更大。”


      需要的IT“民工”少了

      中國電動汽車百人會發(fā)布的《特斯拉FSD的發(fā)展和影響報告》顯示,特斯拉FSD V12版本人工代碼由30萬行縮減至3000行。隨著端到端的到來,自動駕駛團隊的工作模式被徹底改變,團隊明顯變得更加精簡。據(jù)悉,特斯拉自動駕駛算法團隊300人左右,除去芯片設(shè)計端的100多人,軟件端只有不到200人。此前負責planning control(規(guī)劃控制)的負責人離職了。


      自動駕駛架構(gòu)演進示意圖(自制)

      而理想汽車裁員風波,李想在6月8日的中國汽車重慶論壇上給出的相關(guān)言論也是,“不需要養(yǎng)幾千人的團隊去搞Corner case”。也側(cè)面印證了團隊的精簡。過去人海戰(zhàn)術(shù)的投入產(chǎn)出實在不成正比。元戎啟行CEO周光曾說過:“在模塊化架構(gòu)下,一位工程師一天只能處理10多個case,效率不高。”華為自動駕駛有6000位工程師,主要用來寫各種規(guī)則。這個龐大的團隊每年僅薪資成本就非常驚人。但此前華為ADS智駕系統(tǒng)在終端的實際落地價為單車6000元。

      圖片

      車企們調(diào)轉(zhuǎn)方向的時間就在最近。年初蔚來將感知和規(guī)控團隊合并為大模型團隊,集成團隊重組為交付團隊。理想汽車在7月份才組建了200余人的“端到端自動駕駛”組織,其中理想智能駕駛技術(shù)研發(fā)負責人賈鵬負責“端到端”研發(fā)。比亞迪也在七月份引入百度艙駕融合智駕技術(shù)負責人周鵬,由其負責比亞迪的端到端大模型規(guī)控算法開發(fā),獨立于比亞迪規(guī)劃院智能駕駛研發(fā)中心,新設(shè)立的團隊300人左右。顯而易見,主流車企智駕部門成立的端到端團隊,規(guī)模都在200~300人左右,相較于傳統(tǒng)智駕團隊動輒近千人的規(guī)模,端到端團隊精簡得多。


      需要的數(shù)據(jù)、算力多了

      人力成本雖然省去,但不代表這場競賽的難度驟然下降。首先,沒有數(shù)據(jù)支持,計算就無從談起。端到端智駕需要的視頻數(shù)據(jù)獲取成本和難度極高,數(shù)據(jù)質(zhì)量要求也很嚴苛。一位自動駕駛工程師提到,他們在訓練端到端模型時發(fā)現(xiàn),已有路測數(shù)據(jù)只有2%可以用。在這方面,特斯拉巨大的銷量促使其累計了全球最多的高質(zhì)量行車數(shù)據(jù),F(xiàn)SD累計行駛里程量級到20億公里。


      鴻蒙智行

      特斯拉在端到端神經(jīng)網(wǎng)絡(luò)開發(fā)之初,就投喂了1000萬個經(jīng)過篩選的人類駕駛視頻片段,以每段15秒計,也超過4萬小時。這只是馬斯克在2023年初透露的信息。此后,特斯拉人駕視頻數(shù)據(jù)還在以每天1600億幀/天的速度增加。而全球最大的自動駕駛公開數(shù)據(jù)集Nuplan的規(guī)模是1200小時。國內(nèi)上海AI lab浦駕團隊搜羅了整個Youtube,最終搭建了一個2000小時的數(shù)據(jù)集OpenDV-2K,涵蓋240多個城市駕駛數(shù)據(jù)。截至8月,華為智駕總里程約為4.6億公里,隨著鴻蒙智行旗下車型銷量逐步增高,有望與特斯拉縮小數(shù)據(jù)量差距。


      特斯拉Dojo超級計算機用了非常多英偉達的GPU

      根據(jù)特斯拉的計算,完成一個端到端自動駕駛的訓練至少需要100萬個、分布多樣、高質(zhì)量的clips(視頻片段)才能正常工作。“毫不夸張地說,數(shù)據(jù)會占據(jù)端到端自動駕駛開發(fā)中80%以上的研發(fā)成本。”毫末智行數(shù)據(jù)智能科學家賀翔如此表示。除了數(shù)據(jù)層面的差距,國內(nèi)智駕團隊在算力儲備上差距也不小。到今年年底,特斯拉預計將擁有100eflops云端算力,國內(nèi)相關(guān)企業(yè)參數(shù)最高的是商湯的12eflops。智駕投入較為激進的華為,云端算力是5eflops。小鵬智駕云端最新算力儲備是2.51eflops。集越汽車首席執(zhí)行官夏一平也指出,端到端成本投入不在于開發(fā)模型,而是算力投資。


      特斯拉超算中心為智駕提供算力

      6月4日,馬斯克在推特上說,買了10萬片卡,但沒地方放,就在德州工廠上擴展了一個數(shù)據(jù)中心,放了5萬片進去。在國內(nèi),這實在是一種奢侈。蔚來AI平臺負責人白宇利說:“想要做端到端,至少是萬卡。”



      小鵬AI算力儲備

      結(jié)語:端到端是好,難也是真難。何小鵬在小鵬汽車的520 AI DAY上提出,端到端之后,頭部效應(yīng)會越來越明顯。在筆者看來,智駕是一條技術(shù)路徑逐漸收斂的賽道,也是龐大的資源吞噬器。對于,資本、技術(shù)等實力并不那么強大的車企,在艙內(nèi)深耕消費者體驗,可能更有效。
      (本文來源于汽車之友微信公眾號)

      久久国产欧美日韩精品_日日碰夜夜爽亚洲欧美_欧美自慰精品一区二区_久久SE精品一区二区三区
        
        

          亚洲性爱在线免费看 | 中文字幕在线亚洲三区 | 免费激情小视频在线观看 | 午夜福利H动漫在线播放 | 色综合久久婷婷88 | 亚洲小电影在线观看的网址 |