上海2024年12月3日 /美通社/ -- 最近一兩年,"端到端"是自動駕駛領域最熱門的話題,不管是整車企業還是自動駕駛公司,開發布會幾乎言必提"端到端",整個行業進一步擁抱AI技術。
自動駕駛系統是一個軟、硬件高度耦合的系統,當軟件算法跨入端到端的時代,如何在不同算力的芯片上都能夠發揮出足夠好的性能?
作為智能汽車計算芯片的引領者,黑芝麻智能從成立之初就意識到了軟硬一體的重要性,在開發芯片的同時也組建團隊對智駕算法進行研究,保證產品能夠滿足當下和未來數年的算法發展需求。
黑芝麻智能計劃推出支持華山及武當系列芯片的端到端算法參考方案。該方案采用One Model架構,并在決策規劃單元引入了VLM視覺語言大模型和PRR行車規則的概率化表征子模塊,進一步提升了智駕系統的決策規劃能力。
該方案分為標準版和高階版兩個版本。前者在單顆武當C1200家族中算力平臺上即可部署,而后者可在即將推出的華山A2000家族中發揮全部實力。
一、采用One Model架構 最大化信息傳遞
現階段量產的端到端系統,相當一部分采用了分段式架構,即將端到端系統分成幾個不同的模塊級聯而成。雖然這些模塊也使用AI模型進行工作,但各模塊之間仍存在人為定義的接口來傳輸數據,這就必然導致有一定的信息損失,加上不同模塊經常采用獨立訓練的模式,其效果并非全局最優。
黑芝麻智能的端到端智駕系統,一步到位采用了One Model的架構。一端可輸入攝像頭、激光雷達、4D毫米波雷達、導航地圖等信息,另一端直接輸出駕駛決策所需要的信息,即本車的預期軌跡。
具體到模型內部,其可以分為BEV編碼器和決策(軌跡預測)兩個神經網絡單元。
BEV編碼的工作過程中,車外攝像頭或 激光雷達、4D 毫米波雷達等各類傳感器的數據進入 ResNet 和 FPN 等主干網絡,提取并融合多層特征,生成多尺度特征金字塔。經過幾何變換,特征圖對齊成俯視視角(BEV),實現統一的空間表示。
隨后,系統通過多尺度時序聚合將當前與歷史 BEV特征融合,減少噪聲干擾,增強動態物體感知精度和系統魯棒性,最終生成特征圖(Feature Maps)傳遞至決策單元,用于生成車輛的預期行駛軌跡。
BEV和決策兩個神經網絡單元之間傳遞的是特征圖(Feature Maps)。由于這些基礎特征圖沒有人為定義的接口和處理過程,所以信息可以更為原始和完整地傳遞,以便于網絡進行優化和決策。
與此同時,用Feature Maps將兩個單元進行連接,還可以以back-propagation反向傳播的方式——即通過計算最終輸出的軌跡與實際目標之間的誤差,然后將該誤差反向傳播到決策和BEV單元——來進行兩個神經網絡單元的聯合訓練和參數調優。
通過前面的分析可以看出,黑芝麻智能的One Model架構既解決了多模塊之間可能存在的信息傳遞損耗問題,又實現了感知和決策單元的聯合訓練,實際效果會更佳優秀。
二、決策單元引入多源輸入 提升軌跡預測準確性
在此基礎之上,黑芝麻智能團隊還更進一步,通過引入VLM(視覺語言大模型)和規則的概率化表征(Probabilistic Representation of Rules,以下簡稱 PRR)兩個模塊,來進一步提升端到端系統決策的準確性和靈活性。
VLM 模型基于開源 VLM 模型改進而來,該模型可同時接收圖像和語言輸入信息(比如用戶的導航指令),然后通過 Transformer 結構中的交叉注意力機制將視覺和語言兩種模態的信息相互關聯,從而讓模型更深層地理解當前的場景,并以符號特征的形式,將對于場景的理解輸入到決策單元中。
例如,當系統識別到行人在斑馬線上移動的視覺信息,VLM 可以通過語言規則的匹配,理解這個場景是"行人在過馬路",并且知道此時應該停車或者減速——將這種信息傳遞給軌跡預測模塊,顯然能夠幫助其做出更加正確的駕駛決策。
除了有 VLM 子模塊的幫助,決策單元還有行車規則的概率化表征模塊(PRR)提供信息。
該模塊用于將人類的駕駛常識和交通規則轉化為自動駕駛系統可理解的概率分布,再通過概率化軌跡采樣生成符合交通規則的候選軌跡,并為每個選項賦予相應的概率權重。例如,在交叉路口,系統可以生成"等待""緩慢通過"等符合規則的選項,并賦予相應的優先級。
此外,該模塊還包含規則的語言描述部分,將交通規則和駕駛指令編碼為語義特征,使其能夠被決策模塊理解和應用。例如,紅燈停車或右轉讓行的規則會生成特定語義向量。
PRR輸出的兩種信息均會進入到決策單元,與BEV單元輸出的特征圖、VLM輸出的場景理解特征互相融合,最終生成一條最佳的目標行駛軌跡。
最后補充一點,VLM和PRR模塊本質上是端到端系統的增強型"外掛",它們額外引入了類人的對于場景的綜合理解能力,以及常識和交規的語義表征,從而在擴展軌跡決策能力的同時維持了端到端系統的整體工作原理, 其本質上相當于一個功能增強了的One Model架構。
三、用擴散模型生成軌跡,應對不同環境
介紹完各個單元和模塊后,我們再來重點看一下這套端到端系統的核心——決策部分,到底是如何進行軌跡預測的。
這里主要使用了擴散模型這種生成式模型。工作時,系統會首先生成多個可能的候選軌跡,然后通過逐層多次去噪篩選出最優軌跡。例如,在行駛過程中,如果系統預測到前方車輛可能變道,擴散模型會生成多個候選路徑,并在去噪過程中逐步排除高風險的路徑,確保最終選擇一條安全的行駛路徑。
這種軌跡生成方法具備多種優勢。首先,擴散模型采用逐步迭代的去噪過程,每一步都對預測進行細化,從而逐漸優化輸出。相比于傳統一次性生成結果的模型,擴散模型能夠更精細地控制輸出,使軌跡預測更加平滑和自然。這一特性尤其適用于動態環境中的軌跡預測,確保模型在復雜場景中生成的路徑符合實際行駛需求。
其次,擴散模型的核心設計是去噪。這使其在面對噪聲數據或帶有隨機擾動的輸入時,依然能夠穩定地生成合理的軌跡,讓系統在應對復雜環境時具備更強的魯棒性。
最后,該模型在處理長尾場景時表現出色,比如極端天氣、異形障礙物、突然橫穿的行人等,增加了智駕系統的泛化能力。
四、C1200可快速部署,A2000將大顯身手
黑芝麻智能的端到端參考方案,以其創新的One Model架構和多模塊協同設計,成功解決了傳統分段式端到端系統中信息損耗、訓練分離等核心問題。在決策單元引入VLM和PRR模塊后,這套方案進一步提升了決策能力,無論在場景理解、軌跡規劃,還是動態環境適應方面,都達到了新的高度。這種設計不僅提升了端到端系統的整體性能,也為行業開創了更智能、更高效的技術路徑。
當然,再先進的算法也離不開芯片的支持。黑芝麻智能在設計端到端參考方案的同時,充分考慮了軟硬件結合的實際需求,使其方案可以靈活適配不同性能的芯片平臺。
不含 VLM 和 PRR 模塊的標準版方案,可在黑芝麻智能現有的武當 C1200家族芯片上高效部署,滿足車企和Tier1等合作伙伴基于算法的參考方案快速適配硬件并開發量產端到端系統的需求;而隨著未來黑芝麻智能華山A2000家族芯片的推出,則可以用超高算力支持包括VLM和PRR模塊的高階版端到端系統的部署,為終端客戶提供更高性能的智駕體驗,并為L3和L4級自動駕駛做好準備。
未來,隨著端到端架構的不斷完善和芯片技術的迭代提升,黑芝麻智能將繼續引領行業發展,為中國智能汽車產業的加速崛起貢獻更多智慧與力量。