2023年以來,越來越多車型開始接入大模型,越來越多Tier1推出汽車大模型解決方案。特斯拉FSD V12的出色進(jìn)展和SORA的推出,更加速了AI大模型在座艙和智駕領(lǐng)域的落地。
端到端自動駕駛大模型的發(fā)展突飛猛進(jìn)
2023年2月,采用端到端自動駕駛模型的特斯拉FSD v12.2.1已經(jīng)開始陸續(xù)在美開啟推送,不僅僅是員工和測試人員。根據(jù)首批客戶的反饋,F(xiàn)SD V12 相當(dāng)強大,讓以前不相信不敢用自動駕駛的普通人也敢于使用FSD了。譬如,特斯拉 FSD V12 可繞行路邊積水,一位特斯拉的工程師評論說:這種開法很難用明確的代碼來實現(xiàn),但特斯拉的端到端方案幾乎毫不費力地實現(xiàn)了。
自動駕駛AI大模型的發(fā)展可以分為四個階段:
1.0時代就是在感知層面使用大模型(Transformer);
2.0時代就是模塊化,感知規(guī)控決策都用大模型;
3.0時代就是端到端大模型(一“端”是傳感器的原始數(shù)據(jù),另一“端”直接輸出駕駛動作);
4.0時代就是從垂直領(lǐng)域的人工智能走向通用領(lǐng)域的人工智能(AGI的世界模型)。
現(xiàn)在多數(shù)公司處于2.0時代。特斯拉FSD V12已處于3.0時代。其他主機廠和Tier1紛紛跟進(jìn)FSD V12的端到端大模型。2024年1 月 30 日,小鵬汽車宣布,小鵬的端到端模型下一步將會全面上車。據(jù)悉,蔚來和理想的“基于端到端”自動駕駛模型也將在2024年上線。
FSD V12駕駛決策交由AI算法生成,用海量視頻數(shù)據(jù)訓(xùn)練出的端到端神經(jīng)網(wǎng)絡(luò),替換掉了超過30萬行C++代碼。FSD V12提供了一條有待驗證的全新路徑,若得以走通,將對行業(yè)產(chǎn)生顛覆性影響。
2月16日,OpenAI發(fā)布文本生成視頻模型SORA,標(biāo)志著AI視頻應(yīng)用即將大規(guī)模應(yīng)用的前夜。SORA不僅支持通過文本或圖像生成長達(dá)60秒的視頻,其視頻生成能力、復(fù)雜場景和角色生成能力、以及對物理世界模擬的能力,都顯著超越了之前的技術(shù)。
SORA和FSD V12都是通過視覺讓AI能夠理解甚至模擬真實的物理世界。Elon Mask認(rèn)為,“FSD 12和Sora不過是AI通過視覺認(rèn)知世界、理解世界上的兩個開花結(jié)果,F(xiàn)SD最終用于駕駛行為,Sora則是用來生成視頻?!?
SORA的爆火,進(jìn)一步證明了FSD V12的合理性。馬斯克稱「特斯拉已經(jīng)能夠制作真實世界視頻大約一年了」。
來源:Twitter
AI大模型快速演化,帶來全新機會
最近三年,自動駕駛大模型經(jīng)歷了若干次的演化,領(lǐng)先車企的自動駕駛系統(tǒng)幾乎每年要重寫一次。這也給后來者提供了切入機會。
CVPR2023上,商湯、OpenDriveLab、地平線等聯(lián)合發(fā)布的端到端的自動駕駛算法UniAD,獲得了2023年的最佳論文。
2024年初,中科慧拓技術(shù)團(tuán)隊和中科院自動化所共同提出的生成式端到端自動駕駛模型GenAD,將生成式人工智能(Generative AI)和端到端自動駕駛技術(shù)結(jié)合,是業(yè)界首個生成式端到端自動駕駛模型。該技術(shù)顛覆了UniAD的漸進(jìn)式流程端到端方案,探討了一種新的端到端自動駕駛范式,關(guān)鍵在于采用生成式人工智能的方式預(yù)測自車和周圍環(huán)境在過去場景中的時序演變方式。
來源:中科慧拓
2024年2月,地平線和華中科技大學(xué)提出了VADv2,一個基于概率規(guī)劃的端到端駕駛模型。VADv2以流方式輸入多視角圖像序列,將傳感器數(shù)據(jù)轉(zhuǎn)換為環(huán)境標(biāo)記嵌入,輸出動作的概率分布,并從中采樣一個動作來控制車輛。僅使用攝像頭傳感器,VADv2在CARLA Town05基準(zhǔn)測試中實現(xiàn)了最先進(jìn)的閉環(huán)性能,顯著優(yōu)于所有現(xiàn)有方法。它能夠在完全端到端的方式下穩(wěn)定運行,甚至不需要基于規(guī)則的封裝。
來源:地平線
在Town05長距離基準(zhǔn)測試中,VADv2取得了85.1的駕駛分?jǐn)?shù),98.4的路程完成度,以及0.87的違規(guī)分?jǐn)?shù),如表1所示。與之前的最先進(jìn)方法相比,VADv2在路程完成度更高的同時,顯著提高了駕駛分?jǐn)?shù),增加了9.0。值得注意的是,VADv2僅使用攝像頭作為感知輸入,而DriveMLM同時使用了攝像頭和激光雷達(dá)。此外,與之前僅依賴攝像頭最佳方法相比,VADv2顯示出更大的優(yōu)勢,駕駛分?jǐn)?shù)的顯著提高達(dá)到了16.8。
來源:地平線
也是在2024年2月,清華大學(xué)交叉信息研究院和理想汽車提出了 DriveVLM。DriveVLM的整體流程如下圖所示。一系列圖像被大型視覺語言模型(VLM)處理,以執(zhí)行特定的鏈?zhǔn)剿季S(CoT)推理,得出駕駛規(guī)劃結(jié)果。這個大型VLM包括一個視覺編碼器和一個大型語言模型(LLM)。
來源:清華大學(xué)交叉信息研究院
由于VLMs在空間推理和高計算需求方面的局限性,DriveVLM團(tuán)隊又提出了DriveVLM-Dual,一個結(jié)合了DriveVLM與傳統(tǒng)自主駕駛流水線優(yōu)勢的混合系統(tǒng)。DriveVLM-Dual可選擇性地將DriveVLM與傳統(tǒng)的3D感知和規(guī)劃模塊相結(jié)合,例如3D目標(biāo)檢測器、占用網(wǎng)絡(luò)和運動規(guī)劃器,使系統(tǒng)能夠?qū)崿F(xiàn)3D定位和高頻規(guī)劃能力。這種雙重系統(tǒng)設(shè)計,類似于人腦的慢速和快速思考過程,能夠有效適應(yīng)駕駛場景中不斷變化的復(fù)雜性。
大模型興起,AI和云計算公司受關(guān)注
AI大模型興起,算力、算法和數(shù)據(jù)三者缺一不可。擅長算法,儲備了大量算力的AI公司(如科大訊飛、商湯科技、曠視科技等),以及具備強大智算中心的云計算公司(如浪潮、火山引擎、騰訊云等)受到主機廠關(guān)注。
商湯在AI大模型領(lǐng)域布局了座艙多模態(tài)大模型SenseChat-Vision、AIDC智算中心(6000P算力)、自動駕駛大模型DriveMLM。2024年初,商湯推出DriveMLM,在閉環(huán)測試最權(quán)威榜單CARLA上取得很好的成績。DriveMLM是介于模塊化和端到端方案之間的中間方案,具備可解釋性。
來源:商湯科技
在自動駕駛的Corner Case采集上,火山引擎和毫末智行一起將大模型應(yīng)用在場景生成和標(biāo)注提效上。在火山引擎提供的云服務(wù)能力支持下,毫末DriveGPT大模型的預(yù)標(biāo)注,整體效率提升了10倍。
2023年,騰訊發(fā)布了在智能汽車云、智駕云圖、智能座艙等領(lǐng)域的升級產(chǎn)品和方案。算力方面,騰訊智能汽車云帶來3.2Tbps帶寬,算力性能提升3倍,通信性能提升10倍,計算集群GPU利用率提升60%以上,為智能駕駛大模型訓(xùn)練提供高帶寬、低延遲的智算能力支撐。
在訓(xùn)練加速方面,騰訊智能汽車云結(jié)合太極Angel訓(xùn)練加速框架,訓(xùn)練速度相比業(yè)界主流框架提高1倍,推理速度相比業(yè)界主流框架提升1.3倍。博世、蔚來汽車、英偉達(dá)、奔馳、文遠(yuǎn)知行等企業(yè)目前都是騰訊智能汽車云的用戶。2024年,騰訊將進(jìn)一步加強AI大模型的建設(shè)。
審核編輯:劉清
-
特斯拉
+關(guān)注
關(guān)注
66文章
6331瀏覽量
126818 -
自動駕駛
+關(guān)注
關(guān)注
785文章
13930瀏覽量
167004 -
FSD
+關(guān)注
關(guān)注
0文章
96瀏覽量
6188 -
OpenAI
+關(guān)注
關(guān)注
9文章
1132瀏覽量
6696 -
大模型
+關(guān)注
關(guān)注
2文章
2545瀏覽量
3163
原文標(biāo)題:汽車AI大模型研究:端到端突飛猛進(jìn),大模型演化帶來全新機會
文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論