国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁(yè) > news >正文

經(jīng)營(yíng)性網(wǎng)站必須備案排名優(yōu)化關(guān)鍵詞

經(jīng)營(yíng)性網(wǎng)站必須備案,排名優(yōu)化關(guān)鍵詞,網(wǎng)站編程用什么語(yǔ)言,中英文企業(yè)網(wǎng)站制作我自己的原文哦~ https://blog.51cto.com/whaosoft/13977368 #從圖像生成到端到端軌跡規(guī)劃 一、 擴(kuò)散模型原理 擴(kuò)散模型Diffusion Models是一種生成式模型,本質(zhì)是去噪,噪音符合某種特定分布。其原理基于對(duì)數(shù)據(jù)分布的學(xué)習(xí)和模擬,主要…

我自己的原文哦~? ? ? ?https://blog.51cto.com/whaosoft/13977368

#從圖像生成到端到端軌跡規(guī)劃

一、 擴(kuò)散模型原理

擴(kuò)散模型Diffusion Models是一種生成式模型,本質(zhì)是去噪,噪音符合某種特定分布。其原理基于對(duì)數(shù)據(jù)分布的學(xué)習(xí)和模擬,主要包括正向擴(kuò)散過(guò)程和反向生成過(guò)程。

其名字來(lái)源于一滴墨水滴進(jìn)清水,以隨機(jī)運(yùn)動(dòng)的方式彌散到清水乃至于徹底消融。

擴(kuò)散模型學(xué)習(xí)這個(gè)彌散過(guò)程,目的是把融化進(jìn)清水(純?cè)胍?#xff09;里面的墨水(原始數(shù)據(jù))恢復(fù)出來(lái)。

模型訓(xùn)練好后,給定一杯滴了墨水的清水,變魔術(shù)一般恢復(fù)出原始的墨水。這里的魔術(shù)只是某種學(xué)習(xí)了分布規(guī)律的神經(jīng)網(wǎng)絡(luò)。

正向擴(kuò)散過(guò)程

從初始數(shù)據(jù)分布(如真實(shí)圖像分布)開(kāi)始,逐步向數(shù)據(jù)中添加噪聲,這個(gè)過(guò)程遵循一個(gè)馬爾可夫鏈。在每一步,根據(jù)前一步的狀態(tài)和一個(gè)固定的噪聲分布,生成下一個(gè)更具噪聲的數(shù)據(jù)點(diǎn)。隨著時(shí)間步的增加,數(shù)據(jù)逐漸變得更像噪聲,最終達(dá)到一個(gè)近似純?cè)肼暦植肌?/p>

反向生成過(guò)程

從純?cè)肼曢_(kāi)始,通過(guò)學(xué)習(xí)一個(gè)逆過(guò)程來(lái)逐步去除噪聲,以恢復(fù)出原始數(shù)據(jù)。這個(gè)逆過(guò)程通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)參數(shù)化,網(wǎng)絡(luò)的目標(biāo)是根據(jù)當(dāng)前帶噪聲的數(shù)據(jù)點(diǎn)和時(shí)間步,預(yù)測(cè)出前一個(gè)時(shí)間步的更接近原始數(shù)據(jù)的點(diǎn)。在訓(xùn)練過(guò)程中,通過(guò)最大化似然估計(jì)或其他損失函數(shù)來(lái)調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù),使得模型能夠逐漸學(xué)會(huì)從噪聲中生成真實(shí)的數(shù)據(jù)樣本。

擴(kuò)散模型通過(guò)正向擴(kuò)散過(guò)程來(lái)定義數(shù)據(jù)的噪聲化過(guò)程,然后通過(guò)反向生成過(guò)程來(lái)學(xué)習(xí)如何從噪聲中恢復(fù)數(shù)據(jù),從而實(shí)現(xiàn)對(duì)數(shù)據(jù)分布的建模和生成新的數(shù)據(jù)樣本。

圖 正向-反向diffusion過(guò)程,圖片來(lái)自網(wǎng)絡(luò)

馬爾可夫鏈(Markov Chain)是一種具有馬爾可夫性(無(wú)記憶性)的隨機(jī)過(guò)程,描述系統(tǒng)在狀態(tài)空間中隨時(shí)間轉(zhuǎn)移的規(guī)律。其核心特征是:未來(lái)狀態(tài)的概率僅依賴(lài)于當(dāng)前狀態(tài),與歷史狀態(tài)無(wú)關(guān)。所以馬爾科夫性這個(gè)性質(zhì)其實(shí)是個(gè)人為簡(jiǎn)化。

過(guò)程

公式

說(shuō)明

正向單步

正向多步

累積噪聲的線(xiàn)性組合

反向單步

神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)噪聲驅(qū)動(dòng)去噪,?′ 為隨機(jī)噪聲

損失函數(shù)

最小化預(yù)測(cè)噪聲與真實(shí)噪聲的均方差

擴(kuò)散模型擴(kuò)散過(guò)程每一層的概率分布類(lèi)型通常是一樣的,只是參數(shù)不一樣。

在常見(jiàn)的擴(kuò)散模型中,比如基于高斯分布假設(shè)的擴(kuò)散模型,每一層(時(shí)間步)的條件概率分布通常都被建模為高斯分布。雖然不同層的均值和方差等參數(shù)會(huì)根據(jù)擴(kuò)散過(guò)程而變化,但分布類(lèi)型保持一致,這樣的設(shè)定有助于模型的數(shù)學(xué)推導(dǎo)和計(jì)算。當(dāng)然,也有一些擴(kuò)散模型可能會(huì)采用其他類(lèi)型的分布,如拉普拉斯分布等,在這種情況下,模型各層也會(huì)基于相同類(lèi)型的分布來(lái)構(gòu)建。

擴(kuò)散模型(Diffusion Models)通常結(jié)合多種類(lèi)型的神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)核心功能,包括去噪過(guò)程建模、概率分布學(xué)習(xí)和多尺度特征提取。其最常用的神經(jīng)網(wǎng)絡(luò)類(lèi)型是u-net:

圖 ?U-net架構(gòu)圖,來(lái)自網(wǎng)絡(luò)

U-Net作為最核心架構(gòu),其結(jié)構(gòu)特點(diǎn)完全是對(duì)稱(chēng)的,直觀講就是兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)尾對(duì)尾嫁接在一起。

編碼器 - 解碼器架構(gòu):編碼器:通過(guò)卷積層逐步降低特征圖分辨率,提取高層語(yǔ)義信息(如物體形狀、紋理)。

解碼器:通過(guò)上采樣和跳躍連接恢復(fù)分辨率,將高層語(yǔ)義與低層細(xì)節(jié)結(jié)合。

跳躍連接:緩解深層網(wǎng)絡(luò)的梯度消失問(wèn)題,增強(qiáng)細(xì)節(jié)恢復(fù)能力。

其在擴(kuò)散模型中的作用是作為去噪核心,功能是輸入帶噪聲的圖像和時(shí)間步長(zhǎng)(表示噪聲強(qiáng)度),輸出去噪后的圖像或預(yù)測(cè)噪聲。

圖像生成模型如 DALL-E 2、Stable Diffusion 均以U-Net 為骨干網(wǎng)絡(luò)。

作為U-net的核心創(chuàng)新的跳躍連接,其思想非常類(lèi)似resnet的殘差鏈接,直接越過(guò)多層疊加。其操作是將編碼器特征圖Fi和解碼器特征圖Gj沿通道維度拼接,生成新的特征圖 H。示例代碼如下:?

二、 擴(kuò)散模型和生成對(duì)抗網(wǎng)絡(luò)的對(duì)比

生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GANs) 是一種深度學(xué)習(xí)模型,由 生成器(Generator)和判別器(Discriminator)組成,通過(guò)兩者的對(duì)抗博弈來(lái)學(xué)習(xí)數(shù)據(jù)分布并生成新樣本。它于2014年由 Ian Goodfellow(就是人工智能花書(shū)的作者)等人提出,已廣泛應(yīng)用于圖像生成、視頻合成、數(shù)據(jù)增強(qiáng)等領(lǐng)域。

生成對(duì)抗網(wǎng)絡(luò)和擴(kuò)散模型都存在加噪和去噪過(guò)程,目的都是去噪。從輸入輸出角度看,二者有一定的可替換性。

目前并無(wú)文獻(xiàn)表明二者誰(shuí)更優(yōu)。也有文獻(xiàn)使用生成對(duì)抗網(wǎng)絡(luò)來(lái)做自動(dòng)駕駛的長(zhǎng)尾場(chǎng)景生成。

生成對(duì)抗網(wǎng)絡(luò)是在生成器的輸入中加入噪聲,可以使生成器更靈活地探索潛在空間,從而生成更加多樣化的樣本。

具體實(shí)現(xiàn)步驟如下:

  • 在生成器的輸入向量 ( z ) 中加入噪聲。
  • 噪聲通常是從一個(gè)簡(jiǎn)單的分布(如標(biāo)準(zhǔn)正態(tài)分布 ( N(0, 1) ) 或均勻分布 ( U(-a, a) ))采樣得到的。

圖 生成對(duì)抗網(wǎng)絡(luò)的加噪過(guò)程,來(lái)自網(wǎng)絡(luò)

生成對(duì)抗網(wǎng)絡(luò)(GAN)在自動(dòng)駕駛領(lǐng)域的應(yīng)用幾乎和擴(kuò)散模型重合,主要涵蓋數(shù)據(jù)生成、場(chǎng)景仿真、感知增強(qiáng)和決策優(yōu)化等方面。比如SurfelGAN(Google)利用激光雷達(dá)和攝像頭數(shù)據(jù)生成逼真的相機(jī)圖像,用于自動(dòng)駕駛仿真模型訓(xùn)練。

擴(kuò)散模型像"考古修復(fù)"(從碎片還原文物),GAN像"造假大師"(不斷改進(jìn)偽造技術(shù))。

維度

擴(kuò)散模型

生成對(duì)抗網(wǎng)絡(luò)(GANs)

核心機(jī)制

基于正向擴(kuò)散與逆向去噪的概率建模

基于生成器與判別器的對(duì)抗博弈

訓(xùn)練方式

非對(duì)抗訓(xùn)練,僅需優(yōu)化單一神經(jīng)網(wǎng)絡(luò)

對(duì)抗訓(xùn)練,需同時(shí)優(yōu)化生成器和判別器

穩(wěn)定性

訓(xùn)練更穩(wěn)定,不易出現(xiàn)模式崩潰

訓(xùn)練難度高,易因梯度消失或模式崩潰失敗

樣本質(zhì)量

生成圖像通常更清晰、多樣性更強(qiáng)(尤其高分辨率)

早期 GANs 在高分辨率下可能出現(xiàn)模糊,需改進(jìn)架構(gòu)(如 StyleGAN)

計(jì)算成本

訓(xùn)練和生成需多步迭代,計(jì)算復(fù)雜度高

生成階段僅需單次前向傳播,速度快

理論基礎(chǔ)

基于熱力學(xué)擴(kuò)散過(guò)程和變分推斷

基于博弈論和概率分布匹配

數(shù)學(xué)工具

隨機(jī)微分方程(SDE)、馬爾可夫鏈

概率分布散度(如 JS 散度、Wasserstein 距離)

目前看擴(kuò)散模型似乎比生成對(duì)抗網(wǎng)絡(luò)更受歡迎,一個(gè)原因是生成對(duì)抗網(wǎng)絡(luò)需要訓(xùn)練至少兩個(gè)神經(jīng)網(wǎng)絡(luò):生成器和判別器,計(jì)算量很大,訓(xùn)練好的模型體積也大。

但是生成對(duì)抗網(wǎng)絡(luò)也有優(yōu)勢(shì),就是其加噪過(guò)程往往融合多種分布類(lèi)型的噪音,疊加的噪音更復(fù)雜;而不像基于馬爾可夫鏈加噪的擴(kuò)散模型,噪音分布類(lèi)型在一般情況下不變,只是變化分布參數(shù)。?

三、 擴(kuò)散模型在自動(dòng)駕駛領(lǐng)域的應(yīng)用

擴(kuò)散模型由于其去噪的本質(zhì),在自動(dòng)駕駛領(lǐng)域的應(yīng)用主要集中在數(shù)據(jù)生成、場(chǎng)景預(yù)測(cè)、感知增強(qiáng)和路徑規(guī)劃等方面。需要說(shuō)明,擴(kuò)散模型不僅可以用來(lái)對(duì)連續(xù)分布噪音進(jìn)行去噪,也可以對(duì)離散分布噪音(和數(shù)據(jù))去噪,所以它也可以用于離散問(wèn)題,比如決策規(guī)劃。

以下是具體的應(yīng)用場(chǎng)景和技術(shù)優(yōu)勢(shì):

1. 合成數(shù)據(jù)生成

擴(kuò)散模型能夠生成高度逼真的駕駛場(chǎng)景數(shù)據(jù),解決真實(shí)數(shù)據(jù)不足或標(biāo)注成本高的問(wèn)題。

罕見(jiàn)場(chǎng)景生成,如極端天氣(暴雨、大霧)、突發(fā)障礙物(行人橫穿、車(chē)輛逆行)等,提升模型的泛化能力。

而且這種生成是可控的,通過(guò)條件控制(如BEV布局、3D標(biāo)注)生成特定場(chǎng)景,例如NuScenes和KITTI數(shù)據(jù)集的擴(kuò)展。

比如SynDiff-AD,基于潛在擴(kuò)散模型的數(shù)據(jù)生成pipeline,顯著提升模型在低光照、極端天氣等條件下的性能。

2. 場(chǎng)景預(yù)測(cè)與視頻生成

擴(kuò)散模型可用于預(yù)測(cè)未來(lái)駕駛場(chǎng)景的動(dòng)態(tài)變化,

包括多模態(tài)預(yù)測(cè),也就是生成可能的交通參與者行為(如車(chē)輛變道、行人軌跡),支持決策系統(tǒng)。還有視頻生成,比如DriveGenVLM結(jié)合視覺(jué)語(yǔ)言模型(VLMs)生成真實(shí)駕駛視頻,用于仿真測(cè)試。

3. 感知任務(wù)優(yōu)化

擴(kuò)散模型在感知任務(wù)中可去除噪聲并增強(qiáng)數(shù)據(jù)質(zhì)量:

BEV去噪:利用擴(kuò)散模型清理鳥(niǎo)瞰圖(BEV)中的噪聲,提升目標(biāo)檢測(cè)精度。

多傳感器融合:生成一致的雷達(dá)與攝像頭數(shù)據(jù),改善感知魯棒性。

4. 路徑規(guī)劃與決策

擴(kuò)散模型通過(guò)概率建模支持多模態(tài)路徑生成:

Diffusion Planner:清華AIR團(tuán)隊(duì)提出的規(guī)劃算法,利用擴(kuò)散模型的引導(dǎo)機(jī)制適應(yīng)復(fù)雜路況,提升安全性和泛化能力。

實(shí)時(shí)端到端控制:DiffusionDrive通過(guò)截?cái)鄶U(kuò)散步驟實(shí)現(xiàn)實(shí)時(shí)決策,直接從人類(lèi)駕駛數(shù)據(jù)學(xué)習(xí)。

其中所謂截?cái)鄶U(kuò)散就是跳躍性地去噪,本來(lái)去噪要像加噪過(guò)程一樣經(jīng)過(guò)多步打磨,現(xiàn)在則是直接越過(guò)幾步,去噪時(shí)通過(guò)采樣來(lái)模擬多步加噪的疊加分布,至于越過(guò)幾步為好則是調(diào)參的藝術(shù)。

5. 端到端自動(dòng)駕駛

擴(kuò)散模型直接學(xué)習(xí)駕駛策略,簡(jiǎn)化傳統(tǒng)模塊化流程。

比如動(dòng)作分布建模,也就是處理多模式駕駛行為(如避障或變道),避免傳統(tǒng)方法的單一輸出限制。

6. 小眾應(yīng)用

除了直接用于自動(dòng)駕駛的擴(kuò)散模型,還可以用于優(yōu)化算法(也就是求最大或最小值),從而間接服務(wù)于自動(dòng)駕駛。

自動(dòng)駕駛有許多最小化優(yōu)化問(wèn)題,比如最小能量消耗路徑,在商用車(chē)重卡領(lǐng)域用的非常多。其目標(biāo)函數(shù)是:

其中F函數(shù)式車(chē)輛在速度vi下的單位距離能耗。

而Diffusion-ES(Diffusion Evolution Strategy) 是一種將擴(kuò)散模型(Diffusion Model)與進(jìn)化策略(Evolution Strategy, ES)相結(jié)合的優(yōu)化算法,旨在利用擴(kuò)散模型強(qiáng)大的生成能力和進(jìn)化策略的全局搜索能力,高效求解復(fù)雜優(yōu)化問(wèn)題,比如上面的最小能量消耗路徑求解。

技術(shù)優(yōu)勢(shì)總結(jié)

應(yīng)用方向

技術(shù)優(yōu)勢(shì)

典型案例

合成數(shù)據(jù)生成

解決數(shù)據(jù)稀缺,支持可控生成

SynDiff-AD 、ControlNet

場(chǎng)景預(yù)測(cè)

多模態(tài)未來(lái)幀生成,動(dòng)態(tài)適應(yīng)性

DriveGenVLM

感知優(yōu)化

BEV去噪、多傳感器一致性

BEV-Guided Diffusion

路徑規(guī)劃

多模態(tài)路徑生成,高泛化能力

Diffusion Planner

端到端控制

實(shí)時(shí)性高,直接學(xué)習(xí)人類(lèi)策略

DiffusionDrive

四、總結(jié)

擴(kuò)散模型在自動(dòng)駕駛中的應(yīng)用仍處于快速發(fā)展階段,未來(lái)可能與BEV、大語(yǔ)言模型(LLMs)進(jìn)一步結(jié)合,推動(dòng)全棧技術(shù)革新。

業(yè)界和學(xué)術(shù)多有基于擴(kuò)散模型的技術(shù)方案,本文更偏重企業(yè)方案,列舉三個(gè):

毫末智行在2025 年 1 月 28 日,毫末智行聯(lián)合清華大學(xué) AIR 智能產(chǎn)業(yè)研究院等機(jī)構(gòu)在 ICLR 2025 上發(fā)布了 Diffusion Planner。該算法基于 Diffusion Transformer,能高效處理復(fù)雜場(chǎng)景輸入,聯(lián)合建模周車(chē)運(yùn)動(dòng)預(yù)測(cè)與自車(chē)規(guī)劃中的多模態(tài)駕駛行為。通過(guò)擴(kuò)散模型強(qiáng)大的數(shù)據(jù)分布擬合能力,精準(zhǔn)捕捉復(fù)雜場(chǎng)景中周車(chē)與自車(chē)的多模態(tài)駕駛行為,實(shí)現(xiàn)周車(chē)預(yù)測(cè)與自車(chē)規(guī)劃的聯(lián)合建模。在大規(guī)模真實(shí)數(shù)據(jù)集 nuPlan 的閉環(huán)評(píng)估中取得 SOTA 級(jí)表現(xiàn),大幅降低了對(duì)后處理的依賴(lài),并在 200 小時(shí)物流小車(chē)數(shù)據(jù)上驗(yàn)證了多種駕駛風(fēng)格下的魯棒性和遷移能力。目前,毫末團(tuán)隊(duì)已進(jìn)入實(shí)車(chē)測(cè)試階段,率先實(shí)現(xiàn)端到端方案在末端物流自動(dòng)配送場(chǎng)景的應(yīng)用落地。

地平線(xiàn)與香港大學(xué)等團(tuán)隊(duì)提出了 HE - Drive,這是首個(gè)以類(lèi)人駕駛為核心的端到端自動(dòng)駕駛系統(tǒng)。該系統(tǒng)利用稀疏感知技術(shù)生成三維空間表示,作為條件輸入到基于條件去噪擴(kuò)散概率模型(DDPM)的運(yùn)動(dòng)規(guī)劃器中,生成具備時(shí)間一致性的多模態(tài)軌跡。然后,基于視覺(jué)語(yǔ)言模型引導(dǎo)的軌跡評(píng)分器從候選軌跡中選擇最舒適的軌跡來(lái)控制車(chē)輛。HE - Drive 在 nuScenes 和 OpenScene 數(shù)據(jù)集上實(shí)現(xiàn)了 SOTA 性能和效率,同時(shí)在真實(shí)世界數(shù)據(jù)中提供了更舒適的駕駛體驗(yàn)。

理想汽車(chē)在 2025 年推出的下一代自動(dòng)駕駛架構(gòu) MindVLA,整合了空間智能、語(yǔ)言智能和行為智能。該技術(shù)基于端到端和 VLM 雙系統(tǒng)架構(gòu),通過(guò) 3D 空間編碼器和邏輯推理生成合理的駕駛決策,并利用擴(kuò)散模型優(yōu)化駕駛軌跡。MindVLA 采用 3D 高斯作為中間表征,利用海量數(shù)據(jù)進(jìn)行自監(jiān)督訓(xùn)練,其 LLM 基座模型采用 MoE 混合專(zhuān)家架構(gòu)和稀疏注意力技術(shù)。通過(guò) Diffusion 模型將動(dòng)作詞元解碼為優(yōu)化軌跡,并結(jié)合自車(chē)行為生成和他車(chē)軌跡預(yù)測(cè),提升復(fù)雜交通環(huán)境中的博弈能力。

最后,本文列舉一個(gè)有代表意義的學(xué)術(shù)方案。

在2024年機(jī)器人頂會(huì) CoRL 上,《One Model to Drift Them All: Physics-Informed Conditional Diffusion Model for Driving at the Limits》一文的作者們Franck Djeumou等提出利用包含多種車(chē)輛在多樣環(huán)境下行駛軌跡的未標(biāo)記數(shù)據(jù)集,訓(xùn)練一個(gè)高性能車(chē)輛控制的條件擴(kuò)散模型。條件擴(kuò)散模型(Conditional Diffusion Models, CDMs)是一類(lèi)基于擴(kuò)散過(guò)程的生成模型,在生成過(guò)程中引入了額外的條件信息,從而能夠生成更為符合特定需求的樣本,例如生成符合特定文本描述、類(lèi)別標(biāo)簽或其他先驗(yàn)信息的圖像。

這里的drift就是頭文字D里面的飄移,在極限情況下的飄移動(dòng)作(橫向滑動(dòng)),該模型能通過(guò)基于物理信息的數(shù)據(jù)驅(qū)動(dòng)動(dòng)態(tài)模型的參數(shù)多模態(tài)分布,捕捉復(fù)雜數(shù)據(jù)集中的軌跡分布。通過(guò)將在線(xiàn)測(cè)量數(shù)據(jù)作為生成過(guò)程的條件,將擴(kuò)散模型融入實(shí)時(shí)模型預(yù)測(cè)控制框架中,用于極限駕駛。據(jù)報(bào)道,在豐田 Supra 和雷克薩斯 LC 500 上的實(shí)驗(yàn)表明,單一擴(kuò)散模型可使兩輛車(chē)在不同路況下使用不同輪胎時(shí)實(shí)現(xiàn)可靠的自動(dòng)漂移,在對(duì)未知條件的泛化方面優(yōu)于專(zhuān)家模型。

#VLA模型

元戎啟行周光:攜手火山引擎,基于豆包大模型打造物理世界Agent

2025年6月11日,元戎啟行CEO周光受邀出席2025年火山引擎Force原動(dòng)力大會(huì),宣布元戎啟行將攜手火山引擎,基于豆包大模型,共同研發(fā)VLA等前瞻技術(shù),打造物理世界的Agent。同時(shí),周光宣布元戎啟行的VLA模型將于2025年第三季度推向消費(fèi)者市場(chǎng),并展示了VLA模型的四大功能——空間語(yǔ)義理解、異形障礙物識(shí)別、文字類(lèi)引導(dǎo)牌理解、語(yǔ)音控車(chē),功能將隨量產(chǎn)逐步釋放。

元戎啟行CEO周光

周光:“VLA的四大核心功能,相當(dāng)于為AI汽車(chē)增加‘透視眼’‘百事通’‘翻譯官’‘應(yīng)答靈’等屬性,讓AI汽車(chē)更全面地了解駕駛環(huán)境,準(zhǔn)確預(yù)測(cè)潛在駕駛危險(xiǎn)因素,顯著提升輔助駕駛的安全性?!?strong>?

空間語(yǔ)義理解:駕駛“透視眼”

VLA模型能夠全維度解構(gòu)駕駛環(huán)境,精準(zhǔn)破解橋洞通行、公交車(chē)遮擋視野等動(dòng)靜態(tài)駕駛盲區(qū)場(chǎng)景駕駛風(fēng)險(xiǎn)。

例如,在通過(guò)無(wú)紅綠燈的路口時(shí),VLA模型能提前識(shí)別到“注意橫穿,減速慢行”的指示牌,即使公交車(chē)通行造成動(dòng)態(tài)盲區(qū),VLA也會(huì)結(jié)合公交車(chē)的動(dòng)作去做出準(zhǔn)確的決策。當(dāng)公交車(chē)進(jìn)行減速時(shí),它會(huì)通過(guò)推理前方可能有行人穿行,并做出“立即減速、注意風(fēng)險(xiǎn)、謹(jǐn)慎通行”的決策。

?,時(shí)長(zhǎng)00:16

公交車(chē)動(dòng)態(tài)盲區(qū)遮擋

異形障礙物識(shí)別:駕駛“百事通”

vla模型是一個(gè)超級(jí)學(xué)霸,它通過(guò)互聯(lián)網(wǎng)迅速獲取知識(shí)并轉(zhuǎn)換成自己的經(jīng)驗(yàn),有自己的駕駛“知識(shí)庫(kù)”,對(duì)駕駛過(guò)程中出現(xiàn)的各類(lèi)障礙物了如指掌,準(zhǔn)確判斷潛在危險(xiǎn)因素,行駛更安全。例如,VLA模型能夠識(shí)別“變形”的超載小貨車(chē),結(jié)合實(shí)際路況,執(zhí)行減速繞行或靠邊駕駛。

?,時(shí)長(zhǎng)00:16

異形障礙物識(shí)別

文字引導(dǎo)牌理解:駕駛“翻譯官”

搭載VLA模型的AI 汽車(chē)不僅能 “看見(jiàn)” 道路標(biāo)識(shí),更能 “讀懂” 文字背后的通行規(guī)則,解析復(fù)雜路況里蘊(yùn)含的路況信息,讓復(fù)雜路況決策如 “開(kāi)卷考試” 般從容。面對(duì)左轉(zhuǎn)待行區(qū)、可變車(chē)道、潮汐車(chē)道等 “動(dòng)態(tài)規(guī)則路段”,VLA模型能夠讀懂字符與圖標(biāo)的含義,高效匹配實(shí)時(shí)路況。在多車(chē)道復(fù)雜路口選道直行的場(chǎng)景中,能夠準(zhǔn)確識(shí)別車(chē)輛前方的文字及圖案標(biāo)識(shí)牌,從左轉(zhuǎn)右轉(zhuǎn)混雜的路口準(zhǔn)確找到左轉(zhuǎn)車(chē)道,并執(zhí)行操作。

?,時(shí)長(zhǎng)00:14

特殊路標(biāo)識(shí)別

語(yǔ)音交互控車(chē):駕駛“應(yīng)答靈”

通過(guò)VLA模型,AI汽車(chē)可以與用戶(hù)高效交流,根據(jù)語(yǔ)音指令做出對(duì)應(yīng)的駕駛決策,隨叫隨應(yīng),交互更擬人,體驗(yàn)更舒適。并且當(dāng)用戶(hù)意愿與導(dǎo)航信息相沖突時(shí),VLA模型會(huì)優(yōu)先采納用戶(hù)意愿。

語(yǔ)音控車(chē)指令

語(yǔ)音控車(chē)指令

目前,元戎啟行已完成VLA模型的真實(shí)道路測(cè)試,預(yù)計(jì)今年將有超5款搭載元戎啟行VLA模型的AI汽車(chē)陸續(xù)推入市場(chǎng)。其中,VLA模型支持激光雷達(dá)方案與純視覺(jué)方案,將率先搭載在NVIDIA Drive Thor芯片上,后續(xù)元戎啟行還將通過(guò)技術(shù)優(yōu)化,讓VLA模型可以適配更多芯片平臺(tái)。

火山引擎汽車(chē)總經(jīng)理、智慧出行和具身研究院院長(zhǎng)楊立偉表示:“元戎啟行作為業(yè)內(nèi)率先推出VLA模型的企業(yè)之一,對(duì)人工智能的理解極為深刻。火山引擎作為行業(yè)領(lǐng)先的云服務(wù)提供商,在云計(jì)算領(lǐng)域擁有深厚的技術(shù)實(shí)力和豐富的經(jīng)驗(yàn)。我們非常期待與元戎啟行攜手合作,共同推動(dòng)基于豆包大模型的物理世界Agent的落地應(yīng)用,助力智慧出行領(lǐng)域的創(chuàng)新發(fā)展。”

周光強(qiáng)調(diào):“VLA模型作為當(dāng)下最先進(jìn)的AI技術(shù),可以連接視覺(jué)、語(yǔ)言、動(dòng)作等多種模態(tài),打通物理世界與數(shù)字世界的壁壘,具有完善的任務(wù)規(guī)劃和執(zhí)行能力,是實(shí)現(xiàn)物理世界 agent 的關(guān)鍵技術(shù)。元戎啟行很高興能夠與火山引擎達(dá)成合作,基于VLA模型共同打造物理世界的Agent,讓雙方的先進(jìn)技術(shù)在物理世界的各個(gè)領(lǐng)域落地,推動(dòng)生產(chǎn)力進(jìn)階。”

#理想司機(jī)Agent的一些細(xì)節(jié)

整體評(píng)價(jià): 基于司機(jī)Agent 這個(gè)產(chǎn)品定義主要專(zhuān)注于 封閉園區(qū)/地下車(chē)庫(kù)場(chǎng)景下的多模態(tài)信息融合感知輸出決策。

產(chǎn)品整體定義,細(xì)節(jié)都是做的很完善了。

舉幾個(gè)細(xì)節(jié)點(diǎn):

1??: 首先Agent 產(chǎn)品已經(jīng)全模型化輸出軌跡,除了部分兜底還會(huì)有少量的規(guī)則。因此和過(guò)去的AVP產(chǎn)品體驗(yàn)完全不一樣。最為直觀的感受就是你感覺(jué)到在園區(qū)/地下車(chē)庫(kù) AD Max 自己開(kāi)車(chē)和人類(lèi)司機(jī)開(kāi)車(chē)體驗(yàn)幾乎無(wú)差異

【當(dāng)然還是沒(méi)有人類(lèi)老司機(jī)開(kāi)得好】。

2??:基于2D/3D 信息編碼整合進(jìn)模型后,Agent 具備理解道路標(biāo)牌【例如,出口,上下坡道,左右轉(zhuǎn),電梯口,不允許通行,區(qū)域B12345,ABCDEFGG區(qū) etc】的能力,和語(yǔ)音交互感知【左右轉(zhuǎn),靠邊停車(chē),掉個(gè)頭,快點(diǎn)慢點(diǎn),甚至給出先去A區(qū)再靠邊,或者掉頭后再去C區(qū)】的能力。簡(jiǎn)單指令場(chǎng)景依賴(lài)的是本地的多模態(tài)LLM,復(fù)雜指令是Token化后上云大參量的LLM,將任務(wù)拆解后轉(zhuǎn)換成順序任務(wù)后在本地LLM執(zhí)行。

3??:具備自建關(guān)聯(lián)點(diǎn)的能力【我這里為什么不說(shuō)建地圖而是建關(guān)聯(lián)點(diǎn)】有就幾個(gè)原因:首先更多的是行車(chē)的關(guān)聯(lián)結(jié)構(gòu),而并非記憶了精準(zhǔn)的道路結(jié)構(gòu)。因此車(chē)輛在調(diào)用這個(gè)關(guān)聯(lián)點(diǎn)記憶很像人在地下車(chē)庫(kù)開(kāi)車(chē)【大概要往哪個(gè)地方開(kāi),而并非是像Hd map 具有嚴(yán)格的駕駛軌跡限定】,換句話(huà)說(shuō),關(guān)聯(lián)點(diǎn)建好后。理論上,給Agent 需求后,會(huì)直接進(jìn)行關(guān)聯(lián)點(diǎn)分析,規(guī)劃出一條最近的【可以符合通行邏輯】的地下/園區(qū)駕駛軌跡。 當(dāng)然現(xiàn)在他能力還有限,還是偶爾會(huì)出現(xiàn)開(kāi)錯(cuò)路,然后觸發(fā)掉頭再開(kāi)【對(duì)因?yàn)樾熊?chē)模型化后,理論上可以觸發(fā)無(wú)限制掉頭,幾乎不會(huì)卡死】

4??:具備感知推理能力,而且懷疑整個(gè)AD Max Agent 場(chǎng)景是將行車(chē)感知攝像頭和泊車(chē)【魚(yú)眼】感知攝像頭對(duì)齊后輸入到模型里面。甚至還前融合了激光雷達(dá)的數(shù)據(jù)。

基本可以做到全向規(guī)則/不規(guī)則的環(huán)境感知能力。

考慮到業(yè)內(nèi)發(fā)展態(tài)勢(shì)如此之快。從個(gè)人體驗(yàn)角度來(lái)看,我覺(jué)得AD Max 司機(jī)Agent 和 NIO AD 的NWM。

是目前唯二,將多模態(tài)感知信息整合到一個(gè)模型里實(shí)現(xiàn)復(fù)雜推理的應(yīng)用場(chǎng)景。

NWM大家已經(jīng)看到大量實(shí)測(cè)視頻,地下尋路能力非常不錯(cuò),而且多模態(tài)感知能力也非常好。

司機(jī)Agent。截至目前釋放的范圍:

1??:多模態(tài)感知+語(yǔ)音交互;
2??:地下車(chē)庫(kù)收費(fèi)桿感知,判斷。銜接到封閉園區(qū)再到公開(kāi)道路;
3??:構(gòu)建關(guān)聯(lián)點(diǎn)記憶能力【第二次就不需要漫游出園區(qū)/地下車(chē)庫(kù)】,直接可以跟著大概記憶走,記憶不對(duì)也會(huì)觸發(fā)掉頭,換路 etc。

#xxx

#xxx

#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
http://m.aloenet.com.cn/news/40888.html

相關(guān)文章:

  • 這么做3d展示網(wǎng)站優(yōu)化網(wǎng)站排名的方法
  • 網(wǎng)站建設(shè)完整南寧白帽seo技術(shù)
  • 手工企業(yè)網(wǎng)站模板企業(yè)網(wǎng)站制作公司
  • 淮安哪里有做網(wǎng)站的北京網(wǎng)站seo技術(shù)廠(chǎng)家
  • 網(wǎng)站改版方案原則百度關(guān)鍵詞搜索量排名
  • 網(wǎng)站建設(shè)財(cái)務(wù)上怎么處理寧波seo推廣推薦
  • 網(wǎng)站怎么解析到域名推廣類(lèi)軟文
  • 免費(fèi)word模板下載哪個(gè)網(wǎng)站網(wǎng)站建設(shè)方案書(shū)范文
  • wordpress 整站音樂(lè)看廣告收益的正規(guī)平臺(tái)
  • 貴溪市城鄉(xiāng)建設(shè)局網(wǎng)站推廣公眾號(hào)的9種方法
  • 網(wǎng)站建設(shè)和購(gòu)買(mǎi)區(qū)別網(wǎng)絡(luò)推廣100種方法
  • 動(dòng)態(tài)網(wǎng)站建設(shè)的一般步驟免費(fèi)的h5制作網(wǎng)站
  • wordpress恢復(fù)源代碼willfast優(yōu)化工具下載
  • 電子商務(wù)網(wǎng)站設(shè)計(jì)畢業(yè)設(shè)計(jì)論文競(jìng)價(jià)推廣員月掙多少
  • 網(wǎng)站怎么做優(yōu)化排名推廣下載
  • 福州外包加工網(wǎng)廈門(mén)seo優(yōu)化推廣
  • 保定設(shè)計(jì)網(wǎng)站建設(shè)寧波做網(wǎng)站的公司
  • 網(wǎng)站建設(shè)公司公司哪家好北京seo排名優(yōu)化網(wǎng)站
  • 汽車(chē)之家app下載最新版舟山百度seo
  • 做網(wǎng)站一屏一屏的網(wǎng)站推廣優(yōu)化教程
  • 互聯(lián)網(wǎng)網(wǎng)站建設(shè)計(jì)劃書(shū)搜索軟件使用排名
  • 電商網(wǎng)購(gòu)網(wǎng)站怎么做做網(wǎng)站一般需要多少錢(qián)
  • 工具類(lèi)網(wǎng)站怎么優(yōu)化seoseo綜合優(yōu)化公司
  • 建網(wǎng)站需要哪些費(fèi)用東莞做網(wǎng)站推廣公司
  • 網(wǎng)站規(guī)劃建設(shè)方案手機(jī)怎么搭建網(wǎng)站
  • 大連企業(yè)網(wǎng)站設(shè)計(jì)欣賞如何讓百度收錄網(wǎng)站
  • 教育培訓(xùn)網(wǎng)站建設(shè)網(wǎng)頁(yè)推廣鏈接怎么做
  • 做網(wǎng)站的費(fèi)屬于什么費(fèi)用搜索引擎優(yōu)化的五個(gè)方面
  • wordpress站內(nèi)短信谷歌商店paypal下載官網(wǎng)
  • 網(wǎng)站結(jié)構(gòu)設(shè)計(jì)淘寶直通車(chē)推廣怎么做