什么公司做網(wǎng)站出名國(guó)際新聞
ICCV 2023
創(chuàng)新點(diǎn)
HyperDiffusion:一種用隱式神經(jīng)場(chǎng)無(wú)條件生成建模的新方法。
HyperDiffusion直接對(duì)MLP權(quán)重進(jìn)行操作,并生成新的神經(jīng)隱式場(chǎng)。
HyperDiffusion是與維度無(wú)關(guān)的生成模型??梢詫?duì)不同維度的數(shù)據(jù)用相同的訓(xùn)練方法來(lái)合成高保真示例。
局限性
擴(kuò)散過(guò)程僅在優(yōu)化后的MLP參數(shù)上運(yùn)行,而不了解任何表面重建過(guò)程。
只用單個(gè)mlp擬合模型,如果加上grid會(huì)有更好的空間表達(dá)能力?
Pipeline
1.過(guò)擬合mlp,使得每個(gè)mlp精確表征一個(gè)模型,然后把網(wǎng)絡(luò)參數(shù)展平成一維向量。
2.將優(yōu)化后的一維向量送到擴(kuò)散模型中,這個(gè)模型無(wú)需任何先驗(yàn)知識(shí)。
3.訓(xùn)練完成后,可用隨機(jī)采樣的噪聲進(jìn)行反向擴(kuò)散過(guò)程來(lái)合成新的MLP,該權(quán)重對(duì)應(yīng)于新的神經(jīng)隱式場(chǎng)。
Per-Sample MLP Overfitting
對(duì)訓(xùn)練數(shù)據(jù)集中的不同樣本{Si,i=1,…,N}使用相同的MLP架構(gòu),但權(quán)重是專(zhuān)門(mén)針對(duì)每個(gè)數(shù)據(jù)樣本進(jìn)行優(yōu)化的。
指定模型i,以及模型的某一處位置x,可計(jì)算表面表示。
用bce損失優(yōu)化模。其中ogt是真實(shí)的占用率。
mlp架構(gòu)
包含3個(gè)隱藏層,每個(gè)隱藏層有128個(gè)神經(jīng)元,最終輸出占用值。
在3D空間內(nèi)隨機(jī)采樣100k個(gè)點(diǎn),將所有實(shí)例歸一化到[?0.5,0.5]3。
進(jìn)一步對(duì)mesh表面附近采樣100k個(gè)點(diǎn)。
兩組點(diǎn)組合起來(lái),這些占用用于監(jiān)督過(guò)度擬合過(guò)程。使用每批次2048點(diǎn)來(lái)優(yōu)化MLP,并使用BCE損失進(jìn)行800個(gè)epoch的訓(xùn)練,直到收斂,每個(gè)形狀大約需要6分鐘。
4D形狀
對(duì)于每個(gè)時(shí)間幀,按照3D形狀采樣對(duì)200k個(gè)點(diǎn)及其占用進(jìn)行采樣,對(duì)序列的每一幀重復(fù)采樣過(guò)程。
為每個(gè)序列優(yōu)化一組MLP權(quán)重和偏差來(lái)表示每個(gè)4D形狀。
參數(shù)初始化
通過(guò)一致的權(quán)重初始化來(lái)指導(dǎo)MLP優(yōu)化過(guò)程。
優(yōu)化第一組MLP權(quán)重和偏差θ1來(lái)表示第一個(gè)樣本S1,并使用θ1的優(yōu)化權(quán)重來(lái)初始化其余MLP。
消融實(shí)驗(yàn)也證明使用第一個(gè)MLP優(yōu)化后的參數(shù)進(jìn)行初始化會(huì)帶來(lái)更好的效果。
MLP Weight-Space Diffusion
Transformer已被證明可以在語(yǔ)言域中優(yōu)雅地處理長(zhǎng)向量,因此是MLP權(quán)重空間建模的合適選擇。
使用transformer T作為去噪網(wǎng)絡(luò),T 直接預(yù)測(cè)去噪的MLP權(quán)重,而不是噪聲。
對(duì)每個(gè)向量θ應(yīng)用標(biāo)準(zhǔn)高斯噪聲t次。然后將噪聲向量與t的正弦嵌入一起輸入到線性投影。
將投影與可學(xué)習(xí)的位置編碼向量相加。
transformer輸出去噪的token,經(jīng)過(guò)投影生成預(yù)測(cè)的去噪MLP權(quán)重w*。
使用去噪權(quán)重θ*和輸入權(quán)重θ之間的均方誤差(MSE)損失進(jìn)行訓(xùn)練。
Experiments
3層128維的MLP包含約36k個(gè)參數(shù),這些參數(shù)被展平并標(biāo)記化以進(jìn)行擴(kuò)散。批大小為32,初始學(xué)習(xí)率為2e?4,每200個(gè)epoch減少20%。訓(xùn)練約4000個(gè)epoch直到收斂,在單個(gè)A6000上需要約4 天。
對(duì)于3D形狀生成,使用ShapeNet數(shù)據(jù)集的汽車(chē)、椅子和飛機(jī)類(lèi)別。
對(duì)于4D形狀生成,使用DeformingThings4D中的16幀動(dòng)物動(dòng)畫(huà)序列。
對(duì)3D形狀使用243的分辨率,對(duì)4D形狀使用16×243的分辨率(最大空間分辨率,以便可以輕松地訓(xùn)練4D網(wǎng)格)。
遠(yuǎn)小于8i。
對(duì)于ShapeNet的3D形狀生成的比較。
生成3D模型的可視化對(duì)比?;隗w素的diffusion的結(jié)果分辨率相對(duì)較低,sota的PVD和DPC只能合成離散點(diǎn)云。
相比之下,我們的神經(jīng)場(chǎng)合成可以生成高質(zhì)量、連續(xù)的表面表示,很容易提取為網(wǎng)格。
4D動(dòng)畫(huà)合成的可視化對(duì)比。生成更詳細(xì)的動(dòng)畫(huà),而且實(shí)現(xiàn)了更平滑的時(shí)間一致性。