山東淄博網(wǎng)站建設(shè)的公司百度快速排名化
目錄
摘要
Abstract
TDM
SDM?
SNF
測(cè)試時(shí)的人物細(xì)節(jié)捕捉
主要貢獻(xiàn)
總結(jié)
摘要
本周閱讀了一篇2024年CVPR的關(guān)于高保真度、以人物為中心的圖像合成方法的論文:High-fidelity Person-centric Subject-to-Image Synthesis。該論文提出了一種名為Face-diffuser的生成管道,旨在解決現(xiàn)有方法在訓(xùn)練不平衡和質(zhì)量妥協(xié)問題上的不足,通過獨(dú)立微調(diào)兩個(gè)專門的預(yù)訓(xùn)練擴(kuò)散模型來(lái)實(shí)現(xiàn)人物和語(yǔ)義場(chǎng)景的合成。
Abstract
This week, I read a paper from CVPR 2024 on a high-fidelity, person-centric image synthesis method titled "High-fidelity Person-centric Subject-to-Image Synthesis".??The paper proposes a generative pipeline called Face-diffuser, aimed at addressing the shortcomings of existing methods in terms of training imbalance and quality compromise. It achieves the synthesis of subjects and semantic scenes by independently fine-tuning two specialized pre-trained diffusion models.
論文鏈接:2311.10329 (arxiv.org)
作者:Yibin Wang, Weizhong Zhang, Jianwei Zheng, Cheng Jin
該論文以現(xiàn)有的人物到圖像合成方法面臨著訓(xùn)練不平衡和質(zhì)量妥協(xié)的問題,導(dǎo)致在聯(lián)合學(xué)習(xí)中無(wú)法優(yōu)化人物生成的質(zhì)量為研究背景 。為了解決上述問題,研究者提出了Face-diffuser,這是一個(gè)有效的協(xié)作生成管道,用于人物和語(yǔ)義場(chǎng)景的合成?。Face-diffuser首先獨(dú)立微調(diào)兩個(gè)基于穩(wěn)定擴(kuò)散的專門預(yù)訓(xùn)練擴(kuò)散模型:Text-driven Diffusion Model (TDM)和Subject-augmented Diffusion Model (SDM),分別用于場(chǎng)景和人物生成?。
效果圖如下所示:
Face-diffuser的采樣過程分為三個(gè)連續(xù)階段:
- 語(yǔ)義場(chǎng)景構(gòu)建:使用TDM構(gòu)建初步的語(yǔ)義場(chǎng)景。
- 人物-場(chǎng)景融合:TDM和SDM基于有效的協(xié)作機(jī)制Saliency-adaptive Noise Fusion(SNF)進(jìn)行協(xié)作,將人物融入場(chǎng)景中。
- 人物增強(qiáng):進(jìn)一步使用SDM來(lái)細(xì)化生成人物的質(zhì)量。
網(wǎng)絡(luò)結(jié)構(gòu)圖如下所示:
TDM
Stable diffusion (SD) is employed as our TDM. For semantic scene generation, given the semantic scene prompt c and the input image x, the VAE first encodes the x into a latent
representation z, perturbed by Gaussian noise ε to getat t step during diffusion. Then the text encoder ψ maps semantic scene prompts c to conditional embeddings ψ(c) which
would be integrated into the denoiser, U-Net through cross-attention [8, 9, 29, 32]. The training objective is to?minimize the loss function as follows:
During inference, a random noise
is sampled from a normal distribution N (0, 1), and this noise is iteratively denoised by the U-Net to produce the initial latent representation
.
Subsequently, the VAE decoder maps these latent codes back to pixel space to generate the final image.
穩(wěn)定擴(kuò)散(SD)被用作我們的文本驅(qū)動(dòng)擴(kuò)散模型(TDM)。對(duì)于語(yǔ)義場(chǎng)景生成,給定語(yǔ)義場(chǎng)景提示c和輸入圖像x,變分自編碼器(VAE)首先將x編碼成潛在表示z,通過高斯噪聲ε擾動(dòng)得到擴(kuò)散過程中第t步的。然后,文本編碼器ψ將語(yǔ)義場(chǎng)景提示c映射到條件嵌入ψ(c),這些嵌入將通過交叉注意力機(jī)制[8, 9, 29, 32]整合到去噪器,U-Net中。訓(xùn)練目標(biāo)是最小化如下?lián)p失函數(shù):
推理過程中,從標(biāo)準(zhǔn)正態(tài)分布 N(0,1)中采樣一個(gè)隨機(jī)噪聲 ?,并由 U-Net 迭代去噪以產(chǎn)生初始的潛在表示。隨后,VAE 解碼器將這些潛在編碼映射回像素空間以生成最終圖像 。
SDM?
The SDM model tailored for subject generation is also based?on the SD model but includes an additional reference image condition r . Inspired by previous works like [17, 34], weadopt a tuning-free approach by enhancing text prompts with visual features extracted from reference images. When given a text prompt and a list of reference images, we begin byencoding the text prompt and reference subjects into embeddings using pre-trained CLIP text and image encoders, respectively. Following this, we replace the user-specific word embeddings with these visual features and input the resulting augmented embeddings into a multilayer perceptron (MLP). This process yields the final conditioning embeddings, denoted as. The loss function of SDM closely resembles the one in Eq. (1), wi th the substitution of ψ ( c ) by
.
![]()
為生成主體而定制的SDM模型也基于SD模型,但包括一個(gè)額外的參考圖像條件 r。受到像 [17, 34] 這樣的先前工作的啟發(fā),我們采用了一種無(wú)需調(diào)整的方法,通過從參考圖像中提取視覺特征來(lái)增強(qiáng)文本提示。當(dāng)給定一個(gè)文本提示和一系列參考圖像時(shí),我們首先使用預(yù)訓(xùn)練的CLIP文本和圖像編碼器分別對(duì)文本提示和參考主體進(jìn)行編碼,生成嵌入。接下來(lái),我們用這些視覺特征替換用戶特定的詞嵌入,并將生成的增強(qiáng)嵌入輸入到多層感知器(MLP)中。這個(gè)過程產(chǎn)生了最終的條件嵌入,記作?。SDM的損失函數(shù)與方程(1)中的非常相似,只是將 ψ(c)替換為
。
SNF
請(qǐng)注意,響應(yīng)和
實(shí)際上評(píng)估了語(yǔ)義場(chǎng)景和參考圖像對(duì)預(yù)測(cè)噪聲中每個(gè)像素的影響,具有較大值的區(qū)域意味著這些條件對(duì)這些像素有顯著影響,這自然定義了TDM和STM在這一步的責(zé)任。
正式地,我們首先基于 和
定義以下兩個(gè)顯著性圖:
其中,操作符 Abs(?)計(jì)算輸入變量的絕對(duì)值,而 Smooth(?) 函數(shù)用于減少高頻噪聲,有效地消除局部異常值并增強(qiáng)相鄰區(qū)域的一致性。和
? 的實(shí)證驗(yàn)證,即它們的視覺化呈現(xiàn)在第4.3節(jié)。
給定 ? 和
?,我們繼續(xù)通過比較這兩個(gè)顯著性圖來(lái)開發(fā)顯著性自適應(yīng)融合掩碼:
這里的softmax操作至關(guān)重要,因?yàn)?? 和
? 的值可能有不同的量級(jí),它確保每個(gè)顯著性圖的總和保持不變,從而使它們可比較。掩碼 M?被用來(lái)定義協(xié)作機(jī)制,即
和
的像素分別在生成過程中分配給TDM和SDM。
最后,可以通過以下過程獲得融合后的噪聲:
?
這里的 ⊙?表示哈達(dá)瑪積(即元素對(duì)應(yīng)的乘積),為了簡(jiǎn)化表示,我們省略了 t。需要注意的是,在每個(gè)采樣步驟中,兩個(gè)模型都以混合后的 ? 作為輸入,這有助于自動(dòng)實(shí)現(xiàn)兩個(gè)模型噪聲空間的語(yǔ)義對(duì)齊。?
SNF是一種基于分類器自由引導(dǎo)(CFG)的細(xì)粒度協(xié)作機(jī)制,可以無(wú)縫集成到DDIM采樣過程中 。在每一步中,SNF利用兩個(gè)模型的CFG響應(yīng)來(lái)生成一個(gè)適應(yīng)于顯著性的掩碼,自動(dòng)分配區(qū)域給它們進(jìn)行合成。
測(cè)試時(shí)的人物細(xì)節(jié)捕捉
為了在測(cè)試時(shí)捕獲并保留參考圖像中給出的人物細(xì)節(jié),Face-diffuser讓SDM中的CFG響應(yīng)成為有無(wú)參考人物圖像之間的噪聲差異,從而忽略文本條件的影響 。這種設(shè)置無(wú)疑指導(dǎo)SDM將顯著性僅集中在與人物相關(guān)的區(qū)域,從而實(shí)現(xiàn)更高精度的人物生成 。
主要貢獻(xiàn)
- 提出的Face-diffuser打破了現(xiàn)有人物到圖像生成方法中的訓(xùn)練不平衡和質(zhì)量妥協(xié)問題?。
- 通過有效的協(xié)作機(jī)制,Face-diffuser能夠在測(cè)試時(shí)生成高質(zhì)量樣本,人物和語(yǔ)義場(chǎng)景生成器在不同時(shí)間步驟和不同圖像中負(fù)責(zé)不同區(qū)域,實(shí)現(xiàn)靈活的演變合作?。
?
總結(jié)
Face-diffuser通過獨(dú)立微調(diào)和細(xì)粒度協(xié)作機(jī)制,顯著提高了人物和語(yǔ)義場(chǎng)景生成的高保真度。這種方法為解決現(xiàn)有人物到圖像合成方法中的問題提供了一種有效的解決方案,并為未來(lái)的研究和應(yīng)用提供了新的方向 。
下周將繼續(xù)學(xué)習(xí)擴(kuò)散生成模型有關(guān)內(nèi)容。
如有錯(cuò)誤,請(qǐng)各位大佬指出,謝謝!