當(dāng)前位置：首頁(yè) > news >正文

山東淄博網(wǎng)站建設(shè)的公司百度快速排名化

news 2025/7/6 8:02:13

山東淄博網(wǎng)站建設(shè)的公司,百度快速排名化,一個(gè)網(wǎng)站做多訪問量,中央農(nóng)村工作會(huì)議2023全文目錄摘要 Abstract TDM SDM SNF 測(cè)試時(shí)的人物細(xì)節(jié)捕捉主要貢獻(xiàn) 總結(jié) 摘要本周閱讀了一篇2024年CVPR的關(guān)于高保真度、以人物為中心的圖像合成方法的論文：High-fidelity Person-centric Subject-to-Image Synthesis。該論文提出了一種名為Face-diffuser的…

摘要

Abstract

TDM

SDM?

SNF

測(cè)試時(shí)的人物細(xì)節(jié)捕捉

主要貢獻(xiàn)

總結(jié)

摘要

本周閱讀了一篇2024年CVPR的關(guān)于高保真度、以人物為中心的圖像合成方法的論文：High-fidelity Person-centric Subject-to-Image Synthesis。該論文提出了一種名為Face-diffuser的生成管道，旨在解決現(xiàn)有方法在訓(xùn)練不平衡和質(zhì)量妥協(xié)問題上的不足，通過獨(dú)立微調(diào)兩個(gè)專門的預(yù)訓(xùn)練擴(kuò)散模型來(lái)實(shí)現(xiàn)人物和語(yǔ)義場(chǎng)景的合成。

Abstract

This week, I read a paper from CVPR 2024 on a high-fidelity, person-centric image synthesis method titled "High-fidelity Person-centric Subject-to-Image Synthesis".??The paper proposes a generative pipeline called Face-diffuser, aimed at addressing the shortcomings of existing methods in terms of training imbalance and quality compromise. It achieves the synthesis of subjects and semantic scenes by independently fine-tuning two specialized pre-trained diffusion models.

論文鏈接：2311.10329 (arxiv.org)

作者：Yibin Wang, Weizhong Zhang, Jianwei Zheng, Cheng Jin

該論文以現(xiàn)有的人物到圖像合成方法面臨著訓(xùn)練不平衡和質(zhì)量妥協(xié)的問題，導(dǎo)致在聯(lián)合學(xué)習(xí)中無(wú)法優(yōu)化人物生成的質(zhì)量為研究背景。為了解決上述問題，研究者提出了Face-diffuser，這是一個(gè)有效的協(xié)作生成管道，用于人物和語(yǔ)義場(chǎng)景的合成?。Face-diffuser首先獨(dú)立微調(diào)兩個(gè)基于穩(wěn)定擴(kuò)散的專門預(yù)訓(xùn)練擴(kuò)散模型：Text-driven Diffusion Model (TDM)和Subject-augmented Diffusion Model (SDM)，分別用于場(chǎng)景和人物生成?。

效果圖如下所示：

Face-diffuser的采樣過程分為三個(gè)連續(xù)階段：

語(yǔ)義場(chǎng)景構(gòu)建：使用TDM構(gòu)建初步的語(yǔ)義場(chǎng)景。
人物-場(chǎng)景融合：TDM和SDM基于有效的協(xié)作機(jī)制Saliency-adaptive Noise Fusion（SNF）進(jìn)行協(xié)作，將人物融入場(chǎng)景中。
人物增強(qiáng)：進(jìn)一步使用SDM來(lái)細(xì)化生成人物的質(zhì)量。

網(wǎng)絡(luò)結(jié)構(gòu)圖如下所示：

TDM

Stable diffusion (SD) is employed as our TDM. For semantic scene generation, given the semantic scene prompt c and the input image x, the VAE first encodes the x into a latent
representation z, perturbed by Gaussian noise ε to get $z_{t}$ at t step during diffusion. Then the text encoder ψ maps semantic scene prompts c to conditional embeddings ψ(c) which
would be integrated into the denoiser $\varepsilon _{\theta }$ , U-Net through cross-attention [8, 9, 29, 32]. The training objective is to?minimize the loss function as follows:

$L_{noise}=E_{z,c,\varepsilon \sim N(0,1),t}\left \| \varepsilon -\varepsilon _{\theta }(z_{t},t,\psi _{c}) \right \|_{2}^{2}$

During inference, a random noise $z_{T}$ is sampled from a normal distribution N (0, 1), and this noise is iteratively denoised by the U-Net to produce the initial latent representation $z_{0}$ .
Subsequently, the VAE decoder maps these latent codes back to pixel space to generate the final image.

穩(wěn)定擴(kuò)散（SD）被用作我們的文本驅(qū)動(dòng)擴(kuò)散模型（TDM）。對(duì)于語(yǔ)義場(chǎng)景生成，給定語(yǔ)義場(chǎng)景提示c和輸入圖像x，變分自編碼器（VAE）首先將x編碼成潛在表示z，通過高斯噪聲ε擾動(dòng)得到擴(kuò)散過程中第t步的 $z_{t}$ 。然后，文本編碼器ψ將語(yǔ)義場(chǎng)景提示c映射到條件嵌入ψ(c)，這些嵌入將通過交叉注意力機(jī)制[8, 9, 29, 32]整合到去噪器，U-Net中。訓(xùn)練目標(biāo)是最小化如下?lián)p失函數(shù)：

$L_{noise}=E_{z,c,\varepsilon \sim N(0,1),t}\left \| \varepsilon -\varepsilon _{\theta }(z_{t},t,\psi _{c}) \right \|_{2}^{2}$

推理過程中，從標(biāo)準(zhǔn)正態(tài)分布 N(0,1)中采樣一個(gè)隨機(jī)噪聲 ?，并由 U-Net 迭代去噪以產(chǎn)生初始的潛在表示 $z_{0}$ 。隨后，VAE 解碼器將這些潛在編碼映射回像素空間以生成最終圖像。

SDM?

The SDM model tailored for subject generation is also based?on the SD model but includes an additional reference image condition r . Inspired by previous works like [17, 34], we

adopt a tuning-free approach by enhancing text prompts with visual features extracted from reference images. When given a text prompt and a list of reference images, we begin by

encoding the text prompt and reference subjects into embeddings using pre-trained CLIP text and image encoders, respectively. Following this, we replace the user-specific word embeddings with these visual features and input the resulting augmented embeddings into a multilayer perceptron (MLP). This process yields the final conditioning embeddings, denoted as $\psi (c)_{aug}$ . The loss function of SDM closely resembles the one in Eq. (1), wi th the substitution of ψ ( c ) by $\psi (c)_{aug}$ .

$L_{noise}=E_{z,c,\varepsilon \sim N(0,1),t}\left \| \varepsilon -\varepsilon _{\theta }(z_{t},t,\psi _{(c)aug}) \right \|_{2}^{2}$

為生成主體而定制的SDM模型也基于SD模型，但包括一個(gè)額外的參考圖像條件 r。受到像 [17, 34] 這樣的先前工作的啟發(fā)，我們采用了一種無(wú)需調(diào)整的方法，通過從參考圖像中提取視覺特征來(lái)增強(qiáng)文本提示。當(dāng)給定一個(gè)文本提示和一系列參考圖像時(shí)，我們首先使用預(yù)訓(xùn)練的CLIP文本和圖像編碼器分別對(duì)文本提示和參考主體進(jìn)行編碼，生成嵌入。接下來(lái)，我們用這些視覺特征替換用戶特定的詞嵌入，并將生成的增強(qiáng)嵌入輸入到多層感知器（MLP）中。這個(gè)過程產(chǎn)生了最終的條件嵌入，記作 $\psi (c)_{aug}$ ?。SDM的損失函數(shù)與方程（1）中的非常相似，只是將 ψ(c)替換為 $\psi (c)_{aug}$ 。

$L_{noise}=E_{z,c,\varepsilon \sim N(0,1),t}\left \| \varepsilon -\varepsilon _{\theta }(z_{t},t,\psi _{(c)aug}) \right \|_{2}^{2}$

SNF

請(qǐng)注意，響應(yīng) $R_{T}$ 和 $R_{S }$ 實(shí)際上評(píng)估了語(yǔ)義場(chǎng)景和參考圖像對(duì)預(yù)測(cè)噪聲中每個(gè)像素的影響，具有較大值的區(qū)域意味著這些條件對(duì)這些像素有顯著影響，這自然定義了TDM和STM在這一步的責(zé)任。

正式地，我們首先基于 $R_{T}$ 和 $R_{S }$ 定義以下兩個(gè)顯著性圖：

$\Omega ^{T}=Smooth(Abs(R_{T}))$

$\Omega ^{S}=Smooth(Abs(R_{S}))$

其中，操作符 Abs(?)計(jì)算輸入變量的絕對(duì)值，而 Smooth(?) 函數(shù)用于減少高頻噪聲，有效地消除局部異常值并增強(qiáng)相鄰區(qū)域的一致性。 $\Omega ^{T}$ 和 $\Omega ^{S}$ ? 的實(shí)證驗(yàn)證，即它們的視覺化呈現(xiàn)在第4.3節(jié)。

給定 $\Omega ^{T}$ ? 和 $\Omega ^{S}$ ?，我們繼續(xù)通過比較這兩個(gè)顯著性圖來(lái)開發(fā)顯著性自適應(yīng)融合掩碼：

$M=argmax(Softmax(\Omega ^{T}),Softmax(\Omega ^{S}))$

這里的softmax操作至關(guān)重要，因?yàn)? $\Omega ^{T}$ ? 和 $\Omega ^{S}$ ? 的值可能有不同的量級(jí)，它確保每個(gè)顯著性圖的總和保持不變，從而使它們可比較。掩碼 M?被用來(lái)定義協(xié)作機(jī)制，即 $M_{ij}=0$ 和 $M_{ij}=1$ 的像素分別在生成過程中分配給TDM和SDM。

最后，可以通過以下過程獲得融合后的噪聲：

? $\widehat{\varepsilon }=M\bigodot \widehat{\varepsilon }_{S}+(1-M)\bigodot \widehat{\varepsilon }_{T}$

這里的 ⊙?表示哈達(dá)瑪積（即元素對(duì)應(yīng)的乘積），為了簡(jiǎn)化表示，我們省略了 t。需要注意的是，在每個(gè)采樣步驟中，兩個(gè)模型都以混合后的 $z_{t}$ ? 作為輸入，這有助于自動(dòng)實(shí)現(xiàn)兩個(gè)模型噪聲空間的語(yǔ)義對(duì)齊。?

SNF是一種基于分類器自由引導(dǎo)（CFG）的細(xì)粒度協(xié)作機(jī)制，可以無(wú)縫集成到DDIM采樣過程中。在每一步中，SNF利用兩個(gè)模型的CFG響應(yīng)來(lái)生成一個(gè)適應(yīng)于顯著性的掩碼，自動(dòng)分配區(qū)域給它們進(jìn)行合成。

測(cè)試時(shí)的人物細(xì)節(jié)捕捉

為了在測(cè)試時(shí)捕獲并保留參考圖像中給出的人物細(xì)節(jié)，Face-diffuser讓SDM中的CFG響應(yīng)成為有無(wú)參考人物圖像之間的噪聲差異，從而忽略文本條件的影響。這種設(shè)置無(wú)疑指導(dǎo)SDM將顯著性僅集中在與人物相關(guān)的區(qū)域，從而實(shí)現(xiàn)更高精度的人物生成。

主要貢獻(xiàn)

提出的Face-diffuser打破了現(xiàn)有人物到圖像生成方法中的訓(xùn)練不平衡和質(zhì)量妥協(xié)問題?。
通過有效的協(xié)作機(jī)制，Face-diffuser能夠在測(cè)試時(shí)生成高質(zhì)量樣本，人物和語(yǔ)義場(chǎng)景生成器在不同時(shí)間步驟和不同圖像中負(fù)責(zé)不同區(qū)域，實(shí)現(xiàn)靈活的演變合作?。

總結(jié)

Face-diffuser通過獨(dú)立微調(diào)和細(xì)粒度協(xié)作機(jī)制，顯著提高了人物和語(yǔ)義場(chǎng)景生成的高保真度。這種方法為解決現(xiàn)有人物到圖像合成方法中的問題提供了一種有效的解決方案，并為未來(lái)的研究和應(yīng)用提供了新的方向。

下周將繼續(xù)學(xué)習(xí)擴(kuò)散生成模型有關(guān)內(nèi)容。

如有錯(cuò)誤，請(qǐng)各位大佬指出，謝謝！

查看全文

http://m.aloenet.com.cn/news/42398.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

山東淄博網(wǎng)站建設(shè)的公司百度快速排名化

摘要

Abstract

TDM

SDM?

SNF

測(cè)試時(shí)的人物細(xì)節(jié)捕捉

主要貢獻(xiàn)

總結(jié)

相關(guān)文章：