国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁(yè) > news >正文

山東淄博網(wǎng)站建設(shè)的公司百度快速排名化

山東淄博網(wǎng)站建設(shè)的公司,百度快速排名化,一個(gè)網(wǎng)站做多訪問量,中央農(nóng)村工作會(huì)議2023全文目錄 摘要 Abstract TDM SDM SNF 測(cè)試時(shí)的人物細(xì)節(jié)捕捉 主要貢獻(xiàn) 總結(jié) 摘要 本周閱讀了一篇2024年CVPR的關(guān)于高保真度、以人物為中心的圖像合成方法的論文:High-fidelity Person-centric Subject-to-Image Synthesis。該論文提出了一種名為Face-diffuser的…

目錄

摘要

Abstract

TDM

SDM?

SNF

測(cè)試時(shí)的人物細(xì)節(jié)捕捉

主要貢獻(xiàn)

總結(jié)


摘要

本周閱讀了一篇2024年CVPR的關(guān)于高保真度、以人物為中心的圖像合成方法的論文:High-fidelity Person-centric Subject-to-Image Synthesis。該論文提出了一種名為Face-diffuser的生成管道,旨在解決現(xiàn)有方法在訓(xùn)練不平衡和質(zhì)量妥協(xié)問題上的不足,通過獨(dú)立微調(diào)兩個(gè)專門的預(yù)訓(xùn)練擴(kuò)散模型來(lái)實(shí)現(xiàn)人物和語(yǔ)義場(chǎng)景的合成。

Abstract

This week, I read a paper from CVPR 2024 on a high-fidelity, person-centric image synthesis method titled "High-fidelity Person-centric Subject-to-Image Synthesis".??The paper proposes a generative pipeline called Face-diffuser, aimed at addressing the shortcomings of existing methods in terms of training imbalance and quality compromise. It achieves the synthesis of subjects and semantic scenes by independently fine-tuning two specialized pre-trained diffusion models.

論文鏈接:2311.10329 (arxiv.org)

作者:Yibin Wang, Weizhong Zhang, Jianwei Zheng, Cheng Jin

該論文以現(xiàn)有的人物到圖像合成方法面臨著訓(xùn)練不平衡和質(zhì)量妥協(xié)的問題,導(dǎo)致在聯(lián)合學(xué)習(xí)中無(wú)法優(yōu)化人物生成的質(zhì)量為研究背景 。為了解決上述問題,研究者提出了Face-diffuser,這是一個(gè)有效的協(xié)作生成管道,用于人物和語(yǔ)義場(chǎng)景的合成?。Face-diffuser首先獨(dú)立微調(diào)兩個(gè)基于穩(wěn)定擴(kuò)散的專門預(yù)訓(xùn)練擴(kuò)散模型:Text-driven Diffusion Model (TDM)和Subject-augmented Diffusion Model (SDM),分別用于場(chǎng)景和人物生成?。

效果圖如下所示:

Face-diffuser的采樣過程分為三個(gè)連續(xù)階段:

  1. 語(yǔ)義場(chǎng)景構(gòu)建:使用TDM構(gòu)建初步的語(yǔ)義場(chǎng)景。
  2. 人物-場(chǎng)景融合:TDM和SDM基于有效的協(xié)作機(jī)制Saliency-adaptive Noise Fusion(SNF)進(jìn)行協(xié)作,將人物融入場(chǎng)景中。
  3. 人物增強(qiáng):進(jìn)一步使用SDM來(lái)細(xì)化生成人物的質(zhì)量。

網(wǎng)絡(luò)結(jié)構(gòu)圖如下所示:

TDM

Stable diffusion (SD) is employed as our TDM. For semantic scene generation, given the semantic scene prompt c and the input image x, the VAE first encodes the x into a latent
representation z, perturbed by Gaussian noise ε to get z_{t} at t step during diffusion. Then the text encoder ψ maps semantic scene prompts c to conditional embeddings ψ(c) which
would be integrated into the denoiser \varepsilon _{\theta }, U-Net through cross-attention [8, 9, 29, 32]. The training objective is to?minimize the loss function as follows:

L_{noise}=E_{z,c,\varepsilon \sim N(0,1),t}\left \| \varepsilon -\varepsilon _{\theta }(z_{t},t,\psi _{c}) \right \|_{2}^{2}

During inference, a random noise z_{T} is sampled from a normal distribution N (0, 1), and this noise is iteratively denoised by the U-Net to produce the initial latent representation z_{0}.
Subsequently, the VAE decoder maps these latent codes back to pixel space to generate the final image.

穩(wěn)定擴(kuò)散(SD)被用作我們的文本驅(qū)動(dòng)擴(kuò)散模型(TDM)。對(duì)于語(yǔ)義場(chǎng)景生成,給定語(yǔ)義場(chǎng)景提示c和輸入圖像x,變分自編碼器(VAE)首先將x編碼成潛在表示z,通過高斯噪聲ε擾動(dòng)得到擴(kuò)散過程中第t步的z_{t}。然后,文本編碼器ψ將語(yǔ)義場(chǎng)景提示c映射到條件嵌入ψ(c),這些嵌入將通過交叉注意力機(jī)制[8, 9, 29, 32]整合到去噪器,U-Net中。訓(xùn)練目標(biāo)是最小化如下?lián)p失函數(shù):

L_{noise}=E_{z,c,\varepsilon \sim N(0,1),t}\left \| \varepsilon -\varepsilon _{\theta }(z_{t},t,\psi _{c}) \right \|_{2}^{2}

推理過程中,從標(biāo)準(zhǔn)正態(tài)分布 N(0,1)中采樣一個(gè)隨機(jī)噪聲 ?,并由 U-Net 迭代去噪以產(chǎn)生初始的潛在表示z_{0}。隨后,VAE 解碼器將這些潛在編碼映射回像素空間以生成最終圖像 。

SDM?

The SDM model tailored for subject generation is also based?on the SD model but includes an additional reference image condition r . Inspired by previous works like [17, 34], we
adopt a tuning-free approach by enhancing text prompts with visual features extracted from reference images. When given a text prompt and a list of reference images, we begin by
encoding the text prompt and reference subjects into embeddings using pre-trained CLIP text and image encoders, respectively. Following this, we replace the user-specific word embeddings with these visual features and input the resulting augmented embeddings into a multilayer perceptron (MLP). This process yields the final conditioning embeddings, denoted as \psi (c)_{aug} . The loss function of SDM closely resembles the one in Eq. (1), wi th the substitution of ψ ( c ) by \psi (c)_{aug}.
L_{noise}=E_{z,c,\varepsilon \sim N(0,1),t}\left \| \varepsilon -\varepsilon _{\theta }(z_{t},t,\psi _{(c)aug}) \right \|_{2}^{2}

為生成主體而定制的SDM模型也基于SD模型,但包括一個(gè)額外的參考圖像條件 r。受到像 [17, 34] 這樣的先前工作的啟發(fā),我們采用了一種無(wú)需調(diào)整的方法,通過從參考圖像中提取視覺特征來(lái)增強(qiáng)文本提示。當(dāng)給定一個(gè)文本提示和一系列參考圖像時(shí),我們首先使用預(yù)訓(xùn)練的CLIP文本和圖像編碼器分別對(duì)文本提示和參考主體進(jìn)行編碼,生成嵌入。接下來(lái),我們用這些視覺特征替換用戶特定的詞嵌入,并將生成的增強(qiáng)嵌入輸入到多層感知器(MLP)中。這個(gè)過程產(chǎn)生了最終的條件嵌入,記作\psi (c)_{aug}?。SDM的損失函數(shù)與方程(1)中的非常相似,只是將 ψ(c)替換為\psi (c)_{aug}

L_{noise}=E_{z,c,\varepsilon \sim N(0,1),t}\left \| \varepsilon -\varepsilon _{\theta }(z_{t},t,\psi _{(c)aug}) \right \|_{2}^{2}

SNF

請(qǐng)注意,響應(yīng)R_{T}R_{S }實(shí)際上評(píng)估了語(yǔ)義場(chǎng)景和參考圖像對(duì)預(yù)測(cè)噪聲中每個(gè)像素的影響,具有較大值的區(qū)域意味著這些條件對(duì)這些像素有顯著影響,這自然定義了TDM和STM在這一步的責(zé)任。

正式地,我們首先基于 R_{T}R_{S }定義以下兩個(gè)顯著性圖:

\Omega ^{T}=Smooth(Abs(R_{T}))

\Omega ^{S}=Smooth(Abs(R_{S}))

其中,操作符 Abs(?)計(jì)算輸入變量的絕對(duì)值,而 Smooth(?) 函數(shù)用于減少高頻噪聲,有效地消除局部異常值并增強(qiáng)相鄰區(qū)域的一致性。\Omega ^{T}\Omega ^{S}? 的實(shí)證驗(yàn)證,即它們的視覺化呈現(xiàn)在第4.3節(jié)。

給定 \Omega ^{T}? 和 \Omega ^{S}?,我們繼續(xù)通過比較這兩個(gè)顯著性圖來(lái)開發(fā)顯著性自適應(yīng)融合掩碼:

M=argmax(Softmax(\Omega ^{T}),Softmax(\Omega ^{S}))

這里的softmax操作至關(guān)重要,因?yàn)?\Omega ^{T}? 和 \Omega ^{S}? 的值可能有不同的量級(jí),它確保每個(gè)顯著性圖的總和保持不變,從而使它們可比較。掩碼 M?被用來(lái)定義協(xié)作機(jī)制,即 M_{ij}=0M_{ij}=1 的像素分別在生成過程中分配給TDM和SDM。

最后,可以通過以下過程獲得融合后的噪聲:

?\widehat{\varepsilon }=M\bigodot \widehat{\varepsilon }_{S}+(1-M)\bigodot \widehat{\varepsilon }_{T}

這里的 ⊙?表示哈達(dá)瑪積(即元素對(duì)應(yīng)的乘積),為了簡(jiǎn)化表示,我們省略了 t。需要注意的是,在每個(gè)采樣步驟中,兩個(gè)模型都以混合后的 z_{t}? 作為輸入,這有助于自動(dòng)實(shí)現(xiàn)兩個(gè)模型噪聲空間的語(yǔ)義對(duì)齊。?

SNF是一種基于分類器自由引導(dǎo)(CFG)的細(xì)粒度協(xié)作機(jī)制,可以無(wú)縫集成到DDIM采樣過程中 。在每一步中,SNF利用兩個(gè)模型的CFG響應(yīng)來(lái)生成一個(gè)適應(yīng)于顯著性的掩碼,自動(dòng)分配區(qū)域給它們進(jìn)行合成。

測(cè)試時(shí)的人物細(xì)節(jié)捕捉

為了在測(cè)試時(shí)捕獲并保留參考圖像中給出的人物細(xì)節(jié),Face-diffuser讓SDM中的CFG響應(yīng)成為有無(wú)參考人物圖像之間的噪聲差異,從而忽略文本條件的影響 。這種設(shè)置無(wú)疑指導(dǎo)SDM將顯著性僅集中在與人物相關(guān)的區(qū)域,從而實(shí)現(xiàn)更高精度的人物生成 。

主要貢獻(xiàn)

  1. 提出的Face-diffuser打破了現(xiàn)有人物到圖像生成方法中的訓(xùn)練不平衡和質(zhì)量妥協(xié)問題?。
  2. 通過有效的協(xié)作機(jī)制,Face-diffuser能夠在測(cè)試時(shí)生成高質(zhì)量樣本,人物和語(yǔ)義場(chǎng)景生成器在不同時(shí)間步驟和不同圖像中負(fù)責(zé)不同區(qū)域,實(shí)現(xiàn)靈活的演變合作?。

?

總結(jié)

Face-diffuser通過獨(dú)立微調(diào)和細(xì)粒度協(xié)作機(jī)制,顯著提高了人物和語(yǔ)義場(chǎng)景生成的高保真度。這種方法為解決現(xiàn)有人物到圖像合成方法中的問題提供了一種有效的解決方案,并為未來(lái)的研究和應(yīng)用提供了新的方向 。

下周將繼續(xù)學(xué)習(xí)擴(kuò)散生成模型有關(guān)內(nèi)容。

如有錯(cuò)誤,請(qǐng)各位大佬指出,謝謝!

http://m.aloenet.com.cn/news/42398.html

相關(guān)文章:

  • 行業(yè)資訊網(wǎng)seo推廣軟件
  • 網(wǎng)頁(yè)設(shè)計(jì)實(shí)訓(xùn)報(bào)告代碼新手學(xué)seo
  • 小型公眾號(hào)開發(fā)seo網(wǎng)站推廣經(jīng)理
  • 武漢漢口做網(wǎng)站公司訊展網(wǎng)站優(yōu)化推廣
  • 湖北省建設(shè)質(zhì)量安全協(xié)會(huì)網(wǎng)站seo網(wǎng)站推廣專員招聘
  • 網(wǎng)站在阿里云備案免費(fèi)數(shù)據(jù)統(tǒng)計(jì)網(wǎng)站
  • 禮品公司網(wǎng)站建設(shè)好的競(jìng)價(jià)托管公司
  • 天津建設(shè)工程信息網(wǎng)專家sem 優(yōu)化價(jià)格
  • 網(wǎng)站上添加子欄目濰坊百度網(wǎng)站排名
  • 深圳網(wǎng)站建設(shè)公司是選擇寧波seo優(yōu)化公司
  • 備案上個(gè)人網(wǎng)站和企業(yè)網(wǎng)站的區(qū)別百度sem是什么意思
  • wordpress開啟多站點(diǎn)功網(wǎng)絡(luò)營(yíng)銷有哪些特點(diǎn)
  • 網(wǎng)站優(yōu)化 代碼優(yōu)化互聯(lián)網(wǎng)優(yōu)化
  • 如何為網(wǎng)站開發(fā)app中公教育培訓(xùn)機(jī)構(gòu)官網(wǎng)
  • 便宜網(wǎng)站建設(shè)公司如何建立自己的網(wǎng)站平臺(tái)
  • 微信怎么做捐錢的網(wǎng)站網(wǎng)站推廣費(fèi)用
  • 一站式裝修平臺(tái)杭州seo論壇
  • 網(wǎng)頁(yè)設(shè)計(jì)網(wǎng)站建設(shè)過程報(bào)告免費(fèi)網(wǎng)站入口在哪
  • 石碣仿做網(wǎng)站seo技術(shù)分享博客
  • 知名跟單網(wǎng)站做信號(hào)提供方女教師網(wǎng)課入06654侵錄屏
  • 安徽做網(wǎng)站免費(fèi)seo排名軟件
  • 石家莊便宜網(wǎng)站制作html底部友情鏈接代碼
  • 做動(dòng)態(tài)網(wǎng)站的軟件有哪些最近軍事新聞熱點(diǎn)大事件
  • 為什么做民宿網(wǎng)站百度競(jìng)價(jià)排名公式
  • 網(wǎng)站開發(fā)設(shè)計(jì)定制百度谷歌seo優(yōu)化
  • 開發(fā)一個(gè)網(wǎng)站測(cè)試要怎么做的seo平臺(tái)優(yōu)化服務(wù)
  • 上海網(wǎng)站建設(shè)品ui培訓(xùn)
  • 網(wǎng)站集約化建設(shè)情況匯報(bào)網(wǎng)絡(luò)營(yíng)銷咨詢服務(wù)
  • 做網(wǎng)站域名 空間廣州競(jìng)價(jià)托管
  • 學(xué)校網(wǎng)站群建設(shè)方案找個(gè)網(wǎng)站