国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁 > news >正文

png圖片可以做網(wǎng)站圖標(biāo)嗎建設(shè)網(wǎng)站需要多少錢

png圖片可以做網(wǎng)站圖標(biāo)嗎,建設(shè)網(wǎng)站需要多少錢,組建公司網(wǎng)絡(luò)方案,蘇寧易購商城文章匯總 存在的問題 原文:具有圖像特定知識的圖像條件提示符號在提升類嵌入分布方面的能力較差。 個人理解:單純把"a photo of {class}"這種提示模版作為輸入是不利于text encoder學(xué)習(xí)的 動機(jī) 在可學(xué)習(xí)的提示和每一類的文本知識之間建立…

文章匯總

存在的問題

原文:具有圖像特定知識的圖像條件提示符號在提升類嵌入分布方面的能力較差。

個人理解:單純把"a photo of {class}"這種提示模版作為輸入是不利于text encoder學(xué)習(xí)的

動機(jī)

可學(xué)習(xí)的提示和每一類的文本知識之間建立一種動態(tài)關(guān)系,以增強(qiáng)其辨別能力。

解決辦法

之前方法的回顧

CoOp

CoCoOp

KgCoOp(本人覺得這是這篇文章的baseline)

方法框架圖(對比KgCoOp)

對比KgCoOp,其實你會發(fā)現(xiàn)就中間的text encoder進(jìn)行了改造

流程解讀

中間的Text Encoder的改進(jìn)

輸入端

可學(xué)習(xí)文本標(biāo)記 T = [ t 1 , t 2 , . . . , t M ] T=[t_1,t_2,...,t_M] T=[t1?,t2?,...,tM?]和hand-crafted轉(zhuǎn)化而來的類token C C C

Text Encoder的輸入文本令牌: F 0 = { T , C } F_0=\{T,C\} F0?={T,C}

其中 C = { c i } i N c C=\{c_i\}^{N_c}_i C={ci?}iNc??為第 i i i類的向量化文本令牌, N c N_c Nc?為類的個數(shù)

特征轉(zhuǎn)換

對于前 l l l層:

i i i層的文本令牌 F i ( i ≤ l ) F_i(i\le l) Fi?(il)定義為:

對于從第 l l l層開始就不同了

將之前放 [ t 1 , t 2 , . . . , t M ] [t_1,t_2,...,t_M] [t1?,t2?,...,tM?]的位置換成了由 T ( ? ) T(\cdot) T(?)生成的 [ T 1 , T 2 , . . . , T M ] [T_1,T_2,...,T_M] [T1?,T2?,...,TM?]

之后還是

對于效果更好的思考

個人認(rèn)為,直接隨機(jī)初始化的Learnable Prompt很難跟hand-crafted的prompt建立起很好的聯(lián)系。但是hand-crafted的prompt經(jīng)過Text Encoder和 T ( ? ) T(\cdot) T(?)之后更容易被Text Encoder接收。

那為什么我們還要在前 l l l層加入隨機(jī)初始化的Learnable Prompt呢?這就有點像maple那樣, l l l層像一個“適應(yīng)期”,使得模型知道要與 [ t 1 , t 2 , . . . , t M ] [t_1,t_2,...,t_M] [t1?,t2?,...,tM?]**的位置建立起聯(lián)系。**得模型“適應(yīng)”好了之后,我們丟到 [ t 1 , t 2 , . . . , t M ] [t_1,t_2,...,t_M] [t1?,t2?,...,tM?]的位置上的Prompt,換成我們特意提取的特征由 T ( ? ) T(\cdot) T(?)生成的 [ T 1 , T 2 , . . . , T M ] [T_1,T_2,...,T_M] [T1?,T2?,...,TM?]

摘要

提示調(diào)優(yōu)是使預(yù)訓(xùn)練的視覺語言模型(VLM)適應(yīng)各種下游任務(wù)的一種有價值的技術(shù)?;贑oOp的最新進(jìn)展提出了一組可學(xué)習(xí)的域共享或圖像條件文本令牌,以促進(jìn)特定任務(wù)文本分類器的生成。然而,這些文本標(biāo)記對于不可見的域具有有限的泛化能力,因為它們不能動態(tài)地調(diào)整以適應(yīng)測試類的分布。為了解決這個問題,我們提出了一種新的基于文本的類感知提示調(diào)優(yōu)(TCP),它顯式地結(jié)合了關(guān)于類的先驗知識,以增強(qiáng)它們的可辨別性。TCP的關(guān)鍵概念包括利用文本知識嵌入(TKE)將類級別文本知識的高泛化性映射到類感知的文本令牌。通過無縫地將這些類感知提示集成到Text Encoder中,可以生成一個動態(tài)的類感知分類器,以增強(qiáng)對不可見域的可辨別性。在推理期間,TKE動態(tài)地生成與不可見類相關(guān)的類感知提示。綜合評價表明,TKE可作為即插即用模塊與現(xiàn)有方法輕松結(jié)合。此外,TCP在需要更少的訓(xùn)練時間的情況下始終實現(xiàn)卓越的性能。

1. 介紹

圖1所示。與現(xiàn)有框架的比較。(a)域共享提示調(diào)優(yōu)在訓(xùn)練域和測試域之間應(yīng)用相同的可學(xué)習(xí)提示。(b)圖像條件提示調(diào)整將圖像嵌入與可學(xué)習(xí)提示相結(jié)合;類感知提示調(diào)優(yōu)通過類感知提示將類級別的文本嵌入注入到文本編碼器中。

大規(guī)模圖像-文本對能夠訓(xùn)練出具有強(qiáng)大泛化能力的視覺語言模型(VLM),用于各種下游任務(wù)[2,33]。然而,從頭開始訓(xùn)練這些模型需要一個帶有標(biāo)記圖像的龐大數(shù)據(jù)集,這使得很難將它們直接應(yīng)用于具有較少圖像的下游任務(wù)。為了解決這個問題,我們推薦了三種常用的技術(shù):全微調(diào)[30]、提示調(diào)優(yōu)[50]、適配器[12]和LoRA[15]。其中,提示調(diào)優(yōu)是一個簡單而有效的框架,它將VLM的基本通用知識傳遞給下游任務(wù)。

提示調(diào)優(yōu)(Prompt tuning)是一種將可學(xué)習(xí)的文本標(biāo)記與類標(biāo)記結(jié)合起來生成判別文本分類器的技術(shù),稱為上下文優(yōu)化(Context Optimization, CoOp)[50]。最近,各種基于合作的方法[4,5,17,18,22,31,40,43,50,52]推斷出訓(xùn)練域和測試域之間的域共享提示令牌(圖1(a))。然而,由于領(lǐng)域共享的提示令牌來自標(biāo)記的訓(xùn)練圖像,當(dāng)面對未見過的測試類時,它們的性能不是最優(yōu)的。為了增強(qiáng)可學(xué)習(xí)提示符號的泛化能力,[45,49]提出了融合圖像特征和可學(xué)習(xí)標(biāo)記符號的圖像條件提示(圖1(b))。值得注意的是,**圖像條件文本標(biāo)記封裝了每個圖像的特定知識,特別是對于測試圖像,從而使其更容易泛化到看不見的測試圖像。**然而,具有圖像特定知識的圖像條件提示符號在提升類嵌入分布方面的能力較差。總而言之,由域共享和圖像條件文本令牌生成的分類器對未見過的類表現(xiàn)出次優(yōu)性能,這主要是因為它們無法顯式地對類分布建模。因此,必須在可學(xué)習(xí)的提示和每一類的文本知識之間建立一種動態(tài)關(guān)系,以增強(qiáng)其辨別能力

凍結(jié)的CLIP與手工制作的提示符相結(jié)合,展示了對新類的強(qiáng)大泛化能力,使其成為每個類的先驗文本知識的有價值的來源。通過將類級文本知識與可學(xué)習(xí)提示相關(guān)聯(lián),可以形成類感知提示,從而提高文本分類器的判別能力。為了實現(xiàn)這一點,我們使用一個嵌入模塊將類感知的文本知識投影到類感知的提示令牌中,如圖1?所示。由此產(chǎn)生的類感知提示包含特定于每個類的先前文本知識,賦予生成的文本分類器更高的判別能力。此外,類感知提示通過利用來自兩個類別的文本知識,促進(jìn)為可見類和不可見類生成分類器。綜上所述,經(jīng)過訓(xùn)練的嵌入模塊可以根據(jù)每個類的描述(“類名”)為每個類生成一個類感知提示,從而增強(qiáng)了類級文本嵌入的泛化和判別能力。

圖2。TCP提出的框架。

因此,我們提出了一種基于CoOp框架的基于文本的類感知提示調(diào)優(yōu)(TCP),如圖2所示。除了CoOp中引入的域共享文本令牌之外,TCP還提供了一種新的文本知識嵌入(TKE),將類級別的文本知識映射到類感知的提示令牌。此外,通過將類感知的提示標(biāo)記插入到Text Encoder的中間層中,生成了一個類感知的文本分類器。我們使用標(biāo)準(zhǔn)對比損失和知識引導(dǎo)一致性[43]來優(yōu)化TKE和可學(xué)習(xí)提示令牌。在推理過程中,TCP通過將域共享的提示令牌和TKE生成的類感知提示令牌提供給凍結(jié)的Text Encoder,從而為不可見的類生成一個類感知的分類器。

總的來說,所提出的TCP明確地引導(dǎo)提示學(xué)習(xí)類感知知識,從而最大限度地提高下游任務(wù)的泛化和區(qū)別性。通過對11個圖像分類數(shù)據(jù)集的基到新泛化、跨數(shù)據(jù)集泛化和小樣本學(xué)習(xí)驗證,TCP是一種以更少的訓(xùn)練時間獲得更高性能的有效方法。總之,提出的基于文本的類感知提示調(diào)優(yōu)(TCP)有以下主要貢獻(xiàn):

1.將文本知識嵌入(TKE)生成的文本類感知提示注入到文本編碼器中,提出了一種有效的基于文本的類感知提示調(diào)優(yōu)方法。

2.我們證明了將每個類別的先驗知識顯式地納入可學(xué)習(xí)提示令牌可以增強(qiáng)類別分布的判別性。

3.文本知識嵌入(TKE)是一種即插即用模塊,可以快速插入現(xiàn)有的提示調(diào)優(yōu)方法,進(jìn)一步提高其性能。

2. 相關(guān)的工作

2.1. 視覺語言模型

近年來,研究人員已經(jīng)證明,視覺語言模型(VLM)[2,33]在圖像-文本對的大規(guī)模訓(xùn)練上,由視覺和文本模態(tài)組成,具有強(qiáng)大的泛化和判別能力。為了進(jìn)一步提高VLM的描述能力,從以下幾個方面對VLM模型進(jìn)行了提升:1)使用更強(qiáng)的文本編碼器或視覺編碼器[25,41,46];2)深度融合視覺和文本知識[23,38];3)使用更多的圖像[16,33,35,36]。為了提高文本描述的多樣性,掩碼語言建模(mask Language Modeling, MLM)[20][26]隨機(jī)擦除用于表示學(xué)習(xí)的文本描述中的單詞。與傳銷不同,提出了基于掩碼自編碼器的方法[13],通過隨機(jī)掩碼圖像補(bǔ)丁來提高描述能力。在現(xiàn)有的VLM模型中,CLIP是利用基于4億個圖像-文本關(guān)聯(lián)對的對比損失來推斷獨(dú)立的視覺和文本編碼器的具有代表性和直接性的框架。由于CLIP具有良好的泛化性,現(xiàn)有的大多數(shù)基于協(xié)作的方法都是基于CLIP將預(yù)訓(xùn)練好的VLM適應(yīng)下游任務(wù)。與現(xiàn)有方法類似,我們在CLIP的TextEncoder上執(zhí)行提示調(diào)優(yōu)策略,以獲得用于預(yù)測的特定任務(wù)的文本嵌入。

2.2. 提示優(yōu)化

為了使預(yù)訓(xùn)練的VLM適應(yīng)下游任務(wù),提示調(diào)優(yōu)[10,22,24,31,33,45]總是使用任務(wù)相關(guān)的文本標(biāo)記來推斷任務(wù)特定的文本知識。在CLIP[33]中,使用手工制作的模板“a photo of a [CLASS]”來嵌入文本嵌入,用于零樣本預(yù)測。然而,手工制作的提示描述下游任務(wù)的能力很差。文本提示調(diào)優(yōu)通過推斷一組可學(xué)習(xí)的文本標(biāo)記與類標(biāo)記相結(jié)合來增強(qiáng)文本嵌入。例如,上下文優(yōu)化(CoOp)[50]取代了手工制作的提示符用可學(xué)習(xí)的軟提示。為了提高CoOp中可學(xué)習(xí)文本提示的泛化性,條件上下文優(yōu)化(Conditional Context Optimization, CoCoOp)[49]和VPT[45]生成了一個融合了圖像特征和可學(xué)習(xí)文本提示的圖像條件提示。此外,知識導(dǎo)向上下文優(yōu)化(knowledge - guided Context Optimization, KgCoOp)[43]、ProGrad[51]和提示正則化(Prompt Regularization, ProReg)[52]約束了建議的可學(xué)習(xí)提示包含基本的一般知識。與上述方法考慮文本提示不同,集成上下文優(yōu)化(Ensembling Context Optimization, ECO)[1]采用提示集成來組合多個提示。為了獲得高質(zhì)量的任務(wù)相關(guān)令牌,ProDA[27]考慮提示符的先驗分布學(xué)習(xí),而分布感知提示調(diào)優(yōu)(distributed - aware prompt Tuning, DAPT)[5]通過最大化互分散來優(yōu)化可學(xué)習(xí)提示符。除了來自“classname”的文本知識外,知識感知提示調(diào)諧(knowledge-aware Prompt Tuning, KAPT)[17]還利用外部知識生成針對新類別的判別性知識感知提示。

PLOT[4]應(yīng)用最佳傳輸來匹配視覺和文本模式,以生成判別性和視覺對齊的本地文本提示令牌。除了文本提示調(diào)音外,Multi-modal prompt Learning (MaPLe)[18]和PromptSRC[19]還通過在視覺和文本編碼器上共同進(jìn)行提示調(diào)音來進(jìn)行視覺文本提示調(diào)音。多任務(wù)視覺語言提示調(diào)優(yōu)(MVLPT)[37]將跨任務(wù)知識整合到視覺語言模型的提示調(diào)優(yōu)中。DenseCLIP[34]使用上下文感知提示策略來生成密集預(yù)測任務(wù),CLIPAdapter[11]使用適配器來調(diào)整視覺或文本嵌入。

現(xiàn)有方法通常推斷兩種類型的提示令牌:域共享和圖像條件。然而,用這些標(biāo)記生成的文本分類器往往在未見過的類上表現(xiàn)不佳。為了緩解這一限制,我們提出了一種新的基于文本的類感知提示調(diào)優(yōu)(TCP),它使用動態(tài)類感知令牌來增強(qiáng)可學(xué)習(xí)文本提示的泛化和區(qū)分能力。此外,我們引入了文本知識嵌入,將類級文本知識投影到類感知提示中,然后將這些提示插入到文本編碼器中以生成判別類感知分類器。評價結(jié)果表明,將類級先驗知識集成到提示標(biāo)記中,顯著提高了提示調(diào)整過程的判別能力。

3.方法

由于基于上下文優(yōu)化(CoOp)提出了基于文本的類感知提示調(diào)優(yōu)(TCP),我們首先簡要回顧了CoOp,然后介紹了所提出的TCP。

3.1. 準(zhǔn)備知識

現(xiàn)有的基于CoOp的方法是基于強(qiáng)大的對比語言圖像預(yù)訓(xùn)練(CLIP)提出的。給定圖像及其相應(yīng)的文本描述,CLIP使用視覺和文本編碼器來提取視覺和文本嵌入。然后,計算視覺嵌入和文本嵌入之間的壓縮損失以對齊這兩個嵌入。為了使CLIP有效地適應(yīng)下游任務(wù),CLIP應(yīng)用手工制作的模板“a photo of a{}”提取一般的類級文本嵌入,定義為 W c l i p = { w i c l i p } i = 1 N c W^{clip}=\{w_i^{clip}\}^{N_c}_{i=1} Wclip={wiclip?}i=1Nc??,其中 w i c l i p w_i^{clip} wiclip?為第 i i i個類的文本嵌入, N c N_c Nc?為類的個數(shù)。給定第 i i i類的“class-name”,Word Embedded e ( ? ) e(\cdot) e(?)首先將手工制作的描述嵌入到一個矢量化的文本標(biāo)記中: t i c l i p = e t_i^{clip}=e ticlip?=e(“a photo of a {class-name}”)。之后,Text Encoder θ \theta θ將矢量化的文本標(biāo)記 t i c l i p t_i^{clip} ticlip? 映射到類級嵌入中: w i c l i p = θ ( t i c l i p ) w^{clip}_i=\theta(t^{clip}_i) wiclip?=θ(ticlip?).

為了提高類級嵌入的判別性,上下文優(yōu)化(CoOp)的提示調(diào)優(yōu)方法將手工制作的文本標(biāo)記替換為一組可學(xué)習(xí)的文本標(biāo)記 T = { t 1 , t 2 , . . . , t M } T=\{t_1,t_2,...,t_M\} T={t1?,t2?,...,tM?},其中 M M M為令牌的長度。與CLIP類似,將相應(yīng)的類令牌 c i c_i ci?與可學(xué)習(xí)的令牌 T T T連接起來,以生成文本令牌 t i c o o p = { t 1 , t 2 , . . . , t M , c i } t_i^{coop}=\{t_1,t_2,...,t_M,c_i\} ticoop?={t1?,t2?,...,tM?,ci?}。然后,將文本標(biāo)記 t i c o o p t_i^{coop} ticoop? 輸入到Text Encoder θ \theta θ中,即 w i c o o p = θ ( t i c o o p ) w^{coop}_i=\theta(t_i^{coop}) wicoop?=θ(ticoop?),得到文本嵌入 w i c o o p w^{coop}_i wicoop? 。最后,將所有類的文本嵌入定義為 W c o o p = { w i c o o p } i = 1 N c W^{coop}=\{w_i^{coop}\}^{N_c}_{i=1} Wcoop={wicoop?}i=1Nc??。

CoOp通過最小化圖像嵌入 x x x與其類嵌入 W y c o o p W^{coop}_y Wycoop?之間的對比損失來推斷可學(xué)習(xí)的文本標(biāo)記 T T T:

其中, D s D_s Ds?是看到的數(shù)據(jù)集, d ( ? ) d(\cdot) d(?)是余弦距離。 τ \tau τ是CLIP中定義的溫度因子, N N N是訓(xùn)練圖像的個數(shù)。

由于生成的文本嵌入對新類具有良好的泛化能力,KgCoOp進(jìn)一步在生成的嵌入 W c o o p W^{coop} Wcoop與通用嵌入 W c l i p W^{clip} Wclip之間增加了一個高效的一致性 L k g L_{kg} Lkg?。

因此,提示調(diào)優(yōu)的健壯目標(biāo)是:

其中 ω \omega ω設(shè)為8.0,與KgCoOp[43]相同。

3.2. 基于文本的類感知提示調(diào)優(yōu)

圖2。TCP提出的框架。

基于CLIP中預(yù)訓(xùn)練的Text Encoder,文本提示調(diào)優(yōu)旨在推斷一組域共享或圖像條件文本標(biāo)記與一般類標(biāo)記相結(jié)合,以生成特定的類嵌入。然而,由這些文本標(biāo)記生成的文本分類器對未見過的類執(zhí)行較差的泛化,因為它們不能對測試類的分布進(jìn)行建模。研究表明,利用冷凍CLIP提取的一般文本知識可以創(chuàng)建新類的判別先驗知識,增強(qiáng)可學(xué)提示的判別性和泛化性。利用已見和未見類的一般文本知識,我們提出了一種基于文本的類感知提示調(diào)優(yōu)(TCP),以使預(yù)訓(xùn)練的CLIP適應(yīng)下游任務(wù)。如圖2所示,TCP使用文本知識嵌入(TKE)將一般的類級文本嵌入轉(zhuǎn)移到類感知提示符中,然后將其與可學(xué)習(xí)的文本令牌結(jié)合起來,生成類感知分類器。TKE對于不可見的類是有利的,因為它生成特定于類的提示,以獲得具有更好判別能力的不可見的類感知文本分類器。此外,明確地結(jié)合可視類感知提示可以增強(qiáng)可視類的辨別能力。

給定具有 N c N_c Nc? 訓(xùn)練類的通用類級文本嵌入 W c l i p = R N c × D t W^{clip}=R^{N_c\times D_t} Wclip=RNc?×Dt?,提出文本知識嵌入(textual Knowledge embedding, TKE) T ( ? ) T(\cdot) T(?),將類級嵌入 W c l i p W^{clip} Wclip投影到類感知提示符 T = τ ( W c l i p ) \Tau=\tau(W^{clip}) T=τ(Wclip)中。如圖2所示,TKE由下項目層和上項目層兩層組成。down-project層使用權(quán)值 W d o w n ∈ R D t × D m i d W_{down}\in R^{D_t\times D_{mid}} Wdown?RDt?×Dmid?將文本嵌入投影到維度為 D m i d D_{mid} Dmid? 的低維特征中。接下來,上項目層的權(quán)值 W u p ∈ R m i d × D ′ W_{up}\in R^{{mid}\times D'} Wup?Rmid×D將低維特征映射為維數(shù)為 D ′ D' D 的高維特征。注意, D ′ D' D是由提示符的長度 M M M 和維數(shù) D D D 決定的: D ′ = M × D D'=M\times D D=M×D。綜上所述,一般的文本嵌入 W c l i p ∈ R N c × D t W^{clip}\in R^{N_c\times D_t} WclipRNc?×Dt? 可以投影到類感知的文本標(biāo)記 T ∈ R N c × D ′ T\in R^{N_c\times D'} TRNc?×D 中,再將其重塑成 T ∈ R N c × M × D ′ T\in R^{N_c\times M \times D'} TRNc?×M×D 的形狀,插入到Text Encoder θ \theta θ 的中間層中。

假設(shè)我們將類感知提示符 T T T插入到Text Encoder θ \theta θ的第1層。下面我們將對超參數(shù) l l l 進(jìn)行詳細(xì)的分析。與CoOp類似,通過組合領(lǐng)域共享的可學(xué)習(xí)文本標(biāo)記 T = [ t 1 , t 2 , . . . , t M ] T=[t_1,t_2,...,t_M] T=[t1?,t2?,...,tM?]和所有類的預(yù)訓(xùn)練類token C C C,我們可以得到Text Encoder的輸入文本令牌 F 0 = { T , C } F_0=\{T,C\} F0?={T,C},其中 C = { c i } i N c C=\{c_i\}^{N_c}_i C={ci?}iNc?? 為第 i i i 類的向量化文本令牌。將文本標(biāo)記 F 0 F_0 F0? 輸入到文本編碼器的前1層,以獲得中間層文本嵌入 F l F_l Fl?。形式上,第 i i i 層的文本令牌 F i ( i ≤ l ) F_i(i\le l) Fi?(il) 定義為:

其中 θ i \theta_i θi?是文本編碼器的第 i i i層。

對于文本標(biāo)記 F l ∈ R N c × N t × D F_l\in R^{N_c\times N_t \times D} Fl?RNc?×Nt?×D和類感知提示標(biāo)記 T ∈ R N c × M × D T\in R^{N_c\times M \times D} TRNc?×M×D,第一個維度與類的數(shù)量有關(guān)。因此,與CoOp一樣,可學(xué)習(xí)的提示符號總是插入到 F l F_l Fl?的第二維中。形式上,將類感知的提示符 T T T 插入到 F l F_l Fl? 中,以生成類感知的增強(qiáng)令牌 F l ′ F'_l Fl?;

式中, T i T_i Ti?表示 T T T在第二維中的第 i i i個指標(biāo), F l , j F_{l,j} Fl,j?表示對應(yīng)的 F l F_l Fl?在第二維中的第 j j j個指標(biāo),即 T i = T [ : , i , : ] , F l , j = F l [ : , j , : ] T_i=T[:,i,:],F_{l,j}=F_l[:,j,:] Ti?=T[:,i,:],Fl,j?=Fl?[:,j,:]。

之后,將類增強(qiáng)的文本標(biāo)記符 F i ′ F'_i Fi?填充到其他層中,以生成類感知的文本嵌入。

將最后一層 F L ′ F'_L FL?的輸出作為類嵌入 W t c p W^{tcp} Wtcp,用于Eq.(3)中具有對比損失和知識引導(dǎo)一致性損失的優(yōu)化。

4. 實驗

與CoOp[50]類似,我們從三種任務(wù)類型來評估TCP的有效性:1)數(shù)據(jù)集中從基類到新類的泛化;2)用K-shot標(biāo)記圖像進(jìn)行小樣本學(xué)習(xí);3)從imagenet到其他數(shù)據(jù)集的跨數(shù)據(jù)集泛化。更詳細(xì)的結(jié)果將在補(bǔ)充材料中提供。

表1?;鶖?shù)到新泛化設(shè)置與16-shot的比較?!皌p”、“dtp”、“vp”和“dvp”分別表示“文本提示”、“深度文本提示”、“視覺提示”和“深度視覺提示”。PromptSRC基于深度視覺文本提示調(diào)優(yōu)(’ dvp+dtp ‘)?!?* '表示我們重新實現(xiàn)后獲得的性能。

在Base-to-New泛化設(shè)置中,New類始終具有與基類相似的數(shù)據(jù)分布。為了進(jìn)一步驗證所提出TCP的泛化性,在跨數(shù)據(jù)集泛化中,TCP從ImageNet中進(jìn)行訓(xùn)練,并直接在不相關(guān)的數(shù)據(jù)集上進(jìn)行評估,例如其余10個數(shù)據(jù)集。提出的TCP與現(xiàn)有方法的比較總結(jié)如表2所示。從表2中我們可以看到,本文提出的TCP在所有文本提示調(diào)優(yōu)方法中獲得了最高的平均性能(66.29% vs . DePT的65.55%[47]),并且與視覺文本提示調(diào)優(yōu)方法(66.29% vs . DAPT的66.31%[5])獲得了相當(dāng)?shù)男阅?#xff0c;證明了TCP在學(xué)習(xí)泛化知識方面的有效性。

表2??鐢?shù)據(jù)集評價的比較?!皌p”、“dtp”、“vp”和“dvp”分別表示“文本提示”、“深度文本提示”、“視覺提示”和“深度視覺提示”。請注意,DAPT和MaPLe基于可視文本提示調(diào)優(yōu)(’ vp+tp ')。

圖7。CoOp和TCP概率的可視化。

5. 結(jié)論

為了提高可學(xué)習(xí)提示的泛化和判別能力,我們引入了一種基于文本的類感知提示調(diào)優(yōu)方法,該方法利用了一般類級文本知識的優(yōu)勢。為了實現(xiàn)這一點,我們提出了一種文本知識嵌入(TKE),它將類級別的文本嵌入轉(zhuǎn)換為類感知提示。這與預(yù)先訓(xùn)練的類標(biāo)記相結(jié)合,生成特定于任務(wù)的文本知識。幾個基準(zhǔn)測試和任務(wù)表明,類感知提示對于提示調(diào)優(yōu)是有效的。

然而,TCP中的類感知提示在很大程度上依賴于通用文本嵌入的識別能力。另一方面,較弱的文本嵌入將產(chǎn)生較弱的文本分類器。例如,TCP在fgvc - aircraft數(shù)據(jù)集上表現(xiàn)不佳。因此,在未來,我們計劃探索如何使用較弱的文本知識來獲得判別文本分類器。

參考資料

論文下載(2024 CVPR)

https://openaccess.thecvf.com/content/CVPR2024/papers/Yao_TCPTextual-based_Class-aware_Prompt_tuning_for_Visual-Language_Model_CVPR_2024_paper.pdf

代碼地址

https://github.com/htyao89/Textual-based_Class-aware_prompt_tuning

http://m.aloenet.com.cn/news/35109.html

相關(guān)文章:

  • 河源城鄉(xiāng)規(guī)劃建設(shè)局網(wǎng)站軟文新聞發(fā)布網(wǎng)站
  • 動態(tài)網(wǎng)站開發(fā)參考資料google建站推廣
  • 自己建的網(wǎng)站可以用筆記本做服務(wù)器嗎sem專員
  • 泗洪網(wǎng)站設(shè)計公司ip域名查詢網(wǎng)站入口
  • 抖音代運(yùn)營排名seo公司排行
  • 主流網(wǎng)站風(fēng)格精品成品網(wǎng)站入口
  • 網(wǎng)站開發(fā)實訓(xùn)報告參考文獻(xiàn)國內(nèi)真正的永久免費(fèi)建站
  • 免費(fèi)看電影的網(wǎng)站是什么快速收錄網(wǎng)
  • 怎樣做網(wǎng)站開發(fā)搜索優(yōu)化seo
  • 網(wǎng)站站長統(tǒng)計代碼百度風(fēng)云搜索榜
  • 蘇州專業(yè)做網(wǎng)站公司有哪些如何進(jìn)行電子商務(wù)網(wǎng)站推廣
  • 高端做網(wǎng)站做網(wǎng)站要多少錢
  • wordpress網(wǎng)站服務(wù)器深圳市seo點擊排名軟件價格
  • 河北通信建設(shè)有限公司網(wǎng)站搜索引擎優(yōu)化什么意思
  • 上海網(wǎng)站設(shè)計服務(wù)商長尾詞挖掘免費(fèi)工具
  • 網(wǎng)站開發(fā)論文需要寫什么windows優(yōu)化大師怎么使用
  • wordpress短視頻主題上海整站seo
  • 兼職做調(diào)查哪個網(wǎng)站好溫州seo公司
  • 成都 高端網(wǎng)站建設(shè)如何制作網(wǎng)頁最簡單的方法
  • 網(wǎng)站設(shè)計如何收費(fèi)上海專業(yè)網(wǎng)絡(luò)推廣公司
  • 公司網(wǎng)站自己可以做嗎外包項目接單平臺
  • 怎么添加網(wǎng)站百度網(wǎng)盤下載電腦版官方下載
  • 建商城網(wǎng)站如何去推廣一個app
  • 上海著名網(wǎng)站設(shè)計公司網(wǎng)絡(luò)營銷品牌
  • 微網(wǎng)站 微官網(wǎng)的區(qū)別嗎最近的新聞大事10條
  • 深色大氣網(wǎng)站模板電腦培訓(xùn)學(xué)校學(xué)費(fèi)多少
  • web網(wǎng)站開發(fā)的基本流程產(chǎn)品運(yùn)營方案
  • php網(wǎng)站怎么做測試工具上海網(wǎng)站建設(shè)開發(fā)
  • 網(wǎng)站頂部展出的大幅廣告推廣網(wǎng)站源碼
  • 廣州專業(yè)的網(wǎng)站建設(shè)青島建站seo公司