洛陽網(wǎng)站建設(shè)好做不怎么安裝百度
文章目錄
- 摘要
- 1 引言
- 2 相關(guān)工作
- 2.1 多語義空間信息
- 2.2 注意力分解
- 3 方法
- 3.1 共享多語義空間注意力:空間與通道分解
- 3.2 漸進(jìn)式通道自注意力
- 3.3 協(xié)同效應(yīng)
- 3.4 注意力機(jī)制的整合
- 4 實驗
- 4.1 實驗設(shè)置
- 4.2 圖像分類
- 4.3 目標(biāo)檢測
- 4.4 分割
- 4.5 消融研究
- 5 可視化與分析
- 5.1 注意力可視化
- 5.2 有效感受野可視化
- 5.3 計算復(fù)雜度
- 5.4 推理吞吐量評估
- 5.5 目標(biāo)檢測定性結(jié)果
- 5.6 實例分割定性結(jié)果
- 5.7 語義分割定性結(jié)果
- 6 局限性
- 7 結(jié)論
摘要
https://arxiv.org/pdf/2407.05128
通道注意力和空間注意力分別為各種下游視覺任務(wù)在提取特征依賴性和空間結(jié)構(gòu)關(guān)系方面帶來了顯著改進(jìn)。通道注意力和空間注意力的結(jié)合使用被廣泛認(rèn)為有利于進(jìn)一步提升性能;然而,通道注意力和空間注意力之間的協(xié)同作用,尤其是在空間引導(dǎo)和緩解語義差異方面,尚未得到深入研究。這促使我們提出了一種新的空間與通道協(xié)同注意模塊(SCSA),該模塊涉及我們在多個語義層面上對空間注意力和通道注意力之間協(xié)同關(guān)系的研究。我們的SCSA由兩部分組成:可共享多語義空間注意力(SMSA)和漸進(jìn)通道自注意力(PCSA)。SMSA整合了多語義信息,并利用漸進(jìn)壓縮策略將判別性空間先驗注入到PCSA的通道自注意力中,有效引導(dǎo)通道再校準(zhǔn)。此外,PCSA中基于通道單頭自注意力機(jī)制的穩(wěn)健特征交互進(jìn)一步緩解了SMSA中不同子特征之間多語義信息的差異。我們在七個基準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量實驗,包括在ImageNet-1K上的分類、在MSCOCO上的目標(biāo)檢測、在ADE20K上的分割以及四個其他復(fù)雜場景檢測數(shù)據(jù)集。實驗結(jié)果表明,我們提出的SCSA不僅超越了當(dāng)前的即插即用型最先進(jìn)注意力方法,而且在各種任務(wù)場景中展現(xiàn)出增強(qiáng)的泛化能力。代碼和模型可在以下網(wǎng)址獲取:https://github.com/HZAIZJNU/SCSA。
1 引言
注意力機(jī)制通過增強(qiáng)感興趣區(qū)域的表示,有助于學(xué)習(xí)更具判別性的特征,并被廣泛用于重新分配通道關(guān)系和空間依賴性?,F(xiàn)有的即插即用型注意力方法主要可分為三類:通道注意力[23, 27, 62, 55, 31, 41]、空間注意力[22, 56, 42, 9]和混合通道-空間注意力[57, 40, 38, 14, 20, 65, 39, 61]。它們的側(cè)重點不同:通道注意力通過自適應(yīng)地為不同通道加權(quán)來增強(qiáng)關(guān)鍵對象特征的提取,而空間注意力則旨在增強(qiáng)關(guān)鍵空間信息??臻g信息在像素級別表示語義特征對象。局部空間信息捕獲低語義對象,如精細(xì)細(xì)節(jié)和紋理,而全局空間信息感知高語義對象,如整體形狀。
在基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu)的模型中,深度卷積算子通常用于特征提取。這些算子生成的梯度可以在不同的特征通道之間流動和傳播,從而促進(jìn)卷積權(quán)重的更新并有效表示圖像特征。然而,眾多研究表明,僅依賴卷積分支進(jìn)行特征提取會導(dǎo)致梯度流失真[54],從而導(dǎo)致關(guān)鍵信息丟失或相似特征冗余[4, 17, 66, 35]。為解決此問題,已提出了一些基于激發(fā)和抑制機(jī)制[23]的方法,這些方法將特征學(xué)習(xí)重點放在對不同任務(wù)最關(guān)鍵的特征上,從而增強(qiáng)了模型的表示能力。特別是,CBAM[57]通過串聯(lián)通道和空間注意力分別聚合全局空間和通道信息,但壓縮所有通道信息會導(dǎo)致所有空間結(jié)構(gòu)之間共享信息。這削弱了空間上下文對不同特征圖的適應(yīng)性。為克服此問題,CPCA[24]引入了通道優(yōu)先注意力機(jī)制和深度條紋卷積,獨立提取每個特征的空間結(jié)構(gòu),顯著提高了醫(yī)學(xué)圖像分割性能。此外,基于分組注意力和跨空間多尺度交互的EMA[39]模塊有效融合了長短期依賴的空間信息,但忽略了組間特征交互。
盡管這些混合注意力機(jī)制增強(qiáng)了表征學(xué)習(xí),但它們忽視了跨空間和通道維度的固有多語義信息,以及多語義特征的交互和差異緩解,這對于檢測和分割等細(xì)粒度任務(wù)至關(guān)重要,從而限制了這些方法的即插即用能力。如圖1所示,我們分析了圖像的幾個特征圖,并觀察到不同的空間區(qū)域由于不同通道的特征選擇性而表現(xiàn)出固有的語義差異和相似性。
基于這一見解,我們提出了一個問題:是否可以利用不同特征通道之間固有的空間語義差異來指導(dǎo)重要特征的學(xué)習(xí)?此外,考慮到語義差異的存在,我們?nèi)绾尉徑膺@些多語義差異并促進(jìn)多語義信息的更好融合?
與上述方法不同,我們從以下三個方面探索上述問題的解決方案:維度解耦、輕量級多語義指導(dǎo)和語義差異緩解,并提出了一種新穎的、即插即用的空間和通道協(xié)同注意力(SCSA)。我們的SCSA由可共享的多語義空間注意力(SMSA)和順序連接的漸進(jìn)式通道自注意力(PCSA)組成。本研究首先采用多尺度、深度共享的1D卷積從四個獨立的子特征中提取不同語義級別的空間信息。我們在四個子特征上利用組歸一化[58]來加速模型收斂,同時避免引入批次噪聲和不同子特征之間語義信息的干擾。隨后,我們將SMSA調(diào)制后的特征圖輸入到PCSA中,結(jié)合了漸進(jìn)式壓縮和通道特定的單頭自注意力機(jī)制。我們的漸進(jìn)式壓縮策略旨在最小化計算復(fù)雜度,同時保留SMSA中的空間先驗,提供了一個實用的折中方案。此外,我們的PCSA利用輸入感知的單頭自注意力機(jī)制有效地探索通道相似性,從而緩解SMSA中不同子特征之間的語義差異,并促進(jìn)信息融合。我們在四個視覺任務(wù)和七個基準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛的實驗,證明了我們的SCSA中應(yīng)用的多語義協(xié)同的有效性。綜上所述,我們的貢獻(xiàn)如下:
- 我們指出了現(xiàn)有即插即用注意力機(jī)制的兩大關(guān)鍵限制:1)在空間和通道維度上,利用固有的多語義空間信息指導(dǎo)關(guān)鍵特征提取的能力不足;2)對特征圖中多語義信息引起的語義差異和交互處理不當(dāng)。
- 我們提出了空間和通道協(xié)同注意力(SCSA),包括SMSA和PCSA模塊。SMSA利用多尺度深度共享的1D卷積捕獲多語義空間信息,增強(qiáng)了局部和全局特征表示。PCSA采用輸入感知的自注意力來細(xì)化通道特征,有效緩解語義差異,確??缤ǖ赖姆€(wěn)健特征整合。
- 我們的方法在包括ImageNet-1K(分類)、MSCOCO(目標(biāo)檢測)和ADE20K(分割)在內(nèi)的多個基準(zhǔn)測試中優(yōu)于其他最先進(jìn)的即插即用注意力機(jī)制,并在低光照和小物體基準(zhǔn)測試等各種復(fù)雜場景中表現(xiàn)出強(qiáng)大的泛化能力。
2 相關(guān)工作
2.1 多語義空間信息
多語義空間結(jié)構(gòu)融入了豐富的類別和上下文信息。有效整合全局上下文和局部空間先驗,能夠使模型從多個角度學(xué)習(xí)到更高質(zhì)量的表征。InceptionNets[49,25,50,48]開創(chuàng)了多分支方法,采用并行的不同尺寸的標(biāo)準(zhǔn)卷積來捕獲不同的感受野,顯著提升了特征提取能力。SKNet[27]將多尺度卷積融入通道注意力中,使用SENet[23]提出的擠壓-激勵機(jī)制來整合具有不同感受野的空間先驗。得益于全局上下文建模能力,ViT[9]采用多頭自注意力(MHSA)來捕捉不同語義子特征中不同空間位置的相關(guān)性,并輔以位置嵌入來補償空間先驗,在各種下游任務(wù)中取得了顯著的成功。目前,許多研究基于多語義思想開發(fā)高效模型[66,35,4,53],以減少參數(shù)和計算量,從而提高推理效率。Mamba[16]引入了一個使用掃描機(jī)制和GPU并行性的可選狀態(tài)空間模型,以線性時間復(fù)雜度建模全局上下文依賴。此外,VMamba[32]提出了一個跨掃描模塊,將1D序列掃描擴(kuò)展到2D圖像掃描,有效地從四個方向捕獲多語義全局上下文信息。
2.2 注意力分解
將注意力機(jī)制融入主流主干網(wǎng)絡(luò)或特征融合網(wǎng)絡(luò),能夠增強(qiáng)對細(xì)粒度特征的理解,并提高特征表征的準(zhǔn)確性。然而,這不可避免地會導(dǎo)致內(nèi)存使用量和計算時間的增加。CA[20]和ELA[61]分別在高度( H H H)和寬度( W W W)維度上進(jìn)行單向空間壓縮,在一個方向上保留空間結(jié)構(gòu),同時在另一個方向上聚合全局空間信息,從而減輕全局壓縮帶來的信息損失。SA[65]和EMA[39]將特征重塑為子特征,以減少注意力計算和參數(shù)。然而,它們在受GPU帶寬限制的高維B(批量大小)和C(通道數(shù))中使用的重塑操作會導(dǎo)致昂貴的數(shù)據(jù)傳輸,嚴(yán)重影響推理速度。CPCA[24]在獨立通道中使用條紋卷積來減少大核卷積中的參數(shù)。近期研究還在MHSA中應(yīng)用維度分解,其中RMT[12]分別在 H H H和 W W W維度上單獨應(yīng)用MHSA,以最小化計算成本。
在本研究中,我們基于注意力分解的概念,提出了一個整合多語義空間信息的輕量級引導(dǎo)模塊。此外,我們還設(shè)計了一個基于漸進(jìn)式通道單頭自注意力機(jī)制的多語義差異緩解模塊,旨在探索空間維度和通道維度之間更優(yōu)化的協(xié)同關(guān)系。
3 方法
在本節(jié)中,我們首先討論SMSA模塊,該模塊探索了輕量級多語義信息引導(dǎo)的好處。接下來,我們介紹PCSA模塊,該模塊利用漸進(jìn)式壓縮策略和通道自注意力來緩解語義差異。多語義引導(dǎo)和語義差異緩解的協(xié)同作用促使我們提出了SCSA模塊??傮w架構(gòu)如圖2所示。
3.1 共享多語義空間注意力:空間與通道分解
神經(jīng)網(wǎng)絡(luò)架構(gòu)中的分解技術(shù)顯著減少了參數(shù)數(shù)量和計算開銷。受Transformer[52]中1D序列結(jié)構(gòu)的啟發(fā),在我們的工作中,我們沿著高度和寬度維度對給定輸入 X ∈ R B × C × H × W X \in \mathbb{R}^{B \times C \times H \times W} X∈RB×C×H×W進(jìn)行分解。我們對每個維度應(yīng)用全局平均池化,從而創(chuàng)建兩個單向1D序列結(jié)構(gòu): X H ∈ R B × C × W X_{H} \in \mathbb{R}^{B \times C \times W} XH?∈RB×C×W和 X W ∈ R B × C × H X_{W} \in \mathbb{R}^{B \times C \times H} XW?∈RB×C×H。為了學(xué)習(xí)不同的空間分布和上下文關(guān)系,我們將特征集劃分為 K K K個大小相同、獨立的子特征 X H i X_{H}^{i} XHi?和 X W i X_{W}^{i} XWi?,每個子特征的通道數(shù)為 C K \frac{C}{K} KC?。在本文中,我們設(shè)置默認(rèn)值 K = 4 K=4 K=4。分解為子特征的過程如下:
X H i = X H [ : , ( i ? 1 ) × C K : i × C K , : ] X W i = X W [ : , ( i ? 1 ) × C K : i × C K , : ] \begin{array}{l} X_{H}^{i}=X_{H}\left[:,(i-1) \times \frac{C}{K}: i \times \frac{C}{K},:\right] \\ X_{W}^{i}=X_{W}\left[:,(i-1) \times \frac{C}{K}: i \times \frac{C}{K},:\right] \end{array} XHi?=XH?[:,(i?1)×KC?:i×KC?,:]XWi?=XW?[:,(i?1)×KC?:i×KC?,:]?
X i X^{i} Xi表示第 i i i個子特征,其中 i ∈ [ 1 , K ] i \in[1, K] i∈[1,K]。每個子特征是獨立的,便于高效地提取多語義空間信息。
在不相交子特征上應(yīng)用輕量級卷積策略。在將特征圖劃分為獨立子特征后,我們的目標(biāo)是在每個子特征內(nèi)高效地捕獲不同的語義空間結(jié)構(gòu)。受減少特征冗余的廣泛研究啟發(fā)[35, 17, 4],這些研究揭示出冗余可能源于特征之間的強(qiáng)烈相互作用,我們也觀察到特征之間存在不同的空間結(jié)構(gòu),如圖1所示?;谶@些見解,并旨在豐富語義信息、增強(qiáng)語義一致性和最小化語義差距,我們對四個子特征應(yīng)用了核大小為3、5、7和9的深度一維卷積。此外,為了解決將特征分解為H和W維度并分別應(yīng)用一維卷積導(dǎo)致的感受野受限問題,我們使用輕量級共享卷積進(jìn)行對齊,通過在這兩個維度上學(xué)習(xí)一致特征來隱式建模它們之間的依賴關(guān)系。關(guān)于它們的消融實驗細(xì)節(jié)見表1。提取多語義空間信息的實現(xiàn)過程定義如下:
X ~ H i = D W C o n v 1 d k i C R → C R ( X H i ) X ~ W i = D W C o n v 1 d k i C R → C R ( X W i ) \begin{array}{l} \tilde{X}_{H}^{i}=DWConv1d_{k_{i}}^{\frac{C}{R} \rightarrow \frac{C}{R}}\left(X_{H}^{i}\right) \\ \tilde{X}_{W}^{i}=DWConv1d_{k_{i}}^{\frac{C}{R} \rightarrow \frac{C}{R}}\left(X_{W}^{i}\right) \end{array} X~Hi?=DWConv1dki?RC?→RC??(XHi?)X~Wi?=DWConv1dki?RC?→RC??(XWi?)?
X ~ i \tilde{X}^{i} X~i表示在輕量級卷積操作后獲得的第 i i i個子特征的空間結(jié)構(gòu)信息。 k i k_{i} ki?表示應(yīng)用于第 i i i個子特征的卷積核。
在分解獨立子特征并捕獲不同語義的空間信息后,我們需要構(gòu)建空間注意力圖。具體而言,我們將不同的語義子特征進(jìn)行拼接,并使用具有 K K K組的組歸一化(GN)[58]進(jìn)行歸一化。我們選擇GN而不是常見的批量歸一化(BN)[26],因為我們的研究發(fā)現(xiàn)GN在區(qū)分子特征之間的語義差異方面表現(xiàn)更優(yōu)。GN可以對每個子特征進(jìn)行獨立歸一化,而不會引入批次統(tǒng)計噪聲,有效減輕子特征之間的語義干擾并防止注意力分散。這一設(shè)計通過表1中的消融實驗得到了驗證。最后,使用簡單的Sigmoid激活函數(shù)生成空間注意力,該函數(shù)激活并抑制特定的空間區(qū)域。輸出特征的計算如下:
A t t n H = σ ( G N H K ( C o n c a t ( X ~ H 1 , X ~ H 2 , … , X ~ H K ) ) ) A t t n W = σ ( G N W K ( C o n c a t ( X ~ W 1 , X ~ W 2 , … , X ~ W K ) ) ) S M S A ( X ) = X s = A t t n H × A t t n W × X \begin{array}{c} Attn_{H}=\sigma\left(GN_{H}^{K}\left(Concat\left(\tilde{X}_{H}^{1}, \tilde{X}_{H}^{2}, \ldots, \tilde{X}_{H}^{K}\right)\right)\right) \\ Attn_{W}=\sigma\left(GN_{W}^{K}\left(Concat\left(\tilde{X}_{W}^{1}, \tilde{X}_{W}^{2}, \ldots, \tilde{X}_{W}^{K}\right)\right)\right) \\ SMSA(X)=X_{s}=Attn_{H} \times Attn_{W} \times X \end{array} AttnH?=σ(GNHK?(Concat(X~H1?,X~H2?,…,X~HK?)))AttnW?=σ(GNWK?(Concat(X~W1?,X~W2?,…,X~WK?)))SMSA(X)=Xs?=AttnH?×AttnW?×X?
σ ( ? ) \sigma(\cdot) σ(?)表示Sigmoid歸一化,而 G N H K ( ? ) GN_{H}^{K}(\cdot) GNHK?(?)和 G N W K ( ? ) GN_{W}^{K}(\cdot) GNWK?(?)分別表示沿H和W維度進(jìn)行K組歸一化的GN。
3.2 漸進(jìn)式通道自注意力
計算通道注意力的常用方法是通過探索通道之間依賴關(guān)系的卷積操作[23,55]。使用卷積來建模特征之間的相似性有些不直觀,并且難以有效測量不同通道之間的相似性。受ViT[9]在利用多頭自注意力(MHSA)建模空間中不同標(biāo)記之間相似性方面的顯著優(yōu)勢啟發(fā),我們提出將單頭自注意力(SHSA)與來自多語義空間注意力(SMSA)的調(diào)制空間先驗相結(jié)合,以計算通道間相似性。此外,為了保留和利用SMSA提取的多語義空間信息,并降低SHSA的計算成本,我們采用基于平均池化的漸進(jìn)壓縮方法,該方法在我們的協(xié)同作用中起指導(dǎo)作用。與使用常見的卷積操作建模通道依賴性相比,漸進(jìn)式通道自注意力(PCSA)表現(xiàn)出更強(qiáng)的輸入感知能力,并有效利用SMSA提供的空間先驗來加深學(xué)習(xí)。我們PCSA的實現(xiàn)細(xì)節(jié)如下:
X p = P o o l ( 7 , 7 ) ( H , W ) → ( H ′ , W ′ ) ( X s ) F p r o j = D W C o n v 1 d ( 1 , 1 ) C → C Q = F p r o j Q ( X p ) , K = F p r o j K ( X p ) , V = F p r o j V ( X p ) X a t t n = A t t n ( Q , K , V ) = S o f t m a x ( Q K T C ) V P C S A ( X s ) = X c = X s × σ ( P o o l ( H ′ , W ′ ) ( H ′ , W ′ ) → ( 1 , 1 ) ( X a t t n ) ) \begin{array}{c} X_{p}=Pool_{(7,7)}^{(H, W) \rightarrow\left(H^{\prime}, W^{\prime}\right)}\left(X_{s}\right) \\ F_{proj}=DWConv1d_{(1,1)}^{C \rightarrow C} \\ Q=F_{proj}^{Q}\left(X_{p}\right), K=F_{proj}^{K}\left(X_{p}\right), V=F_{proj}^{V}\left(X_{p}\right) \\ X_{attn}=Attn(Q, K, V)=Softmax\left(\frac{QK^{T}}{\sqrt{C}}\right)V \\ PCSA\left(X_{s}\right)=X_{c}=X_{s} \times \sigma\left(Pool_{\left(H^{\prime}, W^{\prime}\right)}^{\left(H^{\prime}, W^{\prime}\right) \rightarrow(1,1)}\left(X_{attn}\right)\right) \end{array} Xp?=Pool(7,7)(H,W)→(H′,W′)?(Xs?)Fproj?=DWConv1d(1,1)C→C?Q=FprojQ?(Xp?),K=FprojK?(Xp?),V=FprojV?(Xp?)Xattn?=Attn(Q,K,V)=Softmax(C?QKT?)VPCSA(Xs?)=Xc?=Xs?×σ(Pool(H′,W′)(H′,W′)→(1,1)?(Xattn?))?
P o o l ( k , k ) ( H , W ) → ( H ′ , W ′ ) ( ? ) Pool_{(k, k)}^{(H, W) \rightarrow\left(H^{\prime}, W^{\prime}\right)}(\cdot) Pool(k,k)(H,W)→(H′,W′)?(?)表示核大小為 k × k k \times k k×k的池化操作,將分辨率從 ( H , W ) (H, W) (H,W)縮放到 ( H ′ , W ′ ) \left(H^{\prime}, W^{\prime}\right) (H′,W′)。 F p r o j ( ? ) F_{proj}(\cdot) Fproj?(?)表示生成查詢(Q)、鍵(K)和值(V)的線性投影。
值得注意的是,與ViT中的MHSA不同,其中 Q , K , V ∈ R B × N × C Q, K, V \in \mathbb{R}^{B \times N \times C} Q,K,V∈RB×N×C且 N = H W N=HW N=HW,在我們的PCSA的通道注意力單頭自注意力(CA-SHSA)中,自注意力是沿通道維度計算的,其中 Q , K , V ∈ R B × C × N Q, K, V \in \mathbb{R}^{B \times C \times N} Q,K,V∈RB×C×N。此外,為了與SMSA中分解的不同子特征充分交互,我們選擇實現(xiàn)更簡單的單頭自注意力機(jī)制,而不是將多頭自注意力與通道混洗相結(jié)合[66]。
3.3 協(xié)同效應(yīng)
空間與通道注意力機(jī)制的協(xié)同旨在相互補充。在我們的工作中,我們提出了一種通過空間注意力引導(dǎo)通道注意力學(xué)習(xí)的新概念。受CBAM [57]和CPCA[24]之間聯(lián)系的啟發(fā),我們采用類似的串行結(jié)構(gòu)來整合我們的空間多語義注意力(SMSA)和位置敏感通道注意力(PSCA)模塊,形成空間通道協(xié)同注意力(SCSA)。不同的是,首先應(yīng)用空間注意力SMSA,然后是通道注意力PSCA。前者從每個特征中提取多語義空間信息,為后者提供精確的空間先驗;后者通過利用整體特征圖 X X X來細(xì)化局部子特征 X i X^{i} Xi的語義理解,從而減輕前者中多尺度卷積引起的語義差異。此外,與以前的方法[23,57,40,20]不同,我們沒有采用通道壓縮,有效防止了關(guān)鍵特征的丟失。最終,我們構(gòu)建的SCSA如下:
SCSA ( X ) = PCSA ( SMSA ( X ) ) \text{SCSA}(X)=\text{PCSA}(\text{SMSA}(X)) SCSA(X)=PCSA(SMSA(X))
3.4 注意力機(jī)制的整合
在我們的工作中,我們將提出的SCSA整合到不同的主干網(wǎng)絡(luò)中,以驗證其在增強(qiáng)特征提取能力方面的有效性。如圖3所示,SCSA被整合到四個主流模塊中:(a)和(b)代表基于ResNet [19]及其變體系列[60]的模塊;?代表基于MobileNet系列[46, 21, 37]的倒置殘差結(jié)構(gòu);(d)代表重參數(shù)化方法代表RepVGG [8]的模塊結(jié)構(gòu)。
4 實驗
4.1 實驗設(shè)置
在本節(jié)中,我們首先介紹實驗細(xì)節(jié)。接下來,我們在四個視覺任務(wù)上進(jìn)行了實驗,將我們提出的SCSA與其他最先進(jìn)的注意力機(jī)制進(jìn)行了比較。之后,在第4.5節(jié)中,我們從四個不同角度對我們精心設(shè)計的SCSA進(jìn)行了全面的消融研究。
數(shù)據(jù)集。我們在四個視覺任務(wù)上驗證了方法的有效性。對于圖像分類,我們選擇了廣泛使用的ImageNet-1K [44]數(shù)據(jù)集。在目標(biāo)檢測中,我們使用了幾個具有挑戰(zhàn)性的檢測數(shù)據(jù)集,包括MSCOCO [30]、Pascal VOC [11]、VisDrone [10]和ExDark [34]。對于語義分割和實例分割,我們選擇了廣泛使用的ADE20K [67]和MSCOCO [30]基準(zhǔn)。
我們熱衷于探索注意力機(jī)制是否能更有效地應(yīng)用于各種復(fù)雜場景任務(wù)。雖然之前的研究[23,55,65,39,57,61]在廣泛使用的基準(zhǔn)(如ImageNet-1K [44]、MSCOCO [30])上表現(xiàn)出了良好的性能,但在密集、低光照和小目標(biāo)場景中的有效性仍有待探索。因此,我們使用表4中的代表性基準(zhǔn)進(jìn)行了更多實驗:小目標(biāo)數(shù)據(jù)集VisDrone [10]、低光照數(shù)據(jù)集ExDark [34]、紅外自動駕駛數(shù)據(jù)集FLIR-ADAS v2 [13]和通用數(shù)據(jù)集Pascal VOC [11]。
評估指標(biāo)。我們使用Top-1和Top-5指標(biāo)來衡量圖像分類性能,使用平均精度(AP)來評估目標(biāo)檢測性能,并報告參數(shù)數(shù)量(Params)、每秒浮點運算次數(shù)(FLOPs)和吞吐量來衡量性能。對于語義分割,我們采用平均交并比(mIoU)。
實現(xiàn)細(xì)節(jié)。為了評估我們在ImageNet-1K [44]上提出的SCSA,我們選擇了四個基于CNN和Transformer架構(gòu)的主流主干網(wǎng)絡(luò),包括ResNet [19]、MobileNetV2 [46]、RepVGG [8]和Swin [33]。具體來說,我們遵循了原始論文[19, 46, 8, 33]中的參數(shù)配置,除了批量大小和學(xué)習(xí)率。由于所有分類模型都在單個NVIDIA RTX 4090 GPU上進(jìn)行訓(xùn)練,我們根據(jù)線性縮放規(guī)則[15, 63]調(diào)整了批量大小和學(xué)習(xí)率。對于ResNet [19]、RepVGG [8]和Swin [33],批量大小統(tǒng)一設(shè)置為128,學(xué)習(xí)率分別縮放為0.05、0.05和0.000125。當(dāng)使用我們的SCSA訓(xùn)練MobileNetV2時,我們使用ECANet [55]中的批量大小和學(xué)習(xí)率,分別設(shè)置為96和0.045。值得注意的是,為了提高訓(xùn)練效率,我們采用了自動混合精度(AMP)訓(xùn)練。
我們使用Faster R-CNN [43]、Mask R-CNN [18]、Cascade R-CNN [3]和RetinaNet [29]在MSCOCO [30]上評估了我們的SCSA。這些檢測器使用MMDetection [5]工具箱實現(xiàn),并采用默認(rèn)設(shè)置。所有模型都使用SGD優(yōu)化器進(jìn)行訓(xùn)練,動量設(shè)置為0.9,權(quán)重衰減設(shè)置為 1 e ? 4 1 \text{e}-4 1e?4,每個GPU的批量大小為2,總共訓(xùn)練12個周期。Faster R-CNN、Mask R-CNN和Cascade R-CNN的學(xué)習(xí)率從0.0025開始,而RetinaNet的學(xué)習(xí)率從0.00125開始。所有模型的學(xué)習(xí)率在第8個和第11個周期時減少10倍。我們使用單個NVIDIA H800 GPU在MSCOCO [30]上對模型進(jìn)行了12個周期的微調(diào),并在驗證集上報告了比較結(jié)果。在上述配置的基礎(chǔ)上,我們進(jìn)一步評估了所提出的SCSA方法在Pascal VOC [11]以及VisDrone [10]、ExDark [34]和FLIR-ADAS V2 [13]等復(fù)雜場景中的檢測性能和泛化能力。
我們還使用UperNet [59]在ADE20K [67]上驗證了我們的方法在語義分割方面的有效性。遵循常見做法[6,64],我們使用MMSegmentation [7]工具箱,將批量大小設(shè)置為16,并進(jìn)行80k次訓(xùn)練迭代。所有模型都使用SGD優(yōu)化器進(jìn)行訓(xùn)練,初始學(xué)習(xí)率設(shè)置為0.01,動量設(shè)置為0.9,權(quán)重衰減設(shè)置為 5 e ? 4 5 \text{e}-4 5e?4。我們還使用單個NVIDIA H800 GPU進(jìn)行訓(xùn)練和推理。
所有模型都使用默認(rèn)的隨機(jī)種子0進(jìn)行訓(xùn)練。
4.2 圖像分類
我們將所提出的空間通道自注意力(SCSA)機(jī)制與其他最先進(jìn)的注意力機(jī)制進(jìn)行了比較,包括SENet[23]、CBAM[57]、ECANet[55]、FcaNet(FCA)[41]、CA[20]、SANet[65]、EMA[39]、CPCA[24]和ELA[61]。如表2所示,我們的SCSA在不同規(guī)模的網(wǎng)絡(luò)中實現(xiàn)了最高的Top-1準(zhǔn)確率,同時參數(shù)數(shù)量和計算復(fù)雜度可忽略不計。在混合架構(gòu)中,我們的方法基于ResNet的吞吐量僅次于CA和ELA,但在適中的模型寬度下,它在準(zhǔn)確性、速度和模型復(fù)雜度之間提供了更好的平衡。將SCSA方法融入MobileNetV2架構(gòu)顯著提高了模型準(zhǔn)確性。盡管SCSA在參數(shù)數(shù)量上更輕量( 3.63 M 3.63 \mathrm{M} 3.63M vs. 4.07 M 4.07 \mathrm{M} 4.07M,- 0.44 M 0.44 \mathrm{M} 0.44M),但其多分支結(jié)構(gòu)在倒置殘差塊內(nèi)遇到了通道維度急劇增加的問題,從而導(dǎo)致吞吐量降低。值得注意的是,將所提出的SCSA方法融入RepVGG[8]和基于空間自注意力的Swin[33]等先進(jìn)模型,仍然分別實現(xiàn)了 1.21 % 1.21 \% 1.21%和 0.70 % 0.70 \% 0.70%的顯著準(zhǔn)確性提升,有效證明了我們的注意力機(jī)制在不同模型架構(gòu)中的適應(yīng)性。
4.3 目標(biāo)檢測
MSCOCO上的結(jié)果。我們在MSCOCO上評估了各種注意力機(jī)制,以驗證我們的方法在密集檢測場景中的有效性。我們使用ResNet50和ResNet-101作為主干網(wǎng)絡(luò),FPN[28]作為特征融合網(wǎng)絡(luò)。如表3所示,我們的方法在各種檢測器、模型大小和對象尺度上均優(yōu)于其他最先進(jìn)的注意力方法。對于Faster R-CNN[43],與原始ResNet-50和ResNet101相比,我們的SCSA在AP方面分別提高了 1.7 % 1.7 \% 1.7%和 1.3 % 1.3 \% 1.3%。與其他即插即用的注意力模塊(包括CBAM[57]、FCA[41]、ECA[55]和CA[20])相比,SCSA表現(xiàn)出更優(yōu)的性能,在Cascade R-CNN[3]檢測器上實現(xiàn)了 0.4 % 0.4 \% 0.4%到 1.0 % 1.0 \% 1.0%的增益。此外,它在不同尺度的目標(biāo)檢測中始終表現(xiàn)出色,證實了其對多尺度特征的強(qiáng)大適應(yīng)性。
紅外、低光照和小目標(biāo)檢測的結(jié)果。如表4所示,令人欣慰的是,與其他同類方法相比,所提出的SCSA在這些基準(zhǔn)測試[34, 10,11,13]中的表現(xiàn)更佳,進(jìn)一步證明了我們的策略在保持通道維度和多語義信息協(xié)同概念方面的魯棒性。值得注意的是,我們的結(jié)果表明,在長尾數(shù)據(jù)集(如FLIR-ADASv2[13])上應(yīng)用注意力機(jī)制仍存在一些局限性,這導(dǎo)致了極小的性能提升甚至下降。這可能是由于注意力機(jī)制的壓縮和激勵策略不適合處理不平衡分布的數(shù)據(jù),導(dǎo)致關(guān)注高頻類別而忽視低頻類別的學(xué)習(xí)。
4.4 分割
我們還在ADE20K[67]上的語義分割和MSCOCO[30]上的實例分割中測試了其性能。我們基于UperNet[59]網(wǎng)絡(luò)進(jìn)行了廣泛的比較實驗。如表5和表6所示,我們的SCSA顯著優(yōu)于其他注意力方法。具體而言,在ResNet-50和ResNet101上,SCSA在mIoU方面分別提高了 0.94 % 0.94 \% 0.94%和 1.02 % 1.02 \% 1.02%,而其他方法僅實現(xiàn)了 0.1 % 0.1 \% 0.1%到 0.2 % 0.2 \% 0.2%的提升,甚至有些方法的性能還低于基線模型。同時,在實例分割任務(wù)中,SCSA在AP方面實現(xiàn)了 0.3 % 0.3 \% 0.3%到 0.7 % 0.7 \% 0.7%的提升,超越了其他同類方法。這些結(jié)果表明,我們的方法基于多語義空間信息,在像素級任務(wù)中表現(xiàn)出色。
4.5 消融研究
如表1所示,我們將SCSA應(yīng)用于ResNet-50,在ImageNet-1K數(shù)據(jù)集[44]上構(gòu)建了SCSA-50作為基線,以從四個方面進(jìn)行消融研究。
宏觀設(shè)計。我們分別驗證了SMSA和PCSA模塊,與ResNet-50相比,兩者在準(zhǔn)確性方面均顯示出顯著提升。在SMSA中,受多語義信息指導(dǎo),Top-1準(zhǔn)確率顯著提高了 1.05 % 1.05\% 1.05%,而PCSA通過減輕多語義差異并促進(jìn)通道交互,將準(zhǔn)確率提高了 0.82 % 0.82\% 0.82%。如果PCSA中沒有進(jìn)行漸進(jìn)式壓縮,準(zhǔn)確率會下降 0.18 % 0.18\% 0.18%,這主要是因為在進(jìn)行直接的全局空間壓縮后,PCSA無法利用SMSA提供的判別性空間先驗來進(jìn)行計算。
順序。我們的研究主要旨在探索跨空間和通道維度的固有多語義空間信息是否能有效指導(dǎo)通道特征的學(xué)習(xí)。為了進(jìn)一步證明這種“指導(dǎo)”的好處,我們交換了PCSA和SMSA的順序。有趣的是,Top-1準(zhǔn)確率下降了 0.29 % 0.29\% 0.29%,這進(jìn)一步驗證了我們之前的假設(shè),即空間注意力可以指導(dǎo)通道特征的學(xué)習(xí),從而證實了使用多語義信息進(jìn)行指導(dǎo)的有效性。
盡管歸一化有助于減少數(shù)據(jù)噪聲并加速模型收斂[45],但SMSA中歸一化的位置可能會產(chǎn)生不同的效果。基于MHSA[52, 9]的主干網(wǎng)絡(luò)通常在注意力計算之前使用層歸一化(LN)[1],而一些即插即用的注意力模塊要么省略歸一化層[55,24],要么提前應(yīng)用它們[65,39]。為了探索歸一化在SMSA中的必要性和最佳位置,我們通過在注意力之前添加歸一化和移除歸一化來進(jìn)行實驗。表1中的結(jié)果表明,歸一化對于注意力機(jī)制至關(guān)重要,盡管其具體位置影響較小。預(yù)歸一化有助于處理輸入特征之間的變化并提高訓(xùn)練穩(wěn)定性,但可能會導(dǎo)致特征細(xì)節(jié)丟失,降低注意力對細(xì)粒度信息的敏感性。相反,在注意力計算后應(yīng)用歸一化可以減輕噪聲,但也可能削弱模型對重要特征的關(guān)注。最終,基于準(zhǔn)確性結(jié)果,我們選擇在SMSA的注意力計算后放置歸一化。
微觀設(shè)計。在上述實驗分析確認(rèn)歸一化層在注意力計算中的重要性后,我們考慮組歸一化是否更適合從所提議的SCSA中的多個子特征中提取多語義信息。為了研究這一點,我們進(jìn)行了消融研究,比較了深度神經(jīng)網(wǎng)絡(luò)(DNNs)中流行的歸一化方法,如BN[26]和LN[1]。結(jié)果表明,當(dāng)GN依次被BN和LN替換時,準(zhǔn)確性和推理速度均下降,Top-1準(zhǔn)確率分別降至 77.19 % 77.19\% 77.19%和 77.20 % 77.20\% 77.20%。這些下降歸因于GN在保留子特征間語義模式獨立性方面的卓越能力,從而最小化了語義干擾。相反,BN對批量大小的敏感性在處理多語義信息時可能會引入統(tǒng)計噪聲[2]。LN通過沿通道維度進(jìn)行歸一化并捕獲所有特征的信息,可能會破壞SMSA的多尺度卷積從單個子特征中提取的獨特語義模式。這些消融研究表明,GN在涉及多個語義的卷積層中可能是更合適的選擇。此外,使用非共享卷積導(dǎo)致的準(zhǔn)確性下降和參數(shù)增加進(jìn)一步驗證了使用共享卷積在H和W維度上一致學(xué)習(xí)和建模特征依賴性的有效性。
此外,當(dāng)用多頭和通道混洗操作[66]替換PCSA中的單個注意力頭時,性能從 77.49 % 77.49\% 77.49%下降到 77.35 % 77.35\% 77.35%。這種現(xiàn)象主要歸因于單個頭部促進(jìn)的強(qiáng)通道間交互,這有效緩解了SMSA中產(chǎn)生的語義差異。為了驗證沿高度和寬度維度分解的1D序列上的共享卷積學(xué)習(xí),我們將其與非共享卷積學(xué)習(xí)進(jìn)行了比較。結(jié)果表明,準(zhǔn)確性下降了 0.17 % 0.17\% 0.17%,吞吐量降低,并且由于更多的卷積運算,參數(shù)和浮點運算數(shù)(FLOPs)增加。這證實了跨維度的共享學(xué)習(xí)能夠捕獲互補特征,從而增強(qiáng)模型的表達(dá)能力。
分支。SMSA中語義特征捕獲的豐富性取決于每個分支中使用的分支數(shù)量和卷積核大小。每個分支都設(shè)計為學(xué)習(xí)不同的子特征。減少分支數(shù)量會削弱模塊提取固有多語義特征的能力。為了評估捕獲不同語義特征對模型性能的影響,我們使用了不同數(shù)量的分支和卷積核大小進(jìn)行了實驗。如表1的“分支”部分所示,雙分支結(jié)構(gòu)的準(zhǔn)確性超過了單分支結(jié)構(gòu),而四分支結(jié)構(gòu)又進(jìn)一步優(yōu)于雙分支結(jié)構(gòu)。這一結(jié)果支持了我們在捕獲子特征間不同語義模式方面,多分支、多尺度結(jié)構(gòu)的有效性,從而增強(qiáng)了模型的表征能力。隨著分支數(shù)量的增加,模型的內(nèi)存訪問開銷也隨之增加,導(dǎo)致推理速度下降。
5 可視化與分析
5.1 注意力可視化
我們通過確保對關(guān)鍵區(qū)域給予適當(dāng)關(guān)注來評估我們的方法在緩解語義差異和提高一致性方面的有效性。如圖4所示,與其他最先進(jìn)的注意力機(jī)制相比,我們的SCSA(語義通道和空間注意力)明顯關(guān)注多個關(guān)鍵區(qū)域,在顯著減少關(guān)鍵信息丟失的同時提供了豐富的特征信息。我們還可視化了SCSA的組成部分,包括SMSA(語義多尺度注意力)和PCSA(位置交叉語義注意力)模塊。在沒有PCSA模塊來處理語義差異的情況下,激活強(qiáng)度的分布仍然不夠平衡。如果沒有SMSA模塊來引導(dǎo)多語義空間,對重要區(qū)域的關(guān)注可能會受到限制。
5.2 有效感受野可視化
如圖5所示,利用多語義建模的空間結(jié)構(gòu),我們的SCSA實現(xiàn)了更廣泛的感知區(qū)域。更大的有效感受野(ERF)有助于網(wǎng)絡(luò)利用豐富的上下文信息進(jìn)行集體決策,這是性能提升的重要因素之一。為了驗證我們的方法性能受益于更大的ERF,我們從ImageNet-1K驗證集[44]中隨機(jī)抽取了300張不同類別的圖像,測量原始圖像中每個像素對模型第三階段和第四階段輸出特征圖中心點的貢獻(xiàn),并通過加權(quán)和歸一化的梯度值量化ERF的范圍??梢暬Y(jié)果表明,隨著網(wǎng)絡(luò)層的加深,我們的SCSA的ERF變得越來越明顯,這證實了我們的假設(shè)和方法的有效性。
5.3 計算復(fù)雜度
給定輸入 X ∈ R B × C × H × W X \in \mathbb{R}^{B \times C \times H \times W} X∈RB×C×H×W,池化大小為 P × P P \times P P×P,深度卷積核大小為 K × K K \times K K×K,我們依次考慮維度解耦、深度共享的1D卷積、歸一化、漸進(jìn)壓縮和通道自注意力對SCSA模塊的影響。為了簡化觀察,我們忽略系數(shù)。SCSA的計算復(fù)雜度為:
Ω ( S C S A ) = O ( H C + W C ) + O ( K H C + K W C ) + O ( H W C ) + O ( P 2 H ′ W ′ C + H ′ W ′ C ) + O ( H ′ W ′ C + H ′ W ′ C 2 ) \begin{aligned} \Omega(SCSA)= & \mathcal{O}(HC+WC)+\mathcal{O}(KHC+KWC) \\ & +\mathcal{O}(HWC)+\mathcal{O}\left(P^{2}H^{\prime}W^{\prime}C+H^{\prime}W^{\prime}C\right) \\ & +\mathcal{O}\left(H^{\prime}W^{\prime}C+H^{\prime}W^{\prime}C^{2}\right) \end{aligned} Ω(SCSA)=?O(HC+WC)+O(KHC+KWC)+O(HWC)+O(P2H′W′C+H′W′C)+O(H′W′C+H′W′C2)?
其中, H ′ H^{\prime} H′ 和 W ′ W^{\prime} W′ 分別表示漸進(jìn)壓縮操作產(chǎn)生的中間特征圖的高度和寬度。
我們觀察到,當(dāng)模型寬度(即通道數(shù) C C C)適中時, Ω ( S C S A ) \Omega(SCSA) Ω(SCSA) 與輸入序列的長度呈線性關(guān)系。這表明當(dāng)模型寬度適中時,我們的SCSA可以以線性復(fù)雜度進(jìn)行推理。
5.4 推理吞吐量評估
如表1和表2所示,我們在消融實驗中評估了SCSA各個組件的吞吐量,并比較了使用不同注意力機(jī)制的各種基準(zhǔn)模型的吞吐量。我們使用GeForce RTX 4090 GPU在224×224的分辨率下進(jìn)行了實驗,批量大小為32,以模擬實際應(yīng)用并最大化GPU利用率。為了最小化變異性,我們對每種注意力機(jī)制重復(fù)了100次實驗,并報告了平均推理時間。具體而言,如表2所示,盡管SCSA略慢于純通道注意力,但它優(yōu)于大多數(shù)混合注意力機(jī)制,包括CBAM、SANet、EMA和CPCA,并實現(xiàn)了最高的準(zhǔn)確性。
5.5 目標(biāo)檢測定性結(jié)果
如圖6所示,我們的方法在具有挑戰(zhàn)性的場景中表現(xiàn)出優(yōu)越的性能,包括遮擋、密集環(huán)境、小物體群集和低光照條件。
5.6 實例分割定性結(jié)果
如圖7所示,我們的方法對遮擋和重疊的對象進(jìn)行了更全面和準(zhǔn)確的分割,獲得了更高的置信度分?jǐn)?shù)。這些結(jié)果突出了我們的方法在利用多語義信息以更好地感知相關(guān)對象的上下文空間方面的優(yōu)勢。
5.7 語義分割定性結(jié)果
從圖8可以看出,我們的方法顯著改善了重疊和語義相鄰對象的分割,有效區(qū)分了如坐在椅子上的觀眾和浴缸附近的廁所等場景。
6 局限性
我們證明了所提出的即插即用協(xié)同注意力方法——空間通道協(xié)同注意力(SCSA)在圖像分類、目標(biāo)檢測以及實例和語義分割方面表現(xiàn)出色。盡管我們致力于探索不同維度之間的協(xié)同作用,并已通過實證驗證了利用多語義空間信息來指導(dǎo)通道重新校準(zhǔn)并增強(qiáng)特征交互以緩解語義差異的有效性,但在現(xiàn)實世界的部署中,推理延遲仍然是一個重大挑戰(zhàn)。我們的方法在適當(dāng)?shù)哪P蛯挾认聦崿F(xiàn)了模型參數(shù)、準(zhǔn)確性和推理速度的最佳平衡。然而,在更大的寬度下,推理速度的主要瓶頸在于構(gòu)建多語義空間結(jié)構(gòu)時使用了深度卷積和分支,這些操作具有較低的浮點運算數(shù)(FLOPS),頻繁訪問內(nèi)存,且計算密度較低[4,51,36]。我們認(rèn)為,應(yīng)根據(jù)具體任務(wù)和場景優(yōu)化這些即插即用注意力模塊的定位和數(shù)量,以確保達(dá)到峰值性能。未來,我們將研究更輕量、更快的即插即用注意力機(jī)制,探索不同維度之間的協(xié)同關(guān)系。
7 結(jié)論
在本研究中,我們分析了大多數(shù)即插即用注意力方法在利用特征和空間及通道維度中固有的多語義信息方面存在的局限性,以及語義差異帶來的挑戰(zhàn)。為解決這些問題,我們提出了一種新穎的即插即用空間通道協(xié)同注意力(SCSA)機(jī)制,該機(jī)制融合了維度解耦、輕量級多語義指導(dǎo)和語義差異緩解。SCSA利用多語義空間注意力來指導(dǎo)不同通道特征的學(xué)習(xí),隨后在通道維度上應(yīng)用單頭自注意力來緩解語義差異并促進(jìn)語義交互。大量實驗表明,SCSA在廣泛使用的基準(zhǔn)測試中始終優(yōu)于最先進(jìn)的注意力機(jī)制,表現(xiàn)出增強(qiáng)的性能和穩(wěn)健的泛化能力。我們希望我們的工作能夠鼓勵進(jìn)一步探索不同領(lǐng)域中多個維度之間的協(xié)同特性。