在什么網(wǎng)站可以接活做梅州網(wǎng)絡(luò)推廣
原文標(biāo)題為:DA-DETR: Domain Adaptive Detection Transformer with Information Fusion;發(fā)表于CVPR2023
一、概述
? ? ? ? 本文所描述的模型基于DETR,DETR網(wǎng)絡(luò)是一種基于Transformer的目標(biāo)檢測網(wǎng)絡(luò),詳細(xì)原理可以參見往期文章:[自注意力神經(jīng)網(wǎng)絡(luò)]DETR目標(biāo)檢測網(wǎng)絡(luò)。本文在DETR模型的基礎(chǔ)上,引入了信息融合機(jī)制,可以有效的實(shí)現(xiàn)從有標(biāo)記的源域向無標(biāo)記的目標(biāo)域之間的轉(zhuǎn)移。
? ? ? ? 相較于傳統(tǒng)的兩段式網(wǎng)絡(luò)(Two-Stage;如Faster RCNN),DETR可以通過CNN骨干網(wǎng)絡(luò)獲得低層次的定位特征(如對象周圍的邊緣)通過Transformer Head獲得全局像素間的關(guān)系和高級語義特征。融合這兩種不同層次的信息可以有效的解決域自適應(yīng)問題。
? ? ? ? 本文創(chuàng)造性的提出了CTBlender(CNN-Transformer Blender)的概念。其原理是使用Transformer Head中的高級語義特征來有條件的調(diào)節(jié)CNN主干中的低級特征。CTBlender由兩個(gè)組件構(gòu)成:
? ? ? ? ? ? ? ? ①分裂-合并融合(split-merge fusion;SMF):將CNN特征分為多個(gè)具有不同語義的組;再通過Transformer捕獲這些語義信息;然后將這些通過并排合并(便于不同組之間有效的通信)
? ? ? ? ? ? ? ? ②多尺度聚合融合(scale aggregation fusion;SAF):通過融合多尺度特征的語義信息和本地化信息來聚合SMF獲得的特征。
二、模型&方法
? ? ? ? 1.Deformable-MSA
? ? ? ? DETR采用“編碼器-解碼器”模式,對于給定的圖像,先由骨干網(wǎng)絡(luò)
生成特征向量
,然后通過Transformer對其進(jìn)行編解碼,Transformer由多頭注意力模塊組成,可以定義為公式:
????????????????;其中
是由
個(gè)單頭注意力構(gòu)成,
和
表示查詢元素和關(guān)鍵元素,
和
為可學(xué)習(xí)的投影權(quán)重,而
一種縮放的點(diǎn)注意力(將查詢和鍵值映射到輸出中),可以描述為公式:
????????????????;其中
均為可學(xué)習(xí)權(quán)重。
? ? ? ? 本文提出了一種Deformable-Transformer(可變形Transformer)來代替?zhèn)鹘y(tǒng)的Transformer,這種結(jié)構(gòu)擁有更快的收斂速度,其可以表述為:
?????????????????;其中
為第k個(gè)采樣點(diǎn)的偏移量,
為關(guān)注權(quán)重,改結(jié)構(gòu)可以有效的緩解DERT收斂慢的問題,同時(shí)可變形的特點(diǎn)也適合從骨干網(wǎng)絡(luò)中融合多尺度特征結(jié)構(gòu)。
? ? ? ? 2.網(wǎng)絡(luò)結(jié)構(gòu)
? ? ? ? 網(wǎng)絡(luò)總體結(jié)構(gòu)如上圖所示,整個(gè)網(wǎng)絡(luò)可以被描述為公式:
????????????????;其中
為源域圖像,
為源域標(biāo)簽,
為骨干網(wǎng)絡(luò),
為DERT Head,
為匈牙利損失函數(shù)。
? ? ? ? 從結(jié)構(gòu)圖可以看出,與傳統(tǒng)DERT相比,其最大的區(qū)別是加入了CTBlender模塊用于進(jìn)行非監(jiān)督的域適應(yīng)訓(xùn)練。故其用于監(jiān)督學(xué)習(xí)的分支①與傳統(tǒng)DERT相同,通過將損失函數(shù)前向傳遞即可完成訓(xùn)練。
? ? ? ? 對于無監(jiān)督訓(xùn)練,CTBlender以源圖和目標(biāo)圖的CNN的多尺度特征向量和Transformer編碼的語義向量
作為輸入,CTBlender的輸出將作為鑒別器(Discriminator)的輸入,計(jì)算得出用于域間對齊的對抗損失函數(shù)
,可以表述為公式:
? ? ? ??????????;其中
,
是骨干網(wǎng)絡(luò)函數(shù),
為Transformer編碼器函數(shù),
為CTBlender函數(shù)
為鑒別器。
? ? ? ? DA-DERT的總體優(yōu)化函數(shù)可以描述為:
? ? ? ? 3.CTBlender
? ? ? ? CTBlender由兩個(gè)模塊組成:SMF(負(fù)責(zé)混合CNN和Transformer的特征)和SAF(負(fù)責(zé)融合不同尺寸的加權(quán)特征圖),其具體結(jié)構(gòu)如下:
? ? ? ? ? ? ? ? ①SMF
? ? ? ? ? ? ? ? ?由于SMF對每層的操作都是一樣的,原文選擇時(shí)的數(shù)據(jù)進(jìn)行展示。首先將CNN的特征圖
和Transformer的語義特征
拆分(split)為多個(gè)組,(
和
沿著通道均分為
個(gè)組)并通過空間(Spatial-wise)和通道(Channel-wise)兩個(gè)方向進(jìn)行融合;融合后的特征與信道進(jìn)行合并(merge)。
? ? ? ? ? ? ? ? 空間融合:分裂的特征首先進(jìn)行歸一化,然后通過可學(xué)習(xí)權(quán)重圖對偏置圖(bias map)進(jìn)行重加權(quán),可以描述為公式:
????????????????????????;其中
的輸出范圍限定在[0,1]
? ? ? ? ? ? ? ? 通道融合:分裂的通過全局池化進(jìn)行壓縮,然后通過可學(xué)習(xí)權(quán)重圖對偏置圖(bias map)進(jìn)行重加權(quán),可以描述為公式:
????????????????????????;其中GAP為全局平均池化(Global Average Pooling),
的輸出范圍限定在[0,1]
? ? ? ? ? ? ? ? 利用上面求出的權(quán)重和
在對應(yīng)的方向上對分裂后的特征圖
進(jìn)行重新加權(quán),得到加權(quán)后的特征圖
,然后沿著通道方向?qū)?img referrerpolicy="no-referrer" alt="\hat{f}^1_k" class="mathcode" src="https://latex.csdn.net/eq?%5Chat%7Bf%7D%5E1_k" />進(jìn)行K次混洗(shuffle),將混洗后的特征圖融合為
? ? ? ? ? ? ? ? ②SAF
? ? ? ? ? ? ? ? ?將SMF得到的多尺度加權(quán)特征圖組通過全局平均池化(GAP)壓縮為向量組
。首先通過逐元素求和的方法將通道方向的向量求和為
;然后通過全連接層將向量
和對應(yīng)的權(quán)重向量
連接(
);最后將文本信息嵌入到向量
中,可描述為公式:
。