国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁 > news >正文

縉云縣城鄉(xiāng)建設(shè)局網(wǎng)站軟文技巧

縉云縣城鄉(xiāng)建設(shè)局網(wǎng)站,軟文技巧,六安seo報價,網(wǎng)站支付怎么做標(biāo)題:GraphFPN: Graph Feature Pyramid Network for Object Detection 會議:ICCV2021 論文地址:https://ieeexplore.ieee.org/document/9710561/ Abstract 特征金字塔已經(jīng)被證明在需要多尺度特征的圖像理解任務(wù)中是強(qiáng)大的。SOTA的多尺度特征…

標(biāo)題:GraphFPN: Graph Feature Pyramid Network for Object Detection
會議:ICCV2021
論文地址:https://ieeexplore.ieee.org/document/9710561/

Abstract

特征金字塔已經(jīng)被證明在需要多尺度特征的圖像理解任務(wù)中是強(qiáng)大的。SOTA的多尺度特征學(xué)習(xí)方法側(cè)重于使用具有固定拓?fù)浣Y(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)進(jìn)行跨空間和跨尺度的特征交互。在本文中,我們提出了圖特征金字塔網(wǎng)絡(luò),它能夠調(diào)整其拓?fù)浣Y(jié)構(gòu)以適應(yīng)不同的內(nèi)在圖像結(jié)構(gòu),并支持在所有尺度上同時進(jìn)行特征交互。我們首先為每個輸入圖像定義一個特定于圖像的超像素層次結(jié)構(gòu)來表示其內(nèi)在的圖像結(jié)構(gòu)。圖特征金字塔網(wǎng)絡(luò)的結(jié)構(gòu)繼承了這個超像素層次結(jié)構(gòu)。上下文層和層次層旨在實(shí)現(xiàn)同一尺度內(nèi)和不同尺度間的特征交互。contextual層和hierarchical層旨在實(shí)現(xiàn)同一尺度內(nèi)和不同尺度間的特征交互。為了使這些層更加powerful,我們通過推廣卷積神經(jīng)網(wǎng)絡(luò)的全局通道注意力,為圖神經(jīng)網(wǎng)絡(luò)引入了兩種類型的局部通道注意力。提出的圖特征金字塔網(wǎng)絡(luò)可以增強(qiáng)來自卷積特征金字塔網(wǎng)絡(luò)中的多尺度特征。我們通過將圖特征金字塔網(wǎng)絡(luò)集成到Faster R-CNN算法中來在目標(biāo)檢測任務(wù)中進(jìn)行評估。在MS-COCO 2017驗證和測試數(shù)據(jù)集上,改進(jìn)的算法不僅優(yōu)于SOTA的基于特征金字塔的方法,而且優(yōu)于其他流行的檢測方法。

1. Introduction

深度卷積神經(jīng)網(wǎng)絡(luò)利用局部連通性和權(quán)重共享,在計算機(jī)視覺任務(wù)中取得了一系列突破性進(jìn)展,包括圖像識別、目標(biāo)檢測、語義分割等。由于圖像中的目標(biāo)可能具有不同的尺度,因此需要在每個不同的尺度上獲得具有足夠空間分辨率的高層和低層特征融合后的多尺度特征圖。這啟發(fā)了特征金字塔網(wǎng)絡(luò)(FPN)及其改進(jìn)版本,如路徑聚合網(wǎng)絡(luò)(PANet)和特征金字塔轉(zhuǎn)換器(FPT)等。
每幅圖像都具有多尺度的內(nèi)在結(jié)構(gòu),包括將像素分組為目標(biāo)部分、將部分進(jìn)一步分組為目標(biāo)以及圖像空間中目標(biāo)的空間布局。這種多尺度內(nèi)在結(jié)構(gòu)因圖像而異,可以為圖像理解和目標(biāo)識別提供重要線索。但是FPN及其相關(guān)方法總是使用與圖像內(nèi)在結(jié)構(gòu)無關(guān)的固定的多尺度網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(即神經(jīng)元的2D網(wǎng)格)。這種固定的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)對于多尺度特征學(xué)習(xí)可能不是最優(yōu)的。根據(jù)心理學(xué)的證明,人類將視覺場景解析為部分-整體的層次結(jié)構(gòu),對不同圖像中的部分-整體關(guān)系進(jìn)行動態(tài)建模。受此啟發(fā),研究人員開發(fā)了一系列“膠囊”模型,用于描述圖像特定區(qū)域中特定類型的出現(xiàn)。層次結(jié)構(gòu)的分割可以根據(jù)超像素的位置和相似度遞歸地對超像素進(jìn)行分組,生成超像素層次結(jié)構(gòu)。這樣一個部分-整體的層次結(jié)構(gòu)可以通過彌補(bǔ)像素和目標(biāo)之間的語義差距來輔助目標(biāo)檢測和語義分割。
眾所周知,特征金字塔中的多尺度特征可以通過跨尺度交互以及同一尺度內(nèi)的交互來增強(qiáng)?,F(xiàn)有特征金字塔網(wǎng)絡(luò)相關(guān)方法的另一個局限性是只有來自相鄰尺度的特征是直接交互的,而來自非相鄰尺度的特征則是通過其它的中間尺度間接交互。這一方面是因為匹配相鄰兩個尺度的分辨率最為方便,另一方面是因為現(xiàn)有的交互機(jī)制一次處理兩個尺度最為方便。相鄰尺度之間的交互通常遵循自頂向下或自底向上的順序。在現(xiàn)有的方案中,位于金字塔頂端的最高層特征需要經(jīng)過多個中間尺度傳播,并與這些尺度下的特征交互后才能到達(dá)金字塔底端的特征。在這種傳播和交互過程中,精髓的特征信息可能丟失或減弱。
在本文中,我們提出了圖特征金字塔網(wǎng)絡(luò)來克服上述限制,因為圖網(wǎng)絡(luò)能夠適應(yīng)輸入圖像的不同內(nèi)在結(jié)構(gòu),并且支持跨所有尺度同時的特征交互。我們首先為輸入圖像定義一個超像素層次結(jié)構(gòu)。這個超像素層次結(jié)構(gòu)有多個層次,每個層次由一組不重疊的超像素組成,定義了輸入圖像的一個分割。從輸入圖像的同一層次結(jié)構(gòu)分割中提取層次結(jié)構(gòu)的各層分割。因此,層次結(jié)構(gòu)中相鄰兩個層次的超像素是密切相關(guān)的。粗粒度上的每個超像素是細(xì)粒度上超像素的并集。超像素在兩個層次上的這種一對多的對應(yīng)關(guān)系定義了上述部分-整體關(guān)系,也可以稱為祖先-后代關(guān)系。層次結(jié)構(gòu)分割及其派生的超像素層次結(jié)構(gòu)揭示了圖像的內(nèi)在結(jié)構(gòu)。雖然超像素對圖像進(jìn)行了過度分割,但同一超像素中的像素通常屬于同一語義目標(biāo)/部分,并不會跨越語義目標(biāo)/部分的邊界。因此,超像素具有比均勻圖像分割中的單元更同性的像素,更有效地防止了背景雜質(zhì)和前景目標(biāo)之間的特征混合。
為了有效地利用圖像的內(nèi)在結(jié)構(gòu),我們的圖特征金字塔網(wǎng)絡(luò)的實(shí)際結(jié)構(gòu)通過輸入圖像的上述超像素層次結(jié)構(gòu)來確定。事實(shí)上,圖特征金字塔網(wǎng)絡(luò)通過將超像素映射到圖結(jié)點(diǎn)的方式,將其結(jié)構(gòu)從超像素層次結(jié)構(gòu)繼承過來。圖的邊建立在同一層次的相鄰超像素之間以及祖先-后裔關(guān)系中對應(yīng)的超像素之間。圖特征金字塔網(wǎng)絡(luò)中的層與特征提取主干中的一個子集層之間也建立了對應(yīng)關(guān)系。所有圖結(jié)點(diǎn)上的初始特征首先從其在主干中對應(yīng)位置的特征映射而來。contextual和hierarchical圖神經(jīng)網(wǎng)絡(luò)層分別被設(shè)計用來促進(jìn)同一尺度內(nèi)和不同尺度間的特征交互。hierarchical層使得來自所有不同尺度的對應(yīng)特征直接交互。將圖特征金字塔各層的最終特征與傳統(tǒng)特征金字塔網(wǎng)絡(luò)中的特征進(jìn)行融合,就產(chǎn)生了增強(qiáng)的多尺度特征。
我們在本文中的貢獻(xiàn)總結(jié)如下。

  • 我們提出了一種新的圖特征金字塔網(wǎng)絡(luò)來利用圖像的內(nèi)在結(jié)構(gòu)并支持跨所有尺度同時的特征交互。這種圖特征金字塔網(wǎng)絡(luò)繼承了輸入圖像的超像素層次結(jié)構(gòu)。contextual和hierarchical層分別被設(shè)計用來促進(jìn)同一尺度內(nèi)和不同尺度間的特征交互。
  • 通過推廣現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)全局通道注意力機(jī)制,我們進(jìn)一步引入了兩種類型的圖神經(jīng)網(wǎng)絡(luò)局部通道注意力機(jī)制。
  • 在MS-COCO 2017驗證和測試數(shù)據(jù)集上的大量實(shí)驗表明,我們的圖特征金字塔網(wǎng)絡(luò)能達(dá)到明顯優(yōu)于現(xiàn)有SOTA目標(biāo)檢測方法的性能,無論它們是否基于特征金字塔。消融研究的結(jié)果進(jìn)一步驗證了所提出的網(wǎng)絡(luò)組件的有效性。

2. Related Work

特征金字塔。 在目標(biāo)檢測和語義分割中,特征金字塔在多個尺度上呈現(xiàn)高層特征圖,并與主干網(wǎng)絡(luò)一起工作,以實(shí)現(xiàn)跨多個尺度的性能提升和平衡。最近關(guān)于特征金字塔的工作可以分為3類:自頂向下網(wǎng)絡(luò)、自頂向下/自底向上網(wǎng)絡(luò)和基于注意力的方法。特征金字塔網(wǎng)絡(luò)(FPN)利用深度卷積神經(jīng)網(wǎng)絡(luò)內(nèi)在的多尺度、金字塔層次結(jié)構(gòu),構(gòu)建具有橫向連接的自頂向下結(jié)構(gòu),獲得所有尺度下的高層語義特征圖。路徑聚合網(wǎng)絡(luò)(PANet)通過自底向上的路徑增強(qiáng)來縮短底層特征與最頂層特征之間的信息路徑,以增強(qiáng)特征的層次結(jié)構(gòu)。ZigZagNet不僅通過自頂向下和自底向上的稠密聚合,而且通過自頂向下和自底向上不同層次結(jié)構(gòu)之間的鋸齒交叉來豐富多層次的上下文信息。特征金字塔轉(zhuǎn)換器通過3個轉(zhuǎn)換器進(jìn)行跨空間和跨尺度的主動特征交互。自轉(zhuǎn)換器實(shí)現(xiàn)了單個特征圖內(nèi)部的非局部交互,grounding/rendering轉(zhuǎn)換器實(shí)現(xiàn)了特征金字塔相鄰層之間自頂向下/自底向上的連續(xù)交互。
本文旨在填補(bǔ)不同金字塔層的特征圖之間的語義差距。與上述工作相比,我們的圖特征金字塔網(wǎng)絡(luò)最獨(dú)特的特點(diǎn)是圖特征金字塔的拓?fù)浣Y(jié)構(gòu)會動態(tài)適應(yīng)輸入圖像的內(nèi)在結(jié)構(gòu)。此外,我們構(gòu)建了一個跨所有尺度的圖神經(jīng)網(wǎng)絡(luò),使得跨所有尺度同時的特征交互成為可能。
圖神經(jīng)網(wǎng)絡(luò)。 圖神經(jīng)網(wǎng)絡(luò)能夠靈活地建模結(jié)點(diǎn)間的依賴關(guān)系,可以用于數(shù)據(jù)結(jié)構(gòu)不規(guī)則的場景。圖卷積網(wǎng)絡(luò)(GCN)通過對圖進(jìn)行頻域卷積來在結(jié)點(diǎn)間傳播信息。圖注意力網(wǎng)絡(luò)(GAT)利用局部自注意力層為相鄰結(jié)點(diǎn)指定權(quán)重,在許多任務(wù)中得到了普及。Gao等人提出了結(jié)合圖池化和去池化操作的圖U-Net。圖池化層依靠可訓(xùn)練的相似性度量自適應(yīng)地選擇結(jié)點(diǎn)子集以形成更粗粒度的圖,而圖去池化層則利用保存的信息將圖反轉(zhuǎn)為其成對池化操作之前的結(jié)構(gòu)。
我們在GraphFPN中采用了GAT中的自注意力機(jī)制。為了進(jìn)一步提高結(jié)點(diǎn)特征的識別力,我們通過推廣現(xiàn)有CNNs的全局通道注意力機(jī)制,為GNNs引入局部通道注意力機(jī)制。與圖U-Net相比,我們的圖金字塔是建立在超像素層次結(jié)構(gòu)上的。其結(jié)點(diǎn)的合并和分離操作不僅基于局部相似性排序,而且依賴于圖像的內(nèi)在結(jié)構(gòu),這使得我們的GraphFPN在圖像理解任務(wù)中更加有效。
層次結(jié)構(gòu)分割和GLOM。 通過建立部分-整體的層次結(jié)構(gòu)來理解圖像一直是計算機(jī)視覺中長期存在的開放式問題。MCG和COB中的層次結(jié)構(gòu)分割算法可以利用檢測到的邊界將圖像的像素組合成超像素。這些超像素是分層形成的,以自底向上的方式描述目標(biāo)。Hinton提出了GLOM假想系統(tǒng),旨在使用具有固定結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)將圖像解析為特定于圖像的部分-整體層次結(jié)構(gòu)。
給定一幅輸入圖像,我們使用COB中的層次結(jié)構(gòu)分割來構(gòu)建特定于圖像的超像素層次結(jié)構(gòu),并在此基礎(chǔ)上進(jìn)一步構(gòu)建圖特征金字塔網(wǎng)絡(luò)。本文的貢獻(xiàn)之一在于利用特定于圖像的部分-整體層次結(jié)構(gòu)來增強(qiáng)多尺度特征學(xué)習(xí),這將有利于包括目標(biāo)檢測在內(nèi)的圖像理解任務(wù)。

3. Graph Feature Pyramid Networks

在這里插入圖片描述

3.1. Superpixel Hierarchy

在層次結(jié)構(gòu)分割中,像素(或者更小的超像素)通過相似性度量被遞歸地分組為更大的像素。給定一幅圖像I\boldsymbol{I}I,我們依靠卷積定向邊界(COB)來獲得一個層次結(jié)構(gòu)分割,即一族圖像劃分{S0,S1,...,SL}\{\mathcal{S}^0,\mathcal{S}^1,...,\mathcal{S}^L\}{S0,S1,...,SL}。注意,S0\mathcal{S}^0S0中的每個超像素都是原始輸入圖像中的單個像素,SL\mathcal{S}^LSL只有一個代表整個圖像的超像素,Sl\mathcal{S}^lSlSl?1\mathcal{S}^{l-1}Sl?1中超像素的數(shù)量僅相差一個(即Sl\mathcal{S}^lSl中的一個超像素是Sl?1\mathcal{S}^{l-1}Sl?1中兩個超像素的并集)。
本文從{S0,S1,...,SL}\{\mathcal{S}^0,\mathcal{S}^1,...,\mathcal{S}^L\}{S0,S1,...,SL}中選取一個劃分子集,定義一個超像素層次S={Sl1,Sl2,Sl3,Sl4,Sl5}\mathcal{S}=\{\mathcal{S}^{l_1},\mathcal{S}^{l_2},\mathcal{S}^{l_3},\mathcal{S}^{l_4},\mathcal{S}^{l_5}\}S={Sl1?,Sl2?,Sl3?,Sl4?,Sl5?},其中S\mathcal{S}S的上標(biāo)表示分割層次結(jié)構(gòu)中的劃分層,Sl1\mathcal{S}^{l_1}Sl1?是層次結(jié)構(gòu)中最精細(xì)的超像素集合,Sli+1\mathcal{S}^{l_{i+1}}Sli+1?中的超像素是Sli\mathcal{S}^{l_i}Sli?中超像素的并集。為了匹配卷積神經(jīng)網(wǎng)絡(luò)中的下采樣率,選擇{l1,l2,l3,l4,l5}\{l_1,l_2,l_3,l_4,l_5\}{l1?,l2?,l3?,l4?,l5?},使得Sli+1\mathcal{S}^{l_{i+1}}Sli+1?中的超像素數(shù)量為Sli\mathcal{S}^{l_i}Sli?中的1/41/41/4。然后,超像素層次結(jié)構(gòu)S\mathcal{S}S可以用來表示輸入圖像的部分-整體層次結(jié)構(gòu),并跟蹤超像素之間的祖先-后代關(guān)系。

3.2. Multi-scale Graph Pyramid

我們構(gòu)建了一個圖金字塔{G1,G2,G3,G4,G5}\{\mathcal{G}^1,\mathcal{G}^2,\mathcal{G}^3,\mathcal{G}^4,\mathcal{G}^5\}{G1,G2,G3,G4,G5},其層對應(yīng)了超像素層次結(jié)構(gòu)中的層。超像素層次結(jié)構(gòu)中的每個超像素在圖金字塔的對應(yīng)層上都有一個對應(yīng)的圖結(jié)點(diǎn)。因此,當(dāng)我們從圖金字塔的一層移動到下一個更高的層時,結(jié)點(diǎn)的數(shù)量也減少了4倍。我們?yōu)閳D金字塔定義了兩類邊。它們被稱為contextual邊和hierarchical邊。contextual邊連接同一層的兩個相鄰結(jié)點(diǎn),而hierarchical邊連接不同層的兩個結(jié)點(diǎn),如果它們對應(yīng)的超像素之間存在祖先-后代關(guān)系的話。contextual邊用于在同一層內(nèi)傳播上下文信息,而hierarchical邊則用于彌補(bǔ)不同層之間的語義差距。注意,hierarchical邊是稠密的,因為每個結(jié)點(diǎn)與其祖先和后代之間都有這樣一條邊。這些稠密連接會帶來較大的計算和內(nèi)存開銷。因此,每個hierarchical邊都與其結(jié)點(diǎn)特征之間的余弦相似度相關(guān)聯(lián),我們根據(jù)它們的余弦特征相似度對hierarchical邊進(jìn)行剪枝。在所有關(guān)聯(lián)到結(jié)點(diǎn)的hierarchical邊中,排名在最后50%的邊會被刪除。

3.3. Graph Neural Network Layers

在圖金字塔的基礎(chǔ)上構(gòu)建一個名為GraphFPN的圖神經(jīng)網(wǎng)絡(luò)。GraphFPN中存在兩種類型的層,contextual層和hierarchical層。這兩類層在圖金字塔中使用相同的結(jié)點(diǎn)集合,但是不同的圖邊集合。contextual層只使用contextual邊,而hierarchical層只使用剪枝后的hierarchical邊。我們的GraphFPN在開始有L1L_1L1?個contextual層,中間有L2L_2L2?個hierarchical層,最后有L3L_3L3?個contextual層。更重要的是,這些層中的每一層都有自己可學(xué)習(xí)的參數(shù),這些參數(shù)不與其它層共享。為了簡單起見,在我們的實(shí)驗中L1L_1L1?、L2L_2L2?L3L_3L3?總是相等的,在消融實(shí)驗中討論了它們具體值的選擇。
盡管contextual層和hierarchical層使用不同的邊,但這兩類層中的GNN操作完全相同。兩種類型的層共享相同的空間和通道注意力機(jī)制。我們簡單地采用圖注意力網(wǎng)絡(luò)中的自注意力機(jī)制作為我們的空間注意力。給定結(jié)點(diǎn)iii及其鄰居集合Ni\mathcal{N}_iNi?,空間注意力按照下式更新特征:
h?i′=M(h?i,{h?j}j∈Ni)\vec{h}_i^\prime=\mathcal{M}(\vec{h}_i,\{\vec{h}_j\}_{j\in\mathcal{N}_i}) hi?=M(hi?,{hj?}jNi??)其中,M\mathcal{M}M是單頭自注意力,h?j∈Ni\vec{h}_{j\in\mathcal{N}_i}hjNi??是從結(jié)點(diǎn)iii的鄰居中獲得的特征向量集合,h?i\vec{h}_ihi?h?i′\vec{h}_i^\primehi?分別是結(jié)點(diǎn)iii更新前后的特征向量。
通道注意力機(jī)制由基于平均池化的局部通道級注意力模塊和局部通道自注意力模塊組成。在基于平均池化的局部通道級注意力中,首先對結(jié)點(diǎn)iii及其鄰居的特征向量進(jìn)行平均,得到特征向量a?i′∈RC\vec{a}_i^\prime\in\mathbb{R}^Cai?RC。我們把平均后的特征向量通過一個帶有sigmoid激活的全連接層,并在得到的結(jié)果和h?i′\vec{h}_i^\primehi?之間執(zhí)行元素相乘:
h?i′′=σ(W1a?i′)⊙h?i′\vec{h}_i^{\prime\prime}=\sigma(\boldsymbol{W}_1\vec{a}_i^\prime)\odot\vec{h}_i^\prime hi′′?=σ(W1?ai?)hi?其中,σ\sigmaσ是sigmoid函數(shù),W1∈RC×C\boldsymbol{W}_1\in\mathbb{R}^{C×C}W1?RC×C是全連接層可學(xué)習(xí)的權(quán)重矩陣,⊙\odot表示逐像素相乘。在局部通道自注意力模塊中,首先獲取結(jié)點(diǎn)iii及其鄰居結(jié)點(diǎn)的特征向量集合A\boldsymbol{A}A,并將其reshape到R(∣Ni∣+1)×C\mathbb{R}^{(|\mathcal{N}_i|+1)×C}R(Ni?+1)×C。這里∣Ni∣|\mathcal{N}_i|Ni?是結(jié)點(diǎn)iii的鄰居數(shù)量。然后得到通道相似矩陣X=ATA∈RC×C\boldsymbol{X}= \boldsymbol{A}^{\mathrm T}\boldsymbol{A}\in\mathbb{R}^{C×C}X=ATARC×C,并對X\boldsymbol{X}X的每一行使用softmax函數(shù)。局部通道自注意力模塊的輸出為:
h?i′′′=βXh?i′′+h?i′′\vec{h}_i^{\prime\prime\prime}=\beta\boldsymbol{X}\vec{h}_i^{\prime\prime}+\vec{h}_i^{\prime\prime} hi′′′?=βXhi′′?+hi′′?其中,β\betaβ是可學(xué)習(xí)的權(quán)重,初始化為0。
我們的局部通道級注意力和局部通道自注意力是受到SENet和雙注意力網(wǎng)絡(luò)(Dual Attention Network)的啟發(fā)。主要區(qū)別在于,我們的通道注意力定義在局部鄰居內(nèi),因此在空間上因結(jié)點(diǎn)而異,而SENet和雙注意力網(wǎng)絡(luò)對所有空間位置的特征使用相同的通道注意力。圖神經(jīng)網(wǎng)絡(luò)中局部通道注意力的優(yōu)點(diǎn)包括更低的計算成本和更高的空間自適應(yīng)性,因此非常適合像GraphFPN這樣的大型網(wǎng)絡(luò)。表5的消融實(shí)驗表明,我們的雙局部通道注意力在GraphFPN中相當(dāng)有效。

3.4. Feature Mapping between GNN and CNN

卷積神經(jīng)網(wǎng)絡(luò)可以保留部分和目標(biāo)的位置信息,這顯然有利于目標(biāo)檢測,而圖神經(jīng)網(wǎng)絡(luò)可以跨多個語義尺度靈活地建模部分和目標(biāo)之間的依賴關(guān)系。注意,卷積神經(jīng)網(wǎng)絡(luò)中的主干和FPN分別負(fù)責(zé)多尺度編碼和解碼,而我們的GraphFPN主要負(fù)責(zé)多尺度解碼。因此主干特征作為GraphFPN的輸入。為了利用這兩種特征金字塔網(wǎng)絡(luò)的優(yōu)勢,我們還融合了GraphFPN和卷積FPN的最終特征。因此,我們需要映射來自主干特征以初始化GraphFPN,也需要在特征融合之前將最終特征從GraphFPN映射到卷積FPN。主干和卷積FPN中的多尺度特征圖分別記為C={C1,C2,C3,C4,C5}\mathcal{C}=\{\mathcal{C}^1,\mathcal{C}^2,\mathcal{C}^3,\mathcal{C}^4,\mathcal{C}^5\}C={C1,C2,C3,C4,C5}P={P1,P2,P3,P4,P5}\mathcal{P}=\{\mathcal{P}^1,\mathcal{P}^2,\mathcal{P}^3,\mathcal{P}^4,\mathcal{P}^5\}P={P1,P2,P3,P4,P5}。注意,C\mathcal{C}C中的特征圖是主干中最后5個卷積階段的特征圖。
在這里插入圖片描述
從CNN到GNN的映射(C?S\mathcal{C}\mapsto\mathcal{S}C?S): 我們將主干Ci\mathcal{C}^iCi的第iii個特征圖映射到S\mathcal{S}S中的第iiiSi\mathcal{S}^iSi。Ci\mathcal{C}^iCi中的特征位于一個矩形網(wǎng)格上,每個網(wǎng)格單元對應(yīng)原始輸入圖像中的一個矩形區(qū)域,而Si\mathcal{S}^iSi中的超像素通常具有不規(guī)則的形狀。如果多個超像素與Ci\mathcal{C}^iCi中相同的網(wǎng)格單元部分地重疊,如圖2所示,那么我們將網(wǎng)格單元分配給重疊程度最大的超像素。這樣的分配導(dǎo)致一個小的網(wǎng)格單元集合CkiC_k^iCki?被分配給Si\mathcal{S}^iSi中相同的超像素RkiR_k^iRki?。我們對該集合同時執(zhí)行最大池化和最小池化,并使用ReLU激活將concatenate池化結(jié)果輸入到全連接層。RkiR_k^iRki?的映射特征可以寫為:
h?ki=δ(W2[(Δmax(Cki)∣∣Δmin(Cki))])\vec{h}_k^i=\delta(\boldsymbol{W}_2[(\Delta_{max}(C_k^i)||\Delta_{min}(C_k^i))]) hki?=δ(W2?[(Δmax?(Cki?)∣∣Δmin?(Cki?))])其中,δ\deltaδ表示ReLU激活,W2\boldsymbol{W}_2W2?表示全連接層可學(xué)習(xí)的權(quán)重矩陣,∣∣||∣∣表示concatenate操作,Δmax(Cki)\Delta_{max}(C_k^i)Δmax?(Cki?)Δmin(Cki)\Delta_{min}(C_k^i)Δmin?(Cki?)分別表示最大池化和最小池化操作。
從GNN到CNN的映射(S?P\mathcal{S}\mapsto\mathcal{P}S?P): 一旦我們向前通過GraphFPN,我們將其最后一層的特征映射到卷積特征金字塔P\mathcal{P}P。令PkiP_k^iPki?表示Pi\mathcal{P}^iPi中網(wǎng)格單元的集合,它被分配給Si\mathcal{S}^iSi中的超像素RkiR_k^iRki?。我們簡單地將RkiR_k^iRki?處的最終特征復(fù)制到PkiP_k^iPki?中的每個網(wǎng)格單元。這樣,我們?yōu)榫矸eFPN的第iii層獲得了一個新的特征圖P ̄i\overline{\mathcal{P}}^iPi。我們將Pi\mathcal{P}^iPiP ̄i\overline{\mathcal{P}}^iPi進(jìn)行concatenate,并將concatenate后的特征圖輸入到一個具有1×1卷積核的卷積層,以確保融合后的特征圖P~i\widetilde{\mathcal{P}}^iPi具有與Pi\mathcal{P}^iPi相同的通道數(shù)。最終,融合后的特征金字塔為P~={P~1,P~2,P~3,P~4,P~5}\widetilde{\mathcal{P}}=\{\widetilde{\mathcal{P}}^1,\widetilde{\mathcal{P}}^2,\widetilde{\mathcal{P}}^3,\widetilde{\mathcal{P}}^4,\widetilde{\mathcal{P}}^5\}P={P1,P2,P3,P4,P5}

3.5. Object Detection

本文提出的圖特征金字塔網(wǎng)絡(luò)可以集成到FPN的目標(biāo)檢測pipeline中,用上述融合特征金字塔代替?zhèn)鹘y(tǒng)的FPN。我們采用Faster-RCNN作為檢測算法,并進(jìn)行相同的端到端訓(xùn)練。

4. Experiments

介紹了數(shù)據(jù)集和實(shí)現(xiàn)細(xì)節(jié)。使用COB項目提供的代碼計算層次結(jié)構(gòu)分割,并在數(shù)據(jù)準(zhǔn)備過程中為每張圖像構(gòu)建超像素層次結(jié)構(gòu)。構(gòu)建一幅圖像的超像素層次結(jié)構(gòu)平均需要0.120秒,對于目標(biāo)檢測任務(wù)是合理的。注意,COB中使用的機(jī)器學(xué)習(xí)模型總是在與檢測任務(wù)相同的訓(xùn)練集上進(jìn)行訓(xùn)練。
在這里插入圖片描述

4.1. Comparison with State-of-the-Art Methods

在這里插入圖片描述
和SOTA的對比實(shí)驗,具體的實(shí)驗結(jié)論可以參照原文。

4.2. Comparison with Other Object Detectors

在這里插入圖片描述
和其它主流檢測器的對比實(shí)驗,具體的實(shí)驗結(jié)論可以參照原文。

4.3. Learnable Parameters and Computational Cost

在這里插入圖片描述
Params、GFLOPs和測試速度。具體的實(shí)驗結(jié)論可以參照原文。

4.4. Ablation Studies

為了研究GraphFPN中各個組件的有效性,我們通過替換或移除pipeline中的單個組件進(jìn)行消融實(shí)驗。我們專門針對GNN層的配置(不同類型GNN層的組合與排序)、GNN層的總數(shù)以及空間和通道注意力機(jī)制設(shè)計了消融實(shí)驗。
GNN層的配置。 在我們最終的pipeline中,各層的具體配置如下:第一組contextual層,一組hierarchical層,第二組contextual層。所有組的層數(shù)都相同。
在這里插入圖片描述
在跨尺度操作之前,需要在同一尺度內(nèi)傳播上下文信息。即使在第一組contextual層之后緊接著一組hierarchical層,上下文信息傳播仍然是有幫助的。兩類層實(shí)際上是相輔相成的。具體的實(shí)驗結(jié)論可以參照原文。
GNN的層數(shù)。 當(dāng)圖層數(shù)量過多時,性能變差。我們將此歸因于梯度消失。具體的實(shí)驗結(jié)論可以參照原文。
在這里插入圖片描述
注意力機(jī)制。 空間注意力在建模鄰居依賴方面是強(qiáng)大的。兩種局部通道注意力機(jī)制是互補(bǔ)的,顯著提高了深層特征的識別能力。具體的實(shí)驗結(jié)論可以參照原文。
在這里插入圖片描述

5. Conclusions

在本文中,我們提出了圖特征金字塔網(wǎng)絡(luò),它能夠適應(yīng)輸入圖像的不同內(nèi)在結(jié)構(gòu),并支持跨所有尺度同時的特征交互。我們的圖特征金字塔網(wǎng)絡(luò)的結(jié)構(gòu)繼承了根據(jù)層次結(jié)構(gòu)分割構(gòu)建的超像素層次結(jié)構(gòu)。定義contextual圖神經(jīng)網(wǎng)絡(luò)層和hierarchical圖神經(jīng)網(wǎng)絡(luò)層,分別實(shí)現(xiàn)同一尺度內(nèi)和不同尺度間的特征交互。為了使這些層更加強(qiáng)大,我們進(jìn)一步為圖神經(jīng)網(wǎng)絡(luò)引入了兩種類型的局部通道注意力。在MS-COCO 2017驗證和測試數(shù)據(jù)集上的實(shí)驗表明,集成了圖特征金字塔網(wǎng)絡(luò)的Faster R-CNN+FPN優(yōu)于現(xiàn)有的SOTA目標(biāo)檢測方法。

http://m.aloenet.com.cn/news/38321.html

相關(guān)文章:

  • 響應(yīng)式網(wǎng)站微博視頻百度圖片查找
  • 手機(jī)網(wǎng)站建設(shè)經(jīng)驗seo發(fā)展前景怎么樣啊
  • 如果給公司網(wǎng)站做網(wǎng)絡(luò)廣告廣州網(wǎng)站優(yōu)化費(fèi)用
  • 怎么做跨境電商網(wǎng)站北京營銷公司比較好的
  • 門戶網(wǎng)站建設(shè)及運(yùn)營品牌傳播推廣方案
  • 個人網(wǎng)站建站系統(tǒng)百度搜索排名
  • 做旅行攻略的網(wǎng)站百度廣告聯(lián)盟一個月能賺多少
  • 網(wǎng)站備案 新聞審批號百度seo點(diǎn)擊排名優(yōu)化
  • 手機(jī)網(wǎng)站css寫法廣州番禺最新發(fā)布
  • 建e網(wǎng)室內(nèi)設(shè)計效果圖門廳百度如何優(yōu)化
  • 加強(qiáng)校園網(wǎng)站建設(shè)方案百度愛采購平臺登錄
  • 上海網(wǎng)站建設(shè)價格bt種子磁力搜索引擎
  • 自己做圖片上傳網(wǎng)站新聞軟文自助發(fā)布平臺
  • wordpress點(diǎn)擊分享功能如何進(jìn)行網(wǎng)站性能優(yōu)化
  • 番禺網(wǎng)站制作費(fèi)用新網(wǎng)域名
  • 表單大師 做網(wǎng)站濟(jì)南頭條今日新聞
  • 高性能網(wǎng)站建設(shè)指南pdfsem競價托管
  • b2b電子商務(wù)網(wǎng)站的收益模式主要有百度提交網(wǎng)站入口網(wǎng)址
  • wordpress數(shù)據(jù)大不行網(wǎng)站seo分析案例
  • 男女主網(wǎng)站上做的popo白度指數(shù)
  • 硅云網(wǎng)站建設(shè)視頻專門做推廣的軟文
  • 哪個公司做企業(yè)網(wǎng)站好網(wǎng)站如何推廣營銷
  • 網(wǎng)站架構(gòu)的組成部分友情鏈接系統(tǒng)
  • 做網(wǎng)站做的自己做網(wǎng)站如何賺錢
  • 站長網(wǎng)站提交職業(yè)技能培訓(xùn)平臺
  • seo優(yōu)化方向浙江seo推廣
  • 網(wǎng)站直播是未開票收入怎么做信息流廣告推廣
  • 網(wǎng)上購物商城er圖楓林seo工具
  • php網(wǎng)站開發(fā)實(shí)戰(zhàn)教程谷歌瀏覽器下載手機(jī)版
  • 網(wǎng)站驗證錢的分錄怎么做百度競價開戶