給別人做網(wǎng)站去掉版權(quán)谷歌瀏覽器2021最新版
深度學(xué)習(xí)之卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)
卷積層的操作(Convolutional layer)
在提出卷積層的概念之前首先引入圖像識別的特點
圖像識別的特點
- 特征具有局部性:老虎重要特征“王字”僅出現(xiàn)在頭部區(qū)域
- 特征可能出現(xiàn)在任何位置
- 下采樣圖像,不會改變圖像目標(biāo)
例如從512 * 512的圖像進行下采樣得到32 * 32的圖像目標(biāo)
- 特征具有局部性:卷積核每次僅連接K * K區(qū)域,K * K是卷積核尺寸
- 特征可能出現(xiàn)在任何位置:卷積核參數(shù)重復(fù)使用(參數(shù)共享),在圖像上滑動
該圖片的卷積的計算步驟如下所示:(即對應(yīng)位置相乘在相加得到最終的結(jié)果)
0×0+1×1+3×2+4×3=19
1×0+2×1+4×2+5×3=25
3×0+4×1+6×2+7×3=37,
4×0+5×1+7×2+8×3=43
其中綠色代表的是輸出部分,藍色代表的是輸入的部分,綠色的每一個區(qū)域是在藍色區(qū)域的基礎(chǔ)上經(jīng)過卷積運算得到的,在計算的過程中區(qū)域不斷的進行滑動
卷積層的相關(guān)概念
卷積核(Kernel):具可學(xué)習(xí)參數(shù)的算子,用于對輸入圖像進行特征提取,輸出通常稱為特征圖(featuremaps)
通常我們說的就是3x3的卷積核,即對應(yīng)上圖中的核函數(shù)2x2的卷積核
卷積核當(dāng)中的權(quán)重就代表的是一種特征模式。2012年AlexNet網(wǎng)絡(luò)第一個卷積層卷積核可視化卷積核呈現(xiàn)邊緣、頻率和色彩上的特征模式。
填充(Padding) 在輸入圖像的周圍添加額外的行/列。使卷積后圖像分辨率不變,方便計算特征圖尺寸的變化彌補邊界信息丟失
而該圖中的padding=1 在上下左右都添加1個位置的像素,保證邊緣部分與中間部分相比不會參與卷積的次數(shù)太少而被忽略而丟失
步長(Stride) :卷積核滑動的行數(shù)和列數(shù)稱為步幅,控制輸出特征圖的大小,會被縮小1/s倍
在藍色圖像上每次滑動的距離之間影響得到的輸出圖的大小和像素值
感受野:特征圖中的一個點相當(dāng)于圖片中多大的區(qū)域,層數(shù)越多感受野越大。
感受野從3 * 3 到 5 * 5的區(qū)域
多通道卷積
多通道卷積:RGB圖像是3 * h* w 的三維的數(shù)據(jù),第一個維度3,表示channel,通道數(shù)一個卷積核是3-D張量,第一個維與輸入通道有關(guān)注:卷積核尺寸通常指高、寬
補充:2-d卷積和3-d卷積的區(qū)分,卷積核在輸入上只在行和列兩個維度上移動并進行卷積—稱為2d卷積 ,而在一些視頻任務(wù)中在此基礎(chǔ)上還需要使用到第三個維度即時間維度稱為3-d卷積
池化層操作(Pooling layer)
- 下采樣圖像,不會改變圖像目標(biāo):降低計算量,減少特征
池化:一個像素表示一塊區(qū)域的像素值,降低圖像分辨率
- 方法1:MaxPooling,取最大值(最大池化)
- 方法2:AveragePooling,取平均值(平均池化)
而池化層中無可學(xué)習(xí)的參數(shù)
池化操作可以看作是一種特殊的卷積操作。
池化的作用:
- 緩解卷積層對位置的過度敏感。
Lenet -5
- C1層: 卷積核K1=(6,1,5,5),p=1,s=1,output=(6,28,28)
- S2層:最大池化層,池化窗口=(2,2),s=2,output=(6,14,14)
- C3層:卷積核K3=(16,6,5,5),p=1,s=1,output=(16,10,10)
- S4層:最大池化層,池化窗口=(2,2),s=2,output=(16,5,5)
- FC層:3個FC層輸出分類
特征提取器:C1、S2、C3、S4分類器:3個FC