當(dāng)前位置：首頁(yè) > news >正文

南京seo排名收費(fèi)廣州網(wǎng)站優(yōu)化軟件

news 2025/7/5 14:35:46

南京seo排名收費(fèi),廣州網(wǎng)站優(yōu)化軟件,wordpress部署文件,河南做網(wǎng)站推廣哪個(gè)好引言新手在學(xué)習(xí)深度學(xué)習(xí)或者在看深度學(xué)習(xí)論文的過(guò)程中，有不少專(zhuān)業(yè)詞匯，軟件翻譯不出來(lái)，就算是翻譯出來(lái)也看不懂，因?yàn)椴簧傩g(shù)語(yǔ)是借用其他學(xué)科的概念，這里整理了一些在深度學(xué)習(xí)中常見(jiàn)的術(shù)語(yǔ)，并對(duì)一些概念進(jìn)…

引言

新手在學(xué)習(xí)深度學(xué)習(xí)或者在看深度學(xué)習(xí)論文的過(guò)程中，有不少專(zhuān)業(yè)詞匯，軟件翻譯不出來(lái)，就算是翻譯出來(lái)也看不懂，因?yàn)椴簧傩g(shù)語(yǔ)是借用其他學(xué)科的概念，這里整理了一些在深度學(xué)習(xí)中常見(jiàn)的術(shù)語(yǔ)，并對(duì)一些概念進(jìn)行解釋。

這里先教大家一個(gè)查概念的方法，比如我想查Ablation study，這個(gè)中文翻譯是消融實(shí)驗(yàn)，這概念誰(shuí)能明白呢，咱們可以從根源去查消融實(shí)驗(yàn)的含義，打開(kāi)google，直接搜what is xxx in deep learning,如下面的圖所示?

?好，下面開(kāi)始總結(jié)，博主這里按照概念英文首字母進(jìn)行排序，有部分概念為了方便對(duì)比也會(huì)放在一起，總結(jié)不全或有錯(cuò)誤之處，請(qǐng)大家指出并多多包涵，總結(jié)不易，也請(qǐng)大家多多點(diǎn)贊收藏。

A--G

Ablation study(消融實(shí)驗(yàn))

消融(ablation)是指去除人工智能系統(tǒng)的一個(gè)組件。消融研究通過(guò)刪除某些組件來(lái)研究人工智能系統(tǒng)的性能，以了解該組件對(duì)整個(gè)系統(tǒng)的貢獻(xiàn)。大白話(huà)就是說(shuō)一個(gè)完整的框架去掉某個(gè)功能，看看系統(tǒng)還能運(yùn)行成什么樣。

Activation layer/Activation Function(激活層/激活函數(shù))

激活層(Activation Layer)負(fù)責(zé)對(duì)卷積層抽取的特征進(jìn)行激活，由于卷積操作是由輸入矩陣與卷積核矩陣進(jìn)行相乘的過(guò)程，是線(xiàn)性變化關(guān)系，需要激活層對(duì)其進(jìn)行非線(xiàn)性的映射。

激活層主要由激活函數(shù)組成，即在卷積層輸出結(jié)果的基礎(chǔ)上嵌套一個(gè)非線(xiàn)性函數(shù)，讓輸出的特征圖具有非線(xiàn)性關(guān)系。卷積網(wǎng)絡(luò)中通常采用ReLU來(lái)充當(dāng)激活函數(shù)（還包括tanh和sigmoid等）ReLU的函數(shù)形式如下所示，能夠限制小于0的值為0,同時(shí)大于等于0的值保持不變。

Anchor box(錨框)/先驗(yàn)框(prior bounding box)/gound truth(真值)

(1)Anchor box

錨框是一個(gè)很難理解的概念，目標(biāo)檢測(cè)算法通常會(huì)對(duì)輸入圖像中的大量區(qū)域進(jìn)行采樣，確定這些區(qū)域是否包含感興趣的目標(biāo)，并調(diào)整區(qū)域的邊緣，以便更準(zhǔn)確地預(yù)測(cè)目標(biāo)的真實(shí)邊界框。不同的模型可能使用不同的區(qū)域采樣方法。在這里，介紹一種這樣的方法：它生成多個(gè)具有不同大小和長(zhǎng)寬比的邊界框，同時(shí)以每個(gè)像素為中心。這些邊界框稱(chēng)為錨框。上文表明，錨框不過(guò)是圖像中采樣的區(qū)域。

(2)prior bounding box

那上面為什么把prior bounding box放到這里呢，在眾多經(jīng)典的目標(biāo)檢測(cè)模型中，均有先驗(yàn)框的說(shuō)法，有的paper(如Faster RCNN)中稱(chēng)之為anchor(錨點(diǎn))，有的paper(如SSD)稱(chēng)之為prior bounding box(先驗(yàn)框)，實(shí)際上是一個(gè)概念，特此說(shuō)明。

這里提供一個(gè)詳細(xì)的資料：動(dòng)手學(xué)CV-Pytorch

(3)gound truth

那又為什么把gound truth放在這里一起解釋呢，因?yàn)檫@幾個(gè)概念往往一起出現(xiàn)，新手迷迷糊糊就別忽悠瘸了，如下圖，我們?cè)谟?xùn)練模型之前，需要先對(duì)圖片進(jìn)行標(biāo)注(label)，比如將下圖的小狗框出來(lái)。?

gound truth翻譯為真值還行，翻譯為地面真相是真的太蠢了，個(gè)人認(rèn)為(輕噴)，忘了是在哪兒看到的，gound truth來(lái)源于氣象學(xué)，本意是指測(cè)量到的地面的真實(shí)數(shù)據(jù)，真么看翻譯成地面真相也不是不能接受，個(gè)人還是愿意翻譯為人工標(biāo)注，這真的是很直觀。

AP(Average Precision)

對(duì)象檢測(cè)和定位算法的性能通過(guò)稱(chēng)為平均精度 (AP)（和平均精度，mean average precision，mAP）的指標(biāo)進(jìn)行評(píng)估。，AP 不是不同類(lèi)別的平均精度，AP是借助其他幾個(gè)指標(biāo)來(lái)計(jì)算的，例如IoU、混淆矩陣（TP、FP、FN）、精度和召回率等，如下圖所示。

Attention Mechanism(注意力機(jī)制)

注意力機(jī)制通過(guò)選擇性地關(guān)注重要的輸入元素來(lái)增強(qiáng)深度學(xué)習(xí)模型，提高預(yù)測(cè)精度和計(jì)算效率。他們優(yōu)先考慮并強(qiáng)調(diào)相關(guān)信息，作為提高整體模型性能的焦點(diǎn)。在心理學(xué)中，注意力是選擇性地集中于一件或幾件事情而忽略其他事情的認(rèn)知過(guò)程。神經(jīng)網(wǎng)絡(luò)被認(rèn)為是一種以簡(jiǎn)化方式模仿人類(lèi)大腦行為。注意力機(jī)制也是一種嘗試，在深度神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)選擇性地關(guān)注一些相關(guān)事物，而忽略其他事物的相同動(dòng)作。

Baseline(基線(xiàn))/Benchmark(基準(zhǔn))

這倆放一起也是為了比較，做個(gè)不恰當(dāng)?shù)谋扔?#xff0c;就像修仙，你初期修仙的菜鳥(niǎo)水平就是基線(xiàn)，隨著修行提升，相對(duì)于基線(xiàn)水平的菜鳥(niǎo)修行就有提升，基準(zhǔn)就像是半步飛仙，你在修行的過(guò)程中向著這個(gè)目標(biāo)前進(jìn)并想辦法超越半步飛仙這個(gè)基準(zhǔn)成為飛仙。

(1)Baseline(基線(xiàn))

基線(xiàn)模型本質(zhì)上是一個(gè)簡(jiǎn)單的模型，在機(jī)器學(xué)習(xí)項(xiàng)目中充當(dāng)參考。其主要功能是將訓(xùn)練模型的結(jié)果置于上下文中。基線(xiàn)模型通常缺乏復(fù)雜性，并且可能沒(méi)有什么預(yù)測(cè)能力。無(wú)論如何，出于多種原因，將它們納入其中是必要的。

(2)Benchmark(基準(zhǔn))

Benchmark是一種用于比較其他模型性能的模型。有不同類(lèi)型的基準(zhǔn)。有時(shí)，它是所謂的最先進(jìn)模型，即給定數(shù)據(jù)集上針對(duì)給定問(wèn)題的最佳模型。基準(zhǔn)測(cè)試的目標(biāo)是看看我們是否可以創(chuàng)建更好的模型并超越已發(fā)布的結(jié)果。

Backbone(骨干)

就這翻譯誰(shuí)能看懂，一般來(lái)說(shuō)，術(shù)語(yǔ)Backbone是指將輸入數(shù)據(jù)處理成某種特征表示的特征提取網(wǎng)絡(luò)。這些特征提取網(wǎng)絡(luò)通常在更簡(jiǎn)單的任務(wù)上作為獨(dú)立網(wǎng)絡(luò)表現(xiàn)良好，因此，我們可以將它們用作更復(fù)雜模型中的特征提取部分。

我們可以將許多流行的 CNN 架構(gòu)用作神經(jīng)網(wǎng)絡(luò)的骨干。其中一些包括：

VGGs —— 包括具有 16 層和 19 層的 VGG-16 和 VGG-19 卷積網(wǎng)絡(luò)。事實(shí)證明，它們?cè)谠S多任務(wù)中都很有效，尤其是在圖像分類(lèi)和目標(biāo)檢測(cè)方面。
ResNets ——或殘差神經(jīng)網(wǎng)絡(luò)，由卷積層和池化層塊之間的跳躍連接或循環(huán)單元組成。 ResNet-50 和 ResNet 101 的一些流行版本常用于對(duì)象檢測(cè)和語(yǔ)義分割任務(wù)。
Inception v1 —— GoogleNet 是最常用的卷積神經(jīng)網(wǎng)絡(luò)之一，作為許多計(jì)算機(jī)科學(xué)應(yīng)用的支柱，包括視頻摘要和動(dòng)作識(shí)別。

以一篇論文是專(zhuān)門(mén)介紹backbone的：Backbones-Review: Feature Extraction Networks for Deep Learning and Deep Reinforcement Learning Approaches

論文鏈接：https://arxiv.org/abs/2206.08016

Batch(批量)/Epoch(批次)

在區(qū)分這倆概念之前要先了解一下隨機(jī)梯度下降的概念

梯度下降更多參考：Gradient Descent For Machine Learning - MachineLearningMastery.com

隨機(jī)梯度下降，簡(jiǎn)稱(chēng) SGD，是一種用于訓(xùn)練機(jī)器學(xué)習(xí)算法的優(yōu)化算法，尤其是深度學(xué)習(xí)中使用的人工神經(jīng)網(wǎng)絡(luò)。該算法的工作是找到一組內(nèi)部模型參數(shù)，這些參數(shù)對(duì)于某些性能指標(biāo)（例如對(duì)數(shù)損失或均方誤差）表現(xiàn)良好。優(yōu)化是一種搜索過(guò)程，您可以將這種搜索視為學(xué)習(xí)。該優(yōu)化算法稱(chēng)為“梯度下降”，其中“梯度”是指誤差梯度或誤差斜率的計(jì)算，“下降”是指沿著該斜率向下移動(dòng)到某個(gè)最小誤差水平。該算法是迭代的。這意味著搜索過(guò)程發(fā)生在多個(gè)離散步驟中，每個(gè)步驟都希望稍微改進(jìn)模型參數(shù)。每個(gè)步驟都涉及使用具有當(dāng)前內(nèi)部參數(shù)集的模型對(duì)某些樣本進(jìn)行預(yù)測(cè)，將預(yù)測(cè)與真實(shí)的預(yù)期結(jié)果進(jìn)行比較，計(jì)算誤差，并使用誤差來(lái)更新內(nèi)部模型參數(shù)。對(duì)于不同的算法，該更新過(guò)程是不同的，但在人工神經(jīng)網(wǎng)絡(luò)的情況下，使用反向傳播更新算法。在我們深入研究批次和批量之前，讓我們先看一下樣本的含義。

(1)樣本(Sample）

樣本是單行數(shù)據(jù)。它包含輸入到算法中的輸入和用于與預(yù)測(cè)進(jìn)行比較并計(jì)算誤差的輸出。訓(xùn)練數(shù)據(jù)集由許多行數(shù)據(jù)組成，例如許多樣本。樣本也可以稱(chēng)為實(shí)例、觀察、輸入向量或特征向量。

現(xiàn)在我們知道什么是樣本，讓我們定義一個(gè)Batch(批量)。

(2)Batch(批量)

批量大小(batch size)是一個(gè)超參數(shù)，定義在更新內(nèi)部模型參數(shù)之前要處理的樣本數(shù)量。將批次視為迭代一個(gè)或多個(gè)樣本并進(jìn)行預(yù)測(cè)的 for 循環(huán)。在批次結(jié)束時(shí)，將預(yù)測(cè)與預(yù)期輸出變量進(jìn)行比較并計(jì)算誤差。根據(jù)該誤差，使用更新算法來(lái)改進(jìn)模型，例如沿著誤差梯度向下移動(dòng)。訓(xùn)練數(shù)據(jù)集可以分為一批或多批。當(dāng)所有訓(xùn)練樣本都用于創(chuàng)建一批時(shí)，該學(xué)習(xí)算法稱(chēng)為批量梯度下降。當(dāng)批次大小為一個(gè)樣本時(shí)，學(xué)習(xí)算法稱(chēng)為隨機(jī)梯度下降。當(dāng)批量大小大于一個(gè)樣本且小于訓(xùn)練數(shù)據(jù)集的大小時(shí)，該學(xué)習(xí)算法稱(chēng)為小批量梯度下降。

批量梯度下降。批量大小 = 訓(xùn)練集大小
隨機(jī)梯度下降。批量大小 = 1
小批量梯度下降。1 < 批量大小 < 訓(xùn)練集大小

在小批量梯度下降的情況下，流行的批量大小包括 32、64 和 128 個(gè)樣本。您可能會(huì)在文獻(xiàn)和教程的模型中看到這些值。

(3)Epoch(批次)

epoch 的數(shù)量是一個(gè)超參數(shù)，它定義了學(xué)習(xí)算法在整個(gè)訓(xùn)練數(shù)據(jù)集中工作的次數(shù)。一個(gè)epoch意味著訓(xùn)練數(shù)據(jù)集中的每個(gè)樣本都有機(jī)會(huì)更新內(nèi)部模型參數(shù)。一個(gè)epoch由一個(gè)或多個(gè)batch組成。例如，如上所述，一個(gè) epoch 具有一個(gè)批次，稱(chēng)為批量梯度下降學(xué)習(xí)算法?？梢韵胂笠粋€(gè)針對(duì) epoch 數(shù)的 for 循環(huán)，其中每個(gè)循環(huán)都在訓(xùn)練數(shù)據(jù)集上進(jìn)行。在這個(gè) for 循環(huán)中是另一個(gè)嵌套的 for 循環(huán)，它迭代每批樣本，其中一個(gè)批次具有指定的“批量大小”數(shù)量的樣本。epoch數(shù)量傳統(tǒng)上很大，通常是數(shù)百或數(shù)千，允許學(xué)習(xí)算法運(yùn)行直到模型的誤差被充分最小化。您可能會(huì)在文獻(xiàn)和教程中看到將 epoch 數(shù)量設(shè)置為 10、100、500、1000 或更大的示例。通常創(chuàng)建線(xiàn)圖，將 x 軸上的歷元顯示為時(shí)間，并在 y 軸上顯示模型的誤差或技能。這些圖有時(shí)稱(chēng)為學(xué)習(xí)曲線(xiàn)。這些圖可以幫助診斷模型是否學(xué)習(xí)過(guò)度、學(xué)習(xí)不足或是否適合訓(xùn)練數(shù)據(jù)集。

(4)Batch(批量)/Epoch(批次)的區(qū)別

batch size是模型更新之前處理的樣本數(shù)量。
epochs是完整通過(guò)訓(xùn)練數(shù)據(jù)集的次數(shù)。
Batch的大小必須大于或等于 1 且小于或等于訓(xùn)練數(shù)據(jù)集中的樣本數(shù)。
epochs可以設(shè)置為 1 到無(wú)窮大之間的整數(shù)值。可以根據(jù)需要運(yùn)行算法，甚至可以使用除固定周期數(shù)之外的其他標(biāo)準(zhǔn)來(lái)停止算法，例如模型誤差隨時(shí)間的變化（或缺乏變化）。
它們都是整數(shù)值，并且都是學(xué)習(xí)算法的超參數(shù)，例如學(xué)習(xí)過(guò)程的參數(shù)，而不是學(xué)習(xí)過(guò)程找到的內(nèi)部模型參數(shù)。
必須指定學(xué)習(xí)算法的批量大小和批次數(shù)。
對(duì)于如何配置這些參數(shù)并沒(méi)有什么神奇的規(guī)則。必須嘗試不同的值，看看什么最適合自己?jiǎn)栴}。

Cascade(級(jí)聯(lián))

級(jí)聯(lián)是基于多個(gè)分類(lèi)器串聯(lián)的集成學(xué)習(xí)的一種特殊情況，使用從給定分類(lèi)器的輸出中收集的所有信息作為級(jí)聯(lián)中下一個(gè)分類(lèi)器的附加信息。與投票或堆疊集成（多專(zhuān)家系統(tǒng)）不同，級(jí)聯(lián)是多級(jí)系統(tǒng)。級(jí)聯(lián)分類(lèi)器使用特定對(duì)象的數(shù)百個(gè)“正”樣本視圖和相同大小的任意“負(fù)”圖像進(jìn)行訓(xùn)練。分類(lèi)器經(jīng)過(guò)訓(xùn)練后，可以將其應(yīng)用于圖像的某個(gè)區(qū)域并檢測(cè)有問(wèn)題的對(duì)象。要在整個(gè)幀中搜索對(duì)象，可以在圖像上移動(dòng)搜索窗口并使用分類(lèi)器檢查每個(gè)位置。此過(guò)程最常用于對(duì)象檢測(cè)和跟蹤的圖像處理，主要是面部檢測(cè)和識(shí)別。

Clustering(聚類(lèi))/K-means Clustering(k-均值聚類(lèi))

Clustering：聚類(lèi)是在機(jī)器學(xué)習(xí)算法中將相似對(duì)象組織成組的行為。將相關(guān)對(duì)象分配到集群中對(duì)于 AI 模型是有益的。聚類(lèi)在數(shù)據(jù)科學(xué)中有很多用途，例如圖像處理、數(shù)據(jù)知識(shí)發(fā)現(xiàn)、無(wú)監(jiān)督學(xué)習(xí)以及各種其他應(yīng)用。聚類(lèi)分析或聚類(lèi)是通過(guò)掃描機(jī)器學(xué)習(xí)模型中未標(biāo)記的數(shù)據(jù)集并設(shè)置特定數(shù)據(jù)點(diǎn)特征的測(cè)量來(lái)完成的。然后，聚類(lèi)分析將對(duì)數(shù)據(jù)點(diǎn)進(jìn)行分類(lèi)并將其放置在具有匹配特征的組中。一旦數(shù)據(jù)被分組在一起，它將被分配一個(gè)簇ID號(hào)以幫助識(shí)別簇特征。使用聚類(lèi)技術(shù)在機(jī)器學(xué)習(xí)模型中分解大型、復(fù)雜的數(shù)據(jù)集可以減輕破譯復(fù)雜數(shù)據(jù)時(shí)的壓力。

K-means Clustering：K-Means 聚類(lèi)是一種無(wú)監(jiān)督學(xué)習(xí)算法。與監(jiān)督學(xué)習(xí)不同，此聚類(lèi)沒(méi)有標(biāo)記數(shù)據(jù)。 K-Means 將對(duì)象劃分為具有相似性但與屬于另一個(gè)簇的對(duì)象不同的簇。“K”是一個(gè)數(shù)字。您需要告訴系統(tǒng)您需要?jiǎng)?chuàng)建多少個(gè)集群。例如，K = 2 表示兩個(gè)簇。有一種方法可以找出給定數(shù)據(jù)的最佳或最佳 K 值。為了更好地理解 k 均值，我們以板球運(yùn)動(dòng)為例。想象一下，您收到了來(lái)自世界各地的許多板球運(yùn)動(dòng)員的數(shù)據(jù)，其中提供了有關(guān)該運(yùn)動(dòng)員得分的信息以及他們?cè)谶^(guò)去十場(chǎng)比賽中取得的三柱門(mén)的信息。根據(jù)這些信息，我們需要將數(shù)據(jù)分為兩個(gè)集群，即擊球手和投球手。

Ensemble model(集成模型)

有時(shí)一個(gè)模型是不夠的。

(1)什么是集成模型

集成模型是一種機(jī)器學(xué)習(xí)方法，在預(yù)測(cè)過(guò)程中結(jié)合多個(gè)其他模型。這些模型稱(chēng)為基本估計(jì)器。集成模型提供了一種解決方案來(lái)克服構(gòu)建單個(gè)估計(jì)器的技術(shù)挑戰(zhàn)。

(2)集成算法

單一算法可能無(wú)法對(duì)給定的數(shù)據(jù)集做出完美的預(yù)測(cè)。機(jī)器學(xué)習(xí)算法有其局限性，生成高精度模型具有挑戰(zhàn)性。如果我們構(gòu)建并組合多個(gè)模型，我們就有機(jī)會(huì)提高整體準(zhǔn)確性。然后，我們通過(guò)聚合具有兩個(gè)目標(biāo)的每個(gè)模型的輸出來(lái)實(shí)現(xiàn)模型的組合：

可以使用不同的技術(shù)(有時(shí)稱(chēng)為元算法)來(lái)實(shí)現(xiàn)這種聚合，如下圖示例

end to end

在論文中經(jīng)常能遇到end to end這樣的描述，那么到底什么是端到端呢？其實(shí)就是給了一個(gè)輸入，我們就給出一個(gè)輸出，不管其中的過(guò)程多么復(fù)雜，但只要給了一個(gè)輸入，機(jī)會(huì)對(duì)應(yīng)一個(gè)輸出。比如分類(lèi)問(wèn)題，你輸入了一張圖片，肯呢個(gè)網(wǎng)絡(luò)有特征提取，全鏈接分類(lèi)，概率計(jì)算什么的，但是跳出算法問(wèn)題，單從結(jié)果來(lái)看，就是給了一張輸入，輸出了一個(gè)預(yù)測(cè)結(jié)果。End-To-End的方案，即輸入一張圖，輸出最終想要的結(jié)果，算法細(xì)節(jié)和學(xué)習(xí)過(guò)程全部丟給了神經(jīng)網(wǎng)絡(luò)。

Embedding(嵌入)

深度學(xué)習(xí)方法都是利用使用線(xiàn)性和非線(xiàn)性轉(zhuǎn)換對(duì)復(fù)雜的數(shù)據(jù)進(jìn)行自動(dòng)特征抽取，并將特征表示為“向量”（vector），這一過(guò)程一般也稱(chēng)為“嵌入”（embedding）

Fine tune(微調(diào))

在深度學(xué)習(xí)中，Fine tune是一種遷移學(xué)習(xí)方法，其中預(yù)訓(xùn)練模型的權(quán)重在新數(shù)據(jù)上進(jìn)行訓(xùn)練。 [1] 微調(diào)可以在整個(gè)神經(jīng)網(wǎng)絡(luò)上進(jìn)行，也可以?xún)H在其層的子集上進(jìn)行，在這種情況下，未微調(diào)的層將被“凍結(jié)”（在反向傳播步驟期間不會(huì)更新)。模型還可以使用由比原始模型少得多的參數(shù)組成的“適配器”進(jìn)行增強(qiáng)，并通過(guò)調(diào)整適配器的權(quán)重并保持模型的其余權(quán)重凍結(jié)來(lái)以參數(shù)有效的方式進(jìn)行微調(diào)。

對(duì)于某些架構(gòu)，例如卷積神經(jīng)網(wǎng)絡(luò)，通常會(huì)凍結(jié)較早的層（最接近輸入層的層），因?yàn)樗鼈儾东@較低級(jí)別的特征，而后面的層通常會(huì)識(shí)別與以下內(nèi)容更相關(guān)的高級(jí)特征：模型訓(xùn)練的任務(wù)。

Feature map(特征圖)

特征圖也稱(chēng)為激活圖。

從圖像中提取過(guò)濾器后。

這些過(guò)濾器是圖像的小部分，具有不同的特征。

輸入上使用的過(guò)濾器數(shù)量應(yīng)創(chuàng)建相同數(shù)量的特征圖。

因此，具有 6 個(gè)濾波器的輸入圖像將具有 6 個(gè)特征圖。

?Feature and their locations in the input images

在上圖中，有 2 個(gè)過(guò)濾器（紅色輪廓和綠色輪廓）用于創(chuàng)建兩個(gè)特征圖。濾波器通過(guò)卷積運(yùn)算在圖像上滑動(dòng)并生成特征圖。還要注意從同一圖像生成的這些特色地圖有多么不同。每個(gè)特征圖捕獲同一圖像的不同特征。通過(guò)更多數(shù)量的過(guò)濾器，我們將能夠生成更多特征。例如，考慮一個(gè) 32 × 32 圖像，以 1 的步幅寬度在學(xué)習(xí)/輸入圖像上滑動(dòng) 5 × 5 感受野將產(chǎn)生 28 × 28 輸出值的特征圖。

32 × 32 ==> 28 × 28 ( 32–5 + 1 × 32–5 + 1 )

或者每個(gè)圖像 784 個(gè)不同的激活。

?Figure 2: Features

特征圖（卷積特征）的大小由我們需要在執(zhí)行卷積步驟之前決定的三個(gè)參數(shù)控制：

深度(Depth)：深度對(duì)應(yīng)于我們用于卷積運(yùn)算的濾波器的數(shù)量。在圖 3 所示的網(wǎng)絡(luò)中，我們使用三個(gè)不同的濾波器對(duì)原始船只圖像進(jìn)行卷積，從而生成如圖所示的三個(gè)不同的特征圖。您可以將這三個(gè)特征圖視為堆疊的二維矩陣，因此特征圖的“深度”將為三。

Figure 3: Feature Map depth parameters

步幅(Stride)：步幅是我們?cè)谳斎刖仃嚿匣瑒?dòng)過(guò)濾器矩陣的像素?cái)?shù)。當(dāng)步長(zhǎng)為 1 時(shí)，我們一次移動(dòng)過(guò)濾器一個(gè)像素。當(dāng)步長(zhǎng)為 2 時(shí)，當(dāng)我們滑動(dòng)過(guò)濾器時(shí)，過(guò)濾器一次跳躍 2 個(gè)像素。步幅較大會(huì)產(chǎn)生較小的特征圖。
零填充(Zero-padding)：有時(shí)，在邊界周?chē)昧闾畛漭斎刖仃嚭芊奖?#xff0c;這樣我們就可以將過(guò)濾器應(yīng)用于輸入圖像矩陣的邊界元素。零填充的一個(gè)很好的功能是它允許我們控制特征圖的大小。添加零填充也稱(chēng)為寬卷積，不使用零填充則稱(chēng)為窄卷積。這在[2]中已經(jīng)解釋得很清楚了。

FPS

Frames Per Second，每秒幀數(shù)，就是幀率

Generative Adversarial Network(GAN，生成對(duì)抗網(wǎng)絡(luò))

GAN包含有兩個(gè)模型，一個(gè)是生成模型（generative model），一個(gè)是判別模型(discriminative model)。生成模型的任務(wù)是生成看起來(lái)自然真實(shí)的、和原始數(shù)據(jù)相似的實(shí)例。判別模型的任務(wù)是判斷給定的實(shí)例看起來(lái)是自然真實(shí)的還是人為偽造的（真實(shí)實(shí)例來(lái)源于數(shù)據(jù)集，偽造實(shí)例來(lái)源于生成模型）。

這可以看做一種零和游戲。生成器（generator）試圖欺騙判別器（discriminator），判別器則努力不被生成器欺騙。模型經(jīng)過(guò)交替優(yōu)化訓(xùn)練，兩種模型都能得到提升，但最終我們要得到的是效果提升到很高很好的生成模型，這生成模型所生成的產(chǎn)品能達(dá)到真假難分的地步。

在訓(xùn)練過(guò)程中，生成網(wǎng)絡(luò)G的目標(biāo)是生成盡可能多的真實(shí)圖像來(lái)欺騙網(wǎng)絡(luò)D，而D的目標(biāo)是試圖將G生成的假圖像與真實(shí)圖像區(qū)分開(kāi)來(lái)。這樣，G和D構(gòu)成一個(gè)動(dòng)態(tài)的“博弈過(guò)程”，最終的均衡點(diǎn)為納什均衡點(diǎn)。

H--N

Hyperparameter(超參數(shù))

超參數(shù)。模型參數(shù)是根據(jù)數(shù)據(jù)自動(dòng)估算的，例如權(quán)重。但模型超參數(shù)是手動(dòng)設(shè)置的，并且在過(guò)程中用于幫助估計(jì)模型參數(shù)，例如學(xué)習(xí)率。

Intersection over Union(IoU，交并比)

IoU 量化兩個(gè)邊界框（ground truth and prediction）的接近程度。它是一個(gè)介于 0 和 1 之間的值。如果兩個(gè)邊界框完全重疊，則預(yù)測(cè)是完美的，因此 IoU 為 1。另一方面，如果兩個(gè)邊界框不重疊，則 IoU 為 0。IoU 通過(guò)計(jì)算兩個(gè)連接盒的相交面積與并集面積之比來(lái)計(jì)算，如下所示。

Learning rate(學(xué)習(xí)率)

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)使用隨機(jī)梯度下降優(yōu)化算法進(jìn)行訓(xùn)練。學(xué)習(xí)率是一個(gè)超參數(shù)，它控制每次更新模型權(quán)重時(shí)響應(yīng)估計(jì)誤差而改變模型的程度。選擇學(xué)習(xí)率具有挑戰(zhàn)性，因?yàn)橹堤】赡軙?huì)導(dǎo)致訓(xùn)練過(guò)程過(guò)長(zhǎng)并可能陷入困境，而值太大可能會(huì)導(dǎo)致過(guò)快地學(xué)習(xí)次優(yōu)權(quán)重集或訓(xùn)練過(guò)程不穩(wěn)定。配置神經(jīng)網(wǎng)絡(luò)時(shí)，學(xué)習(xí)率可能是最重要的超參數(shù)。因此，了解如何研究學(xué)習(xí)率對(duì)模型性能的影響并建立關(guān)于學(xué)習(xí)率對(duì)模型行為動(dòng)態(tài)的直覺(jué)至關(guān)重要。

loss function(損失函數(shù))

在數(shù)學(xué)優(yōu)化和決策理論中，損失或成本函數(shù)（有時(shí)也稱(chēng)為誤差函數(shù)）是將事件或一個(gè)或多個(gè)變量的值映射到直觀地表示與事件相關(guān)的某些“成本”的實(shí)數(shù)的函數(shù)。簡(jiǎn)單來(lái)說(shuō)，損失函數(shù)是一種評(píng)估算法對(duì)數(shù)據(jù)集建模效果的方法。它是機(jī)器學(xué)習(xí)算法參數(shù)的數(shù)學(xué)函數(shù)。在簡(jiǎn)單線(xiàn)性回歸中，使用斜率（m）和截距（b）計(jì)算預(yù)測(cè)。其損失函數(shù)是 (Yi – Yihat)^2，即損失函數(shù)是斜率和截距的函數(shù)。

Multilayer Perceptron(MLP，多層感知機(jī))

不要將“MLP”與“NLP”混淆，“NLP”指的是自然語(yǔ)言處理(natural language processing)。多層感知機(jī) (MLP) 是一類(lèi)全連接的前饋人工神經(jīng)網(wǎng)絡(luò) (ANN，artificial neural network)。 MLP 一詞的使用含糊不清，有時(shí)寬松地表示任何前饋 ANN，有時(shí)嚴(yán)格地指由多層感知器（具有閾值激活）組成的網(wǎng)絡(luò)。多層感知器有時(shí)通俗地稱(chēng)為“普通”神經(jīng)網(wǎng)絡(luò)，特別是當(dāng)它們具有單個(gè)隱藏層時(shí)。

MLP 至少由三層節(jié)點(diǎn)組成：輸入層、隱藏層和輸出層。除輸入節(jié)點(diǎn)外，每個(gè)節(jié)點(diǎn)都是使用非線(xiàn)性激活函數(shù)的神經(jīng)元。 MLP 利用基于鏈規(guī)則的監(jiān)督學(xué)習(xí)技術(shù)（稱(chēng)為反向傳播或自動(dòng)微分的反向模式）進(jìn)行訓(xùn)練。它的多層和非線(xiàn)性激活將 MLP 與線(xiàn)性感知器區(qū)分開(kāi)來(lái)。它可以區(qū)分不可線(xiàn)性分離的數(shù)據(jù)。

O--T

Off-the-shelf

已有的，現(xiàn)成的

Pipeline(超參數(shù))

Pipeline如果直譯是管道或者流水線(xiàn)，這誰(shuí)能看懂呢。

在機(jī)器學(xué)習(xí)中，Pipeline定義是一種自動(dòng)化機(jī)器學(xué)習(xí)工作流程的方法，方法是將數(shù)據(jù)轉(zhuǎn)換并關(guān)聯(lián)到模型中，然后對(duì)模型進(jìn)行分析以實(shí)現(xiàn)輸出。這種類(lèi)型的 ML Pipeline使將數(shù)據(jù)輸入 ML 模型的過(guò)程完全自動(dòng)化(這么看流水線(xiàn)還挺形象，個(gè)人還是喜歡翻譯為通道) 。

另一種類(lèi)型的機(jī)器學(xué)習(xí)Pipeline是將機(jī)器學(xué)習(xí)工作流程拆分為獨(dú)立的、可重用的模塊化部分的藝術(shù)，然后可以將這些部分連接在一起以創(chuàng)建模型。這種類(lèi)型的機(jī)器學(xué)習(xí)Pipeline使構(gòu)建模型更加高效和簡(jiǎn)化，消除了多余的工作。

pooling(池化)

池化是一個(gè)深度學(xué)習(xí)中的操作手段，在程序中對(duì)應(yīng)的就是池化層(pooling layer)，卷積神經(jīng)網(wǎng)絡(luò)中的池化是一種概括卷積濾波器(convolutional filters)提取的特征并幫助網(wǎng)絡(luò)識(shí)別特征的技術(shù)，而與特征在圖像中的位置無(wú)關(guān)。

（1）為什么卷積神經(jīng)網(wǎng)絡(luò)中需要池化

卷積層是用于圖像識(shí)別等計(jì)算機(jī)視覺(jué)應(yīng)用的卷積神經(jīng)網(wǎng)絡(luò)的基本構(gòu)建塊。卷積層在圖像上滑動(dòng)過(guò)濾器并提取特征，從而生成特征圖，該特征圖可以饋送到下一個(gè)卷積層以提取更高級(jí)別的特征。因此，堆疊多個(gè)卷積層使 CNN 能夠識(shí)別圖像中日益復(fù)雜的結(jié)構(gòu)和對(duì)象。

卷積層的一個(gè)主要問(wèn)題是過(guò)濾器生成的特征圖是位置相關(guān)的。這意味著在訓(xùn)練過(guò)程中，卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)將某個(gè)特征的存在與輸入圖像中的特定位置相關(guān)聯(lián)。這會(huì)嚴(yán)重降低性能。相反，我們希望特征圖和網(wǎng)絡(luò)具有平移不變性（一種奇特的表達(dá)，意味著特征的位置不重要）。

在關(guān)于填充和步幅的文章中，我們討論了卷積運(yùn)算中更大的步幅如何幫助將圖像集中在更高級(jí)別的特征上。專(zhuān)注于更高級(jí)別的結(jié)構(gòu)可以使網(wǎng)絡(luò)更少地依賴(lài)于與特征位置相關(guān)的粒度細(xì)節(jié)。池化是讓網(wǎng)絡(luò)專(zhuān)注于更高級(jí)別功能的另一種方法。在卷積神經(jīng)網(wǎng)絡(luò)中，池化通常應(yīng)用于由前面的卷積層和非線(xiàn)性激活函數(shù)產(chǎn)生的特征圖。

（2）池化是如何進(jìn)行的

池化的基本過(guò)程與卷積運(yùn)算非常相似。您選擇一個(gè)過(guò)濾器并將其滑動(dòng)到前一個(gè)卷積層的輸出特征圖上。最常用的過(guò)濾器大小是 2×2，它使用 2 的步長(zhǎng)在輸入上滑動(dòng)。根據(jù)您選擇的池化操作類(lèi)型，池化過(guò)濾器計(jì)算感受野上（過(guò)濾器下的特征圖部分）的輸出。有多種池化方法。最常用的方法是最大池化和平均池化。

（3）Max Pooling（最大池化）

在最大池化中，濾波器簡(jiǎn)單地選擇感受野中的最大像素值。例如，如果字段中有 4 個(gè)像素，其值為 3、9、0 和 6，則選擇 9。

（4）Average Pooling（平均池化）

平均池化的工作原理是計(jì)算感受野中像素值的平均值。給定 4 個(gè)像素，值為 3、9、0 和 6，平均池化層將產(chǎn)生 4.5 的輸出。四舍五入到整數(shù)后得到 5。

（5）如何理解池化值

您可以將池化層計(jì)算和保留的數(shù)字視為指示特定特征的存在。如果神經(jīng)網(wǎng)絡(luò)僅依賴(lài)于原始特征圖，則其檢測(cè)特征的能力將取決于圖中的位置。例如，如果僅在左上象限中找到數(shù)字 9，則網(wǎng)絡(luò)將學(xué)習(xí)將連接到數(shù)字 9 的特征與左上象限相關(guān)聯(lián)。通過(guò)應(yīng)用池化，我們將該特征提取到一個(gè)更小、更通用的地圖中，該地圖僅指示某個(gè)特征是否存在于該特定象限中。每增加一層，地圖都會(huì)縮小，只保留有關(guān)感興趣特征的存在的重要信息。隨著地圖變小，它變得越來(lái)越獨(dú)立于要素的位置。只要在原始位置附近檢測(cè)到該特征，它就應(yīng)該類(lèi)似地反映在池化層生成的地圖中。

由于它關(guān)注極值，最大池化關(guān)注感受野中更突出的特征和邊緣。另一方面，平均池化可以創(chuàng)建更平滑的特征圖，因?yàn)樗善骄刀皇沁x擇極值。在實(shí)踐中，最大池化應(yīng)用得更頻繁，因?yàn)樗ǔ８瞄L(zhǎng)識(shí)別突出特征。在實(shí)際應(yīng)用中，平均池化僅用于將特征圖折疊到特定大小。由于池化能夠折疊特征圖，因此還可以幫助對(duì)不同大小的圖像進(jìn)行分類(lèi)。神經(jīng)網(wǎng)絡(luò)中的分類(lèi)層期望接收相同格式的輸入。因此，我們通常以相同的標(biāo)準(zhǔn)尺寸提供圖像。通過(guò)在池化操作期間改變偏移量，我們可以總結(jié)不同大小的圖像，并且仍然生成相似大小的特征圖。一般來(lái)說(shuō)，當(dāng)您執(zhí)行圖像分類(lèi)任務(wù)時(shí)，您只需要檢測(cè)圖像中某個(gè)對(duì)象是否存在，但不關(guān)心它的具體位置，池化尤其有用。事實(shí)上，池化濾波器使用比卷積濾波器更大的步長(zhǎng)并導(dǎo)致更小的輸出，這一事實(shí)也支持網(wǎng)絡(luò)的效率并導(dǎo)致更快的訓(xùn)練。換句話(huà)說(shuō)，位置不變性可以極大地提高網(wǎng)絡(luò)的統(tǒng)計(jì)效率。

Precision/Recall(精度/召回率)-----Accuracy(準(zhǔn)確度)/F1 score(F1得分)

基于 TP、FP 和 FN(這仨指標(biāo)下文有)，對(duì)于每個(gè)標(biāo)記類(lèi)別，我們計(jì)算兩個(gè)參數(shù)：精度和召回率(放一起是為了好總結(jié))。

Precision：告訴我們模型的精確度，即在檢測(cè)到的貓總數(shù)中，有多少是真正的貓。因此，它是模型做出的真陽(yáng)性與貓預(yù)測(cè)總數(shù)（相當(dāng)于真陽(yáng)性和假陽(yáng)性之和）之間的比率，如下圖所示。

Recall：告訴我們模型在從圖像中召回類(lèi)別方面有多好，即在輸入圖像中的貓總數(shù)中模型能夠檢測(cè)到多少只。因此，它是模型得出的真陽(yáng)性與地面真貓總數(shù)之間的比率（相當(dāng)于真陽(yáng)性和假陰性的總和），如下圖所示。

從上圖可以看出，分類(lèi)器的預(yù)測(cè)是準(zhǔn)確的。當(dāng)它說(shuō)它是一只貓（狗）時(shí)，80%的時(shí)間都是正確的。但是，如果圖像中存在貓（狗），則分類(lèi)器只能在 50% (80%) 的時(shí)間內(nèi)檢測(cè)到它。因此，該模型很難回憶起貓(模型老年癡呆了乛?乛)。

Accuracy：把準(zhǔn)確度放這兒是為了和上面的精度對(duì)比。

準(zhǔn)確率（Accuracy）表示分類(lèi)正確的樣本占總樣本個(gè)數(shù)的比例，計(jì)算公式如下

F1 score：F1 score是精度和召回率的一個(gè)加權(quán)平均，計(jì)算公式如下。

Precision體現(xiàn)了模型對(duì)負(fù)樣本的區(qū)分能力，Precision越高，模型對(duì)負(fù)樣本的區(qū)分能力越強(qiáng)；Recall體現(xiàn)了模型對(duì)正樣本的識(shí)別能力，Recall越高，模型對(duì)正樣本的識(shí)別能力越強(qiáng)。F1 score是兩者的綜合，F1 score越高，說(shuō)明模型越穩(wěn)健。

receptive field(RF, 感受野)

在典型CNN結(jié)構(gòu)中，FC層(全連接層，FC layer)每個(gè)輸出節(jié)點(diǎn)的值都依賴(lài)FC層所有輸入，而CONV層(卷積層，Convolutional Layer)每個(gè)輸出節(jié)點(diǎn)的值僅依賴(lài)CONV層輸入的一個(gè)區(qū)域，這個(gè)區(qū)域之外的其他輸入值都不會(huì)影響輸出值，該區(qū)域就是感受野。

圖中是個(gè)微型CNN，來(lái)自Inception-v3論文(Rethinking the Inception Architecture for Computer Vision)，原圖是為了說(shuō)明一個(gè)conv5x5可以用兩個(gè)conv3x3代替，從下到上稱(chēng)為第1, 2, 3層：

第2層左下角的值，是第1層左下紅框中3x3區(qū)域的值經(jīng)過(guò)卷積，也就是乘加運(yùn)算計(jì)算出來(lái)的，即第2層左下角位置的感受野是第1層左下紅框區(qū)域
第3層唯一值，是第2層所有3x3區(qū)域卷積得到的，即第3層唯一位置的感受野是第2層所有3x3區(qū)域
第3層唯一值，是第1層所有5x5區(qū)域經(jīng)過(guò)兩層卷積得到的，即第3層唯一位置的感受野是第1層所有5x5區(qū)域

就是這么簡(jiǎn)單，某一層feature map(特性圖)中某個(gè)位置的特征向量，是由前面某一層固定區(qū)域的輸入計(jì)算出來(lái)的，那這個(gè)區(qū)域就是這個(gè)位置的感受野。任意兩個(gè)層之間都有位置—感受野對(duì)應(yīng)關(guān)系，但我們更常用的是feature map層到輸入圖像的感受野，如目標(biāo)檢測(cè)中我們需要知道feature map層每個(gè)位置的特征向量對(duì)應(yīng)輸入圖像哪個(gè)區(qū)域，以便我們?cè)谶@個(gè)區(qū)域中設(shè)置anchor，檢測(cè)該區(qū)域內(nèi)的目標(biāo)。

感受野區(qū)域之外圖像區(qū)域的像素不會(huì)影響feature map層的特征向量，所以我們不太可能讓CNN僅依賴(lài)某個(gè)特征向量去找到其對(duì)應(yīng)輸入感受野之外的目標(biāo)。這里說(shuō)“不太可能”而不是“絕無(wú)可能”，是因?yàn)镃NN很強(qiáng)大，且圖像像素之間有相關(guān)性，有時(shí)候感受野之外的目標(biāo)是可以猜出來(lái)的，什么一葉知秋，管中窺豹，見(jiàn)微知著之類(lèi)，對(duì)CNN目標(biāo)檢測(cè)都是有可能的，但猜出來(lái)的結(jié)果并不總是那么靠譜。

感受野有什么用呢？

一般task要求感受野越大越好，如圖像分類(lèi)中最后卷積層的感受野要大于輸入圖像，網(wǎng)絡(luò)深度越深感受野越大性能越好
密集預(yù)測(cè)task要求輸出像素的感受野足夠的大，確保做出決策時(shí)沒(méi)有忽略重要信息，一般也是越深越好
目標(biāo)檢測(cè)task中設(shè)置anchor要嚴(yán)格對(duì)應(yīng)感受野，anchor太大或偏離感受野都會(huì)嚴(yán)重影響檢測(cè)性能
Region of interest(ROI)

感興趣區(qū)域（通?？s寫(xiě)為 ROI）是為特定目的標(biāo)識(shí)的數(shù)據(jù)集中的樣本。

Region of Interest Pooling

感興趣區(qū)域池化（也稱(chēng)為 RoI 池化）是一種廣泛應(yīng)用于使用卷積神經(jīng)網(wǎng)絡(luò)的對(duì)象檢測(cè)任務(wù)中的操作。例如，在單個(gè)圖像中檢測(cè)多輛汽車(chē)和行人。其目的是對(duì)非均勻大小的輸入執(zhí)行最大池化以獲得固定大小的特征圖。

Prior knowledge(先驗(yàn)知識(shí))

除了機(jī)器學(xué)習(xí)pipeline中常見(jiàn)的信息源——訓(xùn)練數(shù)據(jù)之外，還可以另外整合知識(shí)。如果這個(gè)知識(shí)是預(yù)先存在的，并且不依賴(lài)于學(xué)習(xí)算法，就可以稱(chēng)之為先驗(yàn)知識(shí)。剪枝主要充當(dāng)網(wǎng)絡(luò)內(nèi)的架構(gòu)搜索。事實(shí)上，在稀疏度較低（約 40%）的情況下，模型的泛化能力通常會(huì)稍好一些，因?yàn)榧糁ζ鸬搅苏齽t化的作用。在更高的級(jí)別上，修剪后的模型將與基線(xiàn)匹配。進(jìn)一步推進(jìn)，該模型將開(kāi)始比基線(xiàn)更差，但具有更好的性能。例如，經(jīng)過(guò)精心修剪的 ResNet-50 模型在稀疏度為 90% 時(shí)幾乎可以與 ImageNet 上的基線(xiàn)精度相匹配（模型中 90% 的權(quán)重為零）。

Pruning(剪枝)

剪枝是刪除網(wǎng)絡(luò)中的權(quán)重連接以提高推理速度并減少模型存儲(chǔ)大小的過(guò)程。一般來(lái)說(shuō)，神經(jīng)網(wǎng)絡(luò)的參數(shù)化程度非常高。修剪網(wǎng)絡(luò)可以被認(rèn)為是從過(guò)度參數(shù)化的網(wǎng)絡(luò)中刪除未使用的參數(shù)。

Residual Network(ResNet，殘差網(wǎng)絡(luò))

殘差網(wǎng)絡(luò)（ResNet）是一種用于計(jì)算機(jī)視覺(jué)應(yīng)用的深度學(xué)習(xí)模型。它是一種卷積神經(jīng)網(wǎng)絡(luò) (CNN) 架構(gòu)，旨在支持?jǐn)?shù)百或數(shù)千個(gè)卷積層。以前的 CNN 架構(gòu)無(wú)法擴(kuò)展到大量層，從而導(dǎo)致性能有限。然而，當(dāng)添加更多層時(shí)，研究人員面臨“梯度消失”問(wèn)題。神經(jīng)網(wǎng)絡(luò)通過(guò)反向傳播過(guò)程進(jìn)行訓(xùn)練，該過(guò)程依賴(lài)于梯度下降，向下移動(dòng)損失函數(shù)并找到使其最小化的權(quán)重。如果層數(shù)太多，重復(fù)的乘法最終會(huì)減小梯度，直至“消失”，并且隨著每層的添加，性能會(huì)飽和或惡化。ResNet 為梯度消失問(wèn)題提供了一種創(chuàng)新的解決方案，稱(chēng)為“跳躍連接”。 ResNet 堆疊多個(gè)恒等映射（首先不執(zhí)行任何操作的卷積層），跳過(guò)這些層，并重用前一層的激活。跳過(guò)通過(guò)將網(wǎng)絡(luò)壓縮為更少的層來(lái)加速初始訓(xùn)練。然后，當(dāng)重新訓(xùn)練網(wǎng)絡(luò)時(shí)，所有層都會(huì)擴(kuò)展，并且網(wǎng)絡(luò)的其余部分（稱(chēng)為殘差部分）可以探索輸入圖像的更多特征空間。大多數(shù) ResNet 模型一次跳過(guò)兩層或三層，中間有非線(xiàn)性和批量歸一化。更先進(jìn)的 ResNet 架構(gòu)（稱(chēng)為 HighwayNet）可以學(xué)習(xí)“跳過(guò)權(quán)重”，動(dòng)態(tài)確定要跳過(guò)的層數(shù)。ResNet 架構(gòu)引入了將中間輸入添加到一系列卷積塊的輸出的簡(jiǎn)單概念。如下圖所示。?

State-of-the-art (SOTA)

可翻譯為最先進(jìn)的，最高水平。

True Positive/False Positive/False Negative/True Negative(真陽(yáng)性/假陽(yáng)性/假陰性/真陰性)

這些其實(shí)都是來(lái)自統(tǒng)計(jì)學(xué)的概念，而且字面翻譯也是云里霧里，所以要做一下解釋

True Positive：模型預(yù)測(cè)某個(gè)位置存在邊界框（正）并且是正確的（真）；---->我找到了正確的目標(biāo)
False Positive：模型預(yù)測(cè)特定位置存在邊界框（正），但結(jié)果是錯(cuò)誤的（假）；---->我把錯(cuò)的當(dāng)成的真的
False Negative：模型沒(méi)有預(yù)測(cè)某個(gè)位置的邊界框（負(fù)），并且是錯(cuò)誤的（假），即該位置存在真實(shí)邊界框；---->我把真的當(dāng)成了錯(cuò)的
True Negative：模型沒(méi)有預(yù)測(cè)邊界框（負(fù)）并且它是正確的（真）； ---->我找到了錯(cuò)誤的目標(biāo)

True Negative對(duì)應(yīng)于背景，即沒(méi)有邊界框的區(qū)域，并且不用于計(jì)算最終指標(biāo)。

以下示例將有助于闡明 TP、FP 和 FN。

U--Z

Upsampling(上采樣)/Downsampling(下采樣)

Downsampling：讀完這項(xiàng)技術(shù)的名稱(chēng)后，直觀地知道它與圖像的縮小有關(guān)。嗯，沒(méi)錯(cuò)！這個(gè)想法是正確的，有人出于各種原因縮小圖像的尺寸，例如：它使數(shù)據(jù)的大小更易于管理；降低數(shù)據(jù)的維度，從而加快數(shù)據(jù)（圖像）的處理速度；減少數(shù)據(jù)的存儲(chǔ)大小；根據(jù)用途，該技術(shù)還有一些其他用途。有時(shí)它與圖像壓縮相混淆，圖像壓縮是不同的事情，并且具有完全不同的用途。這里我們只關(guān)心圖像的縮小。嗯，這是什么意思？這本質(zhì)上意味著丟棄一些（非必要的）信息。由此，我們可以得出一個(gè)提示：我們需要從圖像中丟棄一些行和/或列。我們需要丟棄一些信息。

Upsampling：另一方面，上采樣只不過(guò)是下采樣的相反目標(biāo)：增加圖像的行數(shù)和/或列數(shù)（尺寸）。這可以在多種情況下使用，例如 GAN（生成對(duì)抗網(wǎng)絡(luò)）中使用的情況，其目的是根據(jù)隨機(jī)向量樣本構(gòu)建圖像，模仿來(lái)自真實(shí)分布或真實(shí)分布的圖像。還有很多其他的比如提高圖像質(zhì)量等等。讓我們更詳細(xì)地討論這個(gè)問(wèn)題。

下采樣時(shí)，我們的意圖相當(dāng)簡(jiǎn)單明了，但上采樣時(shí)就不那么簡(jiǎn)單了。我們需要以某種方式增加圖像的尺寸并填充間隙（列/行）。假設(shè)您想要將原始圖像上采樣 3 倍，這意味著您需要使用某種邏輯為圖像中的每行/列添加 2 個(gè)行/列。一種方法可能是重復(fù)原始圖像中的每一列/行。

如果您這樣做，有趣的是，您會(huì)觀察到兩個(gè)圖像：原始圖像和生成的圖像即使不完全相同，看起來(lái)也非常相似。為了說(shuō)明這一點(diǎn)，您沒(méi)有在生成的圖像中創(chuàng)建任何“新”數(shù)據(jù)。由于重復(fù)的行和列是完全冗余的，因此該方法沒(méi)有任何用處，并且它不提供任何新信息。添加新列的明智方法是在行/列之間插入新數(shù)據(jù)，這使用一些高級(jí)數(shù)學(xué)生成提供相當(dāng)準(zhǔn)確的中間值。

Without bells and whistles

沒(méi)有花里胡哨的方法（不添加不必要，冗余的東西）

Warm up(熱身)

Warm up指的是用一個(gè)小的學(xué)習(xí)率先訓(xùn)練幾個(gè)epoch，這是因?yàn)榫W(wǎng)絡(luò)的參數(shù)是隨機(jī)初始化的，一開(kāi)始就采用較大的學(xué)習(xí)率容易數(shù)值不穩(wěn)定。

查看全文

http://m.aloenet.com.cn/news/40468.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

引言