南京seo排名收費(fèi)廣州網(wǎng)站優(yōu)化軟件
引言
新手在學(xué)習(xí)深度學(xué)習(xí)或者在看深度學(xué)習(xí)論文的過(guò)程中,有不少專(zhuān)業(yè)詞匯,軟件翻譯不出來(lái),就算是翻譯出來(lái)也看不懂,因?yàn)椴簧傩g(shù)語(yǔ)是借用其他學(xué)科的概念,這里整理了一些在深度學(xué)習(xí)中常見(jiàn)的術(shù)語(yǔ),并對(duì)一些概念進(jìn)行解釋。
這里先教大家一個(gè)查概念的方法,比如我想查Ablation study,這個(gè)中文翻譯是消融實(shí)驗(yàn),這概念誰(shuí)能明白呢,咱們可以從根源去查消融實(shí)驗(yàn)的含義,打開(kāi)google,直接搜what is xxx in deep learning,如下面的圖所示?
?好,下面開(kāi)始總結(jié),博主這里按照概念英文首字母進(jìn)行排序,有部分概念為了方便對(duì)比也會(huì)放在一起,總結(jié)不全或有錯(cuò)誤之處,請(qǐng)大家指出并多多包涵,總結(jié)不易,也請(qǐng)大家多多點(diǎn)贊收藏。
A--G
Ablation study(消融實(shí)驗(yàn))
消融(ablation)是指去除人工智能系統(tǒng)的一個(gè)組件。 消融研究通過(guò)刪除某些組件來(lái)研究人工智能系統(tǒng)的性能,以了解該組件對(duì)整個(gè)系統(tǒng)的貢獻(xiàn)。大白話(huà)就是說(shuō)一個(gè)完整的框架去掉某個(gè)功能,看看系統(tǒng)還能運(yùn)行成什么樣。
Activation layer/Activation Function(激活層/激活函數(shù))
激活層(Activation Layer)負(fù)責(zé)對(duì)卷積層抽取的特征進(jìn)行激活,由于卷積操作是由輸入矩陣與卷積核矩陣進(jìn)行相乘的過(guò)程,是線(xiàn)性變化關(guān)系,需要激活層對(duì)其進(jìn)行非線(xiàn)性的映射。
激活層主要由激活函數(shù)組成,即在卷積層輸出結(jié)果的基礎(chǔ)上嵌套一個(gè)非線(xiàn)性函數(shù),讓輸出的特征圖具有非線(xiàn)性關(guān)系。卷積網(wǎng)絡(luò)中通常采用ReLU來(lái)充當(dāng)激活函數(shù)(還包括tanh和sigmoid等)ReLU的函數(shù)形式如下所示,能夠限制小于0的值為0,同時(shí)大于等于0的值保持不變。
?
Anchor box(錨框)/先驗(yàn)框(prior bounding box)/gound truth(真值)
(1)Anchor box
錨框是一個(gè)很難理解的概念,目標(biāo)檢測(cè)算法通常會(huì)對(duì)輸入圖像中的大量區(qū)域進(jìn)行采樣,確定這些區(qū)域是否包含感興趣的目標(biāo),并調(diào)整區(qū)域的邊緣,以便更準(zhǔn)確地預(yù)測(cè)目標(biāo)的真實(shí)邊界框。不同的模型可能使用不同的區(qū)域采樣方法。在這里,介紹一種這樣的方法:它生成多個(gè)具有不同大小和長(zhǎng)寬比的邊界框,同時(shí)以每個(gè)像素為中心。這些邊界框稱(chēng)為錨框。上文表明,錨框不過(guò)是圖像中采樣的區(qū)域。
(2)prior bounding box
那上面為什么把prior bounding box放到這里呢,在眾多經(jīng)典的目標(biāo)檢測(cè)模型中,均有先驗(yàn)框的說(shuō)法,有的paper(如Faster RCNN)中稱(chēng)之為anchor(錨點(diǎn)),有的paper(如SSD)稱(chēng)之為prior bounding box(先驗(yàn)框),實(shí)際上是一個(gè)概念,特此說(shuō)明。
這里提供一個(gè)詳細(xì)的資料:動(dòng)手學(xué)CV-Pytorch
(3)gound truth
那又為什么把gound truth放在這里一起解釋呢,因?yàn)檫@幾個(gè)概念往往一起出現(xiàn),新手迷迷糊糊就別忽悠瘸了,如下圖,我們?cè)谟?xùn)練模型之前,需要先對(duì)圖片進(jìn)行標(biāo)注(label),比如將下圖的小狗框出來(lái)。?
gound truth翻譯為真值還行,翻譯為地面真相是真的太蠢了,個(gè)人認(rèn)為(輕噴),忘了是在哪兒看到的,gound truth來(lái)源于氣象學(xué),本意是指測(cè)量到的地面的真實(shí)數(shù)據(jù),真么看翻譯成地面真相也不是不能接受,個(gè)人還是愿意翻譯為人工標(biāo)注,這真的是很直觀。
AP(Average Precision)
對(duì)象檢測(cè)和定位算法的性能通過(guò)稱(chēng)為平均精度 (AP)(和平均精度,mean average precision,mAP)的指標(biāo)進(jìn)行評(píng)估。,AP 不是不同類(lèi)別的平均精度,AP是借助其他幾個(gè)指標(biāo)來(lái)計(jì)算的,例如IoU、混淆矩陣(TP、FP、FN)、精度和召回率等,如下圖所示。
Attention Mechanism(注意力機(jī)制)
注意力機(jī)制通過(guò)選擇性地關(guān)注重要的輸入元素來(lái)增強(qiáng)深度學(xué)習(xí)模型,提高預(yù)測(cè)精度和計(jì)算效率。 他們優(yōu)先考慮并強(qiáng)調(diào)相關(guān)信息,作為提高整體模型性能的焦點(diǎn)。在心理學(xué)中,注意力是選擇性地集中于一件或幾件事情而忽略其他事情的認(rèn)知過(guò)程。神經(jīng)網(wǎng)絡(luò)被認(rèn)為是一種以簡(jiǎn)化方式模仿人類(lèi)大腦行為。 注意力機(jī)制也是一種嘗試,在深度神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)選擇性地關(guān)注一些相關(guān)事物,而忽略其他事物的相同動(dòng)作。
Baseline(基線(xiàn))/Benchmark(基準(zhǔn))
這倆放一起也是為了比較,做個(gè)不恰當(dāng)?shù)谋扔?#xff0c;就像修仙,你初期修仙的菜鳥(niǎo)水平就是基線(xiàn),隨著修行提升,相對(duì)于基線(xiàn)水平的菜鳥(niǎo)修行就有提升,基準(zhǔn)就像是半步飛仙,你在修行的過(guò)程中向著這個(gè)目標(biāo)前進(jìn)并想辦法超越半步飛仙這個(gè)基準(zhǔn)成為飛仙。
(1)Baseline(基線(xiàn))
基線(xiàn)模型本質(zhì)上是一個(gè)簡(jiǎn)單的模型,在機(jī)器學(xué)習(xí)項(xiàng)目中充當(dāng)參考。 其主要功能是將訓(xùn)練模型的結(jié)果置于上下文中。基線(xiàn)模型通常缺乏復(fù)雜性,并且可能沒(méi)有什么預(yù)測(cè)能力。 無(wú)論如何,出于多種原因,將它們納入其中是必要的。
(2)Benchmark(基準(zhǔn))
Benchmark是一種用于比較其他模型性能的模型。 有不同類(lèi)型的基準(zhǔn)。 有時(shí),它是所謂的最先進(jìn)模型,即給定數(shù)據(jù)集上針對(duì)給定問(wèn)題的最佳模型。 基準(zhǔn)測(cè)試的目標(biāo)是看看我們是否可以創(chuàng)建更好的模型并超越已發(fā)布的結(jié)果。
Backbone(骨干)
就這翻譯誰(shuí)能看懂,一般來(lái)說(shuō),術(shù)語(yǔ)Backbone是指將輸入數(shù)據(jù)處理成某種特征表示的特征提取網(wǎng)絡(luò)。 這些特征提取網(wǎng)絡(luò)通常在更簡(jiǎn)單的任務(wù)上作為獨(dú)立網(wǎng)絡(luò)表現(xiàn)良好,因此,我們可以將它們用作更復(fù)雜模型中的特征提取部分。
我們可以將許多流行的 CNN 架構(gòu)用作神經(jīng)網(wǎng)絡(luò)的骨干。 其中一些包括:
- VGGs —— 包括具有 16 層和 19 層的 VGG-16 和 VGG-19 卷積網(wǎng)絡(luò)。 事實(shí)證明,它們?cè)谠S多任務(wù)中都很有效,尤其是在圖像分類(lèi)和目標(biāo)檢測(cè)方面。
- ResNets ——或殘差神經(jīng)網(wǎng)絡(luò),由卷積層和池化層塊之間的跳躍連接或循環(huán)單元組成。 ResNet-50 和 ResNet 101 的一些流行版本常用于對(duì)象檢測(cè)和語(yǔ)義分割任務(wù)。
- Inception v1 —— GoogleNet 是最常用的卷積神經(jīng)網(wǎng)絡(luò)之一,作為許多計(jì)算機(jī)科學(xué)應(yīng)用的支柱,包括視頻摘要和動(dòng)作識(shí)別。
以一篇論文是專(zhuān)門(mén)介紹backbone的:Backbones-Review: Feature Extraction Networks for Deep Learning and Deep Reinforcement Learning Approaches
論文鏈接:https://arxiv.org/abs/2206.08016
Batch(批量)/Epoch(批次)
在區(qū)分這倆概念之前要先了解一下隨機(jī)梯度下降的概念
梯度下降更多參考:Gradient Descent For Machine Learning - MachineLearningMastery.com
隨機(jī)梯度下降,簡(jiǎn)稱(chēng) SGD,是一種用于訓(xùn)練機(jī)器學(xué)習(xí)算法的優(yōu)化算法,尤其是深度學(xué)習(xí)中使用的人工神經(jīng)網(wǎng)絡(luò)。該算法的工作是找到一組內(nèi)部模型參數(shù),這些參數(shù)對(duì)于某些性能指標(biāo)(例如對(duì)數(shù)損失或均方誤差)表現(xiàn)良好。優(yōu)化是一種搜索過(guò)程,您可以將這種搜索視為學(xué)習(xí)。該優(yōu)化算法稱(chēng)為“梯度下降”,其中“梯度”是指誤差梯度或誤差斜率的計(jì)算,“下降”是指沿著該斜率向下移動(dòng)到某個(gè)最小誤差水平。該算法是迭代的。這意味著搜索過(guò)程發(fā)生在多個(gè)離散步驟中,每個(gè)步驟都希望稍微改進(jìn)模型參數(shù)。每個(gè)步驟都涉及使用具有當(dāng)前內(nèi)部參數(shù)集的模型對(duì)某些樣本進(jìn)行預(yù)測(cè),將預(yù)測(cè)與真實(shí)的預(yù)期結(jié)果進(jìn)行比較,計(jì)算誤差,并使用誤差來(lái)更新內(nèi)部模型參數(shù)。對(duì)于不同的算法,該更新過(guò)程是不同的,但在人工神經(jīng)網(wǎng)絡(luò)的情況下,使用反向傳播更新算法。在我們深入研究批次和批量之前,讓我們先看一下樣本的含義。
(1)樣本(Sample)
樣本是單行數(shù)據(jù)。它包含輸入到算法中的輸入和用于與預(yù)測(cè)進(jìn)行比較并計(jì)算誤差的輸出。訓(xùn)練數(shù)據(jù)集由許多行數(shù)據(jù)組成,例如許多樣本。樣本也可以稱(chēng)為實(shí)例、觀察、輸入向量或特征向量。
現(xiàn)在我們知道什么是樣本,讓我們定義一個(gè)Batch(批量)。
(2)Batch(批量)
批量大小(batch size)是一個(gè)超參數(shù),定義在更新內(nèi)部模型參數(shù)之前要處理的樣本數(shù)量。將批次視為迭代一個(gè)或多個(gè)樣本并進(jìn)行預(yù)測(cè)的 for 循環(huán)。在批次結(jié)束時(shí),將預(yù)測(cè)與預(yù)期輸出變量進(jìn)行比較并計(jì)算誤差。根據(jù)該誤差,使用更新算法來(lái)改進(jìn)模型,例如沿著誤差梯度向下移動(dòng)。訓(xùn)練數(shù)據(jù)集可以分為一批或多批。當(dāng)所有訓(xùn)練樣本都用于創(chuàng)建一批時(shí),該學(xué)習(xí)算法稱(chēng)為批量梯度下降。當(dāng)批次大小為一個(gè)樣本時(shí),學(xué)習(xí)算法稱(chēng)為隨機(jī)梯度下降。當(dāng)批量大小大于一個(gè)樣本且小于訓(xùn)練數(shù)據(jù)集的大小時(shí),該學(xué)習(xí)算法稱(chēng)為小批量梯度下降。
- 批量梯度下降。批量大小 = 訓(xùn)練集大小
- 隨機(jī)梯度下降。批量大小 = 1
- 小批量梯度下降。1 < 批量大小 < 訓(xùn)練集大小
在小批量梯度下降的情況下,流行的批量大小包括 32、64 和 128 個(gè)樣本。您可能會(huì)在文獻(xiàn)和教程的模型中看到這些值。
(3)Epoch(批次)
epoch 的數(shù)量是一個(gè)超參數(shù),它定義了學(xué)習(xí)算法在整個(gè)訓(xùn)練數(shù)據(jù)集中工作的次數(shù)。一個(gè)epoch意味著訓(xùn)練數(shù)據(jù)集中的每個(gè)樣本都有機(jī)會(huì)更新內(nèi)部模型參數(shù)。一個(gè)epoch由一個(gè)或多個(gè)batch組成。例如,如上所述,一個(gè) epoch 具有一個(gè)批次,稱(chēng)為批量梯度下降學(xué)習(xí)算法??梢韵胂笠粋€(gè)針對(duì) epoch 數(shù)的 for 循環(huán),其中每個(gè)循環(huán)都在訓(xùn)練數(shù)據(jù)集上進(jìn)行。在這個(gè) for 循環(huán)中是另一個(gè)嵌套的 for 循環(huán),它迭代每批樣本,其中一個(gè)批次具有指定的“批量大小”數(shù)量的樣本。epoch數(shù)量傳統(tǒng)上很大,通常是數(shù)百或數(shù)千,允許學(xué)習(xí)算法運(yùn)行直到模型的誤差被充分最小化。您可能會(huì)在文獻(xiàn)和教程中看到將 epoch 數(shù)量設(shè)置為 10、100、500、1000 或更大的示例。通常創(chuàng)建線(xiàn)圖,將 x 軸上的歷元顯示為時(shí)間,并在 y 軸上顯示模型的誤差或技能。這些圖有時(shí)稱(chēng)為學(xué)習(xí)曲線(xiàn)。這些圖可以幫助診斷模型是否學(xué)習(xí)過(guò)度、學(xué)習(xí)不足或是否適合訓(xùn)練數(shù)據(jù)集。
(4)Batch(批量)/Epoch(批次)的區(qū)別
- batch size是模型更新之前處理的樣本數(shù)量。
- epochs是完整通過(guò)訓(xùn)練數(shù)據(jù)集的次數(shù)。
- Batch的大小必須大于或等于 1 且小于或等于訓(xùn)練數(shù)據(jù)集中的樣本數(shù)。
- epochs可以設(shè)置為 1 到無(wú)窮大之間的整數(shù)值。 可以根據(jù)需要運(yùn)行算法,甚至可以使用除固定周期數(shù)之外的其他標(biāo)準(zhǔn)來(lái)停止算法,例如模型誤差隨時(shí)間的變化(或缺乏變化)。
- 它們都是整數(shù)值,并且都是學(xué)習(xí)算法的超參數(shù),例如 學(xué)習(xí)過(guò)程的參數(shù),而不是學(xué)習(xí)過(guò)程找到的內(nèi)部模型參數(shù)。
- 必須指定學(xué)習(xí)算法的批量大小和批次數(shù)。
- 對(duì)于如何配置這些參數(shù)并沒(méi)有什么神奇的規(guī)則。 必須嘗試不同的值,看看什么最適合自己?jiǎn)栴}。
Cascade(級(jí)聯(lián))
級(jí)聯(lián)是基于多個(gè)分類(lèi)器串聯(lián)的集成學(xué)習(xí)的一種特殊情況,使用從給定分類(lèi)器的輸出中收集的所有信息作為級(jí)聯(lián)中下一個(gè)分類(lèi)器的附加信息。 與投票或堆疊集成(多專(zhuān)家系統(tǒng))不同,級(jí)聯(lián)是多級(jí)系統(tǒng)。級(jí)聯(lián)分類(lèi)器使用特定對(duì)象的數(shù)百個(gè)“正”樣本視圖和相同大小的任意“負(fù)”圖像進(jìn)行訓(xùn)練。 分類(lèi)器經(jīng)過(guò)訓(xùn)練后,可以將其應(yīng)用于圖像的某個(gè)區(qū)域并檢測(cè)有問(wèn)題的對(duì)象。 要在整個(gè)幀中搜索對(duì)象,可以在圖像上移動(dòng)搜索窗口并使用分類(lèi)器檢查每個(gè)位置。 此過(guò)程最常用于對(duì)象檢測(cè)和跟蹤的圖像處理,主要是面部檢測(cè)和識(shí)別。
Clustering(聚類(lèi))/K-means Clustering(k-均值聚類(lèi))
Clustering:聚類(lèi)是在機(jī)器學(xué)習(xí)算法中將相似對(duì)象組織成組的行為。 將相關(guān)對(duì)象分配到集群中對(duì)于 AI 模型是有益的。 聚類(lèi)在數(shù)據(jù)科學(xué)中有很多用途,例如圖像處理、數(shù)據(jù)知識(shí)發(fā)現(xiàn)、無(wú)監(jiān)督學(xué)習(xí)以及各種其他應(yīng)用。 聚類(lèi)分析或聚類(lèi)是通過(guò)掃描機(jī)器學(xué)習(xí)模型中未標(biāo)記的數(shù)據(jù)集并設(shè)置特定數(shù)據(jù)點(diǎn)特征的測(cè)量來(lái)完成的。 然后,聚類(lèi)分析將對(duì)數(shù)據(jù)點(diǎn)進(jìn)行分類(lèi)并將其放置在具有匹配特征的組中。 一旦數(shù)據(jù)被分組在一起,它將被分配一個(gè)簇ID號(hào)以幫助識(shí)別簇特征。 使用聚類(lèi)技術(shù)在機(jī)器學(xué)習(xí)模型中分解大型、復(fù)雜的數(shù)據(jù)集可以減輕破譯復(fù)雜數(shù)據(jù)時(shí)的壓力。
K-means Clustering:K-Means 聚類(lèi)是一種無(wú)監(jiān)督學(xué)習(xí)算法。 與監(jiān)督學(xué)習(xí)不同,此聚類(lèi)沒(méi)有標(biāo)記數(shù)據(jù)。 K-Means 將對(duì)象劃分為具有相似性但與屬于另一個(gè)簇的對(duì)象不同的簇。“K”是一個(gè)數(shù)字。 您需要告訴系統(tǒng)您需要?jiǎng)?chuàng)建多少個(gè)集群。 例如,K = 2 表示兩個(gè)簇。 有一種方法可以找出給定數(shù)據(jù)的最佳或最佳 K 值。為了更好地理解 k 均值,我們以板球運(yùn)動(dòng)為例。 想象一下,您收到了來(lái)自世界各地的許多板球運(yùn)動(dòng)員的數(shù)據(jù),其中提供了有關(guān)該運(yùn)動(dòng)員得分的信息以及他們?cè)谶^(guò)去十場(chǎng)比賽中取得的三柱門(mén)的信息。 根據(jù)這些信息,我們需要將數(shù)據(jù)分為兩個(gè)集群,即擊球手和投球手。
Ensemble model(集成模型)
有時(shí)一個(gè)模型是不夠的。
(1)什么是集成模型
集成模型是一種機(jī)器學(xué)習(xí)方法,在預(yù)測(cè)過(guò)程中結(jié)合多個(gè)其他模型。 這些模型稱(chēng)為基本估計(jì)器。 集成模型提供了一種解決方案來(lái)克服構(gòu)建單個(gè)估計(jì)器的技術(shù)挑戰(zhàn)。
(2)集成算法
單一算法可能無(wú)法對(duì)給定的數(shù)據(jù)集做出完美的預(yù)測(cè)。 機(jī)器學(xué)習(xí)算法有其局限性,生成高精度模型具有挑戰(zhàn)性。 如果我們構(gòu)建并組合多個(gè)模型,我們就有機(jī)會(huì)提高整體準(zhǔn)確性。 然后,我們通過(guò)聚合具有兩個(gè)目標(biāo)的每個(gè)模型的輸出來(lái)實(shí)現(xiàn)模型的組合:
可以使用不同的技術(shù)(有時(shí)稱(chēng)為元算法)來(lái)實(shí)現(xiàn)這種聚合,如下圖示例
end to end
在論文中經(jīng)常能遇到end to end這樣的描述,那么到底什么是端到端呢?其實(shí)就是給了一個(gè)輸入,我們就給出一個(gè)輸出,不管其中的過(guò)程多么復(fù)雜,但只要給了一個(gè)輸入,機(jī)會(huì)對(duì)應(yīng)一個(gè)輸出。比如分類(lèi)問(wèn)題,你輸入了一張圖片,肯呢個(gè)網(wǎng)絡(luò)有特征提取,全鏈接分類(lèi),概率計(jì)算什么的,但是跳出算法問(wèn)題,單從結(jié)果來(lái)看,就是給了一張輸入,輸出了一個(gè)預(yù)測(cè)結(jié)果。End-To-End的方案,即輸入一張圖,輸出最終想要的結(jié)果,算法細(xì)節(jié)和學(xué)習(xí)過(guò)程全部丟給了神經(jīng)網(wǎng)絡(luò)。
Embedding(嵌入)
深度學(xué)習(xí)方法都是利用使用線(xiàn)性和非線(xiàn)性轉(zhuǎn)換對(duì)復(fù)雜的數(shù)據(jù)進(jìn)行自動(dòng)特征抽取,并將特征表示為“向量”(vector),這一過(guò)程一般也稱(chēng)為“嵌入”(embedding)
Fine tune(微調(diào))
在深度學(xué)習(xí)中,Fine tune是一種遷移學(xué)習(xí)方法,其中預(yù)訓(xùn)練模型的權(quán)重在新數(shù)據(jù)上進(jìn)行訓(xùn)練。 [1] 微調(diào)可以在整個(gè)神經(jīng)網(wǎng)絡(luò)上進(jìn)行,也可以?xún)H在其層的子集上進(jìn)行,在這種情況下,未微調(diào)的層將被“凍結(jié)”(在反向傳播步驟期間不會(huì)更新)。 模型還可以使用由比原始模型少得多的參數(shù)組成的“適配器”進(jìn)行增強(qiáng),并通過(guò)調(diào)整適配器的權(quán)重并保持模型的其余權(quán)重凍結(jié)來(lái)以參數(shù)有效的方式進(jìn)行微調(diào)。
對(duì)于某些架構(gòu),例如卷積神經(jīng)網(wǎng)絡(luò),通常會(huì)凍結(jié)較早的層(最接近輸入層的層),因?yàn)樗鼈儾东@較低級(jí)別的特征,而后面的層通常會(huì)識(shí)別與以下內(nèi)容更相關(guān)的高級(jí)特征: 模型訓(xùn)練的任務(wù)。
Feature map(特征圖)
特征圖也稱(chēng)為激活圖。
從圖像中提取過(guò)濾器后。
這些過(guò)濾器是圖像的小部分,具有不同的特征。
輸入上使用的過(guò)濾器數(shù)量應(yīng)創(chuàng)建相同數(shù)量的特征圖。
因此,具有 6 個(gè)濾波器的輸入圖像將具有 6 個(gè)特征圖。
?Feature and their locations in the input images
在上圖中,有 2 個(gè)過(guò)濾器(紅色輪廓和綠色輪廓)用于創(chuàng)建兩個(gè)特征圖。 濾波器通過(guò)卷積運(yùn)算在圖像上滑動(dòng)并生成特征圖。 還要注意從同一圖像生成的這些特色地圖有多么不同。每個(gè)特征圖捕獲同一圖像的不同特征。 通過(guò)更多數(shù)量的過(guò)濾器,我們將能夠生成更多特征。例如,考慮一個(gè) 32 × 32 圖像,以 1 的步幅寬度在學(xué)習(xí)/輸入圖像上滑動(dòng) 5 × 5 感受野將產(chǎn)生 28 × 28 輸出值的特征圖。
32 × 32 ==> 28 × 28 ( 32–5 + 1 × 32–5 + 1 )
或者每個(gè)圖像 784 個(gè)不同的激活。
?Figure 2: Features
特征圖(卷積特征)的大小由我們需要在執(zhí)行卷積步驟之前決定的三個(gè)參數(shù)控制:
- 深度(Depth):深度對(duì)應(yīng)于我們用于卷積運(yùn)算的濾波器的數(shù)量。 在圖 3 所示的網(wǎng)絡(luò)中,我們使用三個(gè)不同的濾波器對(duì)原始船只圖像進(jìn)行卷積,從而生成如圖所示的三個(gè)不同的特征圖。 您可以將這三個(gè)特征圖視為堆疊的二維矩陣,因此特征圖的“深度”將為三。
Figure 3: Feature Map depth parameters
- 步幅(Stride):步幅是我們?cè)谳斎刖仃嚿匣瑒?dòng)過(guò)濾器矩陣的像素?cái)?shù)。 當(dāng)步長(zhǎng)為 1 時(shí),我們一次移動(dòng)過(guò)濾器一個(gè)像素。 當(dāng)步長(zhǎng)為 2 時(shí),當(dāng)我們滑動(dòng)過(guò)濾器時(shí),過(guò)濾器一次跳躍 2 個(gè)像素。 步幅較大會(huì)產(chǎn)生較小的特征圖。
- 零填充(Zero-padding):有時(shí),在邊界周?chē)昧闾畛漭斎刖仃嚭芊奖?#xff0c;這樣我們就可以將過(guò)濾器應(yīng)用于輸入圖像矩陣的邊界元素。 零填充的一個(gè)很好的功能是它允許我們控制特征圖的大小。 添加零填充也稱(chēng)為寬卷積,不使用零填充則稱(chēng)為窄卷積。 這在[2]中已經(jīng)解釋得很清楚了。
FPS
Frames Per Second,每秒幀數(shù),就是幀率
Generative Adversarial Network(GAN,生成對(duì)抗網(wǎng)絡(luò))
GAN包含有兩個(gè)模型,一個(gè)是生成模型(generative model),一個(gè)是判別模型(discriminative model)。生成模型的任務(wù)是生成看起來(lái)自然真實(shí)的、和原始數(shù)據(jù)相似的實(shí)例。判別模型的任務(wù)是判斷給定的實(shí)例看起來(lái)是自然真實(shí)的還是人為偽造的(真實(shí)實(shí)例來(lái)源于數(shù)據(jù)集,偽造實(shí)例來(lái)源于生成模型)。
這可以看做一種零和游戲。生成器(generator)試圖欺騙判別器(discriminator),判別器則努力不被生成器欺騙。模型經(jīng)過(guò)交替優(yōu)化訓(xùn)練,兩種模型都能得到提升,但最終我們要得到的是效果提升到很高很好的生成模型,這生成模型所生成的產(chǎn)品能達(dá)到真假難分的地步。
在訓(xùn)練過(guò)程中,生成網(wǎng)絡(luò)G的目標(biāo)是生成盡可能多的真實(shí)圖像來(lái)欺騙網(wǎng)絡(luò)D,而D的目標(biāo)是試圖將G生成的假圖像與真實(shí)圖像區(qū)分開(kāi)來(lái)。這樣,G和D構(gòu)成一個(gè)動(dòng)態(tài)的“博弈過(guò)程”,最終的均衡點(diǎn)為納什均衡點(diǎn)。
H--N
Hyperparameter(超參數(shù))
超參數(shù)。模型參數(shù)是根據(jù)數(shù)據(jù)自動(dòng)估算的,例如權(quán)重。但模型超參數(shù)是手動(dòng)設(shè)置的,并且在過(guò)程中用于幫助估計(jì)模型參數(shù),例如學(xué)習(xí)率。
Intersection over Union(IoU,交并比)
IoU 量化兩個(gè)邊界框(ground truth and prediction)的接近程度。 它是一個(gè)介于 0 和 1 之間的值。如果兩個(gè)邊界框完全重疊,則預(yù)測(cè)是完美的,因此 IoU 為 1。另一方面,如果兩個(gè)邊界框不重疊,則 IoU 為 0。IoU 通過(guò)計(jì)算兩個(gè)連接盒的相交面積與并集面積之比來(lái)計(jì)算,如下所示。
Learning rate(學(xué)習(xí)率)
深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)使用隨機(jī)梯度下降優(yōu)化算法進(jìn)行訓(xùn)練。學(xué)習(xí)率是一個(gè)超參數(shù),它控制每次更新模型權(quán)重時(shí)響應(yīng)估計(jì)誤差而改變模型的程度。 選擇學(xué)習(xí)率具有挑戰(zhàn)性,因?yàn)橹堤】赡軙?huì)導(dǎo)致訓(xùn)練過(guò)程過(guò)長(zhǎng)并可能陷入困境,而值太大可能會(huì)導(dǎo)致過(guò)快地學(xué)習(xí)次優(yōu)權(quán)重集或訓(xùn)練過(guò)程不穩(wěn)定。配置神經(jīng)網(wǎng)絡(luò)時(shí),學(xué)習(xí)率可能是最重要的超參數(shù)。 因此,了解如何研究學(xué)習(xí)率對(duì)模型性能的影響并建立關(guān)于學(xué)習(xí)率對(duì)模型行為動(dòng)態(tài)的直覺(jué)至關(guān)重要。
loss function(損失函數(shù))
在數(shù)學(xué)優(yōu)化和決策理論中,損失或成本函數(shù)(有時(shí)也稱(chēng)為誤差函數(shù))是將事件或一個(gè)或多個(gè)變量的值映射到直觀地表示與事件相關(guān)的某些“成本”的實(shí)數(shù)的函數(shù)。 簡(jiǎn)單來(lái)說(shuō),損失函數(shù)是一種評(píng)估算法對(duì)數(shù)據(jù)集建模效果的方法。 它是機(jī)器學(xué)習(xí)算法參數(shù)的數(shù)學(xué)函數(shù)。在簡(jiǎn)單線(xiàn)性回歸中,使用斜率(m)和截距(b)計(jì)算預(yù)測(cè)。 其損失函數(shù)是 (Yi – Yihat)^2,即損失函數(shù)是斜率和截距的函數(shù)。
Multilayer Perceptron(MLP,多層感知機(jī))
不要將“MLP”與“NLP”混淆,“NLP”指的是自然語(yǔ)言處理(natural language processing)。 多層感知機(jī) (MLP) 是一類(lèi)全連接的前饋人工神經(jīng)網(wǎng)絡(luò) (ANN,artificial neural network)。 MLP 一詞的使用含糊不清,有時(shí)寬松地表示任何前饋 ANN,有時(shí)嚴(yán)格地指由多層感知器(具有閾值激活)組成的網(wǎng)絡(luò)。 多層感知器有時(shí)通俗地稱(chēng)為“普通”神經(jīng)網(wǎng)絡(luò),特別是當(dāng)它們具有單個(gè)隱藏層時(shí)。
MLP 至少由三層節(jié)點(diǎn)組成:輸入層、隱藏層和輸出層。 除輸入節(jié)點(diǎn)外,每個(gè)節(jié)點(diǎn)都是使用非線(xiàn)性激活函數(shù)的神經(jīng)元。 MLP 利用基于鏈規(guī)則的監(jiān)督學(xué)習(xí)技術(shù)(稱(chēng)為反向傳播或自動(dòng)微分的反向模式)進(jìn)行訓(xùn)練。 它的多層和非線(xiàn)性激活將 MLP 與線(xiàn)性感知器區(qū)分開(kāi)來(lái)。 它可以區(qū)分不可線(xiàn)性分離的數(shù)據(jù)。
O--T
Off-the-shelf
已有的,現(xiàn)成的
Pipeline(超參數(shù))
Pipeline如果直譯是管道或者流水線(xiàn),這誰(shuí)能看懂呢。
在機(jī)器學(xué)習(xí)中,Pipeline定義是一種自動(dòng)化機(jī)器學(xué)習(xí)工作流程的方法,方法是將數(shù)據(jù)轉(zhuǎn)換并關(guān)聯(lián)到模型中,然后對(duì)模型進(jìn)行分析以實(shí)現(xiàn)輸出。這種類(lèi)型的 ML Pipeline使將數(shù)據(jù)輸入 ML 模型的過(guò)程完全自動(dòng)化(這么看流水線(xiàn)還挺形象,個(gè)人還是喜歡翻譯為通道) 。
另一種類(lèi)型的機(jī)器學(xué)習(xí)Pipeline是將機(jī)器學(xué)習(xí)工作流程拆分為獨(dú)立的、可重用的模塊化部分的藝術(shù),然后可以將這些部分連接在一起以創(chuàng)建模型。這種類(lèi)型的機(jī)器學(xué)習(xí)Pipeline使構(gòu)建模型更加高效和簡(jiǎn)化,消除了多余的工作。
pooling(池化)
池化是一個(gè)深度學(xué)習(xí)中的操作手段,在程序中對(duì)應(yīng)的就是池化層(pooling layer),卷積神經(jīng)網(wǎng)絡(luò)中的池化是一種概括卷積濾波器(convolutional filters)提取的特征并幫助網(wǎng)絡(luò)識(shí)別特征的技術(shù),而與特征在圖像中的位置無(wú)關(guān)。
(1)為什么卷積神經(jīng)網(wǎng)絡(luò)中需要池化
卷積層是用于圖像識(shí)別等計(jì)算機(jī)視覺(jué)應(yīng)用的卷積神經(jīng)網(wǎng)絡(luò)的基本構(gòu)建塊。卷積層在圖像上滑動(dòng)過(guò)濾器并提取特征,從而生成特征圖,該特征圖可以饋送到下一個(gè)卷積層以提取更高級(jí)別的特征。因此,堆疊多個(gè)卷積層使 CNN 能夠識(shí)別圖像中日益復(fù)雜的結(jié)構(gòu)和對(duì)象。
卷積層的一個(gè)主要問(wèn)題是過(guò)濾器生成的特征圖是位置相關(guān)的。 這意味著在訓(xùn)練過(guò)程中,卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)將某個(gè)特征的存在與輸入圖像中的特定位置相關(guān)聯(lián)。 這會(huì)嚴(yán)重降低性能。 相反,我們希望特征圖和網(wǎng)絡(luò)具有平移不變性(一種奇特的表達(dá),意味著特征的位置不重要)。
在關(guān)于填充和步幅的文章中,我們討論了卷積運(yùn)算中更大的步幅如何幫助將圖像集中在更高級(jí)別的特征上。 專(zhuān)注于更高級(jí)別的結(jié)構(gòu)可以使網(wǎng)絡(luò)更少地依賴(lài)于與特征位置相關(guān)的粒度細(xì)節(jié)。 池化是讓網(wǎng)絡(luò)專(zhuān)注于更高級(jí)別功能的另一種方法。在卷積神經(jīng)網(wǎng)絡(luò)中,池化通常應(yīng)用于由前面的卷積層和非線(xiàn)性激活函數(shù)產(chǎn)生的特征圖。
(2)池化是如何進(jìn)行的
池化的基本過(guò)程與卷積運(yùn)算非常相似。 您選擇一個(gè)過(guò)濾器并將其滑動(dòng)到前一個(gè)卷積層的輸出特征圖上。 最常用的過(guò)濾器大小是 2×2,它使用 2 的步長(zhǎng)在輸入上滑動(dòng)。根據(jù)您選擇的池化操作類(lèi)型,池化過(guò)濾器計(jì)算感受野上(過(guò)濾器下的特征圖部分)的輸出。有多種池化方法。 最常用的方法是最大池化和平均池化。
(3)Max Pooling(最大池化)
在最大池化中,濾波器簡(jiǎn)單地選擇感受野中的最大像素值。 例如,如果字段中有 4 個(gè)像素,其值為 3、9、0 和 6,則選擇 9。
(4)Average Pooling(平均池化)
平均池化的工作原理是計(jì)算感受野中像素值的平均值。 給定 4 個(gè)像素,值為 3、9、0 和 6,平均池化層將產(chǎn)生 4.5 的輸出。 四舍五入到整數(shù)后得到 5。
(5)如何理解池化值
您可以將池化層計(jì)算和保留的數(shù)字視為指示特定特征的存在。 如果神經(jīng)網(wǎng)絡(luò)僅依賴(lài)于原始特征圖,則其檢測(cè)特征的能力將取決于圖中的位置。 例如,如果僅在左上象限中找到數(shù)字 9,則網(wǎng)絡(luò)將學(xué)習(xí)將連接到數(shù)字 9 的特征與左上象限相關(guān)聯(lián)。通過(guò)應(yīng)用池化,我們將該特征提取到一個(gè)更小、更通用的地圖中,該地圖僅指示某個(gè)特征是否存在于該特定象限中。 每增加一層,地圖都會(huì)縮小,只保留有關(guān)感興趣特征的存在的重要信息。 隨著地圖變小,它變得越來(lái)越獨(dú)立于要素的位置。 只要在原始位置附近檢測(cè)到該特征,它就應(yīng)該類(lèi)似地反映在池化層生成的地圖中。
由于它關(guān)注極值,最大池化關(guān)注感受野中更突出的特征和邊緣。 另一方面,平均池化可以創(chuàng)建更平滑的特征圖,因?yàn)樗善骄刀皇沁x擇極值。 在實(shí)踐中,最大池化應(yīng)用得更頻繁,因?yàn)樗ǔ8瞄L(zhǎng)識(shí)別突出特征。 在實(shí)際應(yīng)用中,平均池化僅用于將特征圖折疊到特定大小。由于池化能夠折疊特征圖,因此還可以幫助對(duì)不同大小的圖像進(jìn)行分類(lèi)。 神經(jīng)網(wǎng)絡(luò)中的分類(lèi)層期望接收相同格式的輸入。 因此,我們通常以相同的標(biāo)準(zhǔn)尺寸提供圖像。 通過(guò)在池化操作期間改變偏移量,我們可以總結(jié)不同大小的圖像,并且仍然生成相似大小的特征圖。一般來(lái)說(shuō),當(dāng)您執(zhí)行圖像分類(lèi)任務(wù)時(shí),您只需要檢測(cè)圖像中某個(gè)對(duì)象是否存在,但不關(guān)心它的具體位置,池化尤其有用。事實(shí)上,池化濾波器使用比卷積濾波器更大的步長(zhǎng)并導(dǎo)致更小的輸出,這一事實(shí)也支持網(wǎng)絡(luò)的效率并導(dǎo)致更快的訓(xùn)練。 換句話(huà)說(shuō),位置不變性可以極大地提高網(wǎng)絡(luò)的統(tǒng)計(jì)效率。
Precision/Recall(精度/召回率)-----Accuracy(準(zhǔn)確度)/F1 score(F1得分)
基于 TP、FP 和 FN(這仨指標(biāo)下文有),對(duì)于每個(gè)標(biāo)記類(lèi)別,我們計(jì)算兩個(gè)參數(shù):精度和召回率(放一起是為了好總結(jié))。
Precision:告訴我們模型的精確度,即在檢測(cè)到的貓總數(shù)中,有多少是真正的貓。 因此,它是模型做出的真陽(yáng)性與貓預(yù)測(cè)總數(shù)(相當(dāng)于真陽(yáng)性和假陽(yáng)性之和)之間的比率,如下圖所示。
Recall:告訴我們模型在從圖像中召回類(lèi)別方面有多好,即在輸入圖像中的貓總數(shù)中模型能夠檢測(cè)到多少只。 因此,它是模型得出的真陽(yáng)性與地面真貓總數(shù)之間的比率(相當(dāng)于真陽(yáng)性和假陰性的總和),如下圖所示。
從上圖可以看出,分類(lèi)器的預(yù)測(cè)是準(zhǔn)確的。 當(dāng)它說(shuō)它是一只貓(狗)時(shí),80%的時(shí)間都是正確的。 但是,如果圖像中存在貓(狗),則分類(lèi)器只能在 50% (80%) 的時(shí)間內(nèi)檢測(cè)到它。 因此,該模型很難回憶起貓(模型老年癡呆了乛?乛)。
Accuracy:把準(zhǔn)確度放這兒是為了和上面的精度對(duì)比。
準(zhǔn)確率(Accuracy)表示分類(lèi)正確的樣本占總樣本個(gè)數(shù)的比例,計(jì)算公式如下
F1 score:F1 score是精度和召回率的一個(gè)加權(quán)平均,計(jì)算公式如下。
Precision體現(xiàn)了模型對(duì)負(fù)樣本的區(qū)分能力,Precision越高,模型對(duì)負(fù)樣本的區(qū)分能力越強(qiáng);Recall體現(xiàn)了模型對(duì)正樣本的識(shí)別能力,Recall越高,模型對(duì)正樣本的識(shí)別能力越強(qiáng)。F1 score是兩者的綜合,F1 score越高,說(shuō)明模型越穩(wěn)健。
receptive field(RF, 感受野)
在典型CNN結(jié)構(gòu)中,FC層(全連接層,FC layer)每個(gè)輸出節(jié)點(diǎn)的值都依賴(lài)FC層所有輸入,而CONV層(卷積層,Convolutional Layer)每個(gè)輸出節(jié)點(diǎn)的值僅依賴(lài)CONV層輸入的一個(gè)區(qū)域,這個(gè)區(qū)域之外的其他輸入值都不會(huì)影響輸出值,該區(qū)域就是感受野。
圖中是個(gè)微型CNN,來(lái)自Inception-v3論文(Rethinking the Inception Architecture for Computer Vision),原圖是為了說(shuō)明一個(gè)conv5x5可以用兩個(gè)conv3x3代替,從下到上稱(chēng)為第1, 2, 3層:
- 第2層左下角的值,是第1層左下紅框中3x3區(qū)域的值經(jīng)過(guò)卷積,也就是乘加運(yùn)算計(jì)算出來(lái)的,即第2層左下角位置的感受野是第1層左下紅框區(qū)域
- 第3層唯一值,是第2層所有3x3區(qū)域卷積得到的,即第3層唯一位置的感受野是第2層所有3x3區(qū)域
- 第3層唯一值,是第1層所有5x5區(qū)域經(jīng)過(guò)兩層卷積得到的,即第3層唯一位置的感受野是第1層所有5x5區(qū)域
就是這么簡(jiǎn)單,某一層feature map(特性圖)中某個(gè)位置的特征向量,是由前面某一層固定區(qū)域的輸入計(jì)算出來(lái)的,那這個(gè)區(qū)域就是這個(gè)位置的感受野。任意兩個(gè)層之間都有位置—感受野對(duì)應(yīng)關(guān)系,但我們更常用的是feature map層到輸入圖像的感受野,如目標(biāo)檢測(cè)中我們需要知道feature map層每個(gè)位置的特征向量對(duì)應(yīng)輸入圖像哪個(gè)區(qū)域,以便我們?cè)谶@個(gè)區(qū)域中設(shè)置anchor,檢測(cè)該區(qū)域內(nèi)的目標(biāo)。
感受野區(qū)域之外圖像區(qū)域的像素不會(huì)影響feature map層的特征向量,所以我們不太可能讓CNN僅依賴(lài)某個(gè)特征向量去找到其對(duì)應(yīng)輸入感受野之外的目標(biāo)。這里說(shuō)“不太可能”而不是“絕無(wú)可能”,是因?yàn)镃NN很強(qiáng)大,且圖像像素之間有相關(guān)性,有時(shí)候感受野之外的目標(biāo)是可以猜出來(lái)的,什么一葉知秋,管中窺豹,見(jiàn)微知著之類(lèi),對(duì)CNN目標(biāo)檢測(cè)都是有可能的,但猜出來(lái)的結(jié)果并不總是那么靠譜。
感受野有什么用呢?
- 一般task要求感受野越大越好,如圖像分類(lèi)中最后卷積層的感受野要大于輸入圖像,網(wǎng)絡(luò)深度越深感受野越大性能越好
- 密集預(yù)測(cè)task要求輸出像素的感受野足夠的大,確保做出決策時(shí)沒(méi)有忽略重要信息,一般也是越深越好
- 目標(biāo)檢測(cè)task中設(shè)置anchor要嚴(yán)格對(duì)應(yīng)感受野,anchor太大或偏離感受野都會(huì)嚴(yán)重影響檢測(cè)性能
-
Region of interest(ROI)
感興趣區(qū)域(通??s寫(xiě)為 ROI)是為特定目的標(biāo)識(shí)的數(shù)據(jù)集中的樣本。
Region of Interest Pooling
感興趣區(qū)域池化(也稱(chēng)為 RoI 池化)是一種廣泛應(yīng)用于使用卷積神經(jīng)網(wǎng)絡(luò)的對(duì)象檢測(cè)任務(wù)中的操作。例如,在單個(gè)圖像中檢測(cè)多輛汽車(chē)和行人。其目的是對(duì)非均勻大小的輸入執(zhí)行最大池化以獲得固定大小的特征圖。
Prior knowledge(先驗(yàn)知識(shí))
除了機(jī)器學(xué)習(xí)pipeline中常見(jiàn)的信息源——訓(xùn)練數(shù)據(jù)之外,還可以另外整合知識(shí)。如果這個(gè)知識(shí)是預(yù)先存在的,并且不依賴(lài)于學(xué)習(xí)算法,就可以稱(chēng)之為先驗(yàn)知識(shí)。剪枝主要充當(dāng)網(wǎng)絡(luò)內(nèi)的架構(gòu)搜索。 事實(shí)上,在稀疏度較低(約 40%)的情況下,模型的泛化能力通常會(huì)稍好一些,因?yàn)榧糁ζ鸬搅苏齽t化的作用。 在更高的級(jí)別上,修剪后的模型將與基線(xiàn)匹配。 進(jìn)一步推進(jìn),該模型將開(kāi)始比基線(xiàn)更差,但具有更好的性能。 例如,經(jīng)過(guò)精心修剪的 ResNet-50 模型在稀疏度為 90% 時(shí)幾乎可以與 ImageNet 上的基線(xiàn)精度相匹配(模型中 90% 的權(quán)重為零)。
Pruning(剪枝)
剪枝是刪除網(wǎng)絡(luò)中的權(quán)重連接以提高推理速度并減少模型存儲(chǔ)大小的過(guò)程。 一般來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)的參數(shù)化程度非常高。 修剪網(wǎng)絡(luò)可以被認(rèn)為是從過(guò)度參數(shù)化的網(wǎng)絡(luò)中刪除未使用的參數(shù)。
Residual Network(ResNet,殘差網(wǎng)絡(luò))
殘差網(wǎng)絡(luò)(ResNet)是一種用于計(jì)算機(jī)視覺(jué)應(yīng)用的深度學(xué)習(xí)模型。 它是一種卷積神經(jīng)網(wǎng)絡(luò) (CNN) 架構(gòu),旨在支持?jǐn)?shù)百或數(shù)千個(gè)卷積層。 以前的 CNN 架構(gòu)無(wú)法擴(kuò)展到大量層,從而導(dǎo)致性能有限。 然而,當(dāng)添加更多層時(shí),研究人員面臨“梯度消失”問(wèn)題。神經(jīng)網(wǎng)絡(luò)通過(guò)反向傳播過(guò)程進(jìn)行訓(xùn)練,該過(guò)程依賴(lài)于梯度下降,向下移動(dòng)損失函數(shù)并找到使其最小化的權(quán)重。 如果層數(shù)太多,重復(fù)的乘法最終會(huì)減小梯度,直至“消失”,并且隨著每層的添加,性能會(huì)飽和或惡化。ResNet 為梯度消失問(wèn)題提供了一種創(chuàng)新的解決方案,稱(chēng)為“跳躍連接”。 ResNet 堆疊多個(gè)恒等映射(首先不執(zhí)行任何操作的卷積層),跳過(guò)這些層,并重用前一層的激活。 跳過(guò)通過(guò)將網(wǎng)絡(luò)壓縮為更少的層來(lái)加速初始訓(xùn)練。然后,當(dāng)重新訓(xùn)練網(wǎng)絡(luò)時(shí),所有層都會(huì)擴(kuò)展,并且網(wǎng)絡(luò)的其余部分(稱(chēng)為殘差部分)可以探索輸入圖像的更多特征空間。大多數(shù) ResNet 模型一次跳過(guò)兩層或三層,中間有非線(xiàn)性和批量歸一化。 更先進(jìn)的 ResNet 架構(gòu)(稱(chēng)為 HighwayNet)可以學(xué)習(xí)“跳過(guò)權(quán)重”,動(dòng)態(tài)確定要跳過(guò)的層數(shù)。ResNet 架構(gòu)引入了將中間輸入添加到一系列卷積塊的輸出的簡(jiǎn)單概念。 如下圖所示。?
State-of-the-art (SOTA)
可翻譯為最先進(jìn)的,最高水平。
True Positive/False Positive/False Negative/True Negative(真陽(yáng)性/假陽(yáng)性/假陰性/真陰性)
這些其實(shí)都是來(lái)自統(tǒng)計(jì)學(xué)的概念,而且字面翻譯也是云里霧里,所以要做一下解釋
- True Positive:模型預(yù)測(cè)某個(gè)位置存在邊界框(正)并且是正確的(真);---->我找到了正確的目標(biāo)
- False Positive:模型預(yù)測(cè)特定位置存在邊界框(正),但結(jié)果是錯(cuò)誤的(假);---->我把錯(cuò)的當(dāng)成的真的
- False Negative:模型沒(méi)有預(yù)測(cè)某個(gè)位置的邊界框(負(fù)),并且是錯(cuò)誤的(假),即該位置存在真實(shí)邊界框;---->我把真的當(dāng)成了錯(cuò)的
- True Negative:模型沒(méi)有預(yù)測(cè)邊界框(負(fù))并且它是正確的(真); ---->我找到了錯(cuò)誤的目標(biāo)
True Negative對(duì)應(yīng)于背景,即沒(méi)有邊界框的區(qū)域,并且不用于計(jì)算最終指標(biāo)。
以下示例將有助于闡明 TP、FP 和 FN。
U--Z
Upsampling(上采樣)/Downsampling(下采樣)
Downsampling:讀完這項(xiàng)技術(shù)的名稱(chēng)后,直觀地知道它與圖像的縮小有關(guān)。 嗯,沒(méi)錯(cuò)! 這個(gè)想法是正確的,有人出于各種原因縮小圖像的尺寸,例如:它使數(shù)據(jù)的大小更易于管理;降低數(shù)據(jù)的維度,從而加快數(shù)據(jù)(圖像)的處理速度;減少數(shù)據(jù)的存儲(chǔ)大小;根據(jù)用途,該技術(shù)還有一些其他用途。有時(shí)它與圖像壓縮相混淆,圖像壓縮是不同的事情,并且具有完全不同的用途。 這里我們只關(guān)心圖像的縮小。 嗯,這是什么意思? 這本質(zhì)上意味著丟棄一些(非必要的)信息。由此,我們可以得出一個(gè)提示:我們需要從圖像中丟棄一些行和/或列。 我們需要丟棄一些信息。
Upsampling:另一方面,上采樣只不過(guò)是下采樣的相反目標(biāo):增加圖像的行數(shù)和/或列數(shù)(尺寸)。 這可以在多種情況下使用,例如 GAN(生成對(duì)抗網(wǎng)絡(luò))中使用的情況,其目的是根據(jù)隨機(jī)向量樣本構(gòu)建圖像,模仿來(lái)自真實(shí)分布或真實(shí)分布的圖像。 還有很多其他的比如提高圖像質(zhì)量等等。 讓我們更詳細(xì)地討論這個(gè)問(wèn)題。
下采樣時(shí),我們的意圖相當(dāng)簡(jiǎn)單明了,但上采樣時(shí)就不那么簡(jiǎn)單了。 我們需要以某種方式增加圖像的尺寸并填充間隙(列/行)。 假設(shè)您想要將原始圖像上采樣 3 倍,這意味著您需要使用某種邏輯為圖像中的每行/列添加 2 個(gè)行/列。 一種方法可能是重復(fù)原始圖像中的每一列/行。
如果您這樣做,有趣的是,您會(huì)觀察到兩個(gè)圖像:原始圖像和生成的圖像即使不完全相同,看起來(lái)也非常相似。 為了說(shuō)明這一點(diǎn),您沒(méi)有在生成的圖像中創(chuàng)建任何“新”數(shù)據(jù)。 由于重復(fù)的行和列是完全冗余的,因此該方法沒(méi)有任何用處,并且它不提供任何新信息。添加新列的明智方法是在行/列之間插入新數(shù)據(jù),這使用一些高級(jí)數(shù)學(xué)生成提供相當(dāng)準(zhǔn)確的中間值。
Without bells and whistles
沒(méi)有花里胡哨的方法(不添加不必要,冗余的東西)
Warm up(熱身)
Warm up指的是用一個(gè)小的學(xué)習(xí)率先訓(xùn)練幾個(gè)epoch,這是因?yàn)榫W(wǎng)絡(luò)的參數(shù)是隨機(jī)初始化的,一開(kāi)始就采用較大的學(xué)習(xí)率容易數(shù)值不穩(wěn)定。