專業(yè)網(wǎng)站制作公司四川seo關(guān)鍵詞排名優(yōu)化軟件怎么選
對(duì)神經(jīng)網(wǎng)絡(luò)模型參數(shù)的初始化方案對(duì)保持?jǐn)?shù)值穩(wěn)定性有很重要的作用。初始化?案的選擇可以與?線性激活函數(shù)的選擇有趣的結(jié)合在?起。
突然有感觸:做習(xí)題和模擬考研就分別是訓(xùn)練集和驗(yàn)證集,考研不就是最后的測(cè)試集()
p168的↓的解釋:
(4.8.1)這個(gè)公式是表示深層網(wǎng)絡(luò)的計(jì)算過(guò)程。在這個(gè)網(wǎng)絡(luò)中,每一層的隱藏變量h(l)通過(guò)變換函數(shù)fl(h(l-1))得到,其中l(wèi)表示層數(shù),h(l-1)表示上一層的隱藏變量。最后的輸出o是通過(guò)將所有層的變換函數(shù)依次作用在輸入x上得到,即o = fL ? . . . ? f1(x),其中?表示函數(shù)的復(fù)合(即依次執(zhí)行函數(shù)的操作)。在深層網(wǎng)絡(luò)中,我們有一系列的變換函數(shù)f(l),其中每個(gè)函數(shù)都作用在前一層的隱藏變量h(l-1)上,以產(chǎn)生當(dāng)前層的隱藏變量h(l)。最后的輸出o是通過(guò)將所有層的變換函數(shù)依次應(yīng)用在輸入x上得到。
在(4.8.2)公式中,"· . . . ·"的作用是表示多個(gè)項(xiàng)的乘積。具體來(lái)說(shuō),在(4.8.2)公式中的每個(gè)項(xiàng)都是對(duì)應(yīng)的求偏導(dǎo)結(jié)果的乘積。公式右側(cè)的每個(gè)項(xiàng)都對(duì)應(yīng)著一個(gè)中間變量的偏導(dǎo)數(shù)與相應(yīng)的中間變量的乘積。
例如,?W(l)o = ?h(L-1) h(L) · ?h(l)h(l+1) · … · ?W(l)h(l) 表示將所有?h(L-1) h(L),?h(l)h(l+1),?W(l)h(l)這些項(xiàng)依次相乘。推導(dǎo)過(guò)程涉及到計(jì)算梯度(也就是導(dǎo)數(shù))的鏈?zhǔn)椒▌t。鏈?zhǔn)椒▌t告訴我們?nèi)绾斡?jì)算復(fù)合函數(shù)的導(dǎo)數(shù),根據(jù)(4.8.1)不難看出(4.8.2)的梯度推導(dǎo)是對(duì)的。
不穩(wěn)定梯度帶來(lái)的?險(xiǎn)不?在于數(shù)值表?;不穩(wěn)定梯度也威脅到我們優(yōu)化算法的穩(wěn)定性。我們可能?臨?些問(wèn)題。要么是梯度爆炸(gradient exploding)問(wèn)題:參數(shù)更新過(guò)?,破壞了模型的穩(wěn)定收斂;要么是梯度消失(gradient vanishing)問(wèn)題:參數(shù)更新過(guò)?,在每次更新時(shí)?乎不會(huì)移動(dòng),導(dǎo)致模型?法學(xué)習(xí)。
梯度消失和梯度爆炸是深度?絡(luò)中常?的問(wèn)題。在參數(shù)初始化時(shí)需要?常??,以確保梯度和參數(shù)可 以得到很好的控制。
解決梯度消失、梯度爆炸、參數(shù)化所固有的對(duì)稱性的問(wèn)題,可以在參數(shù)初始化上下功夫。
① 默認(rèn)的隨機(jī)初始化---正態(tài)分布初始化。
② Xavier初始化---Xavier初始化從均值為零,?差 σ2 = 2/(nin+nout) 的?斯分布中采樣權(quán)重,nin 是當(dāng)前層的輸入度,nout 是當(dāng)前層的輸出維度,也可以將其改為選擇從均勻分布中抽取權(quán)重。Xavier初始化的理念是使得輸入信號(hào)在前向傳播過(guò)程中的方差和反向傳播過(guò)程中的方差保持一致,以便更好地進(jìn)行梯度傳播。通過(guò)從高斯分布中采樣權(quán)重,我們可以確保權(quán)重的初始化不會(huì)過(guò)于偏向較大或較小的值,避免了梯度消失或梯度爆炸的問(wèn)題。因?yàn)樵诟咚狗植贾?#xff0c;大約 95% 的值會(huì)位于均值的兩個(gè)標(biāo)準(zhǔn)差范圍內(nèi),所以將方差設(shè)置為 2 / (nin + nout) 可以將大部分的權(quán)重值控制在合適的范圍內(nèi)。
p172練習(xí)
1. 除了多層感知機(jī)的排列對(duì)稱性之外,還能設(shè)計(jì)出其他神經(jīng)?絡(luò)可能會(huì)表現(xiàn)出對(duì)稱性且需要被打破的情況嗎?
答:
①對(duì)稱激活函數(shù):如果在神經(jīng)網(wǎng)絡(luò)的不同層中使用了相同的激活函數(shù),且激活函數(shù)具有對(duì)稱性,那么網(wǎng)絡(luò)架構(gòu)可能會(huì)表現(xiàn)出對(duì)稱性。例如,如果所有層使用了相同的ReLU激活函數(shù),它是一個(gè)對(duì)稱的函數(shù),可能導(dǎo)致梯度的方向不明確,使得網(wǎng)絡(luò)訓(xùn)練困難。為了打破這種對(duì)稱性,可以在每一層使用不同的激活函數(shù),或者引入一些隨機(jī)性,如dropout等。
②初始化權(quán)重的對(duì)稱性:如果網(wǎng)絡(luò)的初始權(quán)重具有某種對(duì)稱性,比如在對(duì)稱的權(quán)重矩陣中,不同的神經(jīng)元連接具有相同的權(quán)重值。這種對(duì)稱性可能導(dǎo)致網(wǎng)絡(luò)在訓(xùn)練過(guò)程中收斂到相同或相似的權(quán)重配置。為了打破這種對(duì)稱性,常用的方法是使用隨機(jī)的權(quán)重初始化方式,如Glorot/Xavier初始化,以確保不同的神經(jīng)元連接具有不同的初始權(quán)重值。
在這些情況下,為了使網(wǎng)絡(luò)能夠更好地學(xué)習(xí)和表示數(shù)據(jù),需要打破對(duì)稱性。這可以通過(guò)使用不同的激活函數(shù)、不同的初始化方法、引入隨機(jī)性或正則化技術(shù)來(lái)實(shí)現(xiàn)。這樣做可以增加網(wǎng)絡(luò)的表達(dá)能力,提高網(wǎng)絡(luò)的泛化能力,從而更好地適應(yīng)數(shù)據(jù)和任務(wù)。
2. 我們是否可以將線性回歸或softmax回歸中的所有權(quán)重參數(shù)初始化為相同的值?
答:不推薦將線性回歸或softmax回歸中的所有權(quán)重參數(shù)初始化為相同的值。
當(dāng)所有權(quán)重參數(shù)初始化為相同的值時(shí),模型將沒(méi)有足夠的能力來(lái)學(xué)習(xí)特征之間重要性的差異。這可能導(dǎo)致模型的性能下降,以及對(duì)于復(fù)雜的數(shù)據(jù)集和模型,模型的學(xué)習(xí)能力受到限制。
4. 如果我們知道某些項(xiàng)是發(fā)散的,我們能在事后修正嗎?看看關(guān)于按層?適應(yīng)速率縮放的論? (You et al., 2017) 。
答:
根據(jù)提供的參考文獻(xiàn)(You et al., 2017),關(guān)于按層自適應(yīng)速率縮放的論文,這是一種用于在訓(xùn)練過(guò)程中修正梯度發(fā)散問(wèn)題的方法。
在深度學(xué)習(xí)中,梯度發(fā)散是指訓(xùn)練過(guò)程中梯度值變得非常大,導(dǎo)致權(quán)重更新過(guò)大,模型無(wú)法收斂或性能不穩(wěn)定的問(wèn)題。按層自適應(yīng)速率縮放是一種方法,根據(jù)每個(gè)層的梯度值大小動(dòng)態(tài)地調(diào)整學(xué)習(xí)率,以避免梯度發(fā)散問(wèn)題。
該方法的關(guān)鍵思想是通過(guò)監(jiān)測(cè)每個(gè)層的梯度變化情況,來(lái)決定是否對(duì)該層的梯度進(jìn)行縮放。如果某個(gè)層的梯度值超過(guò)了一個(gè)預(yù)先設(shè)定的閾值,那么針對(duì)該層的學(xué)習(xí)率將被縮小,即減小權(quán)重更新的幅度。這樣做可以防止梯度發(fā)散,并提高訓(xùn)練的穩(wěn)定性和效果。
按層自適應(yīng)速率縮放方法可以在訓(xùn)練過(guò)程中實(shí)時(shí)監(jiān)控和調(diào)整各層的學(xué)習(xí)率,使其適應(yīng)當(dāng)前梯度的大小。通過(guò)對(duì)梯度發(fā)散的修正,該方法可以幫助模型更好地收斂,并提高性能。
總結(jié)而言,按層自適應(yīng)速率縮放是一種可以在訓(xùn)練過(guò)程中修正梯度發(fā)散問(wèn)題的方法。它通過(guò)動(dòng)態(tài)調(diào)整每個(gè)層的學(xué)習(xí)率來(lái)避免梯度的發(fā)散,提高模型的訓(xùn)練穩(wěn)定性和性能。
有時(shí),根據(jù)測(cè)試集的精度衡量,模型表現(xiàn)得?常出?。但是當(dāng)數(shù)據(jù)分布突然改變時(shí),模型在部署中會(huì)出現(xiàn)災(zāi)難性的失敗。更隱蔽的是,有時(shí)模型的部署本?就是擾亂數(shù)據(jù)分布的催化劑。舉?個(gè)有點(diǎn)荒謬卻可能真實(shí)存在的例?。假設(shè)我們訓(xùn)練了?個(gè)貸款申請(qǐng)?違約?險(xiǎn)模型,?來(lái)預(yù)測(cè)誰(shuí)將償還貸款或違約。這個(gè)模型發(fā)現(xiàn)申請(qǐng)?的鞋?與違約?險(xiǎn)相關(guān)(穿?津鞋申 請(qǐng)?會(huì)償還,穿運(yùn)動(dòng)鞋申請(qǐng)?會(huì)違約)。此后,這個(gè)模型可能傾向于向所有穿著?津鞋的申請(qǐng)?發(fā)放貸款,并拒絕所有穿著運(yùn)動(dòng)鞋的申請(qǐng)?。這種情況可能會(huì)帶來(lái)災(zāi)難性的后果。?先,?旦模型開始根據(jù)鞋類做出決定,顧客就會(huì)理解并改變他們的?為。不久,所有的申請(qǐng)者都會(huì)穿?津鞋,?信?度卻沒(méi)有相應(yīng)的提?。幸運(yùn)的是,在對(duì)未來(lái)我們的數(shù)據(jù)可能發(fā)?變化的?些限制性假設(shè)下,有些算法可以檢測(cè)這種偏移,甚?可以 動(dòng)態(tài)調(diào)整,提?原始分類器的精度。
由于協(xié)變量(特征)分布的變化?產(chǎn)?的問(wèn)題,雖然輸?的分布可能隨時(shí)間?改變, 但標(biāo)簽函數(shù)(即條件分布P(y | x))沒(méi)有改變,稱為協(xié)變量偏移(covariate shift)。
考慮?下區(qū)分貓和狗的問(wèn)題:訓(xùn)練數(shù)據(jù)包括 圖4.9.1中的圖像。
在測(cè)試時(shí),我們被要求對(duì) 圖4.9.2中的圖像進(jìn)?分類。
訓(xùn)練集由真實(shí)照?組成,?測(cè)試集只包含卡通圖?。假設(shè)用于訓(xùn)練的訓(xùn)練集的特征與用于實(shí)際測(cè)試的測(cè)試集的特征關(guān)系不大,那如果沒(méi)有?法來(lái)適應(yīng)新的領(lǐng)域,可能會(huì)有?煩。
可以使用下面的協(xié)變量偏移糾正算法。假設(shè)我們有?個(gè)訓(xùn)練集{(x1, y1), . . . ,(xn, yn)},x加粗是因?yàn)楸硎咎卣飨蛄?#xff0c;和?個(gè)未標(biāo)記的測(cè)試集{u1, . . . , um}。對(duì)于協(xié)變量偏移,我們假設(shè)1 ≤ i ≤ n的xi來(lái)?某個(gè)源分布,ui來(lái)??標(biāo)分布。以下是糾正協(xié)變量偏移的典型算法:
1. 從概率密度為p的目標(biāo)分布抽取的數(shù)據(jù)為1,從概率密度為q的源分布中抽取的數(shù)據(jù)為?1,生成?個(gè)?元分類訓(xùn)練集:{(x1, ?1), . . . ,(xn, ?1),? (u1, 1), . . . ,(um, 1)}。
2. ?對(duì)數(shù)?率回歸訓(xùn)練?元分類器得到函數(shù)h。
3. 使?βi = exp(h(xi))或更好的βi = min(exp(h(xi)), c)(c為常量)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)?加權(quán)。
4. 將權(quán)重βi扔進(jìn)公式 ?,進(jìn)行{(x1, y1), . . . ,(xn, yn)}的訓(xùn)練,從而得到真正需要的模型。
當(dāng)我們認(rèn)為y導(dǎo)致x時(shí),這?我們假設(shè)標(biāo)簽邊緣概率P(y)可以改變,但是類別條件分布P(x | y)在不同的領(lǐng)域之間保持不變,就稱為標(biāo)簽偏移(label shift)。例如:預(yù)測(cè)患者的疾病,我們可能根據(jù)癥狀來(lái)判斷,即使疾病的相對(duì)流?率隨著時(shí)間的推移?變化。標(biāo)簽偏移在這 ?是恰當(dāng)?shù)募僭O(shè),因?yàn)?strong>疾病會(huì)引起癥狀。