蘇州自助建站太原網(wǎng)站關(guān)鍵詞排名
引言
這是論文ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE的閱讀筆記。本篇論文提出了通過Pre-LN的方式可以省掉Warm-up環(huán)節(jié),并且可以加快Transformer的訓(xùn)練速度。
通常訓(xùn)練Transformer需要一個仔細(xì)設(shè)計的學(xué)習(xí)率warm-up(預(yù)熱)階段:在訓(xùn)練開始階段學(xué)習(xí)率需要設(shè)成一個極小的值,然后在一些迭代后逐步增加。這個階段對于Transformer最終的表現(xiàn)非常重要,但同時引入了更多的超參數(shù)調(diào)節(jié)。學(xué)習(xí)率預(yù)熱被證明在處理一些特定問題時是至關(guān)重要的,比如大批次訓(xùn)練。當(dāng)使用較大的批大小進(jìn)行訓(xùn)練時,在開始時使用一個較大的學(xué)習(xí)率來優(yōu)化模型通常會導(dǎo)致較差的效果。
在優(yōu)化開始階段,對于原始的Transformer,把層歸一化放到殘差塊之間,接近輸出層的參數(shù)的梯度往往較大。然后在那些梯度上使用較大的學(xué)習(xí)率會使得訓(xùn)練不穩(wěn)定。warm-up階段在實際應(yīng)用中有助于避免這個問題。
基于這種分析,作者提出了一種Transformer的變體,將層歸一化置于殘差塊之中(殘差連接里面)的修改方法。使得在初始化階段梯度也表現(xiàn)良好,同時更容易且更快訓(xùn)練。因此作者做出了結(jié)論,預(yù)熱階段可以被安全地移除,同時訓(xùn)練時間可以大大縮減。
簡介
層歸一化(Layer Normalization)是Transformer中一個核心組件。原始的Transformer將層歸一化放置在之間,這被稱為是Post-Layer Normalization(Post-LN)的做法。見下圖(a),紅框表示殘差塊,可以看到層歸一化在兩個殘差塊之間。