北京上海網(wǎng)站建設(shè)公司品牌宣傳推廣文案
?一、優(yōu)化失敗的原因
局部最小值?鞍點?
二、數(shù)學(xué)推導(dǎo)分析
用泰勒公式展開
一項與梯度(L的一階導(dǎo))有關(guān),一項與海賽矩陣(L的二階導(dǎo))有關(guān)
海瑟矩陣
VTHV通過海瑟矩陣的性質(zhì)可以轉(zhuǎn)為判斷H是否是正定的 來判斷
- H正定=所有特征值為正=局部最小值
- H負(fù)定=所有特征值為負(fù)=局部最大值
- 有些特征值為正,有些為負(fù)=鞍點
例子
計算導(dǎo)數(shù)和海瑟矩陣的特征值
如果遇到鞍點,可以通過特征值來判斷減小LOSS的方向:特征值為負(fù)的方向
其實局部最小值很少見,一升維,可能你碰上的就是個鞍點!
實驗驗證
注意這個方法肯定不是梯度下降法做的,做不出來,自己本身兒還一堆毛病呢。
縱軸:損失大小
橫軸:局部最小值的比例=負(fù)特征值/全部特征值
解決梯度太小被困住的問題。。。下一小節(jié):動量!?