深圳鼎晟展覽設(shè)計有限公司廣州王牌seo
文章目錄
- 是什么的問題
- 案例說明
是什么的問題
- 回歸分析(Regression Analysis) 是研究自變量與因變量之間數(shù)量變化關(guān)系的一種分析方法,它主要是通過因變量Y與影響它的自變量 X i ( i 1 , 2 , 3 … ) X_i(i1,2,3…) Xi?(i1,2,3…)之間的回歸模型,衡量自變量 X i X_i Xi?對因變量Y的影響能力的,進而可以用來預(yù)測因變量Y的發(fā)展趨勢。
- 損失函數(shù)(Cost Function/Lost Function) 用于估計模型的預(yù)測值和真實值之間的不一致程度,損失函數(shù)越小代表模型預(yù)測結(jié)果與真實值越相近。
定義線性回歸的損失函數(shù),可采用最小二乘法,通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。
單個樣本(example)的誤差函數(shù):
總體n的誤差函數(shù):
線性回歸模型的函數(shù): y ^ = w 1 x 1 + w 2 x 2 + . . . + w d x d + b = W T X + b \hat{y}=w_1x_1+w_2x_2+...+w_dx_d+b=W^TX+b y^?=w1?x1?+w2?x2?+...+wd?xd?+b=WTX+b
在訓(xùn)練模型時,我們希望尋找?組參數(shù)(w?, b?),這組參數(shù)能最?化在所有訓(xùn)練樣本上的總損失。
- 如何找到最優(yōu)的w,b來優(yōu)化我們的模型?
用數(shù)學(xué)的方法就是把w,b看成未知變量,分別對其求偏導(dǎo)。
L ( w , b ) = ∑ i = 1 n ( W T X + b i ? y i ) 2 L(w,b)=\sum_{i=1}^{n} (W^TX+bi-y_i)^2 L(w,b)=i=1∑n?(WTX+bi?yi?)2
因為我們求L最小時,w和b的值,去掉前面的非0正系數(shù)不影響。
求參數(shù)w:
求參數(shù)b:同上
案例說明
問題:預(yù)測寶可夢升級后的cp值
Step1: model (設(shè)計網(wǎng)絡(luò)模型)define a set of function
b是bias(偏置), w i w_i wi?是weight(權(quán)重), X c p X_{cp} Xcp?是我們輸入的cp值
線性模型: y = b + w 1 x 1 + w 2 x 2 + . . . + w i x i y = b + w_1x_1 + w_2x_2 + ... + w_ix_i y=b+w1?x1?+w2?x2?+...+wi?xi?
b和w的值是有很多個的,所以有a set of function,需要通過這個train data去找到這個最合適的function。
step 2: Goodness of function(函數(shù)的好壞)
通過第一另外一個function:Loss來判斷上面的function的好壞
Loss function 是去衡量y的好壞,去判斷我們找到的w,b的好壞
step 3: Best Funciton(Gradient Descent)
很顯然,就是求L分別對w,b的偏導(dǎo),通過梯度下降的方式來找到最小的L。
單個參數(shù)的考慮:
通過不斷更新,使得L最小,會到達一個局部最優(yōu)(local optimal),斜率為0或接近于0,這個時候就無法再更新w了,所以是不能找到全局最優(yōu)(global optimal)。
倆個參數(shù)的考慮:
最后,通過上面的10個寶可夢的數(shù)據(jù),得到參數(shù)b,w,然后進行測試:
怎樣獲得更好的結(jié)果呢?怎樣讓預(yù)測更加準確呢?
其實就是需要改變模型:(這里改成二次式)
多項式回歸(Polynomial Regression), 多項式回歸與線性回歸的概念相同,只是它使用的是曲線而不是直線(線性回歸使用的是直線)。多項式回歸學(xué)習(xí)更多的參數(shù)來繪制非線性回歸曲線。對于不能用直線概括的數(shù)據(jù),它是有益的。多項式回歸是將自變量x與因變量y之間的關(guān)系建模為n次多項式的一種線性回歸形式。多項式回歸擬合了x值與y相應(yīng)條件均值之間的非線性關(guān)系,記為E(y |x)。
或者說還想更好,那么可以嘗試從二次轉(zhuǎn)化為三次
四次:
從這里開始,雖然換成了更復(fù)雜的Mode。但是測試的結(jié)果,average error變大了,results become worse…
五次:
綜上:
模型model越復(fù)雜,包含的train data越多,在訓(xùn)練集上的誤差越小。
但是更加復(fù)雜的模型不一定能在測試數(shù)據(jù)中帶來更好的表現(xiàn)。會出現(xiàn)【過擬合】,所以,我們要選擇一個最適合我們的model而不是最復(fù)雜的model。因為,可能會導(dǎo)致過擬合。上圖中最好的model是三次式的。
當增加更多的寶可夢數(shù)據(jù)時,會發(fā)現(xiàn)不僅僅只有一個cp值的影響,還有物種的影響,所以需要重新設(shè)計我們的model
重新設(shè)計的model,增加了物種因素:
結(jié)果:
上分類后得到的linear model,結(jié)果明顯比原來的沒有分類的好太多了。嘗試增加更多因素,修改model:(量,高度,HP值)
重新設(shè)計的model:
最終結(jié)果訓(xùn)練誤差小了很多,但是測試誤差太大了,過擬合了。遇到這個情況需要引出一個新的概念:正則化(Regularization)
Back to step 2: Regularization(正則化) 正則化就是說給需要訓(xùn)練的目標函數(shù)加上一些規(guī)則(限制),讓我們的函數(shù)盡量平緩,別過于膨脹,我們在梯度函數(shù)中加上 w e i g h t 2 weight^2 weight2這一項,這樣就可以很好控制weight的大小。
重新訓(xùn)練的結(jié)果:
當λ=100時,達到這個模型的最佳測試Loss