網(wǎng)站風(fēng)格設(shè)計(jì)百度seo怎么樣優(yōu)化
一.高維數(shù)據(jù)
除了圖片、文本數(shù)據(jù),我們?cè)趯?shí)際工作中也會(huì)面臨更多高維的數(shù)據(jù)。比如在評(píng)分卡模型構(gòu)建過(guò)程中,我們通常會(huì)試著衍生出很多的特征,最后就得到上千維、甚至上完維特征;在廣告點(diǎn)擊率預(yù)測(cè)應(yīng)用中,擁有幾個(gè)億特征也是常見(jiàn)的事情;在腦科學(xué)或者基因研究中,特征數(shù)甚至可能更多;所以,如何更有效地處理這些高維的特征就變成了一個(gè)非常重要的問(wèn)題。
二.數(shù)據(jù)降維
除了有效利用高維的數(shù)據(jù)之外,我們也可以思考一個(gè)問(wèn)題:“高維數(shù)據(jù),那么多特征真的都有用嗎?” 這就類(lèi)似于一個(gè)人的社交質(zhì)量并不取決于有多少朋友,而在于朋友質(zhì)量,在建模過(guò)程中也適用這個(gè)道理。特征越多并不代表學(xué)出來(lái)的模型越好,我們更需要關(guān)注特征對(duì)預(yù)測(cè)任務(wù)的相關(guān)性或者價(jià)值,有些特征甚至可能成為噪聲,反而影響模型的效果。
2.1如何降維
?2.1.1數(shù)據(jù)的降維? ?通過(guò)函數(shù)的映射關(guān)系
?2.1.2特征選擇
選擇子集
三.PCA
PCA(Principal Component Analysis)作為一種重要的降維算法有著非常廣泛的應(yīng)用。PCA經(jīng)常用來(lái)做數(shù)據(jù)的可視化、或者用來(lái)提高預(yù)測(cè)模型的效果。 對(duì)于PCA降維算法來(lái)講,有幾個(gè)核心問(wèn)題需要弄清楚:
1。 PCA降維的核心思想是什么? 它是依賴(lài)于什么條件做降維?
2。 什么叫主成分(principal component)?
從圖中可以看出,沿著C的方向,數(shù)據(jù)是越分散的,也就說(shuō)明在這個(gè)方向上我們可以看出數(shù)據(jù)之間的更多差異!相反,沿著直線(xiàn)A的方向,我們可以看到很多數(shù)據(jù)的差異并不明顯,區(qū)分度很低。所以,總體來(lái)講,當(dāng)我們選擇C為新的坐標(biāo)軸時(shí),所有點(diǎn)在這個(gè)坐標(biāo)軸上的值的差異是最大的,也就是最大程度的保留了數(shù)據(jù)之間的特點(diǎn)(差異性),這就是PCA的核心思想。?
找到第一個(gè)主成分,第二個(gè)主成分和第一個(gè)主成分垂直。
四.PCA的缺點(diǎn)
1.只能針對(duì)線(xiàn)性
2.必須做歸一化
3.部分信息會(huì)丟失(降維)
4.可解釋性比較弱
五.其他的降維方法
?