當(dāng)前位置：首頁(yè) > news >正文

網(wǎng)站風(fēng)格設(shè)計(jì)百度seo怎么樣優(yōu)化

news 2025/7/5 15:03:38

網(wǎng)站風(fēng)格設(shè)計(jì),百度seo怎么樣優(yōu)化,在線(xiàn)做網(wǎng)站有哪些平臺(tái),wordpress限制訪問(wèn)量一.高維數(shù)據(jù) 除了圖片、文本數(shù)據(jù)，我們?cè)趯?shí)際工作中也會(huì)面臨更多高維的數(shù)據(jù)。比如在評(píng)分卡模型構(gòu)建過(guò)程中，我們通常會(huì)試著衍生出很多的特征，最后就得到上千維、甚至上完維特征;在廣告點(diǎn)擊率預(yù)測(cè)應(yīng)用中，擁有幾個(gè)億特征也是常見(jiàn)的事…

一.高維數(shù)據(jù)

除了圖片、文本數(shù)據(jù)，我們?cè)趯?shí)際工作中也會(huì)面臨更多高維的數(shù)據(jù)。比如在評(píng)分卡模型構(gòu)建過(guò)程中，我們通常會(huì)試著衍生出很多的特征，最后就得到上千維、甚至上完維特征;在廣告點(diǎn)擊率預(yù)測(cè)應(yīng)用中，擁有幾個(gè)億特征也是常見(jiàn)的事情;在腦科學(xué)或者基因研究中，特征數(shù)甚至可能更多;所以，如何更有效地處理這些高維的特征就變成了一個(gè)非常重要的問(wèn)題。

二.數(shù)據(jù)降維

除了有效利用高維的數(shù)據(jù)之外，我們也可以思考一個(gè)問(wèn)題:“高維數(shù)據(jù)，那么多特征真的都有用嗎?” 這就類(lèi)似于一個(gè)人的社交質(zhì)量并不取決于有多少朋友，而在于朋友質(zhì)量，在建模過(guò)程中也適用這個(gè)道理。特征越多并不代表學(xué)出來(lái)的模型越好，我們更需要關(guān)注特征對(duì)預(yù)測(cè)任務(wù)的相關(guān)性或者價(jià)值，有些特征甚至可能成為噪聲，反而影響模型的效果。

2.1如何降維

?2.1.1數(shù)據(jù)的降維? ?通過(guò)函數(shù)的映射關(guān)系

?2.1.2特征選擇

選擇子集

三.PCA

PCA(Principal Component Analysis)作為一種重要的降維算法有著非常廣泛的應(yīng)用。PCA經(jīng)常用來(lái)做數(shù)據(jù)的可視化、或者用來(lái)提高預(yù)測(cè)模型的效果。對(duì)于PCA降維算法來(lái)講，有幾個(gè)核心問(wèn)題需要弄清楚:

1。 PCA降維的核心思想是什么? 它是依賴(lài)于什么條件做降維?

2。什么叫主成分(principal component)?

從圖中可以看出,沿著C的方向,數(shù)據(jù)是越分散的,也就說(shuō)明在這個(gè)方向上我們可以看出數(shù)據(jù)之間的更多差異!相反,沿著直線(xiàn)A的方向,我們可以看到很多數(shù)據(jù)的差異并不明顯,區(qū)分度很低。所以,總體來(lái)講,當(dāng)我們選擇C為新的坐標(biāo)軸時(shí),所有點(diǎn)在這個(gè)坐標(biāo)軸上的值的差異是最大的,也就是最大程度的保留了數(shù)據(jù)之間的特點(diǎn)(差異性),這就是PCA的核心思想。?