找團(tuán)隊(duì)做網(wǎng)站需要明確哪些東西現(xiàn)在如何進(jìn)行網(wǎng)上推廣
這里寫目錄標(biāo)題
- 熵
- KL散度
- 引入交叉熵。
- 交叉熵的二分類公式:
- 再次理解SoftMax函數(shù)
- 結(jié)束
熵
熵,是一個(gè)物理上的概念,表示一個(gè)系統(tǒng)的不確定性程度,或者表示一個(gè)系統(tǒng)的混亂程序。
下邊是信息熵的演示:
信息熵的公式如下:
H ( x ) = ? ∑ i = 1 ) n p ( x i ) l o g p ( x i ) H(x)=-\sum_{i=1)}^{n}p(x_i)logp(x_i) H(x)=?∑i=1)n?p(xi?)logp(xi?)
其中 P ( x ) 表示隨機(jī)變量 x 的概率函數(shù) P(x)表示隨機(jī)變量x的概率函數(shù) P(x)表示隨機(jī)變量x的概率函數(shù)看數(shù)值可知道班花A的頭腦更加混亂,那么多個(gè)帥哥,不知選擇哪一個(gè),不像班花B只需要選擇第一個(gè)大帥哥即可。
KL散度
KL散度就是相對(duì)熵,相對(duì)熵就是KL散度
KL散度 = 相對(duì)熵,相對(duì)熵 = KL散度。
KL 散度:是兩個(gè)概率分布間差異的非對(duì)稱性度量。
怎么理解這句話呢?
KL散度其實(shí)是用來衡量同一個(gè)隨機(jī)變量的兩個(gè)不同分布之間的距離。
KL散度的公式如下:
D K L ( p ∣ ∣ q ) = ∑ i = 1 n p ( x i ) l o g ( p ( x i ) q ( x i ) ) D_{KL}(p||q) =\sum_{i=1}^{n}p(x_i)log(\frac{p(x_i)}{q(x_i)}) DKL?(p∣∣q)=∑i=1n?p(xi?)log(q(xi?)p(xi?)?)
在這補(bǔ)充一下 條件概率:
條件概率公式如下:
P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)?
理解:就是說,在A發(fā)生的條件下呢,AB也同時(shí) 發(fā)生。
上述公式也可寫成:
P ( B ∣ A ) = P ( A , B ) P ( A ) P(B|A)=\frac{P(A,B)}{P(A)} P(B∣A)=P(A)P(A,B)?
KL散度的特性:
特點(diǎn)1:非對(duì)稱性。
即D_KL(p||q) 不等于D_KL(q||p)
只有當(dāng)p 和q的概率分布完全一樣時(shí)才會(huì)相等。
特點(diǎn)2:非負(fù)性。
DKL的值永遠(yuǎn)大于0
只有當(dāng)p 和q的概率分布完全一樣時(shí)才會(huì)等于0.
看看b站老表老師的例子,笑著理解。哈哈哈
KL散度公式的變形:
引入交叉熵。
交叉熵公式如下:
H ( P , Q ) = ? ∑ i = 1 n p ( x i ) l o g q ( x i ) H(P,Q) = -\sum_{i=1}^{n} p(x_i)logq(x_i) H(P,Q)=?∑i=1n?p(xi?)logq(xi?) 經(jīng)過簡(jiǎn)單變形:
=> H ( P , Q ) = ∑ i = 1 n p ( x i ) l o g ( 1 q ( x i ) ) H(P,Q) = \sum_{i=1}^{n} p(x_i)log(\frac{1}{q(x_i)}) H(P,Q)=∑i=1n?p(xi?)log(q(xi?)1?)
其中 p ( x i ) 是真實(shí)分布的概率, q ( x i ) 是預(yù)測(cè)的概率 p(x_i)是真實(shí)分布的概率,q(x_i)是預(yù)測(cè)的概率 p(xi?)是真實(shí)分布的概率,q(xi?)是預(yù)測(cè)的概率
同樣看下b站老師的例子,笑著理解吧!
觀測(cè)交叉熵的數(shù)值可知:
1、預(yù)測(cè)越準(zhǔn)確,交叉熵越小。
2、交叉熵只跟真是標(biāo)簽的預(yù)測(cè)概率值有關(guān)。
所以你就能推斷出交叉熵的最簡(jiǎn)公式:
C r o s s E n t r o p y ( p , q ) = ? l o g q ( c i ) Cross_Entropy(p,q)=-logq(c_i) CrossE?ntropy(p,q)=?logq(ci?)
交叉熵的二分類公式:
H ( P , Q ) = ? ∑ i = 1 n p ( x i ) l o g ( q ( x i ) ) H(P,Q)=-\sum_{i=1}^{n}p(x_i)log(q(x_i)) H(P,Q)=?∑i=1n?p(xi?)log(q(xi?))
= ? p ( x 1 ) l o g q ( x 1 ) + p ( x 2 ) l o g q ( x 2 ) =-p(x_1)logq(x_1)+p(x_2)logq(x_2) =?p(x1?)logq(x1?)+p(x2?)logq(x2?)
= ? p l o g q + ( 1 ? p ) l o g ( 1 ? q ) =-plogq+(1-p)log(1-q) =?plogq+(1?p)log(1?q)
= ? ( p l o g q ? ( 1 ? p ) l o g ( 1 ? q ) ) =-(plogq-(1-p)log(1-q)) =?(plogq?(1?p)log(1?q))
怎么推到第四步的呢?
p ( x 1 ) + p ( x 2 ) = 1 ,我們假設(shè) p(x_1)+p(x_2)=1,我們假設(shè) p(x1?)+p(x2?)=1,我們假設(shè) p ( x 1 ) = p ,那么 p ( x 2 ) = 1 ? p p(x_1) = p,那么p(x_2) = 1-p p(x1?)=p,那么p(x2?)=1?p
同理:
q ( x 1 ) + q ( x 2 ) = 1 ,我們假設(shè) q(x_1)+q(x_2)=1,我們假設(shè) q(x1?)+q(x2?)=1,我們假設(shè) q ( x 1 ) = q ,那么 q ( x 2 ) = 1 ? q q(x_1) = q,那么q(x_2) = 1-q q(x1?)=q,那么q(x2?)=1?q
繼續(xù)看b站老師的例子,幫助理解。
繼續(xù)觀摩老師的PPT:
再次理解SoftMax函數(shù)
按照老師的話來說:
softMax就是將數(shù)字轉(zhuǎn)換成概率的大殺器,進(jìn)行數(shù)據(jù)歸一化的大殺器。
結(jié)束
對(duì)于該為b站老師的視頻,我感覺講的非常好哇,很適合小白入門,可惜后續(xù)沒再更新,不知在哪還能找到勒