當(dāng)前位置：首頁 > news >正文

網(wǎng)站設(shè)計第一步怎么做今日國內(nèi)新聞10則

news 2025/7/4 4:42:07

網(wǎng)站設(shè)計第一步怎么做,今日國內(nèi)新聞10則,軟件開發(fā)公司稅收優(yōu)惠政策,網(wǎng)站制作收費文章目錄一、文章概覽（一）問題提出（二）文章工作二、判別比估計和密度鴻溝問題三、伸縮密度比估計（一）核心思想（二）路標(biāo)創(chuàng)建（三）橋梁構(gòu)建（四&…

文章目錄

一、文章概覽
- （一）問題提出
- （二）文章工作
二、判別比估計和密度鴻溝問題
三、伸縮密度比估計
- （一）核心思想
- （二）路標(biāo)創(chuàng)建
- （三）橋梁構(gòu)建
- （四）TRE應(yīng)用于互信息估計
- （五）TRE 應(yīng)用于基于能量的建模
四、實驗
- （一）1維峰值比率的設(shè)置及TRE的表現(xiàn)
- （二）高維度比率問題及TRE在大互信息（MI）估計中的表現(xiàn)
- （三）SpatialMultiOmniglot 上的 MI 估計和表示學(xué)習(xí)
- （四）MNIST 上基于能量的建模

一、文章概覽

（一）問題提出

密度比估計：

通過密度比估計進(jìn)行的無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個強大范例，是該領(lǐng)域重大進(jìn)展的源泉
根據(jù)數(shù)據(jù)樣本估計p/q比率，而不單獨估計分子和分母。

判別性密度比估計：

訓(xùn)練神經(jīng)網(wǎng)絡(luò)分類器來區(qū)分兩組樣本，因為對于許多損失函數(shù)，可以從最佳分類器中提取 p/q 比值。
這種判別性方法在多個領(lǐng)域中產(chǎn)生了先進(jìn)的結(jié)果，是無監(jiān)督學(xué)習(xí)的基石。

密度鴻溝問題：

在兩個密度顯著不同的情況下，分類器就可以通過相對較差的密度比估計來獲得幾乎完美的精度。
實驗表明，每當(dāng) p 和 q 之間的KL散度超過幾十自然單位時，這種情況尤為明顯。

（二）文章工作

伸縮密度比估計（TRE） 框架：

用于克服密度鴻溝問題，實現(xiàn)在高維空間中準(zhǔn)確估計高度不同的密度之間的比率
采用由兩個步驟組成的“分而治之”策略：
- 第一步是逐漸將 p 中的樣本傳輸?shù)?q 中的樣本，創(chuàng)建中間數(shù)據(jù)集鏈
- 然后估計沿著這條鏈的連續(xù)數(shù)據(jù)集之間的密度比，與原始比率 p/q 不同，這些“鏈?zhǔn)奖嚷省笨梢酝ㄟ^分類準(zhǔn)確估計
- 最后通過伸縮乘積組合鏈?zhǔn)奖嚷室垣@得原始密度比 p/q 的估計。

實驗證明，TRE 相對于現(xiàn)有的單一比率方法在互信息估計、表示學(xué)習(xí)和能量基建模等任務(wù)中能夠顯著改善表現(xiàn)。

在互信息估計的背景下，TRE 可以準(zhǔn)確估計 30+ nat 的大 MI 值
表示學(xué)習(xí)實驗結(jié)果證實，TRE 比一系列現(xiàn)有的單比率基線提供了顯著的收益
基于能量的建模背景下，TRE 可以被視為噪聲對比估計的擴(kuò)展，可以更有效地擴(kuò)展到高維數(shù)據(jù)。

二、判別比估計和密度鴻溝問題

假設(shè)p和q是有樣本的兩個密度，滿足 $p (x) > 0$ ， $q (x) > 0$ ，可以估計密度比 $r (x) = p (x) / q (x)$ 來區(qū)分 $p$ 和 $q$ 中的樣本。分類器的損失假設(shè)為廣泛使用的邏輯損失：
$L(\theta)=-E_{x_1\sim p}\log (\frac{r(x_1;\theta)}{1+r(x_1;\theta)})-E_{x_2\sim q}\log (\frac{1}{1+r(x_2;\theta)})$
其中 $r(x;\theta)$ 是非負(fù)比率估計模型，為了強制非負(fù)性， $r$ 通常表示為無約束函數(shù)的指數(shù)。

密度鴻溝問題：

可能的誤差來源有很多：
- 使用錯誤指定的模型
- 不完善的優(yōu)化算法
- 上式中的期望的蒙特卡洛近似所產(chǎn)生的不準(zhǔn)確性

由于樣本量有限而產(chǎn)生的蒙特卡羅誤差實際上足以引發(fā)密度鴻溝問題，如果我們使用n=10000的樣本量并最小化有限樣本損失，最終得到的估計值 $\hat{\theta}$ 就會遠(yuǎn)離漸近極小值 $\theta^*=argmin L(\theta)$ 。
$L^n(\theta)=\sum_{i=1}^n -\log (\frac{r(x_1^i;\theta)}{1+r(x_1^i;\theta)})-\log (\frac{1}{1+r(x_2^i;\theta)}), \ x_i^i\sim p,x_2^i\sim q$

對不同的樣本量重復(fù)相同的實驗，可以憑經(jīng)驗測量該方法的樣本效率.對于繪制的情況，我們看到樣本量的指數(shù)增加只會導(dǎo)致估計值線性下降錯誤。這一經(jīng)驗結(jié)果與理論結(jié)果一致，即基于密度比的 KL 散度下限僅對于 nats 數(shù)量呈指數(shù)級的樣本大小是嚴(yán)格的。

三、伸縮密度比估計

（一）核心思想

為了方便起見，進(jìn)行如下符號轉(zhuǎn)換： $p == p_0$ ， $q == p_m$ ，并通過伸縮乘積擴(kuò)展比率：
$\frac{p_0(x)}{p_m(x)}=\frac{p_0(x)}{p_1(x)}\frac{p_1(x)}{p_2(x)}... \frac{p_{m-2}(x)}{p_{m-1}(x)}\frac{p_{m-1}(x)}{p_m(x)}$

理想情況下， $p_k$ 能使分類器無法輕松將其與其兩個相鄰密度區(qū)分開。因此，該方法的兩個關(guān)鍵組成部分是：

路標(biāo)創(chuàng)建：將樣本 ${x_0^1,...,x_0^n\}$ 從 $p_0$ 分布逐漸轉(zhuǎn)換到分布為 $p_m$ 的樣本 ${x_m^1,...,x_m^n\}$ 。轉(zhuǎn)換的每一步會獲得一個新數(shù)據(jù)集 ${x_k^1,...,x_k^n\}$ ，每個中間數(shù)據(jù)集都可以被視為來自隱式分布 $p_k$ 的樣本，可稱為路標(biāo)分布。
橋梁構(gòu)建：橋梁構(gòu)建方法涉及學(xué)習(xí)一組參數(shù)化的密度比率，這些比率是在連續(xù)的分布對之間估算的。用數(shù)學(xué)符號表示為 $r_k(x;\theta_k)\approx \frac{p_k(x)}{p_{k+1}(x)}$ ，其中 $k = 0, ..., m ? 1$ ，每個 $r_k$ 都是一個非負(fù)函數(shù)，被稱為橋梁。

然后通過橋的乘積給出原始比率的估計：
$r(x;\theta)=\prod_{k=0}^{m-1}r_k(x;\theta_k)\approx \prod_{k=0}^{m-1}\frac{p_k(x)}{p_{k+1}(x)}=\frac{p_0(x)}{p_m(x)}$

其中 $θ$ 是所有 $θ_k$ 向量的串聯(lián)。

（二）路標(biāo)創(chuàng)建

考慮兩種簡單的、確定性的路標(biāo)創(chuàng)建機(jī)制：線性組合和維度混合。

線性組合： 給定一個隨機(jī)對 $x_0 \sim p_0$ 和 $x_m \sim p_m$ ，通過以下方式定義第 $k$ 個路標(biāo)：
$x_k=\sqrt{1-\alpha_k^2}x_0+\alpha_kx_m,\ k=0,...,m$
其中 $α_k$ 形成從0到1遞增的序列，用于控制 $x_k$ 到 $x_0$ 的距離。

維度混合： 將兩個向量的不同維度子集進(jìn)行拼接。給定一個長度為 $d$ 的向量 $x$ ，將其劃分為 $m$ 個長度為 $d / m$ 的子向量，表示為 $x = (x [1], ..., x [m])$ ，每個 $x [i]$ 的長度為 $d / m$ 。使用此表示法下，可以通過以下方式定義第 k 個路標(biāo)：
$x_k=(x_m[1],...,x_m[k],x_0[k+1],...,x_0[m]),\ k=0,...,m$

（三）橋梁構(gòu)建

每個橋 $r_k(x; θ_k)$ 都可以使用邏輯損失函數(shù)通過二元分類來學(xué)習(xí)。因此，解決這個分類任務(wù)集合是一個多任務(wù)學(xué)習(xí) (MTL) 問題， MTL 中的兩個關(guān)鍵問題是如何共享參數(shù)和如何定義聯(lián)合目標(biāo)函數(shù)。

參數(shù)共享：
將橋 $r_k(x; θ_k)$ 的構(gòu)造分為兩個階段：

共享的隱藏向量 $f_k(x)$ ：
- 是一個深度神經(jīng)網(wǎng)絡(luò)，其參數(shù)在不同的橋梁 $r_k$ 中是共享的
- 每個橋梁有自己的預(yù)激活尺度和偏置，用于每個隱藏單元
頭部映射：
- 將隱藏向量 $f_k(x)$ 映射到標(biāo)量 $\log r_k(x;\theta_k)$
- 映射可以是線性的或者二次的，具體的參數(shù)化根據(jù)實驗的具體情況而定

TRE 損失函數(shù)：

TRE 損失函數(shù)由 m 個邏輯損失的平均值給出：
$L_{TRE}(\theta)=\frac{1}{m}\sum_{k=0}^{m-1}L_k(\theta_k)\\ L_k(\theta_k)=-E_{x_k\sim p_k}\log (\frac{r_k(x_k;\theta_k)}{1+r_k(x_k;\theta_k)})-E_{x_{k+1}\sim q_{k+1}}\log (\frac{1}{1+r(x_{k+1};\theta_k)})$
訓(xùn)練中的樣本分配與潛在問題：
- 在訓(xùn)練過程中，每個比率估計器 $r_k$ 會看到不同的樣本： $r_0$ 會看到接近真實數(shù)據(jù)的樣本，即從 $p_0$ 和 $p_1$ 中采樣的樣本；最終的比率 $r_{m-1}$ 則會看到來自 $p_{m-1}$ 和 $p_m$ 的樣本
- 這種訓(xùn)練樣本分配方式可能會在訓(xùn)練和部署之間造成不匹配的問題。因為在學(xué)習(xí)之后，我們希望在相同的輸入 $x$ 上評估所有的比率 $r_k$ ，然而每個比率估計器在訓(xùn)練期間看到的輸入分布不同，這可能導(dǎo)致在新測試點上的泛化能力受到影響。

實驗結(jié)果沒有顯示這種不匹配是一個問題，這表明盡管在訓(xùn)練期間看到不同的輸入，每個比率都能夠推廣到新的測試點。我們推測，這種泛化是通過參數(shù)共享來促進(jìn)的，這使得每個比率估計器都可以間接地受到來自所有路標(biāo)分布的樣本的影響。盡管如此，對這個泛化問題進(jìn)行更深入的分析值得進(jìn)一步開展工作。

（四）TRE應(yīng)用于互信息估計

兩個隨機(jī)變量 $u$ 和 $v$ 之間的互信息 (MI) 可以寫為：
$I(u,v)=E_{p(u,v)}[\log r(u,v)],\ r(u,v)=\frac{p(u,v)}{p(u)p(v)}$

從聯(lián)合密度和邊際乘積生成樣本：
從聯(lián)合密度 $p (u, v)$ 中獲取樣本 $(u, v)$ ，通過將數(shù)據(jù)集中的 $v$ 向量打亂，可以從邊際乘積 $p (u) p (v)$ 中獲取樣本。具體來說，我們保留 $u$ 不變，將 $v$ 在數(shù)據(jù)集中進(jìn)行隨機(jī)重排。

路標(biāo)樣本的生成：
為了執(zhí)行TRE（密度比率估計），我們需要生成路標(biāo)樣本：
先從聯(lián)合密度 $p (u, v)$ 中獲取一個樣本 $x_0=(u,v_0)$ ，從邊際乘積 $p (u) p (v)$ 中取一個樣本 $x_m=(u,v_m)$ ，其中 $u$ 保持固定，僅 $v$ 不變，然后使用路標(biāo)構(gòu)建機(jī)制來生成中間路標(biāo)樣本 $x_k=(u,v_k)$ ，其中 $k = 0, ..., m$ 。

（五）TRE 應(yīng)用于基于能量的建模

基于能量的模型 (EBM) 是一個靈活的非負(fù)函數(shù)參數(shù)族 $\{\phi(x; θ)\}$ ，其中每個函數(shù)與概率密度成正比。給定密度為 $p (x)$ 的數(shù)據(jù)分布樣本，基于能量的建模的目標(biāo)是找到一個參數(shù) $θ^*$ ，使得 $\phi(x; θ^*)$ 近似于 $c p (x)$ ，其中 $c$ 為一個正常數(shù)。

本文作者考慮 $\phi(x; θ)=r(x;\theta)q(x)$ ， $q$ 是可以從中采樣的已知密度（例如高斯流或歸一化流），而 $r$ 是一個無約束的正函數(shù)。給定這個參數(shù)化，最優(yōu) $r$ 簡單地等于密度比 $p (x) / q (x)$ ，因此學(xué)習(xí) EBM 的問題變成了估計密度比的問題，這可以通過 TRE 來解決。由于 TRE 實際上估計比率乘積，因此最終EBM的形式為：
$\phi(x;\theta)=\prod_{k=0}^{m-1}r_k(x;\theta_k)q(x)$

四、實驗

（一）1維峰值比率的設(shè)置及TRE的表現(xiàn)

實驗設(shè)置：

使用單參數(shù)二次分類器的極端峰值高斯 p (σ = 10?6) 和寬高斯 q (σ = 1) 之間的密度比估計
使用二次形式的橋梁，其中 $b_k$ 設(shè)置為其真實值，而 $w_k$ 被重新參數(shù)化為 $exp(\theta_k)$ 以避免出現(xiàn)不必要的對數(shù)尺度。
$log r_k(x)=w_kx^2+b_k$

實驗結(jié)果：

樣本效率：TRE在使用100個樣本時就獲得了比單一比率估計使用100,000個樣本更好的解決方案，顯示出三數(shù)量級的改進(jìn)。
準(zhǔn)確性提升：通過樣本效率曲線，可以清楚地看到TRE在所有樣本規(guī)模下都具有顯著的準(zhǔn)確性提升。

（二）高維度比率問題及TRE在大互信息（MI）估計中的表現(xiàn)

實驗設(shè)置：

$x\in R^{2d}$ 是一個高斯隨機(jī)變量，具有塊對角協(xié)方差矩陣。每個塊是2x2的矩陣，對角線上為1，非對角線上為0.8，目標(biāo)是估計這個高斯分布與標(biāo)準(zhǔn)正態(tài)分布之間的比率。
使用二次形式橋梁，其中 $W_k$ 是對稱矩陣， $b_k$ 是偏置項
$log r_k(x)=x^TW_kx+b_k$

實驗結(jié)果：
單一比率估計在MI值大于20 nats時變得非常不準(zhǔn)確，相比之下，TRE能夠準(zhǔn)確估計高達(dá)80 nats的MI值，即使對于320維的變量也是如此。
在這里插入圖片描述

（三）SpatialMultiOmniglot 上的 MI 估計和表示學(xué)習(xí)

實驗設(shè)置：

SpatialMultiOmniglot問題源于Omniglot數(shù)據(jù)集，其中字符被空間排列成一個 $\times n$ 的網(wǎng)格，每個網(wǎng)格位置包含來自固定字母表的字符。在此設(shè)置中，每個網(wǎng)格位置被視為一個類別隨機(jī)變量，其實現(xiàn)是相應(yīng)字母表中的字符。我們形成的網(wǎng)格對 $(u, v)$ 使得對應(yīng)的網(wǎng)格位置包含按字母順序排列的字符。根據(jù)這種設(shè)置，可以計算出真實的MI值。
每個橋梁使用的可分離架構(gòu)形式如下，其中 $g$ 和 $f_k$ 是14層卷積ResNets， $f_k$ 使用了參數(shù)共享方案。
$log r_k(u,v)=g(u)^TW_kf_k(v)$
路標(biāo)構(gòu)建使用按維度混合機(jī)制，其中 $m=n^2$ ，即一次混合一個維度。

實驗結(jié)果：

MI估計（左圖）：結(jié)果顯示，只有TRE能夠準(zhǔn)確估計高達(dá)約35 nats的高M(jìn)I值。
表示學(xué)習(xí)（右圖）：隨著網(wǎng)格中字符數(shù)量的增加（即MI的增加），所有單一密度比率基線的性能顯著下降。相比之下，TRE始終獲得超過97%的準(zhǔn)確率。

在這里插入圖片描述

（四）MNIST 上基于能量的建模

能量模型的形式：
$\phi(x;\theta)=\prod_{k=0}^{m-1}r_k(x;\theta_k)q(x)$
其中 $q$ 是預(yù)先指定的“噪聲”分布，從中可以進(jìn)行采樣，比率的乘積由TRE給出。

實驗設(shè)置：

使用MNIST手寫數(shù)字?jǐn)?shù)據(jù)集，每個樣本是28x28像素的灰度圖像，代表一個手寫數(shù)字。
考慮三種噪聲分布的選擇：多變量高斯分布、高斯copula、有耦合層的有理二次神經(jīng)樣條流(RQ-NSF)
每種噪聲分布都首先通過最大似然估計擬合到數(shù)據(jù)上。

TRE中構(gòu)建路標(biāo)：
每種噪聲分布可以表示為標(biāo)準(zhǔn)正態(tài)分布的可逆變換。也就是說每個隨機(jī)變量可以表示為 $F (z)$ ，其中 $z\sim N(0,I)$ 。我們可以在z-空間中通過線性組合方式生成路標(biāo)，然后映射回x-空間，進(jìn)而得到：
$x_k=F(\sqrt{1-\alpha_k^2}F^{-1}(x_0)+\alpha_kF^{-1}(x_m))$

能量基準(zhǔn)模型的構(gòu)建:
每個橋梁 $r_k(x)$ 的形式為：
$log r_k(x)=-f_k(x)^TW_kf_k(x)-f_k(x)^Tb_k-c_k$
其中 $f_k(x)$ 是一個18層卷積ResNet， $W_k$ 被約束為正定矩陣。這個約束確保了EBM的對數(shù)密度有一個上限。

通過表格中的估計對數(shù)似然來定量評估學(xué)習(xí)到的EBM模型。
通過下圖中從模型中隨機(jī)采樣的樣本來進(jìn)行定性評估

從上述結(jié)果可以看出，對于簡單的噪聲分布選擇，單一比率估計在高維情況下表現(xiàn)不佳，只有在使用復(fù)雜的神經(jīng)密度估計器（如RQ-NSF）時表現(xiàn)良好。相比之下，TRE在所有噪聲選擇中都顯示出改進(jìn)，這通過近似對數(shù)似然和樣本的視覺保真度來衡量。特別是在高斯噪聲分布下，TRE的改進(jìn)尤為顯著：每維比特數(shù)（bits per dimension, bpd）大約降低了0.66，對應(yīng)著大約360 nats的改進(jìn)。此外，生成的樣本顯著更加連貫，并且在視覺保真度上比RQ-NSF樣本要好。

查看全文

http://m.aloenet.com.cn/news/36758.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

網(wǎng)站設(shè)計第一步怎么做今日國內(nèi)新聞10則

文章目錄

一、文章概覽

（一）問題提出

（二）文章工作

二、判別比估計和密度鴻溝問題

三、伸縮密度比估計

（一）核心思想

（二）路標(biāo)創(chuàng)建

（三）橋梁構(gòu)建

（四）TRE應(yīng)用于互信息估計

（五）TRE 應(yīng)用于基于能量的建模

四、實驗

（一）1維峰值比率的設(shè)置及TRE的表現(xiàn)

（二）高維度比率問題及TRE在大互信息（MI）估計中的表現(xiàn)

（三）SpatialMultiOmniglot 上的 MI 估計和表示學(xué)習(xí)

（四）MNIST 上基于能量的建模

相關(guān)文章：

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

文章目錄

一、文章概覽

（一）問題提出

（二）文章工作

二、判別比估計和密度鴻溝問題

三、伸縮密度比估計

（一）核心思想

（二）路標(biāo)創(chuàng)建

（三）橋梁構(gòu)建

（四）TRE應(yīng)用于互信息估計

（五）TRE 應(yīng)用于基于能量的建模

四、實驗

（一）1維峰值比率的設(shè)置及TRE的表現(xiàn)

（二）高維度比率問題及TRE在大互信息（MI）估計中的表現(xiàn)

（三）SpatialMultiOmniglot 上的 MI 估計和表示學(xué)習(xí)

（四）MNIST 上基于能量的建模

相關(guān)文章：

一、文章概覽

二、判別比估計和密度鴻溝問題

三、伸縮密度比估計

四、實驗