百度官網(wǎng)網(wǎng)站登錄seo公司推廣宣傳
對比學(xué)習(xí)(Contrast learning):對比學(xué)習(xí)是一種自監(jiān)督學(xué)習(xí)方法,用于在沒有標(biāo)簽的情況下,通過讓模型學(xué)習(xí)哪些數(shù)據(jù)點(diǎn)相似或不同來學(xué)習(xí)數(shù)據(jù)集的一般特征。假設(shè)一個試圖理解世界的新生嬰兒。在家里,假設(shè)有兩只貓和一只狗。即使沒有人告訴你它們是“貓”和“狗”,這個嬰兒仍可能會意識到,與狗相比,這兩只貓看起來很相似。
作者從理論論文和實(shí)踐論文的角度都表明,具有不同模態(tài)的大規(guī)模數(shù)據(jù)集可以有效地增強(qiáng)對生成特征的區(qū)分,從而提高視覺語言任務(wù)的性能。然而,目前的進(jìn)展受到缺乏這種大規(guī)模多樣化模態(tài)數(shù)據(jù)集的嚴(yán)重限制,最大的公共多模態(tài)數(shù)據(jù)集只包含文本、圖像模態(tài)和無類別信息[41]。作者采集了結(jié)構(gòu)化和音視頻數(shù)據(jù)來進(jìn)行訓(xùn)練。
大多數(shù)多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集是從社交網(wǎng)站收集的(例如,Twitter和Facebook),并且僅限于為指定任務(wù)收集的兩種模式。這些數(shù)據(jù)集可以根據(jù)其模態(tài)組成分為四類,即,音頻/文本、視頻/文本、圖像/文本等。CMU-MOSEI主要關(guān)注情感分析,XMedia用于跨模態(tài)檢索。除了上述數(shù)據(jù)集,還有幾個電子商務(wù)數(shù)據(jù)集。Dress Retrieval [9],RPC checkout [48]和Product1M [55]是典型的電子商務(wù)多模態(tài)數(shù)據(jù)集??梢钥闯鏊麄兊哪B(tài)只有圖片和文本。
近年來,針對視覺-文本多模態(tài)學(xué)習(xí),研究者們提出了多種視覺語言預(yù)訓(xùn)練模型。它們可以粗略地分為兩類:1)單流模型,其Transformer層共同對視覺和文本輸入進(jìn)行concat操作,例如VL-bert [42],Image-BERT [37],VideoBERT [44],MMT [12],HERO [26],VisualBERT [27]和UNITER [7]。2)圖像和文本輸入不連接的雙流模型,例如ViLBERT [30],LXMERT [45],CLIP [38]和DALL-E [39]。
讀ppt
之前的研究引發(fā)了兩個關(guān)鍵挑戰(zhàn):
(1)模態(tài)交互:如何通過擴(kuò)展到大量模態(tài)的優(yōu)雅方法,實(shí)現(xiàn)從不同模態(tài)之間的單峰,雙峰,三峰甚至多模態(tài)關(guān)系中學(xué)習(xí)共同表示。
(2)模態(tài)噪聲:如何在訓(xùn)練過程中減少模態(tài)噪聲(不完整的模態(tài))的影響。后面作者使用零插補(bǔ)進(jìn)行去除,發(fā)現(xiàn)對模型效果有所提高。
讀PPT
作為一個真實(shí)世界的數(shù)據(jù)集,與傳統(tǒng)的多模態(tài)數(shù)據(jù)集不同,它并不是一個完整的配對數(shù)據(jù)集。具體來說,這個數(shù)據(jù)集包含的樣本只包含部分模態(tài)(即不同類型的數(shù)據(jù)),而且數(shù)據(jù)的分布是長尾分布。這意味著大部分樣本可能集中在少數(shù)幾種模態(tài)上,而其他模態(tài)的樣本則相對較少。
方法框架中最下面是SCALE首先對五個模態(tài)數(shù)據(jù)進(jìn)行處理,然后得到特征,同樣每個模態(tài)有一個CLS特征來對其他特征進(jìn)行綜合。然后進(jìn)行對比學(xué)習(xí)。在由單獨(dú)的模態(tài)編碼器處理之后,不同模態(tài)的令牌特征被連接并饋送到聯(lián)合共Transformer(Joint Co-Transformer,JCT)模塊中以捕獲不同模態(tài)之間的令牌關(guān)系。
針對每種模態(tài)進(jìn)行了代理任務(wù),利用了之前的掩碼區(qū)域預(yù)測任務(wù)(MRP)、掩碼語言建模任務(wù)(MLM)。為了利用表,視頻和音頻模態(tài)的特性,作者進(jìn)一步提出了掩碼實(shí)體建模任務(wù)(MEM),掩碼幀預(yù)測任務(wù)(MFP),掩碼音頻建模任務(wù)(MAM)。比如在MLM任務(wù)中,模型需要預(yù)測輸入句子中被隨機(jī)掩蓋(mask)的單詞。具體來說,在給定的句子中,某些單詞會被特殊的[MASK]標(biāo)記替換,模型的目標(biāo)是預(yù)測這些被掩蓋的單詞。
定義了一個針對每個模態(tài)的損失函數(shù),其中, t ? m s k t_{\neg m s k} t?msk?表示圍繞屏蔽令牌 t m s k t_{msk} tmsk?的未屏蔽令牌, θ θ θ表示網(wǎng)絡(luò)參數(shù),并且 M i M_i Mi?和 M ? i {M}_{\neg i} M?i?分別是第 i i i模態(tài)和剩余模態(tài)。比如預(yù)測一個文本模態(tài)的單詞,給定其他模態(tài)的信息和其他未被掩碼的令牌。
首先比較文本特征與圖像特征之間的相似性,這需要看上一張圖片,特征傳入了這個Inter-Modality Scores,生成對應(yīng)的分?jǐn)?shù)。同樣計(jì)算其他模態(tài)之間的相似性(如音頻與視頻、文本與結(jié)構(gòu)化數(shù)據(jù)等)。將所有模態(tài)之間的相似性得分整合成一個得分矩陣 S S S。計(jì)算模態(tài)匹配分?jǐn)?shù) S ′ = S ? s o f t m a x ( S ) S' = S \cdot softmax(S) S′=S?softmax(S)。利用 S ′ S' S′ 來加權(quán)模態(tài)間損耗和模態(tài)內(nèi)損耗,優(yōu)化模型。
選擇三角形部分 S ? S_{\nabla} S??來加權(quán)模態(tài)間損耗 L C L L_{CL} LCL?,并且使用對角部分S來約束模態(tài)內(nèi)損耗 L M i L_{Mi} LMi?,從而得到加權(quán)損耗:
L t o t a l = ∑ S i , j S ▽ L C L i , j ( S i , j l o g ? ˙ t i , j ) + ∑ S i S ? L M i ( S i l o g ? ˙ t i ) \mathcal{L}_{t o t a l}=\sum_{S_{i,j}}^{S_{\bigtriangledown}}\mathcal{L}_{C L_{i,j}}\left(S_{i,j}l o g\dot{\imath}t_{i,j}\right)+\sum_{S_{i}}^{S_{\setminus}}\mathcal{L}_{M_{i}}\left(S_{i}l o g\dot{\imath}t_{i}\right) Ltotal?=Si,j?∑S▽??LCLi,j??(Si,j?log˙ti,j?)+Si?∑S???LMi??(Si?log˙ti?)
其中 l o g i t logit logit是損失 l o g i t logit logit。我們可以看到這個圖中首先特征給到Inter-Modality Scores 然后兩種得分 分別給到對比學(xué)習(xí)和五個代理任務(wù)。