灤平縣建設(shè)局網(wǎng)站國際新聞快報
目錄
摘要
1. 引言
2. 相關(guān)工作
2.1. 立場檢測
2.2.機器人檢測
3.數(shù)據(jù)集預(yù)處理
3.1.數(shù)據(jù)收集和清理
3.2.專家注釋
?3.3. 質(zhì)量評估
3.4.特征分析
4. 數(shù)據(jù)集構(gòu)建
4.1.特征表示構(gòu)造
4.2.關(guān)系圖構(gòu)建
5. 實驗
5.1.實驗設(shè)置
5.2.基準(zhǔn)性能
5.3訓(xùn)練集大小的研究
5.4 社會圖關(guān)系分析
6. 結(jié)論
7. 補充資料
7.1.特征分析
?7.2. 不同 BERT 模型的影響
?7.3實驗細(xì)節(jié)
?
論文鏈接:https://arxiv.org/pdf/2301.01123.pdf
摘要
? ? ? ? 社交媒體用戶立場檢測和機器人檢測方法的發(fā)展嚴(yán)重依賴于大規(guī)模和高質(zhì)量的基準(zhǔn)。
? ? ? ? gap: 然而,除了注釋質(zhì)量低之外,現(xiàn)有基準(zhǔn)通常具有不完整的用戶關(guān)系,抑制了基于圖的帳戶檢測研究。
? ? ? ? 方案:為了解決這些問題,我們提出了一個基于多關(guān)系圖的 Twitter 帳戶檢測基準(zhǔn) (MGTAB),這是第一個用于帳戶檢測的基于圖的標(biāo)準(zhǔn)化基準(zhǔn)。
????????據(jù)我們所知,MGTAB 是基于該領(lǐng)域最大的原始數(shù)據(jù)構(gòu)建的,擁有超過 155 萬用戶和 1.3 億條推文。
????????MGTAB 包含 10,199 個專家標(biāo)注用戶和 7 種關(guān)系類型,保證了高質(zhì)量的標(biāo)注和多樣化的關(guān)系。
????????在MGTAB中,我們提取了信息增益最大的20個用戶屬性特征和用戶推文特征作為用戶特征。
????????此外,我們對 MGTAB 和其他公共數(shù)據(jù)集進(jìn)行了全面評估。
????????我們的實驗發(fā)現(xiàn),基于圖的方法通常比基于特征的方法更有效,并且在引入多重關(guān)系時表現(xiàn)更好。
????????通過分析實驗結(jié)果,我們確定了帳戶檢測的有效方法,并提供了該領(lǐng)域未來潛在的研究方向。
????????我們的基準(zhǔn)和標(biāo)準(zhǔn)化評估程序可在以下網(wǎng)址免費獲得:https://github.com/GraphDetec/MGTAB。
1. 引言
? ? ? ? 背景:(引入之前的數(shù)據(jù)集)隨著互聯(lián)網(wǎng)的不斷發(fā)展,社交網(wǎng)絡(luò)已經(jīng)成為人們?nèi)粘I缃簧钪斜夭豢缮俚囊徊糠帧?Twitter 是全球訪問量最大的社交網(wǎng)絡(luò)之一,為全球數(shù)十億用戶提供在線新聞和信息交流。由于可用性,許多帳戶檢測基準(zhǔn)是基于 Twitter 數(shù)據(jù)構(gòu)建的 [9,15,17,47]。
? ? ? ? 介紹立場檢測和機器人檢測:立場檢測和機器人檢測是帳戶檢測中的基本任務(wù)。立場檢測旨在檢測用戶對某個主題或主張的立場。它是假新聞檢測 [25、31]、聲明驗證 [1、27] 和社交媒體輿論分析等應(yīng)用中的一項關(guān)鍵技術(shù)。機器人檢測對于檢測社交媒體上的信息操縱至關(guān)重要。社交機器人是由計算機程序 [60] 操作的自動用戶帳戶,經(jīng)常被用來濫用社交媒體平臺 [10, 19] 來操縱公眾輿論 [9-11, 60]。
? ? ? ? 前人方法局限性:大多數(shù)帳戶檢測方法僅使用社交媒體中的部分信息(例如帖子、注冊信息等)進(jìn)行分類。很少考慮用戶之間的聯(lián)系[24],這使得確保檢測準(zhǔn)確性具有挑戰(zhàn)性。在立場檢測中,沉默的用戶通常不會直接發(fā)帖,而是通過行為表達(dá)他們的立場,例如關(guān)注他人和喜歡帖子 [24]。然而,大多數(shù)研究只關(guān)注活躍用戶的發(fā)帖內(nèi)容而忽略沉默用戶[24]。需要使用社交圖的特征來更好地檢測沉默用戶的立場 [1]。在機器人檢測中,由于大多數(shù)研究忽略了機器人的社交圖特征,機器人可以通過復(fù)雜的策略模擬真實用戶來逃避基于特征的檢測方法[10]。
????????最近在帳戶檢測方面的工作 [14、18、38] 側(cè)重于利用用戶之間的關(guān)系,與基于特征的方法相比性能有所提高。然而,現(xiàn)有的數(shù)據(jù)集在支持基于圖的方法方面有幾個缺點,如下所示:
????????(a) 注釋質(zhì)量低。以前的帳戶檢測數(shù)據(jù)集主要由眾包進(jìn)行注釋,而眾包工作者缺乏領(lǐng)域知識導(dǎo)致注釋中出現(xiàn)明顯的噪音 [15]。
????????(b) 不完整的用戶關(guān)系。沒有一個姿態(tài)檢測數(shù)據(jù)集明確提供用戶之間的圖結(jié)構(gòu),只有機器人檢測數(shù)據(jù)集 Cresci-15 [9]、TwiBot-20 [17] 和 TwiBot-22 [15] 包含明確的圖結(jié)構(gòu)。此外,Cresci-15 和 TwiBot-20 僅包含 2 種類型的用戶關(guān)系,這對于基于圖形的檢測方法是不夠的。??
????????(c) 復(fù)雜的用戶信息。社交媒體用戶信息多種多樣,但大多數(shù)信息對帳戶檢測影響不大?,F(xiàn)有數(shù)據(jù)集缺乏基本用戶信息的提取和組織,使帳戶檢測成為一個難題。??????
????????為了解決上述缺點,我們提出了基于多關(guān)系圖的 Twitter 帳戶檢測基準(zhǔn) (MGTAB),這是一個用于立場和機器人檢測的大型標(biāo)準(zhǔn)化專家注釋數(shù)據(jù)集。MGTAB 包含 10,199 個由專家手動注釋的用戶和 400,000 個密切相關(guān)的未注釋用戶。此外,MGTAB 通過計算信息增益 (IG) 和用戶推文特征提取了 20 個最有效的用戶屬性特征。最后,MGTAB 簡化了社交圖并構(gòu)建了一個具有 7 種關(guān)系的用戶網(wǎng)絡(luò)。
????????本文的貢獻(xiàn)如下:
????????我們介紹了 MGTAB,這是一種用于立場檢測和機器人檢測的大規(guī)模專家注釋基準(zhǔn)。所有注釋均由專家進(jìn)行,并通過交叉驗證提高注釋質(zhì)量。與以前的數(shù)據(jù)集相比,注釋質(zhì)量得到了顯著提高。
????????我們發(fā)布了第一個包含屬性特征、用戶推文特征和 7 種用戶關(guān)系類型的標(biāo)準(zhǔn)化數(shù)據(jù)集。我們構(gòu)建了一個用戶級社交圖,可應(yīng)用于最先進(jìn)的基于圖的帳戶檢測方法,使帳戶檢測更簡單。 MGTAB 數(shù)據(jù)集的發(fā)布將促進(jìn)基于圖形的帳戶檢測新方法的開發(fā)。
????????為了構(gòu)建 MGTAB,我們收集了超過 155 萬 Twitter 用戶和 1.35 億條推文。據(jù)我們所知,它是該領(lǐng)域中最大的數(shù)據(jù)。我們進(jìn)行了細(xì)致的數(shù)據(jù)清洗,保留了 40 萬密切相關(guān)的未標(biāo)記用戶,支持半監(jiān)督學(xué)習(xí)與賬戶檢測研究相結(jié)合。
????????我們的實驗表明,在大多數(shù)情況下,基于圖形的檢測方法比基于特征的方法更有效。此外,我們發(fā)現(xiàn),當(dāng)引入多個關(guān)系時,基于圖的方法的性能得到改善。結(jié)果表明,未來的研究應(yīng)側(cè)重于使用多重關(guān)系。
2. 相關(guān)工作
2.1. 立場檢測
????????現(xiàn)有的立場檢測方法可分為基于特征的方法和基于圖的方法。
????????基于特征的方法。先前的研究工作 [56, 58, 62] 使用機器學(xué)習(xí)算法和深度學(xué)習(xí)方法,例如支持向量機 (SVM)、循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) [62] 和卷積神經(jīng)網(wǎng)絡(luò) (CNN) 來自動從大量原始數(shù)據(jù)中學(xué)習(xí)潛在特征。最近的幾項工作 [31、39、40、45、57] 側(cè)重于在立場檢測中使用來自 transformers (BERT) [12] 的雙向編碼器表示。戈什等人?[20] 探索了基于遷移學(xué)習(xí)的立場檢測,Li 等人?[39] 探索了基于 BERT 的數(shù)據(jù)增強模型。
????????基于圖形的方法。大多數(shù)關(guān)于立場檢測的研究都使用基于文本的特征 [40、47、62]。最近的一些工作表明使用用戶網(wǎng)絡(luò)圖作為特征的有效性 [1, 35]。圖神經(jīng)網(wǎng)絡(luò) (GNN) [34, 55] 由于其出色的處理圖信息的能力,已成為賬戶檢測的首選模型。李等?[38] 首先通過基于 GNN 的架構(gòu)實現(xiàn)了立場和謠言檢測,可以有效地捕獲用戶交互特征。盡管 GNN 在立場挖掘中表現(xiàn)良好,但現(xiàn)有立場檢測數(shù)據(jù)集中缺乏圖結(jié)構(gòu)限制了基于圖的檢測方法的發(fā)展。
? ? ? ? 立場檢測數(shù)據(jù)集。我們在 Tab 1中總結(jié)了現(xiàn)有的 Twitter 立場檢測數(shù)據(jù)集。 SemEval-2016 T6 數(shù)據(jù)集 [47] 是第一個用于 Twitter 立場檢測的數(shù)據(jù)集,其中包含眾包注釋的主題推文對。 SemEval-2019 T7 [25] 包含有關(guān) Reddit 帖子和推文中各種事件的謠言。COVID-19-Stance [23] 由手動注釋的推文組成,涵蓋用戶對與 COVID-19 健康要求相關(guān)的四個目標(biāo)的立場。COVIDLies [30]、COVMis-Stance [31] 也是與 COVID 相關(guān)的數(shù)據(jù)集。 P-STANCE [40] 是在 2020 年美國大選期間收集的政治領(lǐng)域的大型立場檢測數(shù)據(jù)集。Conforti 等人?[7] 構(gòu)建了 WT-WT,這是一個包含專家執(zhí)行的推文和注釋的金融數(shù)據(jù)集。穆罕默德等人[46] 提出了由目標(biāo)對組成的立場數(shù)據(jù)集,這些目標(biāo)對注釋了高音炮對目標(biāo)的姿態(tài)。
????????我們介紹了 MGTAB,這是第一個帶有用戶網(wǎng)絡(luò)圖的立場檢測數(shù)據(jù)集。 MGTAB 的大規(guī)模高質(zhì)量標(biāo)注將促進(jìn)用戶立場檢測的發(fā)展。此外,MGTAB 提供了研究立場檢測中基于圖的方法的機會。
2.2.機器人檢測
????????現(xiàn)有的機器人檢測方法可分為基于特征的方法和基于圖的方法。
????????基于特征的方法?;谔卣鞯姆椒◤挠脩舻脑獢?shù)據(jù)中提取和設(shè)計特征,然后使用傳統(tǒng)的分類器進(jìn)行機器人檢測。早期作品 [9, 53] 使用簡單的特征,例如關(guān)注者數(shù)量、朋友數(shù)量、推文數(shù)量和創(chuàng)建日期等。一些研究使用了更復(fù)雜的特征,例如基于社會關(guān)系的特征 [11, 59]。還有一些研究使用用戶推文的特征 [29, 53]。對于提取的用戶特征,許多研究 [3、29、33、48、52] 使用機器學(xué)習(xí)算法進(jìn)行機器人檢測。 Adaboost (AB) [28]、隨機森林 (RF) [6]、決策樹 (DT) [42] 和 SVM [5] 都已應(yīng)用于機器人檢測。然而,機器人可能會根據(jù)為檢測而設(shè)計的特征更改注冊信息,以規(guī)避基于特征的檢測方法[10, 15]。
????????基于圖的方法?;趫D的方法比基于特征的方法更有效 [15]。SATAR [16] 是基于特征特用戶的社交圖以特征工程的方式構(gòu)建的。Gnn可以從復(fù)雜的關(guān)系中獲得潛在的表征。受 GNN 成功的啟發(fā),Alhosseini 等人?[2] 首先嘗試使用圖形卷積神經(jīng)網(wǎng)絡(luò) (GCN) [34] 進(jìn)行垃圾郵件機器人檢測,有效利用 Twitter 帳戶的圖形結(jié)構(gòu)和關(guān)系。郭等[26] 對稱地結(jié)合 BERT 和 GCN,利用基于文本和圖形的特征??。最近的一些研究 [4、14、18、49] 調(diào)查了社交圖中的多重關(guān)系。 BotRGCN [18] 通過用戶網(wǎng)絡(luò)構(gòu)建異構(gòu)圖,并將關(guān)系圖卷積網(wǎng)絡(luò)應(yīng)用于機器人檢測。RGT [14] 使用關(guān)系圖轉(zhuǎn)換器來模擬異構(gòu)社交圖中用戶之間的交互。然而,受機器人檢測數(shù)據(jù)集中缺乏關(guān)系的限制,以往的研究只使用了兩種類型的關(guān)系,朋友和追隨者。在社交圖中使用多重關(guān)系用于機器人檢測的技術(shù)仍未探索。機器人檢測數(shù)據(jù)集。盡管專家注釋的質(zhì)量最高,但由于成本高,只有 Varol-icwsm 被專家完整注釋。
????????大多數(shù)數(shù)據(jù)集都是通過眾包進(jìn)行注釋的,而其他數(shù)據(jù)集是使用基于帳戶行為、元數(shù)據(jù)過濾器或其他更復(fù)雜程序的自動化技術(shù)創(chuàng)建的。我們總結(jié)了現(xiàn)有的機器人檢測數(shù)據(jù)集,如表2所示。?
? ? ? ? ?Caverlee [36] 由honeypot帳戶吸引的bot帳戶,經(jīng)過驗證的人類帳戶及其最重要的推文組成。Varol-icwsm [22] 數(shù)據(jù)集由從不同 Botometer 分?jǐn)?shù)十分位數(shù) [54] 采樣的手動標(biāo)記的 Twitter 帳戶組成。在 Gilani-17 [21] 中,Twitter 帳戶根據(jù)關(guān)注者數(shù)量分為四類。除此之外,Midterm-18 [61]、Cresci-17 [10]、Botometer-feedback [60]、Cresci-stock [8]、Cresci-rtbust [44]、Kaiser [50] 也是機器人檢測數(shù)據(jù)集,具有各種注釋方法和信息完整性。
????????盡管有很多機器人檢測數(shù)據(jù)集,但很少有具有圖結(jié)構(gòu)的。只有三個公開可用的機器人檢測數(shù)據(jù)集提供社交圖:Cresci-15 [9]、TwiBot-20 [17] 和 TwiBot-22 [15]。 Cresci-15和TwiBot-20僅包含朋友和追隨者兩種關(guān)系,難以支持基于多關(guān)系圖檢測的研究。在 TwiBot-22 中,使用 1,000 個手動標(biāo)記的帳戶來訓(xùn)練模型以獲取剩余帳戶的標(biāo)簽,從而導(dǎo)致標(biāo)簽偏差。我們提出的 MGTAB 完全由專家注釋,有 7 種關(guān)系。與大多數(shù)以前的數(shù)據(jù)集相比,它具有更大的規(guī)模、更高質(zhì)量的注釋和更豐富的關(guān)系。
3.數(shù)據(jù)集預(yù)處理
3.1.數(shù)據(jù)收集和清理
????????我們采用廣度優(yōu)先搜索 (BFS) 獲取 MGTAB 的用戶網(wǎng)絡(luò),該用戶網(wǎng)絡(luò)基于選擇 100 個密切參與 2021 年在線事件討論的種子帳戶。我們?yōu)槊總€用戶收集了 10,000 條最新推文,足以用于帳戶檢測。收集的數(shù)據(jù)總共包含 1,554,000 名用戶和 135,450,000 條推文。我們首先去除噪聲數(shù)據(jù)和異常節(jié)點來構(gòu)建一個緊湊的圖。具體來說,沒有追隨者或朋友的用戶被刪除。然后我們丟棄與目標(biāo)在線事件不密切相關(guān)的用戶,最終保留了 410,199 個帳戶和超過 4000 萬條推文。
3.2.專家注釋
????????我們邀請了 12 位具有十年以上工作經(jīng)驗的機器人檢測和立場檢測專家,對用戶姿態(tài)進(jìn)行人工標(biāo)注,判斷是否為機器人。為了進(jìn)一步提高注釋質(zhì)量,每個 Twitter 用戶都由九個注釋者獨立標(biāo)記,并且所有用戶的注釋都是通過多數(shù)投票獲得的。這些立場被標(biāo)記為三類:中立、反對和支持,這些類別被標(biāo)記為兩種類型:人類和機器人。整個數(shù)據(jù)集的注釋大約花了四個月的時間。注釋標(biāo)簽的分布如表3所示。 繼TwiBot-20之后,我們使用剩余的400,000個未標(biāo)記用戶作為半監(jiān)督學(xué)習(xí)方法研究的支持集。
?3.3. 質(zhì)量評估
????????其余三位專家獨立隨機抽取 10% 的標(biāo)注用戶進(jìn)行標(biāo)注質(zhì)量評價。我們平均獲得了 95.4% 的立場準(zhǔn)確度和 97.8% 的機器人準(zhǔn)確度。這遠(yuǎn)高于之前發(fā)布的使用眾包的立場檢測數(shù)據(jù)集獲得的準(zhǔn)確度(報告的準(zhǔn)確度,以百分比表示,范圍從 63.7% 到 79.7%)[7]。此外,與 TwiBot-20 [17] 和 TwiBot-22 [15] 的 80% 和 90.5% 準(zhǔn)確率相比,我們 97.8% 的機器人準(zhǔn)確率顯著提高了注釋質(zhì)量。
3.4.特征分析
????????我們隨機選擇了 2000 個標(biāo)記用戶來分析檢測特征的有效性。我們分析了不同方面的特征,包括創(chuàng)建時間、好友數(shù)、名稱長度等。在 [9] 之后,我們使用信息增益 (IG) 來衡量特征對預(yù)測類的信息量。它可以非正式地定義為由給定屬性值的知識引起的熵的預(yù)期減少。
????????用Y表示用戶的類別,H(Y)表示Y的熵,y為Y的值,y∈{y1,y2,.. . . , yK}。在立場檢測中,K 為 3,在機器人檢測中,K 為 2。
? ? ? ? ?H (Y | X)表示給定特征 X 時的 H (Y) ,該特征 X 可通過以下方法計算出來:
?????????其中 x 是 X 的值,x ∈ Φ。 IG(X; Y)表示Y得到特征X后類別信息增加(不確定性減少):
?????????IG 越大的特征包含越多的檢測信息。根據(jù)特征的類型,我們將特征分為布爾型和數(shù)值型特征,布爾型特征取真值或假值。除創(chuàng)建時間外,數(shù)字特征取對數(shù)。然后將數(shù)據(jù)按照值域均勻劃分為K個區(qū)間,統(tǒng)計每個區(qū)間的樣本數(shù),然后利用離散值計算IG。在本文中,K 設(shè)置為 51。
????????用戶立場特征。首先去除具有相同分布的特征,然后計算用戶特征的IG以獲得具有前10個IG的布爾和數(shù)值特征用于bot檢測。布爾和數(shù)值特征分別以 IG 的降序顯示在圖 1 和圖 2 中。
?????????分析了前 3 個 IG 的布爾和數(shù)字特征: 默認(rèn)配置文件:大多數(shù)持反對立場的用戶更喜歡使用默認(rèn)配置文件。默認(rèn)配置文件側(cè)邊欄邊框顏色:大多數(shù)持有反對立場的用戶更喜歡使用默認(rèn)配置文件的側(cè)邊欄邊框顏色。默認(rèn)配置文件側(cè)邊欄填充顏色:大多數(shù)持有相反立場的用戶更喜歡使用默認(rèn)配置文件的側(cè)邊欄顏色。創(chuàng)建于:大多數(shù)持有相反立場的用戶都是最近創(chuàng)建的。 statues count:立場相反的用戶在地位較低的用戶中所占比例較大。收藏數(shù):收藏數(shù)較低的用戶中,反對的較多。
????????用戶機器人功能。進(jìn)行與上述相同的處理,以獲得用于機器人檢測的前 10 個 IG 的布爾和數(shù)值特征。布爾和數(shù)值特征分別以 IG 的降序顯示在圖 3 和圖 4 中。
? ? ? ?分析了前 3 個 IG 的布爾和數(shù)字特征: 有 url:大多數(shù)機器人都有空 URL 內(nèi)容。默認(rèn)配置文件:與人類相比,機器人傾向于使用默認(rèn)配置文件。默認(rèn)個人資料圖片:大多數(shù)具有默認(rèn)背景圖片的用戶都是機器人。關(guān)注者朋友比率:機器人通常通過相互關(guān)注來增加關(guān)注者數(shù)量,這導(dǎo)致關(guān)注者朋友比率較小。列出的計數(shù):機器人屬于比人類用戶更多的公共列表。描述長度:為了偽裝成人類用戶,機器人傾向于比人類更頻繁地填寫帳戶描述,并且描述更長。
????????我們的實驗表明,所選擇的特征比以前的文獻(xiàn) [18、33、61] 中提取的特征更有效,詳情見第7.1節(jié)。?
4. 數(shù)據(jù)集構(gòu)建
4.1.特征表示構(gòu)造
????????我們將用戶屬性特征和用戶推文特征連接起來作為用戶特征表示,。用戶特征表示的詳細(xì)信息顯示在表10中。
?????????屬性特征提取。用戶屬性特征是根據(jù)第 3.4?節(jié)中的分析獲得的。將選取的數(shù)值特征通過Z-score歸一化,得到數(shù)值特征的表示。對選取的布爾特征進(jìn)行數(shù)值化處理,其中True和False分別用1和0代替,得到布爾特征
的表示。用戶屬性特征的表示是通過連接
和
獲得的,
。
?????????推文特征提取。推文包含54種語言,其中英語出現(xiàn)頻率最高,比例為73.6%。更多詳細(xì)信息,請參見第 17.1節(jié)。 非英語語言的統(tǒng)計數(shù)據(jù)如圖 5 所示。使用單語言預(yù)訓(xùn)練 BERT 模型對多語言推文進(jìn)行良好編碼并不容易。
?
?????????因此,我們使用多語言 BERT LaBSE [13] 來提取推文特征。具體來說,我們使用 LaBSE 對用戶推文進(jìn)行編碼。我們對所有推文的表示求平均以獲得用戶推文的表示。由 LaBSE 編碼的有效性的演示顯示在第7.2節(jié)中。?
4.2.關(guān)系圖構(gòu)建
????????復(fù)雜的社交圖結(jié)構(gòu),包括用戶、推文、主題標(biāo)簽、URL 等多個實體,使得基于圖的帳戶檢測成為一個復(fù)雜的問題。由于用戶級檢測關(guān)注的焦點是用戶。最近提出的基于異構(gòu)圖 [4、14、18、49] 的最先進(jìn)的檢測方法僅使用用戶之間的關(guān)系。因此,我們通過在構(gòu)建社交圖時僅保留用戶作為節(jié)點來簡化社交網(wǎng)絡(luò)圖,如圖 6 所示。對于其他類型的實體,僅使用它們構(gòu)建用戶之間的關(guān)系。
?????????顯式關(guān)系提取。對于關(guān)注者、朋友、提及、回復(fù)和引用等顯式關(guān)系,用戶之間的聯(lián)系直接從他們的關(guān)系中構(gòu)建?;谏鲜鲫P(guān)系構(gòu)建的邊均為有向邊,如表 14所示。?
?????????隱式關(guān)系構(gòu)建。我們還提取了用戶之間的 2 種隱式關(guān)系:URL 共現(xiàn)和話題共現(xiàn)。特別地,用戶節(jié)點和
之間的共現(xiàn)關(guān)系可以通過實體共現(xiàn)的概率來確定,其權(quán)重通過平均逐點互信息(PMI)計算:
? ? ? ? (?介紹PMI:PMI
這個指標(biāo)通常用來衡量兩個事物之間的相關(guān)性,比如兩個詞,其原理很簡單,公式:
? ? ? ? ? ? ? ? 概率論中如果x和y不相關(guān),則, 如果兩者相關(guān)性越大,則
就比
大,則PMI也就越大;
? ? ? ? ? ? ? ? log 取自信息論中對概率的量化轉(zhuǎn)換;)
????????其中 Ψ{i,j} 表示 vi 和 vj 共有的實體集。計算PMI時使用近似
,其中
表示
的實體列表長度。最后,我們獲得了包含 410,199 個節(jié)點和超過 1 億條邊的 MGTAB 異構(gòu)圖。
5. 實驗
5.1.實驗設(shè)置
????????數(shù)據(jù)集。在立場檢測中,我們根據(jù)我們提出的基準(zhǔn) SemEval-2016 T6 [47] 和 SemEval-2019 T7 [25] 評估模型。在機器人檢測中,除了我們提出的基準(zhǔn)之外,我們模型還評估了 4 個公開可用的機器人檢測數(shù)據(jù)集:Cresci-17 [10]、Cresci-15 [9]、TwiBot-20 [17] 和 TwiBot-22 [15]。根據(jù)[15, 17],我們對所有數(shù)據(jù)集進(jìn)行 7:2:1 隨機劃分作為訓(xùn)練、驗證和測試集。
????????基線。我們使用具有競爭力和最先進(jìn)的姿態(tài)檢測和機器人檢測方法,包括:Adaboost 分類器 (AB) [28]、決策樹 (DT) [42]、隨機森林 (RF) [6]、支持向量機 ( SVM)[5]、圖卷積網(wǎng)絡(luò)(GCN)[34]、圖注意力網(wǎng)絡(luò)(GAT)[55]、異構(gòu)圖變換器(HGT)[32]、簡單異構(gòu)圖神經(jīng)網(wǎng)絡(luò)(S- HGN) [43],使用關(guān)系圖卷積網(wǎng)絡(luò) (BotRGCN) [18] 和關(guān)系圖轉(zhuǎn)換器 (RGT) [14] 進(jìn)行機器人檢測。
5.2.基準(zhǔn)性能
????????我們評估數(shù)據(jù)集的基線,并在 Tab5 中展示它們的檢測精度和 F1 分?jǐn)?shù)。 所有超參數(shù)都列在第7.3 節(jié),可進(jìn)行復(fù)現(xiàn)。
?(基線方法在數(shù)據(jù)集上的性能。在評估期間使用最常用的關(guān)注者和朋友關(guān)系。每個基線用不同的種子進(jìn)行五次,我們報告平均性能和標(biāo)準(zhǔn)差。 “/”表示數(shù)據(jù)集不包含支持基于圖的方法的用戶關(guān)系。最佳和次佳結(jié)果以粗體和下劃線突出顯示。)
????????我們觀察到基于圖的方法比基于特征的方法表現(xiàn)更好,所有前 3 名模型都是基于圖的。此外,很明顯可以觀察到異構(gòu) GNN 的性能優(yōu)于同構(gòu) GNN。我們推測這是因為異構(gòu) GNN 足以捕獲用戶之間的多重關(guān)系。RGT 可以模擬異構(gòu)RGT可以模擬用戶之間的異構(gòu)影響,在大多數(shù)數(shù)據(jù)集上實現(xiàn)最佳性能。更好地利用邊緣的權(quán)重和方向是未來潛在的研究方向。
5.3訓(xùn)練集大小的研究
????????我們選擇每 10% 的標(biāo)記用戶作為測試和驗證集。然后,我們利用不同比例的標(biāo)記用戶作為訓(xùn)練集,從 10% 增加到 80%圖 7 顯示了不同訓(xùn)練集下的基于圖的模型性能。
?????????在不同的訓(xùn)練集下,異構(gòu) GNN 的性能優(yōu)于同構(gòu) GNN。這種現(xiàn)象與第5.2節(jié)中的結(jié)果一致。?
????????隨著更多注釋數(shù)據(jù)的使用,所有檢測模型都變得更加有效?,F(xiàn)有的帳戶檢測方法通常受到監(jiān)督并依賴于大量標(biāo)記數(shù)據(jù)。 MGTAB 的大規(guī)模有助于訓(xùn)練更好的檢測模型。此外,MGTAB 還提供了 400,000 個未標(biāo)記用戶來支持半監(jiān)督帳戶檢測方法的研究。據(jù)我們所知,MGTAB 在帳戶檢測領(lǐng)域擁有最多的未標(biāo)記用戶。
5.4 社會圖關(guān)系分析
????????在本節(jié)中,我們分析了在 MGTAB 中使用各種關(guān)系的影響。除了單一關(guān)系,我們還嘗試使用多重關(guān)系.我們隨機進(jìn)行1:1:8的分區(qū)作為訓(xùn)練、驗證和測試集。這個分區(qū)在7.1節(jié)和7.2節(jié)的所有實驗中共享。
? ? ? ? 表6 說明了當(dāng)使用更多關(guān)系時,基于圖形的帳戶檢測方法表現(xiàn)更好。這一趨勢表明,未來對帳戶檢測的研究應(yīng)側(cè)重于更好地利用用戶之間的多種關(guān)系。此外,我們觀察到話題共現(xiàn)在所有關(guān)系中表現(xiàn)最差。我們懷疑這是因為標(biāo)簽共現(xiàn)是高度隨機的,兩個不相關(guān)的用戶可能會出現(xiàn)話題共現(xiàn)。雖然MGTAB為URL和話題共現(xiàn)關(guān)系提供了邊緣權(quán)重,但現(xiàn)有的基于圖的帳戶檢測模型不能充分利用它們,導(dǎo)致性能較差。
?(使用不同關(guān)系的基于圖的檢測方法在 MGTAB 上的準(zhǔn)確性。每個基線用不同的種子進(jìn)行五次,我們報告平均性能和標(biāo)準(zhǔn)差。最佳結(jié)果以粗體突出顯示)
6. 結(jié)論
????????我們介紹了 MGTAB,這是一個用于姿態(tài)檢測和機器人檢測的大規(guī)模數(shù)據(jù)集。我們使用專家注釋和多數(shù)投票來確保高質(zhì)量的注釋。為了構(gòu)建標(biāo)準(zhǔn)化數(shù)據(jù)集,我們選擇了 20 個信息增益最高的用戶特征,這些特征在實驗中被證明是最有效的。我們提取了 7 種用戶之間的關(guān)系,并簡化了復(fù)雜的 Twitter 網(wǎng)絡(luò)。與之前的數(shù)據(jù)集相比,MGTAB 可以更好地支持基于圖的賬戶檢測方法的研究。我們的實驗發(fā)現(xiàn),基于圖形的方法通常比基于特征的方法更有效,并且在引入多重關(guān)系時表現(xiàn)更好。
7. 補充資料
7.1.特征分析
????????特征的信息增益。在用戶立場檢測中具有前 10 IG 的布爾和數(shù)值特征及其 IG 顯示在表7中。?
?????????表8顯示了機器人檢測中排名前10的 IG 及其 IG 的布爾特征和數(shù)值特征。
?????????特征有效性分析。用戶特征表示的詳細(xì)信息顯示在表10中。文獻(xiàn)中提出的許多工作都解決了帳戶檢測的不同特征。為了進(jìn)一步證明本文提取的特征的有效性,使用從不同文獻(xiàn)[18,33,61]設(shè)計的屬性特征來比較不同模型在最常用的朋友和追隨者關(guān)系下的性能[18 ].在實驗中,我們只使用了屬性特征,結(jié)果如表11所示。
?
?7.2. 不同 BERT 模型的影響
????????MGTAB 數(shù)據(jù)集中包含的 54 種語言如表 9 所示。為了證明使用 LaBSE [13] 編碼的有效性,在本節(jié)中,我們采用四種預(yù)訓(xùn)練的編碼模型,LaBSE、RoBERTa [41]、SBERT [51]和 BART [37] 對用戶推文進(jìn)行編碼。
?????????使用上述模型對用戶的所有推文進(jìn)行編碼的結(jié)果顯示在表12中。 與其他模型相比,使用 LaBSE 的檢測性能更好。我們推斷這是因為在使用英語預(yù)訓(xùn)練模型對多語言文本進(jìn)行編碼時會引入噪聲。LABSE可以將不同語言的文本編碼到一個共享的嵌入空間中,更適合于收集到的多語言文本。
?7.3實驗細(xì)節(jié)
????????實驗設(shè)置。在本文中,對于所有的 GNN 模型,我們堆疊 2 層 GNN 和兩個全連接層,中間 GNN 層的輸入和輸出維度是一致的,分別為 64、128 或 256。我們使用 ReLU 作為激活函數(shù)并將學(xué)習(xí)率設(shè)置為 0.0001 到 0.01。此外,輟學(xué)率在 0.3 到 0.5 之間。我們在 GAT 中將注意力頭的數(shù)量設(shè)置為 8。我們在 RGT 中將 transformer attention heads 和 semantic attention heads 的數(shù)量設(shè)置為 4。 S-HGN中β為0.05,其余保持默認(rèn)。我們使用 Adam 優(yōu)化器對所有 GNN 模型進(jìn)行了 300 輪訓(xùn)練。對于機器學(xué)習(xí)模型,AB 和 RF 的估計器數(shù)量分別設(shè)置為 50 和 100。我們在配備 9 個 TITAN RTX GPU 的服務(wù)器上運行了所有實驗。
????????數(shù)據(jù)集處理。對于 SemEval-2016 T6 [47],我們提取了 IG 的 20 個最大特征:正面詞的數(shù)量,負(fù)面詞數(shù)、正面情緒數(shù)、負(fù)面情緒數(shù)、名詞詞頻、代詞詞頻、動詞詞頻、形容詞詞頻、特殊符號數(shù)、問號數(shù)、大寫詞數(shù)、引用詞數(shù)、轉(zhuǎn)發(fā)計數(shù)、提及計數(shù)、URL 數(shù)量、hastags 熵、hashtags 數(shù)量和大寫 hashtags 數(shù)量。對于 SemEval-2019 T7 [25],該特征是使用 RoBERTa [41] 提取的。對于 TwiBot-20 [17],我們遵循 [18] 進(jìn)行數(shù)據(jù)集處理和特征提取。對于 Cresci-15 [9]、Cresci-17 [10] 和 TwiBot-22 [15],我們按照 [15] 進(jìn)行數(shù)據(jù)集處理和特征提取。