公司制做網(wǎng)站蘭州seo推廣
1 任務(wù)內(nèi)容
1.1 任務(wù)背景
2022年12月1日起,新出臺(tái)的《反電信網(wǎng)絡(luò)詐騙犯罪法》正式施行,表明了我國(guó)治理當(dāng)前電信網(wǎng)絡(luò)詐騙亂象的決心。詐騙案件分類(lèi)問(wèn)題是打擊電信網(wǎng)路詐騙犯罪過(guò)程中的關(guān)鍵一環(huán),根據(jù)不同的詐騙方式、手法等將其分類(lèi),一方面能夠便于統(tǒng)計(jì)現(xiàn)狀,有助于公安部門(mén)掌握當(dāng)前電信網(wǎng)絡(luò)詐騙案件的分布特點(diǎn),進(jìn)而能夠?qū)Σ煌?lèi)別的詐騙案件作出針對(duì)性的預(yù)防、監(jiān)管、制止、偵查等措施,另一方面也有助于在向群眾進(jìn)行反詐宣傳時(shí)抓住重點(diǎn)、突出典型等。
1.2 任務(wù)簡(jiǎn)介
文本分類(lèi)是自然語(yǔ)言處理領(lǐng)域的基礎(chǔ)任務(wù),面向電信網(wǎng)絡(luò)詐騙領(lǐng)域的案件分類(lèi)對(duì)智能化案件分析具有重要意義。本任務(wù)目的是對(duì)給定案件描述文本進(jìn)行分類(lèi)。案件文本包含對(duì)案件的整體描述(經(jīng)過(guò)脫敏處理)。具體細(xì)節(jié)參考第2部分。
2 評(píng)測(cè)數(shù)據(jù)
2.1 數(shù)據(jù)簡(jiǎn)介
數(shù)據(jù)采集: 案件文本內(nèi)容為案情簡(jiǎn)述,即為受害人的筆錄,由公安部門(mén)反詐大數(shù)據(jù)平臺(tái)導(dǎo)出。
數(shù)據(jù)清洗: 從反詐大數(shù)據(jù)平臺(tái)共計(jì)導(dǎo)出 13 個(gè)類(lèi)別的數(shù)據(jù),去除了“其他類(lèi)型詐騙”類(lèi)別,因此最終采用 12 個(gè)類(lèi)別。
脫敏處理: 去除了案件文本中的姓名、出生日期、地址、涉案網(wǎng)址、各類(lèi)社交賬號(hào)以及銀行卡號(hào)碼等個(gè)人隱私或敏感信息。
分類(lèi)依據(jù): 類(lèi)別體系來(lái)源于反詐大數(shù)據(jù)平臺(tái)的分類(lèi)標(biāo)準(zhǔn),主要依據(jù)受害人的法益及犯罪分子的手法進(jìn)行分類(lèi),例如冒充淘寶客服謊稱(chēng)快遞丟失的,分為冒充電商物流客服類(lèi);冒充公安、檢察院、法院人員行騙的,分為冒充公檢法及政府機(jī)關(guān)類(lèi);謊稱(chēng)可以幫助消除不良貸款記錄的,分為虛假政信類(lèi)等等。
類(lèi)別數(shù)量: 12 個(gè)類(lèi)別。
2.2 數(shù)據(jù)樣例
數(shù)據(jù)以json格式存儲(chǔ),每一條數(shù)據(jù)具有三個(gè)屬性,分別為案件編號(hào)、案情描述、案件類(lèi)別。樣例如下:
{"案件編號(hào)": 28043,"案情描述": "事主(女,20歲,漢族,大專(zhuān)文化程度,未婚,現(xiàn)住址:)報(bào)稱(chēng)2022年8月27日13時(shí)43分許在口被嫌疑人冒充快遞客服以申請(qǐng)理賠為由詐騙3634元人民幣。對(duì)方通過(guò)電話(huà)()與事主聯(lián)系,對(duì)方自稱(chēng)是中通快遞客服稱(chēng)事主的快遞物件丟失現(xiàn)需要進(jìn)行理賠,事主同意后對(duì)方便讓事主將資金轉(zhuǎn)入對(duì)方所謂的“安全賬號(hào)”內(nèi)實(shí)施詐騙,事主通過(guò)網(wǎng)銀的方式轉(zhuǎn)賬。事主使用的中國(guó)農(nóng)業(yè)銀行賬號(hào),嫌疑人信息:1、成都農(nóng)村商業(yè)銀行賬號(hào),收款人:;2、中國(guó)建設(shè)銀行賬號(hào),收款人:。事主快遞信息:中通快遞,.現(xiàn)場(chǎng)勘查號(hào):。","案件類(lèi)別": "冒充電商物流客服類(lèi)"
},
{"案件編號(hào)": 49750,"案情描述": "2022 年 11 月 13 日 14 時(shí) 10 分 23 秒我濱河派出所接到 110 報(bào)警稱(chēng)在接到自稱(chēng)疾控中心詐騙電話(huà),被騙元,接到報(bào)警民警趕到現(xiàn)場(chǎng),經(jīng)查,報(bào)警人,在遼寧省 17 號(hào)樓 162 家中,接到自稱(chēng)沈陽(yáng)市疾控報(bào)警中心電話(huà),對(duì)方稱(chēng)報(bào)警人去過(guò),報(bào)警人否認(rèn)后對(duì)方稱(chēng)把電話(huà)轉(zhuǎn)接到哈爾濱市刑偵大隊(duì),自稱(chēng)刑偵大隊(duì)的人說(shuō)報(bào)警人涉及一樁洗錢(qián)的案件讓報(bào)警人配合調(diào)查取證,調(diào)查取證期間讓報(bào)警人把錢(qián)存到自己的銀行卡中,并向報(bào)警人發(fā)送一個(gè)網(wǎng)址鏈接,在鏈接上進(jìn)行操作,操作完后,對(duì)方在后臺(tái)將報(bào)警人存在自己銀行卡的錢(qián)全部轉(zhuǎn)出,共轉(zhuǎn)出五筆,共計(jì)元。","案件類(lèi)別": "冒充公檢法及政府機(jī)關(guān)類(lèi)"
},
{"案件編號(hào)": 78494,"案情描述": "2022 年 1 月 10 日 11 時(shí)至 18 時(shí)許,受害人在的家中,接到陌生電話(huà):(對(duì)方號(hào)碼:)對(duì)方自稱(chēng)是銀保監(jiān)會(huì)的工作人員,說(shuō)受害人京東 APP 里有個(gè)金條借款要關(guān)閉,否則會(huì)影響征信。后對(duì)方就讓受害人下載了“銀視訊”的會(huì)議聊天軟件,指導(dǎo)受害人如何操作,讓受害人通過(guò)手機(jī)銀行(受害人賬戶(hù):1、交通銀行;2、紫金農(nóng)商銀行;3、中國(guó)郵政儲(chǔ)蓄銀行:;4、中國(guó)民生銀行:;)轉(zhuǎn)賬到對(duì)方指定賬戶(hù):嫌疑人賬戶(hù):1、中國(guó)農(nóng)業(yè)銀行;2、中國(guó)銀行;3、中國(guó)銀行;4、中國(guó)建設(shè)銀行;5、中國(guó)銀行;共計(jì)損失:元。案件編號(hào):","案件類(lèi)別": "虛假征信類(lèi)"
}
2.3 數(shù)據(jù)分布
提供數(shù)據(jù)共有12個(gè)類(lèi)別,類(lèi)別具體分布如下表所示。
類(lèi)別名稱(chēng) | 樣本數(shù)量 |
---|---|
刷單返利類(lèi) | 35459 |
冒充電商物流客服類(lèi) | 13772 |
虛假網(wǎng)絡(luò)投資理財(cái)類(lèi) | 11836 |
貸款、代辦信用卡類(lèi) | 11105 |
虛假征信類(lèi) | 8464 |
虛假購(gòu)物、服務(wù)類(lèi) | 7058 |
冒充公檢法及政府機(jī)關(guān)類(lèi) | 4563 |
冒充領(lǐng)導(dǎo)、熟人類(lèi) | 4407 |
網(wǎng)絡(luò)游戲產(chǎn)品虛假交易類(lèi) | 2155 |
網(wǎng)絡(luò)婚戀、交友類(lèi)(非虛假網(wǎng)絡(luò)投資理財(cái)類(lèi)) | 1654 |
冒充軍警購(gòu)物類(lèi) | 1092 |
網(wǎng)黑案件 | 1197 |
總計(jì) | 102762 |
注:在數(shù)據(jù)集(訓(xùn)練集和測(cè)試集)中 “冒充軍警購(gòu)物類(lèi)” 的標(biāo)注為 “冒充軍警購(gòu)物類(lèi)詐騙” 。
訓(xùn)練集及測(cè)試集劃分如下所示。
數(shù)據(jù)劃分 | 樣本數(shù)量 |
---|---|
訓(xùn)練集 | 82210 |
測(cè)試集A | 10276 |
測(cè)試集B | 10276 |
總計(jì) | 102762 |
本次評(píng)測(cè)任務(wù)計(jì)劃僅采用訓(xùn)練集及測(cè)試集A以作評(píng)測(cè)。
2.4 文本長(zhǎng)度分布
下圖展示了案情描述文本長(zhǎng)度的分布情況,因此在預(yù)訓(xùn)練階段,我們選擇了預(yù)訓(xùn)練了一個(gè)1024長(zhǎng)度的Nezha模型。
3 評(píng)價(jià)標(biāo)準(zhǔn)
評(píng)測(cè)性能時(shí),本任務(wù)主要采用宏平均F1值作為評(píng)價(jià)標(biāo)準(zhǔn),即對(duì)每一類(lèi)計(jì)算F1值,最后取算術(shù)平均值,其計(jì)算方式如下:
M a c r o F 1 = 1 n ∑ i = 1 n F 1 i Macro_{F1} = \frac{1}{n} \sum_{i=1}^{n} F1_{i} MacroF1?=n1?i=1∑n?F1i?
其中 F 1 i F1_i F1i? 為第i類(lèi)的 F 1 F1 F1 值,n為類(lèi)別數(shù),在本任務(wù)中n取12。
4 模型架構(gòu)
本文模型結(jié)構(gòu)如下圖所示,基線模型采用BERT(包括其變種)+Linear的文本分類(lèi)模型架構(gòu)。并采用預(yù)訓(xùn)練、對(duì)抗訓(xùn)練和模型融合等三種主要優(yōu)化策略提升基線模型的性能。
4.1 預(yù)訓(xùn)練
有效的預(yù)訓(xùn)練可以提升模型在下游任務(wù)微調(diào)的性能。本文提取數(shù)據(jù)集中的案情描述文本,在預(yù)訓(xùn)練階段添加MLM預(yù)訓(xùn)練任務(wù),通過(guò)無(wú)監(jiān)督學(xué)習(xí)使得預(yù)訓(xùn)練語(yǔ)言模型獲得案件領(lǐng)域的知識(shí),從而使模型具備對(duì)案件文本更好的語(yǔ)義理解和特征提取能力。MLM預(yù)訓(xùn)練使用了與【1】一致的方式,將輸入的案情描述文本隨機(jī)遮蔽,即為存在15%的概率決定對(duì)該token進(jìn)行修改,其中有80%的概率改為"[MASK]",有10%的概率被替換為一個(gè)隨機(jī)的token,有10%的概率保持不變。MLM預(yù)訓(xùn)練任務(wù)使用交叉熵?fù)p失進(jìn)行訓(xùn)練,其損失表示為公式:
L m l m = ? ∑ i = 0 V ? 1 y i m a s k l o g ( p i m a s k ) L_{mlm}=-\sum_{i=0}^{V-1}y_i^{mask}log(p_i^{mask}) Lmlm?=?i=0∑V?1?yimask?log(pimask?)
其中,V為模型詞表大小, y i m a s k y_i^{mask} yimask?是遮蔽字符的標(biāo)簽, p i m a s k p_i^{mask} pimask?表示模型預(yù)測(cè)的概率。
本文在預(yù)訓(xùn)練階段,分別預(yù)訓(xùn)練了三種中文模型,分別為nezha、Roberta和Deberta。在使用Nezha-base-wwm預(yù)訓(xùn)練語(yǔ)言模型時(shí),輸入序列的最大長(zhǎng)度為1024,在使用chinese-roberta-wwm-ext-large與Deberta(注:這里使用了兩個(gè)權(quán)重進(jìn)行實(shí)驗(yàn),320M的進(jìn)行了預(yù)訓(xùn)練,710M的沒(méi)有進(jìn)行預(yù)訓(xùn)練,相關(guān)權(quán)重鏈接:1、Erlangshen-DeBERTa-v2-320M-Chinese:https://huggingface.co/IDEA-CCNL/Erlangshen-DeBERTa-v2-320M-Chinese;2、Erlangshen-DeBERTa-v2-710M-Chinese:https://huggingface.co/IDEA-CCNL/Erlangshen-DeBERTa-v2-710M-Chinese}預(yù)訓(xùn)練語(yǔ)言模型時(shí),輸入序列的最大長(zhǎng)度為512)。
4.2 對(duì)抗訓(xùn)練
為了增強(qiáng)模型對(duì)干擾和噪聲的抵抗能力,本文實(shí)驗(yàn)了PGD【3】、FGM【4】、FreeLB【2】等對(duì)抗訓(xùn)練技巧提升模型的魯棒性,通過(guò)實(shí)驗(yàn)性能對(duì)比,最終主要采用了FreeLB對(duì)抗訓(xùn)練。FreeLB的核心思想是通過(guò)增加對(duì)抗樣本的生成空間,引入自由生成的方法來(lái)提高模型的魯棒性。傳統(tǒng)的對(duì)抗訓(xùn)練方法通常使用固定的擾動(dòng)方法來(lái)生成對(duì)抗樣本,這可能會(huì)限制模型的泛化能力和魯棒性。相比之下,FreeLB提出了自由生成的概念,它允許生成過(guò)程中的擾動(dòng)更加多樣和自由,從而提供更豐富的訓(xùn)練信號(hào)。都是在word embedding空間上加入擾動(dòng),然后對(duì)擾動(dòng)后的embedding進(jìn)行l(wèi)ook up,得到的詞向量再喂給模型。其原理偽代碼如表1所示。
4.3 模型融合
模型融合是一種常用的技術(shù),在文本分類(lèi)比賽中被廣泛應(yīng)用,旨在提高分類(lèi)模型的性能和泛化能力。模型融合通過(guò)結(jié)合多個(gè)不同的分類(lèi)模型的預(yù)測(cè)結(jié)果,從而得到更準(zhǔn)確、更穩(wěn)定的最終預(yù)測(cè)結(jié)果。本文的模型融合的方法是對(duì)于每個(gè)分類(lèi)模型的輸出概率進(jìn)行簡(jiǎn)單的相加,得到最終的融合概率分布,進(jìn)一步求取最大概率的下標(biāo)獲取對(duì)應(yīng)的類(lèi)別標(biāo)簽。
5 評(píng)測(cè)結(jié)果
最終相應(yīng)模型在線上提交評(píng)測(cè)的結(jié)果如下表:
6 結(jié)果分析與討論
模型對(duì)比:本文使用了多個(gè)不同的預(yù)訓(xùn)練模型進(jìn)行評(píng)測(cè),包括chinese-roberta-wwm-ext-large、nezha-base-wwm和Erlangshen-DeBERTa-v2系列模型。從線上得分來(lái)看,預(yù)訓(xùn)練后的模型普遍表現(xiàn)比預(yù)訓(xùn)練前的模型更好。
數(shù)據(jù)劃分:大部分模型使用了9:1的數(shù)據(jù)劃分比例,即將數(shù)據(jù)集劃分為訓(xùn)練集和驗(yàn)證集。只有兩個(gè)模型(②和③)使用了全量數(shù)據(jù)進(jìn)行訓(xùn)練。使用全量數(shù)據(jù)進(jìn)行訓(xùn)練通常會(huì)有更好的效果,因?yàn)槟P涂梢愿浞值貙W(xué)習(xí)數(shù)據(jù)中的模式和規(guī)律。
輸入長(zhǎng)度:所有模型的輸入長(zhǎng)度都為512或1024。較長(zhǎng)的輸入長(zhǎng)度可以提供更多的上下文信息,有助于模型理解文本的語(yǔ)義和邏輯關(guān)系。然而,較長(zhǎng)的輸入長(zhǎng)度也會(huì)增加模型的計(jì)算負(fù)擔(dān)和訓(xùn)練時(shí)間。
模型融合:根據(jù)給出的實(shí)驗(yàn)結(jié)果,可以看出模型組合⑤+⑧+⑨獲得了最高的線上得分(0.8660677395)。這是因?yàn)檫@個(gè)組合中的模型相互補(bǔ)充,模型的融合能夠有效的提升模型的泛化能力。
此外,由于比賽提交次數(shù)有限,未提交驗(yàn)證FreeLB對(duì)抗訓(xùn)練對(duì)于結(jié)果的影響,根據(jù)本人在其他比賽的經(jīng)驗(yàn),該策略能有效提升模型的魯棒性。
7 結(jié)論
本研究針對(duì)電信網(wǎng)絡(luò)詐騙案件的分類(lèi)問(wèn)題,通過(guò)采用一系列優(yōu)化策略和技巧,包括BERT的繼續(xù)預(yù)訓(xùn)練、FreeLB的對(duì)抗訓(xùn)練和模型融合,取得了顯著的成果。實(shí)驗(yàn)結(jié)果在“CCL23-Eval-任務(wù)6-電信網(wǎng)絡(luò)詐騙案件分類(lèi)評(píng)測(cè)”技術(shù)評(píng)測(cè)比賽中最終成績(jī)排名第一,證明了所提出的優(yōu)化策略在提高電信網(wǎng)絡(luò)詐騙案件分類(lèi)性能方面的有效性和優(yōu)越性。
通過(guò)BERT的繼續(xù)預(yù)訓(xùn)練,研究者使模型具備更好的語(yǔ)義理解和特征提取能力,有助于準(zhǔn)確地分類(lèi)和檢測(cè)電信網(wǎng)絡(luò)詐騙案件。同時(shí),通過(guò)FreeLB的對(duì)抗訓(xùn)練,模型的魯棒性得到增強(qiáng),使其能夠更好地處理噪聲和干擾,提高了分類(lèi)的準(zhǔn)確性。此外,采用模型融合的方法將多個(gè)模型的預(yù)測(cè)結(jié)果進(jìn)行融合,進(jìn)一步提升了分類(lèi)的效果。
參考文獻(xiàn)
【1】Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, and Ziqing Yang. 2021. Pre-training with whole word masking for chinese bert. IEEE/ACM Transactions on Audio, Speech, and Language Processing,29:3504–3514.
【2】Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
【3】Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt, Dimitris Tsipras, and Adrian Vladu. 2017.Towards deep learning models resistant to adversarial attacks. arXiv preprint arXiv:1706.06083.
【4】Takeru Miyato, Andrew M Dai, and Ian Goodfellow. 2016. Adversarial training methods for semivised text classifification. arXiv preprint arXiv:1605.07725.
【5】Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein, and Jingjing Liu. 2019. Freelb: Enhanced adversarial training for natural language understanding. arXiv preprint arXiv:1909.11764.
【6】https://github.com/GJSeason/CCL2023-FCC