誰可以做網(wǎng)站優(yōu)化排名推廣百度管理員聯(lián)系方式
作者:李一鳴 張兆 中科院計算所
會話式多文檔問答旨在根據(jù)檢索到的文檔以及上下文對話來回答特定問題。 在本文中,我們介紹了 WSDM Cup 2024 中“對話式多文檔 QA”挑戰(zhàn)賽的獲勝方法,該方法利用了大型語言模型 (LLM) 卓越的自然語言理解和生成能力。
在方案中,首先讓大模型適應該任務,然后設計一種混合訓練策略,以充分利用領域內(nèi)的未標記數(shù)據(jù)。 此外,采用先進的文本嵌入模型來過濾掉潛在的不相關文檔,并為模型集成設計和比較了幾種方法。 憑借所有這些技術(shù),我們的解決方案最終在 WSDM Cup 2024 中排名第一,超越在很大程度上是其競爭對手。
關鍵詞:問答;大語言模型;文本嵌入模型;混合訓練
Github開源地址:https://github.com/zhangzhao219/WSDM-Cup-2024
方案簡介
對話式問答旨在根據(jù)對話中識別的用戶意圖生成正確且有意義的答案,在現(xiàn)代搜索引擎中發(fā)揮著至關重要的作用和對話系統(tǒng)。 然而,這仍然具有挑戰(zhàn)性,特別是對于當前或趨勢主題,因為在語言模型的訓練階段無法獲得及時的知識。 盡管提供多個相關文檔作為上下文信息似乎可行,但該模型仍然面臨著被大量輸入淹沒或誤導的風險。 基于來自小紅書的真實文本數(shù)據(jù),WSDM Cup 20241提出了“對話式多文檔QA”的挑戰(zhàn),以鼓勵對問題的進一步探索。
最近,ChatGPT 等大模型在多項自然語言處理任務上表現(xiàn)出了令人印象深刻的性能。 通過利用大模型的理解和推理能力,有望解決這一挑戰(zhàn)。 然而,包括訓練配置的設計和不相關文檔的存在在內(nèi)的許多因素仍然阻礙了生成質(zhì)量的提高。
在這項工作中,為了激活 LLM 的能力,我們首先將任務表述為具有不同 LLM 的多輪條件生成問題。 然后,進行多階段混合訓練管道,將未標記的評估集合并為額外的訓練語料庫。為了刪除潛在的不相關信息,我們實施了某些策略,包括最先進的嵌入模型,即 Nomic Embed 計算輸入和文檔之間的相似度得分。 最后,在選擇最佳響應作為模型集成的最終答案之前,考慮了幾種方法來近似評估各種大模型生成的答案的質(zhì)量。 實驗結(jié)果表明,我們的解決方案在每個評估指標上都取得了最高分,遠遠超出了我們背后的團隊,而消融研究也表明了所提出技術(shù)的有效性。
對話式多文檔問答挑戰(zhàn)賽
「對話式多文檔問答」挑戰(zhàn)賽 Conversational Multi-Doc QA
賽題任務
每個月有數(shù)以億計的用戶在小紅書上分享和發(fā)現(xiàn)生活的美好,并在小紅書海量筆記中獲取相關信息和實用的生活經(jīng)驗。小紅書利用先進的 AI 技術(shù),如深度學習及時下流行的大語言模型等,提升用戶個性化的互動體驗,更好地滿足他們對高效、準確信息獲取的需求。
在多輪對話場景中,為用戶的查詢提供準確且全面的回答是一項充滿挑戰(zhàn)的任務,在本次比賽中,我們將模擬真實的多輪對話場景,提供對話歷史、當前查詢 query、以及搜索系統(tǒng)檢索到的相關筆記。參賽者的系統(tǒng)被要求依據(jù)這些輸入信息,理解用戶查詢意圖并輸出面向查詢 query 的文本回答。我們將評估回答的準確性與完善性。通過這個挑戰(zhàn),期待能探索和提高對話系統(tǒng)在面對多輪上下文和多樣化搜索結(jié)果時,生成更準確,完善回答的能力,更好地理解和滿足用戶的需求,獲取更加高效、準確的信息。
數(shù)據(jù)集
數(shù)據(jù)集包括訓練/驗證/測試數(shù)據(jù),每個都將以“json”格式給出,每個樣本包含以下字段:
- uuid:字符串,每個示例的唯一標識符
- history:字符串元組列表,順序 QA 對
- documents:字符串列表,最多5個參考文檔
- question:字符串,用戶問題
- answer:字符串,參考答案(未在評估/測試數(shù)據(jù)中給出)
- keywords:字符串列表,最好在參考答案中提及的參考關鍵字(訓練/評估/測試集中均未給出)
數(shù)據(jù)樣例如下:
{
"uuid": "xxxxx",
"history": [{"question": xxx, "history": xxx},{"question": xxx, "history": xxx},...
],
"documents":
[
"Jun 17th through Fri the 21st, 2024 at the Seattle Convention Center, Vancouver Convention Center.", "Workshops within a “track” will take place in the same room (or be co-located), and workshop organizers will be asked to work closely with others in their track ...",
...
],
"question": "Where will CVPR 2024 happen?",
"answer": "CVPR 2024 will happen at the Seattle Convention Center, Vancouver.",
"keywords": # Will not be given.
[
"Vancouver", "CVPR 2024", "Seattle Convention Center"
]
}
評估指標
指標:
- 關鍵詞召回:答案是否包含事實以及精確匹配的特定關鍵詞。
- 字符級 ROUGE-L :通過模糊字符級匹配,答案是否與參考答案相似。
- 單詞級ROUGE-L :通過模糊單詞級匹配,答案是否與參考答案相似。
排名規(guī)則:
- 整體表現(xiàn)將通過檢查第二階段(測試集)排行榜上上述指標的平均排名來確定。
- 如果團隊平均排名相同,則優(yōu)先考慮單詞級 ROUGE-L分數(shù)較高的團隊。
方案思路
基于LLMs實現(xiàn)多文檔問答
為了使 LLM 適應這項任務,我們仔細設計了輸入格式,并按以下順序?qū)⒚總€文本部分連接在一起:
u = { q 1 } { a 1 } { q 2 } { a 1 } . . . { q n } { a n } { q } { d 1 } { d 2 } . . . { d n } { a } u=\{q_{1}\}\{a_{1}\}\{q_{2}\}\{a_{1}\}...\{q_{n}\}\{a_{n}\}\{q\}\{d_{1}\}\{d_{2}\}...\{d_{n}\}\{a\} u={q1?}{a1?}{q2?}{a1?}...{qn?}{an?}{q}{d1?}{d2?}...{dn?}{a}
請注意,我們在上面的拼接中排除了特殊字符(例如<s>、[INST])。
然后,可以通過最大化整個序列的對數(shù)似然來訓練模型 θ \theta θ:
L g e n = ? ∑ i = 1 u m i l o g p ( u i ∣ , u < i : θ ) L_{gen}=-\sum_{i=1}^{u}m_{i}log p(u_{i}|,u<i:\theta) Lgen?=?i=1∑u?mi?logp(ui?∣,u<i:θ)
其中 p ( u i ∣ , u < i : θ ) p(u_{i}|,u<i:\theta) p(ui?∣,u<i:θ) 代表在第i步選擇來自于 u < i u<i u<i之前字符 u i u_{i} ui? 的概率, m i m_{i} mi?代表針對第i字符的loss mask。其中有兩種訓練模式
- 單輪模式:當 u i u_{i} ui?屬于 a {a} a, m i = 1 m_{i}=1 mi?=1
- 多輪模式:當 u i u_{i} ui?屬于 a {a} a或者 a i {a}_{i} ai?, m i = 1 m_{i}=1 mi?=1。
我們基于Llama2-13B-base做了實驗,發(fā)現(xiàn)多輪模式會帶來更好的性能,可以使LLM更加關注上下文信息
在決定輸入格式和掩碼模式后,我們比較了許多現(xiàn)成的 LLM,它們要么僅經(jīng)過預訓練,要么經(jīng)過指令調(diào)整。 如表 2 所示,SOLAR-10.7B-Instruct 模型在評估數(shù)據(jù)集上遠遠超過了同類模型,該模型使用深度放大來縮放 LLM,并針對指令跟蹤功能進行了微調(diào)。 因此,在后續(xù)的實驗中選擇它作為我們的backbone。
混合訓練
來自相似分布的適當標記文本可能對大模型生成性能的提高做出很大貢獻。 在第二階段,我們建議利用精調(diào)的模型為評估數(shù)據(jù)集生成(偽)答案,然后將它們添加到原始訓練集以從頭開始微調(diào)新模型。 上述混合訓練策略的出發(fā)點有兩個,一方面,它可以被視為對域內(nèi)未標記數(shù)據(jù)的知識蒸餾過程,另一方面,因為我們只在a中生成最終目標${a} 偽標記方式, 偽標記方式, 偽標記方式,{ai}$仍然是官方注釋的,這可能有利于多輪設置。 請注意,我們不會進一步涉及混合訓練的測試數(shù)據(jù)集,因為它可能會過度擬合模型,從而削弱最終評估中的模型性能,這也通過我們的實驗進行了驗證。
噪音文檔過濾
毫無疑問,高質(zhì)量的參考文檔不僅可以幫助減輕幻覺現(xiàn)象,還可以提高大模型的推理質(zhì)量[6]。 仔細觀察整個數(shù)據(jù)集后,我們發(fā)現(xiàn)主要有兩種類型的噪聲文檔,如圖1所示:
-
文檔幾乎重新表述了該問題,該問題與文檔具有極高的相關分數(shù)。
-
文檔包含了不相關的信息,因此它們與問題或歷史記錄的相關分數(shù)極低。
因此,在不存在真實答案的情況下量化相關性至關重要。 從語義和詞匯的角度來看,我們得出以下兩個指標:
- 嵌入級余弦相似度 我們采用高級文本嵌入模型Nomic Embed 來計算文檔與相應問題(或與對話歷史記錄一起)之間的余弦相似度。
- 單詞或字符級ROUGE-L 如前所述,ROUGE-L 分數(shù)可以被視為詞匯相關性標準。
實際上,我們對每個指標分別設置較高的閾值 τ h \tau_{h} τh?和較低的閾值 τ l \tau_{l} τl?,然后篩選出參考文檔,其對應分數(shù)≥ τ h \tau_{h} τh?或≤ τ l \tau_{l} τl?進行手動檢查。結(jié)果,我們在第2階段過濾掉了193個噪聲文檔。
此外,之前的工作表明,大模型可以更好地理解位于輸入開頭或結(jié)尾的重要段落。 然而,我們發(fā)現(xiàn)文檔索引和官方注釋答案中出現(xiàn)的相對順序之間存在很強的相關性,這意味著對參考文檔重新排序可能會導致嚴重的性能下降。
模型融合
模型集成已被證明在判別任務中是有效的,但是,很少在生成環(huán)境下進行探索。 在這項工作中,我們建議近似評估不同模型生成的答案的質(zhì)量,然后選擇最好的作為最終結(jié)果。 假設給定一個測試樣本,我們有 M M M個候選響應進行聚合,對于每個候選 r i r_{i} ri? ,我們計算 r i r_{i} ri? 和 r j r_{j} rj? 之間的相關性分數(shù) s ( r i , r j ) ( j = 1 , . . . , M , j ≠ i ) s(r_{i} ,r_{j} )(j=1,...,M,j\neq i) s(ri?,rj?)(j=1,...,M,j=i),將它們加在一起作為 r i ( q i = ∑ j s ( r i , r j ) ) 的質(zhì)量分數(shù) r_{i}(q_{i}=\sum_{j}s(r_{i},r_{j}))的質(zhì)量分數(shù) ri?(qi?=∑j?s(ri?,rj?))的質(zhì)量分數(shù)q_{i}$。 類似地,相關性量化器可以是嵌入級余弦相似度(表示為 emb_a_s)、單詞級 ROUGE-L(表示為 word_a_f)和字符級 ROUGE-L(表示為 char_a_f)。動機是最終答案應該是與最多候選模型達成一致性的代表。
實驗
實驗設置
訓練代碼使用modelscope的swift,超參數(shù)設置如下:
實驗結(jié)果
表3列出了本次比賽的最終結(jié)果。 如圖所示,我們的解決方案匯總了 8 個不同模型的結(jié)果,與第二名相比,W-ROUGE-L、C-ROUGE-L 和 KR 的絕對性能分別提高了 1.6%、0.9% 和 2.3%。 此外,值得注意的是,我們的單模型也可以比其他模型產(chǎn)生更好的性能,這表明我們的模型是有效的策略。
消融實驗
文檔過濾的消融實驗:表 4 顯示了我們的單一模型在使用和不使用噪聲文檔過濾的情況下推斷的實驗結(jié)果。 我們發(fā)現(xiàn)它略微提高了最終分數(shù),因為提供的文件是由杯賽組織者精心挑選的,大模型可以在一定程度上區(qū)分潛在的干擾因素。
混合訓練策略的消融實驗:我們在表 5 中驗證了所提出的混合訓練策略的效果。如圖所示,將評估集與相應的偽目標相結(jié)合可以很大程度上提高生成質(zhì)量,特別是對于關鍵字召回分數(shù)。 但進一步加入測試集幾乎沒有什么效果,這驗證了我們的設計選擇。
模型融合的消融實驗:我們首先比較不同的集成方法,如圖 2 (a) 所示。 盡管上述方法在 ROUGE 分數(shù)上都具有競爭力,但 emb_a_s 在關鍵字召回方面帶來了更多改進,因此被選為我們最終的集成方法。 然后,對整體候選數(shù)量進行參數(shù)分析。 從圖 2 (b) 中可以看出,更多的候選者通常會帶來更好的性能。 由于時間和預算有限,我們最終將數(shù)量定為8。
在本文中,我們詳細介紹了 WSDM Cup 2024 中“對話式多文檔 QA”任務的獲勝解決方案。利用法學碩士的能力,我們使用 SOLAR-10.7B-Instruct 模型作為骨干,結(jié)合混合模型 訓練、噪聲文檔過濾器,并通過評估最終提交的 8 個結(jié)果的質(zhì)量來選擇最佳響應。 我們的解決方案在公共排行榜上獲得了第一名。