photoshop做圖網(wǎng)站如何利用互聯(lián)網(wǎng)宣傳與推廣
研究背景
文章介紹了大型語言模型(LLMs)在處理各種復(fù)雜查詢時的挑戰(zhàn),特別是在不同復(fù)雜性的查詢處理上可能導(dǎo)致不必要的計算開銷或處理不足的問題。為了解決這一問題,文章提出了一種自適應(yīng)的查詢處理框架,動態(tài)選擇最合適的策略,從而提高整體效率和準(zhǔn)確性 。
研究目標(biāo)
目標(biāo)是開發(fā)一種自適應(yīng)框架,該框架能夠根據(jù)查詢的復(fù)雜性動態(tài)選擇最適合的檢索增強(qiáng)語言模型策略,從簡單到復(fù)雜的策略不等。
相關(guān)工作
開放域問答:這類任務(wù)通常涉及兩個模塊:檢索器和閱讀器。隨著具有千億參數(shù)的超強(qiáng)推理能力的LLM的出現(xiàn),LLM和檢索器之間的協(xié)同作用已經(jīng)取得了顯著進(jìn)展。然而,盡管在單跳檢索增強(qiáng)LLM方面取得了進(jìn)展,但某些查詢的復(fù)雜性需要更復(fù)雜的策略。
多跳問答:多跳問答(Multi-hop QA)是常規(guī)開放域問答(Open-domain QA)的擴(kuò)展,需要系統(tǒng)全面收集和將多個文檔的信息作為上下文回答更復(fù)雜的查詢。首先將多跳查詢分解為更簡單的單跳查詢,重復(fù)訪問LLM和檢索器來解決這些子查詢,并合并它們的答案以形成完整答案。這種查詢的缺點是:每個查詢迭代訪問LLM和檢索器可能效率極低,因為有些查詢可能足夠簡單,可以通過單一檢索步驟甚至僅通過LLM本身來回答。
自適應(yīng)檢索:為了處理不同復(fù)雜性的查詢,自適應(yīng)檢索策略根據(jù)每個查詢的復(fù)雜性動態(tài)決定是否檢索文檔。根據(jù)實體的頻率來確定查詢的復(fù)雜性級別,并建議僅當(dāng)頻率低于一定閾值時才使用檢索模塊。然而,這種方法僅關(guān)注于檢索與否的二元決策,可能不足以解決需要多個推理步驟的更復(fù)雜的查詢。
方法論
數(shù)據(jù)處理
定義復(fù)雜性標(biāo)簽:首先,需要定義問題的復(fù)雜性等級。在Adaptive-RAG中,通常有三個類別:簡單(A)、中等(B)和復(fù)雜(C)。簡單問題可以直接由LLM回答,中等復(fù)雜度問題需要單步檢索,而復(fù)雜問題則需要多步檢索和推理。
自動收集訓(xùn)練數(shù)據(jù):由于沒有現(xiàn)成的帶有復(fù)雜性標(biāo)簽的查詢數(shù)據(jù)集,Adaptive-RAG通過兩種策略自動構(gòu)建訓(xùn)練數(shù)據(jù)集:
- 從不同Retrieval-Augmented LLM策略的預(yù)測結(jié)果中標(biāo)注查詢的復(fù)雜性。
如果非檢索方法能夠正確生成答案,則對應(yīng)問題的標(biāo)簽為簡單(A);
如果單步檢索方法和多步檢索方法都能正確回答,而非檢索方法失敗,則對應(yīng)問題的標(biāo)簽為中等(B);
如果只有多步檢索方法能夠正確回答,則對應(yīng)問題的標(biāo)簽為復(fù)雜(C)。 - 利用基準(zhǔn)數(shù)據(jù)集中的固有偏差來標(biāo)注未標(biāo)記的查詢。
例如,如果一個查詢在單步數(shù)據(jù)集中未被標(biāo)記,則自動分配標(biāo)簽為中等(B);
如果在多步數(shù)據(jù)集中未被標(biāo)記,則自動分配標(biāo)簽為復(fù)雜(C)。
解決方案
Adaptive Retrieval-Augmented Generation (Adaptive-RAG) 是一種新穎的問答框架,它能夠根據(jù)問題的復(fù)雜性動態(tài)選擇最適合的策略來處理Retrieval-Augmented LLM。這三種策略包括:
- 非檢索方法(No Retrieval):這是最簡單的策略,直接使用LLM本身的知識庫來生成答案。這種方法適用于那些模型已經(jīng)知道答案的簡單問題,不需要額外的外部信息。
- 單步檢索方法(Single-step Approach):當(dāng)問題需要額外的信息時,這種方法會先從外部知識源檢索相關(guān)信息,然后將檢索到的文檔作為上下文信息輸入到LLM中,幫助模型生成更準(zhǔn)確的答案。這種方法適用于需要一次額外信息檢索的中等復(fù)雜度問題。
- 多步檢索方法(Multi-step Approach):對于最復(fù)雜的問題,需要從多個文檔中綜合信息并進(jìn)行多步推理。這種方法通過迭代地訪問檢索器和LLM,逐步構(gòu)建起解決問題所需的信息鏈。這種方法適用于需要多步邏輯推理的復(fù)雜問題。
Adaptive-RAG的核心在于它能夠通過分類器來評估問題的復(fù)雜性,然后根據(jù)評估結(jié)果選擇最合適的處理策略。分類器是一個較小的語言模型,它被訓(xùn)練用來預(yù)測query的復(fù)雜度。通過這種方式,Adaptive-RAG能夠靈活地在不同的Retrieval-Augmented LLM策略之間進(jìn)行切換,從而在處理各種復(fù)雜性的問題時,實現(xiàn)更高的效率和準(zhǔn)確性。
實驗
實驗設(shè)計
研究中使用的數(shù)據(jù)集包括單跳和多跳問題,涵蓋了從簡單到復(fù)雜的查詢。數(shù)據(jù)來源于開放域問答數(shù)據(jù)集,這些數(shù)據(jù)集經(jīng)常用于評估問答系統(tǒng)的性能。
- SQuAD v1.1 (Rajpurkar et al., 2016):通過閱讀文檔撰寫問題的方式創(chuàng)建。
- Natural Questions (Kwiatkowski et al., 2019):基于Google搜索的真實用戶查詢構(gòu)建。
- TriviaQA (Joshi et al., 2017):由各種小測驗網(wǎng)站提供的瑣碎問題組成。
- MuSiQue (Trivedi et al., 2022a):通過組合多個單跳問題形成涉及2-4個跳轉(zhuǎn)的查詢。
- HotpotQA (Yang et al., 2018):通過鏈接多個維基百科文章由注釋者創(chuàng)建的問題。
- 2WikiMultiHopQA (Ho et al., 2020):源自維基百科及其相關(guān)知識圖譜路徑,需要2跳處理。
評估指標(biāo)包括有效性和效率兩大類:
- 有效性:使用F1得分、EM(精確匹配)和準(zhǔn)確率(Accuracy, Acc)來評估模型預(yù)測的答案與真實答案之間的匹配程度。
- 效率:測量回答每個查詢所需的檢索和生成步驟數(shù)以及與單步策略相比的平均響應(yīng)時間。
實驗結(jié)論
實驗結(jié)果顯示,Adaptive-RAG在處理復(fù)雜查詢時,比傳統(tǒng)的檢索增強(qiáng)方法更有效,尤其是在資源利用效率上。例如,在使用不同大小模型(如GPT-3.5和FLAN-T5系列)進(jìn)行測試時,Adaptive-RAG在處理多步查詢的場景中,表現(xiàn)出更高的準(zhǔn)確率和效率 。
參考資料
- 論文
- 代碼