美橙域名查詢網(wǎng)站做網(wǎng)站建設(shè)優(yōu)化的公司排名
摘要:本文介紹了MiniCPM4,這是一種專門為終端設(shè)備設(shè)計的高效大型語言模型(LLM)。 我們通過在四個關(guān)鍵維度上進(jìn)行系統(tǒng)創(chuàng)新來實(shí)現(xiàn)這一效率:模型架構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練算法和推理系統(tǒng)。 具體而言,在模型架構(gòu)方面,我們提出了 InfLLM v2,這是一種可訓(xùn)練的稀疏注意力機(jī)制,可以加速預(yù)填充和解碼階段,以進(jìn)行長上下文處理。 關(guān)于訓(xùn)練數(shù)據(jù),我們提出了 UltraClean,一種高效準(zhǔn)確的預(yù)訓(xùn)練數(shù)據(jù)過濾和生成策略,以及 UltraChat v2,一個全面的監(jiān)督微調(diào)數(shù)據(jù)集。 這些數(shù)據(jù)集僅使用8萬億個訓(xùn)練令牌就能實(shí)現(xiàn)令人滿意的模型性能。 關(guān)于訓(xùn)練算法,我們提出了ModelTunnel v2,用于高效的預(yù)訓(xùn)練策略搜索,并通過引入用于負(fù)載平衡強(qiáng)化學(xué)習(xí)和數(shù)據(jù)高效三元LLM的塊式滾動,改進(jìn)了現(xiàn)有的后訓(xùn)練方法。 關(guān)于推理系統(tǒng),我們提出了CPM.cu,它集成了稀疏注意力、模型量化和推測采樣,以實(shí)現(xiàn)高效的預(yù)填充和解碼。 為了滿足不同的設(shè)備要求,MiniCPM4有兩個版本,分別為0.5B和8B參數(shù)。 充分的評估結(jié)果表明,MiniCPM4在多個基準(zhǔn)測試中優(yōu)于類似大小的開源模型,突出了其效率和有效性。 值得注意的是,在處理長序列時,MiniCPM4-8B的速度比Qwen3-8B有顯著提高。 通過進(jìn)一步的調(diào)整,MiniCPM4成功地為各種應(yīng)用提供了動力,包括可信賴的調(diào)查生成和模型上下文協(xié)議的工具使用,清楚地展示了其廣泛的可用性。Huggingface鏈接:Paper page,論文鏈接:2506.07900
一、研究背景和目的
研究背景:
隨著大型語言模型(LLMs)在自然語言處理領(lǐng)域的廣泛應(yīng)用,模型規(guī)模的不斷擴(kuò)大導(dǎo)致計算資源需求急劇增加,使得這些模型主要部署在云端服務(wù)器上,通過API接口進(jìn)行訪問。然而,隨著物聯(lián)網(wǎng)、移動設(shè)備和邊緣計算的發(fā)展,終端設(shè)備(如智能手機(jī)、嵌入式系統(tǒng)等)對高效LLMs的需求日益增長。這些設(shè)備通常具有有限的計算資源和存儲容量,無法直接運(yùn)行大規(guī)模LLMs。因此,開發(fā)適用于終端設(shè)備的高效LLMs成為當(dāng)前研究的重要方向。
研究目的:
本文旨在通過系統(tǒng)創(chuàng)新在模型架構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練算法和推理系統(tǒng)四個關(guān)鍵維度上,開發(fā)一種專為終端設(shè)備設(shè)計的高效大型語言模型——MiniCPM4。
具體目標(biāo)包括:
- 提出一種可訓(xùn)練的稀疏注意力機(jī)制(InfLLM v2),以加速長上下文處理的預(yù)填充和解碼階段。
- 開發(fā)高效準(zhǔn)確的預(yù)訓(xùn)練數(shù)據(jù)過濾和生成策略(UltraClean),以及全面的監(jiān)督微調(diào)數(shù)據(jù)集(UltraChat v2),以在有限的訓(xùn)練令牌下實(shí)現(xiàn)滿意的模型性能。
- 提出一種高效的預(yù)訓(xùn)練策略搜索方法(ModelTunnel v2),并通過引入塊式滾動(chunk-wise rollout)來改進(jìn)現(xiàn)有的后訓(xùn)練方法,實(shí)現(xiàn)負(fù)載平衡的強(qiáng)化學(xué)習(xí)和數(shù)據(jù)高效的三元LLM(BitCPM)。
- 設(shè)計一種集成了稀疏注意力、模型量化和推測采樣的高效推理系統(tǒng)(CPM.cu),以實(shí)現(xiàn)高效的預(yù)填充和解碼。
- 開發(fā)兩種參數(shù)規(guī)模的MiniCPM4模型(0.5B和8B),以滿足不同終端設(shè)備的需求,并在多個基準(zhǔn)測試中驗(yàn)證其效率和有效性。
二、研究方法
1. 模型架構(gòu)創(chuàng)新:
- InfLLM v2:提出了一種可訓(xùn)練的稀疏注意力機(jī)制,通過動態(tài)選擇相關(guān)的鍵值塊進(jìn)行注意力計算,顯著減少了計算和內(nèi)存訪問開銷。該機(jī)制在預(yù)填充和解碼階段均表現(xiàn)出色,特別是在處理長上下文時,能夠有效加速處理速度。
- 稀疏注意力實(shí)現(xiàn):通過分塊鍵值緩存和動態(tài)上下文塊選擇,InfLLM v2能夠在不增加額外參數(shù)的情況下,實(shí)現(xiàn)高效的稀疏注意力計算。 同時,引入了細(xì)粒度語義核來捕捉塊級語義,避免了 token-by-token 的相關(guān)性計算,進(jìn)一步提高了效率。
2. 訓(xùn)練數(shù)據(jù)優(yōu)化:
- UltraClean:提出了一種高效準(zhǔn)確的預(yù)訓(xùn)練數(shù)據(jù)過濾和生成策略,通過迭代的數(shù)據(jù)清洗和驗(yàn)證過程,提高了數(shù)據(jù)質(zhì)量。利用FastText分類器進(jìn)行快速質(zhì)量過濾,結(jié)合高效驗(yàn)證策略,確保了數(shù)據(jù)集的高質(zhì)量和多樣性。
- UltraChat v2:構(gòu)建了一個全面的監(jiān)督微調(diào)數(shù)據(jù)集,涵蓋了知識應(yīng)用、推理、指令跟隨、長上下文處理和工具使用等多個關(guān)鍵能力維度。 通過多樣化的數(shù)據(jù)生成策略,確保了數(shù)據(jù)集的廣泛覆蓋和高質(zhì)量。
3. 訓(xùn)練算法改進(jìn):
- ModelTunnel v2:在預(yù)訓(xùn)練策略搜索方面,提出了改進(jìn)的預(yù)測縮放方法,通過構(gòu)建ScalingBench數(shù)據(jù)集,建立了預(yù)訓(xùn)練損失與下游任務(wù)性能之間的關(guān)系,從而提高了超參數(shù)搜索的有效性。
- 塊式滾動(Chunk-wise Rollout):在后訓(xùn)練階段,引入了塊式滾動策略來優(yōu)化強(qiáng)化學(xué)習(xí)過程,通過限制每個滾動階段的最大輸出令牌預(yù)算,并在后續(xù)階段恢復(fù)未完成的軌跡,顯著提高了GPU利用率和訓(xùn)練效率。
- BitCPM:提出了一種數(shù)據(jù)高效的三元LLM訓(xùn)練方法,通過初始化高精度預(yù)訓(xùn)練模型的量化階段,顯著降低了量化感知訓(xùn)練(QAT)的成本。 結(jié)合ModelTunnel v2,實(shí)現(xiàn)了與現(xiàn)有QAT方法相當(dāng)?shù)男阅?#xff0c;但訓(xùn)練令牌數(shù)量大幅減少。
4. 推理系統(tǒng)優(yōu)化:
- CPM.cu:設(shè)計了一種集成了稀疏注意力、模型量化和推測采樣的高效推理框架。通過頻率排名詞匯表構(gòu)建和草稿驗(yàn)證(FR-Spec),減少了語言建模頭的計算開銷;通過前綴感知后訓(xùn)練量化(P-GPTQ),消除了初始令牌對激活量化保真度的影響;結(jié)合推測采樣和量化,實(shí)現(xiàn)了高效的預(yù)填充和解碼。
- ArkInfer:提出了一種跨平臺部署系統(tǒng),通過統(tǒng)一的執(zhí)行器接口和自適應(yīng)后端接口,簡化了LLMs在不同硬件平臺上的部署過程。 集成了多種推理框架和優(yōu)化技術(shù),支持無縫的跨平臺部署和全面的性能評估工具。
三、研究結(jié)果
1. 模型性能:
- MiniCPM4在多個基準(zhǔn)測試中表現(xiàn)出色,特別是在長上下文處理任務(wù)上,顯著優(yōu)于類似規(guī)模的開源模型。例如,在處理長序列時,MiniCPM4-8B相比Qwen3-8B實(shí)現(xiàn)了顯著的速度提升。
- 通過系統(tǒng)創(chuàng)新在模型架構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練算法和推理系統(tǒng)四個維度上的優(yōu)化,MiniCPM4在保持高效性的同時,也實(shí)現(xiàn)了出色的模型性能。
2. 效率提升:
- 在終端設(shè)備上的推理速度方面,MiniCPM4表現(xiàn)出色。 特別是在Jetson AGX Orin和RTX 4090等邊緣計算平臺上,MiniCPM4實(shí)現(xiàn)了顯著的加速效果,滿足了終端設(shè)備對實(shí)時性的要求。
- 通過稀疏注意力機(jī)制、模型量化和推測采樣的結(jié)合使用,CPM.cu推理框架在保持高精度的同時,顯著降低了計算開銷和內(nèi)存訪問延遲。
3. 應(yīng)用場景拓展:
- MiniCPM4成功應(yīng)用于可信賴的調(diào)查生成和模型上下文協(xié)議的工具使用等多樣化場景中,展示了其廣泛的可用性和實(shí)用性。通過進(jìn)一步的調(diào)整和優(yōu)化,MiniCPM4有望在更多領(lǐng)域發(fā)揮重要作用。
四、研究局限
1. 模型規(guī)模限制:
- 盡管MiniCPM4在終端設(shè)備上表現(xiàn)出色,但其模型規(guī)模相對較小(0.5B和8B參數(shù)),與云端大規(guī)模LLMs相比,在處理復(fù)雜任務(wù)時可能存在一定局限性。
- 未來研究可以考慮進(jìn)一步擴(kuò)大模型規(guī)模,同時保持高效性。
2. 數(shù)據(jù)多樣性:
- 盡管UltraClean和UltraChat v2數(shù)據(jù)集在覆蓋范圍和多樣性方面表現(xiàn)出色,但仍可能存在某些特定領(lǐng)域或任務(wù)的數(shù)據(jù)不足問題。未來研究可以考慮進(jìn)一步拓展數(shù)據(jù)來源和類型,以提高模型的泛化能力。
3. 推理系統(tǒng)優(yōu)化:
- 盡管CPM.cu推理框架在保持高精度的同時實(shí)現(xiàn)了顯著的加速效果,但在某些極端情況下(如超長序列處理),仍可能面臨計算資源和內(nèi)存訪問的瓶頸。未來研究可以考慮進(jìn)一步優(yōu)化推理系統(tǒng)架構(gòu)和算法設(shè)計,以應(yīng)對這些挑戰(zhàn)。
五、未來研究方向
1. 模型規(guī)模擴(kuò)展:
- 探索更大規(guī)模的MiniCPM模型在終端設(shè)備上的部署可能性,通過模型壓縮、剪枝和量化等技術(shù)手段,在保持高效性的同時擴(kuò)大模型規(guī)模。
2. 數(shù)據(jù)增強(qiáng)與多樣化:
- 進(jìn)一步拓展數(shù)據(jù)來源和類型,包括多語言數(shù)據(jù)、專業(yè)領(lǐng)域數(shù)據(jù)等,以提高模型的泛化能力和適應(yīng)性。 同時,考慮利用生成對抗網(wǎng)絡(luò)(GANs)等技術(shù)手段進(jìn)行數(shù)據(jù)增強(qiáng)。
3. 推理系統(tǒng)持續(xù)優(yōu)化:
- 深入研究推理系統(tǒng)的優(yōu)化策略,包括更高效的稀疏注意力機(jī)制、更先進(jìn)的量化技術(shù)和更智能的推測采樣方法等。 同時,考慮將推理系統(tǒng)與硬件加速器(如GPU、TPU等)進(jìn)行更緊密的集成和優(yōu)化。
4. 跨模態(tài)學(xué)習(xí)與融合:
- 探索將MiniCPM4與其他模態(tài)(如圖像、音頻等)進(jìn)行融合學(xué)習(xí)的可能性,以開發(fā)更具通用性和適應(yīng)性的多模態(tài)LLMs。 這將有助于拓展MiniCPM4的應(yīng)用場景和范圍。
5. 實(shí)際應(yīng)用場景探索:
- 進(jìn)一步探索MiniCPM4在醫(yī)療、教育、智能客服等實(shí)際應(yīng)用場景中的潛力和價值。 通過與行業(yè)伙伴的合作和交流,推動MiniCPM4技術(shù)的落地和產(chǎn)業(yè)化應(yīng)用。
綜上所述,《2506.07900v1:MiniCPM4: Ultra-Efficient LLMs on End Devices》一文通過系統(tǒng)創(chuàng)新在模型架構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練算法和推理系統(tǒng)四個關(guān)鍵維度上,成功開發(fā)了一種專為終端設(shè)備設(shè)計的高效大型語言模型——MiniCPM4。
該模型在多個基準(zhǔn)測試中表現(xiàn)出色,顯著優(yōu)于類似規(guī)模的開源模型,并成功應(yīng)用于可信賴的調(diào)查生成和模型上下文協(xié)議的工具使用等多樣化場景中。未來研究將進(jìn)一步探索模型規(guī)模擴(kuò)展、數(shù)據(jù)增強(qiáng)與多樣化、推理系統(tǒng)持續(xù)優(yōu)化、跨模態(tài)學(xué)習(xí)與融合以及實(shí)際應(yīng)用場景探索等方向,以推動MiniCPM4技術(shù)的不斷發(fā)展和完善。