国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當前位置: 首頁 > news >正文

個人可以做幾個網(wǎng)站嗎百度快照是什么意思?

個人可以做幾個網(wǎng)站嗎,百度快照是什么意思?,wordpress dosortcode,直播視頻怎么下載模型參數(shù)融合通常指的是在訓練過程中或訓練完成后將不同模型的參數(shù)以某種方式結(jié)合起來,以期望得到更好的性能。這種融合可以在不同的層面上進行,例如在神經(jīng)網(wǎng)絡(luò)的不同層之間,或者是在完全不同的模型之間。模型參數(shù)融合的目的是結(jié)合不同模型的…

模型參數(shù)融合通常指的是在訓練過程中或訓練完成后將不同模型的參數(shù)以某種方式結(jié)合起來,以期望得到更好的性能。這種融合可以在不同的層面上進行,例如在神經(jīng)網(wǎng)絡(luò)的不同層之間,或者是在完全不同的模型之間。模型參數(shù)融合的目的是結(jié)合不同模型的優(yōu)點,減少過擬合的風險,并提高模型的泛化能力。在實際應用中,這通常需要大量的實驗來找到最佳的融合策略。

本篇文章只介紹訓練完成后的不同模型的參數(shù)融合,不涉及訓練過程的模型參數(shù)融合。

可行性分析

2023 年年初的時候,chatglm 剛推出 glm-130B 模型那會兒,一個令人印象深刻的論述是大模型的參數(shù)空間非常稀疏,對于大部分權(quán)重可以用 int4 進行量化來減少顯存的開銷,從而能夠在多張消費級顯卡上進行部署。當時公司的資源有限,用 3 張 RTX3090 以 int4 方式部署,推理的效果雖然相較 chatgpt 甚遠,但比起 T5 也好得多,經(jīng)過業(yè)務(wù)數(shù)據(jù)微調(diào)后即可投入到實際的生產(chǎn)業(yè)務(wù)。

去年 5 月份,LIMA(LIMA:Less Is More for Alignment) 提出了“淺層表征假說”:一個模型的知識和能力幾乎完全是在預訓練中學習的,而對齊則是教它在與用戶交互時應該使用哪種格式的子分布。提高輸入多樣性和輸出質(zhì)量會產(chǎn)生可衡量的積極影響,而僅提高數(shù)量則可能不會(實際上也要訓練特定領(lǐng)域的 LLM,或者在 SFT 階段注入知識,仍然需要大規(guī)模的數(shù)據(jù),模型是可以在 SFT 階段學到知識,不過這可能不叫做對齊,這就有點玩文字游戲的嫌疑了)。

此外,去年還看到一篇博客 Can LLMs learn from a single example?,它針對 SFT 多 epoch 訓練時,loss 曲線呈現(xiàn)階梯狀做了假設(shè)與驗證,提出“記憶假說可能是真的”,現(xiàn)代 LLM 的學習速度非???#xff01;當模型的訓練速度非常慢時,我們可以使用各種各樣的數(shù)據(jù)對它們進行長時間的訓練,并進行多個 epoch 訓練,而且我們可以預期,我們的模型將逐漸從我們給它的數(shù)據(jù)中提取出可概括的信息。但是,當模型的學習速度如此之快時,災難性遺忘問題可能會突然變得明顯得多。例如,如果一個模型看到了十個非常常見關(guān)系的示例,然后又看到了一個不太常見的反例,那么它很可能會記住這個反例,而不僅僅是稍微降低它對原來十個示例的記憶權(quán)重。從這個角度來說,LLM 的 SFT 非常容易過擬合,模型只是記住了答案,或者數(shù)據(jù)的難度不足以讓模型有新的收獲(因此,現(xiàn)在流行各種課程學習,以及數(shù)據(jù)子集挑選方法中會選擇 loss 高的樣本)。博客中的一句原文“預訓練的大語言模型在接近最小損失的區(qū)域具有極其平滑的損失面,而開源社區(qū)所做的大量微調(diào)工作都是在這一區(qū)域”。

綜上所述,將這三方面的觀點結(jié)合:不同任務(wù)的微調(diào)或許僅僅只是修改了龐大參數(shù)空間的一隅,但這些任務(wù)數(shù)據(jù)之間高度的獨立同分布,它們各自在各自的參數(shù)空間內(nèi)“各司其職、互不干擾”,就像九頭蛇一樣,共享同一個身體,通過不同任務(wù)的微調(diào),使其長出一個新的頭(淺層表征趨向于特定領(lǐng)域)。

模型參數(shù)融合的優(yōu)缺點

  1. 無需訓練,只需要將現(xiàn)有的基于相同基底的模型進行融合即可,例如把基于 mistral-7b 微調(diào)的 mistral-7b-math 和 mistral-7b-instruct-v0.1 進行融合,結(jié)合指令遵循能力和數(shù)學能力。
  2. 針對單獨一個領(lǐng)域訓練“偏科”的模型要比訓練通用模型要容易得多,不需要考慮數(shù)據(jù)集內(nèi)部各類型數(shù)據(jù)的配比情況,也不需要考慮數(shù)據(jù)順序和采樣,訓練的過程也容易得多,甚至過擬合也未嘗不可。
  3. “查漏補缺”,哪里不行補哪里。

模型參數(shù)融合的缺點是不一定有用(滑稽.jpg)。

DARE

阿里提出了一種名為 DARE 的方法,用來將具備不同能力的多個模型融合成擁有全部能力的單個模型。

  • 論文地址:https://arxiv.org/abs/2311.03099
  • GitHub 倉庫:https://github.com/yule-BUAA/MergeLM/tree/main
  • 相關(guān)文章:https://zhuanlan.zhihu.com/p/668152236

作者發(fā)現(xiàn)基于編碼器或解碼器的語言模型可以通過吸收同源模型的參數(shù)來獲得新的能力,而無需重新訓練。通常,LMs 的新能力可以通過 SFT 實現(xiàn),這反映在微調(diào)后模型參數(shù)與預訓練參數(shù)(即 delta 參數(shù))之間的差距上。作者提出 DARE(Drop And REscale)方法,將大部分的 delta 參數(shù)設(shè)置為 0,這并不會影響 SFT LM 的能力,并且越大的模型的可以 drop 更多的參數(shù)。基于這一觀察結(jié)果,使用 DARE 進一步稀疏多個 SFT 同源模型的 delta 參數(shù),然后通過參數(shù)平均將它們合并為一個模型。

mergekit

現(xiàn)在用的比較多的是 mergekit 這個工具。mergekit 是一個用于合并預訓練語言模型的工具包,支持多種合并算法。

  • GitHub 倉庫:https://github.com/cg123/mergekit

它還能將多個模型融合成 MoE,例如 https://huggingface.co/mlabonne/Beyonder-4x7B-v2。這種 MoE 通常被稱為 Franken MoE,即選擇幾個在特定任務(wù)上表現(xiàn)優(yōu)異的微調(diào)模型,將它們組合成一個 MoE 模型。通過一定的訓練,可以讓路由器學會將不同類型的 token 發(fā)送給對應的專家。

在這里插入圖片描述

  • 配置文件示例:
    base_model: mlabonne/Marcoro14-7B-slerp
    experts:- source_model: openchat/openchat-3.5-1210positive_prompts:- "chat"- "assistant"- "tell me"- "explain"- source_model: beowolx/CodeNinja-1.0-OpenChat-7Bpositive_prompts:- "code"- "python"- "javascript"- "programming"- "algorithm"- source_model: maywell/PiVoT-0.1-Starling-LM-RPpositive_prompts:- "storywriting"- "write"- "scene"- "story"- "character"- source_model: WizardLM/WizardMath-7B-V1.1positive_prompts:- "reason"- "math"- "mathematics"- "solve"- "count"
    

融合效果

融合的效果(使用阿里提出的 DARE 方法)見下圖,去年 11 月份的時候嘗試調(diào)研一些“奇技”,看看能否提升閑聊模型的能力,由于受到災難性遺忘的困擾,于是考慮嘗試用模型參數(shù)融合的方式,可以看到融合后的 mistral-7b-dare-merge-v1 盡可能綜合 mistral-7b-instruct-v0.1 和 mistral-7b-math 的長處。
在這里插入圖片描述
后續(xù)嘗試將自研模型與一些專長的開源模型進行融合,最后是超越了 GPT-3.5-Turbo-0314,評測是用 fastchat 的代碼,工具是自己搭建的一套可視化網(wǎng)頁版。由于涉及到公司的一些機密,加上現(xiàn)在離職了(悲),故而無法放出具體的截圖,但模型參數(shù)融合的確會有效果,值得嘗試。

最近有一篇名為《How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study》的論文:研究人員使用現(xiàn)有的 10 種訓練后量化和 LoRA 微調(diào)方法,評估了 Llama3 在 1-8 bit 和各種評估數(shù)據(jù)集上的結(jié)果。他們發(fā)現(xiàn):Llama3 在低比特量化下遭受了不可忽視的退化,特別是在超低位寬上。

有一個評論非常有意思:

果然沒有免費午餐,llama3-8b 模型用了 15t tokens,模型訓練充分,冗余權(quán)重應該少很多,再執(zhí)行量化難度大點。模型越大越容易量化,最樸素道理就是冗余權(quán)重過多。gptq 本質(zhì)就是把其他權(quán)重量化損失補償?shù)搅硗鉀]量化權(quán)重上,相當于一次“平權(quán)”。雖然深度學習復雜度是人類無法理解的,但是依舊要服從信息熵規(guī)律。

推測:模型訓練得越充分,同模型量化一樣,模型參數(shù)融合起到的作用也越低,甚至可能效果反而下降。
在這里插入圖片描述
先前做過的一次實驗也有同樣的結(jié)論,如上圖所示。當然,具體是否如此還需要更加細致的驗證。由于現(xiàn)在手上沒卡,也難以得出確切的結(jié)論,如果有讀者感興趣的話,可以在評論里說明一二,不勝感激!

http://m.aloenet.com.cn/news/38135.html

相關(guān)文章:

  • 網(wǎng)站開發(fā)與網(wǎng)站建設(shè)精準獲客
  • 網(wǎng)站 建設(shè)網(wǎng)站市場調(diào)研分析
  • 廈門做網(wǎng)站個人蘇州做網(wǎng)站的專業(yè)公司
  • 網(wǎng)站建設(shè)需要什么資料智能營銷方法
  • 松江新城投資建設(shè)集團有限公司網(wǎng)站網(wǎng)絡(luò)營銷第三版課本
  • 龍崗做網(wǎng)站的公司源碼之家
  • 網(wǎng)站建設(shè)到運營需要多少錢怎樣在百度上做廣告
  • 做品牌網(wǎng)站公司淄博網(wǎng)站營銷與推廣
  • 臺州專業(yè)網(wǎng)站設(shè)計系統(tǒng)網(wǎng)絡(luò)推廣有哪幾種方法
  • 做網(wǎng)站品牌怎么注冊自己公司的網(wǎng)址
  • 舟山市城鄉(xiāng)建設(shè)委員會網(wǎng)站seo搜索引擎優(yōu)化是通過優(yōu)化答案
  • 什么網(wǎng)站可以做自考試題seo教育
  • 品牌網(wǎng)站建設(shè)多少錢品牌推廣策略分析
  • 網(wǎng)站怎樣才有流量seo是指搜索引擎營銷
  • 深圳設(shè)計裝修公司哪家好百度關(guān)鍵詞優(yōu)化培訓
  • 合肥最好的網(wǎng)站建設(shè)公司化妝培訓
  • 上海松江做網(wǎng)站多少錢怎么做百度推廣平臺
  • 網(wǎng)站開發(fā)流程百度文庫北京關(guān)鍵詞優(yōu)化報價
  • 天津網(wǎng)站建設(shè)價格培訓課程安排
  • 小縣城做網(wǎng)站百度推廣平臺收費標準
  • 外貿(mào)cms 網(wǎng)站app推廣聯(lián)盟平臺
  • 廣州手機軟件開發(fā)制作初學seo網(wǎng)站推廣需要怎么做
  • 企業(yè)專屬網(wǎng)頁免費刷seo
  • 國內(nèi)h5 css3網(wǎng)站廣州seo排名收費
  • 鹽城做網(wǎng)站哪家好廣州網(wǎng)站建設(shè)方案維護
  • 怎么做卡蜜網(wǎng)站網(wǎng)站推廣計劃方法
  • 通遼網(wǎng)站建設(shè)tlyltdwindows優(yōu)化大師win10
  • 網(wǎng)站怎么做排名長沙網(wǎng)絡(luò)營銷推廣公司
  • 紹興網(wǎng)站建設(shè)設(shè)計完整html網(wǎng)頁代碼案例
  • 醫(yī)院網(wǎng)站建設(shè)預算注冊公司