老的網(wǎng)站為什么要改版新網(wǎng)站東莞seo優(yōu)化排名
在評(píng)估大語(yǔ)言模型的性能時(shí),一種主流的途徑就是選擇不同的能力維度并且構(gòu)建對(duì)應(yīng)的評(píng)測(cè)任務(wù),進(jìn)而使用這些能力維度的評(píng)測(cè)任務(wù)對(duì)模型的性能進(jìn)行測(cè)試與對(duì)比。由大型機(jī)構(gòu)或者研究院所排出榜單。
評(píng)測(cè)指標(biāo)
不同評(píng)測(cè)任務(wù)有不同的評(píng)指標(biāo),衡量模型的能力,也需要使用不同的評(píng)測(cè)方法。常見(jiàn)評(píng)測(cè)指標(biāo)如下:
評(píng)測(cè)方法
根據(jù)評(píng)測(cè)方式及指標(biāo)的不同,就需要不同評(píng)測(cè)方法。例如在偏高和排序類(lèi)任務(wù)中,衡量的使用模型在候選者中的相對(duì)水平,模型之間做比較,那么就需要人類(lèi)參與,真人評(píng)估。因此針對(duì)上述能力維度的評(píng)估方法可以分為三種方式:
- 基于評(píng)測(cè)基準(zhǔn)評(píng)估
- 基于人類(lèi)評(píng)估
- 基于模型評(píng)估

這三種評(píng)測(cè)方法都有知名的評(píng)測(cè)榜單。
評(píng)測(cè)需要考核題目也就是數(shù)據(jù)集。有面向知識(shí)的評(píng)測(cè)數(shù)據(jù)集如MMLU、C-Eval側(cè)重于評(píng)估大語(yǔ)言模型對(duì)現(xiàn)實(shí)世界知識(shí)的理解和應(yīng)用;有面向推理的評(píng)測(cè)數(shù)據(jù)集如GSM8K、BBH和MATH考察模型在解決復(fù)雜推理問(wèn)題時(shí)的表現(xiàn)。此外,一些綜合評(píng)測(cè)體系如OpenCompass平臺(tái)嘗試將這兩類(lèi)評(píng)測(cè)任務(wù)相結(jié)合,更全面地評(píng)估大語(yǔ)言模型的綜合能力。數(shù)據(jù)集詳細(xì)介紹可查看大模型評(píng)測(cè)方法(三)_知識(shí)庫(kù)大模型測(cè)試集-CSDN博客
基于評(píng)測(cè)基準(zhǔn)評(píng)估
評(píng)估方式
在進(jìn)行基準(zhǔn)評(píng)估時(shí),首先將每個(gè)評(píng)測(cè)任務(wù)的具體樣本轉(zhuǎn)化為模型可以理解的提示語(yǔ),引導(dǎo)模型生成相應(yīng)的結(jié)果文本。然后,利用編寫(xiě)好的規(guī)則或自動(dòng)化腳本對(duì)生成的結(jié)果文本進(jìn)行解析和處理,以提 取出模型針對(duì)每個(gè)問(wèn)題的預(yù)測(cè)答案。最后,將預(yù)測(cè)答案與真實(shí)答案進(jìn)行對(duì)比,并借助準(zhǔn)確率等定量指標(biāo)來(lái)評(píng)估模型的性能。
評(píng)估榜單

基于人類(lèi)評(píng)估
評(píng)估方式
這類(lèi)評(píng)測(cè)任務(wù)通常采用開(kāi)放式指令或?qū)υ捫问?#xff0c;并邀請(qǐng)人類(lèi)評(píng)估員對(duì)模型 生成的回復(fù)進(jìn)行質(zhì)量評(píng)估。評(píng)估員的評(píng)分方法主要有兩種:成對(duì)比較法和單一評(píng)分法。
成對(duì)比較法
在成對(duì)比較法中,評(píng)估員從兩個(gè)不同模型生成的答案中選擇更優(yōu)的一個(gè)。Chatbot Arena項(xiàng)目搭建了一個(gè)眾包平臺(tái),允許用戶與兩個(gè)匿名的聊天大語(yǔ)言模型進(jìn)行對(duì)話,通過(guò)根據(jù)成對(duì)的比較結(jié)果來(lái)計(jì)算不同模型的Elo評(píng)分。
單一評(píng)分法
在單一評(píng)分法中,評(píng)估員則獨(dú)立地對(duì)每個(gè)模型的回復(fù)進(jìn)行打分,最后得到每個(gè)模型的平均得分。HELM綜合評(píng)測(cè)體系讓評(píng)估員對(duì)摘要和虛假信息任務(wù)進(jìn)行直接打分。
評(píng)估榜單


基于模型評(píng)估
評(píng)估方式
考慮到人工評(píng)測(cè)的成本高昂且耗時(shí)較長(zhǎng),一些研究工作使用強(qiáng)大的閉源大語(yǔ)言模型如ChatGPT來(lái)替代人類(lèi)評(píng)估員,對(duì)大模型的輸出進(jìn)行自動(dòng)評(píng)分或比較。
AlpacaEval排行榜基于由大語(yǔ)言模型合成的人類(lèi)需求指令作為評(píng)測(cè)任務(wù),然后收集待評(píng)估大模型的回應(yīng),并采用GPT-4等大語(yǔ)言模型作為評(píng)測(cè)員,將待評(píng)估大語(yǔ)言模型的輸出與參考輸出進(jìn) 行成對(duì)比較。此榜單更新較慢。
評(píng)估榜單

上述三種評(píng)測(cè)方式有對(duì)應(yīng)的榜單,實(shí)際評(píng)測(cè)過(guò)程中可能會(huì)將三種方法結(jié)合起來(lái)使用,以更快的達(dá)成評(píng)測(cè)目的,如FlagEval等平臺(tái)。