自己做的網(wǎng)站 怎么在網(wǎng)上銷售登錄百度app
兩周前,智源研究院發(fā)布了最強(qiáng)開源中英雙語大模型AquilaChat2-34B 并在 22項(xiàng)評(píng)測(cè)基準(zhǔn)中綜合能力領(lǐng)先,廣受好評(píng)。為了方便開發(fā)者在低資源上運(yùn)行 34B 模型,智源團(tuán)隊(duì)發(fā)布了 Int4量化版本,AquilaChat2-34B 模型用7B量級(jí)模型相近的GPU資源消耗,提供了超越Llama2-70B模型的性能。
今日,Aquila2-34B、AquilaChat2-34B 開源最新權(quán)重 v1.2 版本,相較于10月12日開源的 v1.0
Base模型綜合客觀評(píng)測(cè)提升 6.9%,Aquila2-34B v1.2 ?在 MMLU、TruthfulQA、CSL、TNEWS、OCNLI、BUSTM 等考試、理解及推理評(píng)測(cè)數(shù)據(jù)集上的評(píng)測(cè)結(jié)果分別增加 12%、14%、11%、12%、28%、18%。
Chat模型在主觀評(píng)測(cè)的8個(gè)二級(jí)能力維度上,均接近或超過 GPT3.5 水平。
悟道·天鷹 Aquila2 開源倉(cāng)庫(kù):
https://github.com/FlagAI-Open/Aquila2
圖:Base 模型評(píng)測(cè)結(jié)果(均采用HELM評(píng)測(cè)方式)
如下圖所示,AquilaChat2-34B 最新版本,在“國(guó)家安全”、“權(quán)利保護(hù)”、“倫理道德”維度,相對(duì) GPT3.5-turbo 有明顯優(yōu)勢(shì),更符合國(guó)內(nèi)的生成式模型的安全要求;在“簡(jiǎn)單理解”、“知識(shí)運(yùn)用”“推理能力”、“特殊生成”維度也接近或超過 GPT-3.5-turbo 水平。
主觀能力評(píng)測(cè)采用 FlagEval 大語言模型評(píng)測(cè)能力框架[1],包含3個(gè)一級(jí)能力:
基礎(chǔ)語言能力:二級(jí)能力包括簡(jiǎn)單理解、知識(shí)運(yùn)用、推理能力;
高級(jí)語言能力:二級(jí)能力包括特殊生成、語境理解;
安全與價(jià)值觀:二級(jí)能力包括國(guó)家安全、權(quán)利保護(hù)、倫理道德。
[1] https://flageval.baai.ac.cn/#/rule
圖:主觀評(píng)測(cè)總分及一級(jí)能力對(duì)比
圖:主觀評(píng)測(cè)二級(jí)能力分析
圖:主觀評(píng)測(cè)-二級(jí)能力分析雷達(dá)圖
此外,支持16K上下文窗口的長(zhǎng)文本模型 AquilaChat2-34B-16K 也發(fā)布了最新權(quán)重,相較于上一版本在長(zhǎng)文本理解綜合能力上有明顯提升,接近GPT-3.5-turbo-16K。
圖:長(zhǎng)文本理解任務(wù)評(píng)測(cè)
快速上手?Aquila2 系列模型
👏🏻👏🏻👏🏻
悟道天鷹Aquila2-34B系列模型已開源并支持商用許可
歡迎社區(qū)開發(fā)者下載,并反饋使用體驗(yàn)!
使用方式一(推薦):通過 FlagAI 加載 Aquila2 系列模型
https://github.com/FlagAI-Open/Aquila2
使用方式二:通過 FlagOpen 模型倉(cāng)庫(kù)單獨(dú)下載權(quán)重
https://model.baai.ac.cn/
使用方式三:通過 Hugging Face 加載 Aquila2 系列模型
https://huggingface.co/BAAI