什么做網(wǎng)站推廣百度售后服務(wù)電話
歡迎關(guān)注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/145356022
免責(zé)聲明:本文來源于個(gè)人知識(shí)與公開資料,僅用于學(xué)術(shù)交流,歡迎討論,不支持轉(zhuǎn)載。
Scaling Laws (縮放法則) 是大模型領(lǐng)域中,用于描述 模型性能(Loss) 與 模型規(guī)模N、數(shù)據(jù)量D、計(jì)算資源C 之間關(guān)系的經(jīng)驗(yàn)規(guī)律,揭示在大模型中,隨著模型參數(shù)數(shù)量、數(shù)據(jù)集大小和計(jì)算資源的增加,模型性能的變化模式,指導(dǎo)更高效地分配資源,優(yōu)化模型訓(xùn)練過程,實(shí)現(xiàn)更好的性能。這些規(guī)律不僅有助于預(yù)測(cè)不同規(guī)模模型的表現(xiàn),還能為模型設(shè)計(jì)和訓(xùn)練提供理論依據(jù),是推動(dòng)大模型發(fā)展和應(yīng)用的重要理論基礎(chǔ)。
使用 ScalingLaws 指導(dǎo) 100B 大模型的預(yù)訓(xùn)練方案,包括服務(wù)器資源、3D并行策略、Transformer架構(gòu)、DeepNorm、混合精度策略、EGS策略、AdamW、WarmUp、GradientClipping、樣本、位置編