網(wǎng)站開發(fā)廣告推廣網(wǎng)站有哪些
LMDeploy 大模型量化部署實踐
- 大模型部署背景
- 模型部署
- 定義
- 產(chǎn)品形態(tài)
- 計算設(shè)備
- 大模型特點
- 大模型挑戰(zhàn)
- 大模型部署方案
- LMDeploy簡介
- 推理性能
- 核心功能-量化
- 核心功能-推理引擎TurboMind
- 核心功能 推理服務(wù) api-server
- 案例(安裝、部署、量化)
大模型部署背景
模型部署
定義
- 將訓(xùn)練好的模型在特定軟硬件環(huán)境中啟動的過程,使模型能夠接受輸入并返回預(yù)測結(jié)果
- 為了滿足性能和效率的要求,嘗嘗需要對模型進行優(yōu)化,例如模型壓縮和硬件加速
產(chǎn)品形態(tài)
云端、邊緣計算端、移動端
計算設(shè)備
CPU、GPU、NPU、TPU等
大模型特點
- 內(nèi)存消耗巨大 龐大的參數(shù)量 7B模型僅權(quán)重就需要14+G內(nèi)存
- 采用自回歸生成token 需要緩存Attention的k/v帶來巨大的內(nèi)存開銷
- 動態(tài)shape 請求數(shù)不固定 token逐個生成,且數(shù)量不定
- 相對視覺模型 LLM結(jié)構(gòu)簡單
大模型挑戰(zhàn)
- 設(shè)備 如何應(yīng)對巨大的存儲問題 ? 底存儲設(shè)備如何部署?
- 推理 如何加速token的生成速度 如何解決動態(tài)shape 讓推理可以不間斷 如何有效管理和利用內(nèi)存
- 服務(wù) 如何提升系統(tǒng)整體吞吐量。對于個體用戶 如何降低相應(yīng)時間
大模型部署方案
- 技術(shù)點
- 方案
LMDeploy簡介
LMDeploy 是LLM在英偉達設(shè)備上部署的全流程解決方案。包括模型輕量化、推理和服務(wù)。
項目地址:https://github.com/InternLM/lmdeploy
推理性能
- 靜態(tài)推理性能 固定batch
- 動態(tài)推理性能 真是對話
核心功能-量化
為什么做weight only的量化?
- 計算密集:推理的絕大部分時間消耗在數(shù)值計算上,針對計算密集場景,可以通過使用更快的硬件計算單元來提升計算速度,比如量化為W8A8使用Int8 Tensor Core來加速計算
- 訪問密集:推理時,絕大部分時間消耗在數(shù)據(jù)讀取上,針對訪問密集場景,一般是通過提高計算訪存比來提升性能。
核心功能-推理引擎TurboMind
核心功能 推理服務(wù) api-server
案例(安裝、部署、量化)
參考教程:
https://github.com/InternLM/tutorial/blob/main/lmdeploy/lmdeploy.md