當前位置：首頁 > news >正文

網(wǎng)站開發(fā)廣告推廣網(wǎng)站有哪些

news 2025/7/5 13:20:21

網(wǎng)站開發(fā)廣告,推廣網(wǎng)站有哪些,有哪些做場景秀的網(wǎng)站,中企動力網(wǎng)站培訓(xùn)LMDeploy 大模型量化部署實踐大模型部署背景模型部署定義產(chǎn)品形態(tài)計算設(shè)備大模型特點大模型挑戰(zhàn)大模型部署方案 LMDeploy簡介推理性能核心功能-量化核心功能-推理引擎TurboMind核心功能推理服務(wù) api-server 案例(安裝、部署、量化) 大模型部署背景模型部署定義將訓(xùn)練好…

LMDeploy 大模型量化部署實踐

大模型部署背景
- 模型部署
- - 定義
  - 產(chǎn)品形態(tài)
  - 計算設(shè)備
- 大模型特點
- 大模型挑戰(zhàn)
- 大模型部署方案
LMDeploy簡介
- 推理性能
- 核心功能-量化
- 核心功能-推理引擎TurboMind
- 核心功能推理服務(wù) api-server
案例(安裝、部署、量化)

大模型部署背景

模型部署

定義

將訓(xùn)練好的模型在特定軟硬件環(huán)境中啟動的過程，使模型能夠接受輸入并返回預(yù)測結(jié)果
為了滿足性能和效率的要求，嘗嘗需要對模型進行優(yōu)化，例如模型壓縮和硬件加速

產(chǎn)品形態(tài)

云端、邊緣計算端、移動端

計算設(shè)備

CPU、GPU、NPU、TPU等

大模型特點

內(nèi)存消耗巨大龐大的參數(shù)量 7B模型僅權(quán)重就需要14+G內(nèi)存
采用自回歸生成token 需要緩存Attention的k/v帶來巨大的內(nèi)存開銷
動態(tài)shape 請求數(shù)不固定 token逐個生成，且數(shù)量不定
相對視覺模型 LLM結(jié)構(gòu)簡單

大模型挑戰(zhàn)

設(shè)備如何應(yīng)對巨大的存儲問題？底存儲設(shè)備如何部署？
推理如何加速token的生成速度如何解決動態(tài)shape 讓推理可以不間斷如何有效管理和利用內(nèi)存
服務(wù) 如何提升系統(tǒng)整體吞吐量。對于個體用戶如何降低相應(yīng)時間

大模型部署方案

技術(shù)點
方案

LMDeploy簡介

LMDeploy 是LLM在英偉達設(shè)備上部署的全流程解決方案。包括模型輕量化、推理和服務(wù)。
項目地址：https://github.com/InternLM/lmdeploy
在這里插入圖片描述

推理性能

靜態(tài)推理性能固定batch
動態(tài)推理性能真是對話

核心功能-量化

在這里插入圖片描述
為什么做weight only的量化？

計算密集：推理的絕大部分時間消耗在數(shù)值計算上，針對計算密集場景，可以通過使用更快的硬件計算單元來提升計算速度，比如量化為W8A8使用Int8 Tensor Core來加速計算
訪問密集：推理時，絕大部分時間消耗在數(shù)據(jù)讀取上，針對訪問密集場景，一般是通過提高計算訪存比來提升性能。