網(wǎng)站開(kāi)發(fā)論文文獻(xiàn)書(shū)籍友情鏈接的獲取途徑有哪些
作者:子白(顧靜)
2023 年堪稱是 AIGC 元年,文生圖領(lǐng)域誕生了 Stable Diffusion 項(xiàng)目,文生文領(lǐng)域誕生了 GPT 家族。一時(shí)間風(fēng)起云涌,國(guó)內(nèi)外許多企業(yè)投身 AIGC 創(chuàng)新浪潮,各大云廠商緊隨其后紛紛推出自己的大語(yǔ)言模型。在文生圖領(lǐng)域落地的企業(yè)更多,國(guó)外的如 Midjourney,國(guó)內(nèi)的如 AIGC 軟件公司萬(wàn)興科技等。
萬(wàn)興科技今年推出了系列創(chuàng)新 AIGC 應(yīng)用,相關(guān)產(chǎn)品發(fā)布后吸引了大量終端用戶“嘗鮮”,急需大量資源滿足日益增長(zhǎng)的用戶需求。萬(wàn)興科技將業(yè)務(wù)進(jìn)一步部署到云上,利用云的彈性能力平衡資源和成本。同時(shí),萬(wàn)興科技借力阿里云容器服務(wù) ACK 和鏡像服務(wù)企業(yè)版 ACR EE,進(jìn)一步提升用戶體驗(yàn)。 Kubernetes 是企業(yè)云上管理資源的最佳選擇,具有很強(qiáng)的應(yīng)用編排能力,可靠性及彈性。
AIGC 類應(yīng)用容器化挑戰(zhàn)
AIGC 類應(yīng)用相比于傳統(tǒng)的在線應(yīng)用有比較明顯的特征,鏡像大、冷啟動(dòng)時(shí)間長(zhǎng)。
-
鏡像大
AIGC 應(yīng)用大多采用 nvidia/cuda 作為基礎(chǔ)鏡像,并安裝 Tensorflow、Pytorch、Transformer 等框架,應(yīng)用鏡像往往有十幾 GB。鏡像拉取是容器啟動(dòng)必不可少的一環(huán),主要包括下載、解壓等步驟,會(huì)帶來(lái)網(wǎng)絡(luò)帶寬開(kāi)銷和磁盤(pán)的二次寫(xiě)入。隨著鏡像大小和節(jié)點(diǎn)規(guī)模的增加,存儲(chǔ)網(wǎng)絡(luò)下載帶寬逐漸成為性能瓶頸,緩慢的鏡像拉取速度會(huì)嚴(yán)重影響容器部署效率和成功率。
-
冷啟動(dòng)時(shí)間長(zhǎng)
應(yīng)用冷啟動(dòng)時(shí)間由兩個(gè)部分組成,Pod 啟動(dòng)時(shí)間及 Pod 啟動(dòng)后應(yīng)用初始化時(shí)間。AIGC 類應(yīng)用這兩個(gè)時(shí)間都很長(zhǎng)。鏡像大導(dǎo)致 Pod 的鏡像拉取時(shí)間長(zhǎng)。應(yīng)用啟動(dòng)后首先需要將模型加載到內(nèi)存中然后才可以對(duì)外提供服務(wù)。以 stable diffusion 的 v1-5-pruned.safetensors 模型為例,模型有 7.7GB,從云盤(pán)加載到內(nèi)存中大概需要 25s。AIGC 應(yīng)用的冷啟動(dòng)時(shí)間從幾十秒到幾十分鐘不等,如采用 HPA 擴(kuò)容策略會(huì)存在明顯的滯后性,導(dǎo)致業(yè)務(wù)受損。
為解決上述問(wèn)題,阿里云推出了容器鏡像服務(wù)(ACR)加速方案及容器服務(wù) Kubernetes 版(ACK)智能彈性 AHPA 方案。
阿里云容器服務(wù)助力萬(wàn)興科技 AIGC 應(yīng)用加速
ACR?企業(yè)版為 AIGC 應(yīng)用鏡像加速
鏡像加速方案分兩部分:
鏡像緩存
運(yùn)行 Pod 前首先需要拉取鏡像,鏡像拉取耗時(shí)已經(jīng)成為容器啟動(dòng)的主要耗時(shí)。ACK Serverless 集群里,首次拉取的鏡像會(huì)自動(dòng)制作鏡像緩存,第二次創(chuàng)建 Pod 時(shí)會(huì)基于該快照來(lái)創(chuàng)建,避免或者減少鏡像層的下載,從而提升 Pod 的創(chuàng)建速度。鏡像緩存是根據(jù)鏡像地址嚴(yán)格匹配的,當(dāng)鏡像有更新時(shí)需要更新鏡像緩存。
詳情請(qǐng)參考文檔鏡像緩存概述 [ 1] 。
P2P 鏡像加速
當(dāng)大規(guī)模容器集群批量下載鏡像時(shí),容器鏡像存儲(chǔ)的網(wǎng)絡(luò)帶寬會(huì)成為性能瓶頸,導(dǎo)致鏡像拉取緩慢。P2P 加速功能利用您計(jì)算節(jié)點(diǎn)的帶寬資源,進(jìn)行節(jié)點(diǎn)之間鏡像分發(fā),減少對(duì)容器鏡像存儲(chǔ)的壓力,可以大幅提升鏡像拉取速度,減少應(yīng)用部署時(shí)間。
詳情請(qǐng)參考文檔使用 P2P 加速概述 [ 2] 。
萬(wàn)興科技采用的方案將這兩個(gè)能力結(jié)合在一起,將不常變化的基礎(chǔ)鏡像做鏡像緩存,經(jīng)常更新的鏡像層采用 P2P 加速拉取,效果非常明顯:一般 20G 的鏡像拉取速度從 20min 左右加速到 30s 以內(nèi), 而且同時(shí)擴(kuò)容的 Pod 數(shù)量越多,加速效果越明顯。
ACK AHPA?輕松解決彈性滯后問(wèn)題
在云原生場(chǎng)景下,資源容量通常難以預(yù)估,而使用 K8s 原生的 HPA 需要面對(duì)彈性滯后以及配置復(fù)雜問(wèn)題。阿里云容器服務(wù)與達(dá)摩院決策智能時(shí)序團(tuán)隊(duì)合作推出了 AHPA 彈性預(yù)測(cè),可以根據(jù)業(yè)務(wù)歷史指標(biāo),自動(dòng)識(shí)別彈性周期并對(duì)容量進(jìn)行預(yù)測(cè),提前進(jìn)行彈性規(guī)劃,解決彈性滯后的問(wèn)題。
AHPA 會(huì)根據(jù)歷史 Pod 的 Ready Time 以及歷史 Metrics 自動(dòng)學(xué)習(xí)規(guī)律,在業(yè)務(wù)量上漲之前的一個(gè) Ready Time 開(kāi)始擴(kuò)容。當(dāng)業(yè)務(wù)量上漲時(shí) Pod 已提前準(zhǔn)備,可以及時(shí)供給資源。
詳細(xì)介紹可參考文檔 AHPA 概述 [ 3] 。
萬(wàn)興科技在使用 AHPA 后,在成本基本沒(méi)有變化的情況下, 極大地縮短了用戶端的等待時(shí)間, 可以從下圖看出,接入 AHPA 后基本上沒(méi)有任務(wù)堆積了。
綜上,AIGC 類應(yīng)用與傳統(tǒng)應(yīng)用相比,具有鏡像大、冷啟動(dòng)時(shí)間長(zhǎng)等明顯特征。阿里云容器服務(wù)推出的鏡像緩存、P2P 鏡像加速及 ACK AHPA 彈性預(yù)測(cè)能力可以有效解決這些問(wèn)題。
鏡像緩存可以基于快照創(chuàng)建 Pod,避免或減少鏡像層的拉取;P2P 鏡像加速技術(shù)利用計(jì)算節(jié)點(diǎn)的內(nèi)網(wǎng)帶寬資源,在節(jié)點(diǎn)之間分發(fā)鏡像,避免從數(shù)據(jù)源拉取,加速應(yīng)用部署;AHPA 基于 RobustScaler 算法根據(jù)歷史 Pod Ready 時(shí)間訓(xùn)練模型,提前擴(kuò)容,減少冷啟動(dòng)時(shí)間。
相關(guān)鏈接:
[1]?鏡像緩存概述
https://help.aliyun.com/zh/eci/user-guide/overview-of-image-caches-1/
[2]?使用 P2P 加速概述
https://help.aliyun.com/zh/acr/user-guide/use-p2p-acceleration-1?spm=a2c4g.750001.0.i1
[3]?AHPA 概述****
https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/ahpa-overview-1?spm=a2c4g.750001.0.i1