鼎湖網(wǎng)站建設(shè)啥都能看的瀏覽器
NVIDIA GPU 架構(gòu)
NVIDIA GPU 的 SM(Streaming Multiprocessor) 和 GPC(Graphics Processing Cluster) 是 GPU 架構(gòu)中的關(guān)鍵組成部分。它們決定了 GPU 的計(jì)算能力和性能,以下是對(duì)這兩個(gè)參數(shù)的詳細(xì)介紹:
1. GPC(Graphics Processing Cluster)—— 圖形處理集群
定義:
GPC 是 GPU 中更高層次的組織單元,負(fù)責(zé)管理多個(gè) SM 和其它子單元,協(xié)調(diào)圖形渲染、計(jì)算任務(wù)的調(diào)度與執(zhí)行。
性能意義:
- GPC 的數(shù)量直接影響 GPU 的渲染能力,更多的 GPC 允許顯卡在更復(fù)雜的場(chǎng)景下保持高性能。
- 在最新架構(gòu)中,GPC 的設(shè)計(jì)進(jìn)一步優(yōu)化以支持更高分辨率、更復(fù)雜的幾何和光追任務(wù)。
架構(gòu)示意圖
一個(gè)典型 NVIDIA GPU 的架構(gòu)層級(jí)可以表示為:
GPU├── GPC (Graphics Processing Cluster)│ ├── TPC (Texture/Processor Cluster)│ │ ├── SM (Streaming Multiprocessor)│ │ │ ├── CUDA 核心 (CUDA Cores)│ │ │ ├── 張量核心 (Tensor Cores)│ │ │ ├── RT 核心 (Ray Tracing Cores)│ │ │ └── 紋理單元 (Texture Units)│ │ └── PolyMorph Engine│ └── Raster Engine (光柵引擎)└── L2 Cache (共享緩存)
- TPC(Texture/Processor Cluster):每個(gè) GPC 包含多個(gè) TPC,每個(gè) TPC 包括兩個(gè) SM 單元。
- Raster Engine(光柵引擎):負(fù)責(zé)光柵化任務(wù),將 3D 場(chǎng)景轉(zhuǎn)換為像素。
- PolyMorph Engine:支持幾何處理、頂點(diǎn)著色、投影等任務(wù)。
- L2 Cache:為 GPC 提供數(shù)據(jù)緩存,提高數(shù)據(jù)訪問效率。
總體架構(gòu)關(guān)系
- GPC 是最頂層的計(jì)算集群,包含多個(gè) TPC。
- 每個(gè) TPC 包含多個(gè) SM,以及負(fù)責(zé)幾何運(yùn)算的 PolyMorph Engine。
- 每個(gè) SM 包含大量的 CUDA Core 和 Tensor Core,分別執(zhí)行標(biāo)量計(jì)算和矩陣運(yùn)算任務(wù)。
- CUDA Core 與 Tensor Core 是具體的計(jì)算執(zhí)行單元,協(xié)作完成復(fù)雜的并行計(jì)算任務(wù)。
通過 GPC 和 SM 的協(xié)同工作,NVIDIA 顯卡實(shí)現(xiàn)了強(qiáng)大的圖形處理和計(jì)算性能,能夠滿足游戲、渲染、AI 和科學(xué)計(jì)算的高需求任務(wù)。
2. TPC(Texture/Processor Cluster)—— 紋理/處理集群
TPC 是 NVIDIA GPU 架構(gòu)中的中間層模塊,位于 GPC 和 SM 之間。它起到整合和協(xié)同 SM 工作的作用,是 GPU 架構(gòu)中關(guān)鍵的組織單元。
定義:
TPC 是由 NVIDIA 定義的硬件集群?jiǎn)挝?#xff0c;包含多個(gè) SM(流多處理器) 和紋理處理單元。TPC 作為 GPC 的子單元,為 GPU 提供高效的計(jì)算和紋理處理能力。
架構(gòu)位置:
- 每個(gè) TPC 包含 2 個(gè) SM(部分架構(gòu)中可能不同,如早期架構(gòu)有單個(gè) SM)。
- 每個(gè) GPC(圖形處理集群)包含多個(gè) TPC。
- 每個(gè) GPU 包含多個(gè) GPC,因此整個(gè) GPU 架構(gòu)分為 GPU > GPC > TPC > SM。
組成:
一個(gè)典型的 TPC 包含以下子模塊:
-
SM(Streaming Multiprocessor)
- TPC 的主要計(jì)算單元,每個(gè) TPC 包含 2 個(gè) SM(在 Ampere 和 Ada Lovelace 架構(gòu)中)。
- SM 內(nèi)部包含 CUDA 核心、張量核心、RT 核心、紋理單元等。
-
紋理單元(Texture Units)
- 專門處理紋理采樣、紋理過濾等任務(wù)。
- 與 SM 協(xié)同工作,加速紋理數(shù)據(jù)的加載和計(jì)算。
-
PolyMorph Engine(多變形引擎)
- 負(fù)責(zé)幾何處理,包括頂點(diǎn)變換、投影和曲面細(xì)分。
- 每個(gè) TPC 中包含一套獨(dú)立的 PolyMorph 引擎。
-
緩存模塊
- 包括一級(jí)緩存(L1 Cache)和紋理緩存,為 SM 和紋理單元提供快速的數(shù)據(jù)訪問能力。
功能:
TPC 是連接 GPC 和 SM 的橋梁,主要功能包括:
-
并行計(jì)算能力擴(kuò)展:
- 每個(gè) TPC 通過包含多個(gè) SM,顯著提升 GPU 的并行計(jì)算性能。
-
紋理處理:
- 集成了紋理單元和紋理緩存,用于高效處理游戲和渲染中的紋理任務(wù),如采樣、過濾和貼圖。
-
幾何處理:
- PolyMorph 引擎負(fù)責(zé)幾何階段的計(jì)算,例如頂點(diǎn)著色和幾何曲面變換,支持復(fù)雜的 3D 場(chǎng)景。
-
模塊化擴(kuò)展:
- NVIDIA 的 TPC 設(shè)計(jì)使 GPU 架構(gòu)具備高度模塊化,方便擴(kuò)展性能和功能,適應(yīng)不同的市場(chǎng)需求(游戲、AI、科學(xué)計(jì)算)。
架構(gòu)變化
不同架構(gòu)中 TPC 的設(shè)計(jì)有所變化:
- Pascal 架構(gòu)(如 GTX 10 系列):每個(gè) TPC 包含 1 個(gè) SM。
- Turing 架構(gòu)(如 RTX 20 系列):每個(gè) TPC 包含 2 個(gè) SM,首次引入 RT 核心。
- Ampere 架構(gòu)(如 RTX 30 系列):每個(gè) TPC 包含 2 個(gè) SM,改進(jìn)了張量核心和 RT 核心。
- Ada Lovelace 架構(gòu)(如 RTX 40 系列):延續(xù)每 TPC 2 個(gè) SM 的設(shè)計(jì),進(jìn)一步優(yōu)化性能。
示例分析:RTX 4090 的 TPC 設(shè)計(jì)
-
RTX 4090 的架構(gòu)細(xì)節(jié):
- GPC 數(shù)量:12
- TPC 數(shù)量:72
- SM 數(shù)量:128(每 TPC 包含 2 個(gè) SM)
- CUDA 核心總數(shù):16,384(每 SM 包含 128 個(gè) CUDA 核心)
-
每個(gè) TPC 的具體配置:
- SM 數(shù)量:2
- PolyMorph 引擎:1
- 紋理單元:4(每個(gè) SM 包含 2 個(gè)紋理單元)
這種設(shè)計(jì)允許 RTX 4090 在高分辨率和復(fù)雜場(chǎng)景中表現(xiàn)出色。
TPC 的重要性
TPC 的模塊化設(shè)計(jì)在性能和效率上具有以下優(yōu)勢(shì):
- 性能擴(kuò)展:通過增加 TPC 的數(shù)量,GPU 可線性擴(kuò)展計(jì)算能力。
- 靈活性:TPC 內(nèi)部功能整合度高,可以適應(yīng)計(jì)算密集型任務(wù)和圖形渲染任務(wù)的需求。
- 效率提升:將 SM 和紋理單元緊密結(jié)合,減少了數(shù)據(jù)傳輸?shù)难舆t。
TPC 是 NVIDIA GPU 架構(gòu)中不可或缺的組成部分,它在 SM、紋理單元和幾何處理單元之間起到整合和調(diào)度的作用。通過 TPC 的模塊化設(shè)計(jì),GPU 能夠在性能和效率之間找到平衡,同時(shí)支持不同的應(yīng)用場(chǎng)景,如游戲、圖形渲染和深度學(xué)習(xí)。
3. SM(Streaming Multiprocessor)—— 流多處理器
定義:
SM 是 NVIDIA GPU 的核心計(jì)算單元,包含一組執(zhí)行通用計(jì)算和圖形任務(wù)的子模塊。每個(gè) SM 包含多個(gè) CUDA 核心、TMU(紋理映射單元)、張量核心和其他支持單元。
組成與功能:
- CUDA 核心:負(fù)責(zé)執(zhí)行通用計(jì)算任務(wù)(整數(shù)運(yùn)算和浮點(diǎn)運(yùn)算)。
- 張量核心:加速深度學(xué)習(xí)任務(wù)中的矩陣計(jì)算。
- RT 核心:用于處理光線追蹤計(jì)算(部分架構(gòu)中)。
- 共享內(nèi)存(Shared Memory):提供快速的中間數(shù)據(jù)存儲(chǔ)。
- 寄存器文件:為線程分配寄存器資源。
- 紋理和緩存單元:加速紋理采樣和數(shù)據(jù)讀取。
性能意義:
- SM 的數(shù)量決定了 GPU 的并行計(jì)算能力,更多的 SM 意味著可以處理更多的線程。
- 現(xiàn)代 NVIDIA GPU 使用分級(jí)架構(gòu),例如 Ampere、Ada Lovelace,每一代的 SM 內(nèi)部結(jié)構(gòu)都有優(yōu)化,例如更高效的緩存、更強(qiáng)的計(jì)算單元。
示例:
- NVIDIA RTX 4090 擁有 128 個(gè) SM,每個(gè) SM 包含 128 個(gè) CUDA 核心,總計(jì) 16,384 個(gè) CUDA 核心。
碼字不易,若覺得本文對(duì)你有用,歡迎點(diǎn)贊 👍、分享 🚀 ,相關(guān)技術(shù)熱點(diǎn)時(shí)時(shí)看🔥🔥🔥???…