用html5做的個(gè)人網(wǎng)站網(wǎng)絡(luò)營(yíng)銷(xiāo)試卷及答案
1.數(shù)據(jù)并行DP(樸素?cái)?shù)據(jù)并行,Zero數(shù)據(jù)并行之后補(bǔ)充)
O ( h 2 ? l ) O(h^2*l) O(h2?l)
每臺(tái)機(jī)器做完自己的梯度后需要做一次All reduce操作來(lái)累積梯度,故一個(gè)batch計(jì)算發(fā)送的數(shù)據(jù)量為每層梯度大小 h 2 h^2 h2乘以層數(shù) l l l
優(yōu)點(diǎn):運(yùn)用簡(jiǎn)單,效率高,計(jì)算和通訊之間可以做異步。
缺點(diǎn):有時(shí)候單個(gè)GPU無(wú)法容納下整個(gè)大模型做訓(xùn)練。
流水線(xiàn)并行PP(Gpipe)
O ( b ? s ? h ? l / k ) O(b*s*h*l/k) O(b?s?h?l/k)
每個(gè)pp層之間發(fā)送中間變量大小(和輸入x相同大小)為 b ? s ? h b*s*h b?s?h,乘以正向和反向一共要傳遞的次數(shù) 2 ? ( l / k ? 1 ) 2*(l/k-1) 2?(l/k?1),得到上述大致的數(shù)量級(jí)
優(yōu)點(diǎn):通訊量小,數(shù)據(jù)無(wú)關(guān)。
缺點(diǎn):要保證模型能均勻切分,否則會(huì)影響性能。需要用到重計(jì)算,來(lái)支持更大的批量 b b b,從而保證流水能發(fā)揮作用。反傳之前需要等待所以微批量計(jì)算。
張量模型并行TMP
O ( b ? s ? h ? l ) O(b*s*h*l) O(b?s?h?l)
MLP層第一個(gè)W1縱向切,第二個(gè)W2橫向切能保證一個(gè)MLP只做一次All reduce操作通訊。同理attn根據(jù)頭數(shù)來(lái)切分投影層。兩者每次的發(fā)送數(shù)據(jù)大小和PP一樣都是 O ( b ? s ? h ) O(b*s*h) O(b?s?h),不同是,TMP發(fā)送量和模型Transformer層數(shù)成線(xiàn)性關(guān)系。