網(wǎng)站目錄鏈接怎么做天津百度推廣電話
正文
本文主要談一下關(guān)于 Transformer的并行化。文章比較短,適合大家碎片化閱讀。
Decoder不用多說,沒有并行,只能一個一個的解碼,很類似于RNN,這個時(shí)刻的輸入依賴于上一個時(shí)刻的輸出。
對于Encoder側(cè):
首先,6個大的模塊之間是串行的,一個模塊計(jì)算的結(jié)果做為下一個模塊的輸入,互相之前有依賴關(guān)系。
從每個模塊的角度來說,注意力層和前饋神經(jīng)層這兩個子模塊單獨(dú)來看都是可以并行的,不同單詞之間是沒有依賴關(guān)系的。
當(dāng)然對于注意力層在做attention的時(shí)候會依賴別的時(shí)刻的輸入,不過這個只需要在計(jì)算之前就可以提供。
然后注意力層和前饋神經(jīng)層之間是串行,必須先完成注意力層計(jì)算再做前饋神經(jīng)層。
有點(diǎn)繞,不知道有沒有講清楚。
簡單講,就是6個encoder之間是串行,每個encoder中的兩個子模塊之間是串行,子模塊自身是可以并行的。
系列總結(jié)
整個Transformer這一塊基本就是講完了,基本上可以解決之前那個關(guān)于transformer面試題百分之八十的題目。
至于剩下的題目會放在之后別的模塊去講,比如 wordpiece model 會在總結(jié)機(jī)器翻譯知識點(diǎn)的時(shí)候?qū)懸幌?#xff0c;然后 GPT 會在總結(jié)詞向量知識點(diǎn)的時(shí)候?qū)懸幌隆?/p>
寫這個系列過程中,很多朋友也有私信我一些問題,交流過程中,對我自己幫助也很大,能回答的問題我都盡力回答了,也感謝大家的關(guān)注。平時(shí)工作挺忙的,盡量輸出干貨,也歡迎大家和我交流問題。