網(wǎng)站如何添加認(rèn)證聯(lián)盟南京seo優(yōu)化培訓(xùn)
博客主頁:?[青松]
本文專欄:?NLP 大模型百面百過
【淘汰9成NLP面試者的高頻面題】LSTM中的tanh和sigmoid分別用在什么地方?為什么?
重要性:★★★ 💯
本題主要考察面試者對以下問題的理解:
① 數(shù)據(jù)特征和模型權(quán)重的區(qū)別
② 門控機(jī)制的軟性特征篩選特點(diǎn)
這是我常用的一個面試題??此坪唵蔚幕A(chǔ)題,但在面試中能準(zhǔn)確回答的不足10% ,常識題的錯誤反而會讓人印象深刻。
【NLP 大模型百面百過】系列文章:
-
【淘汰9成NLP工程師的常識題】BPE 分詞器是如何訓(xùn)練的?
-
【淘汰9成NLP工程師的常識題】LSTM 如何緩解 RNN 梯度消失的問題?
-
【淘汰9成NLP工程師的常識題】LSTM的前向計(jì)算如何進(jìn)行加速?
-
【淘汰9成NLP工程師的常識題】多頭注意力相對于單頭注意力有什么優(yōu)勢?
-
......
LSTM 單元的計(jì)算圖
在大多數(shù)情況下,門使用sigmoid函數(shù)作為激活函數(shù),而包含實(shí)質(zhì)信息的數(shù)據(jù)則使用tanh函數(shù)作為激活函數(shù)。
-
因?yàn)閠anh的輸出是?1.0 ~ 1.0的實(shí)數(shù)。我們可以認(rèn)為這個?1.0 ~ 1.0的數(shù)值表示某種被編碼的“信息”的強(qiáng)弱(程度)。
-
而sigmoid 函數(shù)的輸出是0.0~1.0的實(shí)數(shù),表示數(shù)據(jù)流出的比例。
舉一反三
拔高(舉一反三):深刻理解門控機(jī)制,并且知曉門控機(jī)制在LSTM、IA3、SwiGLU等中都有應(yīng)用。
門機(jī)制:控制水閘的門就能阻止或者釋放水流。類似的,門機(jī)制的作用是控制數(shù)據(jù)的流動。
如上圖所示,門的開合程度由 0.0 ~1.0 的實(shí)數(shù)表示,通過這個數(shù)值控制流出的水量,sigmoid 函數(shù)用于求門的開合程度(sigmoid 函數(shù)的輸出范圍在 0.0 ~ 1.0)。
① LSTM 中門控機(jī)制的應(yīng)用:
② PEFT 的 IA3 方法中門控機(jī)制的應(yīng)用:
IA3的思想:抑制和放大內(nèi)部激活,通過可學(xué)習(xí)的向量對激活值進(jìn)行抑制或放大。具體來說,會對K、V、FFN三部分的值進(jìn)行調(diào)整,訓(xùn)練過程中同樣凍結(jié)原始模型的權(quán)重,只更新可學(xué)習(xí)的部分向量部分。訓(xùn)練完成后,與Lora類似,也可以將學(xué)習(xí)部分的參數(shù)與原始權(quán)重合并,沒有額外推理開銷。
③ LLM 的?SwiGLU 激活函數(shù)中門控機(jī)制的應(yīng)用:
SwiGLU在計(jì)算中引入了門控機(jī)制,門控機(jī)制可以使用更軟性的權(quán)重篩選有用的信息,并且梯度更平滑。ReLU和SwiGLU的可視化對比:
NLP Github 項(xiàng)目:
-
NLP 項(xiàng)目實(shí)踐:fasterai/nlp-project-practice
介紹:該倉庫圍繞著 NLP 任務(wù)模型的設(shè)計(jì)、訓(xùn)練、優(yōu)化、部署和應(yīng)用,分享大模型算法工程師的日常工作和實(shí)戰(zhàn)經(jīng)驗(yàn)
-
AI 藏經(jīng)閣:https://gitee.com/fasterai/ai-e-book
介紹:該倉庫主要分享了數(shù)百本 AI 領(lǐng)域電子書
-
AI 算法面經(jīng):fasterai/nlp-interview-handbook#面經(jīng)
介紹:該倉庫一網(wǎng)打盡互聯(lián)網(wǎng)大廠NLP算法面經(jīng),算法求職必備神器
-
NLP 劍指Offer:https://gitee.com/fasterai/nlp-interview-handbook
介紹:該倉庫匯總了 NLP 算法工程師高頻面題