在線做h5 的網(wǎng)站東莞免費(fèi)建站公司
強(qiáng)化學(xué)習(xí)核心概念與公式總結(jié)
1. 核心概念
1.1 智能體(Agent)和環(huán)境(Environment)
- 智能體:學(xué)習(xí)和做決策的實(shí)體
- 環(huán)境:智能體交互的外部系統(tǒng)
1.2 狀態(tài)(State)
- 描述環(huán)境在特定時刻的情況
1.3 動作(Action)
- 智能體可以執(zhí)行的操作
1.4 獎勵(Reward)
- 環(huán)境對智能體動作的即時反饋
1.5 策略(Policy)
- 定義智能體在給定狀態(tài)下應(yīng)采取的動作
1.6 價值函數(shù)(Value Function)
- 評估狀態(tài)或動作的長期價值
1.7 Q函數(shù)(Q-function)
- 特殊的價值函數(shù),評估狀態(tài)-動作對的價值
1.8 探索與利用(Exploration vs Exploitation)
- 在嘗試新動作和利用已知好動作之間取得平衡
1.9 回合(Episode)
- 從初始狀態(tài)到終止?fàn)顟B(tài)的完整交互序列
1.10 折扣因子(Discount Factor)
- 決定未來獎勵的重要性
2. 關(guān)鍵公式
2.1 策略(Policy)
確定性策略
a = π ( s ) a = \pi(s) a=π(s)
隨機(jī)策略
π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s) = P(A_t = a | S_t = s) π(a∣s)=P(At?=a∣St?=s)
2.2 價值函數(shù)(Value Function)
狀態(tài)價值函數(shù)
V π ( s ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s ] V_\pi(s) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s] Vπ?(s)=Eπ?[k=0∑∞?γkRt+k+1?∣St?=s]
動作價值函數(shù)(Q函數(shù))
Q π ( s , a ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s , A t = a ] Q_\pi(s,a) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s, A_t = a] Qπ?