網(wǎng)站項目建設目標免費下載b站視頻軟件
目錄
1.作者提出的問題及解決方向
2.延深-用如何用強化學習對機器人進行控制
2.1思路
2.2DQN和DDPG在機器人控制中的應用
3.解決方案
3.1思路
3.2實驗
3.3創(chuàng)新點
4.展望
1.作者提出的問題及解決方向
目的:使機械臂在非結(jié)構化環(huán)境下實現(xiàn)端到端的自主學習控制,
問題:基于深度強化學習算法結(jié)合視覺圖像與運動學模型完成機械臂抵達目標區(qū)域任務,但稀疏獎勵環(huán)境下機械臂運動控制算法存在探索效率低、學習速度慢、樣本利用率低等問題。
解決:
①(解決樣本利用率低)提出了一種結(jié)合重要性采樣的機械臂運動控制方法,增大了有效樣本的采樣概率,提高了樣本的利用率。
②(理論上獎勵函數(shù)決定算法收斂速度和程度)提出了一種運動學獎勵驅(qū)動的機械臂控制方法?;跈C械臂運動學分析,通過解析法求解關節(jié)逆解值,以最小功率作為目標引導。從稀疏獎勵、距離獎勵和運動學獎勵三個方面改進設計了獎勵函數(shù)。
2.延深-用如何用強化學習對機器人進行控制
2.1思路
機械臂運動控制的策略網(wǎng)絡本質(zhì)是環(huán)境狀態(tài)到機械臂動作的映射,環(huán)境狀態(tài)通常包括目標物體的位置、形狀大小,機械臂各關節(jié)的當前轉(zhuǎn)角,以及機械臂抓手末端的空間坐標和相對姿態(tài)等,將環(huán)境狀態(tài)輸入到策略網(wǎng)絡,由其決策輸出機械臂各關節(jié)的應運動控制量(角度,速度,加速度,力矩等),機械臂不斷重復探索-決策-執(zhí)行過程,最終抵達目標區(qū)域。
2.2DQN和DDPG在機器人控制中的應用
DQN:本研究機械臂控制方法基于深度確定性策略梯度算法,其以深度Q網(wǎng)絡DQN算法為基礎,引入了Actor-Critic 框架思路。DQN算法的動作空間為有限個動作構成,依靠計算每一個動作的Q值選擇最大Q值對應的動作,其網(wǎng)絡輸出是離散的動作價值分布,無法處理連續(xù)控制性問題。
DDPG:而DDPG算法利用Actor 網(wǎng)絡去擬合某狀態(tài)下選擇某動作時能獲得的Q值,找到該狀態(tài)下最大 Q 值對應的動作,輸出的是確定性動作,因此能夠用來處理連續(xù)控制性問題。Actor 網(wǎng)絡也稱為策略網(wǎng)絡,將當前狀態(tài)通過策略網(wǎng)絡輸出動作;Critic 網(wǎng)絡對學習的策略進行評估,反過來利用策略優(yōu)勢訓練Actor 策略網(wǎng)絡,使累計回報價值最大。
3.解決方案
3.1思路
①重要性采樣替代隨機采樣:傳統(tǒng)在經(jīng)驗池進行數(shù)據(jù)采樣用的是隨機采樣方法,可以保證經(jīng)驗池中每個樣本都有同樣的幾率用于訓練,作者認為。對于稀疏獎勵環(huán)境的機械臂運動控制任務場景,獲取的數(shù)據(jù)質(zhì)量參差不齊,隨機采樣效果不佳,重要性采樣給每個樣本設定一個可動態(tài)更新的優(yōu)先級,依照該樣本的優(yōu)先級占總優(yōu)先級的比例確定該樣本的被采樣概率,效果更加。
②引入運動學逆解改進獎勵函數(shù):每次執(zhí)行完動作后都要計算當前機械臂關節(jié)角相對于最終期望角度的差距。
3.2實驗
①在二維仿真實驗中從平均獎勵、平均步數(shù)和成功率三個標準分析了改進方法的效果,驗證方法的可行性和有效性。
②在三維仿真環(huán)境下使用綜合改進算法測試分析了隨機目標模型和固定目標模型的效果。
3.3創(chuàng)新點
①采樣:重要性采樣替代隨機采樣
②獎勵函數(shù):引入運動學獎勵(計算當前機械臂關節(jié)角相對于最終期望角度的差距,此處是因為作者認為單純的距離無法完全涵蓋探索過程),以及常用的稀疏獎勵 、距離獎勵、單步獎勵(描述相鄰兩步探索相對目標的距離變化情況?)
4.展望
問題:算法探索效率低、學習速度慢、樣本利用率低
①樣本利用效率低:不同的應用場景可能會有更加合適的采樣方法。
②學習速率慢:結(jié)合實際情況改進獎勵函數(shù)