国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當前位置: 首頁 > news >正文

企業(yè)公司網(wǎng)站 北京企業(yè)文化理念

企業(yè)公司網(wǎng)站 北京,企業(yè)文化理念,開發(fā)一個需要多少錢,惠州網(wǎng)站建設制作25年4月來自清華、北大、Galbot、上海AI實驗室、上海姚期智研究院、南京大學和同濟大學的論文“Unleashing Humanoid Reaching Potential via Real-world-Ready Skill Space”。 人類在三維世界中擁有巨大的可達空間,能夠與不同高度和距離的物體進行交互。然而&…

25年4月來自清華、北大、Galbot、上海AI實驗室、上海姚期智研究院、南京大學和同濟大學的論文“Unleashing Humanoid Reaching Potential via Real-world-Ready Skill Space”。

人類在三維世界中擁有巨大的可達空間,能夠與不同高度和距離的物體進行交互。然而,在人形機器人上實現(xiàn)如此大空間的可達性是一個復雜的全身控制問題,需要機器人同時掌握多種技能,包括基定位和重定向、高度和身體姿勢調整以及末端執(zhí)行器位姿控制。從頭學習通常會導致優(yōu)化困難和 sim2real 遷移性差。為了應對這一挑戰(zhàn),采用現(xiàn)實世界現(xiàn)成的技能空間 (R2S2)。該方法始于一個設計的技能庫,其中包含現(xiàn)實世界現(xiàn)成的原始技能。通過對單個技能的調整和 sim2real 評估來確保最佳性能和穩(wěn)健的 sim2real 遷移。然后,這些技能被集成到一個統(tǒng)一的潛空間中,作為結構化的先驗,以高效且 sim2real 可遷移的方式幫助任務執(zhí)行。經(jīng)過訓練可以從該空間采樣技能的高級規(guī)劃器使機器人能夠完成現(xiàn)實世界的目標達成任務。演示零樣本 sim2real 遷移,并在多個具有挑戰(zhàn)性的目標達成場景中驗證 R2S2,包括點觸摸和盒子拾取,如圖所示。

請?zhí)砑訄D片描述

人形機器人學習。強化學習 (RL) 策略在近期的人形機器人學習中取得了巨大進步。運動研究 [23、24、25、26、27、28、29、30、31] 旨在為雙足人形機器人提供以穩(wěn)定和敏捷的方式穿越不同地形的能力。但這些研究通常僅關注人形機器人的下半身,而忽略了它們全身的觸及和交互潛力?;趯W習的人形全身控制 [14、15、16、17、19、20、32、33、34、35] 最近展示了新功能并突破了人形機器人的界限。數(shù)據(jù)驅動的運動跟蹤方法 [14、15、32、19、20、33、34] 富有表現(xiàn)力地模仿人類運動,允許人與人之間的遙操作。Zhang [16] 將類人機器人的全身控制表述為順序接觸,并提出了基于接觸的 WBC 框架。然而,現(xiàn)有研究要么采取相對中性的身體姿勢 [16, 17],要么缺乏用于實際任務完成的規(guī)劃模塊 [35]。如何使類人機器人具備人類級別的目標達成能力仍未得到充分探索。

技能空間學習。在基于物理的角色動畫中,通常會學習技能空間 [36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46],以重用來自動作捕捉數(shù)據(jù)集的運動先驗。運動模仿 [37, 39, 40, 41, 42, 46, 47] 或對抗學習 [36, 43, 44, 45] 用于形成技能潛空間,然后可以通過解碼器將采樣的潛變量轉換為動作。對于高級任務,特定任務的規(guī)劃器會學習重用預構建潛空間中的技能,從而更高效、更自然地完成任務。盡管技能空間學習在基于物理的角色動畫 [38, 48, 49] 中取得了巨大成功,但由于缺乏高質量的類人運動數(shù)據(jù)集以及 sim2real 的難度,將這種范式遷移到現(xiàn)實世界的人形機器人仍面臨挑戰(zhàn)。與這些研究不同,為了確?,F(xiàn)實世界的穩(wěn)定性,本文從 sim2real 評估的(可用于現(xiàn)實世界的)原始技能(而非動作捕捉數(shù)據(jù))中學習技能空間。

首先,構建一個包含 n 個共享且易于定義基于強化學習的原始技能庫 {πprim_1,…,πprim_n},其中每個技能 πprim_i 都經(jīng)過單獨調優(yōu),并進行 sim2real 評估(可用于實際應用)。然后,將這些技能集成并編碼,將學習過程 (IL) 和強化學習 (RL) 結合成一個集成學生策略 πensem,并包含一個潛技能 z 空間。學習的技能空間包含各種可用于實際應用的運動技能,作為技能先驗,并以 sim2real 可遷移的方式輔助任務執(zhí)行。利用學習的技能 z 空間,訓練高級規(guī)劃器 πplan 來采樣潛技能,從而完成實際任務。該流程如圖所示。用 PPO [50] 進行所有策略訓練,使用域隨機化進行 sim2real 遷移,并使用 Isaac Gym [51] 進行模擬。

請?zhí)砑訄D片描述

原始技能庫

為了釋放人形機器人的伸展?jié)撃?#xff0c;設計原始技能庫 {πprim_1,…,πprim_n},涵蓋運動、身體姿勢調整(例如改變身高、彎腰)和伸手。每個技能都經(jīng)過單獨調優(yōu)和 sim2real 評估,以最大限度地提升其能力和現(xiàn)實世界的穩(wěn)定性。

原始技能可以理解為目標條件化的強化學習策略 πprim : Gprim × Sprim → Aprim,其中 Gprim 包含指定技能目標的目標命令 g_t;Sprim 包含機器人在每個時間步 t 的本體感受觀察和歷史動作信息 s_t = [ω_t, gr_t, q_t, q ?_t, a_t?1],其中 ω_t、gr_t、q_t、q ?_t、a_t?1 分別為基準坐標系中的角速度、投影重力、身體部位自由度位置、身體部位自由度速度和最后一幀的低級動作。值得注意的是,對于 q_t、q ?_t、a_t?1,每個策略僅將相關身體部位信息作為不同技能的觀察值。Aprim 包含機器人身體部位動作(PD 目標)aprim,該動作被輸入到 PD 控制器中進行扭矩計算。aprim 僅控制每個技能的相應身體部位,其他關節(jié)是固定的。它們的訓練獎勵可以寫成:r_prim = r_command + r_behavior + r_regularization,其中 r_task 表示技能命令跟蹤目標,r_behavior 描述針對 sim2real 穩(wěn)定性的技能特定行為約束,r_regularization 是與技能無關的正則化。

對于運動,Gloco = ?v_xc , v_yc , ωc? 驅動人形機器人在機器人基框架內追蹤機器人基所需的線速度和角速度。為了約束運動行為并復制類似人類的雙足步態(tài),將每只腳的運動建模為擺動和站立階段的交替序列,并引入周期性獎勵框架。

對于身體姿勢調整,Gbody = ?hc , pc? 跟蹤全局坐標系中的基準高度和俯仰角。對于這樣的技能,運動學和動力學對稱性對于現(xiàn)實世界的穩(wěn)定性至關重要。

對于伸手動作,Ghand = ?ec? 跟蹤機器人局部坐標系中目標末端執(zhí)行器的六維姿態(tài)。手臂對于 sim2real 部署來說相對容易,因此沒有專門為此技能設計任何 r_behavior。

面向現(xiàn)實世界的技能空間

給定面向現(xiàn)實世界的原始技能 {πprim_1,…,πprim_n},直接嘗試將這些原始技能復用到不同的任務中,就是直接在其主要任務空間中進行規(guī)劃。但這些技能空間實際上不足以構成一個實用的技能空間。由于訓練分散,原始技能之間彼此不可見。不同技能之間的協(xié)調(例如,上半身夠到物體的同時下半身下蹲)和過渡(例如,下半身從運動到身體姿勢調整)屬于分布外問題。簡單地連接不同身體部位的動作或從運動技能切換到身體姿勢調整技能會導致機器人不穩(wěn)定,甚至跌倒。如果沒有無縫的協(xié)調和過渡,技能空間就不完整,無法完成實際任務。此外,原始技能任務空間(v_xc、v_yc、ωc 用于運動,hc、pc 用于身體姿勢調整,ec 用于伸手)的不匹配對于高級規(guī)劃而言效率低下。

為了解決這些問題,本文提出訓練一個集成學生策略 πensem(a_t|s_t,g_t),并引入變分信息瓶頸來集成不同的技能?!凹伞辈粌H意味著模仿不同的原始技能,還意味著學習它們的協(xié)調和過渡。在技能集成過程中,不同的技能被編碼到潛技能 z 空間中,然后解碼為每個關節(jié)的動作。

在線模仿學習方法(例如 DAgger [53])通常用于從教師策略到學生策略的技能提煉。然而,僅僅依靠模仿學習無法為學生策略提供超越教師策略的新功能(例如,不同技能之間的協(xié)調和轉換)。因此,將模仿學習和強化學習結合起來,將 IL 損失和 RL 損失結合起來。IL(在設置中是 DAgger)從多個教師策略中提煉出可用于現(xiàn)實世界的技能先驗。在此基礎上,RL(在設置中是 PPO)進一步鼓勵策略學習新行為,實現(xiàn)無縫過渡和協(xié)調。與單獨訓練原始技能不同,從兩個方面修改訓練環(huán)境:1)同時為不同的身體部位發(fā)送目標命令(例如,策略需要在行走的同時跟蹤目標手的 6D 姿勢),以模擬技能協(xié)調性;2)允許某個身體部位的技能在一個回合中從一個技能過渡到另一個技能,以模擬技能過渡。形式化地講,在每個時間步 t,兩個原始技能 {πlower_t, πupper_t},πlower_t ∈ {πloco_t, πbody_t} 和 πupper_t ∈ {πhand},作為針對不同身體部位的教師策略,一個針對下半身,另一個針對上半身。學生策略目標 g_t 中包含一個技能指標,用于指示激活哪個教師策略。當發(fā)生轉換時,令 πlower_t+1 ?= πlower_t。這樣,不同技能之間所有可能的協(xié)調和轉換都包含在學生策略中。

獎勵函數(shù)如下:

請?zhí)砑訄D片描述

其中

請?zhí)砑訄D片描述

對于 L_PPO,只需將原始技能訓練階段定義的獎勵項 πlower_t 和 πupper_t 組合即可。學生策略無需任何額外的獎勵項即可成功學習協(xié)調和過渡技能。雖然協(xié)調和過渡是在此階段新學到的,但從教師策略中繼承的技能先驗知識可以起到良好的熱身作用,并使新技能能夠遷移到真實世界。

雖然學生策略可以集成多種原始技能,但由于缺乏統(tǒng)一的技能表征,不匹配的技能空間會阻礙高效的高級規(guī)劃。為了緩解這個問題,采用一個帶有條件變分信息瓶頸的編碼器-解碼器框架。使用變分編碼器 E(z_t|s_t, g_t) = N (z_t; μe(s_t, g_t), σe(s_t, g_t)) 來建模以當前狀態(tài)和目標為條件的潛編碼。相應的解碼器 D(a_t|s_t, z_t) 將采樣的潛編碼映射到以狀態(tài)為條件的動作。受 [40] 的啟發(fā),引入一個可學習的條件先驗 P(z_t|s_t) = N (z_t; μp(s_t), σp(s_t)) 來捕捉基于狀態(tài)的動作分布,而不是假設潛空間上存在一個固定的單峰高斯結構,因為機器人的動作分布在不同狀態(tài)下應該存在顯著差異。因此,集成學生策略可以表述為 πensem =△(E,D,P)。訓練過程中的總損失 πensem可以寫成:

請?zhí)砑訄D片描述

其中

請?zhí)砑訄D片描述
請?zhí)砑訄D片描述

基于已學習的潛技能空間,訓練特定任務的高級規(guī)劃器 πplan(z_t |shigh_t,ghigh_t),以針對不同的目標達成任務選擇潛技能嵌入。πplan 的動作現(xiàn)在位于潛空間 z_t 中。采樣的 z_t 通過凍結解碼器 D 解碼為每個關節(jié)的動作。訓練獎勵可以寫成:r_plan = r_task + r_regularization,其中 r_task 是任務執(zhí)行目標,r_regularization 是在技能庫構建階段引入的與技能無關的正則化獎勵。重用 r_regularization 可以增強運動穩(wěn)定性。

人形機器人的觸及問題定義為:給定一個目標觸及狀態(tài) [xyω_root, xyz_hand],機器人能否成功觸及該狀態(tài)。xyω_root 是機器人根的水平位置和方向。xyz_hand 是當 xyω_root 固定時,機器人手部能夠觸及的三維位置。由于大多數(shù)現(xiàn)有機器人都具備全向運動能力,并且已經(jīng)能夠滿足平面地面上任意 xyω_root 的觸及要求,因此主要比較機器人觸及任意給定 xyz_hand 的能力。

如何釋放人形機器人的伸展?jié)撃苌形吹玫匠浞痔剿?。相關研究成果寥寥無幾。主要將方法與近期兩篇專注于在與實驗相同的硬件(Unitree H1)上進行全身控制的研究成果進行比較:
? ExBody [14]。該研究將運動目標分解為運動目標和表達目標,運動目標包括對機器人基座的指令,例如速度、滾動、俯仰和基座高度。在仿真中復現(xiàn)該方法,并將其部署到硬件上。
? HUGWBC [28]。該研究提出一種統(tǒng)一的全身控制器,可以實現(xiàn)多種運動并調整身體姿勢。由于代碼不可用,根據(jù)其原始論文中的姿勢調整參數(shù)計算可達空間。
? 本文方法 w/ohc,pc。消融基元技能的任務空間,以評估每個部分對可達空間的貢獻。

對于真實世界現(xiàn)成的技能空間,其評估如下。

在真實實驗環(huán)境中,評估 R2S2 的每種設計如何幫助完成兩個目標達成任務:點觸碰和拾取箱子。對于點觸碰,在機器人前方 2m × 2m 的方格內隨機設置一個點,高度范圍為 0.1 米至 2.0 米。要求人形機器人用特定的手觸摸該點。對于拾取箱子,將箱子隨機放置在機器人前方 2m × 2m 的方格內,高度范圍為 0.2 米至 1.2 米。要求人形機器人將箱子舉到 1.4 米的高度。

在 R2S2 的不同組件上進行消融,并選擇以下基準:
? 原始 PPO。實現(xiàn)一個原始 PPO,嘗試在沒有任何技能先驗的情況下從頭完成每個目標達成任務。
? 不帶 SE(技能集成)的 R2S2。用單獨的原始技能作為技能空間。在此設置中,訓練一個高級規(guī)劃器策略,使其直接在主任務空間中輸出技能指標和命令。采用此基準主要是為了驗證協(xié)調和過渡能力的重要性。
? R2S2 w/o LS(潛空間)。實現(xiàn)一個基于多層感知器 (MLP) 的學生策略,用于集成來自多個教師策略的技能。在此設置中,盡管原始技能已被集成(即學習協(xié)調和過渡),但高級規(guī)劃策略仍然需要在不匹配的主任務空間中輸出技能指標和命令才能執(zhí)行任務。采用此基準來評估潛技能空間的有效性。

http://m.aloenet.com.cn/news/42096.html

相關文章:

  • 承德網(wǎng)站制作多少錢高質量軟文
  • 做威客哪個網(wǎng)站好石家莊新聞
  • 網(wǎng)站開發(fā)涉及內容做推廣的技巧
  • 做濾芯的網(wǎng)站seo軟件工具
  • 網(wǎng)站建設陜icp百度如何快速收錄網(wǎng)站
  • wordpress googleapisseo軟件
  • 六安哪家公司做網(wǎng)站好搜索引擎優(yōu)化面對哪些困境
  • 網(wǎng)站開發(fā)績效指標奇葩網(wǎng)站100個
  • 深圳公明做網(wǎng)站網(wǎng)絡輿情監(jiān)測系統(tǒng)
  • 網(wǎng)站建設 公司 常州seo設置是什么
  • 做網(wǎng)站應該了解什么問題產品線上營銷方案
  • 網(wǎng)站在線客服代碼市場監(jiān)督管理局官網(wǎng)
  • wordpress 如何提交表單關鍵詞整站排名優(yōu)化
  • 西安公司注冊代辦一般多少錢網(wǎng)絡推廣優(yōu)化
  • 做手機網(wǎng)站的公司買賣網(wǎng)站
  • 網(wǎng)站空間續(xù)費合同中山排名推廣
  • 南京做網(wǎng)站南京樂識贊網(wǎng)絡營銷是什么工作主要干啥
  • 網(wǎng)站開發(fā)教學網(wǎng)站百度云網(wǎng)盤資源搜索
  • 騰訊企點app下載安裝關鍵詞優(yōu)化公司電話
  • 馬鞍山網(wǎng)站制作公司阿里云免費建站
  • 武漢市市政建設集團網(wǎng)站網(wǎng)站搜索排名靠前
  • 武漢建設一個網(wǎng)站多少錢汕頭seo計費管理
  • 網(wǎng)站代碼開發(fā)文檔模板媒體:北京不再公布各區(qū)疫情數(shù)據(jù)
  • 正版搜索引擎優(yōu)化澤成杭州seo網(wǎng)站推廣排名
  • 給網(wǎng)站做推廣一般花多少錢百度競價排名的利與弊
  • 重慶模板網(wǎng)站多少錢免費網(wǎng)站制作教程
  • 最優(yōu)網(wǎng)絡做網(wǎng)站360公司官網(wǎng)首頁
  • 做裝修網(wǎng)站推薦客戶靠譜嗎百度推廣獲客
  • 贛州章貢區(qū)房價google優(yōu)化排名
  • 鎮(zhèn)江網(wǎng)站建設策劃被公司優(yōu)化掉是什么意思