北京2026年3月23日 /美通社/ -- 近日,銀河通用機器人與真人選手的連續自主網球對打視頻刷爆全網。
這背后是銀河通用機器人發布的最新成果——全球首個面向網球對抗的人形機器人全身實時智能規控算法:LATENT。
不靠預編程,銀河通用世界范圍內首次攻克人形機器人在長程、高動態對抗場景中的實時決策與復雜運動難題。
視頻一經發布,央視新聞第一時間進行報道點贊;
相關內容在海外社交平臺爆火,馬斯克看到后立即關注回復;
AI 知名研究員 Andrej Karpathy 自發評論表示驚嘆,一度"懷疑"視頻是由 AI 生成。
然而,視頻呈現的是一場真實"對抗":人類與人形機器人在場地中連續多回合對拉。
但真正打動大家的,不止是"機器人能打網球",而是:機器人不是在執行預先編程的動作,而是在像人一樣——全場跑動、自主決策、精確擊打。
在所有運動場景中,網球是人形機器人最難的考題:
高速來球逼迫瞬時判斷,全身協同決定回球質量,滿場奔跑則持續考驗爆發力與控制力。
那么,當機器人真正站上球場,它能否像人類運動員一樣完成判斷、移動與連續回合擊球?
畫面中,機器人迅速移動腳步調整站位,上下半身協同揮拍擊球,并將球精準回擊到指定位置。面對各種來球,它能夠持續調整身體姿態與擊球時機,與不同水平的網球對手完成多回合連續對拉。
在網球這樣的高動態、高對抗環境中,機器人面對的是時速超過幾十公里的來球、變幻莫測的落點軌跡,以及對手不斷變化的擊球節奏。
更重要的是,這一能力并非依賴預編程動作實現,而是機器人通過深度強化學習自主習得——
全球首次在人形機器人上實現高動態網球對打,機器人正在實現從"機械復刻動作"向"智能決策響應"的底層跨越。
這背后,是來自銀河通用與清華大學聯合提出的新研究:
LATENT(Learning Athletic Humanoid Tennis Skills from Imperfect Human Motion Data)。
研究團隊提出了一種新的機器人運動學習方法,使人形機器人能夠從不完美的人類動作數據中學習復雜的運動技能,并在真實世界中完成高動態、高敏捷的網球擊球與對打任務。
這其中的關鍵在于:
LATENT 并沒有沿用傳統"高質量遙操數據進行模仿學習"的路徑,而是從現實世界更可獲取的數據出發,重新設計了運動能力的學習方式。
從不完美的人類數據中,構建支持高動態、高敏捷全身運動能力的"運動小腦"
傳統的人形機器人運動學習,往往依賴高質量遙操作數據進行模仿學習。但在網球這樣的高動態運動場景中,這類數據幾乎難以獲取。
一方面,完整記錄一場網球比賽的人體運動,需要高精度、大范圍動作捕捉系統;另一方面,擊球過程中手部細節的捕捉要求極高,使得數據采集成本極高且技幾乎不可獲得。
LATENT 提供了一種完全不同的思路:
它不依賴昂貴且幾乎不可獲得的運動員全場比賽跑動數據,也不依賴精確的擊球手部軌跡,而是僅通過收集前后移動、正反手揮拍、橫向步伐等碎片化動作,讓機器人自主學習運動技能。
這些數據,在 LATENT 中被構建為"運動小腦",從而解鎖大范圍跑動、急停調整,以及對各種來球的穩定回擊能力。
換句話說,LATENT 從源頭上解決了一個長期限制機器人發展的關鍵問題:
如何利用可獲得的數據,學習復雜且不可簡化的運動能力,從而打通機器人運動技能的可擴展學習路徑。
定義"運動技能空間",讓動作既自然又可控
僅僅擁有動作片段,并不足以完成復雜運動任務。真正的關鍵在于:如何將這些零散經驗組織成可執行、可泛化的運動能力。
為此,研究團隊在隱空間中構建了一個"運動技能空間"。
在這一空間中:
碎片化的人類動作被組織為可組合、可泛化的技能結構;
在訓練過程中,對關鍵自由度引入隨機擾動,使技能具備可修正、可探索能力。
這一空間帶來了一個非常關鍵的效果:
機器人不再只是復刻已有動作,而是獲得了一種既保留自然運動風格、又允許細節優化的技能表示。
在強化學習驅動下,規劃器可以在這個技能空間中進行采樣與組合。面對不同來球,機器人可以基于球速、落點、自身姿態等信息,對步伐、揮拍節奏和身體姿態進行實時規劃,在保持自然運動風格的同時實現穩定擊球。
同時,在執行過程中,機器人還會根據實時感知進行微調,尤其是在擊球末端對揮拍軌跡進行修正,從而實現對回球方向與落點的精細控制。
"隱空間動作屏障":像人類網球運動員般優雅的擊球
在網球這樣的高動態對抗中,一個常見問題是:如果完全依賴強化學習進行探索,系統往往會發展出"投機策略"。
例如,通過抖動、非自然動作勉強完成擊球——任務完成了,但動作質量嚴重下降。
為了解決這一問題,研究團隊提出了隱空間動作屏障(Latent Action Barrier, LAB)。
LAB 為策略學習提供了一種約束但不僵化的探索機制:
一方面,允許策略針對不同來球、自主跑位、擊球動作靈活調整動作;另一方面,限制其不會輕易偏離人類自然運動模式。
這種"有約束的探索",使機器人在訓練過程中既能不斷適應復雜環境,又不會犧牲動作的自然性與穩定性。
最終結果是:機器人不僅"能打到球",而且能夠在高動態環境中以接近人類運動員的方式完成穩定擊球,且動作流暢、節奏自然。
實驗驗證:LATENT 不僅打得準,并且打得絲滑!
為了驗證 LATENT 的性能,研究團隊將策略部署在 29 自由度的人形機器人上,并在仿真與真實環境中進行了大量測試。
首先,實驗系統對比了 LATANT 與經典基線算法例如:PPO、AMP 的性能表現。
LATANT 在擊球成功率(SR),回球落點精準性(DE),關節順滑程度(Smth)與關節力矩(Torque)上展現出了絕對優勢:LATENT 不僅打得準,并且打得絲滑!
在真實世界測試中,機器人完成了連續 20 局的人實驗類-機器人網球對拉比賽,覆蓋機器人正手擊球、反手擊球、網前擊球、后場擊球等多種場景。
真實世界復雜多變,為了在不同場地、不同材質的網球地面上進行穩定擊打,研究者在仿真中對地面彈性系數、空氣阻力、網球質量、機器人本體動力學性質等多個方面進行了隨機擾動,并借助 GPU 進行大規模強化學習訓練:
實驗顯示,機器人在真實世界與人類進行網球對拉中,正手成功率超過 90%,反手接近 80%,網前成功率接近 90%,底線附近擊球成功率超過 80%。
實驗證明了 LATENT 在不同球場位置、不同擊球動作的表現下均有著較高的擊球成功率和擊球精準度,而研究者發現域隨機化的加入和訓練中觀察噪聲的引入對機器人在真機上的性能表現起到關鍵作用,測試時,機器人展現出了極強的運動自然性和穩定性。
更進一步,銀河通用團隊在仿真中統計了機器人 400 輪的網球回擊過程中的機器人全場跑動范圍,并可視化了機器人在網球場上的跑動范圍和擊球軌跡:
實驗證明,搭載 LATENT 的策略的跑動范圍覆蓋全場,有能力接到來自各個方向的刁鉆擊球!
除了人與機器人的對打,研究團隊還展示了兩個機器人之間的連續對練場景。這不禁讓人聯想到十年前通過自我博弈不斷提升棋力、最終戰勝柯潔的 AlphaGo。
雖然兩者技術路徑并不相同,但機器人之間的互動對練,也為未來機器人的自主學習與持續能力進化帶來了更多想象空間。
當機器人能夠像人類一樣移動、判斷并完成復雜運動任務時,人形機器人的應用邊界也將進一步擴展。從運動娛樂到家庭服務,再到各種復雜的人機協作場景,具身智能正在逐漸走出實驗室,進入真實世界。
從"打網球",到具身智能的下一步
值得關注的是,這一突破依托于銀河通用已構建的全身全手端到端具身大模型"銀河星腦(AstraBrain)"。
人形機器人實現與人類網球對打,正是銀河通用在人形機器人大小腦方面探索的關鍵一步,這一突破也為其后續在復雜場景中的落地應用展現了巨大的潛力與價值。
它所驗證的是,人形機器人在復雜動態環境中已經實現實時感知、決策與全身協同控制的能力。
這種寶貴能力,是真實世界任務共同依賴的技術基礎。
無論是在工業場景中的精細操作,還是在零售、服務等開放環境中的持續交互,乃至走進家庭面對更加多變的生活環境,核心都在于機器人能否在變化中保持穩定判斷,在運動中自主完成閉環決策。
從這個角度看,網球并非應用終點,而是一個高度濃縮的動態能力測試場。
機器人所對應的高速移動、連續對抗與實時決策,正是復雜場景所共同具備的特征。LATENT 在這一場景中的表現,為未來更廣泛的場景應用提供了堅實的能力驗證。
這是全球范圍內人形機器人在真實對抗環境中實現全自主運動的重要突破,更標志著銀河通用機器人正引領行業,開啟人形機器人運動全自主、無編排,走向場景應用的新時代。