和自動駕駛發展初期一樣,具身智能也迎來了“數據荒”時刻。
據相關分析數據顯示,具身
機器人訓練大約需要數千億級的交互數據,然而全行業現存數據卻僅幾百萬條,存在10萬倍的缺口。
如此巨大的數據鴻溝,僅靠單一企業或機構獨立采集與積累,顯然不現實。
正是洞察這一點,具身智能行業正一改過去單打獨斗的做法,積極探索產業協同。從創業公司到產業巨頭,再到地方政府,各方力量紛紛加入數據共建行列,試圖從源頭打破數據“孤島”,為具身智能產業演進提供更充足的“養料”。
破解“數據荒”,不能再單打獨斗
近日,由工信部指導、開放原子開源基金會發起,樂聚機器人牽頭,聯合螞蟻靈波、上海交大、宇樹等核心單位共建的“具身智能開源數據集社區”正式啟動。
這則消息如果放在兩年前,可能只是具身智能行業的一條“簡訊”。但在2026年的今天,有了完全不同的分量。
作為國家級平臺發起的首個具身智能開源數據集社區,該項目的目標寫得很直白:打破具身智能產業“數據孤島、采集成本高、標注效率低、模型泛化弱”四重枷鎖。
翻譯成大白話就是——具身“數據荒”這事,靠單打獨斗搞不定了。
由于具身智能產業的發展高度依賴數據飛輪驅動,過去幾年賽道企業幾乎都自建了數采體系,并視數據為核心競爭力。然而邁入2026年,龐大的數據缺口像一面鏡子,逐漸讓所有人看清了一個現實:沒有任何一家企業能獨自填滿這個窟窿。
于是,行業心態開始發生微妙變化,不僅國家級平臺開始牽頭“攢局”,甚至樂聚、宇樹、智元這些曾經的競爭對手,也紛紛把數據拿出來共享,一邊共建行業聯盟,一邊開源自家數據集。
比如智元AgiBot World、樂聚LET、銀河通用 DexonomySim、它石智航WIYH、樞途科技HORA、簡智10Kh RealOmni、靈巧智能DexCanvas等數據集,目前都已宣布開源,覆蓋多模態訓練、人形機器人靈巧操作、全身運動等多個領域。
其中它石智航還發起了“具身數據星火計劃”,目標推動實現1億小時級別的數據共享。地平線、地瓜機器人與無問智科,也于近期聯合發起了10000 + 小時具身智能開源數據集計劃。
為什么大家突然對數據集開源這么熱衷了?
“對企業而言,開源這件事其實沒什么風險。可能在這個過程中,有些企業更多是借此換取影響力,但數據開源后其實大家也可以相互交流、共同創新,由此產生的價值可能會更大。”相關業內人士表示。
換言之,單家企業能觸及的場景、能采集的數據終究有限。開源之后,可以有更多的開發者幫忙看bug、提優化——這哪里是“共享”,分明是“眾包”研發。
如果說企業層面的開源,是市場力量的橫向協同,那么地方政府的介入,就是縱向的基礎設施投入。
據蓋世汽車研究院不完全統計,2025年僅地方購入的數采機器人訂單金額就超過了10億元。
其后,據權威研究機構Interact Analysis調研數據顯示,截至2025年年底,中國已經有50個以上國家或省市區級人形機器人數采中心處于使用或規劃建設中,分布在大約19個省份,其中50%以上的數采中心已經在2025年投入使用。
從規模來看,上海張江機器人谷和北京石景山具身智能綜合實訓場等,目前均已部署近百臺數采機器人。
這些數字背后是一個清晰的判斷:數據采集正在從“企業行為”變成“政府工程”。
但真正把這場集體行動推向高潮的,是京東。
日前,京東宣布將于一年內積累500萬小時人類真實場景視頻數據,兩年內突破1000萬小時,同步實現采集機器人本體數據100萬小時——這個量級,無疑讓很多公司望塵莫及。
目前,京東已建成行業領先的機器人數據采集中心,構建“采集—標注—訓練—驗證”全流程數據流水線。
更讓人驚嘆的是該項目的采集規模:京東將發動數十萬人參與數據采集——包括內部超過10萬名各類職業員工,以及外部最多50萬名各行業人員,其中僅在宿遷就將發動超10萬名市民參與。從家庭、辦公室到物流、商店、醫療,覆蓋超百個細分場景。
如果京東這一計劃順利落地,有望成為“人類歷史上規模最大的數據采集行動”。
但熱鬧歸熱鬧,一個疑問隨之而來:既然數據對于具身智能的重要性行業早已深知,為何直到現在才被推向如此高度?
在蓋世汽車研究院分析師看來,這是因為當前具身機器人的運動控制已經趨于成熟,缺乏真實數據成了訓練通用“大腦”的最大瓶頸。
過去兩年,具身智能領域的焦點,主要集中在機器人本體研發和運動能力的突破上,例如:如何讓機器人更穩定地行走甚至奔跑,以及更靈活地抓取物體等。目前,這些問題正逐步得到解決,機器人的身體越來越靈活,反而機器人的大腦開始不”夠用”了。
而要訓練出真正通用的機器人“大腦”,海量高品質的數據恰恰是最核心的“養料”。
不過,在京東數采規劃刷爆網絡的同時,也不乏質疑聲。
“利用真實業務場景和‘人海戰術’獲取海量數據,理論上可行,且直擊行業數據荒的痛點。但成敗關鍵更在于能否采集到包含力覺、觸覺的高質量動作數據,否則可能淪為低效的視頻數據堆砌。”蓋世汽車研究院前述分析師就認為。
這句話無疑戳中了具身數采的核心:規模不等于質量,視頻不等于有效數據。
數十萬人戴著采集設備逛超市、送快遞,產出的海量視覺數據,固然能讓機器人學會“什么是門”“什么是蘋果”,但能讓它們學會“用多大力度捏住雞蛋而不碎”嗎?
答案目前還不得而知。
即便有數據,怎么用更關鍵
對于具身智能而言,當前產業鏈層面的由分到合,解決的是數據從哪里來的問題。
而在水面之下,另一場更深層的融合也在同步發生:不同數據技術路線之間的使用界線,正在變得模糊。
日前,在英偉達GTC 2026上,Physical Intelligence(PI)聯合創始人Chelsea Finn就直言,很多人原本以為,如果讓機器人形態最接近人類,就能最好地從人類視頻遷移。但實際上,當機器人數據本身足夠多樣時,模型反而更容易把“人類數據”和“機器人數據”之間的點連起來。
“所以我們不僅利用機器人的真實數據,也利用其他數據源,尤其是網絡視頻、人類視頻等,目標訓練出一個真正有泛化能力的模型:能跨具身形態、跨環境、跨任務工作。”Chelsea Finn 表示。
這話聽著繞口,但翻譯過來就一句:別只押注單一數據源。
蓋世汽車研究院分析師亦認為,雖然說UMI便攜采集是對數據質量和規模的有效平衡,但這并不意味著遙操作采集、仿真合成等技術路線會被取代。“更現實的情況是,具身智能數據體系應該是一個分層采用、分階段取舍的系統”。
比如千尋智能,就堅定以“多樣性”為核心推進Scaling路線。目前,該公司已累計獲取超20萬小時多類型真實交互數據,覆蓋互聯網視頻、遙操作、可穿戴采集等維度,預計2026年總量將進一步突破100萬小時。
穹徹智能研究科學家呂峻也指出,由于遙操作采集在數據質量、模型訓練等方面的優勢,在UMI之外,穹徹智能直到今天也仍在持續這種模式。
那么問題來了,雖然說數采路線多元融合已經是行業共識,具體該怎么融合呢?
一個被反復提及的答案是:分層使用,各取所長。更具體一點,也即是:預訓練打底,真機點睛,用低成本數據覆蓋廣度,用高精度數據確保深度。
對于通過遙操作采集、UMI、仿真合成、人類視頻學習四種方式獲取的數據,Agility CTO Pras Velagapudi在GTC上畫了一座“金字塔”,其中位于塔尖的正是遙操作采集到的數據——最難獲取、量最小,但質量最高。往下依次是UMI、第一人稱視角數據、通用視頻——越往下越好采集,量越大,但信息密度也越低。
所以他的觀點很清晰:盡量用塔尖的數據做最核心的任務,同時盡可能利用塔底數據預訓練的模型作為起點。
值得關注的是,目前這套邏輯正在成為行業通用語言。
宇樹科技創始人王興興也認為,應該盡可能在預訓練階段,多使用視頻數據、互聯網數據、仿真數據等,先把基礎模型訓練出來,再提高對真實機器人數據的利用效率。這樣,真機數據可以更少,但系統依然能夠跑起來。
“哪怕你真的有一萬臺機器人,也派一萬人去采數據,最后效果也不一定好。因為這里面還有數據質量、硬件差異、傳感器差異等很多問題。不是說機器數量多了,數據效果就一定會線性提升。”所以他認為,大家應該進一步提高數據利用率,盡可能多利用視頻數據和仿真數據,減少對真機大規模采集的依賴。
Skild AI CEO Deepak Pathak用一個更生動的類比解釋了這套打法:就像小孩看成人學習,身體比例完全不同,但通過觀察和實踐,仍然能學到東西。
不過,盡管行業對具身數據技術路線的融合已經形成共識,一個不容忽略的事實是:在這場數采路線之爭里,還有一只看不見的手在悄然影響著行業格局。
“數據這件事,尤其是數采廠,有地方政府的助力,就會更傾向與本體公司及地方政府合作,從而獲得很大的機會用當期收入建設以遙操作為主的數采中心,也就較少去發展像UMI這樣的數據采集方式。”有業內人士表示。
這話說得委婉,但潛臺詞也很明顯:政府的支持就像一把雙刃劍,既能在短期內快速鋪開數據基建,讓行業跑出加速度,但也可能讓技術路線產生路徑依賴,延緩UMI這類更靈活、更低成本的方案在中國的落地節奏。
試想一下,如果沒有政府的支持和補貼,還會有這么多數采中心用遙操作方式采集數據嗎?答案是顯而易見的。
結語
當政策、產業、資本三股力量同時注入,當遙操作、UMI、仿真合成、人類視頻學習等多條技術路線并行向前,具身智能的數據困境正在從“能不能解決”變成“什么時候解決”。
就如曾經的自動駕駛,產業發展初期一樣面臨數據短缺難題,但通過產業鏈上下游的協同發力,以及海量真實道路數據的積累與算法迭代,如今行業已經成功實現了從L2到更高級別自動駕駛的突破。
具身智能必然也會沿著類似的軌跡前行,不同技術路線在競爭中相互借鑒、優勢互補,最終逐步擺脫“數據荒”的束縛。