當前位置：智能制造網資訊中心市場分析

具身智能的“數據饑渴”，有解了？

2026-03-23 09:40:26來源：蓋世汽車關鍵詞：具身智能具身智能開源數據集社區閱讀量：6971

導讀：由于具身智能產業的發展高度依賴數據飛輪驅動，過去幾年賽道企業幾乎都自建了數采體系，并視數據為核心競爭力。然而邁入2026年，龐大的數據缺口像一面鏡子，逐漸讓所有人看清了一個現實：沒有任何一家企業能獨自填滿這個窟窿。

　　和自動駕駛發展初期一樣，具身智能也迎來了“數據荒”時刻。

　　據相關分析數據顯示，具身機器人訓練大約需要數千億級的交互數據，然而全行業現存數據卻僅幾百萬條，存在10萬倍的缺口。

　　如此巨大的數據鴻溝，僅靠單一企業或機構獨立采集與積累，顯然不現實。

　　正是洞察這一點，具身智能行業正一改過去單打獨斗的做法，積極探索產業協同。從創業公司到產業巨頭，再到地方政府，各方力量紛紛加入數據共建行列，試圖從源頭打破數據“孤島”，為具身智能產業演進提供更充足的“養料”。

　　破解“數據荒”，不能再單打獨斗

　　近日，由工信部指導、開放原子開源基金會發起，樂聚機器人牽頭，聯合螞蟻靈波、上海交大、宇樹等核心單位共建的“具身智能開源數據集社區”正式啟動。

　　這則消息如果放在兩年前，可能只是具身智能行業的一條“簡訊”。但在2026年的今天，有了完全不同的分量。

　　作為國家級平臺發起的首個具身智能開源數據集社區，該項目的目標寫得很直白：打破具身智能產業“數據孤島、采集成本高、標注效率低、模型泛化弱”四重枷鎖。

　　翻譯成大白話就是——具身“數據荒”這事，靠單打獨斗搞不定了。

　　由于具身智能產業的發展高度依賴數據飛輪驅動，過去幾年賽道企業幾乎都自建了數采體系，并視數據為核心競爭力。然而邁入2026年，龐大的數據缺口像一面鏡子，逐漸讓所有人看清了一個現實：沒有任何一家企業能獨自填滿這個窟窿。

　　于是，行業心態開始發生微妙變化，不僅國家級平臺開始牽頭“攢局”，甚至樂聚、宇樹、智元這些曾經的競爭對手，也紛紛把數據拿出來共享，一邊共建行業聯盟，一邊開源自家數據集。

　　比如智元AgiBot World、樂聚LET、銀河通用 DexonomySim、它石智航WIYH、樞途科技HORA、簡智10Kh RealOmni、靈巧智能DexCanvas等數據集，目前都已宣布開源，覆蓋多模態訓練、人形機器人靈巧操作、全身運動等多個領域。

　　其中它石智航還發起了“具身數據星火計劃”，目標推動實現1億小時級別的數據共享。地平線、地瓜機器人與無問智科，也于近期聯合發起了10000 + 小時具身智能開源數據集計劃。

　　為什么大家突然對數據集開源這么熱衷了？

　　“對企業而言，開源這件事其實沒什么風險。可能在這個過程中，有些企業更多是借此換取影響力，但數據開源后其實大家也可以相互交流、共同創新，由此產生的價值可能會更大。”相關業內人士表示。

　　換言之，單家企業能觸及的場景、能采集的數據終究有限。開源之后，可以有更多的開發者幫忙看bug、提優化——這哪里是“共享”，分明是“眾包”研發。

　　如果說企業層面的開源，是市場力量的橫向協同，那么地方政府的介入，就是縱向的基礎設施投入。

　　據蓋世汽車研究院不完全統計，2025年僅地方購入的數采機器人訂單金額就超過了10億元。

　　其后，據權威研究機構Interact Analysis調研數據顯示，截至2025年年底，中國已經有50個以上國家或省市區級人形機器人數采中心處于使用或規劃建設中，分布在大約19個省份，其中50%以上的數采中心已經在2025年投入使用。

　　從規模來看，上海張江機器人谷和北京石景山具身智能綜合實訓場等，目前均已部署近百臺數采機器人。

　　這些數字背后是一個清晰的判斷：數據采集正在從“企業行為”變成“政府工程”。

　　但真正把這場集體行動推向高潮的，是京東。

　　日前，京東宣布將于一年內積累500萬小時人類真實場景視頻數據，兩年內突破1000萬小時，同步實現采集機器人本體數據100萬小時——這個量級，無疑讓很多公司望塵莫及。

　　目前，京東已建成行業領先的機器人數據采集中心，構建“采集—標注—訓練—驗證”全流程數據流水線。

　　更讓人驚嘆的是該項目的采集規模：京東將發動數十萬人參與數據采集——包括內部超過10萬名各類職業員工，以及外部最多50萬名各行業人員，其中僅在宿遷就將發動超10萬名市民參與。從家庭、辦公室到物流、商店、醫療，覆蓋超百個細分場景。

　　如果京東這一計劃順利落地，有望成為“人類歷史上規模最大的數據采集行動”。

　　但熱鬧歸熱鬧，一個疑問隨之而來：既然數據對于具身智能的重要性行業早已深知，為何直到現在才被推向如此高度？

　　在蓋世汽車研究院分析師看來，這是因為當前具身機器人的運動控制已經趨于成熟，缺乏真實數據成了訓練通用“大腦”的最大瓶頸。

　　過去兩年，具身智能領域的焦點，主要集中在機器人本體研發和運動能力的突破上，例如：如何讓機器人更穩定地行走甚至奔跑，以及更靈活地抓取物體等。目前，這些問題正逐步得到解決，機器人的身體越來越靈活，反而機器人的大腦開始不”夠用”了。

　　而要訓練出真正通用的機器人“大腦”，海量高品質的數據恰恰是最核心的“養料”。

　　不過，在京東數采規劃刷爆網絡的同時，也不乏質疑聲。

　　“利用真實業務場景和‘人海戰術’獲取海量數據，理論上可行，且直擊行業數據荒的痛點。但成敗關鍵更在于能否采集到包含力覺、觸覺的高質量動作數據，否則可能淪為低效的視頻數據堆砌。”蓋世汽車研究院前述分析師就認為。

　　這句話無疑戳中了具身數采的核心：規模不等于質量，視頻不等于有效數據。

　　數十萬人戴著采集設備逛超市、送快遞，產出的海量視覺數據，固然能讓機器人學會“什么是門”“什么是蘋果”，但能讓它們學會“用多大力度捏住雞蛋而不碎”嗎？

　　答案目前還不得而知。

　　即便有數據，怎么用更關鍵

　　對于具身智能而言，當前產業鏈層面的由分到合，解決的是數據從哪里來的問題。

　　而在水面之下，另一場更深層的融合也在同步發生：不同數據技術路線之間的使用界線，正在變得模糊。

　　日前，在英偉達GTC 2026上，Physical Intelligence(PI)聯合創始人Chelsea Finn就直言，很多人原本以為，如果讓機器人形態最接近人類，就能最好地從人類視頻遷移。但實際上，當機器人數據本身足夠多樣時，模型反而更容易把“人類數據”和“機器人數據”之間的點連起來。

　　“所以我們不僅利用機器人的真實數據，也利用其他數據源，尤其是網絡視頻、人類視頻等，目標訓練出一個真正有泛化能力的模型：能跨具身形態、跨環境、跨任務工作。”Chelsea Finn 表示。

　　這話聽著繞口，但翻譯過來就一句：別只押注單一數據源。

　　蓋世汽車研究院分析師亦認為，雖然說UMI便攜采集是對數據質量和規模的有效平衡，但這并不意味著遙操作采集、仿真合成等技術路線會被取代。“更現實的情況是，具身智能數據體系應該是一個分層采用、分階段取舍的系統”。

　　比如千尋智能，就堅定以“多樣性”為核心推進Scaling路線。目前，該公司已累計獲取超20萬小時多類型真實交互數據，覆蓋互聯網視頻、遙操作、可穿戴采集等維度，預計2026年總量將進一步突破100萬小時。

　　穹徹智能研究科學家呂峻也指出，由于遙操作采集在數據質量、模型訓練等方面的優勢，在UMI之外，穹徹智能直到今天也仍在持續這種模式。

　　那么問題來了，雖然說數采路線多元融合已經是行業共識，具體該怎么融合呢？

　　一個被反復提及的答案是：分層使用，各取所長。更具體一點，也即是：預訓練打底，真機點睛，用低成本數據覆蓋廣度，用高精度數據確保深度。

　　對于通過遙操作采集、UMI、仿真合成、人類視頻學習四種方式獲取的數據，Agility CTO Pras Velagapudi在GTC上畫了一座“金字塔”，其中位于塔尖的正是遙操作采集到的數據——最難獲取、量最小，但質量最高。往下依次是UMI、第一人稱視角數據、通用視頻——越往下越好采集，量越大，但信息密度也越低。

　　所以他的觀點很清晰：盡量用塔尖的數據做最核心的任務，同時盡可能利用塔底數據預訓練的模型作為起點。

　　值得關注的是，目前這套邏輯正在成為行業通用語言。

　　宇樹科技創始人王興興也認為，應該盡可能在預訓練階段，多使用視頻數據、互聯網數據、仿真數據等，先把基礎模型訓練出來，再提高對真實機器人數據的利用效率。這樣，真機數據可以更少，但系統依然能夠跑起來。

　　“哪怕你真的有一萬臺機器人，也派一萬人去采數據，最后效果也不一定好。因為這里面還有數據質量、硬件差異、傳感器差異等很多問題。不是說機器數量多了，數據效果就一定會線性提升。”所以他認為，大家應該進一步提高數據利用率，盡可能多利用視頻數據和仿真數據，減少對真機大規模采集的依賴。

　　Skild AI CEO Deepak Pathak用一個更生動的類比解釋了這套打法：就像小孩看成人學習，身體比例完全不同，但通過觀察和實踐，仍然能學到東西。

　　不過，盡管行業對具身數據技術路線的融合已經形成共識，一個不容忽略的事實是：在這場數采路線之爭里，還有一只看不見的手在悄然影響著行業格局。

　　“數據這件事，尤其是數采廠，有地方政府的助力，就會更傾向與本體公司及地方政府合作，從而獲得很大的機會用當期收入建設以遙操作為主的數采中心，也就較少去發展像UMI這樣的數據采集方式。”有業內人士表示。

　　這話說得委婉，但潛臺詞也很明顯：政府的支持就像一把雙刃劍，既能在短期內快速鋪開數據基建，讓行業跑出加速度，但也可能讓技術路線產生路徑依賴，延緩UMI這類更靈活、更低成本的方案在中國的落地節奏。

　　試想一下，如果沒有政府的支持和補貼，還會有這么多數采中心用遙操作方式采集數據嗎？答案是顯而易見的。

　　結語

　　當政策、產業、資本三股力量同時注入，當遙操作、UMI、仿真合成、人類視頻學習等多條技術路線并行向前，具身智能的數據困境正在從“能不能解決”變成“什么時候解決”。

　　就如曾經的自動駕駛，產業發展初期一樣面臨數據短缺難題，但通過產業鏈上下游的協同發力，以及海量真實道路數據的積累與算法迭代，如今行業已經成功實現了從L2到更高級別自動駕駛的突破。

　　具身智能必然也會沿著類似的軌跡前行，不同技術路線在競爭中相互借鑒、優勢互補，最終逐步擺脫“數據荒”的束縛。

上一篇：車輪之后，鐵人出征：他們集體“下海”機器人

下一篇：7種基于云計算的可擴展技術解決方案

我要評論

昵稱

匿名

文明上網，理性發言。（您還可以輸入200個字符)

表情

所有評論僅代表網友意見，與本站立場無關。

小智一周要聞|禾賽與追覓生態再簽獨供大單；中鼎股份首臺人形機器人正式下線
禾賽將獨家為追覓生態旗下追覓品牌及MOVA品牌的割草機器人供應共計1000萬顆JT系列激光雷達；美國銀行的一份報告預測，到2060年，全球人形機器人數量或將達到驚人的30億臺——遠超目前全球上路的15億輛汽車......
具身智能人形機器人
2026-03-23 09:35:29
車輪之后，鐵人出征：他們集體“下海”機器人
從南到北，從新勢力到傳統巨頭，一場關于“造人”的競賽正在中國汽車工業的版圖上持續升溫。曾經只生產汽車的車企，突然集體宣布要“造人”。
具身智能機器人
2026-03-23 09:32:12
從兩會建言到工信行動：拓斯達緊抓“數據筑基”新機遇，加速具身智能規模化落地
拓斯達正在構建“場景＋產品(機器人)＋數據＋AI”的商業閉環，以龐大的客戶群體為起點，場景定義產品、產品采集數據、數據反哺AI模型、模型拓展場景邊界，讓具身智能真正落地物理世界。
拓斯達具身智能機器人
2026-03-19 09:27:18
在浦東，探索用“全開源”來辦機器人“派對”
近日，上海未來啟點社區與初創企業RoboParty(蘿博派對)的一場行業對話，為我們理解具身智能產業發展以及硬科技創新賽道，提供了一個鋒利而獨特的視角。

機器人具身智能
2026-03-19 09:25:02
從“造車”到“造人”：車企押注具身智能為哪般？
在人形機器人賽道上，車企之所以敢于扎堆入局，很大程度上是因為它們在多個維度上擁有天然優勢，尤其是與傳統機器人創業公司相比，汽車企業不僅擁有雄厚的制造能力，也掌握著成熟的供應鏈體系和豐富的應用場景。
車企人形機器人具身智能
2026-03-17 09:05:25
人形機器人產業爆發傳感器行業迎來千億級發展新機遇
隨著人形機器人量產進程提速、應用場景持續拓寬，傳感器行業徹底打破傳統應用邊界，迎來市場規模擴容、技術迭代加速、國產替代深化的全方位機遇，成為高端傳感器領域最具增長潛力的核心增量賽道。
人形機器人具身智能傳感器
2026-03-16 09:57:54

版權與免責聲明：

凡本站注明“來源：智能制造網”的所有作品，均為浙江興旺寶明通網絡有限公司-智能制造網合法擁有版權或有權使用的作品，未經本站授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的，應在授權范圍內使用，并注明“來源：智能制造網”。違反上述聲明者，本站將追究其相關法律責任。

本站轉載并注明自其它來源（非智能制造網）的作品，目的在于傳遞更多信息，并不代表本站贊同其觀點或和對其真實性負責，不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉載時，必須保留本站注明的作品第一來源，并自負版權等法律責任。如擅自篡改為“稿件來源：智能制造網”，本站將依法追究責任。

鑒于本站稿件來源廣泛、數量較多，如涉及作品內容、版權等問題，請與本站聯系并提供相關證明材料：聯系電話：0571-89719789；郵箱：1271141964@qq.com。

不想錯過行業資訊？

訂閱 智能制造網APP

一鍵篩選來訂閱

信息更豐富

今日焦點/FOCUS 更多

熱門話題/TOPICS更多

MWC 2026|中國智造正在巴塞羅那狂飆

MWC 2026圓滿收官！賽思時頻同步+SLIC語音全棧解決方案“夯爆”巴塞羅那！

2026世界移動通信大會（MWC）的中國力量

CES 2026亮點直擊

車凌科技CES 2026發布Hyper Hub，為車企構建數據生態連接器

科技春晚變主場：中國機器人憑何“掀翻”全球賽道

精彩直播/VIDEO更多

回放

【與智造同行】走進華為AI＋制造行業峰會2025——如何讓智能制造走深走實？華為給你答案！

: 數字孿生賦能新型工業化分論壇

: 數字孿生賦能低空經濟分論壇

推薦產品/PRODUCT 更多

絕緣材料電阻特性研究平臺
絕緣材料電阻率綜合測試平臺,絕緣材料電氣性能評測系統,高阻絕緣特性分析平臺,絕緣材料電阻特性綜合評價系統,絕緣電阻與介電性能一體化測試系統
品牌
華測
AC-MOTOREN電機FCM 225M-4/HE
電機,AC-MOTOREN,FCY 132 M-4/HE,6316.C3,ACA 100 LA-8
品牌
其他品牌
di-soric德碩瑞光電開關OLEQ10M500P1K-TSSL
光電開關
品牌
di-soric/德頊瑞
保護型電流互感器
5P20保護型電流互感器,10P10繼電保護電流互感器
品牌
其他品牌
COAX減壓閥
COAX HPB系列壓力控制閥,工業液壓/冷卻液系統減壓閥,直動式外部控制限壓閥,DN32螺紋式高壓同軸減壓閥,德國COAX 3HPB-S32直通式壓力調節閥
品牌
coax
SMC CQ2 系列薄型氣缸
氣缸
品牌
SMC

具身智能的“數據饑渴”，有解了？

熱門評論

全部評論