777精品久无码人妻蜜桃,国产日本精品视频在线观看 ,国产亚洲99久久精品熟女av,brazzersvideosex欧美最新版,人人爽人人人爽人人爽

提升機器人3D操作能力，北京大學(xué)與智元機器人聯(lián)合實驗室發(fā)布OmniManip

?IT之家 2025-01-23 15:21

目前項?主?與論?已上線，代碼與測試平臺即將開源。

1月23日消息，如何將視覺語?基礎(chǔ)模型（Vision Language Models, VLMs）應(yīng)?于機器?以實現(xiàn)通?操作是具身智能領(lǐng)域的?個核?問題，這??標(biāo)的實現(xiàn)受兩?關(guān)鍵挑戰(zhàn)制約：

VLM缺少精確的3D理解能?：通過對?學(xué)習(xí)范式訓(xùn)練、僅以2D圖像/?本作為輸?的VLM的天然局限；

?法輸出低層次動作：將VLM在機器?數(shù)據(jù)上進?微調(diào)以得到視覺 - 語? - 動作（VLA）模型是?種有前景的解決?案，但?前仍受到數(shù)據(jù)收集成本和泛化能?的限制。

上海智元新創(chuàng)技術(shù)有限公司官方今日發(fā)文稱，北?攜?智元機器?團隊提出OmniManip架構(gòu)，基于以對象為中?的3D交互基元，將VLM的高層次推理能力轉(zhuǎn)化為機器?的低層次高精度動作。

針對?模型幻覺問題和真實環(huán)境操作的不確定性，OmniManip引?了VLM規(guī)劃和機器?執(zhí)?的雙閉環(huán)系統(tǒng)設(shè)計，實現(xiàn)了操作性能突破。目前項?主?與論?已上線，代碼與測試平臺即將開源。

從智元機器人官方獲悉，OmniManip的關(guān)鍵設(shè)計包括：

基于VLM的任務(wù)解析：利?VLM強?的常識推理能?，將任務(wù)分解為多個結(jié)構(gòu)化階段（Stages），每個階段明確指定了主動物體（Active）、被動物體（Passive）和動作類型（Action）。

以物體為中?的交互基元作為空間約束：通過3D基座模型?成任務(wù)相關(guān)物體的3D模型和規(guī)范化空間（canonical space），使VLM能夠直接在該空間中采樣3D交互基元，作為Action的空間約束，從?優(yōu)化求解出Active物體在Passive物體規(guī)范坐標(biāo)系下的?標(biāo)交互姿態(tài)。

閉環(huán)VLM規(guī)劃：將?標(biāo)交互姿態(tài)下的Active/Passive物體渲染成圖像，由VLM評估與重采樣，實現(xiàn)VLM對?身規(guī)劃結(jié)果的閉環(huán)調(diào)整。

閉環(huán)機器?執(zhí)?：通過物體6D姿態(tài)跟蹤器實時更新Active/Passive物體的位姿，轉(zhuǎn)換為機械臂末端執(zhí)?器的操作軌跡，實現(xiàn)閉環(huán)執(zhí)?。

此外，OmniManip具備通?泛化能?，不受特定場景和物體限制。團隊已將其應(yīng)?于數(shù)字資產(chǎn)?動標(biāo)注/合成管道，實現(xiàn)?規(guī)模的機器?軌跡?動采集。該研究團隊將開源泛化操作?規(guī)模數(shù)據(jù)集和對應(yīng)的仿真評測基準(zhǔn)。

據(jù)此前報道，以“天才少年”身份加入華為的稚暉君于2022年底宣布離職，創(chuàng)業(yè)智元機器人。2024年9月3日，智元機器人完成A++++++輪融資，估值已超過70億元，得到了包括北汽、上汽、比亞迪在內(nèi)的國內(nèi)汽車巨頭支持。

目前，智元機器人量產(chǎn)的第1000臺通用具身機器人已于本月（1月6日）正式下線，其中包括731臺雙足人形機器人（遠征A2/靈犀X1）和269臺輪式通用機器人（遠征A2-D/A2-W）。

喜歡您正在閱讀的內(nèi)容嗎？歡迎免費訂閱泰伯每周精選電郵。立即訂閱

打開APP，查看更多內(nèi)容

聲明：泰伯網(wǎng)登載此文出于傳遞更多信息之目的，并不意味著贊同其觀點或證實其描述，文章內(nèi)容僅供參考。

參與評論

{{item.username}}

{{item.content}}

{{item.created_at}}

{{item.support}}

回復(fù){{item.replynum}}

{{child.username}} 回復(fù) {{child.to_username}}：{{child.content}}