中大研「眼看手模」機械人模擬人類3D空間認知

更新時間：17:35 2026-04-30 HKT
發佈時間：17:35 2026-04-30 HKT

機械人雖可理解人類的語言指令，但對物體之間的三維空間關係缺乏深入認知。中文大學工程學院團隊成功研發具空間智能的視覺語言大模型（Vision-Language Models, VLM）技術，讓機械人能像人類一樣理解三維空間資訊，結合視覺及觸覺傳感器數據，令機械人可模擬人類「眼看手摸」的協作方式，自主完成各項複雜長序列的操作任務。研究成果已於國際知名期刊《Science Robotics》刊登。

讓機械人有能力執行複雜任務

中大與加州大學伯克萊分校教授組成的研究團隊，提出名為「檢索增強操作」（Retrieval-Augmented Manipulation，RAM）的新方法，使機械人在規劃操作任務過程中，能同時回答「每一步該做什麼」及「在三維空間中怎樣做才可行」兩個關鍵問題，並為機械人建構了三維物件知識庫，記錄日常生活常見物件的三維幾何形狀、擺放方式及可抓取部位。當VLM在生成操作計劃時，可即時從知識庫檢索物體的幾何與操作紀錄，評估及判斷實際可行的操作序列，將抽象指令轉化為準確的空間描述，讓AI機械人有能力執行複雜任務。

延伸閱讀：中大團隊揭月球內部水資源新線索玻璃珠研究顛覆傳統認知

新方法有效突破大模型在語言理解及推理能力的局限，將AI拓展至複雜的三維物理操作場景。負責研究的計算機科學與工程學系副教授竇琪指，賦予機械人空間智能是提升機械人執行複雜操作能力的關鍵，視覺感知是實現空間智能的重要環節。在目前涵蓋的31個不同物體的14項空間感知操作任務中，RAM可讓機械人精確執行空間語言指令、推理三維空間關係，以及根據場景物理條件，作出自適應操作。新技術更可搭配現時市面通用的VLM使用，並可應用於通用的人形機械人平台，完成精細化且複雜的操作任務。

延伸閱讀：中大校長盧煜明獲美國癌症研究協會頒發「傑出講座獎」

中大新研發的系統更具備視觸融合的可擴展性，兼容觸覺反饋以增強機械人的自適應操作能力。中大卓敏機械與自動化工程學教授兼香港物流機械人研究中心（HKCLR）總監劉雲輝指，研究展示AI技術在提升機械人操作能力的巨大潛力，在工業和家庭等不同場景具廣泛的應用前景，有助進一步改善人類生活。

本報記者

誠邀大家做問卷調查，話俾我哋知你對《星島教育》有咩意見！連結：>>按此<<

↓即睇DSE2026專頁↓