中大研「眼看手模」機械人 模擬人類3D空間認知
發佈時間:17:35 2026-04-30 HKT
機械人雖可理解人類的語言指令,但對物體之間的三維空間關係缺乏深入認知。中文大學工程學院團隊成功研發具空間智能的視覺語言大模型(Vision-Language Models, VLM)技術,讓機械人能像人類一樣理解三維空間資訊,結合視覺及觸覺傳感器數據,令機械人可模擬人類「眼看手摸」的協作方式,自主完成各項複雜長序列的操作任務。研究成果已於國際知名期刊《Science Robotics》刊登。
讓機械人有能力執行複雜任務
中大與加州大學伯克萊分校教授組成的研究團隊,提出名為「檢索增強操作」(Retrieval-Augmented Manipulation,RAM)的新方法,使機械人在規劃操作任務過程中,能同時回答「每一步該做什麼」及「在三維空間中怎樣做才可行」兩個關鍵問題,並為機械人建構了三維物件知識庫,記錄日常生活常見物件的三維幾何形狀、擺放方式及可抓取部位。當VLM在生成操作計劃時,可即時從知識庫檢索物體的幾何與操作紀錄,評估及判斷實際可行的操作序列,將抽象指令轉化為準確的空間描述,讓AI機械人有能力執行複雜任務。
延伸閱讀:中大團隊揭月球內部水資源新線索 玻璃珠研究顛覆傳統認知
新方法有效突破大模型在語言理解及推理能力的局限,將AI拓展至複雜的三維物理操作場景。負責研究的計算機科學與工程學系副教授竇琪指,賦予機械人空間智能是提升機械人執行複雜操作能力的關鍵,視覺感知是實現空間智能的重要環節。在目前涵蓋的31個不同物體的14項空間感知操作任務中,RAM可讓機械人精確執行空間語言指令、推理三維空間關係,以及根據場景物理條件,作出自適應操作。新技術更可搭配現時市面通用的VLM使用,並可應用於通用的人形機械人平台,完成精細化且複雜的操作任務。
延伸閱讀:中大校長盧煜明 獲美國癌症研究協會頒發「傑出講座獎」
中大新研發的系統更具備視觸融合的可擴展性,兼容觸覺反饋以增強機械人的自適應操作能力。中大卓敏機械與自動化工程學教授兼香港物流機械人研究中心(HKCLR)總監劉雲輝指,研究展示AI技術在提升機械人操作能力的巨大潛力,在工業和家庭等不同場景具廣泛的應用前景,有助進一步改善人類生活。
本報記者
誠邀大家做問卷調查,話俾我哋知你對《星島教育》有咩意見!連結:>>按此<<

















