中大研「眼看手模」机械人模拟人类3D空间认知

更新时间：17:35 2026-04-30 HKT
发布时间：17:35 2026-04-30 HKT

机械人虽可理解人类的语言指令，但对物体之间的三维空间关系缺乏深入认知。中文大学工程学院团队成功研发具空间智能的视觉语言大模型（Vision-Language Models, VLM）技术，让机械人能像人类一样理解三维空间资讯，结合视觉及触觉传感器数据，令机械人可模拟人类「眼看手摸」的协作方式，自主完成各项复杂长序列的操作任务。研究成果已于国际知名期刊《Science Robotics》刊登。

让机械人有能力执行复杂任务

中大与加州大学伯克莱分校教授组成的研究团队，提出名为「检索增强操作」（Retrieval-Augmented Manipulation，RAM）的新方法，使机械人在规划操作任务过程中，能同时回答「每一步该做什么」及「在三维空间中怎样做才可行」两个关键问题，并为机械人建构了三维物件知识库，记录日常生活常见物件的三维几何形状、摆放方式及可抓取部位。当VLM在生成操作计划时，可即时从知识库检索物体的几何与操作纪录，评估及判断实际可行的操作序列，将抽象指令转化为准确的空间描述，让AI机械人有能力执行复杂任务。

延伸阅读：中大团队揭月球内部水资源新线索玻璃珠研究颠覆传统认知

新方法有效突破大模型在语言理解及推理能力的局限，将AI拓展至复杂的三维物理操作场景。负责研究的计算机科学与工程学系副教授窦琪指，赋予机械人空间智能是提升机械人执行复杂操作能力的关键，视觉感知是实现空间智能的重要环节。在目前涵盖的31个不同物体的14项空间感知操作任务中，RAM可让机械人精确执行空间语言指令、推理三维空间关系，以及根据场景物理条件，作出自适应操作。新技术更可搭配现时市面通用的VLM使用，并可应用于通用的人形机械人平台，完成精细化且复杂的操作任务。

延伸阅读：中大校长卢煜明获美国癌症研究协会颁发「杰出讲座奖」

中大新研发的系统更具备视触融合的可扩展性，兼容触觉反馈以增强机械人的自适应操作能力。中大卓敏机械与自动化工程学教授兼香港物流机械人研究中心（HKCLR）总监刘云辉指，研究展示AI技术在提升机械人操作能力的巨大潜力，在工业和家庭等不同场景具广泛的应用前景，有助进一步改善人类生活。

本报记者

诚邀大家做问卷调查，话俾我哋知你对《星岛教育》有咩意见！连结：>>按此<<

↓即睇DSE2026专页↓