科技公司 Google 宣布与 Boston Dynamics 合作,将其 Gemini Robotics 具身推理模型整合到四足机器人 Spot 中,标志着人工智能在实际机器人应用方面迈出了重要一步。此次合作使机器人能够更好地理解其环境、识别物体,并根据自然语言指令执行任务,而不是仅仅依赖预编程的程序。
此整合建立在 2025 年内部黑客马拉松期间进行的实验工作基础上,开发人员探索了大型语言模型和视觉推理系统如何增强 Spot 的自主性。通过利用 Gemini Robotics,机器人可以处理来自其摄像头的视觉输入,并将高级指令(例如整理房间中的物品)转化为协调的物理动作。
与通常依赖严格的逐步逻辑的传统机器人编程不同,该系统引入了基于对话提示的更灵活界面。开发人员使用 Spot 的软件开发套件创建了一个中间软件层,使 Gemini 模型能够与机器人的应用程序编程接口进行通信。此框架使 AI 能够从一组定义的动作中进行选择,包括导航、物体检测、图像捕获、抓取和放置。
在实际演示中,该系统展示了解释一般指令和适应动态环境的能力。例如,当被要求整理物品时,AI 模型分析视觉数据,识别相关物体,并指导机器人完成一系列动作。来自机器人的反馈(例如任务完成或物理限制)被实时纳入,使系统能够在无需人工干预的情况下调整其行为。
该方法通过将 AI 限制在机器人 API 内的预定义功能来维持操作边界,确保可预测和可控的性能。这种设计在适应性和安全性之间取得平衡,这是在物理系统中部署 AI 的关键考虑因素。
此次合作还突显了开发人员的潜在效率提升。通过减少大量手动编码的需求,自然语言界面使工程师能够专注于定义目标,而不是编程每个动作序列。这种转变可能会加速制造、检查和物流等行业的机器人应用开发。
尽管实施仍处于实验阶段,但该演示反映了物理 AI 的更广泛趋势,其中基础模型越来越多地用于增强机器感知和决策能力。两家公司均表示正在进行进一步开发,包括继续将基于 Gemini 的系统整合到机器人平台中。
此次合作表明正在向更直观的人机交互过渡,复杂的机器人行为可以通过简化的输入进行引导。随着 AI 模型的不断发展,这种整合可能会扩大自主系统的功能范围,同时降低其部署的技术障碍。
Google 与 Boston Dynamics 将 Gemini Robotics 模型整合到 Spot 中以实现高级感知和任务执行一文首次发表于 Metaverse Post。


