直击智源大会｜蚂蚁灵波朱兴：直面物理世界三大挑战，打造机器人时代的智能基座

品牌　　【直播】　　50强　　整机　　【联盟】　　机构　　【视界】　　展会　　【招聘】　　云服务　　微博　　公众号AIrobot518　

软件/系统

无人车

机械手

服务机器人

AGV/IGV

【今日焦点】

【行业动态】

物流机器人: 潜入式AGV; 全向轮AGV; 重载式AGV; 牵引式AGV; 分拣AGV; 料箱机器人; 穿梭车; 复合机器人; 龙门机器人

工业机器人: 多关节机器人; 水平关节机器人; 并联机器人; 坐标机器人; 焊接机器人; 喷涂机器人; 码垛机器人; 协作机器人

[行业新闻] 捷象灵越与极智嘉达成深度合作，共拓全球托盘......

2026-06-17
[行业新闻] 三一机器人无人叉车重磅亮相2026工程机械......

2026-06-17
[行业新闻] 上海ProPak开展｜翼菲BAT并联机器人......

2026-06-17
[行业新闻] 井松智能完成董事会换届，董事长姚志坚兼任总......

2026-05-26
[行业新闻] AGV项目怎么评估可行性？5大维度+20个......

2026-05-22
[行业新闻] 具身智能人形机器人NAVIAI 亮相Log......

2026-05-09

NEWS / 新闻中心

直击智源大会｜蚂蚁灵波朱兴：直面物理世界三大挑战，打造机器人时代的智能基座

2026 年 6 月 13 日，第八届北京智源大会「具身产业 CEO 论坛」在北京正式召开。蚂蚁灵波 CEO 朱兴受邀出席，发表主题演讲《探索具身智能的上限，打造机器人时代的智能基座》，并参与圆桌对谈。他从产业发展角度出发，分享了我们的最新实践与前沿洞察。

在主题演讲中，朱兴从物理 AI 面临的三大挑战出发，系统阐述了蚂蚁灵波在面对传感器感知困境、高动态交互与泛化性问题上的思考与实战解法，同时直面产业落地中的真实痛点，分享了我们在商业落地过程中的感悟。

本次论坛分享上，蚂蚁灵波提出核心技术主张“具身原生”，预判未来会有为物理世界原生设计的模型，而围绕这一技术主张的相关成果将于七月正式对外发布。

为了让大家更清晰地了解蚂蚁灵波在具身智能产业的最新思考，我们将 CEO 朱兴的现场发言整理成文。以下为本次大会的演讲实录分享：

大家好，我是蚂蚁灵波科技的朱兴，非常高兴有机会跟大家介绍我们前段时间的工作。

现在业界比较期盼具身智能的产业化、规模化落地，但是客观讲，当前具身智能技术成熟度总体仍处于早期，目前只能在环境简单、任务比较单一的场景做小规模商业试点。相比大脑的进展，过去几年小脑和硬件发展更快。但是往前看，随着大脑更聪明，AI 将反向定义硬件。

一、通往物理世界需要跨越三道鸿沟

我们认为，一个聪明的大脑，需要跨越三道物理世界的鸿沟，分别是：传感器出发的感知困境、高动态交互，以及泛化性问题。

首先是传感器
出发
的感知困境，目前，模态方面还有很多问题亟待解决，比如视觉和触觉问题。怎么让机器人看得更清楚、摸得更明白？触觉如何进入机器人的推理，而非仅仅应用于末端控制？当然，除了视觉和触觉，还有更多模态，比如声音、温度等等，还有很多工作要做。
第二是高动态交互，也就是具身智能如何与物理世界进行交互，我认为这是具身大脑面临的一个最大的挑战。
第三个是泛化性问题，我认为在当前的模型架构范式下，泛化性问题本质是数据的问题。

为了应对以上挑战，今年一月底，蚂蚁灵波发布了 LingBot 1.0 系列模型，涵盖了从空间智能、灵巧操作，到环境交互的全栈技术。LingBot 系列模型开源之后，我们收到了很多关注和反馈。目前，LingBot 系列模型的 GitHub Star 数已经超过了 1.5 万，技术报告被引用超过 200 次。

二、LingBot 系列模型：

覆盖感知与动作的全栈布局

回到物理 AI 要面对的三大挑战，接下来我会逐一介绍蚂蚁灵波应对这些挑战的解法。

■ 解法一：看得更清楚，摸得更明白

在空间智能方向，着重解决机器人“看得更清楚”和“摸得更明白”的问题。

反光、透明、密集摆放是机器人未来进入家庭后非常典型的场景，而目前机器人在这些场景仍有较大欠缺，因此我们开源了基于深度补全技术的空间感知模型 LingBot-Depth和 300 万对深度数据集。

我们可以看到使用 LingBot-Depth 模型前后的机器人视觉效果对比。很明显，在使用了 LingBot-Depth 后，机器人能够更清晰地看到反光、透明以及密集摆放的物体。实际上，距离是一个会被人纳入推理和思考的要素，因此，机器人如果没有正确的距离感和清晰的视野，很多事情是干不明白的，更不用说深层次的应用了。

同时我们也联合奥比中光，计划在今年内推出几款商业化产品，其中一个是奥比中光基于 LingBot-Depth 的小尺寸模型打造的下一代一体化深度相机。LingBot-Depth 也有中尺寸模型，未来可能会跟算力一起，以 SDK 的形式让存量相机看得更清楚；LingBot-Depth 的大尺寸模型可能会通过云端 Token 的形式给到更多客户。

触觉方面，推理侧的触觉工作目前还在推进过程中，目前我们已经比较好做到了末端侧的控制执行。实际上，日常生活中有很多场景是离不开触觉的，比如用铅笔写字、倒水等等，机器人如果没有很高精度的触觉感知，是无法完成这些动作的。

■ 解法二：想得更清楚，干得更利索

在高动态交互方向，我们着重解决机器人“想得更明白”的问题。

高动态交互问题的本质是记忆、因果、时序问题，为了解决这些问题，我们发布了全球首个对标谷歌 Genie3 的开源世界模型 LingBot-World。借助 LingBot-World，我们能够在一定程度上解决刚才提到的记忆、因果、时序等问题，因此也由此衍生出了让机器人“边推演边行动”的全球首个自回归视频-动作模型 LingBot-VA，该模型的论文已被国际机器人顶会 RSS 2026 接收。

■ 泛化性的挑战本质上是数据的挑战

最后是第三个难题，泛化性的挑战。今天我想从蚂蚁灵波的角度，从我们当前阶段实践的 Know-how 角度来看这个问题。我们认为泛化性问题的背后其实是数据的问题。重点不是哪种数据更好，哪种数据更坏，我们的重点应该是要解决哪种问题，解决不同的泛化问题时，用的数据是不太一样的，当然，这只是蚂蚁灵波的做法。

目前，我们将泛化挑战拆解为了构型泛化、任务泛化、环境泛化三类。这里我想重点强调两点，第一点是我们不能只谈数据规模，不谈数据质量，数据的质量和分布是同等重要的。我们去年在市场上大规模收集真机数据时就发现，基本的模态质量和重复度的情况是比较糟糕的。