·物理直觉:几个月大的婴儿,就会对“违反物理规律”的事情表现出惊讶。比如物体悬空不落、突然消失又出现,他们会盯着看更久——说明他们天生就对重力、支撑、物体恒存有了基本预期。
而机器人要学完海量数据,才勉强明白“东西掉下去会落地”这种常识。
·多感官学习:婴儿通过看、抓、爬、扔、咬,实时构建对世界的理解。第一次爬下沙发,身体就在感知高度、风险与动作控制——这种“体感学习”是纯数据替代不了的。
而机器人没有重量感、没有肌肉记忆,知识始终是抽象的、飘着的。
·小样本举一反三:婴儿是高效学习机器,大脑天生就对模式、因果和结构异常敏感。可能只见过两三只狗,就能认出不同品种的狗;没系统学过语法,却能快速掌握语言规则。
而机器人识别一只狗,可能需要学习百万张标注图片。
所以说,别小看婴儿的跌跌撞撞——每一步都是在快速的学习,增加脑回路。机器人今天走得笨拙,也许正是因为它终于开始像婴儿一样,用身体去理解世界了。
而理解这个世界的关键,就是为具身智能创造一个属于它的数据生态,以此构建机器人的“成长系统”。
千寻智能打造了一套完整的具身智能数据收集与训练系统,彻底颠覆了传统的逻辑和方式。他们几乎穷尽了人类各种动作模式,用于训练机器人,从简单的抓取,到复杂的任务,将这些从零开始的技能进化过程,凝缩为可迭代、可复用的数据体系。
更重要的是,千寻智能将数据的维度,从一维的文本空间,扩展至三维的物理世界。在无数次的训练中,通过模拟物理交互,生成动态的认知图谱,最终使得机器真正“用身体感知到这个世界的物理规则”。
“十年时间覆盖全球10%的人口”
千寻智能提出了一个雄心勃勃的目标:未来十年,让全球10%的人拥有自己的机器人。这两个数字背后,是清晰的战略决心与市场判断。
解浚源解释这两个数字背后的深意:十年,是技术落地所需的合理周期;10%,则大致对应全球发达国家人口总数——正如汽车普及之初,率先享受便利的是少数富裕阶层,人形机器人也将沿着相似的路径,从高端走向大众。
这两个数字就像坐标一样,锚定了千寻智能的发展基点和目标节点。
解浚源进一步分析说,从技术发展阶段看,当前的具身智能大约相当于大模型领域的GPT-2到GPT-3阶段。Scaling Law的方向已经明确,规模扩大必然带来能力跃升,但规模化的数据闭环尚未完全跑通。尽管算力不是主要瓶颈,硬件迭代仍比纯软件慢一拍。我们预估,距离出现ChatGPT式的“爆发点”,大概还需要三年时间。
但千寻智能并不只停留在远景规划上,我们已经迈入落地推进的实战阶段。机器人正在进入工业场景实测与生产应用。今年有望实现小范围落地,明年逐步扩大部署——具身智能走进工厂,已进入倒计时。
展望未来三到五年,在商业与生活服务领域,机器人将超越当前扫地机、送餐机器人等单一功能,向更复杂的场景渗透。不过,要实现“三位一体”的综合任务——例如客房退房后全自动清洁整理,或仓储物流中完全替代人工分拣搬运——仍有距离。这些场景虽已有自动化尝试,但离真正的“无人化”还有很长的路要走。
解浚源为我们勾勒出千寻智能未来十年的发展轨迹,清晰而务实:先工业,再商业,后家庭。
·场景上:1-2年聚焦工业(L1-L2智能,单一工位响应作业)→ 3-5年进入商业服务(L2-L3智能,多任务协同)→ 十年迈向家庭(开放指令响应)。
·技术上:从固定场景的“可应变操作”,逐步演进到开放环境中的“泛化能力”。
当谈论机器人“走进家庭”时,许多人心里难免画上一个问号——它们连站稳都还略显笨拙,十年之内,真能成为我们的家庭伙伴吗?
然而,就在前几天,笔者在通过大兴机场高速的收费站,看到了一个令人眼前一亮的画面:原本需要人工伸手递卡、收卡的流程,已经全部交给了机械臂。它虽不是完整的人形机器人,却精准、流畅。那一刻,让笔者深刻体会到具身智能不再是概念或者电子玩具,而是真实世界有生产价值的存在。
这个小小的机械臂,是千寻智能所坚持的“轮式底盘+操作优先”技术路径的一次低调验证。它不急于模仿人类外形,而是先解决“手”和“移动”的问题——把动作做对,把任务完成。
也许,我们不必执着于让机器人一开始就“像人”,也不急于马上就进入家庭。它们可以从收费站、从车间、从仓库开始“练手”,在一次次精准执行中积累“经验值”。当它们带着这样的能力最终叩响家门时,或许会比我们想象中更可靠、更贴心。