作者丨安然
编辑丨王伟凯
出品丨深网·腾讯新闻小满工作室
“AI的下一波浪潮是物理AI,机器人将日益融入我们的日常生活,一切都将机器人化。”6月2日晚间,英伟达CEO黄仁勋在一次演讲中提到。
这一言论再次引发外界对人形机器人的关注。事实上,人形机器人并非新鲜事,早在1972年,日本早稻田大学就研发了世界上首款全尺寸人形机器人 WABOT-1。不过,与此前人形机器人不同的是,这一波人形机器人的重点是生成式AI。
大语言模型和深度学习等技术的提升,为人形机器人的发展提供了新的方法和方向。
“ChatGPT点燃大语言模型浪潮后,行业就意识到人形机器人蕴藏巨大潜力。生成式AI可以让机器进一步理解图片、视频甚至空间。理论上,行业已经看到了大语言模型赋能机器人的工程化路径。”联想集团副总裁,联想创投集团合伙人王光熙对《AI光年》表示。
在上述演讲中,黄仁勋断言“机器人时代已经到来”,并提出了一个畅想——有朝一日,移动的物体都将实现自主运行。
问题是,如何理解自主运行?在王光熙看来,人形机器人自主运行的基础是智能泛化和场景泛化,即机器人不需要根据预制的路径去完成指令。
“之前的工业机器人和服务机器人,本质上是在可控环境内自主移动,人形机器人则要在可控环境之外,实现机器人智能泛化的能力和价值。高度智能化迟早发生在物理世界,这是我们的底层信仰。”王光熙说。
以下是《AI光年》对王光熙的专访,他系统地阐述了人形机器人火热的起点、投融资节奏、行业竞争、未来方向等问题(在不改变受访者原意的情况下有删节)。
“老兵”们很难做好人形机器人
《AI光年》:与工业机器人及服务机器人相比,此次人形机器人热潮的投融资是否相同?
王光熙:行业也将人形机器人称为“具身智能”,或有AI能力的复杂形态机器人。本质上,这一波机器人浪潮受AI和智能主导。从投资人和创业者角度看,这次有大量和智能、视觉、软件的跨界人才参与到这一波浪潮里,整体和前十年的投资风格、节奏、打法都不同。
《AI光年》:不同点在哪几方面?
王光熙:机械化、自动化不是新概念,从蒸汽机的发明到现在,已经有100年的历史了,是个相对成熟的赛道。这波的重点是生成式AI。神经网络研究和应用、深度学习等也有十几年的历史,现在大模型的智能涌现能力让行业看到模型商业落地的希望,智能泛化的能力也许能解锁更多新应用场景。而人形机器人则为生成式AI勾勒出可商业化落地的应用前景,所以整个赛道的想象空间比较大。
《AI光年》:你们投资的星动纪元、逐际动力,他们的创始人都有机器人学术背景,且公司本身都比较年轻化,考量的因素是什么?
王光熙:第一,这和技术底层相关,背后有新技术变量。要把过去存在了一百年的机械化、自动化,用软件和AI变成一个更智能泛化且能替代人类劳动的机器人,这件事情本身就有不少技术难关,这对年轻学者来说是机会。
第二,“具身智能”涉及的技术元素和领域比较综合。过去机器人创业者可能是做控制、自动化或机械出身的。但现在做具身智能,需要有软件、视觉、AI,硬件、产品相关背景的人才以及懂行业和应用的跨界人才。传统机器人赛道的“老兵”想把具身智能做好,会很难。
第三、在具身智能这个赛道,全球的学术界和企业处于同一个起跑线,这是一个无人区,大家都不知道后面应该怎么做,处在摸着石头过河的状态,从这点上来讲,年轻人更有优势。
智能涌现不能靠堆算力完成
《AI光年》:这波人形机器人大火的触发点是什么?
王光熙:我认为真正触发人形机器人爆发的是大语言大模型的出现。
早在2000年,本田曾发布全球最早具备人类双足行走能力的类人型机器人,但没有火起来,核心原因是彼时行业认为机器人和人的智能交互是完全不存在的。
大约十年之后,行业才把神经网络这件事情通过算力应用在视觉上;近几年,行业才开始说transformer和Scaling Laws(规模定律),才有现在的大语言理解、多模态能力。在这个基础上才有做具身智能的能力。
在ChatGPT点燃大语言模型浪潮后,行业就意识到人形机器人蕴藏巨大潜力。生成式AI可以让机器进一步理解图片、视频甚至是空间。理论上,行业已经看到了LLM(大语言模型)赋能机器人的工程化路径。
《AI光年》:人形机器人工程化路径的基础还是算力,但高端GPU其实还是被英伟达等国外厂商掌控,国内做人形机器人是不是要解决芯片等难题?
王光熙:具身机器人的智能泛化还处于早期和快速迭代状态,远没到应用落地和优化的阶段。
行业前期热衷于算力军备赛、堆算力,把千亿模型、万亿模型参数往上堆。一是因为芯片制程所限,二是地缘政治让全球竞争割裂。大家认为,现在工程上的突破主要来自于Scaling Laws及基于某种算法搭建的计算网络,都希望在Scaling的过程中,能产生智能涌现。
本质上,智能涌现不能靠粗放的堆砌算力模式完成,所以一些互联网大厂开始做模型优化。智能涌现达到一定程度,行业会从模型裁剪、算法优化、数据收敛等方面考虑商业化落地。
未来,行业用万卡集群堆砌出来的AI的能力,会被降维到可用、可操作、可落地的成本规划和模型上。down scaling(模型轻量化)会比大家想象的快。
还未进入大厂射程范围
《AI光年》:从算力优势看,有万卡集群的多是互联网大厂,但为什么在人形机器人领域,最先跑出来的是创业公司?
王光熙:互联网大厂一般是谋定而后发,常见的路径是,学术界、创业公司先去折腾,大厂觉得靠谱再跳进来。新能源汽车就是最典型例子,大厂什么时候入局都不觉得晚,这也是一种策略。
从竞争的策略看,互联网大厂的优势主要来自于AI,有云计算和软件能力,但在硬件、场景方面和制造业有差距。此外,互联网大厂在消费级、商用服务场景会有优势,但大家普遍认为人形机器人的场景实现难度更大,周期更长。
从行业规律看,具身智能的技术路线还不清晰,处于非共识阶段,所以互联网大厂下场做具身智能的少。因为大语言模型本身还处在焦灼的竞争状态,多模态竞争才开始,空间计算还处于探索阶段,具身智能尚未进入大厂射程范围内。
《AI光年》:在这波人形机器人浪潮中,小鹏、小米为何都在推自己的人形机器人?
王光熙:过去车企是机械化、自动化领域最大的用户。车企有广泛的应用场景,又擅长做大规模机械装置,无论是生产,还是把工业化场景开放出来,在做机器人方面都有得天独厚的优势。
《AI光年》:现在还没有行业壁垒一说?
王光熙:只能说,行业对人形机器人的数据壁垒、商业落地壁垒还处于非共识状态,在机器人的动作控制、感知端实现方式等方面也都没有共识。
上个月,我去日本横滨参加了ICRA(电气工程、控制和机器人技术国际会议)。大会有几十个分论坛,分别讲运动规划、肢体协调等主题,探讨谁能以低成本、高可靠性来解决每一部分的技术细节问题,这些主题在学术界也没有形成共识。
翻跟头和在陌生场景翻跟头,完全两回事
《AI光年》:如何定义你一直强调的智能泛化和场景泛化能力?
王光熙:所谓泛化,就是这个产品能够快速进入到一个场景里,开箱即用。如果机器人能做到,就能替代很多人工环节。
比如,以ICT行业为例,在传统的生产装配线上自动化比较低,约70%需要人工干预,但主板、SMT(表面贴装技术)等自动化程度高,约占80%,这是因为整个芯片行业流程相对标准化、机械化、自动化,且在封闭的环境中实现。
而装配线是开放环境,每天装配的屏幕及显示器大小不同,所以需要人工检查。如果有一个高度智能泛化的人形机器人在那里,这些问题就可以解决了。
《AI光年》:要让机器人具备智能泛化能力,现在有哪些实现条件?还存在哪些困难?
王光熙:现在大模型发展很快,给模型看一张图或者一段视频,他们能准确理解,并分拆成不同的步骤和任务。从这个角度看,智能泛化已经解决了一部分难题。挑战在于怎么在空间里感知信息和做运动,并通过一个模型把其链接和驱动起来。
具身智能是通过图片、视频等理解和分解任务,然后识别物理周边的环境,例如识别台阶、抽屉等物理环境,只有这些问题得到解决,行业才认可具身智能这件事。
《AI光年》:人形机器人跑步、上台阶这些事情,机器狗也能做到,区别在哪?
王光熙:关键点在于能否动态地、泛化地去完成任务。比如,让机器狗翻一个跟斗和把它放在一个开放和陌生的场景去翻跟斗,完全是两码事儿。前者是机械和控制问题,波士顿动力早就解决了;后者需要自己设计路径、适应了路上发生的各种突发情况,最后完成翻跟头这个动作,这个才是最大的难度。
《AI光年》:这是它自己的学习能力?
王光熙:是泛化能力。预制的路径能很好完成,但遇到突发情况就歇菜了,这就没有泛化能力。为什么现在生产环节上机器替代不了人,是因为人有泛化能力,而机器只能根据既定的训练完成指令。
《AI光年》:按照让人形机器人有智能泛化能力这个标准,现在没有任何一家机器人公司有突破?
王光熙:在智能泛化方面,行业现在都处于同一个起跑线。
《AI光年》:如果都在同一个起跑线,你们投资的星动纪元和逐际动力,优势在哪里?
王光熙:这两家公司创始人都属于AI机器人的原生代的研究者。陈老师(星动纪元创始人陈建宇)做学术研究的起点是从智能机器人软件+硬件这一出发点来研究机器人。他在Berkeley(加州大学伯克利分校)的导师是Masayoshi Tomizuka教授,在控制理论与应用领域造诣深厚,是全世界比较早研究模型预测控制(Model Predictive Control, MPC)、非线性控制(Nonlinear Control)、以及强化学习(Reinforcement Learning)等领域的技术先驱。
陈建宇在机器人领域的创业,就是冲着机器人全身智能泛化这个终极目标去的,虽然目前难度比较大,但在软硬件结合这块做的比较好。
逐际动力最早做四足、双足、轮足机器人,做perception(感知)和motion(运动)的结合。现在加上强化学习,创始人张巍更专注于怎么把locomotion这块做到极致,以模型学习驱动机器人的移动泛化。
没必要成为某领域的“Open AI”
《AI光年》:人形机器人还处于非共识阶段,投资人如何选择投资标的呢?
王光熙:现在行业还未到比拼谁做得更好的阶段,大家关注点还在谁能实现机器智能泛化能力这件事上。
《AI光年》:所以在从业者看来,宇树科技9.9万元的机器人,重点不是价格,而是智能的实现路径?
王光熙:现在行业没人关心特斯拉即将推出的机器人demo到底卖多少钱,大家的关注点是新出来的机器人有哪些智能和场景泛化,比如用11、12个“灵巧手”去做精细化的事情。等未来规模化量产后,大家会关心人形机器人的价格。
《AI光年》:智能和场景泛化很难具象化吧?
王光熙:就以生活中习以为常的小事举例,现在没有一个公司能让机器人完成在开放场景中从一堆手机充电线中找到匹配的充电线并插上充电口这个简单的动作。谁能做好,谁就是行业翘楚,就是一个值得投资的标的。
投资不是拍脑袋做决定。一要判断时机,我们和学术界交流后觉得机器人智能泛化这个方向是对的,或许5年之后会有突破;二要判断路径,谁有机会成为智能泛化技术路径的突破者,至少有机会成为第一梯队的玩家。这个挑战很大,有时即使学术界公开技术细节,也很难复制出来。
有了这些判断,才有机会做早期投资。但谁有机会最先能实现机器人智能泛化,目前没法判断。比如,现在有一家公司的机器人能在开放的场景实现给手机充电这一场景,而且能拿出demo,资本都会疯抢。
但从资本投资的角度看,当全世界都能看懂了,这个事情就没有投资价值了,因为他的估值已经上天了。
《AI光年》:做好这个动作的基础和难点是什么?
王光熙:最难的还是感知,如何从一堆柔性的物件中识别数据线,并以合适的力度拿取,做到双手动作的匹配,这需要从感知端变成运动轨迹,每个环节都会有没解决好的问题。
《AI光年》:未来,在应用场景的渗透率上,能智能泛化的机器人会比工业和服务机器人低很多吗?
王光熙:工业机器人和服务机器人本质上是在可控环境内的自主移动,比如云迹科技做的酒店机器人。在一个半开放式环境中,机器人已经有了商业场景落地。
这波人形机器人要实现的是,在可控环境之外,机器人智能泛化的能力和价值。需求一直都在,但实现不了。如果能做好,它的商业化价值就会逐步明朗。
《AI光年》:您投资人形机器人公司,是觉得他们有机会成为机器人智能泛化领域的Open AI?
王光熙:我不太喜欢类比,比如谁会成为某领域的Open AI。我们投资他们肯定是要赌他们有机会在这个领域做到技术引领。机器人是长线赛道,投资人都不需要判断他是否能成为这个赛道的“特斯拉”,只要能把这个技术做出来,即使最后变成大公司的一部分也很厉害了。
对于投资人来说,能投资一个有技术突破甚至引领行业的公司,不管最后以什么方式退出,只要它最后能将技术转化成社会价值和生产力,就有价值。
《AI光年》:作为投资人,您如何考量投资人形机器人的ROI?机器人第一股优必选去年营收10.56亿,亏损却高达12.65亿元,您如何考虑商业回报问题?
王光熙:我们现在投机器人公司肯定没想过他们会在3-5年内变成一家能赚钱的公司,我们赌的是,这些公司能否在细分技术上领先。至于他后来能否发展成为像特斯拉一样的公司,不是我们投资早期公司最核心的考量因素。
我们首先考虑的是,这个技术是否有价值,有没有发展空间,技术路径对不对,时机对不对,这个团队能否领先等因素。
物理世界的智能泛化是底层信仰
《AI光年》:您什么时候开始看好机器人智能泛化这个技术路径?
王光熙:我们8年前成立联想创投时,就看好机器替代人这个方向。联想本身是做PC的,过去40年就是数字化、互联化、自动化的进程。但这些变化主要发生在数字世界,没有发生在物理世界。高度的智能化迟早发生在物理世界是我们的底层的信仰,就像黄仁勋在最新演讲中说的,下一波AI浪潮是物理世界里的机器人。
《AI光年》:这么看好机器人智能泛化这个路径,为何没有投资“国内机器人第一股”优必选?
王光熙:优必选进入机器人领域特别早,2008年成立,也给投资人赚到了钱,算一个比较成功的案例,但他们不是做人形机器人起家的。2019年时,优必选估值已经100亿美元了,当时进去不合适。
智元科技、宇树科技等我们也看过,但我们想进入时已经有点贵了。这一波人形机器人领域有不少投资AI和互联网的投资人在看,他们会把互联网的思维带到硬科技赛道里,建立资本、投资人圈层的壁垒,快速解决战斗。
我不认为这个赛道能靠剧烈烧钱、流量博弈形成雪球效应,还是要回到硬科技的本质。硬科技行业有自己的规律。
《AI光年》:硬科技行业的规律是什么?
王光熙:硬科技赛道很难被资本拔苗助长,不为资本的意志所转移。比如芯片行业,去做一块大算力芯片,从设计到流片最少也要18个月吧。
《AI光年》:但Open AI在微软资本和云算力的加持下确实发展得很快。
王光熙:大模型发展有Scaling Laws的存在,现在还处于算力野蛮生长的阶段。用1万张卡和100张卡训练的时间和机会成本肯定不同。Scaling Laws就决定了大模型竞争有资本门槛。
《AI光年》:大模型的Scaling Laws什么时候能被打破?
王光熙:我知道就不会坐在这了。没人知道Scaling Laws何时会被打破,AGI何时会出现。Open AI确实有先发优势。不过,现在离大模型的战争结束还很远,谷歌、Meta也很有钱,都买得起10万张显卡。
《AI光年》:重视技术的波士顿动力2016年就发布了双足机器人Atlas,但最后也没跑出来,中国创业公司做人形机器人有哪些优势?
王光熙:波士顿动力创始人是技术理想派,致力于做技术方面很厉害的机器人,商业化优先级反而不高。波士顿动力算是技术先驱,不能算是商业化成功的机器人公司。
机器人属于宏观制造,是一个以大规模制造为基底的产业,国内有供应链基础,在大宗产品的制造、规模批量制造上有优势。欧美优势则是软件、数据库、操作系统的积累。
《AI光年》:当人形机器人智能泛化后,还需要一套全新的操作系统或者生态吗?
王光熙:肯定会有一套全新的操作系统或者开发平台,就像特斯拉推出Optimus开发平台。但现在就讲OS或者上面的生态还言之过早,有生态的基础是要有足够的销量。
发表评论
2024-06-17 12:39:04
2024-06-17 12:39:04
2024-06-17 12:39:04