91传媒国产在线一二三:糖心官网-月薪5000,我给人形机器人当“老师”

在春晚过后,最近宇树机器人又火了一次。
上周,宇树机器人发布了一条机器人转身踢腿,打了一套功夫拳的视频,发布一周就收获了快五万的点赞。
一套功夫打下来,机器人占领世界似乎已经可以期待了?
在机器人越来越像人的背后,可能却是有着一批人在 " 负重前行 "。
近期,极客公园发现,招聘软件上已经悄悄上架了一批工作信息。员工的唯一工作,就是教机器人如何更像人。
一、新物种工作
笔者是在去年,开始发现各大一线城市的招聘平台正在悄悄上架一批新的工作。
标题为数据采集专员,或者更直接的——机器人数据采集员,这个 " 新物种 " 工作,是完全是为机器人提供服务的。
工作描述很简单——就是操作机器人,做一些人类日常会做的行为。
一个工作描述这样形容道:控制机器人进行操作,如叠衣服、系鞋带、物品收纳等日常生活操作。

而另一个工作描述则这样写道," 根据桌面零件分拣 " 的场景,操作动作捕捉服来操控机器人的动作。

一些其他类似的工作描述中,还出现了不晕 3D,身体强壮,了解一些编程基础之类的要求。
这到底是怎样的工作?
笔者潜入了一个动作捕捉的招聘群中,和招聘者进行了一次聊天。
笔者很快了解到,该招聘岗主要是为国内某机器人公司进行服务,采集机器人的动作数据。
主要分为两种岗位,
一种是带着动作捕捉设备,远程操作机器人——工作人员站在机器人旁边,拿取面前的东西,而通过动作捕捉设备的传输,机器人会摆出和几乎一样的动作拿去机器人面前的东西,这在机器人领域的术语叫做遥操作。过去在新闻中经常出现有人操作机器人进入危险环境作业,就是使用的遥操作方式。
而另一种则是面对屏幕操作机械臂。仍然是工作人员操作机械臂,而屏幕里的机械臂会做出一样的动作,只不过实体空间中并没有真正的物品可以拿取,工作人员操作机械臂的目的是让屏幕里的机械臂拿取虚拟空间的物品。有点像是隔着屏幕操控抓娃娃机。
两种工作对操作人员的要求都不高,都是做出最基本的人类动作就可以。因此招聘对学历等硬性条件并没有要求。
不过有趣的是,第一类岗位,对操作人员的身材倒是有要求:身高 165~170 左右,体重 62kg 内,不能有肚子,男生。第二类岗位则男女不限。
笔者又查看了其他公司的类似的岗位,工资在 5000-10000 不等。而这家公司,则是按天计费,每日 200 元。
招聘者特别问笔者,你是计算机专业的吗?
在得到否定回答后,招聘人员大方提起,现在有一个领域正在 " 崛起 ",就是人工智能!不要看目前只是一个兼职岗位,未来可能会变得非常重要。
当笔者问起,会不会已经招满了,招聘人员则表示,位置很多,第一批就有几百人,而后面北京、上海、广州,都在陆续开类似的岗位。
二、卖动作给机器人的工作,正在迅速扩张
卖动作给机器人?听起来是一个很奇怪的事情。为什么要这么做?
带着疑问,笔者采访了动作捕捉设备提供商诺亦腾的联合创始人、CTO 戴若犁博士。
戴博士马上肯定了这一趋势的存在。" 是的,我们也观察到了类似的现象。诺亦腾每年会卖出几千套动捕设备,是全世界出货量最大的动捕的设备提供商,在过去十年,卖给机器人企业的动捕装备一直不超过我们出货量的 5%,不过,事情在 2023 年发生了变化。" 戴博士表示。
戴若犁回忆道,一般而言,机器人企业采购动捕设备,通常用来操作机器人在危险地区进行一些特殊操作,这样的需求不会很多,通常的采购都是一套两套这个量级。
" 我们的设备算是全球性价比最高的了。不过即使这样,贵的设备大概要十几万块钱一套,便宜的设备也要大几万块钱。只有应急演练、消防这样的市政甚至军事项目才会进行百套左右的采购。" 戴若犁表示。
而2023 年开始,诺亦腾开始逐渐接到越来越多的机器人企业的订单,而且一次就是上百台——这些订单,正是为前面所述的工作岗位服务的。

图片来源:诺亦腾官网
2023 年,正是人形机器人开始爆发的前夕。
在 2023 年前,人形机器人在机器人的研究发展中,相对是一个异端。大部分需要机器人的能力,用一个专用的机械臂已经可以解决的很好,为什么要研究人形机器人呢?笔者记得 2023 年,第一次来到世界机器人大会时,就曾经想过这个问题。
这背后,其实是技术的一次大跳跃。
2022 年 -2023 年,大语言模型的进展,第一次解决了机器人泛化性的理解和规划。也就是说,现在和机器人说话,机器人第一次可以开始理解了,甚至可以自己对于语言背后的含义进行拆解,能够意识到 " 拿桌上的水果 " 这件事指的就是拿起桌上的某个特定苹果了。
这时候,人形机器人的卡点,出现了新的变化——不在于智慧,在于动作能力上了。在智慧能力出现突破之后,如果人形机器人的动作的泛化能力能够进一步突破,那么机器人的应用场景将有很大的扩展。
而在机器人的动作问题上,实际上则有两个分支。
一个是运动能力(locomotion),我们也可以简单理解为下肢动作。
一个是操作能力(manipulation),我们也可以简单地理解为上肢动作。
我们看到的宇树机器人,能打拳、能跳舞,其擅长的,正是机器人的 " 下肢能力 "。而正如我们所看到的,虽然仍面临着承载力等一系列问题,机器人的 " 下肢能力 " 已经相对成熟。
而机器人的 " 上肢能力 " 则是完全另外的命题。
" 四足平衡或者双足平衡,其实容错能力是比较好的。你一步踩错,它通过迅速的纠偏,通过一些算法其实可以迅速找回来的。但是泛化的抓拿和操控,容错很低。细微操作这件事情,大家目前还是相信要大量的数据进去才能够训练好这个事情。" 戴若犁解释道。

图片来源:Figure 机器人官网
事实上,使用上肢进行灵巧操作,即使宇树机器人,也很难做到可以在现实中实用的地步。
宇树机器人在春晚的表演,使用的转手绢的动作,使用了一个取巧的战术——手绢是直接被固定在手部电机上进行高速转动的,只是用黑布遮挡,营造出 " 隐形 " 效果。其技术难点在于机器人关节扭矩更高(能够高速转动手绢)和其全身动作中的平衡,而并不在于机器人本身的手部动作灵敏到完全类人。
而想要机器人的上肢动作真正类人,业界通常认为,需要模仿学习——通过模仿人类的动作。而这意味着,需要大量的相关数据。
与无处不在的互联网数据相比,机器人的现存的相关数据则少得多。因此许多企业开始自建动作捕捉工厂,来为自家的机器人提供数据——也就出现了本文出现的新工作:卖动作给机器人的人。
这也带来了动作捕捉设备本身的爆火,据了解,截止到 2024 年年底,诺亦腾来自机器人领域的需求订单获得了超过六倍以上的增长。诺亦腾不但为机器人公司提供动作捕捉设备,也开始与不少厂商共建数据工厂,直接参与到具体的数据采集业务中。
三、采集数据的四象限
在招聘网站的调研中,笔者发现,虽然参与者做的任务都是类似的,招聘岗位的具体称呼却不同。
比如笔者试图面试的公司,就分出了 " 动作捕捉岗 " 和 " 仿真岗 " 两种不同的岗位。
笔者也就这两种岗位的不同,采访了戴博士。
戴若犁将目前获得数据的途径,按照是否采取动作是否由真人完成,采集的动作是否来自机器人本体等,分成了几个象限。

图片来源:诺亦腾
对于机器人训练而言,质量最高的数据,就是用遥操作采集的真实数据,也就是我看到的第一类型招聘的内容,被称为 " 动作捕捉岗 "。
虽然使用的是动捕设备,但是实际上记录的数据,并不是穿着动捕设备的工作人员身上的动作,而是动捕设备操作的机器人的动作。
机器人成功进行了一次抓取,设备就会记录机器人胳膊的转角等等。因此这样的数据是质量最高的——数据直接从真实的机器人身上得到,甚至可以直接从你训练的这款机器人中得到,数据十分准确。
这也就是为什么这类的工作对工作人员的身高有要求:" 如果是一个两米的人,但是机器人的胳膊只有一米六的人那么长,那么有可能出现机器人再往前够,我手已经没法再往前伸了的情况。" 戴若犁表示。
在这类的工作中,采集数据的手段,也会有一些略微的差异。
一些采集采用工作人员在一旁观察机器人的动作的方式进行,是否成功直接由工作人员的肉眼判断。
而另一些招聘要求中则提到使用 VR 设备。这种采集通常是让操作机器人的人员,戴上 VR 眼镜,直接以机器人的视角进行观察——机器人本体上会存在视觉传感器,戴上 VR 眼镜的工作人员,相当于看到的就是机器能看到的状态,这时候再进行遥操作,又能记录下更多的数据。
遥操作的设备本身也不只有动作捕捉一种。笔者接触到的另一个机器人公司,就自研了自己的外骨骼遥操作装置。操作人员在身上背上外骨骼,做动作,将动作传递到机器人身上。该机器人公司表示,这种框架下能记录到的关节转角更多。
去年 8 月,特斯拉也传出要招聘员工进行机器人的数据采集,招聘岗位提到要求员工每天步行超过 7 小时,携带重达 30 磅(约 13.61 千克)的设备,并长时间佩戴 VR 头显。
戴若犁推测,很有可能就是穿上了外骨骼设备进行数据采集。纯动捕设备的话,全部加一块不会超过 4 公斤。另一种可能就是工作人员要采集非常多的全身动作,直接把采集数据的电脑背在身上了。
" 虽然正常的走路动作,并不需要采集模仿学习的数据就能进行训练。但是到俯身、协同等动作的时候,人的重心是怎么动的,在一个动作中左右的重心是怎么分配的,如果能够获得数据,对于机器人的运控仍然是有参考意义的。" 戴若犁表示。

有新闻表示特斯拉的人形机器人利用 Xsens 动作捕捉系统进行训练|图片来源:Youtube
质量次高的,则是半合成数据。也就是笔者看到的第二种岗位。
半合成数据中,动作仍然是由真实人类完成,但是收集的机器人数据,则不来自机器人本体,而来自于虚拟环境。
" 半合成数据是人操作虚拟世界里的假机器人本体抓假杯子。在英伟达等公司的努力下,虚拟世界里的,重力、力矩、摩擦、水流目前都已经能模拟得很好了。虚拟世界的机器人也在通过虚拟的电机运行,整套建模下来,就离现实很接近了。" 戴若犁表示。
使用虚拟的机器人,仍然需要克服机器人真实本体和虚拟本体的差异,专业术语叫做 sim-to-real gap,但作为一个性价比更高的方案,也在广泛得到采纳。
象限的另外两端,则是目前技术难度更高的两种采集方式。
一种是直接使用动捕设备,从真人身上采集数据。这种方法类似于遥操作,但是直接省去了机器人本体。相当于为真人进行了数学建模,再将这个数据再转而用在机器人中。好处在于采集到的数据不需要考虑机器人本体构型的差异。
而另一只是纯粹使用合成数据,不经过任何真人的参与。这种方法的好处是,可以大规模进行拓展,而不必受到任何现实世界的限制。
这两种方式目前都有公司在进行探索,但并没有成为最大范围内的主流。如果只是某个机器人公司出资为自己的机器人收集数据训练,针对性地收集某款真机的数据,仍然效果最好。每经过一层抽象,数据本身的准确性还是会受到一定损失。
这也就是为什么笔者面试的机器人数据岗只设置了前两种岗位的原因。
四、动作采集岗,或许未来将和语言数据标注岗一样普遍
既然机器人数据这么难收集,而笔者看到的招聘岗位的人员工资并不高,那么为什么不大批招聘,迅速采集到大量数据,马上让机器人落地使用呢?
在戴博士口中,笔者听到了一个意外的答案。限制机器人企业无限采集数据的,更多的是成本。这个成本中最大的一部分,反而不是人力和采集设备,而是机器人本身。
他算了一笔账:效果最好的采集机器人本体真实数据的采集席位,标配就是一个机器人本体,一套电脑装备,一个动作捕捉人员,可能还需要一个操作电脑的数据采集人员。
其中最贵的,就是机器人的本体,目前机器人本体,基本上价格在几十万的量级。
动捕设备相比之下要便宜许多,在几万到十几万的量级——不过,普通的惯性动捕设备,是厘米级精度的。对于一般的动作采集是够了,如果是精细的手部动作采集,可能还不够,还需要增加光学动捕设备,这又是一笔支出。

图片来源:Figure 机器人官网
而人员、场地费用,又是一笔支出。叠加起来,即使目前国际前沿的机器人企业,目前建设的机器人数据采集场地,量级也通常在小几百的席位量级而已。
换成半合成数据的采集方式的话,其中最贵的机器人本体的成本能够减少——在笔者接触到的机器人中,半合成数据并没有使用机器人本体操作,而是只是使用了机械臂,成本大大降低了。
这样算下来的话,目前动作数据采集岗,似乎只是一个能够在全世界范围内提供几千至几万个新兴工作岗位。
不过,随着机器人技术获得越来越多的资本关注,这一点未来或许会发生变化。
在传统的人工智能领域,这样的事情已经发生过一遍。促成了现在全世界惊叹的大语言模型,背后是无数的数据标注员,在标注哪些是人类想要的答案,哪些是人类会说的回答。
资料显示,我国各地发展的数据标注基地,已经对就业产生了很强的影响。比如,日照数据标注基地,2024 年从业人员突破 1.1 万人。
而在世界范围内,数据标注行业,甚至产生了许多估值很高的企业,比如美国企业 scale.ai,2024 年估值已经达到 138 亿美元。
随着人工智能的发展,使用人工智能进行数据标注已经成为惯常操作,但是数据标注的职业也没有被取代,反而得到了越来越大的发展。
为机器人提供数据标注的职业,看起来才刚刚兴起。
虽然机器人还没有占领地球,但机器人已经开始 " 奴役 " 人类教他们干活了。
未来,或许你的孩子的工作,就是教机器人如何切菜炒菜,而你,则在养老院里,享受机器人为你做的饭。