资讯
Waymo破天荒公开数据集 发福利还是做生意?
对自家技术一贯守口如瓶的Waymo,今年突然对“外部力量”张开了怀抱。
在全球最大的计算机视觉会议CVPR 2019现场,Waymo首席科学家Drago Anguelov公开了自家的自动驾驶数据集Waymo Open Dataset。作为公司研究院老大,Drago Anguelov同时预告了几个关键数字:3000段驾驶记录、时长共16.7小时、平均每段长度约为20秒;60万帧、共有大约2500万3D边界框、2200万2D边界框,以及多样化的自动驾驶场景。
事实上,在Waymo Open Dataset之前,自动驾驶领域中已经存在几个比较知名的数据集。其中,KITTI被公认为使用最广泛的数据集之一,Cityscapes的专长是城市街景的语义理解,ApolloScape则以标注的精细程度著称,还有UC Berkley最新发布的BDD100K等等。
自动驾驶公开数据集对比
然而,这些优势在Waymo眼里似乎都不值一提。Drago Anguelov在演讲中列了一个表格,条分缕析地将Waymo Open Dataset与KITTI、NuScenes等数据集直接进行对标:
数据集对比,图片来自“机器之心”
直观地说,主流数据集提供的数据量已经远远不够用了。因此,Drago Anguelov称,Waymo将在7月份发布1K数据集,且将在近期公布数据集基准并组织竞赛。
目前为止,Waymo Open Dataset的细节内容尚未公开。单从数据量的对比来看,该数据集就已经比现有的公开三维标注数据集领先了好几个身位,基本是两位数与个位数的差距。当然,Waymo自己的全量数据应该已经到达近亿级别。
对于学术界而言,这60万帧的数据量无异于稀世珍宝。受限于数据与传感器兼容的问题,学校实验室大概率会在Waymo的传感器配置基础上展开科研工作,也不排除其最终找到适用于其他类似传感器搭配的方案。
但最重要的是,一旦这些科研成果能够形成一个影响力广泛的数据集,其上的研究成果全部都适用于Waymo自家传感器配置,这家科技大牛完全可以轻松吸收最新的无人驾驶技术。更何况,这某种程度上也能够推动无人驾驶方向的人才培养,甚至可以造福整个行业。
可换个角度看,这件事的意义却并没有这么乐观。Waymo对于传感器设置的严格把控,意味着如果其赋予一些超特殊的、难以复现的属性,那么其他无人车公司从这些基于Waymo数据的科研成果中得不到半点好处。此外,Waymo Open Dataset的数据分布大概率位于美国地区,那么受法律法规限制,此上训练出的深度学习模型也不见得能够适用于其他国家地区。
最根本的一点是,现阶段Waymo公布出的数据量级仍旧满足不了工业界的胃口。虽然其多少能够缓解初创公司在数据标注层面的时间和经济压力,但仅仅16个小时的资源也无法支持一个年轻的团队从0做出一个可以上路的无人车Demo,更别提试图以此博取资本市场的青睐。
因此对于汽车工业而言,仍旧需要依靠从业者长期的数据积累,Waymo Open Dataset现阶段的数据量不足以说明问题。而且对于当下最稀缺的3D激光点云标注数据,Waymo目前的贡献值几乎是寥寥无几。
除了发布数据集,Waymo也同时曝光了无人车传感器配置,包括视觉系统、激光雷达系统和雷达系统。而Waymo Open Dataset也将同步涉及到来自5个激光雷达、5个摄像头,激光雷达和摄像头的数据。
换句话说,随着本次数据集的公开,Waymo自家传感器的所有性能将一览无遗。友商甚至可以直接进行评测:噪点多不多、远处物体距离准不准、除了距离和信号强度外还有没有其它信息……
那么,如果Waymo后续将延用“对外出售激光雷达”的策略,打算继续拿其他传感器硬件挣钱,Waymo Open Dataset的开放将会揭开Waymo无人车上最大一块“遮羞布”。