许多公司和市政当局背负着数百或数千小时的视频以及将其变为可用数据的有限方式。Voxel51提供基于机器学习的选项,可以通过视频进行咀嚼并对其进行标记,不仅可以通过简单的图像识别,还可以了解运动和物体随时间的变化。注释视频是许多行业的重要任务,其中最着名的当然是自动驾驶。但它在机器人,服务和零售行业,警察遭遇(现在身体凸轮变得司空见惯)等方面也很重要。
它以各种方式完成,从人类每帧框架对象周围绘制框,并将其中的内容写入更高级的方法,自动化大部分过程,甚至实时运行。但这些的一般规则是它们是逐帧完成的。
如果您想知道图像中有多少辆汽车,或者是否有停车标志,或者牌照是什么,那么单帧就很棒。但是,如果您需要判断某人是走路还是走路?那个人是在挥手还是扔石头怎么样?一般来说,人群中的人是向右还是向左走?这种事情很难从一个框架中推断出来,但是连续只看两三个就清楚了。
那个事实就是创业公司Voxel51正在利用这个领域的既定竞争对手。视频原生算法可以做一些单帧不能的事情,并且它们重叠的地方,前者通常做得更好。
Voxel51来自密歇根大学的联合创始人,首席执行官Jason Corso和首席技术官Brian Moore完成的计算机视觉工作。后者采用了前者的计算机视觉课程,最终两人发现他们共同希望将想法从实验室中拿出来。
“我创办这家公司是因为我进行了大量的研究,”Corso说,“而且可用的绝大多数服务都集中在基于图像的理解而不是基于视频的理解上。在我们看到的几乎所有情况中,当我们使用基于视频的模型时,我们会看到准确度的提高。“
虽然任何旧的现成算法都可以识别图像中的汽车或人物,但是制作能够识别交叉点处的合并行为的东西,或者告诉某人是否已经在汽车之间滑行到jaywalk时需要更加精明。 。在每种情况下,上下文都很重要,需要多帧视频来表征行动。
“当我们处理数据时,我们会考虑整体的时空体积,”Corso说。“5帧,10帧,30帧......我们的模型弄清楚它应该走多远才能找到强大的推论。”
在其他更常见的单词中,AI模型不仅仅是在查看图像,而是在多个图像之间的关系中。如果不确定给定框架中的某个人是否从跳跃中蹲伏或着陆,它就会知道它可以向前或向后擦洗一点以找到能够清除的信息。
甚至对于更普通的推理任务,例如计算街道上的汽车,可以通过回顾或跳过来仔细检查或更新该数据。如果你只能看到五辆汽车,因为一辆汽车很大并且阻挡了第六辆,这并没有改变这样一个事实:有六辆汽车。即使每个车架都没有显示每辆车,它仍然对交通监控系统很重要。
对此的自然反对意见是,处理10帧以找出人正在做什么在计算上讲比处理单个帧更昂贵。如果你像对待一系列静止图像那样对待它,那肯定是正确的,但这不是Voxel51的做法。