导读:根据哈佛商学院的研究,视觉是人获取信息最主要的方式,占全部感官的83%。视频规模增长不仅限于互联网行业。广电行业也面临视频数据的爆发式增长,更多情况下还受困于存量视频数据的管理。
面对海量的存量和增量视频数据,传统的手工视频摘要方法就会暴露出以下缺陷:
· 内容不完整:当看到一个视频的时候,每个人都会有自己的关注点。而对于关注点外的内容就会有不同程度的忽视。每个视频忽视一部分累积起来就会造成巨大的信息缺失。
· 依赖经验:人工视频编目在很大程度上会依赖编目人员的经验,描述结果往往就是相应人员对于这个视频的理解。若团队中加入了许多新手后,描述可能就不够精准、丰富。
· 实时性差:人工编目往往难以做到随编随发。尤其面对突然爆发的数据增长,人工几乎不可能做到实时标注。
· 时效性差:当某些特定事件(明星丑闻、事件反转)发生时,同一视频在事件前后会带有不同的标签(例如:某当红艺人,在发生涉毒丑闻后,被列为“劣迹艺人”)人工标注很难根据突发情况快速批量上线或下架相关视频。
面对视频处理过程中这么多的问题,用人力结局显然会造成巨大的成本。这个时候,AI 视频结构化就是最好的解决方案。
优势1:识别范围广
利用机器学习进行识识别的第一个优势在于能够不断增加识别的广度。可能最初的模型识别的内容不够多,但随着机器学习模型的不断迭代,识别的内容和准确性也都会随之大幅提高。
优势2:效率高
机器的效率远超过人的效率,且机器可以持续运行,人工视频编目受限于物理播放时间,而机器可以随着物理计算能力和模型效率的提高来提升结构化速率。
优势3:可迭代
通过模型的迭代能够不断优化内容识别的准确性。
优势4:创新基础
有了这样一个高效的方式,而不是差异化对内容的认知,这样的方式可以对业务带来很多的创新。
· 内容审核:随着图片和视频取代文字成为主流的传播方式,针对图片和视频的内容审核正变得越来越重要。比如说落马官员,需要对视频立即封禁。如果完成了内容视频结构化,就非常容易找到之他相关的视频。
· 广告植入:在进行广告投放的时候,能够实现广告定向投放。比如在视频中所有易拉罐的罐身上都打上想要的内容,完成广告植入。
· 热点预测:当一些热点事件发生时,能分析出这个事件的特征标签,并且把相关标签相关的视频进行关联和推荐。类似的功能对于互联网运营具有极大的价值。
AI 视频结构化的实现步骤
1视频的分解
首先,一个视频首先要分解成不同的场景,不同的镜头,再对里面的内容进行识别。
从模型角度讲,对内容的识别要做哪些方面?首先第一个要进行分割,分割是镜头的拆割。拆割之后要理解一段镜头所表达的主题,进一步根据帧来识别里面的内容,按照人、物、场景的维度来做。
2视频结构化描述
举个例子,当我们要描述一个足球视频的时候,会把它分成三级。
· 第一级是视频中的基本元素:球员、足球、草坪、文字。同时,草坪不是普通的草坪,是足球场;文字不是无意义的文字,是场边广告牌。
· 第二级是视频中的场景:巴塞罗那队参加的一场西甲联赛。
· 第三级是一个完整的故事:体育新闻正在报道一场球赛,巴塞罗那队的梅西率队赢得了比赛。
拿到一段棒球视频,可以这么来处理:
· 第一步是将它截帧,进行帧的内容识别。
· 第二步要做一些光流,目的是获取运动信息。视频里面运动信息比较复杂,而做了光流之后就更易于描述前后帧之间位置的变化,这样就能描述一个运动。描述出运动之后,通过运动信息场景进行关联,判断这是棒球比赛。
· 第三步是借助声音辅助判断,可以根据语音中识别到的信息,对画面信息进行补充。
· 最后是利用视频画面中其他的信息,例如周边广告、字幕、台标等相关信息辅助判断。通过这些信息,我们能知道这个场景属于哪个分类,是综艺还是新闻。
3深度学习训练平台
模型训练是很重要的关节,而且视频的数据量非常大,需要一个高效的深度学习平台来支撑模型训练、视频分析的前提。为了能够提高学习的效率,深度学习平台从数据的收集、标注、清洗、过滤,到训练、推理、上线,完成了整个流水线的搭建,并且不断进行迭代。
面对数量庞大、格式各异的视频,将整个过程进行解耦。以分布式队列的方式进行模型训练,还需要对模型进行融合,取得更好的效果。
视频结构化的策略,是先将视频按镜头分拆,并根据主题分类,将视频里面的人、物、场景进行解读之后,与图像、声音和文字进行关联。
视频结构化注意点和实践经验
1人物信息结构化
人物的关键是在人脸的识别上。视频里连续帧的播放,每一帧里面脸都在不断变化,所以不仅要检测到人脸,还要对脸进行评价:包括人脸角度、眼镜等遮挡物。最后就是人脸跟踪。比如转向、点头等。
有时候,当人脸跟踪的时候移动到了后脑勺,或者侧角比较高的时候,往往会很难保证较高的准确率。但是,在人脸跟踪的过程中,其实只要抓到评价点,就能知道整个过程跟踪的是同一个对象数据,就能基于此进行评价。基于评价点完成了评价之后,这一段跟踪的人,就会呈现比较高的特征。另外,如果我们将人脸与场景关联之后再进行比对,效果就会更好。
实践中的注意点
在实践中,我们会发现很多问题。比如这是一个新闻中的投票视频,有许多人在投票箱前依次投票,投票人不停地在更换。这个时候,如果用位置比较跟踪,由于在同位置的识别框中一直有人进行投票,结果很有可能会判断始终是同一个人在投票。如果能够先根据人物的动作和周围场景,识别出这是一个投票活动,不采取跟踪而是检测。
在这段视频里,我们可以所有人物出现的时间轴连接起来。这样在搜索人物的时候,通过视频结构化识别很轻易的能找到相关的内容。
2 物体信息结构化
和人不一样,物体识别的时候没有人脸这样明显的特征。这个时候,就可以直接用模型在不同地方进行检测,检测准确度依赖于模型,模型需要较强的泛化能力,能够检测出物体不同角度。
物体信息结构化的实践
这时候,我们就需要将物体出现的时间进行区间合并。比如视频中有一个歌手,他手中的话筒在视频中反复出现,由于话筒在视频中出现的时段不是连续的,我们就需要找到一个比较好的阀值对他进行识别。在新闻、电影等不同的主题中,不同内容的合并有不同的手段。
与人脸一样,物体结构化也需要和场景相关联。就像足球案例一样,检测到草坪后,通用的识别里面就是一个草坪,但是通过这个场景判断是在踢球。这个时候输出物体是输出球场,这就是场景上下文之间的关系。
3 场景识别
当描述这样一张场景照片时,我们第一眼就能看到这个图片能包含什么的内容,动物海星,海浪、室外,海滩。但是在输出标签的时候,我们会输出两个场景标签。为什么标两个?因为物体本身在不同场景中的时候,场景表现不一样。
在这张图片里可以看到,有山、河流,这些元素构成了一个自然景观,同时自然景观从属于室外的范围。这样构建的原因是在结构化的之后,在你搜索的时候会有会有很多作用。比如搜索开会的场景,也可以搜索室内;搜索一座山的时候,也可能搜索景观。通过不同的标签,都能搜到同一个内容。同一个内容,既属于自然景观,但在更大的范围里属于室外的范畴。
4 声音对于识别的帮助
声音在视频中是有用的信息,对于声音内容,我们要分两类处理。
第一类,是声音转文字,我们可以根据视频中的内容,提取主题。所以声音中提取的文字能够辅助确定这样一个主题的。这是我们一般能想到的。
第二类是声纹特征,比如某些场景是没有文字的,比如一个人在那里尖叫或者一个人在那里痛苦,可通过声纹特征来进行识别场景。