meetar-bot:meetinganywhere,any

搜狗图像技术团队夺得megaface人脸识别赛道第一本文作者:汪思颖2018-11-0113:110条评论-->导语:技术方式及其技术优势概览搜狗+10ai影响因子比赛比赛名称:megaface年份:20

【CIMIC】11 11 京东全球好物节

最佳开源软件比赛论文两篇

分享到:

导语:从整体方案框架来看,可分为fastr-cnn和fasterr-cnn两种不同的训练模式。百度视觉团队+10ai影响因子比赛比赛名称:googleaiopenimages-objectdetection年份:2018企业:百度操作:竞赛名次:1雷锋网(公众号:雷锋网)ai科技评论消息,近日,百度视觉团队在googleaiopenimages-objectdetectiontrack目标检测任务中斩获第一,并受邀在计算机视觉顶级学术会议eccv2018上进行分享。

googleaiopenimages-objectdetectiontrack由googleairesearch举办,今年共吸引全球450多支队伍参赛。

大赛采用google今年5月份发布的openimagesv4数据集作为训练数据集,包含超过170万的图片数据,500个类别以及超过1200万物体框,数据没有完全精细标注,属于弱监督任务,框选类别数目不均衡且有非常广泛的类别分布,这更符合实际情况,也意味着参加竞赛的团队需要考虑到类别的分布,而不能统一对所有类别做处理,因此更具挑战性。

这项赛事有助于复杂模型的研究,同时对评估不同检测模型的性能有积极的促进作用。下图为openimagev4与mscoco和imagenet检测任务数据对比情况,可以看到openimagev4数据规模远远大于mscoco和imagenet。openimagev4与mscoco及imagenet检测数据对比情况

以下为百度视觉团队技术方案解读:

与传统的检测数据集合相比,该赛事除了数据规模大、更真实之外,还存在一系列的挑战。具体来说,主要集中在以下三个方面:

数据分布不均衡:最少的类别框选只有14个,而最多的类别框选超过了140w,数据分布严重不均衡。类别框数量分布

漏标框:很多图片存在只标注主体类别,其他小物体或者非目标物体没有标注出来。漏标注图片举例

尺度变化大:大部分物1以下,而有些框选却占了整个图片区域。如图所示,openimagev4集合存在更多的小物体,参赛者也会在检测数据中遇到更大的挑战。框尺度大小分布对比在比赛过程中,百度视觉团队采用了不同复杂度、不同框架网络进行模型的训练,并对这些模型进行融合。从整体方案框架来看,可分为fastr-cnn和fasterr-cnn两种不同的训练模式。fastr-cnn版本是百度视觉团队研发的一套paddlepaddle版本,在此基础上fasterr-cnn加入了fpn、deformable、cascade等最新的检测算法,模型性能实现了大幅度的提升。整体方案框架流程图

网络为resnet-101的fastr-cnn,481,在测试阶段加入softnms以及multi-scaletesti508。百度也尝试了其他网络(dpn98,inception-v4,se-resnext101),并把不同网络的检测算法融合到一起,546。在proposal采样阶段,百度在不同位置进行不同尺度的候选框生成,然后对这些框选进行分类以及调整他们的位置。

fasterr-cnn:采用这种框架可以达到略高于fastr-cn495。在测试阶段使用softnms以及multi-scaletestin525。

deformableconvolutionalnetworks:使用softnms以及multi-scaletesting策略559。

deformablecascader-cnn:使用softnms以及multi-scaletesting策略前后__。