近日,国际计算机视觉与模式识别会议(CVPR 2024)第四届开放世界视觉研讨分会(Visual Perception via Learning in an Open World,简称VPLOW)举办,清华大学深圳国际研究生院数据与信息研究院王智副教授团队在视觉感知竞赛方向的V3Det广泛词汇目标检测比赛中脱颖而出,荣获第一名。
获奖证书
V3Det数据集
V3Det数据集引入了一个覆盖13,029个类别的革命性视觉识别资源,其规模是现有数据集的十倍以上(此前类别最多的目标检测数据集LVIS只有1203类),并强调了类别之间的层次和关联性。这一数据集的设计为广泛和开放词汇量物体检测的研究提供了理想的测试平台。V3Det目标检测比赛的意义不仅在于技术展示,更在于推动物体检测领域的科学发展,为未来的技术应用如自动驾驶和智能监控等领域奠定基础。
MixPL算法流程图
团队使用半监督目标检测框架MixPL扩展物体检测模型可检测类别的数量,将V3Det数据集作为标记数据集,Objects365数据集作为未标记数据集,在预训练于Objects365的Co-DETR检测模型上进行半监督训练。这种方法不仅成功扩展了模型可检测的类别数量,还在V3Det测试集上取得了54.5 mAP的竞争性结果,证明了半监督学习在提升物体检测模型性能方面的有效性。该团队训练出的MixPL-CoDETR模型是目前可以识别最多类别(13029)且精度最高的检测模型。
国际计算机视觉与模式识别会议(IEEE International Conference on Computer Vision and Pattern Recognition,简称CVPR)是全球最重要的计算机视觉学术会议之一,由美国计算机视觉基金会(CVF)主办。每年,该会议吸引全球顶尖研究人员参与,讨论最新的研究进展和技术突破,覆盖机器学习、人工智能到图像处理等领域。其论文和成果广泛应用于实际问题,推动了相关行业和学术领域的发展。
文/图:陈泽铭
编辑:戴雨静
审核:陈超群