分享好友 最新动态首页 最新动态分类 切换频道
CVPR2021中的目标检测和语义分割论文汇总
2024-12-26 20:05
作者丨Tom Hardy@知乎来源丨https://zhuanlan.zhihu.com/p/355137468编辑丨计算机视觉工坊感慨:知识蒸馏大放异彩~
1、Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detectionpaper链接:https://arxiv.org/abs/2103.01903由于真实世界数据固有的长尾分布,few-shot目标检测是一个重要而持久的问题。它的性能很大程度上受到新类数据稀缺的影响。但是无论数据的可用性如何,新类和基类之间的语义关系都是不变的。这篇paper研究了如何利用这种语义关系和视觉信息,并将显式关系推理引入到新目标检测的学习中。2、Instance Localization for Self-supervised Detection Pretraining(香港大学,微软亚洲研究院)paper链接:https://arxiv.org/pdf/2102.08318.pdf以往对自监督学习的研究在图像分类方面取得了相当大的进展,但在目标检测方面往往存在transfer性能下降的问题。本文的目的是提出一种专门用于目标检测的自监督预训练模型。3、Towards Open World Object Detectionpaper链接:https://arxiv.org/abs/2103.02603人类有识别环境中未知物体实例的本能。人类有一种自然的本能来识别未知环境中的物体实例。这促使我们提出了一个新的计算机视觉问题,称为“开放世界目标检测”,模型的任务是:1)在没有明确监督的情况下,将尚未引入的目标识别为“未知”,2)逐步学习这些已识别的未知类别,而不忘记以前学习的类,当相应的标签逐渐收到时。本文提出了一种基于对比聚类和基于能量的未知识别的开放世界目标检测算法。4、Positive-Unlabeled Data Purification in the Wild for Object Detection暂未放出5、General Instance Distillation for Object Detectionpaper链接:https://arxiv.org/pdf/2103.02340.pdf近年来,知识蒸馏被证明是一种有效的模型压缩方法。这种方法可以使轻量级的学生模型从较大的教师模型中获取知识。然而,以往的提取检测方法对不同检测框架的泛化能力较弱,严重依赖于GT,忽略了实例间有价值的关系信息。因此,论文提出了一种新的基于区分性实例的提取方法,即一般实例提取(GID)。该方法包含了通用实例选择模块(GISM),充分利用了基于特征、基于关系和基于响应的知识进行提取。6、UP-DETR: Unsupervised Pre-training for Object Detection with Transformerspaper链接:https://arxiv.org/pdf/2011.09094.pdftransformer+无监督的一篇paper。7、Depth from Camera Motion and Object Detectionpaper链接:https://arxiv.org/abs/2103.01468本文讨论了在给定摄像机运动测量值(如机器人运动学或车辆里程计)的情况下,学习估计被测物体深度的问题。论文通过1)设计一个递归神经网络(DBox),使用box和未校准摄像机运动的广义表示来估计物体的深度;2)通过运动和检测数据集(ODMD)引入物体深度。8、There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledgepaper链接:https://arxiv.org/abs/2103.01353物体固有的声音属性可以为学习丰富的物体检测和跟踪表示提供有价值的线索。此外,可以利用视频中视听事件的同时出现,通过单独监测环境中的声音,在图像场上定位对象。到目前为止,这只适用于摄像机静止和单目标检测的场景。此外,这些方法的鲁棒性受到限制,因为它们主要依赖于对光照和天气变化非常敏感的RGB图像。在这项工作中,我们提出了一个新颖的自监督MM-stewartnet框架,该框架由多个教师组成,他们利用不同的模式,包括RGB、深度和热图像,同时利用互补线索并将知识提取到单一音频学生网络中。9、Dogfight: Detecting Drones from Drone Videos暂未放出10、3DIoUMatch: Leveraging IoU Predictionfor Semi-Supervised 3D Object Detectionpaper链接:https://arxiv.org/pdf/2012.04355.pdf三维目标检测是一项重要而艰巨的任务,它严重依赖于难以获得的三维标注。为了减少所需的监督量,论文提出了一种新的半监督三维物体检测方法。采用VoteNet(一种流行的基于点云的目标检测器)作为主干,利用一个教师学生互学习网络框架,以伪标签的形式将信息从标注训练集传播到无标注训练集。11、Categorical Depth Distribution Network for Monocular 3D Object Detectionpaper链接:https://arxiv.org/abs/2103.01100单目三维目标检测是自动驾驶领域的一个关键问题,与典型的多传感器系统相比,它提供了一种结构简单的解决方案。单目三维检测的主要挑战在于准确预测目标深度,由于缺乏直接的距离测量,必须从目标和场景线索中推断出目标深度。许多方法试图直接估计深度来辅助三维检测,但由于深度不准确,性能有限。论文提出的分类深度分布网络(Categorical Depth Distribution Network,CaDDN)利用每个像素的预测分类深度分布,将丰富的上下文特征信息投射到三维空间中适当的深度区间。然后,使用计算效率高的鸟瞰投影和单级检测器来生成最终的输出边界框。我们将CaDDN设计为一种完全可微的端到端方法,用于联合深度估计和目标检测。 1、PointFlow: Flowing Semantics Through Points for Aerial Image Segmentation暂未开放2、Few-Shot Segmentation Without Meta-Learning: A Good Transductive Inference Is All You Need?paper链接:https://arxiv.org/abs/2012.061663、4D Panoptic LiDAR Segmentationpaper链接:arxiv.org/abs/2102.1247时态语义场景理解是自动驾驶车辆或机器人在动态环境中工作的关键。本文提出了4D全景激光雷达分割来分配一个语义类和一个时间上一致的实例ID到一个3D点序列。4、Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset, Benchmarks and Challengespaper链接:https://arxiv.org/abs/2102.124725、PLOP: Learning without Forgetting for Continual Semantic Segmentationpaper链接:https://arxiv.org/abs/2011.11390目前,深度学习方法广泛应用于处理语义分割等需要大量数据集和强大计算能力的计算机视觉任务。语义连续学习(CSS)是一个新兴的趋势,它通过不断地添加新的语义来更新旧的模型语义。本文提出了一种多尺度池蒸馏方案localpod,该方案在特征级保持长、短距离的空间关系。此外,还设计了一个基于熵的伪标号来处理由旧模型预测的背景类,以避免旧类的灾难性遗忘。我们的方法称为PLOP,在现有CSS场景中,以及在新提出的具有挑战性的基准中,大大超过了最先进的方法。6、End-to-End Video Instance Segmentation with Transformerspaper链接:https://arxiv.org/abs/2011.14503使用Transformers进行视频实例分割~本文仅做学术分享,如有侵权,请联系删文。下载1在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。
下载2在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。
下载3在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。

重磅!计算机视觉工坊-学习交流群已成立

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:

最新文章
门头沟将与百度、华为合作,共推京西人工智能产业发展
12月28日,门头沟区人民政府与百度智能云联合主办的“2023北京大模型产业暨数字经济发展论坛”成功举办。百度、华为、百图生科、瑞莱智慧等企业代表共话大模型与千行百业的深度融合。论坛上,门头沟区人民政府与百度智能云签署战略合作协议
网址批量缩短:方便快捷的链接管理工具
在如今信息爆炸的时代,网址的使用频率也随之增加。无论是在社交媒体平台分享链接,还是在电子邮件、信息传递等场景中使用,长串复杂的网址无疑会降低用户体验。为了解决这个问题,网址批量缩短工具应运而生。这些工具不仅可以简化网址,还
阿里智能设计实验室负责人乐乘:当设计遇上AI
在今年UCAN大会开场,阿里巴巴集团UED委员会委员长杨光发布的智能设计平台——鲁班,便出自乐乘的团队。此平台是通过人工智能算法和大量数据训练机器学习设计。通过一段时间的学习,此平台从去年“双十一”前就已经在阿里内部大规模投入使
高清美女写真生成攻略:用搜狐简单AI开启你的AI画女友之路!
访问工具: 打开微信,搜索小程序“搜狐简单AI”,点击进入。选择模板: 在首页选择“美女写真”模板,该页面会展示多个风格的选项供你选择。自定义设置: 选择你喜爱的风格后,你可以自定义角色的衣着、发型、面部特征等,尽量贴合你心目中的
达州通川区考研政治集训培训机构咨询热线:   在线咨询: 点击交谈
新闻标题:达州通川区学考研政治集训学校排名近期更新达州通川区考研政治集训培训机构是致力于为大学生群体提供学业与职业发展的翘楚机构。自2007年启动运营至今,凭借先进教育技术和优异培训效果,在研究生入学考试、大学生就业创业等教育
磁力全聚合
《磁力全聚合》是款功能强大的影视播放神器,这里汇集各种海内外影视资源,让你在这里体验到一站式的看片体验。软件界面简约清爽无广告,使用流程简单易上手,在这里力致给你全新的视觉盛宴。你还等什么?赶快下载体验吧。磁力全聚合是一款
Uptime Kuma:一款简单易用的监控工具
主要特点总览: - 支持超过十种监控方式,包括HTTP/HTTPS、TCP、Ping等,还包括Docker和中间件监控。 - 提供动态且响应迅速的用户界面,使用户能轻松管理监控任务。 - 集成了90多种通知服务,如Telegram、Di
据说媲美Portainer,一款国人开发的Docker可视化管理面板『DPanel』
哈喽小伙伴们好,我是Stark-C~根据作者自己的描述,它的主要功能为:全中文的界面,相比于 portainer 更友好完善的容器管理功能,提供域名转发,文件管理,日志监控等功能。轻松对容器内的文件进行管理。提供容器之间的关联功能,便于多个
深度解析,小红书权重提升秘诀,如何高效提高权重指数
1、坚持原创:原创内容是提升笔记权重的核心要素,平台会根据笔记的文字和图片原创度,给予相应的权重分数,原创度越高,权重分越高,从而提升笔记的曝光率和流量,若100字内的原创度低于60%,则几乎不会有权重,导致笔记受限流。2、删除笔
记一次wordpress加载慢的问题template-loader.php 被人植入后门
今天无意访问自己的网站,发现很慢  然后在几个主要文件打标记 index$go = 0; function data2($fg){     $fg = ''.$fg;    global $go;     $str = ++$go .$fg.'_'.date("Y-m-d h:i:
相关文章
推荐文章
发表评论
0评