首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

CVPR 2019审稿满分论文:中国博士提出融合CV与NLP的视觉语言导航新方法

  • 24-03-05 02:40
  • 2635
  • 6404
blog.csdn.net

640?wx_fmt=jpeg

 

整理 | 刘畅、Jane

责编 | Jane

出品 | AI科技大本营(公众号id:rgznai100)

如何挑战百万年薪的人工智能!

https://edu.csdn.net/topic/ai30?utm_source=csdn_bw

CVPR 2019 接收论文编号公布以来,AI科技大本营开始陆续为大家介绍一些优秀论文。今天推荐的论文,将与大家一起探讨一种在视觉语言导航任务中提出的新方法,来探索未知环境。

 

640?wx_fmt=png

 

 

作者

这篇论文是 UC Santa Barbara 大学(加州大学圣巴巴拉分校)与微软研究院、Duke 大学合作完成,第一作者系 UC Santa Barbara 大学的王鑫。

 

据 UC Santa Barbara 计算机科学系助理教授王威廉在其个人微博上发表的喜讯,这篇论文的一作是其组内的成员,获得了 3 个 Strong Accept,在 5165 篇投稿文章中审稿得分排名第一,并且这篇论文已经确定将在 6 月的 CVPR 会议上进行报告。

     

640?wx_fmt=png

 

这篇论文解决的任务 vision-language navigation(VLN)我们之前介绍的并不多,所以,这次营长会先给大家简单介绍 VLN,然后从这项任务存在的难点到解决方法、实验效果等方面为大家介绍,感兴趣的小伙伴们可以从文末的地址下载论文,详细阅读。

 

 

什么是 VLN?

 

视觉语言导航(vision-language navigation, VLN)任务指的是引导智能体或机器人在真实三维场景中能理解自然语言命令并准确执行。结合下面这张图再形象、通俗一点解释:假如智能体接收到“向右转,径直走向厨房,然后左转,经过一张桌子后进入走廊...”等一系列语言命令,它需要分析指令中的物体和动作指令,在只能看到一部分场景内容的情况下,脑补整个全局图,并正确执行命令。所以这是一个结合 NLP 和 CV 两大领域,一项非常有挑战性的任务。

     

640?wx_fmt=png

 

 

难点

 

虽然我们理解这项任务好像不是很难,但是放到 AI 智能体上并不像我们理解起来那么容易。对 AI 智能体来说,这项任务通常存在三大难点:

 

难点一:跨模态的基标对准(cross-modal grounding);简单解释就是将NLP 的指令与 CV 场景相对应。

 

难点二:不适定反馈(ill-posed feedback);就是通常一句话里面包含多个指令,但并不是每个指令都会进行反馈,只有最终完成任务才有反馈,所以难以判断智能体是否完全按照指令完成任务。

 

难点三:泛化能力问题;由于环境差异大,VLN 的模型难以泛化。

 

那这篇论文中,作者又做了哪些工作,获得了评委们的一致青睐,获得了 3 个 Strong Accept 呢?方法来了~

 

 

方法

 

 

1、RCM(Reinforced Cross-Modal Matching)模型

 

针对第一和第二难点,论文提出了一种全新的强化型跨模态匹配(RCM)方法,用强化学习方法将局部和全局的场景联系起来。

 

RCM 模型主要由两个模块构成:推理导航器和匹配度评估器。如图所示,通过训练其中绿色的导航器,让它学会理解局部的跨模态场景,推断潜在的指令,并生成一系列动作序列。另外,论文还设置了匹配度评估器(Matching Critic)和循环重建奖励机制,用于评价原始指令与导航器生成的轨迹之间的对齐情况,帮助智能体理解语言输入,并且惩罚不符合语言指令的轨迹。

     

640?wx_fmt=png

 

以上的方法仅仅是解决了第一个难点,所以论文还提出了一个由环境驱动的外部奖励函数,用于度量每个动作成功的信合和导航器之间的误差。

 

640?wx_fmt=png

 

 

2、SIL(Self-supervised Imitation Learning)方法

 

为了解决第三个难点,论文提出了一种自监督模仿学习(Self-supervised Imitation Learning, SIL),其目的是让智能体能够自主的探索未知的环境。其具体做法是,对于一个从未见过的语言指令和目标位置,导航器会得到一组可能的轨迹并将其中最优的轨迹(采用匹配度评估器)保存到缓冲区中,然后匹配度评估器会使用之前介绍的循环重建奖励机制来评估轨迹,SIL方法可以与多种学习方法想结合,通过模仿自己之前的最佳表现来得到更优的策略。     

 

640?wx_fmt=png

 

 

测试结果

 

1、测试集:R2R(Room-to-Room)Dataset;视觉语言导航任务中一个真实 3D环境的数据集,包含 7189 条路径,捕捉了大部分的视觉多样性,21567 条人工注释指令,其平均长度为 29 个单词。

 

2、评价指标

  • PL:路径长度(Path Length)

  • NE:导航误差(Navigation Error)

  • OSR:Oracle 成功率(Oracle Success Rate)

  • SR:成功率( Success Rate)

  • SPL:反向路径长度的加权成功率(Success rate weighted by inverse Path Length)

 

3、实验对比:与 SOTA 进行对比,此前在 R2R 数据集上效果最优的方法。

Baseline:Random、seq2seq、RPA 和 Speaker-Follower。

 

640?wx_fmt=png

 

测试结果显示,RCM 模型的效果在 SPL 指标上明显优于当前的最优结果。

     

640?wx_fmt=png

 

并且在 SIL 方法学习后,学习效率也有明显的提高,在见过和未见过的场景验证集上,并可视化了其内部奖励指标。

     

640?wx_fmt=png

 

 

论文地址:

https://arxiv.org/pdf/1811.10092.pdf

 

640?wx_fmt=png

 

近期值得读的好论文:

新论文:

CVPR2019 | 微软、中科大开源基于深度高分辨表示学习的姿态估计算法

开源论文:

ICLR 2019 | 脱掉图片人物的裤子,就是这么任性

性能优秀的算法:

PFLD:简单、快速、超高精度人脸特征点检测算法

 

640?wx_fmt=png

如果你也想推荐你觉得值得一读的论文,或者解读了哪篇优秀论文都可以投稿给营长,上面是我们的投稿方式,投稿时请按照要求备注哦~

 

(本文为AI科技大本营整理文章,转载请微信联系 1092722531)

 

人工智能如何学?

https://edu.csdn.net/topic/ai30?utm_source=csdn_bw

群招募

 

扫码添加小助手微信,回复:公司+研究方向(学校+研究方向),邀你加入技术交流群。技术群审核较严,敬请谅解。

640?wx_fmt=jpeg

推荐阅读:

  • 曝贾扬清第二跳,加入阿里!达摩院或将承载中国下一个AI愿景?

  • 投稿近2000,NAACL 2019接收率仅为22.6%|附录取论文名单

  • 如何从零开始用PyTorch实现Chatbot?(附完整代码)

  • Python语音识别终极指南(收藏)

  • 被感冒折磨一周后,我研究了一下生病这件事

  • 北京程序媛图鉴 | 程序员有话说

  • 阿里云又宕机!

  • 一部刷爆朋友圈的5G短片,看完才知道5G多暖多重要!

  • 20万赚200万,48岁创业者是这样吊打小鲜肉的!

  • 为啥程序员下班后只关显示器从不关电脑?

                         640?wx_fmt=png

❤点击“阅读原文”,查看历史精彩文章。

注:本文转载自blog.csdn.net的AI科技大本营的文章"https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/88148505"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

101
推荐
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2025 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top