(论文阅读46-50)图像描述2

46.文献阅读笔记

简介

题目

Learning a Recurrent Visual Representation for Image Caption Generation

作者

Xinlei Chen, C. Lawrence Zitnick, arXiv:1411.5654.

原文链接

http://www.cs.cmu.edu/~xinleic/papers/cvpr15_rnn.pdf

关键词

2014年rnn图像特征和文本特征相互描述

研究问题

图像和基于句子的描述之间的双向映射。

句子生成、句子检索和图像检索。

目标:

能够根据一组视觉观察结果或特征生成句子,根据之前生成的单词集 Wt-1 = w1, ... , wt-1 和观察到的视觉特征 V,计算出单词 wt 在 t 时刻生成的概率。

其次,希望在一组口语或阅读单词 Wt 的情况下,能够计算视觉特征 V 的可能性,从而生成场景的视觉表征或执行图像搜索。

研究方法

提出使用循环神经网络来学习这个映射。与以前的方法将句子和图像映射到一个共同的嵌入不同,我们允许在给定图像的情况下生成新的句子。使用相同的模型,我们也可以在给定图像的视觉描述的情况下,重建与图像相关的视觉特征。

使用一种新颖的循环视觉记忆,自动学习记忆长期的视觉概念,以帮助句子生成和视觉特征重建。

Rnn:从句子中生成图像特征,从图像特征中生成句子

研究结论

学习长期的交互、反复出现的视觉记忆来学习重建视觉特征

创新不足

None

额外知识

None

47.文献阅读笔记

简介

题目

From Captions to Visual Concepts and Back

作者

Hao Fang, Saurabh Gupta, Forrest Iandola, Rupesh Srivastava, Li Deng, Piotr Dollár, Jianfeng Gao, Xiaodong He, Margaret Mitchell, John C. Platt, C. Lawrence Zitnick, Geoffrey Zweig, CVPR, 2015.

原文链接

http://arxiv.org/pdf/1411.4952

关键词

自动生成图像描述

研究问题

学习图像描述生成新的图像描述

研究方法

直接从图像标题数据集中学习视觉检测器、语言模型和多模态相似性模型。

该系统在图像和对应的字幕上进行训练,并学习从图像中的区域中提取名词、动词和形容词。这些检测到的单词然后指导一个语言模型生成阅读良好并包含检测到的单词的文本。最后,我们使用本文引入的全局深度多模态相似性模型对候选字幕进行重排序。

CNN AlexNet 或 VGG CNN

DMSM学习两个神经网络,将图像和文本片段映射到一个共同的向量表示。我们通过度量图像和文本对应向量之间的余弦相似度来度量图像和文本之间的相似度。

研究结论

比人类书写快

创新不足

很难评

额外知识

image captions:图像描述

48.文献阅读笔记

简介

题目

Show, Attend, and Tell: Neural Image Caption Generation with Visual Attention

作者

Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel, Yoshua Bengio, arXiv:1502.03044 / ICML 2015

原文链接

http://www.cs.toronto.edu/~zemel/documents/captionAttn.pdf

关键词

图像描述

研究问题

描述了如何使用标准的反向传播技术以确定性的方式训练这个模型,并通过最大化一个变分下界来随机地训练这个模型。我们还通过可视化展示了模型如何能够在输出序列中生成相应的单词的同时,自动学习将目光固定在显著对象上。

研究方法

Cnn+lstm+注意力机制

引入了一个基于注意力的模型,该模型自动学习描述图像的内容。

注意力:

“软”“硬”注意力结合。

研究结论

提出的注意力框架并不明确使用对象检测器,而是从头开始学习潜在排列。模型能够超越 "对象性",学习关注抽象概念。

利用学习到的注意力来赋予模型生成过程更多的可解释性,并证明了学习到的对齐非常符合人类的直觉。

创新不足

额外知识

Caption:说明文字

注意力:注意力不是将整个图像压缩成静态的表征,而是让突出的特征在需要时动态地凸显出来。当图像中存在大量杂波时,这一点尤为重要。使用表征(如来自卷积网络顶层的表征)将图像中的信息提炼为最突出的对象,是一种有效的解决方案。这种方法有一个潜在的缺点,那就是会丢失一些信息,而这些信息对于更丰富、描述性更强的字幕可能是有用的。使用更低级的表示法有助于保留这些信息。然而,使用这些特征需要一个强大的机制来引导模型获取对当前任务非常重要的信息。

Attention Mechanism:注意力机制

而在注意力机制中,每个神经元的输出不仅仅取决于前一层的所有神经元的输出,还可以根据输入数据的不同部分进行加权,即对不同部分赋予不同的权重。这样可以使模型更加关注输入序列中的关键信息,从而提高模型的精度和效率。

【深度学习】注意力机制_高效注意力机制-CSDN博客

【深度学习】(1) CNN中的注意力机制(SE、ECA、CBAM),附Pytorch完整代码_se注意力机制_立Sir的博客-CSDN博客

49.文献阅读笔记(基于短语而不是单词)

简介

题目

Phrase-based Image Captioning

作者

Remi Lebret, Pedro O. Pinheiro, Ronan Collobert, arXiv:1502.03671 / ICML 2015

原文链接

http://arxiv.org/pdf/1502.03671

关键词

生成图像的新颖文本描述

研究问题

在给定样本图像的情况下生成描述性句子,对描述的语法有很强的专注性

研究方法

提出了一个简单的模型,能够从图像样本中推断不同的短语。从预测的短语来看,模型能够使用统计语言模型自动生成句子。

CNN获得图像特征。

短语初始化:词向量表示:通过利用这些词向量表示通过简单求和组成的能力,短语的表示可以很容易地通过元素加法来计算。

短语构成句子:在识别出图像 中最有可能的 L 个成分短语之后,从这些成分中生成句子。使用统计语言框架,给定一个句子的可能性。

对句子解码:剪枝,短语只出现一次,句法限制。

对生成的句子进行排序,以选择与图像最匹配的句子。

研究结论

在不使用复杂的循环网络的情况下,句子生成问题可以有效地实现。我们的算法,尽管比最先进的模型更简单,但在这项任务上取得了类似的结果。此外,我们的模型生成了训练集中通常不存在的新句子。

创新不足

未来的研究方向将朝着利用无监督数据和更复杂的语言模型的方向发展

额外知识

None

50.文献阅读笔记(泛化)

简介

题目

Learning like a Child: Fast Novel Visual Concept Learning from Sentence Descriptions of Images

作者

Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Zhiheng Huang, Alan L. Yuille, arXiv:1504.06692

原文链接

http://arxiv.org/pdf/1504.06692

关键词

从少量示例中学习物体新类别的问题(有时没有足够的数据来识别新概念,因此需要从以前学习过的类别中转移知识)不希望每次添加一些带有新概念的图像时都要重新训练整个模型,尤其是在数据量或模型参数非常大的情况下。

研究问题

从一些带有句子描述的图像中学习新颖的视觉概念,并且与其他概念的相互作用的任务。

识别、学习和使用新概念是人类最重要的认知功能之一。很小的时候,我们通过观察视觉世界和听父母的句子描述来学习新概念。这个过程一开始是缓慢的,但是当我们积累了足够多的已学过的概念之后,这个过程就会变得更快。

图1:句子新颖视觉概念学习( NVCS )任务示意图。我们从不包含"魁地奇"概念的图像训练的模型(即模型库)开始( 1 )。使用一些带有句子描述的"魁地奇"图像,我们的方法能够学习到"魁地奇"是由人用球打的。

研究方法

提出了一种方法,允许模型使用少量示例扩充其单词字典,以描述新概念,而无需大量的再训练。特别是,不需要在所有数据(所有以前学习过的概念和新概念)上从头开始重新训练模型。

 基础模型:m-RNN

首先,提出了转置权重共享策略,大大减少了模型中的参数数量。其次,我们用长短时记忆(LSTM)层取代了中的递归层。LSTM 是一种递归神经网络,专门用于解决梯度爆炸和消失问题。

该模型由三个部分组成:语言部分、视觉部分和多模态部分。

语言组件包含两个单词嵌入层和一个 LSTM 层。它将词典中的单词索引映射到语义密集的单词嵌入空间,并将单词上下文信息存储在 LSTM 层中。

视觉组件包含一个在 ImageNet 分类任务中预先训练过的 16 层深度卷积神经网络(CNN)。我们移除了深度卷积神经网络的最后一层 SoftMax,并将顶部的全连接层(4096 维层)连接到我们的模型。这 4096 维层的激活可视为图像特征,其中包含丰富的物体和场景视觉属性。

多模态组件包含一个单层表征,其中语言部分和视觉部分的信息融合在一起。我们在多模态层之后建立了一个 SoftMax 层,用于预测下一个单词的索引。

句子中单词的子模型共享权重。与 m-RNN 模型一样,我们在每个训练句中添加了开始符号 wstart 和结束符号 wend。

在图像描述的测试阶段,我们将起始符号 wstart 输入模型,并根据 SoftMax 层选出 K 个概率最大的最佳词语。重复这一过程,直到模型生成结束符号 wend。

研究结论

提出了新颖视觉概念学习( Novel Visual Concept Learning from Sentences,NVCS )任务。在该任务中,方法需要从少量图像的句子描述中学习新颖的概念。我们描述了一种方法,它允许我们在少量包含新概念的图像上训练我们的模型。这与从头开始重新训练的模型在所有数据上的表现相当,如果新颖概念图的数量很大,并且在只有少数新颖概念的训练图像可用时表现更好。

创新不足

额外知识

Zero-shot and one-shot learning:

Zero-shot learning:【精选】Zero Shot | 一文了解零样本学习-CSDN博客

one-shot learningOne-Shot学习/一次学习(One-shot learning)-CSDN博客

Zero-Shot, One-Shot, and Few-Shot Learning概念介绍-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/162360.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

目录自动清洗

文章目录 前言一、需求分析二、操作步骤详解(标准章节)1. 提取文章目录2. 更改保存目录.txt3. 二级标题前面加4个空格4. 在章字和节字后面添加一个空格5. 在页码前面加上>符号6. 代码完全体 三、进阶一(有章无节小数二级标题)1…

git基础命令

git简介 什么是git? git是一种分布式版本控制系统。 git与svn之间的区别是什么? svn是集中式版本控制系统。git是分布式版本控制系统。 什么是集中式版本控制系统?有哪些特点? 版本库是集中存放在中央服务器。集中式版本控制…

kk模组的具体应用场合

KK模组是一种高精度、高刚度的直线模组,广泛应用于各种自动化设备和精密仪器中。以下是KK模组的一些具体应用场合: 1、半导体设备:半导体制造过程中需要使用精密的定位和运动控制设备,KK模组作为一种高精度、高刚度的直线模组&…

Selenium——利用input标签上传文件

Selenium利用input标签上传文件 完整流程 打开文件上传页面选择要上传的文件点击上传按钮确认文件上传成功介绍怎么方便的获取对应元素的Xpath或者Css 简单介绍 在使用Selenium进行浏览器自动化测试时,文件上传是一个常见的需求。而 标签就是实现文件上传功能的…

【Python自动化】定时自动采集,并发送微信告警通知,全流程案例讲解!

文章目录 一、概要二、效果演示三、代码讲解3.1 爬虫采集行政处罚数据3.2 存MySQL数据库3.3 发送告警邮件&微信通知3.4 定时机制 四、总结 一、概要 您好!我是马哥python说,一名10年程序猿。 我原创开发了一套定时自动化爬取方案,完整开…

十一、统一网关GateWay(搭建网关、过滤器、跨越解决)

目录 一、网关技术的实现 在SpringCloud中网关的实现包括两种: 作用: 二、搭建网关服务 1、新建模块,并添加依赖 2、新建Gateway包,并编写启动类 3、编写yml文件 4、启动服务,并在网页内测试 5、步骤 三、路由断言工厂 …

Python与ArcGIS系列(九)自定义python地理处理工具

目录 0 简述1 创建自定义地理处理工具2 创建python工具箱0 简述 在arcgis中可以进行自定义工具箱,将脚本嵌入到自定义的可交互窗口工具中。本篇将介绍如何利用arcpy实现创建自定义地理处理工具以及创建python工具箱。 1 创建自定义地理处理工具 在arctoolbox中的自定义工具箱…

C++初阶 日期类的实现(下)

目录 一、输入输出(>>,<<)重载的实现 1.1初始版 1.2友元并修改 1.2.1简单介绍下友元 1.2.2修改 1.3>>重载 二、条件判断操作符的实现 2.1操作符的实现 2.2!操作符的实现 2.3>操作符的实现 2.4>,<,<操作符的实现 三、日期-日期的实现 …

Flutter笔记:Matrix4矩阵变换与案例

Flutter笔记 Matrix4矩阵变换及其案例 作者&#xff1a;李俊才 &#xff08;jcLee95&#xff09;&#xff1a;https://blog.csdn.net/qq_28550263 邮箱 &#xff1a;291148484163.com 本文地址&#xff1a;https://blog.csdn.net/qq_28550263/article/details/134474764 【简介…

java回调函数

在java中是存在回调函数的&#xff0c;我们可以把回调函数理解为一个被作为参数传递的函数。 类似于&#xff0c;我可以设置一个功能给系统&#xff0c;但是只有特定时候才会触发&#xff0c;触发的时候就会把函数作为参数的形式传递到另外的函数中。一般都是使用系统中写好的…

Vue3+Vite实现工程化,插值表达式和v-text以及v-html

1、插值表达式 插值表达式最基本的数据绑定形式是文本插值&#xff0c;它使用的是"Mustache"语法&#xff0c;即 双大括号{{}} 插值表达式是将数据 渲染 到元素的指定位置的手段之一插值表达式 不绝对依赖标签&#xff0c;其位置相对自由插值表达式中支持javascript的…

NSSCTF第13页(1)

[NCTF 2018]Easy_Audit 小小代码审计 $_REQUEST:PHP的内置变量&#xff0c;是一个数组&#xff0c;保存传递的参数&#xff0c;它的特性是如果get,post一起传参&#xff0c;则会优先post传参&#xff0c;可以由此进行变量覆盖。 $_SERVER:PHP的内置变量&#xff0c;是一个数组…

unity教程

前言 伴随游戏行业的兴起&#xff0c;unity引擎的使用越来越普遍&#xff0c;本文章主要记录博主本人入门unity的相关记录大部分依赖siki学院进行整理。12 一、认识unity引擎&#xff1f; 1、Unity相关信息&#xff1a; Unity的诞生&#xff1a;https://www.jianshu.com/p/550…

如何解决swagger-editor在线接口调试时的跨域问题

文章目录 一&#xff0c;序言二&#xff0c;问题重现1. 运行swagger-editor2. 运行接口服务3. 问题重现步骤 三&#xff0c;解决问题思路1. 去除浏览器安全限制2. 服务器接口统一处理3. 委托nginx转发 四&#xff0c;完整接口代码传送 一&#xff0c;序言 在 Docker 运行swagg…

提升 Python 执行速度:Codon、C/C++、Rust、Numba(JIT)、Taichi、Nuitka、MatxScript

几种流行的 Python 性能加速方案对比&#xff1a;https://zhuanlan.zhihu.com/p/604519817 对于一般通用场景用户&#xff0c;对性能没有那么强烈的诉求&#xff0c;紧跟官方步伐&#xff0c;升级到最新版本的 Python 既可&#xff0c;或者使用 PyPy。Numba、Codon、Taichi 等这…

电子画册真的好好用,制作也简单,都快来学学!

同纸质画册相比&#xff0c;电子画册无需受时间、空间、地域等限制&#xff0c;它通过手机、电脑即可发送文件&#xff0c;轻松实现在线浏览&#xff0c;使用起来更方便。 如何制作电子画册&#xff1f;这里同大家分享一下超简单的电子画册制作教程&#xff0c;0基础也能轻松上…

机器学习的医疗乳腺癌数据的乳腺癌疾病预测

项目视频讲解:基于机器学习的医疗乳腺癌数据的乳腺癌疾病预测 完整代码数据分享_哔哩哔哩_bilibili 效果演示: 代码: #第一步!导入我们需要的工具 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inlin…

kubenetes-容器网络接口CNI

一、CNI Kubernetes 网络模型设计的基础原则是&#xff1a; 所有的Pod能够不通过NAT(网络地址转换)就能相互访问。所有的节点能够不通过NAT就能相互访问。容器内看见的IP地址和外部组件看到的容器IP是一样的。 Kubernetes的集群里&#xff0c;IP地址是以Pod为单位进行分配的…

IoC DI

Spring 的两大核心思想 : IoC 和 AOP 我们要将对象的控制权交给Spring ,我们就需要告诉 Spring 哪些对象是需要帮我们进行创建的,这里有两类注解可以实现 : 类注解(Controller Service Repository Component Configuration)和方法注解(Bean) 这五大注解都表示把这个对象交给…

2023-11-18 LeetCode每日一题(数位和相等数对的最大和)

2023-11-18每日一题 一、题目编号 2342. 数位和相等数对的最大和二、题目链接 点击跳转到题目位置 三、题目描述 给你一个下标从 0 开始的数组 nums &#xff0c;数组中的元素都是 正 整数。请你选出两个下标 i 和 j&#xff08;i ! j&#xff09;&#xff0c;且 nums[i] …