DInet

(1)数据:
1):随机获取5帧参考帧
2):处理这5帧连续帧,:source_frames:连续5帧的crop_moth
b)audio_list:连续5帧的每一帧对应的5帧音频mel特征
c):refs:fintune 固定参考帧,为video.refs,给这连续5帧每一帧配固定的5帧参考帧。
video.refs 为整段视频的突出表情帧,ref_desc_list = [“闭嘴”, “张嘴”, “嘟嘴”, “半张嘴”, “张大嘴”]
ref_desc_list通过当前帧与ref_normal_landmarks作相似度,计算得来。
d): refs:pretrain 随机5帧参考帧
(2)网络:
N=5
输入:1:source_img:torch.Size([N, 3, 160, 128])。 #一帧带预测嘴型的帧
2:ref_img:torch.Size([N, 15, 160, 128])。#随机参考帧
3:audio_feature:torch.Size([N, 80, 16])
输出:torch.Size([N, 3, 160, 128])
alignment encoder:将两种图片特征concat,在channel维度上拼接后,接到一个下采样16倍的小网络中,然后接一层全连接层,组成1*128维度的特征向量
adaat:空间变形,在人脸姿态检测里面有引用,在特征通道空间中进行仿射变换,【R,T,S】,实现错位图像生成,保证生成的嘴型姿态跟带预测嘴型帧的姿态一致。
在这里插入图片描述
(3)损失:
1)Perception loss;2)GAN loss. 3)Lip-sync loss.
分别对应图像特征判别器,音频特征判别器,和音唇同步模型。
输入:随机5帧参考帧reference image,随机一张待生成的mask后的原图source image,source image对应的音频
过程:1)将reference image 与source image均下采样4倍,分别得到[N,256,40,32]的特征图
2)将1)得到的2组特征图,融合对齐,得到特征图3.
3)音频提取的特征,与特征图3融合并进行仿射变换(以前在做人脸重建时会有用到),得到特征图4
4)对特征图4,进行decode,上采样4倍,得到生成的图片。
输出:fake_out
(4)后续loss:

  1. perceptionLoss
    计算fake_out与fake_out原图做一个特征金字塔计算,然后送到vgg中,分别计算图像特征,最后两个特征张量做L1Loss
    2)pixelLossL1
    计算fake_out与fake_out原图线性插值缩放一定倍数后,做L1Loss
    3)两个判别器loss
    4)mothloss
    计算fake_out嘴部分与fake_out原图嘴部分做perceptionLoss
    5)sync_loss
    生成的嘴型与对应的音频,送到syncnet中,得到音频特征和嘴型特征,然后做nn.MSELoss()
    (5)辅助网络:
    1)图片+音频判别器网络:
    比较大的一个二分类网络,用来判别生成图和原图的真假
    GAN loss=MSE Loss
    2)音视频同步网络
    通过调节表情特征系数,可以控制嘴型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/602510.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

「PolarDB-X入门到精通」第六讲:MySQL生态兼容

在上一阶段的课程中,已经和大家一起了解了PolarDB分布式数据库的产品架构,并且带领大家一起分别通过PXD、源码编译完成了PolarDB-X 的安装部署。在接下来的课程中,我们将继续带领大家一起学习PolarDB-X的产品特性。 在本期的课程中&#xff0…

激光雷达扫描:高效精准的车辆长宽高检测系统

因泰立科技激光式车辆长宽高检测系统广泛应用于固定式治超站、高速公路入口治超站、非现场执法站、物料场、停车场的车辆的长宽高检测,实现不停车实时获取车辆长宽高信息。 总体方案 本系统采用高精度的激光扫描检测技术,可以对车辆进行立体的扫描&…

Vue线上环境禁止打印console.log

当我们在开发项目时,我们会使用大量的console.log,这样方便我们去调试,但是当正常上线后,在生产环境,我们是不喜欢打印的信息暴露在浏览器控制台的。 这时候我们可以通过一行代码解决: 在main.js文件中添加…

公众号流量主的收益怎么样?

公众号之前是一个私域平台,没有粉丝基本是没有推荐的,所以之前入门的门槛还是很高的,但是今年公众号和视频号改变了推流的机制,现在发的文章会进入到流量池中,进入到公域流量,所以发布的优质文章会大爆的&a…

docker部署elasticsearch7.7.0级拼音(pinyin)插件和分词(ik)插件

拉取并启动es docker run -d --namees -p 9200:9200 -p 9300:9300 -e "discovery.typesingle-node" elasticsearch:7.7.0安装pinyin插件 下载pinyin插件 下载ik插件 上传插件到服务器 docker cp /path/to/elasticsearch-analysis-pinyin-7.7.0.zip elasticsearch…

Eclipse 常用快捷键和操作总结

keywords: Eclipse 快捷键 C --> Ctrl S --> Shift A --> Alt 功能快捷键显示所有快捷键C-S-l开/关注释C-/显示 outlineC-o当前打开的文件列表C-e快速查找打开文件C-S-r查找C-h查找后跳到下一处C-.UndoC-zRedoC-y跳到指定行C-l自动补全A-/自动解决导入包问题C-S-…

项目启动后 数据库表结构会被自动修改 删除字段

问题还原 我这表是有warehouse_code这个字段的 然后我启动项目后,发现这个字段被删除了 解决办法 看你的配置中是否有下面的配置 把这个配置删除就行了,这配置是根据Java实体来来创建修改数据库结构的

CST电磁仿真查看模型的截面结构和生成Spice模型【入门教程】

通过Logfile查看仿真统计 一次性了解仿真统计! Post-Processing > Manage Results > Logfile 利用CPU Threads、Mesh Cells、Time Steps以及Total Solver Time等Logfile,可以一目了然地了解仿真统计。 (1)点击Post-Processing选项卡…

Android 右键 new AIDL 无法选择

提示 (AIDL File)Requires setting the buildFeatures.aidl to true in the build file) 解决方式: 在app的build.gradl中 adnroid{} 添加: buildFeatures{aidl true}

Google准备好了吗?OpenAI发布ChatGPT驱动搜索引擎|TodayAI

在科技界波澜壮阔的发展中,OpenAI正式宣布其最新突破——一个全新的基于ChatGPT技术的搜索引擎,旨在直接挑战谷歌在搜索领域的统治地位。这一创新将可能彻底改变用户上网搜索的方式。 据悉,这款AI驱动的搜索引擎利用了ChatGPT的强大功能&…

Axure中继器介绍以及案例分享

中继器是 Axure 中一个比较高阶的应用,它可以让我们在纯静态网页中模拟出类似带有后台数据交互的增删改查的效果。 一、中继器的基本使用方法: 整体流程分为三个步骤 ☆创建中继器 我们先在 Axured画布中拖入一个中继器元件 双击中继器后的效果 打开之…

图书管理系统调整——修改注解(引入IoC、DI思想)

这里修改的还是比较简单,我们知道,五大注解通常情况下是可以混用的,而这里的BookController和UserController的注解不变 ,也不能改变,因为Controller除了交给Spring管理外,还具备一定的路由功能&#xff0c…

一路串联电机的绕制原理

这里要说明的一点是 对于一路串联的电机,无论是一把线圈还是两把线圈,出来的都是只有两个线头,可看做一个整体来对待! 绕制具体原理 同心式线圈绕制 前面说的都是等距式的 线圈绕制,下面我们讲解一下同心式的绕制办法…

C语言 | Leetcode C语言题解之第74题搜索二维矩阵

题目&#xff1a; 题解&#xff1a; bool searchMatrix(int** matrix, int matrixSize, int* matrixColSize, int target) {int m matrixSize, n matrixColSize[0];int low 0, high m * n - 1;while (low < high) {int mid (high - low) / 2 low;int x matrix[mid /…

Python中使用嵌套for循环读取csv文件出现问题

如果我们在使用嵌套循环来读取 CSV 文件时遇到了问题&#xff0c;可以提供一些代码示例和出现的具体错误&#xff0c;这样我可以更好地帮助大家解决问题。不过&#xff0c;现在我可以给大家一个基本的示例&#xff0c;演示如何使用嵌套循环来读取 CSV 文件。 问题背景 我需要读…

ShowMeAI | 这是我们知道的,关于〖Suno 〗和〖AI音乐〗的一切

&#x1f440;日报&周刊合集 | &#x1f3a1;生产力工具与行业应用大全 | &#x1f9e1; 点赞关注评论拜托啦&#xff01; Suno 是一款AI音乐创作工具&#xff0c;可以通过提示词和设置生成一段音乐&#xff0c;而且可以包含歌词和人声 (这非常难得)。在经历了两年探索之后…

java spring 09 Bean的销毁过程 上 在docreatebean中登记要销毁的bean

1.Bean销毁是发送在Spring容器关闭过程中的 AnnotationConfigApplicationContext context new AnnotationConfigApplicationContext(AppConfig.class);UserService userService (UserService) context.getBean("userService");userService.test();// 容器关闭cont…

一季度盈利大增65.62%,神州泰岳游戏表现抢眼

易采游戏网5月8日消息&#xff0c;近日国内知名游戏上市公司神州泰岳公布了其2023年一季度的财务报告&#xff0c;报告显示&#xff0c;公司一季度盈利大增65.62%&#xff0c;这一数字远超过市场预期&#xff0c;引发了业界的广泛关注。 神州泰岳此次盈利大增&#xff0c;主要得…

韩国站群服务器在全球网络架构中的重要作用?

韩国站群服务器在全球网络架构中的重要作用? 在全球互联网的蓬勃发展中&#xff0c;站群服务器作为网络架构的核心组成部分之一&#xff0c;扮演着至关重要的角色。韩国站群服务器以其卓越的技术实力、优越的地理位置、稳定的网络基础设施和强大的安全保障能力&#xff0c;成…

武汉星起航:跨境电商平台拓展全球市场,打造国际品牌的更优选择

随着全球化的加速和互联网的普及&#xff0c;跨境电商平台与国内电商平台成为了现代商业领域的两大重要支柱。它们在商业模式、运营策略、市场覆盖等方面均呈现出显著的区别&#xff0c;为商家提供了多样化的销售渠道和市场拓展机会。武汉星起航旨在深入探讨跨境电商平台与国内…
最新文章