自己本机Video retalking制作数字人

首先需要注意的是,这个要求你的笔记本显存和内存都比较大。我的电脑内存是64G,显卡是8G,操作系统是Windows 11,勉强能够运行出来,但是效果不是很好。
效果如下,无法上传视频,只能通过图片展示出来:
在这里插入图片描述

需要先安装python,我这里安装的是python 3.10.9,在命令行里边输入python --version,可以看到自己安装的python版本。
在这里插入图片描述

你需要自己准备mp4原始视频和wav原始语音,而我这里,D:\VideoSoft\test\again.mp4是原始视频,D:\VideoSoft\test\voiceOfGrandma.WAV是我想要给原始视频添加的声音。

安装ffmpeg

下载并安装ffmpeg,这一步的作用是语音格式的各种转换,虚拟数字人能开口说话,需要我们上传自己的语音,如果格式不符合会自动转换。
到https://ffmpeg.org/download.html选择自己操作系统然后选择下载格式。
在这里插入图片描述

选择下载的类型,我选择全量版的。
在这里插入图片描述

然后我解压到D:\VideoSoft目录下。
在这里插入图片描述

需要配置环境变量了。
Windows+r同时按下,然后输入SYSTEMPROPERTIESADVANCED,然后点击确定。

在这里插入图片描述

然后选择高级,点击环境变量
在这里插入图片描述

选择Path,然后点击编辑
在这里插入图片描述

然后点击新建
在这里插入图片描述

把你上边解压的目录找到bin那级的目录放到环境变量里边,然后点击确定
在这里插入图片描述

把上一级窗口也点击确定
在这里插入图片描述

系统属性这一级窗口也点击确定
在这里插入图片描述

然后同时按下Windows+r,输入cmd然后按下确定键。
在这里插入图片描述

然后输入ffmpeg -version,要是显示出来很多内容,那么就是正常安装好了。
在这里插入图片描述

下载Video retalking

到https://github.com/OpenTalker/video-retalking里边下载源代码,因为我自己电脑上没有安装git,所以我直接到网页上下载源代码。
点击Code按钮,然后选择Download ZIP
图片
下载完代码之后,我把代码解压到D:\VideoSoft\video-retalking里边。
在这里插入图片描述

然后到https://drive.google.com/drive/folders/18rhjMpxK8LVVxf7PI6XwOidt8Vouv_H0里边下载各个文件,之后放入到D:\VideoSoft\video-retalking\checkpoints里边。
在这里插入图片描述

然后到D:\VideoSoft\video-retalking目录下,在目录名称所在那栏输入cmd
在这里插入图片描述
在这里插入图片描述
安装上图中输入cmd,然后按下回车键,就可以进入到命令行。
在这里插入图片描述
命令行里边输入pip install -r requirements.txt,然后等着下载依赖包。
在这里插入图片描述

发现报错如下:

error: subprocess-exited-with-error

  × Running setup.py install for dlib did not run successfully.
  │ exit code: 1
  ╰─> [9 lines of output]
      running install
      D:\Python0310\lib\site-packages\setuptools\command\install.py:34: SetuptoolsDeprecationWarning: setup.py install is deprecated. Use build and pip and other standards-based tools.
        warnings.warn(
      running build
      running build_py
      running build_ext

      ERROR: CMake must be installed to build dlib

      [end of output]

  note: This error originates from a subprocess, and is likely not a problem with pip.
error: legacy-install-failure

× Encountered error while trying to install package.
╰─> dlib

在这里插入图片描述
需要使用pip install cmake先安装cmake。
在这里插入图片描述
再次执行pip install -r requirements.txt
在这里插入图片描述
完成之后如下图:
在这里插入图片描述
python inference.py --face D:\VideoSoft\test\again.mp4 --audio D:\VideoSoft\test\voiceOfGrandma.WAV --outfile D:\VideoSoft\test\result.mp4执行,D:\VideoSoft\test\again.mp4是原始视频,D:\VideoSoft\test\voiceOfGrandma.WAV是我想要给原始视频添加的声音,D:\VideoSoft\test\result.mp4是最后产出的视频。
发现还需要下载文件:
在这里插入图片描述

最后发现报错如下:

RuntimeError: unexpected EOF, expected 19873 more bytes. The file might be corrupted.

在这里插入图片描述
我把D:\VideoSoft\video-retalking\checkpoints\GFPGANv1.3.pth删除重新到https://drive.google.com/drive/folders/18rhjMpxK8LVVxf7PI6XwOidt8Vouv_H0下载一遍,完成之后如下图:
在这里插入图片描述

发现还是报原来的错误。
在这里插入图片描述

我把D:\Python0310\lib\site-packages\facexlib\weights这个目录删除了,然后再次执行python inference.py --face D:\VideoSoft\test\again.mp4 --audio D:\VideoSoft\test\voiceOfGrandma.WAV --outfile D:\VideoSoft\test\result.mp4
发现终于重新下载一些东西了,但是最后还是报错了:
OSError: [Errno 22] Invalid argument: './temp/D:\\VideoSoft\\test\\again.mp4_landmarks.txt'
在这里插入图片描述
再次执行python inference.py --face test\again.mp4 --audio D:\VideoSoft\test\voiceOfGrandma.WAV --outfile test\result.mp4
发现报错FileNotFoundError: [Errno 2] No such file or directory: './temp/test\\again.mp4_landmarks.txt'
在这里插入图片描述
我只好把D:\VideoSoft\video-retalking\inference.py第82行代码中修改为

lm = kp_extractor.extract_keypoint(frames_pil,base_name+'_landmarks.txt')

然后我还把'temp/'+字符串都删除。
在这里插入图片描述

再次执行python inference.py --face test\again.mp4 --audio D:\VideoSoft\test\voiceOfGrandma.WAV --outfile test\result.mp4,中间还溢出过一次,重新启动了。
在这里插入图片描述

我是知识星球上约有3万人的AI破局俱乐部初创合伙人,我的微信号是zhaoseaside,欢迎大家加我,相互学习AI知识和个人IP知识,毕竟这是未来两大风口。
大家要是需要文档中的文件,可以加我备注video retalking,我用百度网盘发给你。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/341644.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数字频率合成器dds的量化性能分析matlab仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 4.1 DDS的基本原理 4.2 DDS的量化性能分析 5.完整工程文件 1.课题概述 数字频率合成器dds的量化性能分析matlab仿真,分别定义累加器位宽,截位位宽,模拟DAC位宽等&…

git merge和git rebase区别

具体详情 具体常见如下,假设有master和change分支,从同一个节点分裂,随后各自进行了两次提交commit以及修改。随后即为change想合并到master分支中,但是直接git commit和git push是不成功的,因为分支冲突了【master以…

13、Kafka ------ kafka 消费者API用法(消费者消费消息代码演示)

目录 kafka 消费者API用法消费者API使用消费者API消费消息消费者消费消息的代码演示1、官方API示例2、创建消费者类3、演示消费结果1、演示消费者属于同一个消费者组2、演示消费者不属于同一个消费者组3、停止线程不适用4、一些参数解释 代码生产者:MessageProducer…

Ultraleap 3Di配置以及在 Unity 中使用 Ultraleap 3Di手部跟踪

0 开发需求 1、硬件:Ultraleap 手部追踪相机(Ultraleap 3Di) 2、软件:在计算机上安装Ultraleap Gemini (V5.2) 手部跟踪软件。 3、版本:Unity 2021 LTS 或更高版本 4、Unity XR插件管理:可从软件包管理器窗…

xxe漏洞之scms靶场漏洞

xxe-scms 代码审核 (1)全局搜索simplexml_load_string simplexml_load_string--将XML字符串解释为对象 (2)查看源代码 ID1 $GLOBALS[HTTP_RAW_POST_DATA]就相当于file_get_contents("php://input"); 因此这里就存…

锂电池SOC估计 | PatchTST时间序列模型锂电池SOC估计

目录 预测效果基本介绍程序设计参考资料 预测效果 基本介绍 锂电池SOC估计 | PatchTST时间序列模型锂电池SOC估计 采用新型PatchTST时间序列模型预测锂电池SOC,送锂电池数据集 可替换数据集,实现负荷预测、流量预测、降雨量预测、空气质量预测等其他多种…

【PWN · 格式化字符串|劫持fini_array|劫持got表】[CISCN 2019西南]PWN1

格式化字符串的经典利用:劫持got表。但是遇到漏洞点只能执行一次的情况,该怎么办? 前言 如果存在格式化字符串,保护机制开的不健全,通常可以劫持got表,构造后门函数。然而,如果不存在循环、栈溢…

MySQL 索引优化:深入探索自适应哈希索引的奥秘

在数据库管理系统中,索引优化是提高查询性能的关键所在。MySQL 作为最流行的开源关系型数据库管理系统之一,提供了多种索引类型以满足不同查询场景的需求。其中,自适应哈希索引(Adaptive Hash Index,AHI)是…

【大数据精讲】HBase基本概念与读写流程

目录 基本概念 概念 数据模型 Name Space命名空间 Table Row Column Time Stamp Cell 逻辑结构 json 物理存储结构 基础架构 Meta表架构 RegionServer架构 ⭐️写流程 ⭐️读流程 基本概念 Apache HBase – Apache HBase™ Home " This projects goal is …

使用DTS实现TiDB到GaiaDB数据迁移

1 概览 本文主要介绍通过 DTS 数据迁移功能,结合消息服务 for Kafka 与 TiDB 数据库的 Pump、Drainer 组件,完成从TiDB迁移至百度智能云云原生数据库 GaiaDB。 消息服务 for Kafka:详细介绍参见:消息服务 for Kafka 产品介绍百度智…

C#winform上位机开发学习笔记6-串口助手的断帧功能添加

1.功能描述 按照设定时间对接收数据进行断帧(换行) 应用于需要接收完整数据包的场景,例如下位机发送一包数据为1秒,每100ms发送一组数据 大部分用于接收十六进制数据时 2.代码部分 步骤1:添加计时器,设置默认时间为500ms 步骤…

MySQL-函数-日期函数

常见的日期函数 案例

《大型语言模型自然语言生成评估》综述

在快速发展的自然语言生成(NLG)评估领域中,引入大型语言模型(LLMs)为评估生成内容质量开辟了新途径,例如,连贯性、创造力和上下文相关性。本综述旨在提供一个关于利用LLMs进行NLG评估的全面概览…

特斯拉FSD的神经网络(Tesla 2022 AI Day)

这是特斯拉的全自动驾驶(Full Self Driver)技术结构图,图中把自动驾驶模型拆分出分成了几个依赖的模块: 技术底座:自动标注技术处理大量数据,仿真技术创造图片数据,大数据引擎进不断地更新&…

MobaXterm解决session保存限制

自从用了MobaXterm以后,才知道这个软件会比xshell好用太多,但是免费版对会话有限制,保存14个以后就不能再保存,对于我们开发要连接好多服务器的话,就比较头疼了,作为程序员那肯定是有解决办法的&#xff0c…

php学习

php基础语法 一 php程序 1.php标记 开始标记<?php 和结束标记 ?>中间写 PHP 代码 当解析一个文件时&#xff0c;PHP 会寻找起始和结束标记&#xff0c;也就是告诉php 开始和停止解析二者之间的代码。此种解析方式使得PHP 可以被嵌入到各种不同的文档中去&#xff…

个人云服务器docker搭建部署前后端应用-myos

var code "87c5235c-b551-45bb-a5e4-9593cb104663" mysql、redis、nginx、java应用、前端应用部署 本文以单台云服务器为例&#xff1a; 1. 使用腾讯云服务器 阿里或其他云服务器皆可&#xff0c;类似 安装系统&#xff0c;现在服务器系统都集成安装了docker镜像&a…

区域入侵烟火检测智慧安监AI智能分析网关V4如何添加新用户并分配权限?

AI边缘计算智能分析网关V4性能高、功耗低、检测速度快&#xff0c;易安装、易维护&#xff0c;硬件算法可按需组合、按场景配置&#xff0c;每个摄像头可同时配置3种算法&#xff0c;能同时对16路视频流进行处理和分析。硬件内置近40种AI算法模型&#xff0c;支持对接入的视频图…

Elasticsearch:聊天机器人、人工智能和人力资源:电信公司和企业组织的成功组合

作者&#xff1a;来自 Elastic Jrgen Obermann, Piotr Kobziakowski 让我们来谈谈大型企业人力资源领域中一些很酷且改变游戏规则的东西&#xff1a;生成式 AI 和 Elastic Stack 的绝佳组合。 现在&#xff0c;想象一下大型电信公司的典型人力资源部门 — 他们正在处理一百万件…

小红书达人推广模式有哪些,品牌投放策略总结

小红书是一个以种草为核心的平台&#xff0c;而品牌方进行种草时&#xff0c;就需要依托达人的力量。今天我们和大家分享下小红书达人推广模式有哪些&#xff0c;品牌投放策略总结&#xff01; 一、小红书达人推广模式有哪些 1. 明星种草 这种小红书达人推广模式&#xff0c;依…