尝试着在Stable Diffusion里边使用SadTalker进行数字人制作

首先需要标明的是,我这里是图片说话类型,而且是看了知识星球AI破局俱乐部大航海数字人手册进行操作的。写下这篇文章是防止我以后遗忘。
我使用的基础软件是Stable Diffusion,SadTalker是作为插件放进来的,需要注意的是这对自己的电脑GPU要求比较高,至少需要8G,至少我的电脑是8G显存。

下载并安装ffmpeg

下载并安装ffmpeg,这一步的作用是语音格式的各种转换,虚拟数字人能开口说话,需要我们上传自己的语音,如果格式不符合会自动转换。
到https://ffmpeg.org/download.html选择自己操作系统然后选择下载格式。
在这里插入图片描述

选择下载的类型,我选择全量版的。
在这里插入图片描述

然后我解压到D:\VideoSoft目录下。
在这里插入图片描述

需要配置环境变量了。
Windows+r同时按下,然后输入SYSTEMPROPERTIESADVANCED,然后点击确定。

在这里插入图片描述

然后选择高级,点击环境变量
在这里插入图片描述

选择Path,然后点击编辑
在这里插入图片描述

然后点击新建
在这里插入图片描述

把你上边解压的目录找到bin那级的目录放到环境变量里边,然后点击确定
在这里插入图片描述

把上一级窗口也点击确定
在这里插入图片描述

系统属性这一级窗口也点击确定
在这里插入图片描述

然后同时按下Windows+r,输入cmd然后按下确定键。
在这里插入图片描述

然后输入ffmpeg -version,要是显示出来很多内容,那么就是正常安装好了。
在这里插入图片描述

Stable Diffusion安装插件

我使用的Stable Diffusion是秋叶版的。
在这里插入图片描述

下载扩展

点击扩展,选择从网址安装,然后把git仓库https://github.com/OpenTalker/SadTalker.git放入指定的位置,然后点击安装。
在这里插入图片描述

发现报错如下:

GitCommandError: Cmd('git') failed due to: exit code(128) cmdline: git clone -v -- https://github.com/OpenTalker/SadTalker.git D:\sd-webui-aki\sd-webui-aki-v4.1\tmp\SadTalker stderr: 'Cloning into 'D:\sd-webui-aki\sd-webui-aki-v4.1\tmp\SadTalker'... fatal: unable to access 'https://github.com/OpenTalker/SadTalker.git/': Failed to connect to github.com port 443 after 21039 ms: Couldn't connect to server '

在这里插入图片描述

我到https://github.com/OpenTalker/SadTalker里边,下载源代码的zip包。
在这里插入图片描述

然后把压缩包解压至Stable Diffusion启动器所在的目录下一级目录extensions里边,目录如下所示。
在这里插入图片描述

checkpoint文件下载和配置,

需要到https://github.com/OpenTalker/SadTalker/releases,下载以下四个文件。
在这里插入图片描述

然后当前网页上边,往下滑动,点开Assets,然后下载红圈中的文件。
在这里插入图片描述

将上边下载好的文件放入到自己D:\sd-webui-aki\sd-webui-aki-v4.1\extensions\SadTalker\checkpoints里边,很有可能,你没有checkpoints这个目录,自己新建一个就行了。
在这里插入图片描述

另外hub.zip需要解压。
在这里插入图片描述

下载GFPGAN模型

到https://drive.google.com/file/d/19AIBsmfcHW6BRJmeqSFlG5fL445Xmsyi下载文件解压到D:\sd-webui-aki\sd-webui-aki-v4.1\extensions\SadTalker里边。
在这里插入图片描述

接下来就是重新启动Stable Diffusion进行画图了。点击SadTalker,然后上传图片,之后上传音频,然后点击生成。
在这里插入图片描述

需要等待。
在这里插入图片描述

生成之后如下图:
在这里插入图片描述

无法上传视频,没有办法展示效果了。

我是知识星球上约有3万人的AI破局俱乐部初创合伙人,我的微信号是zhaoseaside,欢迎大家加我,相互学习AI知识和个人IP知识,毕竟这是未来两大风口。
大家要是需要文档中的文件,可以加我备注SadTalker,我用百度网盘发给你。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/341904.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

用户资源(菜单)控制学习使用

效果图 第一步 需要再定义常量资源 //信访听证 资源前缀public static final String RESPREFIX_MODULE_XINFTZ_"module_xinftz_";//听证专家库public static final ConstantItem RES_MODULE_XINFTZ_TINGZZJK new ConstantItem(RESPREFIX_MODULE_XINFTZ_ "tin…

Drools 规则属性讲解(结合代码实例讲解)

目录 一、规则属性总览 1.1 规则总览 二、具体属性讲解 2.1 enabled属性 2.1.1 代码实现 2.1.1.1 编写规则文件 2.1.1.2 编写规则实体对象 2.1.1.3 编写测试类 2.1.1.4 测试结果 2.2 dialect属性 2.3 salience属性 2.3.1 代码实现 2.3.1.1 编写规则文件 2.3.1.2 编…

超简单的OCR模块:cnocr

前言 毫无疑问的是,关于人工智能方向,python真的十分方便和有效。 这里呢,我将介绍python众多OCR模块中一个比较出色的模块:cnocr 模块介绍 cnocr是一个基于PyTorch的开源OCR库,它提供了一系列功能强大的中文OCR模型和…

网络安全的概述

网络空间的概念 2003年美国提出网络空间的概念:一个由信息基础设施组成的互相依赖的网络。 我国官方文件定义:网络空间为继海,陆,空,天以外的第五大人类活动领域 网络安全发展历史 通信保密阶段 --- 计算机安全阶段…

基于 Spring Boot+MySQL实现的在线考试系统源码+数据库,基于不同类型的客观题,进行自动组卷、批卷等功能的考试系统

1. 部署相关 1.1. 介绍 一个 JAVA 实现的在线考试系统,主要实现一套基于不同类型的客观题,进行自动组卷、批卷等功能的考试系统(没有主观题) 1.2. 系统架构 后端技术栈基于 Spring Boot数据库MySQLORMMyBatis & MyBatis-plus缓存Redis、guava的L…

漏洞复现--Confluence远程代码执行漏洞(CVE-2023-22527)

免责声明: 文章中涉及的漏洞均已修复,敏感信息均已做打码处理,文章仅做经验分享用途,切勿当真,未授权的攻击属于非法行为!文章中敏感信息均已做多层打马处理。传播、利用本文章所提供的信息而造成的任何直…

深兰科技陈海波出席“2023浙商年度主题大会”并与知名主持人白岩松对话

1月17日,“2023浙商年度主题大会”在浙江杭州举行。本次大会由浙商总会主办,来自全球的600余名浙商代表汇聚一堂,共叙乡情、共享机遇、共谋发展。在“浙商年度创新样本”发布环节中,深兰科技创始人、董事长陈海波作为人工智能领域…

windows用mingw(g++)编译opencv,opencv_contrib,并install安装

windows下用mingw编译opencv貌似不支持cuda,选cuda会报错,我无法解决,所以没选cuda,下面两种编译方式支持。 如要用msvc编译opencv,参考我另外一篇文章 https://blog.csdn.net/weixin_44733606/article/details/1357…

autosar学习笔记 之SecOC

SecOC 接下来SecOC标准就更复杂一点,它不单单是做了通讯校验。 SecOC是基于对称密钥加密的一套机制,需要对ECU间的通讯作身份认证处理,来更好的防止伪装攻击,谈起对称或非对称加密,就会涉及到密钥的存储和Mac值的计算。 因此SECOC机制对于密钥的硬件存储,也有一定的要求…

[C++] external “C“的作用和使用场景(案例)

C中extern "C"的作用是什么? 在 C 中,extern "C" 的作用是告诉编译器按照 C 语言的规范来处理函数名和变量名。这是因为 C 编译器会对函数名和变量名进行名称修饰(name mangling),以区分不同的函数和变量。而在 C 语言中…

2024年天津市公务员考试报名开始啦

2024年天津市公务员考试报名开始,详细流程如下: ⭐报名入口:天津市公开招考公务员网上报名信息系统网站 ✅报名时间:2024年1月23日8:30-1月29日18:00 ✅资格审查时间:2024年1月23日8:30-1月30日18:00 ✅打印准考证…

element-ui 打包流程源码解析(下)

目录 目录结构和使用1,npm 安装1.1,完整引入1.2,按需引入 2,CDN3,国际化 接上文:element-ui 打包流程源码解析(上) 文章中提到的【上文】都指它 ↑ 目录结构和使用 我们从使用方式来…

Raspbian安装云台

Raspbian安装云台 1. 源由2. 选型3. 组装4. 调试4.1 python3-print问题4.2 python函数入参类型错误4.3 缺少mjpg-streamer可执行文件4.4 缺失编译头文件和库4.5 python库缺失4.6 图像无法显示,但libcamera-jpeg测试正常4.7 异常IOCTL报错4.8 Git问题 5. 效果5.1 WEB…

ftp连接报错:227 entering passive mode

用阿里的云服务器,宝塔安装的linux环境,ftp连接总包这个错误:227 entering passive mode 原因是云服务器没有放开39000/40000的端口 如果使用的是阿里云服务器,需要在安全组设置中,对22、21端口放行,并且…

layui 自定义日期选择器今日、昨日 、本周、本月、上个月等

1、layui 日期选择器 laydate日期选择器 <div class"layui-input-inline"><input class"layui-input" id"dateTime" placeholder"日期范围"> </div><script> layui.use([laydate], function () {laydate.ren…

从零学习开发一个RISC-V操作系统(四)丨RISC-V汇编语言编程

本篇文章的内容 一、RISC-V汇编语言简介1.1 RISC-V 汇编语言的基本格式1.2 RISC-V 汇编指令操作对象1.3 RISC-V 汇编指令编码格式1.4 RISC-V 汇编指令分类 二、RISC-V汇编语言详解2.1 add 加法指令2.2 sub 减法指令 本系列是博主参考B站课程学习开发一个RISC-V的操作系统的学习…

瑞_力扣LeetCode_104. 二叉树的最大深度

文章目录 题目 104. 二叉树的最大深度题解后序遍历 递归实现后序遍历 迭代实现层序遍历 &#x1f64a; 前言&#xff1a;本文章为瑞_系列专栏之《刷题》的力扣LeetCode系列&#xff0c;主要以力扣LeetCode网的题进行解析与分享。本文仅供大家交流、学习及研究使用&#xff0c;禁…

关于图像分割项目的可视化脚本

1. 前言 之前实现了目标检测和图像分类任务的可视化脚本&#xff0c;本章将最后一个分割任务的可视化脚本实现 效果展示如下&#xff1a; 代码会在当前目录保存展示好的图片&#xff0c;从左到右依次为&#xff0c;原图、mask图、mask覆盖在原图的掩膜图 关于目标检测的可视化…

最长子字符串的长度(二) - 华为OD统一考试

OD统一考试&#xff08;C卷&#xff09; 分值&#xff1a; 200分 题解&#xff1a; Java / Python / C 题目描述 给你一个字符串 s&#xff0c;字符串s首尾相连成一个环形 &#xff0c;请你在环中找出’l’、‘o’、‘x’ 字符都恰好出现了偶数次最长子字符串的长度。 输入描…

保护隐私数据:使用Java `transient`关键字

欢迎来到我的博客&#xff0c;代码的世界里&#xff0c;每一行都是一个故事 保护隐私数据&#xff1a;使用Java transient关键字 前言什么是java对象序列化transient关键字的基础知识序列化与反序列化过程避免transient的陷阱 前言 在数字时代&#xff0c;数据安全至关重要。无…
最新文章