计算机视觉的应用18-一键抠图人像与更换背景的项目应用,可扩展批量抠图与背景替换

大家好,我是微学AI,今天给大家介绍一下计算机视觉的应用18-一键抠图人像与更换背景的项目应用,可扩展批量抠图与背景替换。该项目能够让你轻松地处理和编辑图片。这个项目的核心功能是一键抠图和更换背景。这个项目能够自动识别图片中的主体,然后将其从背景中抠出来。这个过程不需要你进行任何复杂的操作,只需要一键点击,就可以得到一个有透明背景的PNG图片。该项目还提供了更换背景的功能。你可以选择使用简约的纯色为背景着色,或者使用其他的图片作为全新的背景。这样,你就可以根据自己的需要,为图片创造出各种不同的视觉效果。后续还会提供一些其他的图片编辑功能,比如改图、修图和美图应用。这些功能都是一键操作,非常方便易用。 该项目应用是一个强大而又便捷的图片处理工具,无论你是专业的设计师,还是普通的用户,都可以通过这个项目,轻松地处理和编辑图片,实现你的创意想法。

目录:

  1. 项目应用概述
  2. 一键人像抠图的原理
  3. 模型结构详解
  4. 数据标注过程
  5. 标注的形式
  6. 训练过程
  7. 一键人像抠图的代码实现
  8. 未来发展趋势

1. 项目应用概述

一键人像抠图与更换背景的应用广泛,例如在摄影后期制作、影视制作、广告设计等领域。只需要一键就能准确抠出人像,再将人像放置在新的背景之中,极大地提高了工作效率。

2. 一键人像抠图的原理

一键人像抠图主要通过深度学习的方法实现。首先,模型会对整个图像进行语义分割,识别出图像中的人物部分。然后,对人物部分和背景部分进行精细的边缘处理,实现准确的抠图效果。

一键人像抠图其核心是基于像素的分类问题。我们将输入图像的每个像素归类为特定类别(例如人物或背景)。这个过程可以被看作是对每个像素进行分类的概率问题。其中,常用的方法有Softmax函数,它可以将一个含任意实数的K维向量“压缩”到另一个K维实向量中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。

3. 模型结构详解

人像抠图的模型通常由两部分组成:特征提取网络和语义分割网络。特征提取网络首先提取出图像的基本特征,然后语义分割网络根据这些特征进行精确的分割。常见的模型有U-Net,它的优点是可以在保证分割精度的同时,大幅度减少计算量。

模型U-Net其结构为编码器-解码器结构。编码器用于抽取图像特征,解码器则用于将这些特征映射回原始图像的空间分辨率,以进行像素级别的预测。

4. 数据标注过程

抠图模型的训练需要大量标注过的图像数据。标注过程一般包括以下步骤:
首先,选择要标注的原始图像。这些图像可以来自于公开的数据集,也可以是自己收集的图像。接下来,对每一个原始图像进行标注。标注的目标是区分出图像中的人物和背景。这通常需要专业的图像处理软件和经验丰富的标注员来完成。
最后,将标注好的图像和对应的原始图像一起,作为训练数据供模型学习。

5. 标注的形式

标注的结果通常以掩膜(mask)的形式存在,也就是一张与原始图像大小相同的二值图像。在这张图像中,人物部分的像素值为1,背景部分的像素值为0。这种方式可以清晰地区分出人物和背景,方便模型进行学习。

我们需要注意:对于一些复杂的情况,例如人物的头发、玻璃等半透明物体,可能需要使用更细粒度的标注,例如alpha通道。Alpha通道可以表示像素的透明度,范围通常在0(完全透明)到1(完全不透明)之间。

6. 训练过程

模型的输入数据通常是RGB图像,输出数据则是与输入图像大小相同的分割图,其中每个像素的值表示其所属的类别。模型训练的目标是最小化预测的分割图与真实分割图之间的差异,常用的损失函数有交叉熵损失。

在训练过程中,常用的优化器有Adam,它结合了AdaGrad和RMSProp两种优化算法的优点,能够自适应地调整学习率,从而在训练初期快速收敛,训练后期则能保持较小的学习率,确保模型的稳定性。

7. 一键人像抠图的代码实现

我们用快速方法实现一键人像抠图,利用到ModelScope库,ModelScope是阿里推出的开源仓库,它提供了接口和实现,允许开发者进行模型推理、训练和评估。特别是,通过丰富的API抽象层,ModelScope库提供了统一的体验,可以探索跨越CV、NLP、语音、多模态和科学计算等领域的最新模型。
这里需要安装modelscope第三方库,可以用以下命令,只安装modelscope[cv]的cv形式,即计算机视觉部分。

pip install "modelscope[cv]" -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
import cv2
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
from modelscope.outputs import OutputKeys
import time
from PIL import Image

def portrait_person(image_path,out_path,color):

    portrait_matting = pipeline(Tasks.portrait_matting, model='damo/cv_unet_image-matting')
    result = portrait_matting(image_path)
    timestamp = str(int(time.time()))

    cv2.imwrite(out_path, result[OutputKeys.OUTPUT_IMG])

    # 打开已经扣好的图片和背景图片
    foreground_image = Image.open(out_path)
    print(foreground_image.size)
    # background_image = Image.open('bk3.jpg')
    background_image = Image.new('RGB', foreground_image.size, color=color)

    # 调整已经扣好的图片大小和位置(可选)
    resized_foreground = foreground_image.resize(foreground_image.size)

    # 创建一个新的图像对象作为融合后的图像
    merged_image = background_image.copy()

    # 将已经扣好的图片粘贴到背景图片上
    merged_image.paste(resized_foreground, (0,0), mask=resized_foreground)

    # 保存融合后的图片
    merged_image.save(out_path)

    return out_path

if __name__ == "__main__":

    input_path = "input1.jpg"
    out_path = "results.png"
    color = (255, 192, 203) # 粉红色的 RGB 值
    portrait_person(input_path,out_path,color)

运行图片换背景:
在这里插入图片描述

更换背景颜色之后:
在这里插入图片描述

8. 未来发展趋势

随着深度学习技术的发展,一键人像抠图的准确率和效率都在不断提高。未来,我们期待看到的是,这种技术能更好地融入到我们的日常生活中,使得任何人都可以轻松地进行人像抠图和背景更换。以上就是一键人像抠图与更换背景的项目应用,以及一键人像抠图的原理和模型结构的详细介绍。希望大家多多支持与关注,谢谢!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/160563.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

医院绩效考核系统源码 医院绩效考核系统方案

医院绩效考核系统源码 医院绩效考核系统是现代医院管理的重要方法和科学的管理工具。良好的绩效管理,有助于带动全院职工的工作积极性,有助于提高工作效率、提高医疗质量、改善服务水平、降低运营成本,全面提升医院的精细化管理水平。 医院绩…

Flask学习一:概述

搭建项目 安装框架 pip install Flask第一个程序 from flask import Flaskapp Flask(__name__)app.route(/) def hello_world():return "Hello World"if __name__ __main__:app.run()怎么说呢,感觉还不错的样子。 调试模式 if __name__ __main__:a…

后端老项目迁移方法

老项目迁移方法 需求: 因某个模块MySQL表结构、表关系 错乱复杂,而且其他模块的代码也在操作这个模块的数据库 耦合严重 导致Web工程代码紊乱、不易理解、性能低下, 故在 系统由A JavaWeb工程迁移至B工程 时,重构MySQL表结构、表…

VS中修改解决方案名称和项目名称

如何修改visual studio2019中的项目名 - 知乎 (zhihu.com) 查了很多,还是这个可行。虽然文中说不是最简单的,但在所查找资料中是可行且最简单的。 要点主要是: 1、比如我们复制一个解决方案,最好是带代码哈,也就是添…

ToolJet:开源低代码框架,轻松构建复杂可响应界面 | 开源日报 No.78

ToolJet/ToolJet Stars: 25.0k License: AGPL-3.0 ToolJet 是一个开源的低代码框架,可以通过最小化工程投入来构建和部署内部工具。ToolJet 的拖放式前端构建器允许您在几分钟内创建复杂、响应式的前端界面。此外,您还可以集成各种数据源,包…

java使用 TCP 的 Socket API 实现客户端服务器通信

一:什么是 Socket(套接字) Socket 套接字是由系统提供于网络通信的技术, 是基于 TCP/IP 协议的网络通信的基本操作,要进行网络通信, 需要有一个 socket 对象, 一个 socket 对象对应着一个 socket 文件, 这个文件在 网卡上而不是硬盘上, 所以有了 sokcet…

互联网医院牌照|智慧医疗离不开牌照办理

互联网医院牌照是由卫生健康行政部门颁布的,所有材料审核通过后,相关部门授予《医疗机构执业许可证》,取得牌照后才有开展互联网诊疗活动的资质,但开展线上问诊也需要向发证机关提出申请,下面小编就给大家讲解下互联网…

LLM大模型量化原理

大型语言模型(LLM)可以用于文本生成、翻译、问答任务等。但是,LLM 也非常大(显然,大型语言模型)并且需要大量内存。 这对于手机和平板电脑等小型设备来说可能具有挑战性。 可以将参数乘以所选的精度大小以…

深入理解Linux网络笔记(六):深度理解TCP连接建立过程

本文为《深入理解Linux网络》学习笔记,使用的Linux源码版本是3.10,网卡驱动默认采用的都是Intel的igb网卡驱动 Linux源码在线阅读:https://elixir.bootlin.com/linux/v3.10/source 5、深度理解TCP连接建立过程 1)、深入理解liste…

JVM:字节码文件,类的生命周期,类加载器

JVM:字节码文件,类的生命周期,类加载器 为什么要学这门课程 1. 初识JVM1.1. 什么是JVM1.2. JVM的功能1.3. 常见的JVM 2. 字节码文件详解2.1. Java虚拟机的组成2.2. 字节码文件的组成2.2.1. 以正确的姿势打开文…

进阶理解:leetcode115.不同的子序列(细节深度)

这道题是困难题,本章是针对于动态规划解决,对于思路进行一个全面透彻的讲解,但是并不是对于基础讲解思路,而是渗透到递推式和dp填数的详解,如果有读者不清楚基本的解题思路,请看我的这篇文章算法训练营DAY5…

基于Vue+SpringBoot的厦门旅游电子商务预订系统 开源项目

项目编号: S 030 ,文末获取源码。 \color{red}{项目编号:S030,文末获取源码。} 项目编号:S030,文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 景点类型模块2.2 景点档案模块2.3 酒…

MatLab的下载、安装与使用(亲测有效)

1、概述 MatLab是由MathWorks公司开发并发布的,支持线性代数、矩阵运算、绘制函数和数据、信号处理、图像处理以及视频处理等功能。广泛用于算法开发、数据可视化、数据分析以及数值计算等。 Matlab 的主要特性包括: 简单易用的语法,使得程…

在Rust编程中使用泛型

1.摘要 Rust中的泛型可以让我们为像函数签名或结构体这样的项创建定义, 这样它们就可以用于多种不同的具体数据类型。下面的内容将涉及泛型定义函数、结构体、枚举和方法, 还将讨论泛型如何影响代码性能。 2.在函数定义中使用泛型 当使用泛型定义函数时,本来在函…

深度学习数据集—文本、数字、文字识别大合集

最近收集了一大波关于文本、数字识别相关的数据集,有数字识别、也有语言文字识别,废话不多说现在分享给大家!! 1、500张手写拼音数据集 500张手写拼音数据集,包含对应txt格式标注及图片,,并提…

二十八、W5100S/W5500+RP2040树莓派Pico<MQTT连接OneNET控制板载LED>

文章目录 1. 前言2. 简介2.1 初步了解OneNET物联网平台创建产品步骤2.2 OneNET物模型讲解 3 WIZnet以太网芯片4 示例概述4.1 流程图4.2 准备工作核心4.3 连接方式4.4 主要代码概述4.5 结果演示 5 注意事项6 相关链接 1. 前言 物联网平台提供安全可靠的设备连接通信能力&#xf…

【Linux】C文件系统详解(二)——什么是fd文件描述符以及理解“一切皆文件“

文章目录 fd-文件描述符如何深度理解"一切皆文件"**我们使用OS的本质:**FILEFILE是什么?谁提供的?和我们刚刚讲的内核的struct有关系吗FILE是一个结构体.该结构体内部一定要有以下字段:FILE是C语言标准库提供的.FILE和我们刚刚讲的内核的struct没有关系,最多就是上…

Java实现猜数游戏

要求: 输入一个数,返回大了还是小了或者正确 代码 import java.util.*; import javax.swing.*; import java.awt.*; import java.awt.event.ActionEvent; import java.awt.event.ActionListener;class Game extends JFrame{private JButton sendBtn;p…

【C++】——阶段性测验(帮助巩固C++前半部分知识)

🎃个人专栏: 🐬 算法设计与分析:算法设计与分析_IT闫的博客-CSDN博客 🐳Java基础:Java基础_IT闫的博客-CSDN博客 🐋c语言:c语言_IT闫的博客-CSDN博客 🐟MySQL&#xff1a…

YOLO对象检测算法也这么卷了吗——基于YOLOv8的人体姿态检测

前期的文章我们介绍了很多关于YOLO系列的对象检测算法,虽然YOLO系列是应用在目标检测算法上,但是最近更新的YOLO系列算法都加入了对象分割,人体姿态检测等模型。 YOLOv8对象检测算法 2023年,Ultralytics再次发布YOLO更新模型,YOLOv8模型。Ultralytics YOLOv8是YOLO对象检…