语音转字幕:Whisper模型的功能和使用

🍁 作者:知识浅谈,CSDN签约讲师,CSDN博客专家,华为云云享专家,阿里云专家博主
📌 擅长领域:全栈工程师、爬虫、ACM算法
💒 公众号:知识浅谈

🤞语音转字幕:Whisper模型的功能和使用🤞

🎈使用方法

模型下载

模型下载地址:https://huggingface.co/ggerganov/whisper.cpp
large-v1模型比较大,但是会更准确一些。我这边就用large系列模型好了,虽然显卡不咋地,但是跑这个还是够用了,根据限制自行选择模型,占用内存越大越准确。
在这里插入图片描述

模型工具

下载官方提供的客户端,客户端下载可能需要梯子,此处为了节省大家时间,我下载了个最新版本的客户端 点击这里下载
下载后解压
在这里插入图片描述
双击WhisperDesktop.exe运行
打开页面,选择模型文件
在这里插入图片描述
点击OK,加载模型
然后选择语言,例如我的视频是中文版的,就选择中文
然后选择需要处理的音视频文件,以及选择输出文本样式格式(例如我选择的是带时间线的,每个文本会自带文字信息)和需要保存的文件名称等。
在这里插入图片描述
完了以后,点击Transcribe,然后开始执行,稍等一回一会就导出了在这里插入图片描述
然后查看成功导出的文件
在这里插入图片描述

🎈功能介绍

Whisper模型是由OpenAI开发的一种先进的自动语音识别系统。

🍮功能:

多语言支持:Whisper模型支持99种不同语言的转录,这意味着无论音频是用哪种语言录制的,模型都能够将其识别并转录为文本。
语音翻译:除了多语言转录外,Whisper模型还能够将识别的文本从原始语言翻译为英语。这使得它成为一个强大的跨语言交流工具。
鲁棒性:Whisper模型对于口音、背景噪音和技术语言具有很好的鲁棒性,这意味着在各种不同的环境和条件下,模型都能够保持较高的识别准确率。
多任务处理能力:模型可以执行包括语言识别、多语言语音转录和英语语音翻译等多种任务,这使得它在实际应用中具有很高的灵活性。

🍮使用:

开源与免费:与DALLE-2和GPT-3等其他OpenAI模型不同,Whisper是一个免费的开源模型。用户可以自由地使用和修改模型,以满足自己的需求。
模型架构:Whisper模型采用了一种简单的端到端方法,利用Transformer模型的编码器-解码器结构。输入的音频被分成30秒一段的模块,然后转换成log-Mel频谱图,再传递给编码器进行计算注意力,最后由解码器预测相应的文本。
训练数据:模型使用了从网络上收集的680,000小时的多语言和多任务监督数据进行训练。这些数据涵盖了多种语言、口音和背景噪音,使得模型能够在各种场景下保持较高的识别准确率。
效果与应用场景:Whisper模型的效果比市面上很多音频转文字的工具都要好,可以广泛应用于语音助手、语音识别和语音翻译等场景。例如,它可以用于将语音转换为文本以便进行编辑或搜索,或者用于实现跨语言交流。
总的来说,Whisper模型是一个功能强大、多任务的自动语音识别系统,其开源免费的特点使得它具有很高的灵活性和可扩展性,适用于各种语音识别和语音翻译等场景。

🍚总结

大功告成,撒花致谢🎆🎇🌟,关注我不迷路,带你起飞带你富。
Writted By 知识浅谈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/409427.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【k8s资源调度-HPA(自动扩缩容)】

1、HPA可以做什么? 通过观察pod的cpu、内存使用率或自定义metrics指标进行自动的扩容或缩容pod的数量。通常用于Deployment,不适用于无法扩/缩容的对象,如DaemonSet。控制管理器每隔30s(可以通过-horizontal-pod-autoscaler–sync-period修改…

信息系统项目管理师论文分享(质量管理)

水一篇文章。我发现身边考高项的朋友很多都是论文没过,我想着那就把我的论文分享出来,希望能有帮助。 质量管理 摘要 2020年5月,我作为项目经理参加了“某市某医联体的互联网诊疗(互联网医院和远程医疗)平台”的建设…

多表联合分页查询(二)---- springboot整合MybatisPlus分页代码

目录 一、分页配置代码解读(使用MP自带分页)二、Controller层代码解读三、service层代码解读四、Mapper层代码解读五、结果展示 一、分页配置代码解读(使用MP自带分页) package com.minster.yanapi.Config;import com.baomidou.m…

Python 读取txt中的汉字报错

Python读取txt中的汉字报错:UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xa7 in position 4: illegal multibyte sequence 举例: fileE:/0_MyWork/python_programm/children_name/strich7.txtwith open(file, "r") as file_7str…

LeetCode 1637.两点之间不包含任何点的最宽垂直区域

给你 n 个二维平面上的点 points ,其中 points[i] [xi, yi] ,请你返回两点之间内部不包含任何点的 最宽垂直区域 的宽度。 垂直区域 的定义是固定宽度,而 y 轴上无限延伸的一块区域(也就是高度为无穷大)。 最宽垂直区…

基于jmeter的性能全流程测试

01、做性能测试的步骤 1、服务器性能监控 首先要在对应服务器上面安装性能监控工具,比如linux系统下的服务器,可以选择nmon或者其他的监控工具,然后在jmeter模拟场景跑脚本的时候,同时启动监控工具,这样就可以获得jm…

抖音视频下载工具|视频内容提取软件

引言部分: 针对抖音视频下载需求,我们团队自豪推出一款功能强大的工具,旨在解决用户获取抖音视频繁琐问题的困扰。我们通过基于C#开发的工具,让用户能够轻松通过关键词搜索实现自动批量抓取视频,并根据需求进行选择性批…

Linux——缓冲区封装系统文件操作

📘北尘_:个人主页 🌎个人专栏:《Linux操作系统》《经典算法试题 》《C》 《数据结构与算法》 ☀️走在路上,不忘来时的初心 文章目录 一、FILE二、封装系统接口实现文件操作1、text.c2、mystdio.c3、mystdio.h 一、FILE 因为IO相…

谷歌收购域名花费了100万美元的确让大家眼红

谷歌斥资100万美元购买了该域名。 卖个好价钱确实让大家眼红,但能不能卖到高价就是另一回事了。 首先,据统计,截至2008年底,我国域名总数达到1680万多个,可用的域名资源几乎无法统计,因为英文的组合太多了…

2024.2.25 在centos8.0安装docker

2024.2.25 在centos8.0安装docker 安装过程比较简单,按顺序安装即可,简要步骤: 一、更新已安装的软件包: sudo yum update二、安装所需的软件包,允许 yum 通过 HTTPS 使用存储库: sudo yum install -y …

经典枚举算法

解析: 首先答案肯定是字符串的某个前缀,然后简单直观的想法就是枚举所有的前缀来判断,我们设这个前缀串长度为 lenx ,str1 的长度为 len1,str2 的长度为 len2,则我们知道前缀串的长度必然要是两个字符串长…

mac拼图软件有哪些?推荐5款拼图软件

mac拼图软件有哪些?在数字图像处理中,拼图软件扮演着至关重要的角色。对于Mac用户来说,选择一款功能强大、操作简便的拼图软件是提升工作效率和创作体验的关键。本文将为你介绍五款优秀的Mac拼图软件,帮助你轻松完成图片拼接、制作…

代码随想录算法训练营day27|39. 组合总和、40.组合总和II

39. 组合总和 如下树形结构如下: 选取第二个数字5之后,剩下的数字要从5、3中取数了,不能再取2了,负责组合就重复了,注意这一点,自己做的时候没想明白这一点 如果是一个集合来求组合的话,就需…

计算机网络-无线通信网

1.各种移动通信标准 1G:第一代模拟蜂窝:频分双工FDD。2G:第二代数字蜂窝 I.GDM(全球移动通信)采用TDMA。II.CDMA(码分多址通信)。2.5G:第2.5代通用分组无线业务GPRS。2.75G&#xf…

Linux--串口屏显示控制实验

一、 实验简介 实验目标:在Linux下通过串口屏显示并控制功能模块的状态和参数 操作系统:Ubuntu 20.04.6 LTS 串口屏:迪文串口屏 DMG48270C043_03W 二、实现代码-- C语言 代码功能就是在Linux下使用串口和TCP,重点在于如何处理好…

linux 文本编辑命令【重点】

目录 vi&vim介绍 vim安装 vim使用 查找命令 find grep 文本编辑的命令,主要包含两个: vi 和 vim vi&vim介绍 作用: vi命令是Linux系统提供的一个文本编辑工具,可以对文件内容进行编辑,类似于Windows中的记事本 语法: vi file…

MySQL锁三部曲:临键、间隙与记录的奇妙旅程

欢迎来到我的博客,代码的世界里,每一行都是一个故事 MySQL锁三部曲:临键、间隙与记录的奇妙旅程 前言临键锁的奥秘间隙锁记录锁 前言 在数据库世界中,锁是维护数据完整性的一种关键机制。而MySQL中的临键锁、间隙锁和记录锁则是锁…

Git笔记——4

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一、操作标签 二、推送标签 三、多人协作一 完成准备工作 协作开发 将内容合并进master 四、多人协作二 协作开发 将内容合并进master 五、解决 git branch -a…

37、IO进程线程/使用消息队列完成进程间通信20240225

一、使用消息队列完成两个进程间相互通信。 代码&#xff1a; 进程1代码&#xff1a; #include<myhead.h> struct msgbuf {long mtype;//消息类型char mtext[1024];//消息正文 }; //宏定义结构体消息正文大小 #define MSGSIZE (sizeof(struct msgbuf)-sizeof(long)) i…

大学生多媒体课程学习网站thinkphp+vue

开发语言&#xff1a;php 后端框架&#xff1a;Thinkphp 前端框架&#xff1a;vue.js 服务器&#xff1a;apache 数据库&#xff1a;mysql 运行环境:phpstudy/wamp/xammp等开发背景 &#xff08;一&#xff09; 研究课程的提出 &#xff08;二&#xff09;学习网站的分类与界定…