目录
一、简介
Open AI是一个开源语音识别网络,支持98种语言,用于语音识别和翻译等任务。 我们可以识别歌曲的歌词,对于无字幕的视频资源自动生成字母,极大的方便了用户。 同时可以在本地运行,充分保护个人隐私。 在识别方面,它也拥有更加精准的识别能力。
因此,我想通过这篇文章来讲解一下本文的安装和使用,希望能给正在学习的小伙伴一个参考。
2. 当地环境
该设备基于环境:3.8.1,pip:23.0.1,torch:2.0.0+cpu
3.安装步骤:第一步:下载Git并添加环境变量
1. 在以下 URL 安装 Git:
安装过程中,不用思考就直接点击下一步,直到安装成功。
win+R进入cmd控制台,输入git,如果显示如下,则说明安装成功!
如果“git”不被识别为内部或外部命令,也不是可执行程序,则安装不成功
2.找到git.exe的位置,一般是在bin下,本机是:
D:\文件\Git\bin
3.将git添加到环境变量中
Win+R输入Sysdm.cpl进入环境变量配置
双击路径
新建环境变量path,填写找到的git.exe所在路径
第二步:下载并添加环境变量
下载链接:
1.选择---win64-gpl-.zip版本,点击下载
2.找到.exe所在位置,一般在bin下,本机为:
D:\\---win64-gpl-\bin
3.添加到环境变量
Win+R输入Sysdm.cpl进入环境变量配置
第三步:安装
进入官网:
选择cpu版本,最下面一行会提供pip命令来安装torch
这里注意一下:在原命令中添加参数-i【镜像源地址】,将国外源替换为国内源,可以大大加快下载速度。 命令如下:
pip3 火炬-i
第四步:安装
上述步骤完成后即可安装,分别执行以下命令:
点子git+
pip -- --no-deps --force-git+
至此,安装步骤全部结束。
四。 应用应用1:识别mp3歌曲中的歌词
在音频所在文件夹的空白处按住shift,然后右键打开窗口,如图:
进入后输入命令:+【需要识别的音频】,就可以开始识别了。 首次识别时会下载模型文件,如图:
下面是识别歌曲《天空之恋》.mp3的示例,输入:
天际之爱.mp3
识别结果如下:
需要注意的是,如果不添加参数,则默认使用小模型进行训练。 官方型号有以下几种,分别是tiny、base、small、large。 各型号尺寸及速度对比如下图所示:
我们如何选择其他模型进行语音识别? 只需在命令后添加参数即可,如果我们想使用模型来识别天空之爱.mp3,只需输入:
天际之爱.mp3 --模型
同样,第一次使用模型时,会先自动下载模型文件,然后识别音频
下载的模型会存放在哪里?具体位置是
C:\Users[您的用户名].cache\
以本机为例,下载的模型文件位于以下目录:
语音识别完成后,会在对应目录下生成 .vtt .json .str .tsv .txt 文件,其中 .srt 为字幕文件:
比较 .json .tsv .txt .vtt 文件:
应用二:识别mp4视频文件,以MV歌曲和英文TED演讲为例进行测试①识别MV歌曲
识别的操作和命令与识别.mp3文件相同,命令均为+[要识别的文件名]
MV:年风和你。 mp4识别结果如下:
同样识别后生成如下文件
② 识别 TED 英语演讲
从识别结果可以看出,英文的识别也是毫无压力的,而且识别准确率很高:
应用3:识别生成文件.srt字幕的使用
音频识别生成的字幕文件应该如何使用?
借助视频软件,视频软件可以轻松读取.srt文件,双击文件后自动将字幕与原始视频进行匹配。 下载链接:
安装完成后,直接双击.srt文件即可。 最后我们来看看字幕效果吧!
天际之爱.mp3
年风与你.mp4
TED 演讲:如何有效学习 .mp4
5. 结论
从不同的测试结果可以看出,识别效果良好。 在使用的过程中,朋友们还可以尝试使用不同尺寸的模型进行识别,以提高识别的准确率!
当然,在安装和配置环境的过程中,我还是遇到了很多问题。 有兴趣的朋友可以阅读我上一篇博客的陷阱,希望能有效帮助大家。 我把博客链接放在下面。
最后,特别感谢泽宇同学对我的帮助!
当然,我也感谢大家的大力支持。 您的支持是我前进的最大动力。 欢迎大家在评论区积极讨论~