您的位置  > 德语常识

OpenAI开源的语音识别网络,支持98中语言安装

目录

一、简介

Open AI是一个开源语音识别网络,支持98种语言,用于语音识别和翻译等任务。 我们可以识别歌曲的歌词,对于无字幕的视频资源自动生成字母,极大的方便了用户。 同时可以在本地运行,充分保护个人隐私。 在识别方面,它也拥有更加精准的识别能力。

因此,我想通过这篇文章来讲解一下本文的安装和使用,希望能给正在学习的小伙伴一个参考。

2. 当地环境

该设备基于环境:3.8.1,pip:23.0.1,torch:2.0.0+cpu

3.安装步骤:第一步:下载Git并添加环境变量

1. 在以下 URL 安装 Git:

安装过程中,不用思考就直接点击下一步,直到安装成功。

win+R进入cmd控制台,输入git,如果显示如下,则说明安装成功!

如果“git”不被识别为内部或外部命令,也不是可执行程序,则安装不成功

2.找到git.exe的位置,一般是在bin下,本机是:

D:\文件\Git\bin

3.将git添加到环境变量中

Win+R输入Sysdm.cpl进入环境变量配置

双击路径

新建环境变量path,填写找到的git.exe所在路径

第二步:下载并添加环境变量

下载链接:

1.选择---win64-gpl-.zip版本,点击下载

2.找到.exe所在位置,一般在bin下,本机为:

D:\\---win64-gpl-\bin

3.添加到环境变量

Win+R输入Sysdm.cpl进入环境变量配置

第三步:安装

进入官网:

选择cpu版本,最下面一行会提供pip命令来安装torch

这里注意一下:在原命令中添加参数-i【镜像源地址】,将国外源替换为国内源,可以大大加快下载速度。 命令如下:

pip3 火炬-i

第四步:安装

上述步骤完成后即可安装,分别执行以下命令:

点子git+

pip -- --no-deps --force-git+

OpenAI开源的语音识别网络,支持98中语言安装

至此,安装步骤全部结束。

四。 应用应用1:识别mp3歌曲中的歌词

在音频所在文件夹的空白处按住shift,然后右键打开窗口,如图:

进入后输入命令:+【需要识别的音频】,就可以开始识别了。 首次识别时会下载模型文件,如图:

下面是识别歌曲《天空之恋》.mp3的示例,输入:

天际之爱.mp3

识别结果如下:

需要注意的是,如果不添加参数,则默认使用小模型进行训练。 官方型号有以下几种,分别是tiny、base、small、large。 各型号尺寸及速度对比如下图所示:

我们如何选择其他模型进行语音识别? 只需在命令后添加参数即可,如果我们想使用模型来识别天空之爱.mp3,只需输入:

天际之爱.mp3 --模型

同样,第一次使用模型时,会先自动下载模型文件,然后识别音频

下载的模型会存放在哪里?具体位置是

C:\Users[您的用户名].cache\

以本机为例,下载的模型文件位于以下目录:

语音识别完成后,会在对应目录下生成 .vtt .json .str .tsv .txt 文件,其中 .srt 为字幕文件:

比较 .json .tsv .txt .vtt 文件:

应用二:识别mp4视频文件,以MV歌曲和英文TED演讲为例进行测试①识别MV歌曲

识别的操作和命令与识别.mp3文件相同,命令均为+[要识别的文件名]

MV:年风和你。 mp4识别结果如下:

同样识别后生成如下文件

② 识别 TED 英语演讲

从识别结果可以看出,英文的识别也是毫无压力的,而且识别准确率很高:

应用3:识别生成文件.srt字幕的使用

音频识别生成的字幕文件应该如何使用?

借助视频软件,视频软件可以轻松读取.srt文件,双击文件后自动将字幕与原始视频进行匹配。 下载链接:

安装完成后,直接双击.srt文件即可。 最后我们来看看字幕效果吧!

天际之爱.mp3

年风与你.mp4

TED 演讲:如何有效学习 .mp4

5. 结论

从不同的测试结果可以看出,识别效果良好。 在使用的过程中,朋友们还可以尝试使用不同尺寸的模型进行识别,以提高识别的准确率!

当然,在安装和配置环境的过程中,我还是遇到了很多问题。 有兴趣的朋友可以阅读我上一篇博客的陷阱,希望能有效帮助大家。 我把博客链接放在下面。

最后,特别感谢泽宇同学对我的帮助!

当然,我也感谢大家的大力支持。 您的支持是我前进的最大动力。 欢迎大家在评论区积极讨论~

本站涵盖的内容、图片、视频等数据,部分未能与原作者取得联系。若涉及版权问题,请及时通知我们并提供相关证明材料,我们将及时予以删除!谢谢大家的理解与支持!

Copyright © 2023