OpenAI开源的语音识别网络，支持98中语言安装-德语教育网

一、简介

Open AI是一个开源语音识别网络，支持98种语言，用于语音识别和翻译等任务。我们可以识别歌曲的歌词，对于无字幕的视频资源自动生成字母，极大的方便了用户。同时可以在本地运行，充分保护个人隐私。在识别方面，它也拥有更加精准的识别能力。

因此，我想通过这篇文章来讲解一下本文的安装和使用，希望能给正在学习的小伙伴一个参考。

2. 当地环境

该设备基于环境：3.8.1，pip：23.0.1，torch：2.0.0+cpu

3.安装步骤：第一步：下载Git并添加环境变量

1. 在以下 URL 安装 Git：

安装过程中，不用思考就直接点击下一步，直到安装成功。

win+R进入cmd控制台，输入git，如果显示如下，则说明安装成功！

如果“git”不被识别为内部或外部命令，也不是可执行程序，则安装不成功

2.找到git.exe的位置，一般是在bin下，本机是：

D:\文件\Git\bin

3.将git添加到环境变量中

Win+R输入Sysdm.cpl进入环境变量配置

双击路径

新建环境变量path，填写找到的git.exe所在路径

第二步：下载并添加环境变量

下载链接：

1.选择---win64-gpl-.zip版本，点击下载

2.找到.exe所在位置，一般在bin下，本机为：

D:\\---win64-gpl-\bin

3.添加到环境变量

Win+R输入Sysdm.cpl进入环境变量配置

第三步：安装

进入官网：

选择cpu版本，最下面一行会提供pip命令来安装torch

这里注意一下：在原命令中添加参数-i【镜像源地址】，将国外源替换为国内源，可以大大加快下载速度。命令如下：

pip3 火炬-i

第四步：安装

上述步骤完成后即可安装，分别执行以下命令：

点子git+

pip -- --no-deps --force-git+

至此，安装步骤全部结束。

四。应用应用1：识别mp3歌曲中的歌词

在音频所在文件夹的空白处按住shift，然后右键打开窗口，如图：

进入后输入命令：+【需要识别的音频】，就可以开始识别了。首次识别时会下载模型文件，如图：

下面是识别歌曲《天空之恋》.mp3的示例，输入：

天际之爱.mp3

识别结果如下：

需要注意的是，如果不添加参数，则默认使用小模型进行训练。官方型号有以下几种，分别是tiny、base、small、large。各型号尺寸及速度对比如下图所示：

我们如何选择其他模型进行语音识别？只需在命令后添加参数即可，如果我们想使用模型来识别天空之爱.mp3，只需输入：

天际之爱.mp3 --模型

同样，第一次使用模型时，会先自动下载模型文件，然后识别音频

下载的模型会存放在哪里？具体位置是

C:\Users[您的用户名].cache\

以本机为例，下载的模型文件位于以下目录：

语音识别完成后，会在对应目录下生成 .vtt .json .str .tsv .txt 文件，其中 .srt 为字幕文件：

比较 .json .tsv .txt .vtt 文件：

应用二：识别mp4视频文件，以MV歌曲和英文TED演讲为例进行测试①识别MV歌曲

识别的操作和命令与识别.mp3文件相同，命令均为+[要识别的文件名]

MV：年风和你。 mp4识别结果如下：

同样识别后生成如下文件

② 识别 TED 英语演讲

从识别结果可以看出，英文的识别也是毫无压力的，而且识别准确率很高：

应用3：识别生成文件.srt字幕的使用

音频识别生成的字幕文件应该如何使用？

借助视频软件，视频软件可以轻松读取.srt文件，双击文件后自动将字幕与原始视频进行匹配。下载链接：

安装完成后，直接双击.srt文件即可。最后我们来看看字幕效果吧！

天际之爱.mp3

年风与你.mp4

TED 演讲：如何有效学习 .mp4

5. 结论

从不同的测试结果可以看出，识别效果良好。在使用的过程中，朋友们还可以尝试使用不同尺寸的模型进行识别，以提高识别的准确率！

当然，在安装和配置环境的过程中，我还是遇到了很多问题。有兴趣的朋友可以阅读我上一篇博客的陷阱，希望能有效帮助大家。我把博客链接放在下面。

最后，特别感谢泽宇同学对我的帮助！

当然，我也感谢大家的大力支持。您的支持是我前进的最大动力。欢迎大家在评论区积极讨论~

给这篇文章的作者打赏

相关文章

自从学了俄语，你都染上了哪些毛病？

翻译机器 64|电子制作2018年11月信息工程

6个原因告诉你学习德语是多么的简单！！