Whisper 语音识别转录文字大模型使用教程，来自openai 开发的自动语音识别系统

Whisper 是OpenAI 开发的一款开源语音识别转文字神经网络大模型，该模型的英语语音识别方面已经接近了人类的水平。

这篇文章就给大家分享如何在你的电脑中使用这款大模型，来实现语音转换成文本，并且还支持语音翻译功能。

Whisper模型版本选择

Whisper 共有五种型号尺寸，如果你要使用中文语音转录我们一般使用medium 模型。你也可以根据你的电脑性能下载其他的模型。

Whisper本身只能使用命令行来操作，为了方便更多的小伙伴使用，这里给大家找了一个Whisper 的图形化应用大家只需要导入 Whisper 模型即可直接使用。

1，下载WhisperDesktop和Whisper模型

我已经将这两个文件都打包放在了网盘，大家可以直接下载。

网盘打包地址：https://pan.baidu.com/s/1__Xp9tBa7WDQ0eHw3dv9IQ?pwd=bang 提取码：bang

WhisperDesktop官网：https://github.com/Const-me/Whisper
WhisperDesktop官网（MAC版）：https://whisperautocaptions.com/

Whisper模型下载地址：https://huggingface.co/ggerganov/whisper.cpp/tree/main

推荐：ggml-medium.bin 这个大模型

2，下载后解压 WhisperDesktop 压缩包，双击打开WhisperDesktop.exe文件。

3，然后选择你下载的Whisper模型，点击OK按钮。

4，语言选择音频文件的语言，然后导入音频文件。设置输出为text file 、保存地址可以直接勾选和音频文件存放在一起。

然后点击Transcribe 按钮开始转录速度还是挺快的。我用我之前的视频语音文件测试了下，准确率还是挺高的。

5，音频捕捉模式，如果你想一遍说话一边让它给你转录为文字，可以点击Audio Capture 。

选择你好你电脑的麦克风，然后点击Capture ，就可以直接说话了，他会自动帮你将语音转录为文字，并保存在文本中。

下面是我用董宇辉来河南在抖音介绍河南的视频转录的，由于成语含量太高，准确率有点低，如果是日常对话问题不大。

文章版权归作者所有，未经允许请勿转载。

6个月前

1,470

1年前

1,670

1年前

8,929

1年前

2,347

暂无评论...