AIAS/3_audio_sdks/asr_whisper_sdk
2024-11-07 16:40:05 +08:00
..
models update readme. 2024-11-07 16:40:05 +08:00
src whisper语言识别 2024-10-12 09:09:27 +08:00
pom.xml whisper语言识别 2024-10-12 09:09:27 +08:00
README.md whisper语言识别 2024-10-12 09:09:27 +08:00

下载模型放置于models目录

中英文语音识别ASR【短语音】

语音识别Automatic Speech Recognition是以语音为研究对象通过语音信号处理和模式识别让机器自动识别和理解人类口述的语。 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。 语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。

sdk基于whisper模型实现语音识别识别效果不错。 whisper是openai训练的语音识别系统训练数据为68w小时的跨语种音频因此能够识别多种语言且支持其它语言和英语之间的互相翻译。因为数据多、任务多鲁棒性非常好应对噪声和口音都表现不俗。这种大数据多任务的训练方式真的很openai。

运行例子 - SpeechRecognitionExample

运行成功后,命令行应该看到下面的信息:

...
[INFO ] - input audio: src/test/resources/test.wav
[INFO ] - Score : 91.685394
[INFO ] - Words : 近几年不但我用书给女儿压岁也劝说亲朋友不要给女儿压岁钱而改送压岁书

sdk使用的开源项目

https://github.com/openai/whisper

帮助

引擎定制化配置,可以提升首次运行的引擎下载速度,解决外网无法访问或者带宽过低的问题。
引擎定制化配置

官网:

官网链接

Git地址

Github链接
Gitee链接