AIAS/3_audio_sdks/asr_long_audio_sdk
2021-12-12 23:09:15 +08:00
..
lib no message 2021-11-28 23:44:45 +08:00
src no message 2021-12-02 11:26:22 +08:00
asr_long_audio_sdk.iml no message 2021-11-28 23:44:45 +08:00
pom.xml Fix Log4j2 漏洞 2021-12-12 23:09:15 +08:00
README.md no message 2021-11-28 23:44:45 +08:00

语音识别ASR【长语音】

语音识别Automatic Speech Recognition是以语音为研究对象通过语音信号处理和模式识别让机器自动识别和理解人类口述的语。 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。 语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。

sdk基于DeepSpeech2模型实现中文语音识别识别效果不错。 DeepSpeech2是基于PaddlePaddle实现的端到端自动语音识别ASR引擎。

在短语音识别的基础上增加了音频分割。使用了语音活动检测(VAD)检测静音。

运行例子 - SpeechRecognitionExampleL

运行成功后,命令行应该看到下面的信息:

...
[INFO ] - 第1个分割音频, 得分: 99.28923, 识别结果: 近几年不但我用输给女儿压岁
音频均方根能量: -30.505535
[INFO ] - 第2个分割音频, 得分: 88.94682, 识别结果: 劝说清朋不要给女儿压岁钱玩改送压岁书
[INFO ] - 最终识别结果:,近几年不但我用输给女儿压岁,劝说清朋不要给女儿压岁钱玩改送压岁书

参数设置

音频分割参数的设置,会影响检测结果的精度。所以请合理设置参数。 padding_duration_ms300 frame_duration_ms30

帮助

引擎定制化配置,可以提升首次运行的引擎下载速度,解决外网无法访问或者带宽过低的问题。
引擎定制化配置

官网:

官网链接

Git地址

Github链接
Gitee链接

jlibrosa 地址:

https://github.com/Subtitle-Synchronizer/jlibrosa https://github.com/Subtitle-Synchronizer/jlibrosa/blob/master/binaries/jlibrosa-1.1.8-SNAPSHOT-jar-with-dependencies.jar