语音识别转写引擎 CR-VPT-EG

产品描述

实时长语音识别：基于深度卷积神经网络架构，通过 WebSocket 协议，建立应用与语音识别引擎的长链接，对不限时长的音频流作实时识别，可以做到“边说话边同步输出文字”的效果,内置智能断句，可提供每句话开始结束时间，适用于实时直播字幕、实时会议记录等场景；
语音识别准确率：标准普通话转写准确率99.7%(转写的准确率与普通话标准程度和发音清晰度有关)；
语音识别速度：依托语音转写技术，实时语音转写速度48ms；
支持多种音频编解码格式：实时语音转写支持pcm格式音频编解码算法，非实时转写支持mp3.wav、wma、mp4.avi、pcm、m4a等格式音频，音频采样率仅支持16K和8K；
支持150路并发。

返回列表页