语音识别转写引擎 CR-VPT-EG
产品描述
实时长语音识别:基于深度卷积神经网络架构,通过 WebSocket 协议,建立应用与语音识别引擎的长链接,对不限时长的音频流作实时识别,可以做到“边说话边同步输出文字”的效果,内置智能断句,可提供每句话开始结束时间,适用于实时直播字幕、实时会议记录等场景;
语音识别准确率:标准普通话转写准确率99.7%(转写的准确率与普通话标准程度和发音清晰度有关);
语音识别速度:依托语音转写技术,实时语音转写速度48ms;
支持多种音频编解码格式:实时语音转写支持pcm格式音频编解码算法,非实时转写支持mp3.wav、wma、mp4.avi、pcm、m4a等格式音频,音频采样率仅支持16K和8K;
支持150路并发。
语音识别准确率:标准普通话转写准确率99.7%(转写的准确率与普通话标准程度和发音清晰度有关);
语音识别速度:依托语音转写技术,实时语音转写速度48ms;
支持多种音频编解码格式:实时语音转写支持pcm格式音频编解码算法,非实时转写支持mp3.wav、wma、mp4.avi、pcm、m4a等格式音频,音频采样率仅支持16K和8K;
支持150路并发。