阿里云语音识别 - 产品介绍

产品服务

成熟稳定的智能化，可信赖的AI解决方案

录音文件识别

对用户上传的录音文件进行识别，上传完之后24小时内完成识别并返回识别文本。可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医疗纪录摘入等场景。

实时语音转写

对不限时长的音频流做实时识别，达到"边说边出文字"的效果。内置智能断句，可搭配智云开放的云存储服务集对接。可用于接线坐席对话、客服智能辅助、实时会议记录、实时字幕生成等场景。

一句话识别

对时长较短（一分钟内）的语音进行识别，适用于较短的语音交互场景，如语音搜索、语音指令、语音短消息等。可集成在各类App、智能家电、智能助手等产品中。

语音合成

能将用户发送的文本转换成自然流畅的语音。目前有多种音色可供选择，并提供调节语速、语调、音量等功能，适用于智能客服、语音播报、文字有声阅读等场景。

产品优势

前沿的图像、视频、人脸、人体等人工智能算法，全面满足您的业务场景和数据需求

识别准确率高

国内独创的LC-BLSTM-DNN/LFR-DFSMN混合模型，相对传统方法降低了30%的错误识别率，大幅提高了语音识别的精度。

超快的解码速率

国内独创的LFR解码技术，在不损失识别精度的情况下，将解码速率提高了7倍以上，大幅提升了反馈响应，提升用户体验。

独创的模型优化工具

全内部一套提供自学习平台系统，同时支持热词和对字词纠错模型定制。用户可以根据业务需要自主上传数据，对语种和音频产品进行定制，利用自动化引擎提高识别精度，大幅提升识别效果。

广泛的领域覆盖

目前已覆盖了大量行业客户，业务模型涵盖智能问答、智能监控、客带记录、庭审记录、字幕翻译、语音指令、互金风控、医疗、教育等多个领域具有成熟的应用案例，可以满足不同客户多样化的需求。

应用场景

法庭庭审转写方案

将庭审过程中的语音，按照各角色所说的话分别转写成文字，从而替代了书记员的角色。阿里云智能语音人次已经落地上百法庭，处理了数亿小时的庭审音频，使得广泛应用。合作客户包括法院、仲裁委等。

业务痛点及需求

之前主要通过书记员对庭审大量文档进行记录，导致书记员工作量大，出现了大量的书记员招聘和培训的问题。新的人工智能技术不可以帮助各方面综合信息库为支撑，但是仍然需要在语音上进行改造，并可作为辅助笔录及资源使用。

优势

积累了大量司法/庭审数据，转写准确率高；
全国首次在政府中使用语音识别，正确率超过97%；
享有专有云部署；
对于特殊关键词，如人名等等，可以分类载入库中导入，以优化识别准确率。

智能客服质检

传统质检一般采用对客服录音抽检方式，以人工形式对其进行检查，存在效率低下的问题以及人员偏差。利用智能语音质检技术对客服录音进行质量分析和评价检查，帮助企业有效提升门窗服务人员的服务质量，全面覆盖助力运营。

使用流程

将待检验的语音数据转换成文本之后，通过质检引擎产生质检结果，并生成汇总数据。质检人也可以在管理台上对质检后异常数据进行抽检校验，以及通过配置方式对规则进行修改。

优势

全量自动化——能实现全量质检覆盖，以1单位的成本批量；
及时性——能提供审核后即出结果电话质检，实时看到当期最新的结果；
规则灵活性——规则和客重自定义灵活，覆盖到各类复杂的业务场景。

实时直播字幕及监控

如视频课程发布、直播场景下，将视频当中的语音实时转化为文字，作为直播字幕实时推送，达到同步进行展示。

业务痛点及需求

在打大会议直播场景下，需要将视频中流媒体字幕自动输出，确保会能不能够接受文字需求同步；
小而美的直播APP，如入门级别的视频数量多达数十万个/月、大小量的直播平台字幕产出大量，然后直播需要有效显示管理等。

优势

在阿里云栖大会现场进行了演讲的转写，在此前的几年上也被国际速记协议书所认可。目前已经成为云栖大会标配产品。
实时转写速度很快，几乎与直播同步。

业务电话内容监控

传统中小企业外呼服务或者出现客户投诉及纠纷时都要重新寻找并且审核十个以上的通话录音，如果合规部门只能在固定线下交易的场景中寻找，从而导致中小企业进行交通审核及调查。另外行为异常发生以后双方心态的机构对上调，满足阿里云语音识别的能力，可以帮助保单中介或证券交易的相关授权，从而解决以上相关问题，进而高效解决问题。

使用流程

将已经录制好的待检验的语音转至文本处理，阿里云语音识别及图像数据。客户可使用阿里云对标记后的话题类别或者业务场景自动产出分析报告以及文字微分析，从而及时发现问题。

优势

大幅人工介入，减少人力成本；
实时性好，可以及时发现问题。