学习阿里云智能语音交互产品

  |   0 评论   |   1,229 浏览

本文记录一下对于阿里云智能语音交互产品的学习情况

背景

智能语音交互(Intelligent Speech Interaction),是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中,包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景,在金融、保险、司法、电商等多个领域均有应用案例。

产品简介

录音文件识别

录音文件识别

对整个录音文件进行语音转写。可用于对实时性要求不高的客服通话转写,也可用于会议或访谈录音的离线转写。

自定义热词

有助于增强语音识别的准确率,通过添加某些需要特殊出来的词汇,能够帮助用户快速地自主优化语音识别效果,如人名、产品名、业务特殊用语等词汇类型

语音合成

语音合成服务(TTS),就是将文本转成语音的服务。阿里云语音服务为用户提供语音合成的基础服务,服务器将需要进行合成的文本传送到服务器端,服务器进行语音合成后,以语音数据流的形式返回给SDK,用户可直接进行语音数据的播放或存储。

人机对话

人机对话,集语义解析、意图识别、智能问答、机器人聊天等功能于一体,让机器具备与人做对话沟通的能力。语音识别成文本之后,人机对话功能通过对自然语言的理解,解析用户表达的意图,并对接到对应的服务,返回应答的文字,并可以通过语音合成技术将文字“说“给用户。

阿里云的人机对话,包含智能问答、通用领域对话两项服务。

智能问答

提供智能问答的功能。该功能可以精确地理解以自然语言形式描述的用户提问,并通过检索问答知识库(客户提供)寻找语义上匹配的问题描述,并且返回答案。

通用领域对话

在询问天气、附近地点、设定闹钟、查看股票等生活领域,我们已有成型的对话,方便客户便捷地配置常见人机交互对话需求。

语音模型文本自学习训练平台

ASR服务已经提供了针对不同领域优化过的模型,如果希望在一些更特殊,更专业的领域获得更好的识别效果,可以使用定制化语言识别服务。定制化语音识别服务允许用户上传某个领域的训练数据并训练定制模型,训练出的定制模型可以在相应的领域上获得更高的识别准确率;

应用场景

适用于客服质检模型训练,包括8k采样率的训练,以及社交聊天等更多应用场景;

定制管理

提供丰富的模型管理API和语料管理API,支持迅训练、查询、例举模型和语聊;

支持的接口

目前支持的定制模型服务包括一句话识别、录音文件识别和实时语音识别。

实时音频流识别

该项服务能对音频流做实时转写,达到“边说边出文字”的效果。可用于视频实时直播字幕、实时会议记录、法庭庭审记录等场景

场景丰富

实时语音转写服务适用场景如实时会议记录、视频直播实时字幕等,应用场景丰富;

支持格式

支持PCM和非压缩 WAV 格式的语音数据

一句话识别

该项服务能对时长较短(一分钟以内)的语音进行转写。主要用于一句话的交互模式,如语音搜索、语音指令、语音短消息等场景,一般应用于各类App中,适用于对话聊天,控制口令等较短的语音识别场景。

支持多语言

汉语普通话,东北、河南、四川等方言,粤语,英语

自定义热词

支持用户自定义热词功能,输入特定的行业、领域词汇;

支持多种模式

“流式”和“普通”两种模式。提供Java、Android、iOS、C++ 等平台的SDK。支持音频格式:PCM/WAV/SPEEX/OPUS。

典型场景

法庭庭审转写

简介:智能语音识别技术能够将法庭庭审过程中的法官、被告、原告、辩护律师、证人等角色所说的每一句话实时转写成文字并进行存储,依靠人工智能技术替代了原本法庭庭审的书记员角色。阿里云智能法庭方案,在司法届引起了强烈反响。目前已经在多家法庭使用,反馈良好。

业务痛点及需求

为案件判决需要,法院庭审过程中需要对法官、被告、原告、辩护律师、证人等各方的陈述进行记录,之前主要通过书记员手工打字方式进行记录,记录下来的文字也不是原原本本的逐字记录,而会带有书记员的一些理解和归纳。为推进法院信息化建设且缓解书记员工作量,我们利用智能语音识别技术,将庭审各方在庭审过程中的语音直接转变为文字,供各方在庭审页面上查看,书记员简单或不用调整即可作为庭审笔录使用。

优势

(1)积累了大量司法方面数据,转写效果佳
(2)全国首次在庭审中使用语音识别进行笔录,正确率超过97%
(3)法庭庭审转写支持专有云部署
(4)对于庭审中出现的特殊关键词,如人名、公司名,可以分庭做词表导入,以优化识别准确率

智能问答

简介:该方案为企业级客户提供包括语音转写、智能客服、电话质检、电话预警等功能在内的各类语音技术支撑,帮助传统客服向智能客服转型。双十一当天,蚂蚁金服客户中心整体服务量超过500万人次,94%以上都是通过人工智能技术驱动的自助服务解决。本方案主要介绍智能问答服务。

业务痛点

目前多数企业、政府等机构在为自己的受众提供业务售前售后、事项说明等咨询服务时,往往都是由人工客服完成。人工客服的劣势是:
1、当流量在特殊时期(如促销活动、新政策发布)忽然上涨时,人工客服压力骤增甚至可能无法承受住;
2、用户所咨询的问题多数具有重复性,人工客服回答这类具有重复性的问题时,往往是重复劳动。

智能问答服务能够帮助业务方解决以上问题。具体解决流程:

业务方将带有重复性的问题导入智能问答引擎后,能够由机器人替代人工客服,将问题的答案推回给客户,而且当用户询问的问题还需要进一步了解信息才能给出答复时,机器人可以一步步引导用户补充更多信息并最终将答案推回。机器人回复后,如果仍然无法解决用户问题,再进入人工客服环节。机器人的前置拦截,能够将多数用户所咨询的重复问题快速解决掉,很大程度上缓解了人工客服的压力。

优势

1、支持自主配置知识库,支持单轮问答和多轮问答
2、拥有二十几个不同领域的对话模型,方便用户快捷使用
3、经过与阿里集团内部的长期合作,问答引擎有大量积累

智能客服质检

简介:传统质检一般是通过质检人员对客服电话录音以人工听的方式对服务规范、业务类回复准确性、舆情风险等方面进行检查,存在效率问题以及人员瓶颈。智能质检能够对所有服务过程进行全量的实时质检,帮助企业的服务部门摆脱人的限制,全面把控服务质量。

使用流程

将电话(先通过语音识别转写成文本)或工单生成待检数据,待检数据在质检引擎中经过质检人员预先设置的规则校验,产生质检结果,对于命中违规的电话或工单不合规服务触发通知和反馈机制到实际处理人,同时基于检测结果生成效果统计数据。同时,质检人可以在管控台上定位查看到每条工单或电话命中的规则点、以边听边看的方式对结果进行校验。

优势

(1)全量自动化——能实现全量客服通话、工单的自动化质检
(2)实时性——能做到电话一挂立即进行语音转文本和智能质检,实时看到最新质检结果
(3)规则灵活性——通过多种底层算子和对算子之间配置复杂逻辑关系的支持,规则配置可以超灵活,覆盖到各类复杂的业务场景

实时直播字幕及监控

简介:现场演讲场景、直播场景下,将视频中的音频实时转写成字幕。在直播场景下,还可以进一步对内容进行监控。

业务痛点及需求

(1)在开大会做演讲时,现场环境如果比较嘈杂,座位靠后或远程做直播时,可能会听不清演讲内容
(2)一个直播APP,每天产生的视频数量多达数十万小时。严肃直播有字幕需求,娱乐直播有监控需求

优势

(1)在阿里云栖大会现场做了演讲的转写,在正确率上击败国际速记比赛亚军,目前已经成为云栖大会的标配产品
(2)实时转写速度极快,几乎与直播同步

业务电话内容监控

简介:通过语音识别服务,帮助平台中介类公司规避逃单行为,避免经济损失。

业务痛点及需求

目前国内的O2O领域有很多中介平台性质的公司,如房屋中介、医疗中介等。这类公司通过平台,建立起类似于房东和房客、医生和患者之间的联系,同时,对达成交易的业务,收取中介费用。但是,由于这类业务容易出现平台的双边客户建立联系后抛弃平台的事情,如房东经常诱导访客进行线下交易,从而导致中介公司经济损失等,这类行为往往发生在双方沟通的电话中,而这类电话,通过人工监听的方式效率低且效果差。
而通过阿里云语音识别服务,可以帮助用户及时的发现上述问题,从而及时阻止逃单行为,避免了平台的经济损失。

使用流程

将电话实时传给阿里云的语音转文本接口,阿里云将及时返回数据,客户可使用阿里云的质检系统或者自建分析系统对返回的文字做分析,从而及时发现问题。

优势

(1)无需人工介入,减少人力成本。
(2)及时性:对每一个电话进行监控分析。

来源

评论

发表评论

validate