智能语音千亿规模市场蓄势待发,SaaS企业如何分得一杯羹?

2022-05-17 11:57:28     来源:格隆汇

打印 放大 缩小

格隆汇

在后疫情时代,作为人机交互的重要接口,智能语音市场正在迎来其发展的黄金时代。无论是面向日常生活的消费级市场,还是面向特定场景的企业级市场,都正在快速扩张。此前,德勤称,各行业正在迎来需求拐点,进入需求爆发期。预计到2030年,智能语音消费级应用场景总的发展空间将超过700亿元。企业级场景发展空间预计将达到千亿规模。

在智能语音众多落地场景中,金融行业是发展最迅速的领域之一,也是未来商业落地的重要方向。德勤预计,到2030年,智能语音在金融、电商和电信行业应用的发展空间将达到419亿元,市场规模仅次于智能家居。

在这个时间节点,SaaS企业特别是行业垂直类SaaS企业如何抓住这个后疫情时代的新风口,在千亿市场中分得一杯羹成为至关重要的课题。

本文,我们将从智能语音领域中技术层、中间层和应用层各选一个典型代表,并通过对国内头部金融SaaS企业百融云创真实案例的剖析,来具体看看,智能语音的不同层有哪些新进展,针对目前存在的问题,领头企业给出了哪些创新性解决方案,技术、产品和服务的改善如何为大规模商业化打下基础。

中间层:智能打断

智能语音技术的发展始于上世纪80年代,迄今已经历了三个阶段。2010年之前为起步期,语音识别开始从孤立词识别系统向大量词汇连续语音识别系统发展;2011-2015为变革期,在这个阶段微软DNN(深度神经网络)的出现使识别错误率第一次大幅降低,降幅约90%,技术与产品开始大发展;2016至今为落地期,机器语音识别准确率第一次达到人类水平,约95%,智能语音技术进入落地期,智能语音助手、智能音箱相继落地。

随着大规模的商业化应用,智能语音相关产品的问题逐渐暴露出来。比如,答非所问,自说自话,或者在多轮交互时,打断不智能,用户体验差。在普华永道进行的一项研究中,62%的受访者表示,对当前智能语音产品缺乏理解、可靠性和准确性感到沮丧。

沮丧背后的主要原因其实是打断不够智能。试想这样一个场景,系统播报语音的时候,突然出现了很强的背景噪音或者其他人的讲话,导致播报中断;或者,系统没有检测到用户的音频信号,导致用户讲话的时候还在播放提示音,判断的失误不仅造成了系统“自说自话”,还使得整个音频信号不完整,影响了之后的语音识别、语音理解等环节,进而导致系统缺乏理解性。

智能打断本质上是对输入的音频流进行分析,对人声还是非人声输出判断结果——即为开始说话事件还是静音事件,然后通过语音识别(ASR)获得识别结果,之后开始准备下一轮话术。打断是否智能取决于两个因素:端点检测技术是否可靠和系统可否依据具体环境,对端点检测效果完成自我优化(智能反馈)。在上述两个场景中,前者是端点检测过于敏感产生的错误打断;后者则是端点检测漏过了事实上的语音部分,导致系统响应迟钝,影响了识别的准确度。

从技术角度看,智能化打断功能应该具有如下特征:端点检测精确度高;对背景噪声以及非语音声音有很好的拒绝功能;系统可以根据通话环境调节相关参数,改善端点检测效果。从商业化的角度看,打断越智能,使得机器在与人交互的过程中,更能清晰传达外呼目的,精准理解用户语义,在及时、流畅的双向沟通中,帮助用户解决问题,同时也高质、高效完成服务、营销的外呼目的。因此,打断越智能,其商业价值越高,也有利于进一步的市场拓展。

以百融云创的智能外呼打断系统为例,该系统能排除噪声干扰,排除环境噪声的干扰,精确识别语音片段与非语音片段,增强适应性的技术效果。其次,通过语音识别技术进行二次确认,提高端点检测的精确度。此外,为使得打断具有更强的场景适应性,百融云创使用的检测模块能自动根据场景调整参数,使得打断更为真实、智能。

除了打断技术上的优化,百融云创也在积极推进技术的融合。据悉,百融云创创新性地将模型定制化的语音识别(ASR)、语音理解(NLU)、语音生成(TTS)集成到软交换系统中,大幅减少传统打断技术带来的网络数据传输消耗,将打断延迟降低到毫秒级,并能根据用户的不同打断诉求,提供毫秒级的语音交互反馈,全面提升智能语音交互过程中用户的打断体验。集合了最新技术的百融云创智能语音对话机器人(300024),是专门为金融场景定制的一款产品,可替代人工与客户进行顺畅沟通,目前,该机器人已广泛应用于营销获客、还款提醒、客户回访等金融核心业务环节,如助力银行开展信用卡还款提醒、社保卡发放回访等。

2020年疫情爆发后,因营销客服展业困难,多家银行信用卡面临逾期,资产质量下降的风险。百融云创运用智能语音对话机器人共协助30多家银行开展5000万通智能语音服务,对1000亿元个人和小微贷款余额进行贷后管理和客户服务。

应用层:基于ASR的语音质检

智能语音在金融行业的应用场景大致有五个:智能质检、智能外呼、智能客服、智能RPA和声纹识别。以智能质检为例,质检是一个刚性需求,几乎所有主流行业都需要对服务对话进行内容质检和话术分析,而随着越来越多的企业对服务效率和质量越发重视,质检需求量加大,而传统的质检方案——人工抽检已经无法满足市场的需求。

智能质检本质上是通过使用自然语言算法和质检规则,全量自动分析所有服务对话,生成可视化的评分报告,帮助企业进一步提升服务质量,更全面、及时地发现服务问题,减少服务投诉率与舆情风险。当下实施的智能质检技术主要是利用计算机强大的计算能力全面覆盖语音进行质检,但是一般仅适用于特定的场景,通用性较弱。

针对此痛点,百融云创自主研发出一种基于ASR(语音识别)的语音质检分析方法及系统。据悉,该系统可以依据工作场景自定义质检规则及评分规则,构建质检初始模型,进而再结合任务列表对初始模型进行配置,得到质检工作模型。利用语音识别(ASR)、自然语言处理(NLP)等技术将语音转化为文本,再使用质检工作模型分析文本,得到评分结果,之后开始人工复核——对评分结果内容进行删增,得到最终的评分结果,依据最终评分结果生成可视化的报告。

可以发现,通过自定义的质检规则和评分规则,以及可以根据任务列表对模型配置,增加了模型的适用性;而人工复核增加了模型的容错率,提高了准确度。从而解决了现有技术中的智能质检技术由于只能适用于特定的场景,通用性较弱的技术问题。

除了优化质检规则的生成方式,解决通用性方面的问题,实际上,该语音质检系统的强大之处在于两点:其一,全量质检,显著降低人力成本;其二、支持多种场景,包括实时通话质检、事后质检以及存量录音导入进行质检。在实时通话质检场景,可以及时提醒客服坐席人员调整话术,提升服务水平;在事后质检和存量录音导入场景,可以通过热词分析、通话打分等,帮助优化质检规则,挖掘沉淀数据的价值。以百融云创服务某国有银行省分行为例,相较于原始的人工质检,百融智能质检方案日均质检量增加至原有质检量的12.5倍;日均成本降低至原有成本的10%;日均违规差得率降低至原有成本的10%,通过全量高效质检,有效降低了投诉率。

技术层:短文本分类技术

随着互联网用户的增加和社交网络的快速发展,短文本数据迅猛增长。短文本相对于长文本,词汇个数少且具有稀疏性、不规范性以及特征表达能力弱的特点,这使得机器在理解其语义方面面临极大的挑战。去年,德勤曾给出过一张智能语音技术成熟度曲线图,图表显示,文本分析目前仍处于稳步爬升恢复期。

短文本的理解及分类技术本身属于基础研究范畴,但却是实现人工智能的一个重要组成部分,其对许多实际应用场景也有至关重要的意义。

短文本分类技术有众多应用场景,比如,常见的给新闻自动分类,打上一个或者多个标签;再比如商品智能推荐——根据用户购买商品名称作为预测样本,进行文本分析,得到用户的交易特征,再结合用户画像预测用户下一步购买行为,完成智能推荐商品及服务。在金融行业,短文本分类技术也被用于信贷业务中,比如从常见基础字段(一般包括姓名、性别等)和衍生字段(如设备ID等)以及市场现有的分类数据集抽取特征,为业务提供智能化的数据分析解决方案。

目前,市场上分类数据集面临标签准确率低的问题。针对这一问题,百融云创研发出基于贝叶斯定理的短文本分类数据集矫正方法及系统。该系统能够对目前互联网现有的分类不准确、不正确的短文本分类数据集进行快速、自动化矫正,提高标注的质量。针对无标签的样本,系统还有预测功能,提高分类过程中方数据标签的准确性及正确率。

值得注意的是,以上百融云创的三个方法及系统均于上个月成功获得国家产权局授予的发明专利证书。

结语

从技术的角度看,数据、算力、算法是推动人工智能快速发展的基本要素。同时,技术的发展也离不开市场的培育。市场需要的是解决问题的方案和能力,是将技术落地成产品、服务,乃至一整套的解决方案,换言之,解决问题的综合能力才是市场看重的核心。

这需要SaaS企业以技术创新为根本,以市场需求为导向,同时结合自身优势,推动技术融合,实现人工智能技术在各行各业的落地。随着以人工智能为代表的前沿技术的发展,其对行业的影响也日益深化,将从当前的技术驱动和效率提升走向全面的颠覆创新和产业升级。

人工智能是最难掌握的数字技术,但作为奖赏回报也最为丰厚。提前在人工智能领域布局、拥有更多技术积累的企业,拥有无可比拟的先发优势,并且随着商业化进程的推进,这种优势将进一步得到强化。

从百融云创的发展经验看,获得多个国家专利和知识产权保护的创新性技术使得公司较早地开始商业化探索,高性能的产品和高质量的服务,使得公司在激烈的市场竞争中脱颖而出,公司目前客户涵盖约5700家金融机构,优质的产品和服务也带来了高用户留存(目前核心用户留存达91.6%),加之业务本身的规模效应,随之而来的是高业绩增长(2021年营收同比增长43%,EBITDA同比增长40%)。高增长和高留存为公司继续深耕技术,迭代产品、优化服务提供土壤,企业可利用此优势进一步筑高护城河。这可能也是所有想要在这个千亿规模市场分一杯羹的SaaS企业,可以借鉴的发展思路。

标签: 语音识别 人工智能 分类数据

相关阅读