扫描分享
本文共字,预计阅读时间。
总体介绍
我们基于tacotron-2架构进行改进,实现了支持多角色语音合成的端到端语音合成系统,并成功应用到互联网金融领域。
1. 语音合成技术发展简介
语音合成(Text To Speech, TTS)是指将任意输入文本转换为语音的技术。语音合成技术广泛应用于如语音导航、电话银行、语音翻译、电商语音客服、智能音箱等场景。
传统的语音合成系统包含前端与后端。前端负责对文本进行预处理,主要是对文本进行正则处理,分词,词性预测,多音字处理,韵律预测等。后端负责基于前端提供的语言学信息合成语音,主要有基于参数合成和基于单元挑选波形拼接的方法。传统的TTS技术复杂,需要有语音语言学方面的专业知识。
传统的基于参数合成方法,直接通过定义参数,模拟人的发声器官(唇、舌、声带、声道)来产生语音,优点是可以在较小的语料上建立一个语音合成系统,但是算法复杂,参数多,并且在压缩比较大时,信息丢失亦大,合成出的语音不够自然、清晰。
传统的基于单元选择和波形拼接方法,首先需要建立语音单元库,在合成阶段采用动态规划算法选出最优单元序列,再对选出的单元进行能量规整和波形拼接。拼接合成直接使用真实的语音片段,可以最大限度保留语音音质;缺点是需要根据应用领域建立一个较大的音频库,耗时耗力,同事无法保证领域外文本的合成效果。
近年来迅猛发展的端到端的语音合成技术,不需要掌握较深的语音语言学专业知识,降低了语音合成技术的门槛。
端到端的语音合成技术主要包含三个部分,编码器,解码器,声码器。首先编码器负责将输入的文本映射为一个特定维度的语义向量,然后解码器将这个语义向量解码为频谱特征(一般是线性频谱,梅尔频谱),最后声码器负责将频谱特征恢复出来波形。一般编码器和解码器都是基于深度学习的方法,声码器可以根据需要选择。从经验上讲,从0开始训练一个端到端的语音合成系统,需要一个人10小时以上的高质量录音。
2. 模型方案
端到端语音合成技术比较有代表性的有google团队的Tacotron以及之后的Tacotron2模型,百度提出的DeepVoice, DeepVoice2, DeepVoice3 模型。我们选择业界使用较多的Tacotron2,在此基础上进行改进。
Tacotron2模型中的声码器使用wave-net,实际应用中我们发现速度很慢,难以训练,因此,声码器我们改用griffin-lim方法。
另外,为了能够在同一个模型中获取多人的声音,我们对Tacotron2模型进行了两版改进尝试。第一版模型,我们将每个说话人编码为一个向量,加入到Tacotron2的解码器中,这样能够在同一个模型中合成多个人的声音。但是,如果后续需要新增一个说话人角色,会对已经训练好的角色效果产生影响。考虑到扩展性和稳定性,我们确定了第二版模型方案:使用改进的Tacotron2模型,用多人的音频语料训练一个base model,这个base model 的编码器有较好的泛化能力,如果需要新增说话人角色,可以用新角色的音频语料在base model 上进行 fine-tune。
最终我们实现了4个定制化的说话人角色,适合客服,贷后管理,电销等场景。 如果需要扩展角色语音,只需要提供该角色录制的2000句音频语料(2.6小时时长),即可训练出定制化的语音合成模型,合成该角色的任意语音。
图1 改进的Tacotron2 模型 红色箭头所示为改进
3. 自研语音合成技术在互联网金融领域的应用实例
以智能贷后管理中的会话场景为例,对于简单的贷后管理任务,人工管理耗时耗力。采用基于自动语音合成的智能会话方式,可以节省大量人工成本,同时可以有效控制会话内容,避免违规投诉。
早期方案:将贷后管理话术模板和变量先提前录制好,对话时根据需要答复的内容,将相应模板和变量的语音片段拼接成整段音频,播放给用户。这种方式每次模板扩展需要重新录音,工作量大,同时变量无法穷尽,拼接合成的语音不流畅,卡顿明显。
改进后方案:基于端到端的语音合成架构,某业务人员只需录制少量音频语料,即可训练出定制化语音合成模型,合成该业务人员的声音。话术模板可以随时调整生效,合成的语音自然流畅,符合场景特点,很好的解决了变量(日期,金额,人名等)播报效果差的典型问题。
下图为某真实贷后管理场景下,相同贷后管理话术上使用拼接语音与自研TTS效果对比。可以看到,在T+1至T+5的出催率上,自研TTS比拼接方式高 1.0%~1.5% 。
图2 TTS在某催收场景应用效果
4. 专注于金融领域的语音合成服务
基于金融领域的实际场景,我们沉淀了大量金融领域知识和话术,并且积累了大量业务语音数据,这些都有利于我们更好的构建金融领域语音合成服务。
非常感谢您的报名,请您扫描下方二维码进入沙龙分享群。
非常感谢您的报名,请您点击下方链接保存课件。
点击下载金融科技大讲堂课件本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。
本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。
本文版权归原作者所有,如有侵权,请联系删除。首图来自图虫创意。