RTVC 中 ASV 和 TTS 模块结合使用的调研示例分析

发布时间:2022-01-14 22:30:12 作者:柒染
来源:亿速云 阅读:145

本篇文章为大家展示了RTVC 中 ASV 和 TTS 模块结合使用的调研示例分析,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。

0. 说明

不知道如何克服 ASV 的输出 SV Vector 应用到 TTS 后, 合成时候的 Unseen Speaker 问题

背景描述:

不管是 M2VoC 还是 音色迁移版本 Cross-lingual TTS, 均可以

因此调研下文献以及讨论

1. 总结现象

2. 调研前的想法

2.1. 增多数据

不用更改思路, 增多 VCTK 类似的思路, 仔细训练

主要贡献可以体现在

2.2. SVV 找最近

不用本身提取的 SVV, 寻找他最近的那个

2.3. 多个 ASV

2.4. GST

使用 ASV 得到 SVV, 然后不直接使用 SVV, 而是通过 Attention 将 SVV 表示成几个 GST 的加权和, 然后参与 TTS

2.5. ASV Fine-Tune

训练的时候允许 ASV 进行梯度回传的修改

3. LibriSpeech TTS

上述内容就是RTVC 中 ASV 和 TTS 模块结合使用的调研示例分析,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注亿速云行业资讯频道。

推荐阅读:
  1. Hyper-V 性能加速之VMQ
  2. Android4.3引入的UiAutomation新框架官方简介

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

tts

上一篇:由追踪溯源发现的不安全解压GetShell实例分析

下一篇:springboot整合quartz定时任务框架的方法是什么

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》