想拥有柯南一样的变声器？安排！丨智言智语

wy168 发表于 2022-8-21 09:35:11

编者按: 智显未来，洞见新知。中科院之声与中国科学院自动化研究所联合开设智言智语科普专栏，为你介绍人工智能相关知识与故事，从最新成果到背后趣闻，带你徜徉AI空间，看人工智能如何唤醒万物，让世界变得更美好。在《名侦探柯南》中，最让人欣羡的黑科技就是阿笠博士制造的蝴蝶结变声器了，柯南为了隐藏自己的身份，会通过变声器来模仿毛利小五郎等人的声音来隐匿自己的身份。有了这个变声器，就可以把声音变成任何人的声音。想要实现变声器的变声功能，可以通过语音转换技术。语音转换，从广义上说，它是指对语音的个性特征进行修改，目的是在保留语音中语言内容信息的同时修改语音信号的一个或多个方面的特征；从狭义上说，它是指将源说话人的语音转换为具有目标说话人发音特征的语音。<img src="https://p3-sign.toutiaoimg.com/pgc-image/STx7Crt6pjucg~noop.image?_iz=58558&from=article.pc_detail&x-expires=1660437771&x-signature=Jinc5zrneWpOrnLwAJsZYXWmHJk%3D" style="width:100%;">语音转换系统的基本框架图语音转换研究算法主要包括训练模块和转换模块。训练模块包括特征分析、特征对齐、模型训练以及转换函数。特征对齐模块用于建立两说话人语音特征之间的映射规则。有些语音转换要求源语音和目标语音的语音文本内容相同。在建立训练语音转换模型之前，由于说话人发音速度存在差异，需要对提取的说话人语音特征在时间尺度上进行对齐，常用的方法有动态时间规整和基于隐马尔可夫模型的强制对齐算法，而有些语音转换系统不需要平行的语料，这种情况还需要其他特殊处理。语音转换模型是能够建立源语音和目标语音声学特征之间的映射关系，其方法是估计一个或一组映射函数使得转换后的特征与目标特征之间的误差最小。常用的语音转换模型包括码本映射、高斯混合模型、隐马尔可夫模型和人工神经网络等。一个完整的语音转换系统应该解决以下三个问题：什么语音特征能够代表语音信号中说话人的信息以及如何估计这些语音特征？如何建立源和目标说话人语音特征间的对应规则？如何由转换后的语音特征合成得到转换后的语音信号？第一个问题是指，语音转换要区分的语音中语音内容、说话人个性特征和语音背景信息等三方面内容。而说话人个性特征才是语音转换的关注对象。第二个问题是指如果在语音信息的三个方面中，针对关注对象说话人个性特征建立源和目标之间的对应关系，而排除另两个方面的干扰。一般来说假设语音背景信息相同或一致，所以主要的干扰信息来自于语音内容信息。这正是数据对齐的作用。它是语音转换中非常重要的模块，会直接影响语音转换的结果。第三个问题可以由模型训练模块和转换模块来解决，也是现今语音转换中比较成熟的技术。语音转化技术的应用十分广泛，例如：个性化语音合成系统：在语音合成系统中，文字直接合成为语音，合成的新语音个性特征单一，听上去像生硬的机器语言，不自然。如果在进行语音合成系统生成语音之后，用一个语音转换系统作用于该语音，或是先将合成单元通过语音转换系统，然后再进行语音合成，之后得到具有特定说话人个性特征的合成语音。语音转换研究涉及到大量说话人个性特征的分析和建模，其研究结果对情感和个性化语音等有特色语音的分析和生成具有十分重要的意义，这样可以弥补单一的语音合成系统中存在的缺陷，使得合成的语音具有丰富的个性化特征，进而得到听觉效果更好的语音。<img src="https://p3-sign.toutiaoimg.com/pgc-image/STx7CsT8D88MHc~noop.image?_iz=58558&from=article.pc_detail&x-expires=1660437771&x-signature=ExFz50dU9Rn1EuLpreyv0Esqi1E%3D" style="width:100%;">个性化语音合成系统语音翻译系统：语音翻译系统是将一种语言的语音翻译成另一种语言的语音，同时保持说话人的身份和说话风格。系统先通过语音识别转换成文字，然后使用机器翻译变成另一种语言，最后使用语音合成系统和跨语言语音转换系统合成翻译后的句子。<img src="https://p3-sign.toutiaoimg.com/pgc-image/STx7CswHDhS2wt~noop.image?_iz=58558&from=article.pc_detail&x-expires=1660437771&x-signature=GOvKoCerQrzHESw7bZ46xCWhVFg%3D" style="width:100%;">语音翻译系统说话人语音认证系统：语音转换系统是将语音转换成特定目标说话人的风格，不法分子可通过语音转换系统伪造语音数据，而说话人认证系统正是一种鉴定真伪说话人的系统。转换说话人身份：可以使用语音转换技术保护重要人物的身份，也可以用于配音。<img src="https://p3-sign.toutiaoimg.com/pgc-image/STx7CtR71RZzxb~noop.image?_iz=58558&from=article.pc_detail&x-expires=1660437771&x-signature=%2BdxX3fo3N4Qlo5M6h0Vnqo0Xyis%3D" style="width:100%;">配音说话和助听设备：社会中有不少因为后天原因造成的声道受损的患者，他们说话的时候会包含较多的噪声，比较沙哑，且清晰度不高，很难加以辨识。通过语音转化系统我们可以改善他们的语音的音质，语音转换系统可以通过合成更容易理解或更典型的语音来帮助有语言障碍的人，也应用于使用电喉头设备的辅助说话设备中。类似的方法可用于提高语音的可理解性，特别是在嘈杂的环境中，应用于提高未来助听器的性能，从而得到辨识度更高的语音，这将为这些患者们提供极大地便利，改善他们的生活。参考文献：1. Tian X, Wang J, Xu H, et al. Average modeling approach to voice conversion with non-parallel data.//Odyssey: volume 2018. 2018: 227-232.2. Kaneko T, Kameoka H. Cyclegan-vc: Non-parallel voice conversion using cycle-consistent adversarial networks //2018 26th European Signal Processing Conference (EUSIPCO). IEEE, 2018:2100-2104.3. Sun L, Li K, Wang H, et al. Phonetic posteriorgrams for many-to-one voice conversion without parallel data training //2016 IEEE International Conference on Multimedia and Expo (ICME).IEEE, 2016: 1-6.4. Lian Z, Wen Z, Zhou X, et al. ARVC: An Auto-Regressive Voice Conversion System Without Parallel Training Data. Proc. Interspeech 2020, 2020: 4706-4710.5. Wang T, Tao J, Fu R, et al. Spoken Content and Voice Factorization for Few-shot Speaker Adaptation. Proc. Interspeech 2020, 2020: 796-800.来源：中国科学院自动化研究所

页: [1]

泓嘉网创's Archiver

想拥有柯南一样的变声器？安排！丨智言智语