找回密码
 快速注册

QQ登录

只需一步,快速开始

查看: 6372|回复: 0

[音频应用] 语音合成技术重大突破,只需 5 秒就能克隆别人的声音

[复制链接]
黄先生 发表于 2020-2-18 09:03:57 | 显示全部楼层 |阅读模式

8 R- J5 o& B! z' }( F8 k2 f" g$ @. s- f( V) w8 S' A
语音合成技术重大突破,只需 5 秒就能克隆别人的声音3 n/ X# L. m6 y3 B# v+ `

+ ^) ~( v1 n9 h9 R( ?2 M: U语音合成的出现已经有一段时间了,大家最熟悉的也许就是斯蒂芬·霍金的语音合成机器人了。这项技术这变得更加复杂和真实,近期康奈尔大学的研究团队完成了一个项目 — 只需要一段 5 秒的人声语音样本,他们的语音合成器就能生产完整的语音字符,甚至可以应用于其他语言。
% ]7 k+ _" W1 `3 i8 Q3 X+ i8 R1 g2 A3 L1 ]4 y8 f/ p; Q
7586_1581588799_thumb.jpg
  U0 N7 u8 |# r8 k: `% k/ W1 u! ^% U; S: u; B. k$ _

- P& v: w1 k) \2 y  U0 A! Q该团队开发了一种基于神经网络的文本到语音(TTS)合成系统,该系统能够生成许多不同说话者的语音音频,包括那些在人工智能训练期间没有囊括的语言。他们的系统由三个独立训练的组件组成:' X+ h/ N! a: L/ b

5 _0 H) Q; `) G7 `! r说话人编码器网络,使用来自数千名没有抄本的说话人的有噪语音的独立数据集进行说话人验证任务的训练,从来自目标说话人的几秒钟的样本语音生成固定维度的嵌入向量。
* M4 V8 y5 o( G基于 Taco tron 2 的序列-序列合成网络,它根据说话人嵌入的条件,从文本生成 MEL 语谱图。
6 F2 s9 f. C7 x8 k* d. v8 y基于自回归 WaveNet 的声码器,其将 MEL 谱图转换为时域波形样本序列。
2 [- W/ h$ }8 Q
2 j( Z/ e% c8 A# z% a" y5 z% p' \% l' P& E" ^  n+ ?) j' Y2 r. c
原 Youtube 连接:https://youtu.be/0sR1rU3gLzQ+ w! J; E/ v, `
& X8 L& M3 l! S' w, |0 J
该语音合成器的核心技术是谷歌的 Taco tron 端到端语音合成,结合了神经声码器技术,以生成语调和细微差别。这项技术经过了数千个语音样本进行训练,但尚不清楚生成合成语音需要多长时间 - 例如,它接近实时,或者需要大量的计算资源和时间。7 a0 e7 N. r) z. h( a0 W
' F, [% b. j1 Z
但它的结果真的非常惊人,它甚至还能够进行跨语言的语音克隆,还能生成非母语语音,甚至在不同程度的口音控制下的语气.... 总而言之,只需要一段 5 秒的音频样本,这个语音 AI 完成可以模拟一个人的说话方式。9 E1 @8 T, [6 S) C

0 w! j/ G' J4 g3 e& c4 I感兴趣的小伙伴可以在官方页面查看该语音合成系统的效果:
( s% [6 E6 H3 {
) M6 z/ R- R% z8 N) X! ^https://google.github.io/tacotro ... speaker_adaptation/5 W# t8 z( V; W2 x2 p8 m2 R0 U
5 |$ u. c* C$ |  o9 f+ T( H
令人好奇的是,这项技术是否可以应用到唱歌上?
音频应用店铺 音乐发布 中国原创歌词网
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

小黑屋|手机版|音频应用|歌词网|投稿|中国原创歌词基地 ( 鄂ICP备13005321号-1 )

GMT+8, 2024-4-25 10:07 , Processed in 0.048296 second(s), 21 queries .

Powered by Audio app

中国原创歌词网微信: 924177110

快速回复 返回顶部 返回列表