搜狗输入法“变声”功能:最难的那条路,往往最正确

国内新闻 阅读(1995)

1994年,31岁的漫画家青山刚昌画了一个男孩。他戴着大眼镜,穿着一件小礼服。他的思想非常出色,善于解决犯罪问题。 20多年后,这个男孩的形象已遍布全世界。每个人都知道他的名字:Edogawa Conan。在动漫故事中,柯南有一个神奇的改变领结的领结。有了它,他可以假装成任何人,没有人想到青山刚昌的富有想象力的设计今天可以成为现实。

img_pic_1558688835_0.jpg

1994年青山岗昌发生了什么,为什么我们要花25年才能最终实现呢?

语音转换不等于语音合成

事实上,在过去的25年里,人类从未停止研究改变声音的技术。以谷歌和国内外其他研究机构为代表的众多科技公司一直在进行声音变化技术的研究和开发,但只停留在研究水平,无法达到稳定状态,难以实现最终应用。

例如,谷歌最新版的人工智能语音合成系统Tacotron 2,合成声音几乎与真人类语音完全相同,但它只能实现“文字转语音”语音合成功能;加拿大的“Lyrebird”(Lyrebird)该公司使用语音模拟算法,可以模仿任何人的声音,并可以为声音添加“感觉”因素,使其更加生动自然,但这只是一种语音合成技术,只是变换将文本信息转换为语音信息,然后播放出来。

据我所知,柯南的“变形领结”不需要综合,而是一种言语新的技术。这面临的技术问题阻碍了人类25年。

语音转换器:新技术领域

目前,在语音研究领域,语音可变性包括多个内容。首先是机器对声音的处理,如美化或夸张;第二个是一对一的改变,即特定的声音A被转换成特定的声音B;到达时一对一的声音,然后是一对多的声音变化到达这个阶段,可以实现柯南的改变语音的领结,但此时改变语音的领结仍然是柯南独有的,除了柯南之外,它仍然无法处理其他人的声音。

搜狗语音技术是将任何人的声音转换为特定人的声音(Any-to-One)的能力,这是对语音变化领域中最高难度系数的研究。众所周知,识别一个人的声音很容易,但识别每个人的声音非常困难,因为每个人的声音和语言都不同。

因此,搜狗的“改变声音”的输入方法是第一次将上述语音转换能力转化为实际可以体验的产品,并开辟了一个新的技术领域。

它不仅可以将任何人的声音转换为特定的人声,而且可以将诸如速度,暂停和情感之类的说话习惯转换为超保真指定的人物声音。这种“语音到语音”技术很实用。对技术难度来说,这是最高水平。在“改变声音”的乐趣功能背后,搜狗再次扩大了技术领域语音行业的布局。

道路,往往是最正确的

值得称赞的是,在搜狗取得技术突破之后,他并没有隐藏武术作弊,而是选择了诚实。他们从未隐瞒,实现这一突破性成就的原因源于搜狗在语言表征学习和风格迁移领域的突破性进展。

img_pic_1558688835_1.png

ICLR主席,巴黎大学名誉教授Herve Glotin曾经说过:表征学习是机器学习的基础。通过表征学习,机器可以更好地识别语音。在样式迁移的支持下,机器可以识别语言中的样式和内容。这两者可以被整合在一起使一个人说出声音和另一个人。最终呈现了演讲的节奏和内容的融合。

以语音变化为支点,你可以动摇很多行业

阿基米德曾经有一句名言:“给我一个支点,我可以震动地球。”通过搜狗输入法实现的这种语音转换功能也有可能煽动多个行业。

首先,在用户层面,语音转换功能可以围绕搜狗输入法形成“语音表达包”,丰富聊天内容,这很可能形成一种新的流行文化,添加一种新的“调味材料” “对社会环境;在行业层面,搜狗语音变换技术可以为不同场景的音频内容提供服务,大大提高了生产效率。在未来音频制作的在线教育,景区导游,电子商务广告等方面,搜狗可以用来大大优化用户体验。

不仅仅是游戏,这是对搜狗语音变化的准确评论。这似乎是一种新的社交聊天方式,但它并不止于此。它的真正舞台来自于这个名字。人工智能的未来。