你家的猫也能来段东北话了:快手快影一键「智能配音」,三种方言随意换,还能配出《舌尖》风...

鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

日常想给家里的蠢猫拍个视频配个音,需要几步?

不不不,现在有了AI的加持,只需打开App,输入文本,秒秒钟就能搞定。

不只是四川话配音,东北老妹音也可以整起来:

快手@大天666

再也不怕隔壁工位东北小哥嘲笑我的台湾腔东北话了

甚至,日常做饭小视频,也可以配出高级感:

快手@xcpangdahai

是不是有点《舌尖上的中国》内味了?

实现如此功能的,就是快手快影最新上线的AI黑科技——智能配音

输入文字,AI配音

所谓智能配音,就是用户只需输入文字,软件就能自动将之转化为高质量的视频配音。

使用方法非常简单。

首先,打开快影,导入视频素材。

「智能配音」的入口,就在App底部功能区的「音效」中。

点击「智能配音」,在弹出的输入框中输入想要配音的文字。

然后,选定一个「发音人」,也就是想要的音色、口音,再点击生成配音。

配音音频就秒速生成了。

另外,通过「字幕」→「加字幕」,完成字幕输入后,同样会出现「智能配音」的入口。操作相当方便。

目前,智能配音功能中一共有9位「发音人」可以pick。

标准播音腔,由「小姐姐」、「小哥哥」两位播音员提供。

在方言区,除了前文提及的「川妹子」和「东北老妹」,还有一位说粤语的「广东靓妹」24小时在线配音。

想要可爱卡通音,可以选择「小猪佩奇」、「蜡笔小新」。

而「舌尖同款」则提供了一个更加贴近真实的音色,纪录片范儿十足。

此前在快手直播间里出现过的小快机器人的音色,也被移植了过来。如果你是一位快手用户,选择「童真」,熟悉的声音就能出现在你的个人创作中啦。

技术不够,AI来凑。这下,给记录生活的小视频增色,就不用担心自己的声音不好听、剪辑水平不过硬了。

但别看此功能人人都能轻松上手,背后的技术挑战却也着实不小。

关键技术解析

文字转语音,其实并不是什么新鲜事。

不过,在此之前,此类语音合成技术主要面向B端用户,应用场景主要是资讯播报、订单播报、朗读听书等。

而对于C端用户,特别是有视频配音需求的用户而言,AI配音只有更生动、更自然、更具韵律,才能真正满足他们的需求。

另外,面向B端的产品,可以对文本的规律、意义进行限定。面向C端用户时,则无法预测用户的输入情况。

这就给快影这类剪辑软件的智能配音功能提出了更高的技术要求:

  • 高表现力,要让用户觉得合成的语音接近自然语音,不做作;

  • 高音质,要求输出的语音干净清晰,能最大程度还原配音角色的音色;

  • 极低响应时间,为了优化用户的使用体验,合成引擎的首字响应时间要求低于100ms。

为此,快影的智能语音配音采用了端到端的深度神经网络语音参数生成算法。

端到端深度神经网络语音参数生成算法

传统的参数语音合成算法存在一个问题,那就是很难保留配音音色的说话风格特点,造成配音比较呆板、风格趋同。

而端到端的深度神经网络语音参数生成算法,可以让生成的语音参数连续性和稳定性得到较大幅度的提升,体现在听感上会使得语音更加真实和自然。

同时,为了能够最大限度保留配音角色的说话韵律风格,在生成算法中还加入了风格控制自回归编码网络,使得每一个配音音色的说话韵律特点都能体现出来。

高表现力深度网络声码器

另外,为了能最大程度还原智能配音角色的声音特点,快影智能配音还采用了基于深度神经网络的声码器进行语音生成。

在语音合成技术方面,业界常用的采样率是16kHz。

但对于儿童音色、卡通音色这样基频比较高的音色而言,这一采样率会对其明亮清澈的特点造成较大的损失。

快手的工程师因此选择了24kHz采样率。

不过,由于模型需要建模更多采样点之间的依赖关系,以及更多的高频信息,这时如果继续照搬16kHz采样率的技术方案,不仅合成速度慢,而且合成音频还会出现“毛刺”噪音。

为此快手的工程师对神经网络声码器进行了深度优化:

采用多子带并行建模预测方法。首先将音频分割为多个sub-band音频,然后在建模过程中针对每个子带选择不同的训练方式和采样参数,并且降低模型输出混合分布数量。

实验证明这样做可以有效地提升声码器的合成效率,并保证合成效果稳定。

增强输入输出特征的信息描述能力。将输入的声学特征维度升至更高的维度,便于更为细致描述频谱细节。同时,将声码器的输出精度采用10bit muLaw压缩,用于提升采样精度。

实验证明,该方法能够让合成的音频听感更加真实和饱满。

如此一来,快影智能配音就在将合成速度提高2.5倍的同时,还能提升生成语音的真实感和饱满度。

此外,工程师们还针对用户等待时间进行了优化,每100字合成只需10s。并且对于用户输入的超长句,采取分段处理的方法,以优化用户等候处理时的产品体验。

「从创作者的需求出发」

为什么会在产品中上线这样的多音色智能配音功能?

其实,对于快手的工程师们来说,就是从快手用户的实际需求出发:

有些快手的创作者觉得自己的视频不够好玩,或是自己的声音不够好听,但又希望通过配音的方式去创作。

所以我们希望制作一款操作更便捷,并且听感上更有趣、更丰富的配音功能,来帮助用户制作更有趣的音视频。

此前,快手在语音合成技术方面的积累,已经在直播间语音机器人上有所体现。

不过,对于智能配音技术团队而言,这一次的任务依然充满挑战。

首先,是时间紧,任务重

「智能配音」这项功能基本是在1个月内完成开发集成,并在2个月内实现全量上线的。

虽然此前已经有面向B端的语音合成技术的积累,但在将其运用到C端上时,由于「使用场景」和「技术要求」均不同,技术团队还是需要作出很多细节上的调整。

这个4人组成的团队需要进行高强度实验,把数据分为不同的组合,再对每个组合进行测试,对特征进行重组。每个实验都存在很多种可能性,相当耗费时间。

单单1种音色,就需要将这个过程重复10-20次。最后呈现出的9种不同音色背后,就有100+实验。

另一个让研发人员印象深刻的难题,是中英混读问题。

用户在实际使用过程中,很可能会出现中文、英文混合使用的情况,但这就给音源的采集带来了困难。

举个例子,蜡笔小新的音色,主要是通过动画片来进行采集,提取其韵律和表现力的。但是,蜡笔小新他并不会说英语啊。

       

为此,技术团队想出的解决方案是,首先在发音单元的设计上,将中英文因素进行共享设计,减少因素集合以降低模型的不稳定性。

其次,在中文发音人音库训练过程中,加入非本发音人的纯英文音库进行混合训练。

并且,在训练中,加入可以描述发音人特点的embedding,对不同发音人的发音风格和发音特点进行解耦,让模型可以从纯中文和纯英文的语音数据中,学习到中文和英文的发音知识。

这样一来,即使没有经过英文音源的训练,模型也同样能让发音人读出英文句子。

目前已有4位「发音人」可以进行中英混读,其余几位的英文能力也预计在8月内上线。

接下来,技术团队将继续挑战自己,根据不同的视频场景,对视频内容进行基于多模态的理解,对每个发音人的发音风格进行场景适配。

这一功能实现后,智能配音的节奏、情绪就会更贴合视频内容,让视频效果更加出彩。

另外,智能配音团队也计划上线更多音色,比如明星音色、热门电视剧配音、具有科技感的机械音等等。

接地气,还看黑科技

智能配音这样的AI黑科技,无疑给老铁们带来了船新的玩法,引领了一波短视频新热潮。

其实,这已经不是快手第一次贴合用户需求,在产品里融入AI黑科技了。

比如此前在快手直播间跟柳岩、大鹏欢乐互动的智能宠物「小快」,就融合了语音唤醒、语音识别、自然语言理解、对话管理、语音合成等多种技术,给主播们提供了既能适应复杂硬件条件,又不占用太多计算资源的语音的智能语音服务。

值得一提的是,对于性能相对低端的手机机型,快手技术团队往往会有针对性地进行性能降级适配,不断优化性能与效果的平衡点,以期用户能以最低门槛,享受最新技术。

以此番上线的智能配音功能为例,量子位用2015年搭载联发科HelioX20的一款手机进行了测试,也能顺利合成配音。

这也展示了快手在CV技术之外,在智能语音领域的厚积薄发。

实际上,快手的语音技术早有布局,四年前就成立了语音交互、音频内容理解的技术团队,成员主要来自清华、中科院、哈工大、西工大的语音实验室,以及微软、三星、BAT这些大厂。目前主要技术方向包括语音识别、语音合成、音乐理解与生成、音频事件检测等。

产品功能的快速落地,离不开一篇篇论文、一项项基础研究的积累,离不开技术工程师们的努力。

在此背后,也是快手价值观的反映:重视技术,重视基础科研,希望每个人都能享受到时代最前沿的技术。

所以下一波音视频新风潮会是什么?

接地气,还看黑科技。

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

人类未来20年最重要的航天任务——登陆火星,已经启动!这场征服星辰大海的征程,将彻底改变我们的未来。

什么是火星探索,为什么要远征未来,如何培养科学探索的精神?

中国空间探测技术首席科学传播专家庞之浩,最新推出讲给孩子的火星课《登陆火星》,在其中深入浅出地讲解火星探索史+航天知识,回答了你还不知道的种种好奇疑问。

现在这一精心打磨的课程正在超值预售中,定价99元,目前限时半价,仅49元。让孩子爱上探索宇宙,培养科学思维,现在就开始吧~

给孩子的火星课
限时半价中????

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/1382278.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

如何将视频的语音变成文字播放出来?

看到回答中很多人分享的是软件,每次使用都需要下载,给大家分享两款在线端语音转文字工具,不用下载安装,在线登录就能使用,非常方便。 1、网易见外 网易见外是网易团队上线的一款转文本工具,上线了视频转写…

教育场景下的实时音频解决方案

本文来自网易云信 资深音频算法工程师 李备在LiveVideoStackCon 2018讲师热身分享,并由LiveVideoStack整理而成。在分享中李备详细分析了在线教育的音频需求,以及一般软件音频框架,和行业的挑战。 文 / 李备 整理 / LiveVideoStack 直播回放&…

全媒体运营师胡耀文教你:从0到1搭建直播运营体系

越来越多 To B 企业开始做直播,无论是 SAP/微软/AWS 这样的老牌大厂,还是像很多 SaaS 创新企业,都投入到直播大潮中。疫情爆发后,To B 直播更如雨后春笋般涌现。 很多 To B 企业的朋友都想做直播,但是没想好直播的定…

抖音 K.O. 快手之后还能火多久?

本文来自作者 tepy 在 GitChat 上分享「抖音 K.O. 快手之后还能火多久?论抖音的运营之道」,「阅读原文」查看交流实录 「文末高能」 编辑 | 泰龙 前段时间,朋友圈忽然刮起了妖风,各种鬼畜的抖音短视频在某个晚上突然爆发般增长&am…

使用Python和pymupdf创建简单的PDF阅读器

使用Python和wxPython编写一个简单的PDF阅读器,并展示了PDF文件的内容。 介绍: 在日常工作和学习中,我们经常需要查看和阅读PDF文件。本文将介绍如何使用Python编程语言和wxPython库创建一个简单的PDF阅读器,让我们能够打开文件夹…

苹果股东电话会议:Apple终违Steven Jobs遗愿

编者按:巴菲特(Warren Buffett)最近在接受CNBC电视频道采访时说,乔布斯几年前曾打电话向他询问如何利用苹果公司的现金。巴菲特说,他建议乔布斯回购股票,前提是如果乔布斯认为股价被低估了的话。苹果公司首席执行长库克在联合创始…

外汇天眼:Apple与MetaQuotes之争!谁是下一个Apple?谁会成下一个MT4/5?

手机巨头Apple 从其应用商店App Store中下架领先的交易软件MetaTrader4(MT4)和 MetaTrader5(MT5)引发了外汇市场热议。 虽然截止发稿,Apple以及交易软件MT4/5供应商MetaQuotes均未对此次事件发表任何评论,…

中国银行成都网点地址,电话,成都银行分布,位置(总是找不到银行的支行名字,火大!干脆来个全收录)

中国银行成都市武侯支行火车南站分理处 成都市人民南路四段51号 610041 中国银行成都市武侯支行双楠分理处 成都市双楠谊苑 610041 中国银行成都市武侯支行华西分理处 成都市一环路南三段13号华西宾馆一楼 610041 中国银行武侯支行棕南分理处 成都市科华北路58号 610041 中国银…

分析师意外下调评级为中性,苹果财报能否改变科技股走向?

新年的投资热情为苹果市值短暂达到3万亿美元铺平了道路,这是有史以来第一家跨过这一门槛的美国公司。尽管许多华尔街分析师和投资者对苹果的评级为看涨,但目前Seeking Alpha的量化评级给苹果的评级为中性(HOLD)。 苹果将于1月27日公布2022财年第一季度财…

美国苹果股价走势图(抢先看美股三大指数新动态)

美股三大指数周三尾盘跳水全线收跌,道指跌逾150点,投资者正密切关注美国5月CPI数据,以判断通胀上升是否是暂时的。恐慌指数VIX涨4.98%,报17.92点。 截至收盘,道指跌152.68点,报34447.14点,跌幅…

nodejs+vue+elementui健身俱乐部网站rix1z

为设计一个安全便捷,并且使用户更好获取本健身俱乐部管理信息,本文主要有安全、简洁为理念,实现用户快捷寻找健身课程、健身器材、会员卡信息、新闻公告等信息,从而解决健身俱乐部管理信息复杂难辨的问题。该系统以vue架构技术为基…

【Linux从入门到精通】文件描述符详解

文章目录 一、引言 二、引入文件描述符fd 2、1 观察fd的值 2、2 fd保存的位置 三、详解文件描述符fd 3、1 为什么要有文件描述符呢 3、2 到底什么是文件操作符呢 四、文件描述符的使用 4、1 验证文件描述符 4、1、1 验证stdin、stdout、stdout 4、1、2 验证fd值的大小顺序 4、…

OIer常用的表情包(更新中)

日常用的图片…虽然和csdn的并没有什么关系…但OIer的自嘲精神还是要有的…

c语言——完数的计算

完数即所有因子之和等于其本身值 列入,28124714,28所有的因子为1,2,4,7,14 而这五个因子之和恰好也是28. //完数的计算 /*完数即所有因子之和等于其本身值 列入,28124714,28所有的…

快速了解SpringBoot注解的使用

文章目录 容器功能--注解Spring 注入组件的注解Component、Controller、Service、Repository案例演示 Configuration应用实例传统方式应用实例使用SpringBoot 的Configuration 添加/注入组件 Configuration 注意事项和细节 Import应用实例 ConditionalConditional 介绍应用实例…

干部年龄大 计算机水平,各级别公务员“晋升年龄表”来了,超过这个年龄,以后基本上没戏...

原标题:各级别公务员“晋升年龄表”来了,超过这个年龄,以后基本上没戏 距离2021年公务员报名考试已经过去一段时间了,只能说今年的考公没有那么容易,因为据说今年共有150万人报名,比去年整整多了10.8万人&a…

excel不显示0_【208期】根据身份证号计算退休年龄时长高亮提醒,EXCEL做到了

导读 应亲们要求,以后会多上实例,今天给大家分享一期关于EXCEL根据身份证号以及退休年龄,动态自动计算距离到期年限,以及高亮提醒的实战案例。 实例要求: 根据身份证号以及退休年龄,用excel公式自动计算出距…

年龄大了学计算机,年龄大了就“不值钱”的专业,30岁开始走下坡路,学生要慎重选择...

文/香橙聊教育 目前为止,我国有12个学科门类,98个专业类,500多个专业。 这些专业有很多是有年龄限制的,也就是说,到了一定的年龄就开始走下坡路,就像初二是初中阶段的分水岭是一个道理。 这些专业的学生在工…

计算机专业退休有退休金,我参加工作42年,国家公务员退休,二级警督,退休工资为什么按2014年10月份的工资计算机退休费...

咨询我 帮助人数:3463719 退休年龄 根据1978年6月国务院颁发的《关于工人退休、退职的暂行办法》和《关于安置老弱病残干部的暂行办法》(国发[1978]104号)规定,下列几种情况可以办理退休: (1)男性干部、工人年满60周岁,女干部年满…

计算退休年龄js怎么写,自定义年龄计算退休时间js怎么实现

最近在研究js,看到一个工具比较新颖,在线计算退休时间、退休年龄的工具,如下:http://www.chinawe.net/tools/tuixiunianling/ 可以自定义时间和退休年龄,还能得出工作天数。 这个其实就是通过js计算出来的&#xff0c…