您的位置
主页 > 商业资讯 » 正文

汤唯成了百度地图的“AI算法官” 女神背后靠的就是这些语音技术

来源:www.meetalso.com 点击:1079

当人机交互不再满足于“听”时,“说”的环节就变得尤为重要,“怎么说”和“说谁”成为关键按钮。

目前,语音产品的跟踪已经逐渐进入常规模式,邀请明星畅所欲言已经成为基本操作。与传统的机械人工智能语音相比,真实的语音在效果和情感上都是无可比拟的。加上明星效应,用户的体验效果在将来会更加直观。

12月24日,百度地图正式宣布汤唯已经正式签约代言人,并推出“汤唯导航之声”。在“对话”领域,“新一代人工智能地图”百度地图又迈出了一步。

从语音导航到汤唯定制的语音,百度地图“人工智能女神”到底进化了什么?

传统的语音导航单调乏味,定制语音已经成为过去。以汤唯柔和的嗓音作为向导,有什么不同?当“前方道路交通繁忙,请小心驾驶”改为“慢慢向前行驶,慢慢欣赏道路上的风景”,是否觉得这是“人性化”的服务?

1,摆脱中立,汤唯带给我们的不仅仅是女神的声音

许多人会问,我们必须在人工智能中加入性别吗?不,人工智能不一定需要性别,但是声音是最好的。

我们过去听到的人工智能声音都是机械声音,它们是“中性”或“无性”的。问题也很直接,也就是说,他们太冷漠,没有个性。以前也有人说过,个性化和表现力只是目前语音合成追求的方向之一,所以百度地图带来的汤唯的语音不像语音那么简单。可以说,汤唯的声音从功能上反映出百度地图与人工智能的结合正变得越来越强大。

声音和视觉交流一样强大。即使有时,基于声音的互动也能带来更好的沉浸感。

而语音合成的研究已经开始从文本到语音的转换阶段发展到概念到语音的转换阶段。所涉及的技术也更加复杂。百度地图是利用其深层神经网络技术和深层学习技术,结合汽车中的应用场景而构建的。例如,百度语音合成系统采用的全深度学习框架首次在语音合成领域采用全深度学习框架,实现语音合成的个性化和口语化。

2。语音算法模型使机器人性化

女神汤唯完成高质量语音包的能力在很大程度上归功于语音合成技术。在巨大的道路信息和交通数据下,没有人能够通过直接记录来记录它们,这需要语音系统的支持。

在汤唯的语音包中,记录了关于汤唯语音特征的第一手信息。记录的句子包括一些常见的导航提示句和一些涵盖常见汉语发音的句子。

事实上,从计算机的角度来看,声音和文本都是数字化的。语音合成模型的任务是建立两组数字之间的关系,并通过一系列计算将文本输入转换为语音输出。首先,需要建立神经网络模型来学习汤唯录音和录音文本之间的映射关系,就像不会发音的孩子可以学习汤唯的语音一样。作曲时,它能读出导航句子并大声朗读出来。在人工智能浪潮下,语音合成是语音技术的高地。

计算机与人具有相同的说话能力,是当今信息产业中一个重要的竞争市场。然而,人们的注意力主要集中在语音合成上。

1。几乎被忽视的“黄金”场景目前,语音技术的应用主要是为了语音唤醒和交互。智能软硬件中有许多典型的应用,如智能音箱、智能电视、智能清扫机器人、百度地图、百度输入法等。然而,不可否认,智能硬件的重点仍然放在“语音识别”上,但对于“语音合成”的应用还不够深入。

语音合成(Speech synthesis)是一种经过一系列计算和处理文本后输出相应音频,并通过机械和电子方法生成人工语音的技术。因为完美的人机交互体验不能忽视“说话”的环节,所以语音合成的重要性在于

例如,在有声书籍方面,用户的需求变得越来越个性化,单调的机械声音是完全不够的。在机场和电台广播等服务行业,需要的是柔和甜美的音质。在办公室和窗口办公室,需要一个严格有力的声音。汤唯在百度地图上的声音对旅途中的用户来说也是一个更有吸引力和智慧的声音。

从外部来看,车内空间显然是一片“宝地”。车内空间的互动可以说是市场所需要的。截至2018年9月,全国机动车数量达到3.22亿辆,机动车驾驶员人数超过4亿人。互动价值巨大。

百度地图等。加速车内空间互动,拓展了传统的“室内互动”,给百度带来的不仅仅是用户水平的拓展,还有超越百度搜索的野心。

2。从技术上讲,语音合成一直是语音技术的高山和障碍。

语音合成可以说是人工智能的“口”,是人机交互的基础。没有“嘴”的人工智能怎么能谈论任何互动呢?

现阶段,语音识别不再是语音技术的关键问题,许多产品的语音识别率已经达到95%以上。然而,在语音生成中,仍然很难使机器所说的单词与人类所说的相似。即使是一些简单的短语,你我一眼就能认出它们是机器生成的还是直播的。

如果语音合成技术被分解,它可以分为三个部分:文本分析、韵律分析和声学分析。每个部分都是一个技术难题。首先,我们需要分析文本,分析文本的语言和特征,提取文本特征。然后,根据文本信息,判断文本信息的各种特征,如相互作用、长度、频率等。然后通过声学模型实现前端参数到语音参数的映射,最后通过声码器合成语音。此外,目前主流的语音合成方法是统计参数语音合成和波形拼接语音合成。统计参数语音合成由前端文本分析、统计参数模型和声码器组成。语料库所需时间较少,合成目标波形的灵活性较高,但重构语音具有机械性,缺乏自然性。主要原因是声码器在对语音信号建模时放弃了语音细节,合成语音与原始语音相比丢失了一些信息。

百度地图使用的百度语音合成系统可以实现多个具有深层神经网络的模块,有效解决了使用统计参数合成带来的问题。

波形拼接的语音合成不使用声码器,目标语音通过拼接原始记录的语音片段直接合成。与参数化方法相比,合成语音更加自然真实。由于它直接面向语料库操作,因此对语料库的持续时间和原语类型有较高的要求。

当然,当语言的流畅性达到人们的期望时,这并不是终点,音质、自然性和情感等因素仍需克服。

以汉语语音合成为例。目前,合成语音的可懂度和自然度在单个单词和短语层面已经基本解决,但自然度问题在句子甚至章节层面相对较大。

例如,国内外大多数语音合成研究都是针对文本到语音的转换系统,只能解决以一定的阅读风格将书面语转换成口语输出的问题,缺乏不同年龄、性别特征、声调和速度的表现,更不用说赋予个人的情感色彩了。

3。“说得好”的要求是要比听得清楚明白更好地理解别人。

如上所述,大多数产品的语音识别率已经达到95%以上,但不能像人一样表达。根本原因是他们仍然“不懂人”。

什么是“理解人”?我们可以从对方的音量、音调、速度和话语中理解对方的要求、情感、情绪和状态。这叫做“理解人”。

坦率地说,“情感表达”是语音合成技术需要克服的关键因素

另外,在语音合成的应用中,大部分是单人、单语和单语。如何从单一向多转变也是语音合成应用中的一个大问题。在“三单”语境的限制下,语言合成技术很难在应用上取得突破。目前,“三单”语境的一些解决方案也不完善。存在或多或少的缺陷,并且没有足够的语料库材料来支持它们。

如何利用自适应技术使计算机算法实现任意说话人和不同风格的高质量语音合成,如何充分利用不同语言的发音空间,如何在有限语料库的条件下实现多语言语音合成,也是语音合成这一阶段的主要挑战。

百度地图,在深度神经网络技术的支持下,已经开始响应“三音符”的语境,并取得了一定的成果。百度语音合成已经开始支持中英文混合阅读,提供数十种不同的音色,并对速度、音调和音量设置提供更多支持。这些技术生活功能的增加无疑会给语音合成带来更广阔的想象空间。

近年来,在语音技术行业有一句流行的谚语:“语音合成器赢得世界”。百度地图此时正与民族女神牵手。此时,导航语音似乎已全部上线。

在语音技术的个性化时代,百度地图占据人工智能地图的高度

地图已经随着技术的进步而进化,从羊皮到纸卷,从电脑到手机。纵观整个行业,百度地图已经引领了人工智能的潮流。随着语音合成中对个性化的关注越来越多,个性化需求不能绕过大数据和人工智能,百度在这两个方面的经验恰到好处。

1。汤唯女神定制的声音不仅仅是百度声音合成技术所体现的情感特征的标志。

赋予合成语音情感,使合成语音表现出个体的生理和心理特征,这是语音合成领域的一个难题。

百度地图能够在介绍汤唯语音导航的同时证明其语音群组技术能力的成熟。

随着百度技术经验的积累,神经网络模型变得更加复杂和高效。汤唯模型是百度最近开发的高质量综合模型。它具有良好的音质,音色恢复和自然。

语音合成要有情感,就要建立一个多视角的情感描述模型,该模型需要描述认知、心理、生理等影响因素之间的相关性,然后通过语音频谱特征来表达。而且,这不是痴心妄想,还需要从用户的角度模拟不同群体的使用习惯和偏好。

在这一系列过程的背后是一套复杂而庞大的数据系统。得益于百度地图中丰富的大数据,百度能够完成它。目前,百度地图覆盖了全球209个国家和地区850多万公里的道路,每天在响应地点服务近1000亿次。这些是百度语音集团构建语音合成技术的基石。

2和2导航语音开始满足个性化需求。百度地图人工智能不再只是一个技术端。

今年3月,百度地图事业部正式并入人工智能技术平台系统(AIG),这不仅肯定了其作为基础服务的地位,也意味着百度地图可以获得更直接的人工智能技术支持。

依托整个百度,百度地图是人工智能技术研发的第一期,人工智能技术积累相对全面,涵盖声音、图像、大数据智能等。

和“汤唯迷人语音”和“汤唯常规语音”两种导航语音可以直接反映百度语音群在韵律模型、声学模型预测(神经网络模型)、弹性单元选择技术等方面的技术能力。

从人工智能技术的应用来看,百度地图显示了强大的人工智能能力。除了提供实时路况、预先规划路线、推测拥堵等智能地图的“正常功能”外,百度地图已经开始提供更个性化的互动,如实时导航、全景地图、旅游地图、充电桩地图、紧急车辆交通公告等个性化功能。thes

从阳阳到汤唯,百度地图致力于展示地图人工智能的进步,并一直不遗余力。智能语音助手作为一种辅助功能,对其他地图产品来说并不重要,而百度地图对此非常重视。只有在视觉提供方面,百度地图的语音助手肯定会处于最显眼的位置,而且不仅仅是辅助。百度将“互动”放在语音助手上,充分发挥导航语音“听”和“说”的能力。

今天,百度地图邀请女神汤唯“仙声”无疑是百度地图发音的锦上添花,在百度地图上创造新一代人工智能地图方面领先一步。

从之前的倾听和理解到满意,再到满意后的“反馈和回应”。互动模式也从单一互动转变为真正的双向互动。

同时,基于“更准确、更丰富、更易用”的理念,百度地图可以添加“更感性”的内容。

百度地图率先占领智能地图的制高点。

*以上图片来自互联网。