欢迎光广州市九芯电子科技有限公司网站!

全国服务热线:400-8616-826

您的位置: 首页>>新闻中心>>行业资讯

咨询热线

400-8616-826

浅析语音合成芯片

作者:admin时间:2018-09-0443 次浏览

信息摘要:

所谓语音合成芯片,又称中文TTS芯片,是指一种专业的语音芯片,它可以通过串行通信接口如UART和SPI等方式,与主控CPU进行数据通信,接收CPU传送的文本信息,以合成语音的方式,驱动发声器发声,···...

从语意上浅析

所谓语音合成芯片,又称中文TTS芯片,是指一种专业的语音芯片,它可以通过串行通信接口如UART和SPI等方式,与主控CPU进行数据通信,接收CPU传送的文本信息,以合成语音的方式,驱动发声器发声,其特点是:高集成度,带串行通信接口以及需要一定的外围电路的支持(如晶振电路等)。 
从语音合成芯片的定义上就能知道,它属于一种高端的语音芯片,是一种采取了语音合成技术的、截然不同的智能芯片,它内置了中文TTS软件或语音合成软件核心。从未来的市场发展和用户体验要求上来看,也许将有一天语音合成芯片终将取代语音芯片如今的地位,当然需要很长的时间,或者终二者合二为一也不一定。现在只能说,未来的语音合成芯片合成效果自然度将更高,成本将更低廉,控制更方便以及面向多语种化   

从应用上浅析  

语音合成技术是引领信息社会的重要组成部分,是广大生产语音芯片厂家提升其产品价值的重要手段。让客户更好的使用产品,莫过于直接与机器进行交流。实现机器说话的手段莫过于硬件与软件两大方案,而硬件方案主要包括语音芯片和语音合成芯片两大方案。自2003年北京宇音天下科技有限公司的OSYNO6188国内中文语音合成芯片(也称中文TTS芯片)问世以来,市场上的可发声芯片就正式分成两大类:语音芯片与语音合成芯片。但是在现实开发语音终端产品工作中,有很多的研发人员对于这两类芯片的认知,经常出现概念上混淆,常常将语音合成芯片,误认为语音芯片,加之一些制作销售语音芯片的公司,为了更好的销售,以突出语音芯片的比较价格优势,也对外宣称他们的语音IC,是语音合成芯片,有意识地误导开发人员,其实这两者是有本质上是完全不同的。
    举例而言,当用户需要终开发的语音终端,进行大量的不同语音实时提示时--比如检测油量车速等功能的车载仪表,需要对当前的油量,车速进行实时的报告;或者类似GPS导航,提示现在是位于XX街道,当前路面上规定的车速是什么时,也许语音芯片的研制企业宣称没有问题,但对不同省市的不同街道,它就没辙了,这就必须使用语音合成芯片。语音芯片的使用,是在比较固定和较少的语音信息提示时使用的,例如说:这个芯片是用在某路公交车手动报个站,或者说火灾来的时候发出报警声音,这时候使用语音芯片很合适的。这样您就能知道,您到底需要什么类型的芯片了。
     接下来可以对它们做比较正式的定义了。所谓语音芯片,是指将语音信号通过采样转化为数字,存储在IC的ROM中,再通过电路将ROM中的数字还原成语音信号。所谓语音合成芯片,又称中文TTS芯片,是指一种专业的语音芯片,它可以通过串行通信接口如UART和SPI等方式,与主控CPU进行数据通信,接收CPU传送的文本信息,并将文本信息,转化成合成语音的方式,驱动发声器发声,其特点是:高集成度,内置中文TTS功能,带串行通信接口以及需要一定的外围电路的支持。
 

从使用方法浅析

     从使用方法来看,语音芯片的主要使用方式是先对其进行录音,录音完成烧录后再来对其使用。而语音合成芯片只需要上位机通过串行通信对其发送一段文本信息,再将文本信息转化为语音信号。从使用上来看,由于语音芯片所记录的提示语音段长度受限,在只需要少量提示语音、并且可以大规模应用的场合下,则适合使用语音芯片,因其成本不高;缺点则是需预录制语音、需重新烧录、需校验,这对于许多研发企业而言,其实是十分烦难的—尤其是当这些研制出的语音终端,卖到不同的用户,就需要使用不同的语音录制文件时,将消耗研发人员大量的宝贵成本。语音合成芯片,则可以灵活的使用上位机提供的文本信息,就可自动的转化为输出声音,从而在智能化人机交互方面产生大量的应用,缺点是智能分析能力不能达到100%的正确语音发声(自然度跟人声相比还是略有差别)且成本较普通的语音芯片略高。
 

从语音合成效果上浅析

  语音合成芯片的应用目的是以语言的方式传达文本信息,机器说话是否标准,人能否听懂听舒服自然成为重要的衡量指标。语音芯片的朗读效果主要由两个重要技术指标决定:可懂度和自然度。可懂度就是人们能够听懂机器合成出来的内容,是语音合成芯片能否应用的基本要求;自然度则是机器发音效果是否易于理解,听着舒服,与正常人说话的差距。国家863专家组对语音合成效果的自然度综合评测有详细说明,规定采用5分制打分,达到可接受阶段为3.0分,普通人说话水平为4.0分,播音员的水平为5.0分。可懂度是衡量语音合成产品是否可用的标准,自然度则是评价产品是否可以大规模应用,以及应用于高端领域的重要指标。

从语音合成的性能上浅析

能否识别常见的特殊格式文本。

  为了满足不同文本的合成需求,语音合成芯片除了能够自动识别常见文本内容外,在一些特殊格式文本方面,如时间、日期、网站名称等格式的文本,也要能够智能判读。“12:10:35”读成“十二点十分三十五秒”,“2008-1-13”读成“二零零八年一月十三号”,“http://www.abc.com”读成“h-t-t-p w-w-w点a-b-c点c–o- m”。

能否识别常见的特殊符号、单位符号。

  对于一些特殊符号及单位符号等,语音合成芯片也需要能够正确识别并合成出来,如:“-2℃”读成“零下2摄氏度”,其他的30%,a&b,¥80,20㎝,75㎏,90㎡等都能够人们按照阅读习惯进行读出。

能否判读常见多音字。

  多音字作为汉字中常见的发音重点和难点,是各家语音芯片厂家关注的焦点,特别是中文语音合成芯片,在这方面更需要优异的表现。如:音乐,银行,特长,即将,股市行情,调整,校正,灾难,没收,长三角,西藏,济南,重庆,成都等等,多音字能否正确判读直接影响合成信息的可懂度,信息受众者的理解,所以必须准确朗读。

能否支持多种汉字编码支持。

  多种汉字编码支持目前也已成为考核语音合成芯片性能的重点,这点在方便终端用户使用方面以及支持汉字识别范围方面均非常重要。目前常用的汉字编码格式有GB2312, Unicode,GBK,BIG5等。

能否支持数字的读法。

  生活离不开数字,数字串的正确识别合成输出,在众多应用领域成为普遍性关注点,合成文本中会经常出现类似如:“请拨打12345”、“电话:12345”“热线:12345” “我的号码:12345”等内容,一款高性能语音合成芯片能够智能判断把数字串读成数值、还是号码。如“12345”会自动按照号码的读成“一二三四五”。“139-11661189”自动按照号码读成“幺三九幺幺六六幺幺八九”。而“12345公斤”会自动读成“一万二千三百四十五公斤”, “345678个”会读成“三十四万五千六百七十八个”等等。

能否支持合成参数设置。

  参数合成设置主要是为了方便使用语音芯片进行二次开发的用户来进行设置、调试、修正文本合成效果。语音合成芯片应该能够支持多种标记功能,可以按照需要进行标记。使用多种标记进行设置更为直观方便、易维护。例如:设置音量,只要使用合成命令帧发送[v9],就可把音量设置9级音量。



返回列表 本文标签:

Copyright © 2022 广州市九芯电子科技有限公司 All Rights Reserved. 粤ICP备16001794号 XML地图

400-8616-826