| 明日的播音明星(二) |
浏览: 浏览:  |
|
|
|
“有这么多的声音供选择,最后提取哪一个可能带有更多的随机性”,AT&T的语音合成专家Alistair Conkie说。为提高重组音质的细腻性,他建议将转换音素转换成半音。现在的语音合成系统能够准确地标示所有半音,像“t1”音就有1万个版本,“t2”音有1万个版本。然后,再编辑一个计算机运算法则将它们顺畅的串连成单词和句子。但是,要从半音堆中组装出一个简单的单词也并非一件易事,有时要涉及到上亿种组合方式,由此带来的数据处理量非常巨大。
Conkie因设计了一个被叫做“单元选择合成”的可行性解决方案而名声大噪。他的灵感源自于一道古老的算术题,是说一个正在旅游的推销员被要求在有限的时间内走完50个州。他该如何选择一条最经济划算的路线同时又能具有最大的销售覆盖面呢?Conkie采用“费用”参数赋值给无数种路线选择方式。对于语音合成系统来说,就是赋值给无数种半音结合选择方式。最终绘制出一条针对半音结合方式“最便宜的路线”就变成了计算机易于解决的一道简单的数学题。举个例子来说,最高的“费用”往往在两个半音相遇并试图连接的地方突然出现。计算机通过测量它们的音调、声响以及毫秒内的持续时间将它们加以比较。如果它们的总能量差别非常大,将它们连接到一起会产生令人讨厌的尖刻声或爆裂声。因此,这样的连接即被列为是“昂贵费用”,计算机会将之加以排除。另外,还有一些连接相比之下不太可能出现。Conkie发现,在现实的口语英语中,“a1”发音几乎从未跟在“k2”发音后面过。像这样的连接也被认为是非常昂贵的,计算机会照例排除。例如单词cat,理论上可能有1万种与“k2”和“a1”发音的连接方式。而实际上,只有不到100种能够通过运算并且达到合理逼真的人声效果。
剩下的就只是一些琐碎的问题需要解决。例如,如何使“会说话”的计算机区分书面文字,像“bow and arrow”中的bow和“the bow of a ship”中的bow的区别,或是识别减号与连字符的不同等等。
一些具有语音合成功能的网站也逐渐成为一种流行的时尚。像自然语音网站(www.naturalvoices.att.com),访问者只要输入一个30个单词的短语就能听到回读。
尽管对于Mike和他的“自然语音”家庭成员来说,一直都在强调他们的高自然度,但是他们仍未做到完全自然。譬如像“我想买一张到斯德哥尔摩的票”这样的短语,他们的语音可以说是充满了人性色彩。但是当遇到更长的短语或是表达一些充满朦胧色彩或饱含感情的语言时,他们的声音有时就会怪里怪气,甚至还不时地发出颤音。现在,AT&T正在就情感问题进行研究。他们承认,在情感表达的质量上,他们受到数据库中资源不足的限制。但这丝毫没有影响到他们接收大量需求合成语音软件的申请。像ReadPlease和TextAloud这样的软件程序,能使终端用户通过MP3播放器“收听”电子邮件、文件、甚至是书本内容。
有一点,你至今可能还很疑惑,Mike到底是谁?如果他只是个真实人声的模仿者,真正的Mike会不会站出来说话?当然不会。因为AT&T已经与这些“自然语音”系列背后的语音人才们签定合同禁止其公开露面。AT&T的发言人Michael Diekman说“我们非常努力地去保持合成语音的品牌与原声人的分离。”很显然,语音明星Mike和生活中真实的Mike相处得很好。因此,我们有理由相信,随着语音合成技术研究的不断深入开展,产生高清晰度、高自然度、接近人类声音的连续语音指日可待。 |
|
|