使用分级概括语音模板用于定制语音合成器数据库的方法和工具
2020-01-07

使用分级概括语音模板用于定制语音合成器数据库的方法和工具

一种语音合成定制系统(10)提供一种用于产生分级定制用户数据库的机制。该定制系统包括模板管理工具(14),用于根据从用户(18)得到的定制数据和从文本-语音转换(TTS)合成器(12)得到的相关的复制动态合成数据(20)产生模板。复制的动态合成数据按照具有分级的动态数据结构组织。该定制系统进一步包括补充合成器的标准数据库的用户数据库(22)。工具将模板组装在用户数据库中,这样模板使得用户数据库可以在动态数据结构的所有级层上统一地覆盖顺序产生的语音合成数据。

随着语音合成器输出质量的不断提高,越来越多的应用开始加入合成技术。例如,汽车导航系统,用于视觉受损的装置也开始加入语音合成器。然而,随着语音合成普及度的增加,常规方式中的一些局限性变得明显。

随着语音合成器输出质量的不断提高,越来越多的应用开始加入合成技术。例如,汽车导航系统,用于视觉受损的装置也开始加入语音合成器。然而,随着语音合成普及度的增加,常规方式中的一些局限性变得明显。

使用分级概括语音模板用于定制语音合成器数据库的方法和工具

一个值得注意的困难就是,容量和开发成本的考虑限制了常规合成器可以处理的词汇量。附图1和2简要示出了典型的合成器具有分级的动态数据结构,其中动态数据结构包括语言树20和声学树22。语言树20包含用于将要被合成的句子的语法和语言对象,而声学树22具有用于该句子的韵律和声学对象。这样,在合成一个句子的时候,根据输入的文本构建(或组装)这两个分级树状结构。通常需要意识到的是,树具有节点,这样“父节点”具有到每一“子节点”的“分支”。这里语言树20和声学树22被称作树状结构是因为父节点只能对第一子节点和末尾子节点进行访问,而其余的子节点被包括在一个表中。而且,每一子节点可以对相应的父节点进行访问。然而,树结构的层次组成了分级结构。

在固定(或标准)数据库的辅助下,一个特定句子的上述树结构和节点信息通过各种合成模块被实时构建。例如,语法分析模块通常根据要合成的句子产生从句和短语,而音标表示器使用标准数据库根据句中词语构建语素和音素。包括在标准数据库中的音节划分和音位变体规则根据词语、语素和音素产生音节和变体音位。韵律算法根据所有前述信息产生韵律短语、韵律词语等等。

使用分级概括语音模板用于定制语音合成器数据库的方法和工具

一种语音合成定制系统(10)提供一种用于产生分级定制用户数据库的机制。该定制系统包括模板管理工具(14),用于根据从用户(18)得到的定制数据和从文本-语音转换(TTS)合成器(12)得到的相关的复制动态合成数据(20)产生模板。复制的动态合成数据按照具有分级的动态数据结构组织。该定制系统进一步包括补充合成器的标准数据库的用户数据库(22)。工具将模板组装在用户数据库中,这样模板使得用户数据库可以在动态数据结构的所有级层上统一地覆盖顺序产生的语音合成数据。

使用分级概括语音模板用于定制语音合成器数据库的方法和工具

具体实施方式

如附图3所示,标准数据库24因此典型地包括具有放置在树20、22的节点中的信息的表。目前的“串接合成”尤其如此。需要注意的是,由于存储在标准数据库24中的数据会为动态树20、22中的各级节点提供信息,所以标准数据库24实质上也是分级的。而且数据库24中的较高级层的数据可能会参照较低级层的数据(或相反)。例如,关于某种类型的短语的信息可能会向下参照词语序列和它们相应的词汇信息。在这种方式下,通过对同一数据项的多重参照实现了数据共享(和节省存储器)。简单地说,标准数据库24是一个关系数据库。

一个值得注意的困难就是,容量和开发成本的考虑限制了常规合成器可以处理的词汇量。附图1和2简要示出了典型的合成器具有分级的动态数据结构,其中动态数据结构包括语言树20和声学树22。语言树20包含用于将要被合成的句子的语法和语言对象,而声学树22具有用于该句子的韵律和声学对象。这样,在合成一个句子的时候,根据输入的文本构建(或组装)这两个分级树状结构。通常需要意识到的是,树具有节点,这样“父节点”具有到每一“子节点”的“分支”。这里语言树20和声学树22被称作树状结构是因为父节点只能对第一子节点和末尾子节点进行访问,而其余的子节点被包括在一个表中。而且,每一子节点可以对相应的父节点进行访问。然而,树结构的层次组成了分级结构。

在固定(或标准)数据库的辅助下,一个特定句子的上述树结构和节点信息通过各种合成模块被实时构建。例如,语法分析模块通常根据要合成的句子产生从句和短语,而音标表示器使用标准数据库根据句中词语构建语素和音素。包括在标准数据库中的音节划分和音位变体规则根据词语、语素和音素产生音节和变体音位。韵律算法根据所有前述信息产生韵律短语、韵律词语等等。

具体实施方式

根据本发明的另一方面提供一种定制合成器的方法。该方法包括根据来自用户的定制数据和来自合成器的相关复制动态合成数据产生模板的步骤。合成器的标准数据库补充增加有一个用户数据库。该方法进一步包括将模板组装在用户数据库中,这样模板使得用户数据库可以在动态数据结构的多个级层上统一覆盖顺序产生的合成语音数据。

技术领域