返回首页

PASQA:专注重音质量评估的语音评估新模型——用合成语音训练出听感黄金耳朵

TL;DR

现有的语音质量评估模型(MOS预测)对重音(pitch-accent)错误不敏感,像是一把只能量整体音量却量不了音准的尺子。PASQA专门解决这个问题:它用可控系统合成带重音错误的日语语音来训练,搭配音节条件融合、排序损失、重音错误定位辅助任务和说话人不变训练四大技术,在已见和未见说话人上都实现了高精度的重音严重度排序,与人类判断高度一致。


论文信息

项目 详情
标题 PASQA: Pitch-Accent-Focused Quality Model Trained on Synthetic Speech with Accent Errors
作者 Masaya Kawamura, Yuma Shirahata, Kentaro Mitsui, Reo Shimizu
机构 LY Corporation(原LINE/Yahoo Japan)
ID 2606.20137v1
发表日期 2026年6月18日
会议 INTERSPEECH 2026(已接收)
领域 语音处理(eess.AS)、计算语言学(cs.CL)、机器学习(cs.LG)
代码 https://github.com/lycorp-jp/PASQA

研究背景与动机

语音质量评估的现状

语音合成技术(TTS)近年来突飞猛进,从早期听起来像机器人的合成音,到如今几乎可以以假乱真的神经网络语音。但听起来好这件事,到底怎么量化?业界最广泛使用的指标是MOS(Mean Opinion Score,平均意见分)——简单说就是找一群人来听,每人打1-5分,取平均值。

问题是,人工标注MOS既昂贵又缓慢。于是研究者们开发了自动MOS预测模型,比如近年来大火的DNSMOSUTMOS等。这些模型能够在不需要人类听众的情况下,给一段语音的自然度打分。

问题出在哪里?

想象你听两段日语合成语音。第一段整体流畅自然,但把一个词的重音位置搞错了(比如把箸(筷子)的高低音模式读成了橋(桥)的模式)。第二段整体听起来有点机械,但每个词的重音都是对的。

现有的MOS预测模型会给第一段打更高的分——因为从整体自然度来看,第一段确实更流畅。但从信息传达的准确性来看,第一段可能完全说错了意思!这就像一个翻译软件把每个字都翻译得很通顺,但把关键术语翻错了——通顺不等于正确。

在日语中,重音(pitch accent,音高重音)尤其重要。日语是一种音高重音语言,每个词都有固定的高低音模式。同一个音节序列,不同的重音模式可以对应完全不同的词义。比如「はし」可以是「箸」(筷子,头高型)或「橋」(桥,尾高型)。重音位置搞错,轻则听起来不自然,重则导致理解错误。

为什么现有方法不够?

现有的MOS预测模型在设计上就存在两个根本性缺陷:

第一,评估粒度太粗。 它们通常在整句(utterance)级别给出一个分数,而不是在词或音节级别指出哪里有问题。如果一句话中只有某个词的重音读错了,这个错误会被整句的平均表现稀释掉。就像考试中一道大题10分,你只有最后一小问错了2分,总分还是8分——看起来不错,但那2分的错误可能恰恰是最致命的。

第二,训练数据缺乏重音维度的标注。 大多数MOS预测模型是在通用的自然度评估数据集上训练的,这些数据集的标注维度是整体听起来自然不自然,而不是重音读对了没有。模型从没见过专门针对重音质量的标注数据,自然也就学不会识别重音错误。

动机总结

研究者们意识到,要让TTS系统不仅说得好听,还要说得对,就需要一个专门评估重音正确性的模型。这个模型需要:

  1. 能够检测出重音错误,即使整体自然度很高
  2. 能够量化重音错误的严重程度
  3. 能够定位重音错误出现在哪个音节上
  4. 不受说话人身份的影响(同一段文本,不同人读出来,重音评估应该一致)

这就是PASQA要解决的问题。


核心发现

发现一:现有模型对重音错误视而不见

研究团队首先做了一个对比实验:用现有的MOS预测模型(包括基于自监督学习的模型)评估不同程度重音错误的语音。结果令人震惊——现有模型几乎无法区分严重重音错误和轻微重音错误的语音

具体来说,他们用排序准确率(ranking accuracy)来衡量模型是否能按照重音错误严重程度正确排序。理想情况下,错误越多的语音应该得分越低。但现有模型的排序准确率接近随机水平,这意味着它们给出的分数与重音质量之间几乎没有相关性。

打个比方,这就像一个酒评师分不出82年的拉菲和超市里50块的红酒——他的味蕾对酒质这个维度完全不敏感。

发现二:PASQA实现了高精度的重音质量排序

PASQA在同样的测试条件下,排序准确率显著高于所有基线模型。无论是已见过的说话人(训练集中出现过的说话人)还是未见过的说话人(训练集中完全没有的说话人),PASQA都能准确地按照重音错误严重程度给语音排序。

这一结果表明,PASQA确实学到了重音质量这一特定维度的评估能力,而不是像现有模型那样只关注整体自然度。

发现三:与人类判断高度一致

更重要的是,PASQA的评分与人类对重音正确性的判断表现出更强的一致性(agreement)。这意味着PASQA不仅仅是一个自动化工具,它的评估标准确实与人类的感知对齐。

这个发现的意义在于:PASQA可以作为人类评估的可靠替代品,用于大规模的TTS系统质量监控。就像自动驾驶中的传感器融合——多个传感器的判断一致时,你可以更有信心。

发现四:重音错误定位能力

PASQA不仅能够评估整体重音质量,还具备重音错误定位能力——它能够指出具体是哪个音节的重音出了问题。这个能力来自辅助的重音错误定位任务(auxiliary accent-error localization task),模型在训练时同时学习两个任务:整体重音质量评分和逐音节的重音错误检测。

这就像一个经验丰富的音乐老师,不仅能说你这段弹得不好,还能指出第三个音符的力度不对。这种精细的诊断能力对于TTS系统的调试和改进至关重要。


技术方法详解

PASQA的技术架构可以拆解为五个核心组件,每个都解决一个特定的挑战。下面用类比来解释。

1. 自监督语音表示(SSL Representations)——语音的DNA提取

PASQA的第一步是提取语音的本质特征。它使用的是自监督学习(Self-Supervised )预训练模型,比如wav2vec 2.0或HuBERT。

打个比方:如果把语音比作一道菜,自监督模型就像一个超级味觉的美食评论家,他不是简单地说好吃或不好吃,而是能分辨出盐放多了、火候不够、配料搭配不当等各种维度。这些预训练模型通过在海量无标注语音数据上学习,已经掌握了语音的各种底层特征——音高、音色、节奏、频谱结构等。

PASQA把这些预训练模型的中间层特征提取出来,作为后续分析的基础。这些特征包含了比原始波形更丰富、更有结构的信息。

2. 音节条件融合(Mora-Conditioned Fusion)——逐字逐句的放大镜

这是PASQA最具创新性的设计之一。日语是一种音节计时语言(mora-timed language),每个音节(mora)都有相对固定的时长。PASQA利用这一特性,将语音特征与音节级别的文本信息对齐。

想象一下:你在看一部外语电影,字幕和画面不同步。音节条件融合就像是把字幕精确同步到每一帧画面上。PASQA知道这段0.1秒的语音对应的是第3个音节,因此能够精确地将声学特征与语言学单元对应起来。

具体做法是:模型接收文本的音节序列,为每个音节分配对应的语音特征片段,然后在音节级别进行特征融合。这种设计使得模型能够逐音节地分析语音质量,而不是只能给出一个笼统的整体评分。

类比来说,普通MOS模型像是用广角镜头拍全景照——整体看着不错,但细节模糊。PASQA则像是用微距镜头逐个像素检查——每个音节的重音质量都逃不过它的眼睛。

3. 排序损失(Ranking Loss)——教模型分出三六九等

传统的质量评估模型通常使用回归损失(如MSE),直接预测一个分数。但PASQA采用了排序损失,训练目标是让模型学会按严重程度排序,而不是精确预测某个绝对分数。

为什么这很重要?想象训练一个品酒。如果用回归损失,你告诉它这杯酒85分,它需要精确学到85分是什么感觉——这很难。但如果用排序损失,你告诉它这杯比那杯好,它只需要学到好和差的区别在哪里——这简单得多,也更符合实际需求。

在PASQA的场景中,排序损失意味着:给模型两段语音,一段重音错误多、一段重音错误少,模型只需要判断哪段更差即可。这种训练信号更清晰、更鲁棒,也更符合实际应用场景——我们通常不需要精确的分数,只需要知道哪个更好。

4. 辅助重音错误定位任务(Auxiliary Accent-Error Localization)——一举两得的训练策略

PASQA在训练时同时进行两个任务:主任务是预测整体重音质量评分,辅助任务是在每个音节上预测这个音节的重音是否正确。

这种多任务学习策略有两个好处。首先,辅助任务为模型提供了更细粒度的监督信号。只告诉模型这句话整体70分,它可能不知道问题出在哪里;但同时告诉它这句话70分,而且第5个音节的重音错了,它就能更快地学到什么样的声学特征对应重音错误。

其次,辅助任务起到了正则化的作用,防止模型过度拟合到整体自然度这个容易学到的特征上,而是真正学会关注重音维度。

类比来说,这就像一个学生在学习时,不仅要做阅读理解(整体质量评估),还要做完形填空(逐音节重音检测)。两个任务互相补充,让学习更全面。

5. 说话人不变训练(Speaker-Invariant )——不以貌取声

一个理想的重音质量评估模型应该对声不认人——不管是谁在说话,同一段文本的重音质量评分应该一致。但现实中,不同说话人的音色、音域、语速差异很大,模型可能会无意中学到这个人说话好听而不是这段语音重音正确。

说话人不变训练通过对抗学习的方式,强迫模型在评估重音质量时忽略说话人身份的干扰。具体来说,模型不仅需要预测重音质量,还需要对抗性地让一个说话人判别器无法从质量评估特征中识别出说话人是谁。

这就像一个公正的裁判——他不会因为球员的名气大就给高分,而是纯粹根据表现来评判。PASQA通过说话人不变训练,确保评估的公正性。

合成数据训练策略

PASQA的另一个核心创新在于训练数据的构造方式。研究团队使用了一个重音可控的TTS系统(accent-controllable TTS),能够精确地改变合成语音的重音模式。

他们构造数据的方式是:对同一段文本,用TTS系统生成不同程度重音错误的版本——有的完全正确,有的错了几个,有的错了很多。然后根据重音错误率计算一个伪重音质量分数(pseudo accent-quality score),用这个分数作为训练目标。

这种做法的巧妙之处在于:

  1. 数据可控:研究者可以精确控制每个样本的重音错误类型和数量
  2. 标注自动:不需要昂贵的人工标注,伪分数可以自动生成
  3. 规模可扩展:理论上可以生成无限多的训练样本
  4. 对比清晰:同一文本的不同重音错误版本天然形成排序对,非常适合排序损失训练

实验结果分析

实验设置

研究团队在日语语音数据上进行了实验,评估维度包括:

  • 排序准确率:模型能否正确按照重音错误严重程度排序
  • 与人类判断的相关性:模型评分与人类重音正确性判断的一致程度
  • 说话人泛化性:在未见过的说话人上的表现

基线对比

PASQA与以下基线进行了对比:

  • 通用MOS预测模型(基于自监督表示)
  • 传统的声学特征方法
  • 其他语音质量评估模型

关键结果

  1. 排序准确率:现有基线模型的排序准确率接近随机水平(约50%),而PASQA显著超越这一水平,在已见说话人和未见说话人上都达到了高排序准确率。

  2. 人类一致性:PASQA与人类重音正确性判断的相关系数显著高于所有基线模型,表明其评估标准与人类感知高度对齐。

  3. 说话人泛化:说话人不变训练使得PASQA在未见说话人上的性能下降很小,证明模型确实学到了说话人无关的重音质量特征。

  4. 消融实验:每个组件(音节条件融合、排序损失、辅助任务、说话人不变训练)都对最终性能有贡献,去除任何一个都会导致性能下降。


与现有工作对比

通用MOS预测模型

代表工作:DNSMOS、UTMOS等

这些模型专注于预测整体自然度MOS,训练数据通常是通用的语音质量评估数据集。它们的优势在于通用性强,能够评估各种类型的语音质量问题。但正如本文所揭示的,它们对重音错误这种特定维度的质量问题几乎不敏感。

专项语音质量评估

在PASQA之前,针对特定语言学维度(如重音)的语音质量评估研究非常稀少。大多数工作要么关注整体自然度,要么关注特定的声学失真(如噪声、混响等)。PASQA是首个专门针对重音正确性进行端到端评估的模型。

合成数据训练

使用合成数据训练评估模型并不是全新的想法——此前有工作使用合成数据训练MOS预测模型。但PASQA的创新在于使用重音可控TTS来生成带有精确重音错误标注的训练数据,这是一种更精细、更有针对性的数据构造方式。

核心差异总结

维度 通用MOS模型 PASQA
评估目标 整体自然度 重音正确性
评估粒度 整句级别 音节级别
对重音错误敏感度
训练数据标注 人工MOS 自动伪分数
错误定位能力
说话人泛化 一般

潜在应用与影响

TTS系统开发与调优

最直接的应用场景是TTS系统的开发。目前,TTS开发者评估合成语音质量主要依赖MOS测试,但MOS对重音质量不敏感。有了PASQA,开发者可以专门监控合成语音的重音质量,快速发现和修复重音问题。

例如,在迭代一个日语TTS系统时,开发者可以用PASQA自动扫描数千条合成语音,筛选出重音质量最差的样本进行分析,从而有针对性地改进模型。

语音合成模型的自动评测

在语音合成的研究论文中,评测结果的可靠性至关重要。PASQA可以作为现有MOS评测的补充,提供一个更全面的质量评估维度。当两个TTS系统的MOS分数接近时,PASQA可以帮助判断哪个系统的重音质量更好。

语言学习辅助工具

对于学习日语的外国学生来说,重音是最难掌握的部分之一。PASQA可以被集成到语言学习应用中,为学生的发音提供实时的重音质量反馈——你的第三个音节重音位置不对,应该是头高型,你读成了尾高型。

语音质量监控

在语音助手、客服机器人等实际应用中,合成语音的重音错误可能导致用户理解错误。PASQA可以作为在线质量监控工具,实时检测合成语音的重音质量,在重音错误严重时触发告警或切换到备选方案。

对语音技术研究的影响

PASQA的工作开辟了一个新的研究方向:维度化的语音质量评估。过去,语音质量被视为一个单一维度(自然度),但实际上它可以分解为多个子维度——重音正确性、语调自然度、语速适当性等。PASQA证明了针对特定维度构建专门评估模型的可行性,这可能启发更多类似的工作。


局限性与未来方向

当前局限性

语言局限:PASQA目前仅在日语上进行了实验。日语的重音系统(高低型)相对规整,而其他语言的重音系统可能更复杂——比如英语的词重音和句重音相互作用,中文的声调系统则完全不同。PASQA的方法能否直接迁移到其他语言,还需要进一步验证。

重音类型局限:日语的重音主要表现为音高模式(pitch pattern),但其他语言的重音可能涉及音长、音强等多个维度。PASQA的评估框架目前主要针对音高维度的重音。

合成数据依赖:PASQA的训练依赖于重音可控的TTS系统。如果TTS系统本身的质量不够高,合成的训练数据可能引入与重音无关的伪影(artifacts),影响模型的学习效果。

评估维度单一:虽然PASQA专注于重音质量,但在实际应用中,语音质量是多维度的。一个理想的评估系统需要同时覆盖自然度、重音质量、流畅度等多个维度。

未来研究方向

多语言扩展:将PASQA的方法扩展到英语、中文、韩语等其他语言,特别是那些重音系统更复杂的语言。这需要构建各语言的重音可控TTS系统和对应的评估数据集。

多维度评估:在PASQA的基础上,开发覆盖更多语音质量维度的评估模型——比如语调、节奏、情感表达等。最终目标是一个多维度、可解释的语音质量评估系统。

端到端优化:将PASQA作为TTS模型训练过程中的一个可微分损失函数,直接优化重音质量。这样TTS系统就能在生成语音的同时自我评估重音质量。

实时应用:优化PASQA的推理速度,使其能够在实时场景中使用——比如语音助手生成回复时实时检测重音质量。

人类评估数据集:构建大规模的人类重音正确性评估数据集,用于更严格地评估和改进PASQA。


总结

PASQA是首个专门针对重音正确性进行评估的语音质量模型。它的核心贡献在于:

  1. 问题定义:明确指出现有MOS预测模型对重音错误不敏感这一关键缺陷
  2. 数据构造:利用重音可控TTS系统自动构造带精确标注的训练数据,解决了重音质量标注数据稀缺的问题
  3. 模型设计:通过音节条件融合、排序损失、辅助定位任务和说话人不变训练四大技术,构建了能精确评估重音质量的模型
  4. 实验验证:在排序准确率和人类一致性两个维度上都显著超越现有方法

这项工作不仅解决了一个实际的工程问题(TTS系统的重音质量监控),更开创了一个新的研究范式——维度化的语音质量评估。随着语音合成技术在日常生活中的应用越来越广泛,这种精细化的质量评估能力将变得越来越重要。

PASQA已被INTERSPEECH 2026接收,代码已开源,这意味着研究社区可以立即使用和扩展这项工作。对于从事语音合成、语音评估、语言学习等领域的研究者和工程师来说,这是一篇值得关注的工作。

常见问题

问题出在哪里?

>问题出在哪里?想象你听两段日语合成语音。第一段整体流畅自然,但把一个词的重音位置搞错了(比如把箸(筷子)的高低音模式读成了橋(桥)的模式)。第二段整体听起来有点机械,但每个词的重音都是对的。 现有的MOS预测模型会给第一段打更高的分——因为从整体自然度来看,第一段确实更流畅。但从信息传达的准确性来看,第一段可能完全说错了意思!这就像一个翻译软件把每个字都翻译得很通顺,但把关键术语翻错了——通顺不等于正确。 在日语中,重音(pitch accent,音高重音)尤其重要。日语是一种音高重音语言,每个词都有固定的高低音模式。同一个音节序列,不同的重音模式可以对应完全不同的词义。比如「はし」可以是「

为什么现有方法不够?

>为什么现有方法不够?现有的MOS预测模型在设计上就存在两个根本性缺陷: 第一,评估粒度太粗。 它们通常在整句(utterance)级别给出一个分数,而不是在词或音节级别指出哪里有问题。如果一句话中只有某个词的重音读错了,这个错误会被整句的平均表现稀释掉。就像考试中一道大题10分,你只有最后一小问错了2分,总分还是8分——看起来不错,但那2分的错误可能恰恰是最致命的。 第二,训练数据缺乏重音维度的标注。 大多数MOS预测模型是在通用的自然度评估数据集上训练的,这些数据集的标注维度是整体听起来自然不自然,而不是重音读对了没有。模型从没见过专门针对重音质量的标注数据,自然也就学不会识别重音错误。

评论