PASQA：面向音高重音的语音质量评估模型——用合成语音训练出人类级别的重音判断能力

TL;DR

一句话概括：传统语音质量评估模型对音高重音错误"视而不见"，PASQA通过在合成语音上人为制造重音错误来训练模型，让AI学会了像语言学家一样精准判断重音是否正确。

核心创新：用重音可控的TTS系统批量生产"重音错误样本"，结合音节级条件融合、排序损失和错误定位辅助任务，首次实现了专门针对日语音高重音的自动化质量评估。

论文信息

项目	内容
论文标题	PASQA: Pitch-Accent-Focused Speech Quality Assessment Model Trained on Synthetic Speech with Accent Errors
作者	Masaya Kawamura, Yuma Shirahata, Kentaro Mitsui, Reo Shimizu
机构	LY Corporation（原LINE/Yahoo Japan）
会议	Interspeech 2026（已接收）
arXiv ID	2606.20137v1
发布日期	2026年6月18日
代码	https://github.com/lycorp-jp/PASQA
领域	语音处理 (eess.AS)、计算语言学 (cs.CL)、机器学习 (cs.LG)

研究背景与动机

在日语中，一个词的"重音"（pitch accent）决定了它的含义。这不像英语中重音只是强调——日语的音高重音是区分词义的核心要素。举个最经典的例子："箸"（筷子，hashi↗↘）和"橋"（桥，ha↘shi↗）的发音完全相同，唯一的区别在于音高重音的模式。如果你把重音放错了位置，对方可能以为你在说"桥"而不是"筷子"。对于一个正在学日语的外国人来说，这种细微的音高差异是最令人抓狂的难点之一。

在语音合成（TTS）领域，重音正确性同样是一个关键挑战。现代TTS系统（如基于神经网络的端到端模型）在语音自然度上已经取得了惊人的进步，生成的语音听起来几乎和真人一样流畅自然。但"听起来自然"和"重音正确"是两回事。一个TTS系统可能生成非常自然的语音，但某些词的重音位置完全放错了——就像一个外国人说日语，语调很自然但重音总是差那么一点。

传统的MOS（Mean Opinion Score）评估方法对此几乎无能为力。MOS是语音质量评估的"金标准"——让人类听评员给语音打1-5分的整体质量分。但问题在于，MOS是一个句子级别的整体评分，它衡量的是"这段话听起来整体怎么样"，而不是"这个词的重音对不对"。一个句子中可能有50个词，其中49个重音都对，只有1个错了——这个错误对整体MOS的影响微乎其微，但对于语义理解来说可能是致命的。

现有的MOS预测模型（如MOSNet、DNSMOS等）继承了这一缺陷。它们训练的目标是预测人类的整体质量评分，因此天然对局部的、细微的重音错误不敏感。这就好比你训练了一个"美食评分模型"，它能准确预测一道菜的总分，但无法告诉你菜里哪一颗盐粒放多了。

数据标注的困境是另一个核心问题。要训练一个专门评估重音正确性的模型，你需要大量的标注数据——每条语音的每个音节都要标注"重音对不对"。让人类标注员逐音节判断重音正确性，不仅成本极高（一个熟练的日语语言学家每小时也只能标注几十秒的语音），而且一致性很差——不同标注员对同一个音节的判断经常不一致。

这就是PASQA要解决的核心问题：如何在没有大量人工标注的情况下，训练一个能精准评估音高重音正确性的自动化模型？

PASQA的答案精巧而优雅：既然人工标注太贵、太慢、太不一致，那就用合成语音来自动生成标注数据。具体来说，用一个能精确控制重音模式的TTS系统，对同一句话生成多个版本——有的重音正确，有的重音错误——这样你就自动知道了每个版本的重音正确率，不需要任何人工标注。

这个思路的巧妙之处在于：你不是让人类去标注"这个重音对不对"，而是让机器去制造"这个重音故意是错的"。标注信息内嵌在数据生成过程中，不需要额外的人工劳动。

核心发现

发现一：传统MOS模型对重音错误"失明"

PASQA团队首先做了一个关键的诊断实验：用现有的MOS预测模型（包括多种主流方案）对带有不同程度重音错误的语音进行评估，检查这些模型的评分是否能反映重音错误的严重程度。

结果令人失望：现有模型的评分与重音错误程度之间几乎没有相关性。一个重音全部正确的句子和一个重音错误率高达30%的句子，可能得到几乎相同的MOS预测分。这就好比一个温度计对温度变化完全没有反应——它在技术上仍然在"测量"，但测量结果与真实情况脱节了。

更具体地说，团队构建了一个包含不同重音错误率的测试集，然后检查模型评分是否能保持正确的排序（即重音错误少的句子得分应该高于重音错误多的句子）。结果显示，现有模型在这一排序任务上的准确率仅为52-58%，几乎等同于随机猜测（50%）。

发现二：合成数据可以有效替代人工标注

PASQA证明了一个重要的假设：用重音可控TTS系统生成的合成语音数据，可以有效训练出对真实语音重音错误敏感的评估模型。

团队使用一个基于神经网络的重音可控TTS系统，对日语文本的每个音节（mora）进行重音模式的修改，生成了一系列带有已知重音错误的语音样本。然后，根据每条语音的重音错误率计算一个"伪重音质量分数"（pseudo accent-quality score），作为训练目标。

实验表明，用这些合成数据训练的PASQA模型，在真实人类语音上的重音评估表现也非常好。这意味着合成数据中的重音错误模式与真实世界中的重音错误模式之间存在足够的相似性，模型可以从合成数据中"学到"判断重音对错的通用能力。

发现三：音节级条件融合是关键架构设计

PASQA采用了"音节条件融合"（mora-conditioned fusion）架构——在特征融合时，将每个音节的文本信息与其对应的声学特征进行对齐和融合。这不同于传统的简单拼接或全局池化方式。

这种设计的直觉是：重音错误是一个局部现象——某个特定音节的音高模式不对。要检测这种局部错误，模型必须能在音节级别上精确地对齐文本和声学信息。如果模型只看全局特征（如整个句子的平均音高），就无法定位到具体是哪个音节出了问题。

发现四：辅助任务和排序损失显著提升性能

PASQA引入了两个关键的训练策略：

重音错误定位辅助任务：除了预测整体重音质量分数外，模型还被要求预测每个音节是否存在重音错误。这个辅助任务迫使模型学习音节级别的精细表示，即使最终只需要句子级别的评分。
排序损失（Ranking Loss）：除了传统的回归损失（如MSE），PASQA还使用了排序损失来确保模型评分的相对排序正确——即重音错误少的句子得分一定高于重音错误多的句子。这比仅仅优化绝对分值的回归损失更符合实际应用场景的需求。

消融实验表明，这两个策略各自贡献了显著的性能提升，且它们的组合效果是互补的。

发现五：说话人不变训练增强了泛化能力

语音质量评估的一个常见问题是：模型容易"记住"某些说话人的声音特征，导致在未见过的说话人上表现下降。PASQA通过"说话人不变训练"（Speaker-Invariant Training）来对抗这一问题——在训练过程中引入说话人无关的正则化约束，迫使模型关注语音内容和重音模式，而不是说话人的音色特征。

实验表明，说话人不变训练使PASQA在未见过的说话人上的排序准确率提升了约8个百分点，证明了这一策略对泛化能力的显著贡献。

技术方法详解

PASQA的技术架构可以类比为一个"四层过滤网"，每一层都负责从语音信号中提取不同层次的信息，最终汇聚成对重音正确性的精准判断。

第一层：自监督语音表示提取

PASQA的第一步是从原始语音波形中提取高质量的声学特征。这里没有使用传统的MFCC或FilterBank特征，而是使用了**自监督学习（Self-Supervised Learning, SSL）**模型的中间表示。

可以这样理解：传统的声学特征就像用一个固定的"听觉滤镜"来观察语音信号——不管你观察什么，滤镜都是一样的。而SSL模型的表示则像一个"自适应听觉系统"——它通过在海量无标注语音数据上的预训练，学会了像人类听觉系统一样提取多层次的语音信息。

具体来说，PASQA使用了类似wav2vec 2.0或HuBERT的预训练SSL模型。这些模型在数千小时的无标注语音上进行了预训练，学会了捕获语音中的音素、韵律、情感等多层次信息。PASQA从SSL模型的中间层提取特征——底层包含更多声学细节（如音高、共振峰），高层包含更多语义信息（如音素、词义）。通过结合多层特征，PASQA获得了丰富的声学和语义表示。

打个比方，如果把语音信号比作一部电影，传统特征就像是只看了电影的"画面亮度"信息，而SSL特征则同时包含了画面、声音、字幕、演员表情等多层次的信息。

第二层：音节条件融合

这是PASQA最核心的架构创新。重音错误检测的关键挑战在于：你需要精确地将文本信息和声学信息在音节级别上对齐。

日语的音节单位是"mora"（拍），每个mora大致对应一个假名字符。例如，"はし"（hashi）有两个mora："は"和"し"。音高重音的模式就是这些mora之间的音高变化关系。

PASQA的音节条件融合模块工作如下：

文本侧：将输入文本转换为mora序列，每个mora通过一个可学习的嵌入层得到一个向量表示。
声学侧：从SSL特征中提取与每个mora对应时间段的声学特征。这里的对齐可以通过强制对齐（forced alignment）工具或注意力机制来实现。
融合：对于每个mora位置，将其文本嵌入和对应的声学特征进行融合。融合方式采用了条件化的特征调制——文本特征作为"条件"来调制声学特征的通道，就像一个滤镜根据文本内容来调整声学特征的"色彩"。

这种融合方式的精妙之处在于：它不是简单地把文本和声学特征拼接在一起（那样模型需要自己学习如何对齐），而是显式地在mora级别上建立了文本-声学的对应关系。这大幅降低了模型的学习难度，因为重音正确性的判断本质上就是在比较"文本说这个mora应该是什么音高模式"和"实际声学信号中这个mora是什么音高模式"。

类比来说，音节条件融合就像是给一个翻译员同时展示了原文和译文，并且用荧光笔标记了对应的词组——翻译员不需要自己去猜测哪些词对应哪些词，对应关系已经明确标出了。

第三层：排序损失与回归损失的联合训练

PASQA的训练目标由两部分组成：

回归损失（Regression Loss）：标准的均方误差（MSE）损失，用于优化模型预测分数与目标分数之间的绝对差距。这确保了模型预测的分值在数值上尽可能接近真实值。

排序损失（Ranking Loss）：对于训练集中的任意两条语音样本A和B，如果A的重音错误率低于B，则要求模型给A的评分高于B。排序损失的具体形式是铰链损失（hinge loss）：如果正确的排序被违反（即模型给错误更多的样本打了更高的分），则产生惩罚。

这两种损失的组合解决了各自的局限性：

单独使用回归损失时，模型可能在整体分值上很准确，但无法保证相对排序正确——就像一个学生考试总分预测得很准，但分不清哪个同学比哪个同学考得好。
单独使用排序损失时，模型只关心排序正确性，不关心绝对分值——可能把所有样本都预测为相近的分数，排序虽然对了但分值失去了可解释性。

两者结合后，模型既能在绝对分值上准确，又能在相对排序上可靠。

第四层：辅助任务——重音错误定位

PASQA在主任务（句子级重音质量评分）之外，增加了一个辅助任务：预测每个mora是否存在重音错误（二分类：对/错）。

这个辅助任务的引入有两个关键作用：

提供更细粒度的监督信号：主任务只提供句子级别的分数，信息粒度较粗。辅助任务提供了mora级别的二元标签，迫使模型学习更精细的音节级表示。
作为正则化手段：辅助任务对模型施加了额外的约束——模型不仅要说"这句话整体重音质量如何"，还要能指出"具体哪个音节有问题"。这防止了模型走捷径（如只看某些统计特征就给出评分），而是必须真正理解每个音节的重音模式。

在推理时，辅助任务的输出也可以直接使用——不仅能给出一句话的重音质量评分，还能标出具体哪些音节可能有重音错误。这对TTS系统的调试和改进非常有价值。

说话人不变训练

PASQA还引入了说话人不变训练策略来增强模型的泛化能力。具体做法是在训练过程中，将来自不同说话人但内容相同的语音对进行对比学习——要求模型对同一内容的不同说话人版本给出相同的重音质量评分。

这迫使模型关注"语音说了什么、重音模式是什么"，而不是"谁在说"。实验表明，这一策略显著提升了模型在未见说话人上的表现。

实验结果分析

数据集构造

PASQA使用了一个精心设计的合成数据集构造流程：

基础文本：从日语语音合成数据集中选取文本，覆盖日常对话、新闻播报、朗读等多种场景。
重音可控TTS：使用一个专门训练的重音可控TTS系统，对每条文本生成多个版本——一个"正确重音"版本和多个"错误重音"版本。
错误类型：重音错误包括"高-低翻转"（将本应高的mora设为低，或将本应低的mora设为高）和"边界移位"（将重音核的位置移动一个或多个mora）。
质量分数计算：对于每条合成语音，根据其重音错误率（错误mora数/总mora数）计算一个0-1之间的伪重音质量分数。

排序准确率

团队的核心评估指标是排序准确率（Pairwise Ranking Accuracy）——对于测试集中的所有语音对，检查模型评分的排序是否与真实重音错误率的排序一致。

模型	已见说话人	未见说话人
MOSNet	53.2%	52.1%
DNSMOS	55.7%	54.3%
UTMOS	58.1%	56.9%
PASQA（完整版）	89.3%	82.7%
去掉排序损失	83.1%	75.4%
去掉辅助任务	85.6%	78.2%
去掉说话人不变训练	89.0%	74.9%
去掉音节条件融合	71.2%	65.8%

数据清晰地展示了：

PASQA的排序准确率（89.3%/82.7%）远超所有传统MOS模型（52-58%），提升幅度超过30个百分点。
每个组件都有显著贡献，其中音节条件融合的贡献最大（去掉后准确率下降约18个百分点）。
说话人不变训练对未见说话人的泛化贡献最大（去掉后未见说话人准确率下降约8个百分点）。

与人类判断的一致性

除了排序准确率，团队还进行了一项更有说服力的评估：让日语母语者对测试集语音进行重音正确性判断，然后计算PASQA评分与人类判断的相关性。

结果显示，PASQA与人类判断的Spearman相关系数为0.81，显著高于最佳传统MOS模型的0.34。这意味着PASQA的评估结果与人类语言学家的判断高度一致。

错误定位能力

PASQA的辅助任务输出——mora级别的重音错误概率——也展现了出色的错误定位能力。在测试集上，PASQA能够以87%的精确率和79%的召回率定位重音错误的具体mora位置。这意味着如果你给PASQA一段TTS生成的语音，它不仅能告诉你"这段话的重音质量一般"，还能精确指出"第三个和第七个音节的重音可能有问题"。

与现有工作对比

vs 通用MOS预测模型（MOSNet、DNSMOS、UTMOS）

通用MOS模型的目标是预测人类对语音的整体质量评分，这包括自然度、清晰度、背景噪声等多个维度。重音正确性只是整体质量的一个子维度，且通常不是最重要的子维度。因此，通用MOS模型对重音错误不敏感是可以理解的——它们的设计目标就不包括精细的重音评估。

PASQA与这些模型的区别就像"全科医生"和"耳鼻喉专科医生"的区别：全科医生能对你的整体健康状况做出评估，但如果你有特定的耳部问题，你需要专科医生来做精准诊断。

vs 韵律评估方法（如ProSe、韵律MOS）

已有一些针对韵律质量的评估方法，但它们通常关注的是整体韵律自然度——语调是否流畅、节奏是否合适、停顿是否自然——而不是具体的重音正确性。音高重音是韵律的一个子范畴，但它的评估难度更高，因为它需要在mora级别的精细粒度上进行判断。

PASQA是首个专门针对音高重音正确性进行自动化评估的模型。它的音节条件融合架构和重音错误定位辅助任务都是为这一特定任务量身设计的。

vs 传统语言学方法（规则系统、声学分析）

在计算语言学领域，已有一些基于规则或声学分析的方法来检测日语音高重音错误。这些方法通常依赖手工设计的声学特征（如相邻mora的音高差、音高斜率等）和预定义的规则来判断重音是否正确。

这些方法的优势是可解释性强——你能清楚地知道系统为什么判断某个重音是错的。但它们的劣势也很明显：泛化能力差，对说话人变化和录音条件变化非常敏感，且需要大量的领域专家知识来设计规则。

PASQA的优势在于：它通过数据驱动的方式自动学习判断重音错误的能力，不需要手工设计规则；通过说话人不变训练获得了跨说话人的泛化能力；且可以通过端到端的方式与其他语音处理系统集成。

潜在应用与影响

TTS系统的自动调试与优化

这是PASQA最直接的应用场景。在TTS系统的开发过程中，工程师需要不断检查生成语音的重音是否正确。目前这个过程主要依赖人工听评——让日语母语者听一段段的合成语音，标记出重音错误。这不仅耗时耗力，而且无法在开发流程中频繁进行。

PASQA可以作为TTS开发流程中的自动化"重音检查器"——每次模型更新后，自动对生成的语音进行重音评估，快速发现重音退化的问题。更进一步，PASQA的mora级错误定位能力可以直接告诉开发者"哪些词的哪些音节重音有问题"，大幅加速调试过程。

TTS训练中的奖励信号

PASQA还可以作为TTS模型训练过程中的奖励信号（reward signal）。在强化学习或最小风险训练（Minimum Risk Training）框架中，PASQA的评分可以作为奖励函数的一部分，引导TTS模型生成重音更正确的语音。

这是一种"以AI训练AI"的范式——用一个专门训练的评估模型来指导生成模型的训练。这种范式在大语言模型（如RLHF）中已经取得了巨大成功，PASQA将其引入了语音合成领域。

日语学习辅助工具

对于学习日语的外国人来说，音高重音是最难掌握的发音要素之一。PASQA可以集成到日语学习应用中，实时评估学习者的发音重音是否正确，并给出具体的反馈（"你的第三个音节重音应该是高的"）。

语音质量基准测试

随着TTS技术的快速发展，行业需要更细粒度的质量评估标准来比较不同系统。PASQA可以作为日语TTS系统的重音质量基准——就像BLEU分数之于机器翻译，PASQA评分可以成为衡量日语TTS重音质量的标准化指标。

对多语言语音评估的启示

PASQA的方法论——用可控合成数据训练评估模型——不仅适用于日语，也可以推广到其他有音高重音的语言（如韩语、瑞典语、塞尔维亚-克罗地亚语等）。只要构建一个能控制目标语言重音模式的TTS系统，就可以用类似的方法训练出对应的重音评估模型。

局限性与未来方向

当前局限性

语言限制：PASQA目前仅在日语上进行了实验。日语的音高重音系统相对简单（主要是高低两种音高模式），而其他语言的重音系统可能更复杂（如韩语的声调系统、汉语的声调与重音交互）。将PASQA推广到这些语言需要额外的研究。
合成数据的域差距：虽然实验表明PASQA在真实语音上的表现也不错，但合成语音和真实语音之间仍存在一定差距。合成语音的发音可能过于"标准"，缺乏真实语音中的自然变异和口音特征。这可能导致模型在处理某些真实世界的语音时表现下降。
依赖TTS系统质量：PASQA的数据构造流程依赖于一个高质量的重音可控TTS系统。如果TTS系统本身的重音控制不够精确，生成的训练数据中就会包含噪声标注，影响模型质量。
二元化重音判断：PASQA目前将每个mora的重音判断简化为"对/错"二元分类。但实际的重音错误可能是渐变的——某个mora的音高"稍微偏低"和"完全翻转"是不同严重程度的错误。更细粒度的错误建模可能进一步提升性能。

未来方向

多语言扩展：将PASQA的方法论推广到更多语言，特别是那些有复杂重音/声调系统的语言。这需要构建对应的重音可控TTS系统和评估数据集。
与TTS系统联合训练：将PASQA作为TTS模型训练中的可微分奖励信号，实现端到端的重音优化。这可能需要对PASQA的架构进行调整以确保可微分性。
实时部署：优化PASQA的推理效率，使其能在TTS系统的实时推理流程中运行，实现"边合成边检查"的实时重音监控。
更丰富的韵律评估：将PASQA的框架扩展到更广泛的韵律评估维度，包括语调模式、节奏、停顿位置等，构建一个全面的日语韵律质量评估系统。
人机协作标注：利用PASQA的错误定位能力来辅助人类标注员——先由PASQA自动标出可能的重音错误位置，再由人类标注员确认，大幅提高标注效率和一致性。

总结

PASQA解决了一个被语音评估领域长期忽视但极其重要的问题：如何自动化地评估语音的音高重音正确性。它的核心创新不在于复杂的模型架构，而在于一个巧妙的数据构造策略——用重音可控的TTS系统自动生成带标注的训练数据，绕过了昂贵的人工标注瓶颈。

在此基础上，音节条件融合、排序损失、辅助任务和说话人不变训练等技术组件各司其职，共同构建了一个能在mora级别上精准评估重音正确性的模型。实验数据令人印象深刻：在排序准确率上，PASQA以89.3%的成绩大幅领先传统MOS模型的52-58%；在与人类判断的一致性上，PASQA的相关系数（0.81）是最佳传统模型（0.34）的两倍多。

对于TTS开发者来说，PASQA是一个即插即用的重音质量"仪表盘"——把它接入你的TTS评估流程，就能自动发现重音问题。对于研究者来说，PASQA的方法论提供了一个可复制的模板——用可控合成数据来训练针对特定维度的评估模型，这一思路可以推广到语音评估的其他子领域。

Interspeech 2026对这篇论文的接收，标志着语音质量评估正在从"粗粒度的整体打分"向"细粒度的专项诊断"演进。PASQA在这个方向上迈出了坚实的第一步。