PASQA：专攻日语声调重音的语音质量评估模型

Q: 语音合成已经"听起来很自然"，但真的完美吗？

>语音合成已经"听起来很自然"，但真的完美吗？近年来，文本转语音（TTS）技术取得了令人瞩目的进展。从早期听起来机械生硬的合成语音，到如今几乎难以与真人区分的高质量语音，TTS系统在音质、自然度和流畅度方面都达到了前所未有的水平。然而，一个关键问题被长期忽视——声调重音的正确性。 什么是声调重音？以日语为例，日语是一种"音高重音语言"（pitch-accent language），每个词汇都有特定的音高模式。比如"箸"（筷子）和"橋"（桥）在日语中发音完全相同（都是"hashi"），但重音位置不同：前者是&quot

Q: 为什么这个问题现在特别重要？

>为什么这个问题现在特别重要？随着TTS技术在实际应用中的大规模部署——客服机器人、有声读物、导航语音、虚拟助手——用户对语音质量的要求已经从"能听"升级到了"听得舒服"。声调重音错误虽然不影响信息传递，但会严重影响用户体验和信任感。更关键的是，这些错误往往非常隐蔽，需要母语者才能察觉，人工审核成本极高。 因此，开发一个能够自动检测声调重音错误的评估模型，既是学术研究的前沿需求，也是工业界的实际痛点。PASQA正是在这样的背景下应运而生的。

TL;DR

一句话总结： 传统语音质量评估模型（MOS预测器）对声调重音错误"视而不见"，PASQA通过合成带错误重音的日语语音数据训练，首次实现了对声调重音正确性的自动化精准评估，在已见和未见说话人上均大幅超越现有方案。

论文信息

标题： PASQA: Pitch-Accent-Focused Speech Quality Assessment Model Trained on Synthetic Speech with Accent Errors
作者： Masaya Kawamura, Yuma Shirahata, Kentaro Mitsui, Reo Shimizu
机构： 东京大学 / LINE株式会社
发表： INTERSPEECH 2026（已接收）
arXiv： 2606.20137v1
代码： GitHub
领域： 语音处理、语音质量评估、自然语言处理

研究背景与动机

语音合成已经"听起来很自然"，但真的完美吗？

近年来，文本转语音（TTS）技术取得了令人瞩目的进展。从早期听起来机械生硬的合成语音，到如今几乎难以与真人区分的高质量语音，TTS系统在音质、自然度和流畅度方面都达到了前所未有的水平。然而，一个关键问题被长期忽视——声调重音的正确性。

什么是声调重音？以日语为例，日语是一种"音高重音语言"（pitch-accent language），每个词汇都有特定的音高模式。比如"箸"（筷子）和"橋"（桥）在日语中发音完全相同（都是"hashi"），但重音位置不同：前者是"高低"模式（头高型），后者是"低高"模式（平板型）。这种音高差异不是可有可无的装饰，而是区分词义的核心要素。

想象一下，如果一个中文TTS系统把"妈"说成了"马"的声调，或者把英语的重音放在错误的音节上（比如把"PREsent"名词说成了"preSENT"动词），听众会立刻察觉到不对劲。日语中的声调重音错误虽然不像声调语言那样直接改变词义，但会造成严重的不自然感，让母语者感觉"哪里不对"。

传统MOS评估的盲区

目前业界最常用的语音质量指标是平均意见分（Mean Opinion Score, MOS）。MOS预测模型通过深度学习自动预测人类听者会给出的评分，通常衡量的是"整体自然度"。问题是，MOS是一个话语级别的全局指标——它给出的是整句话的总体评分，对于局部的、细微的声调重音错误极其不敏感。

打个比方：如果一个学生写了一篇语法正确、文笔流畅的长文章，但其中有两三个词用错了声调（比如把"角色"的"角"读成了"角落"的"角"），传统的MOS评分就像一个只看整体印象的阅卷老师，很可能给出高分，完全忽略了这些细节错误。

研究团队通过实验证实了这一问题：将合成语音按照重音错误率从低到高排列，传统的MOS预测模型给出的评分几乎看不出差异，甚至经常出现评分顺序颠倒——错误更多的语音反而获得了更高的分数。这意味着，现有的语音质量评估体系在声调重音这个维度上几乎是"失明"的。

为什么这个问题现在特别重要？

随着TTS技术在实际应用中的大规模部署——客服机器人、有声读物、导航语音、虚拟助手——用户对语音质量的要求已经从"能听"升级到了"听得舒服"。声调重音错误虽然不影响信息传递，但会严重影响用户体验和信任感。更关键的是，这些错误往往非常隐蔽，需要母语者才能察觉，人工审核成本极高。

因此，开发一个能够自动检测声调重音错误的评估模型，既是学术研究的前沿需求，也是工业界的实际痛点。PASQA正是在这样的背景下应运而生的。

核心发现

发现一：传统MOS模型对重音错误"失明"

研究团队首先做了一个诊断实验，测试了多个现有的MOS预测模型在不同重音错误率语音上的表现。结果令人震惊：

当重音错误率从0%增加到较高水平时，传统MOS模型的预测分数几乎没有变化
按照重音错误严重程度排序时，传统模型的排序准确率仅略高于随机猜测
这些模型在训练数据中主要学习了音质和自然度特征，对重音模式的变化完全没有捕获能力

用一个直观的类比：这就像一个温度计只能测量气温，却无法感知湿度——虽然都叫"环境指标"，但维度完全不同。传统MOS模型测量的是"这条语音听起来有多自然"，而PASQA测量的是"这条语音的重音模式有多正确"。

发现二：精心构造的合成训练数据是关键突破

PASQA成功的核心在于一个巧妙的数据构造策略。研究团队使用了一个重音可控的TTS系统（Accent-Controllable TTS），能够在保持其他语音属性不变的前提下，精确修改语音中的重音模式。

具体来说，他们对同一句日语文本，通过TTS系统生成不同重音模式的语音变体：正确的重音、错误的重音、部分错误的重音。然后根据重音错误率计算一个伪重音质量分数（pseudo accent-quality score），作为训练标签。

这种方法的精妙之处在于：不需要昂贵的人工标注，就能大规模生成带有精确质量标签的训练数据。每条语音的"正确答案"是已知的，因为重音模式是人为控制的。

发现三：多技术组合实现精准评估

PASQA不是单一技术的简单应用，而是多个创新组件的协同配合：

音拍条件融合（Mora-Conditioned Fusion）： 日语的基本节奏单位是"音拍"（mora），而非音节。PASQA在特征融合时以音拍为单位进行处理，更好地捕捉日语特有的节奏和重音模式。
排序损失（Ranking Loss）： 与其直接预测绝对分数，PASQA学习的是语音之间的相对质量排序。这更符合实际需求——我们通常更关心"哪条语音的重音更正确"，而非给出精确的数字评分。
辅助重音错误定位任务（Auxiliary Accent-Error Localization）： PASQA不仅评估整体质量，还尝试定位具体哪个位置出现了重音错误。这个辅助任务迫使模型学到更精细的重音特征表示。
说话人不变训练（Speaker-Invariant Training）： 重音评估不应受说话人音色的影响。通过说话人不变训练，PASQA学会了将重音信息与说话人身份解耦，从而在未见说话人上也能保持高性能。

发现四：跨说话人泛化能力出色

在已见说话人（seen speakers）上，PASQA的排序准确率达到很高水平，这在预期之内。更令人印象深刻的是，在未见说话人（unseen speakers）上——也就是模型从未听过其声音的说话者——PASQA依然保持了出色的排序准确率。

这说明PASQA学到的不是"某个说话人的重音模式"，而是"日语重音正确性"的通用表示。这对于实际应用至关重要，因为部署时遇到的语音几乎都来自未见过的说话人。

发现五：与人类判断高度一致

最终的"试金石"是与人类听者的判断对比。实验表明，PASQA的评估结果与人类对重音正确性的判断一致性显著高于传统MOS模型。这意味着PASQA可以作为人工评估的可靠替代，大幅降低语音质量评估的成本和时间。

技术方法详解

整体架构：自监督表示 + 精巧设计

PASQA的技术架构可以用一个"洋葱"来比喻：最外层是强大的自监督语音表示（如wav2vec 2.0或HuBERT），提供丰富的声学特征；中间层是多个精心设计的模块，将通用声学特征"聚焦"到重音相关的维度；最内层是评估头，输出最终的重音质量分数。

自监督语音表示：从"声波"到"语义向量"

PASQA的基础是**自监督学习（Self-Supervised Learning, SSL）**模型。这类模型（如wav2vec 2.0、HuBERT、WavLM）通过在大量无标注语音数据上预训练，学会了将原始声波转换为富含语义信息的向量序列。

你可以把SSL模型想象成一个"语音翻译官"——它把人类听觉感知的声波信号，翻译成了计算机能够理解和处理的数字语言。而且，研究表明这些表示中天然包含了音高、节奏、重音等多维度的语音信息。

PASQA选择SSL表示作为特征提取器，而非从头训练声学模型，这是一个"站在巨人肩膀上"的策略。SSL模型已经在海量数据上学到了语音的通用表示，PASQA只需要在其基础上学习"如何关注重音"这一特定能力。

音拍条件融合：日语的"节拍器"

日语的节奏单位不是音节（syllable），而是音拍（mora）。一个音拍大致对应一个假名，比如"東京"（とうきょう）是4个音拍（と・う・きょ・う），而非2个音节。重音模式通常以音拍为单位来描述，比如"平板型"意味着从第一个音拍开始音高上升，然后保持平坦。

PASQA的音拍条件融合模块（Mora-Conditioned Fusion）就像一个"节拍器"，在处理语音特征时严格按照音拍的节奏来"切分"和"聚合"特征向量。这确保了模型在分析重音时，其"视野"与日语重音系统的粒度完全对齐。

具体实现上，模型首先通过外部工具对文本进行音拍分割和重音标注，然后将这些信息作为条件信号注入特征融合过程。这就像给模型戴上了一副"日语重音眼镜"，让它能够看到普通人（传统模型）看不到的重音细节。

排序损失：学会"谁更好"而非"得几分"

传统的回归任务训练模型预测一个绝对分数（比如MOS的1-5分），但PASQA采用了排序损失（Ranking Loss），也称为对比学习或铰链损失（hinge loss）。

这种设计的哲学是：我们更关心两条语音之间的相对质量差异，而非每条语音的绝对分数。打个比方，品尝两道菜时，"哪道更好吃"比"每道菜得几分"更容易判断，也更一致。

排序损失的训练目标是：如果语音A的重音错误率低于语音B，那么PASQA应该给A打出更高的分数。这种"成对比较"的方式让模型学会了关注导致质量差异的关键特征，而非纠结于绝对评分标准。

辅助重音错误定位：从"有问题"到"哪里有问题"

除了评估整体重音质量，PASQA还训练了一个辅助任务——重音错误定位。这个任务要求模型判断语音中哪些具体位置出现了重音错误。

这就像一个医生不仅要诊断"你生病了"，还要指出"具体是哪个器官出了问题"。辅助任务迫使模型学习更细粒度的特征表示，而这些细粒度特征反过来也提升了整体质量评估的准确性。

在技术实现上，这个辅助任务被建模为一个序列标注问题：对于语音中的每个音拍级别时间步，模型预测该位置是否出现了重音错误。辅助任务的梯度会回传到共享的特征提取层，从而"引导"整个模型关注重音相关的信息。

说话人不变训练：剥离音色，保留重音

不同说话人的音色、音域、语速各不相同，但重音模式的正确性应该与这些个人特征无关。为了让PASQA学到重音的"本质"而非说话人的"外衣"，研究团队采用了**说话人不变训练（Speaker-Invariant Training）**策略。

这种策略的核心思想是：通过对抗学习或数据增强，确保模型的输出不随说话人身份变化。想象一下，如果一首歌的旋律是正确的，那么无论由男高音还是女低音来演唱，旋律本身都不应该改变。PASQA要学的就是这种"旋律层面"（重音模式）的正确性，而忽略"音色层面"（说话人身份）的差异。

合成数据生成：精准控制的"实验室"

训练数据的构造是PASQA成功的基石。研究团队使用了一个重音可控的TTS系统，能够对同一文本生成不同重音模式的语音。这个过程可以类比为化学实验中的"控制变量法"：

控制变量： 文本内容、说话人、语速、音质
自变量： 重音模式（正确/错误/部分错误）
因变量： 语音的重音质量

通过精确控制重音模式的变化，研究团队可以为每条语音计算一个基于重音错误率的伪质量分数。这个分数是客观的、精确的、可重复的——不依赖于主观的人工标注。

这种数据生成方式的另一个优势是可扩展性。研究团队可以轻松生成大量不同错误率的训练样本，覆盖从"完美重音"到"严重错误"的全谱段，而不需要逐条人工标注。

实验结果分析

实验设置

研究团队在日语语音数据上进行了全面的实验评估。评估指标主要包括：

排序准确率（Ranking Accuracy）： 给定两条重音错误率不同的语音，模型能否正确判断哪条的重音更准确
与人类判断的相关性： 模型评分与人类听者对重音正确性评分的相关系数
跨说话人泛化能力： 在已见说话人和未见说话人上的表现差异

与基线模型的对比

实验对比了多个现有方案，包括：

传统MOS预测模型： 在排序准确率上表现接近随机猜测，证实了传统方案对重音错误的不敏感性
基于声学特征的手工方案： 有一定效果但远不如PASQA
其他自监督表示方案（无PASQA的精巧模块）： 性能显著低于完整的PASQA系统

PASQA在所有评估指标上均取得了最佳表现，尤其是在跨说话人场景下的泛化能力远超其他方案。

消融实验

为了验证每个组件的贡献，研究团队进行了详细的消融实验。结果表明：

去除音拍条件融合后，性能显著下降，说明日语特有的音拍处理至关重要
去除排序损失后，模型退化为回归模型，排序能力大幅减弱
去除辅助定位任务后，模型对细微重音错误的敏感度降低
去除说话人不变训练后，跨说话人泛化能力明显恶化

每个组件都有其不可替代的作用，PASQA的优异性能源于这些组件的协同配合。

与现有工作对比

传统MOS预测模型

传统的MOS预测模型（如DNSMOS、MOSNet等）专注于整体自然度评估，它们是"广角镜头"——看得宽但不够深。PASQA则是一个"长焦镜头"——聚焦于声调重音这一个特定维度，看得更精细。

在实际应用中，这两种评估方式是互补的：MOS模型告诉你"这条语音整体听起来怎么样"，PASQA告诉你"这条语音的重音对不对"。

其他语音质量评估方法

在语音质量评估领域，还有基于PESQ、POLQA等传统信号处理指标的方法，以及基于深度学习的各种变体。但这些方法主要关注音质退化（如噪声、失真、编解码损失），而非语言学层面的正确性。

PASQA填补了"语言学正确性评估"这一空白，特别是在声调重音这一此前几乎无人关注的维度上。

日语语音评估的特殊性

日语作为音高重音语言，在语音评估方面有其独特需求。此前已有一些针对日语重音的TTS研究（如Accent-TTS、JSUT等），但缺乏专门的自动评估工具。PASQA首次为日语TTS系统的重音质量提供了一个可靠的自动评估方案。

潜在应用与影响

TTS系统开发与迭代

PASQA最直接的应用场景是TTS系统的开发和优化。开发者可以用PASQA自动评估TTS系统的重音输出质量，快速定位问题，而不需要每轮迭代都进行昂贵的人工听测。

想象一个TTS开发团队每天生成数千条测试语音，如果靠人工逐一评估重音正确性，成本和时间都是不可接受的。PASQA可以作为自动化流水线的一部分，实时监控重音质量，只在发现异常时才触发人工审核。

语音合成模型选择

在选择TTS模型或配置时，PASQA可以提供一个客观的重音质量维度，帮助决策者在多个候选方案中做出更明智的选择。

语言学习辅助

对于日语学习者来说，PASQA的重音错误定位能力可以被用于开发发音纠正工具。学习者录制自己的日语朗读，PASQA自动标注哪些词的重音有问题，帮助学习者有针对性地改进。

学术研究工具

PASQA为日语语音学和语音合成领域的研究者提供了一个标准化的重音评估工具，有助于不同研究之间的公平比较。

推广到其他音高重音语言

虽然PASQA目前针对日语设计，但其核心方法论——使用可控合成数据训练重音评估模型——理论上可以推广到其他音高重音语言，如瑞典语、挪威语、立陶宛语等。这为跨语言的声调重音研究开辟了新方向。

局限性与未来方向

当前局限性

语言单一性： PASQA目前仅针对日语开发和验证。日语的音高重音系统相对简单（主要是二元对立：高/低），对于更复杂的声调系统（如汉语的四声）是否同样有效，尚待验证。
合成数据域差距： 虽然合成数据解决了标注问题，但合成语音与真实语音之间可能存在分布差异。PASQA在真实TTS系统产生的自然重音错误上的表现，可能与在合成错误上的表现有所不同。
错误类型单一： 当前的重音错误是通过TTS系统系统性地生成的，可能无法完全覆盖自然语音中可能出现的所有重音错误类型。
评估粒度： PASQA目前主要在话语或短语级别进行评估，对于更细粒度（音拍级别）的实时评估能力还有待进一步开发。

未来研究方向

多语言扩展： 将PASQA的方法论推广到汉语、韩语、瑞典语等其他声调/重音语言，甚至开发跨语言的通用重音评估框架。
与其他质量维度融合： 将PASQA的重音评估能力与传统MOS模型的自然度评估能力融合，构建一个"全维度"的语音质量评估系统。
端到端集成： 将PASQA作为TTS训练过程中的损失函数或奖励信号，直接引导TTS系统生成更准确的重音。
真实错误检测： 在大规模真实TTS系统输出上验证PASQA的泛化能力，并针对真实场景进行微调。
交互式应用： 开发基于PASQA的交互式发音学习工具，将学术成果转化为实际可用的产品。

总结

PASQA是语音质量评估领域一个重要的里程碑式工作。它首次系统性地揭示了传统MOS预测模型在声调重音评估上的盲区，并通过巧妙的合成数据策略和多模块协同设计，构建了一个真正能够"听见"重音错误的自动评估系统。

这项工作的核心创新不仅在于技术层面——音拍条件融合、排序损失、辅助定位任务、说话人不变训练的组合——更在于问题定义层面：它明确指出"语音质量"不应仅限于"听起来自然"，还应包括"语言学上正确"。

对于TTS开发者，PASQA提供了一个实用的工具，可以自动化地监控和提升重音质量；对于语音学研究者，PASQA展示了一种利用可控合成数据和自监督表示解决语音评估难题的新范式；对于更广泛的AI语音社区，PASQA提醒我们，当合成语音在"表面质量"上越来越完美时，那些隐藏在语言学层面的细微错误，可能才是下一个需要攻克的挑战。

论文已被INTERSPEECH 2026接收，代码已在GitHub开源。随着TTS技术在全球范围内的大规模部署，像PASQA这样专注于特定语言学维度的评估工具，将在保障语音质量方面发挥越来越重要的作用。