PASQA：专注语音重音正确性的质量评估新方法

语音合成技术在过去几年取得了惊人进展。如今的文字转语音（TTS）系统已经能生成几乎以假乱真的人声，但一个关键问题始终悬而未决：合成出来的语音，重音放对了吗？

以日语为例。"hashi"这个词，重音放在不同的音节上，意思可以是"筷子"，也可以是"桥"。如果TTS系统把重音放错了位置，听众可能完全误解说话者的意图。然而，现有的语音质量评估模型对这类局部重音错误几乎是"睁眼瞎"——它们只关注整句语音的整体自然度，对这种细微但致命的错误视而不见。

日本雅虎（LY Corporation）的研究团队在今年6月发表的论文中提出了PASQA（Pitch-Accent-focused Speech Quality Assessment），专门解决这个问题。这是一篇来自语音处理顶会的最新工作，为TTS系统的精细质量评估打开了全新视角。

TL;DR

PASQA是一个专门评估日语语音重音正确性的模型。它不像传统MOS模型那样只给一个"整体听起来自然不自然"的分数，而是能精确判断"重音放对了没有"。模型用自监督预训练的wav2vec 2.0提取语音特征，再通过音节级融合、排序学习、帧级错误定位和说话人对抗训练四大策略进行增强。实验表明，传统MOS模型对重音错误的排序准确率只有约13%-20%（接近随机），而PASQA达到了75%以上。在主观听测中，PASQA与人类判断的相关性（SRCC=0.828）远超所有基线模型。

论文信息

论文标题：PASQA: Pitch-Accent-Focused Speech Quality Assessment Model Trained on Synthetic Speech with Accent Errors
作者：Masaya Kawamura, Yuma Shirahata, Kentaro Mitsui, Reo Shimizu
机构：LY Corporation（日本雅虎）
发表时间：2026年6月18日
arXiv ID：2606.20137v1
代码仓库：https://github.com/lycorp-jp/PASQA
关键词：语音质量评估、自监督学习、声调语言、韵律

研究背景与动机

语音质量评估一直是语音技术领域的核心课题。在工业界，TTS系统的开发和迭代过程中，开发者需要不断评估合成语音的质量。最可靠的方法是请人类听众打分——也就是所谓的平均意见分（MOS）。但MOS测试代价高昂、耗时费力，一次评估可能需要数十名听众、数百条语音样本，几天才能出结果。

为了替代昂贵的人工评估，研究者们开发了各种自动MOS预测模型。近年来，基于深度神经网络的MOS预测器表现越来越好，比如DNSMOS、NISQA、UTMOS、SSL-MOS等模型已经被广泛用于TTS系统的快速评估。这些模型的思路很直接：输入一段语音，输出一个1到5之间的分数，表示"这段语音听起来有多自然"。

这种"整体自然度"的评估方式在很多场景下够用了，但它有一个根本性的盲区：对局部性错误不敏感。

什么叫做"局部性错误"？在声调语言（如日语、汉语）中，声调或重音的位置直接关系到词义。日语的"hashi"前面说过，再举一个例子：日语的"ame"重音不同可以是"雨"也可以是"糖"。这种错误不会让整段语音听起来"不自然"——从声学信号的角度，合成的音质可能非常清晰、流畅，甚至在MOS测试中能拿到高分。但对母语者来说，重音放错了就是放错了，信息传达就是不对的。

研究者在实验中明确验证了这个问题：他们把现有的DNSMOS、NISQA、UTMOS等主流MOS预测模型用来评估含重音错误的日语语音，发现这些模型给出的分数与重音错误的严重程度几乎没有相关性，排序准确率只有13%到20%——本质上跟随机猜没区别。这意味着，如果你只看MOS分数来判断TTS系统的好坏，系统可能在重音控制上一塌糊涂，但你完全看不出来。

问题的根源在于这些模型的训练目标。MOS预测器学的是"人类觉得这段话整体上自不自然"，而重音正确性是一个正交的维度——语音信号可以很"自然"，但重音位置完全错误。这就好比一个学生写字非常工整漂亮，但写的内容全是错别字。你只看"书写工整度"的话，分数会很高，但内容质量一塌糊涂。

另一个挑战是，很多现代TTS系统（尤其是基于端到端深度学习的架构）并不暴露内部的重音预测模块。你没法直接检查系统"心里想的重音是什么"，只能从输出的语音信号来判断。这就需要一个能直接从语音信号评估重音正确性的模型——这正是PASQA要做的事情。

此外，日语语音的重音系统本身就很复杂。日语的重音不是像英语那样通过音高重音（stress accent）来区分，而是通过音高曲线的下降位置（pitch accent）来区分。一个重音短语内，音高在某个音节之后突然下降，那个位置就是"重音核"（accent nucleus）。重音核放在不同的音节上，整个短语的音高模式就完全不同。要让模型理解这种微妙的音高变化，传统的声学特征（如梅尔频谱）往往不够用，需要更强大的特征表示。

综上所述，现有的语音质量评估体系在面对重音正确性这个维度时存在系统性的盲区。PASQA的提出，就是要填补这个空白。

核心发现

PASQA论文的核心发现可以归纳为以下几个层面：

发现一：现有MOS模型对重音错误"视而不见"。 这是整篇论文最重要的实验发现。研究者构建了一个包含三个严重程度等级的日语重音错误数据集（无错误、低错误率10%-20%、高错误率80%-90%），然后用六种主流MOS预测模型（DNSMOS P.835、DNSMOS P.808、NISQA、SHEET SSL-MOS、UTMOS、UTMOSv2）来评估这些语音。结果令人震惊：所有模型的排序准确率都在7.5%到20%之间，有些甚至是负相关。这相当于说，这些模型不仅不能区分重音对错，有时候甚至会给出相反的判断——重音错误越严重，它们反而觉得越好。

发现二：自监督表示是关键的基础。 研究者比较了两种特征提取方式：传统的WORLD声学参数和基于自监督学习的wav2vec 2.0特征。使用WORLD特征训练的基线模型（ACC-WORLD-MOS）虽然比未训练的公开模型好一些，但排序准确率只有34%左右，相关性指标也很弱。而换成wav2vec 2.0特征后（ACC-SSL-MOS），排序准确率直接跳到71%-74%，相关性也大幅跃升。这说明自监督预训练模型学到的特征表示中，天然包含了丰富的韵律信息，远比手工设计的声学参数更能捕捉重音的微妙差异。

发现三：四大增强策略各有贡献。 PASQA在SSL-MOS基线上叠加了四个模块，每个都有不可替代的作用。消融实验（ablation study）清晰地展示了这一点：

去掉帧级错误定位头，排序准确率从75.4%降到72.1%（已见说话人）
去掉音节条件融合，排序准确率降到69.5%
去掉GRL（梯度反转层），排序准确率降到66.2%——这是影响最大的单一组件
去掉Bradley-Terry排序损失，排序准确率降到72.3%

GRL的影响最大，这说明在控制了语音内容和错误模式的实验条件下，不同说话人的音色差异会对模型形成很大的干扰。说话人对抗训练有效地帮模型"忘掉"谁在说话，专注于"说得对不对"。

发现四：与人类判断高度一致。 在15名日语母语者的主观听测中，PASQA与人类评分的斯皮尔曼秩相关系数达到0.828，肯德尔τ系数达到0.614，均显著高于所有基线模型。更重要的是，人类听众自己的排序准确率是92.5%，而PASQA达到了85%——虽然还有差距，但已经是机器模型中最接近人类判断的。

发现五：跨TTS系统的泛化能力。 研究者用GPT-4o-mini-TTS生成了域外测试样本，验证PASQA在从未见过的TTS系统上是否仍然有效。结果显示PASQA达到了78%的配对准确率，且统计显著（p<0.001），而大多数传统MOS模型在这个测试中都不显著。这表明PASQA学到的不只是某一个TTS系统的重音错误模式，而是更通用的重音正确性判断能力。

技术方法详解

PASQA的技术方案可以用一个精妙的比喻来理解：想象你是一个日语老师，要给学生朗读作业打分。你不只是凭整体印象给分，而是有一套系统化的评估流程。

第一步：准备"已知错误"的练习册（重音错误数据集构建）

就像老师需要标准答案才能批改作业一样，PASQA需要一个带有"正确答案"的训练数据。但问题是，现实世界中几乎找不到标注了"重音对错"的大规模语音数据集。人工标注成本太高，而且需要专业的语言学知识。

研究者的解决方案很巧妙：用一个能精确控制重音位置的TTS系统来"制造"错误。他们使用NANSY-TTS这个支持重音控制的日语TTS模型，对91,157个句子进行处理。具体做法是：

先用形态分析工具（MeCab）和一个重音预测模型获取每句话的韵律标注——包括音节序列、重音短语边界、以及每个短语的重音核位置。
然后人为地"篡改"一部分重音核的位置。给定一个目标错误率r，从P个重音短语中均匀采样max(1,⌊rP⌋)个短语，改变它们的重音核位置。比如一个长度为5个音节的短语，原本重音核在第3个音节（3型），可能被改成第1个（1型）或第0个（平板型）。
用改了重音的标注来合成语音，就得到了"已知错误"的训练样本。

每个样本还会得到一个"重音质量分"，计算公式为 Saq = 5.0 - 4.0 × Ncorr/N，其中N是总音节数，Ncorr是被篡改了重音的短语中的音节数。错误越多，分数越低。

研究者设置了三个严重程度等级：

无错误（r=0）：重音完全正确
低严重度（r在0.1-0.2之间）：只有少量重音错误
高严重度（r在0.8-0.9之间）：大部分重音都错了

最终，训练集包含了超过213万条语音样本，总时长接近2900小时——规模相当可观。

第二步：用"耳朵"听出关键特征（自监督特征提取）

老师批改朗读作业时，不是拿着声学仪器分析，而是用耳朵听。PASQA的"耳朵"就是wav2vec 2.0——一个在海量无标注语音数据上预训练过的自监督模型。

wav2vec 2.0可以类比为一个见过无数语音样本的"资深听力专家"。它虽然不知道什么是日语重音，但在预训练过程中已经学会了如何从原始音频波形中提取丰富的声学和韵律特征。这些特征以帧级（frame-level）的形式输出，每一帧大约10毫秒的语音对应一个特征向量。

为什么wav2vec 2.0比传统的WORLD声学参数好？WORLD参数是手工设计的，主要包含基频（f0）、梅尔倒谱系数、非周期性参数等——总共27维。这就像一个只有27个评价维度的评分表。而wav2vec 2.0的特征维度高达768或1024，且是在数据驱动下学到的，能捕捉到人耳能感知但手工参数难以描述的细微差异。实验中，使用WORLD特征的模型排序准确率只有34%，而wav2vec 2.0达到74%，差距一倍以上。

第三步：把"课文内容"也纳入考量（音节条件融合）

一个纯粹的"听力评分"还不够。老师在听朗读时，如果手里有课文原稿，就能更准确地判断学生读得对不对。PASQA的做法类似：它把文本转化成的音节序列（mora sequence）作为辅助输入。

日语的音节（mora）是韵律的基本单位。比如"東京"（Tokyo）在日语中是4个音节：トーキョー（to-o-kyo-o）。重音核的位置就在音节层面上定义。PASQA将音节序列进行标记化（tokenization），嵌入到256维向量空间中，然后用一个单层Transformer编码器进行上下文化处理（包含旋转位置编码、4头注意力、前馈维度512）。

关键的技术细节是"交叉注意力融合"（cross-attention fusion）。音节级别的特征不是简单地拼接到声学特征上，而是通过交叉注意力机制动态地与声学帧对齐。这让模型能够"对照课文"来判断每个音节位置的音高模式是否正确。注意力维度256、4头、dropout 0.1。

第四步：学习"相对好坏"而不是"绝对分数"（排序损失）

传统的语音质量模型用L1损失（即预测分数与目标分数的绝对差值）来训练。但重音正确性的评估本质上是一个序数问题——我们更关心"这段语音的重音比那段好还是差"，而不是"它到底是3.7分还是3.8分"。

PASQA引入了Bradley-Terry排序损失，这是一种来自心理测量学的经典方法。核心思想是：对于一个batch中的B条语音，计算所有满足yi>yj的配对（共B(B-1)/2对），然后最大化配对排序正确的概率。公式为 P(i>j) = σ(ŷi - ŷj)，其中σ是sigmoid函数。损失函数取对数概率的负值。

这就像考试不是打绝对分，而是让学生两两PK——你不需要知道A考了多少分，只需要知道A比B好就行了。在batch size为16的情况下，每一步训练会比较120对语音的相对质量。

消融实验表明，去掉排序损失后，排序准确率从75.4%降到72.3%——虽然不算巨大，但在已有其他组件的情况下仍是一个有意义的提升。

第五步：找出错误出在哪里（帧级错误定位辅助任务）

只给一句话打一个总分是不够的。如果模型能指出"错误出在第3到第5个音节"，那么它的评分能力本身也会提升。这就是帧级错误定位辅助任务的作用。

PASQA增加了一个辅助二分类头，对每一帧预测它是否属于一个被篡改了重音的短语（0或1）。这个标签是通过TTS模型的音素级时长预测器将音节级标注对齐到帧级得到的。辅助任务使用二元交叉熵损失训练，权重为0.2。

这个设计的精妙之处在于：虽然最终我们只需要一句话的整体重音质量分，但让模型在训练时"练习定位错误"，会促使它学到更精细的重音相关特征表示，从而提升整体评分的准确性。这就像老师在批改时，不只是打个总分，而是要圈出具体哪个词读错了——这个"圈错"的过程本身就会让老师对整体质量的判断更准确。

消融实验显示，去掉帧级错误头后，排序准确率从75.4%降到72.1%，SRCC从0.711降到0.658——影响相当显著。

第六步：忘记"这是谁在读"（说话人不变训练）

最后一个挑战是说话人干扰。在训练数据中，13个说话人的音色、语速、基频范围各不相同。如果模型不小心学到了"这个人的声音好听=质量高"，那它的评估就会有偏差。

PASQA用梯度反转层（Gradient Reversal Layer, GRL）来解决这个问题。GRL的原理就像在训练过程中故意"唱反调"：在前向传播时，一个说话人分类器试图判断"这段语音是谁说的"，训练它的分类准确率；但在反向传播时，GRL把梯度符号取反，让主模型学到的表示反而要"骗过"这个分类器。最终，主模型学到的表示中会尽量消除说话人身份信息，只保留与内容和重音相关的信息。

更精妙的是，PASQA采用了"调度GRL"（scheduled GRL），反转强度随训练进度动态变化：ρ(p) = 4/(1+exp(-γp)) - 3，其中p是归一化训练进度，γ=10。训练初期反转很弱（让模型先把基础特征学好），后期逐渐增强（再逐步去除说话人信息）。

这是影响最大的单一组件——去掉GRL后，已见说话人的排序准确率从75.4%暴跌到66.2%。

损失函数总览

PASQA的总损失函数为四个损失的加权和：

L = 1.5 × L_BT + 0.5 × L_L1 + 0.2 × L_frame + 0.1 × L_spk

其中L_BT是Bradley-Terry排序损失，L_L1是传统的L1回归损失，L_frame是帧级错误定位损失，L_spk是说话人分类损失（经GRL反转）。排序损失权重最大（1.5），体现了"相对排序比绝对分数更重要"的设计哲学。

实验结果分析

客观评估

在包含已见和未见说话人的重音错误数据集上，PASQA的表现全面超越所有基线：

已见说话人：排序准确率75.4%，LCC 0.829，SRCC 0.711，KTAU 0.524 未见说话人：排序准确率78.5%，LCC 0.879，SRCC 0.751，KTAU 0.559

未见说话人上的表现反而更好，这可能是因为已见说话人中存在一些模型已经"记住"的特定模式，而未见说话人迫使模型依赖更通用的重音判断能力。

与最强基线ACC-SSL-MOS（没有PASQA四大增强策略的纯SSL-MOS）相比，PASQA在未见说话人上的SRCC提升了3.7个百分点（从0.724到0.751），KTAU提升了2.9个百分点。

传统MOS模型的表现令人失望：DNSMOS P.835的排序准确率仅0.200（已见）和0.121（未见），相关系数基本为零或负数。NISQA稍微好一点但也不显著。这些模型确实是"看不见"重音错误。

主观评估

15名日语母语者参与的听测实验提供了最直接的证据。在120条语音样本上，人类听众的排序准确率达到92.5%，说明重音错误对母语者来说是非常明显的信号。

PASQA与人类判断的对齐：

SRCC = 0.828（远高于ACC-SSL-MOS的0.764和所有其他基线）
KTAU = 0.614（远高于ACC-SSL-MOS的0.541）
LCC = 0.814

传统MOS模型在这个测试中继续"翻车"：UTMOSv2甚至出现了负相关（SRCC = -0.171），DNSMOS P.835的相关系数接近零。UTMOS的SRCC仅为-0.012。

不过需要注意，PASQA的MSE（1.293）略高于一些传统模型。这是因为PASQA用的是伪重音质量分训练的，预测分数的动态范围可能与人类评分的尺度不完全匹配。但研究者指出，这项工作的主要目标不是绝对分数校准，而是准确的严重程度排序——在这个目标上PASQA表现优异。

域外评估

用GPT-4o-mini-TTS生成的域外测试是一个很有说服力的验证。研究者让GPT-4o-mini-TTS分别用字输入和音节序列输入来合成日语语音，初步听测发现字输入的重音质量更好。然后让模型判断哪种输入的重音质量更高。

配对准确率：

PASQA：78%（p < 0.001，统计显著）
ACC-SSL-MOS：72%（p = 0.001，统计显著）
NISQA：62%（p = 0.060，不显著）
其他传统模型：均不显著，有些甚至低于随机水平

这表明PASQA不仅能评估训练时见过的TTS系统，还能泛化到完全不同的TTS架构——这在实际应用中非常重要。

与现有工作对比

PASQA与现有的语音质量评估方法有本质区别，但也有所继承：

继承关系：PASQA的骨架来自SSL-MOS框架——用wav2vec 2.0提取特征，再接一个投影头输出分数。SSL-MOS是一个已经被验证有效的非侵入式（non-intrusive）语音质量评估范式。

与传统MOS模型的区别：DNSMOS、NISQA、UTMOS等模型目标是预测"整体自然度MOS"，对所有类型的语音失真一视同仁。PASQA则是专门为重音正确性设计的——它关心的不是"这段话听起来流不流畅"，而是"重音放对了没有"。这是一种全新的评估维度。

与细粒度评估工作的区别：也有一些研究尝试做帧级或词级的语音质量预测，但它们关注的是信号层面的失真（如噪声、混响、编码伪影），而不是语言学层面的重音正确性。PASQA是第一个明确将"重音正确性"作为评估目标的工作。

与重音/韵律相关工作的区别：此前已有一些研究探索了重音检测和韵律分析，但它们是独立的任务，没有与语音质量评估结合。PASQA将重音评估整合到质量评估框架中，既有重音质量的打分能力，又包含帧级的错误定位能力。

方法论上的创新：四个增强策略的组合是PASQA的独特贡献。音节条件融合将语言学知识引入模型，排序损失改变了学习目标的优化方式，帧级错误头提供了更细粒度的监督信号，GRL解决了说话人偏倚问题。消融实验表明，这四个组件缺一不可。

潜在应用与影响

PASQA的影响远不止于日语语音评估：

TTS系统开发：最直接的应用场景。TTS开发者在迭代模型时，除了看MOS分，还可以用PASQA来单独监控重音控制的质量。这对于日语、中文等声调语言的TTS系统尤为重要。

多语言扩展：虽然PASQA目前只在日语上验证，但其方法框架是通用的。中文有声调（四声），韩语有声调重音，越南语有六个声调——任何声调语言都可以用类似的思路构建重音/声调质量评估模型。论文作者也将"多语言扩展"列为未来工作方向。

TTS模型选择和路由：在实际部署中，可能有多个TTS模型可选。PASQA可以作为一个额外的维度来帮助选择——不只看哪个模型听起来最自然，还要看哪个模型的重音最准确。

语音数据质量控制：大规模语音数据采集和标注中，PASQA可以自动筛查重音标注有问题的样本，降低人工审核成本。

交互式语音系统：对于智能客服、语音助手等需要与用户交互的系统，重音错误可能导致严重的沟通障碍。PASQA可以作为实时监控工具，在重音出错时触发纠正或切换模型。

推动评估标准的进化：PASQA的研究表明，"语音质量"不是单一维度的概念。不同层面的质量（信号清晰度、自然度、重音正确性、情感表达等）可能需要不同的评估工具。这项工作有望推动整个领域发展多维度、细粒度的评估体系。

局限性与未来方向

PASQA目前存在几个明显的局限：

语言单一性：目前只在日语上验证。日语的重音系统（音高重音）与汉语的声调系统、英语的重音系统在性质上有很大差异。直接迁移到其他语言可能需要重新设计数据集构建流程和模型架构。

依赖可控TTS系统：重音错误数据集的构建依赖于一个支持重音控制的TTS系统（NANSY-TTS）。如果要应用到其他语言，首先需要找到或训练一个具有类似可控性的TTS模型——这本身就是一个不小的工程挑战。

伪标签的局限：训练用的"重音质量分"是通过公式从错误率计算出来的伪标签，而不是人类标注的。这导致模型预测分数的绝对值与人类MOS评分存在尺度不匹配的问题（体现在较高的MSE上）。

域外泛化仍有提升空间：虽然PASQA在GPT-4o-mini-TTS上的域外评估表现不错（78%配对准确率），但与人类的98.4%相比还有很大差距。面对更极端的域外场景（如完全不同语种、极低质量合成等），模型的鲁棒性还需要进一步验证。

评估范围有限：PASQA只关注重音正确性，不处理其他类型的韵律问题（如语调模式、停顿位置、语速变化等）。一个完整的语音韵律质量评估系统应该覆盖更多维度。

论文作者提出的未来方向包括：改善域外场景的鲁棒性，以及将框架扩展到多语言设置。除此之外，以下方向也值得关注：与现有MOS模型的联合训练或集成，使得一个统一框架能同时评估自然度和重音正确性；探索用大语言模型（LLM）来生成更丰富、更有解释性的质量评估报告，而不只是一个分数。

总结

PASQA这项工作解决了一个被长期忽视但实际影响重大的问题：现有语音质量评估模型对重音错误的"失明"。通过精巧的可控TTS数据构建和四大模型增强策略，PASQA展示了自监督表示在捕捉韵律细节方面的巨大潜力，以及针对特定评估目标定制模型架构的重要性。

从更宏观的视角看，PASQA代表了语音质量评估从"一刀切"走向"精细化"的趋势。随着TTS技术越来越成熟，评估的颗粒度和维度也必须跟上。重音正确性只是第一步——未来我们可能还需要专门评估情感表达准确性、语体得体性、多说话人场景下的一致性等多个维度的工具。

对于从事中文TTS系统开发的研究者和工程师来说，这项工作的启发尤为直接：中文是一个声调语言，声调错误对语义的影响可能比日语更大（想想"妈麻马骂"四个字）。如何将PASQA的思路迁移到中文声调质量评估，是一个非常有价值的后续课题。