非劣效临床试验的总结与思考

admin · 发表于 2020-9-29 09:20:53

非劣效临床试验的总结与思考

来源

中国新药杂志 2020年第29卷第13 期

作者

李新旭，周军，高丽丽，王骏国家药品监督管理局药品审评中心

摘要

本文对非劣效临床试验进行了系统总结，讨论了非劣效临床试验的兴起与发展、主要特征、设计要点、非劣效界值、技术挑战、非劣效与优效检验的相互转换等关键内容，希望能够促进对非劣效临床试验的深入理解，为高质量地设计、实施、分析、解释和报告非劣效临床试验提供借鉴。

关键词

非劣效试验；恒定假设；检定灵敏度；非劣效界值；生物爬行现象

正文

自从２０世纪８０年代开始出现非劣效设计并应用于临床试验以来，非劣效临床试验（non-inferiorrity clinical trial，以下简称非劣效试验）已成为评价药物、生物制品、医疗器械等的主要方法［１－２］。近２０年来，非劣效试验增加了数十倍［３－４］，对其重要性的认识也稳步提高［５］。但是，与优效试验相比，非劣效试验设计复杂，是建立在难以验证的假设之上的，因此其概念、统计方法和试验结论很难被完全理解，以致于在非劣效试验的设计、实施和报告中存在较多不规范的问题［６－９］。为此，我们对非劣效试验进行了系统总结，并结合药物注册申报的专业审评工作经验，讨论了非劣效试验的兴起与发展、主要特征、设计要点、非劣效界值（non-inferiority margin）、技术挑战、非劣效与优效检验的相互转换等关键内容；希望通过我们的总结与思考，能够促进药物临床试验各相关方进一步深入理解非劣效试验，为其高质量地设计、实施、分析、解释和报告非劣效试验提供借鉴。

1

非劣效试验的兴起与发展

通常当开展药物临床试验时，理想的选择是优效试验，即研究者期望新药的疗效能够优于标准治疗药。然而，随着药物疗效的不断改善，期待更加优效的药物变得越来越难以实现。因此，研究者的注意力转向了标准治疗药其他方面的改善，如不良反应更少、使用更加方便灵活、价格更便宜等，同时期望能够在某种程度上维持药物疗效［１０］。为此，等效或非劣效试验成为药物临床试验的方法选择。等效试验的目的是试图证明２种药物在疗效上大致相似。但在临床实践中更关心的是，在其他方面改善的情况下，新药的疗效是否不比标准治疗药更差，甚至是否比它更好，而并不关心２种药物疗效是否大致相似［１１］。因此，非劣效试验逐渐成为药物临床试验的主要方法之一。由于优效试验的原假设是２种药物之间的疗效没有差异，因此曾出现过认识上的误区，即不拒绝优效试验的原假设就认为是非劣效［１２］。实际上，优效试验无法拒绝原假设的可能原因是缺乏检验效能（样本量少）而未能发现差异，而并非无差异，因此非劣效不能建立在优效试验未能发现显著性差异（原假设）的基础上［４］。另一个认识上的误区是，药物临床试验申办方出于降低研究成本的目的，为了使样本量最小化而进行非劣效试验［１１］。事实上，样本量大小与所比较的两组之间的疗效差异大小有关，差异越小样本量越大，差异越大样本量越小。当预计疗效差异小时，一般会选择非劣效设计，当预计疗效差异大时，一般会选择优效设计，因此非劣效试验所需样本量通常要大于优效试验［１１］。含有安慰剂对照、阳性对照药和试验药的三臂非劣效试验可用于评估检定灵敏度（assay senasitivity）［１３］。出于伦理方面的考虑，当有标准治疗药时，使用安慰剂作为对照被认为是不道德的［２］。因此，通常采用不含安慰剂对照的两臂非劣效试验来证明新药并不比标准治疗药更差。即使没有安慰剂对照，两臂非劣效试验也是建立在新药优效于安慰剂的潜在假设之上［４］。如无特别说明，本文中所讨论的非劣效试验均指不含安慰剂对照的两臂非劣效试验。随着非劣效试验的应用越来越广泛［１－４］，其设计、实施和报告中存在的较多不规范问题逐渐凸显出来。例如，在肿瘤治疗领域的非劣效试验存在严重的方法学和伦理问题，多选择较大的非劣效界值，少部分试验未明确说明选择非劣效设计的目的［６］；既往文献分析显示，非劣性界值并不是经常基于阳性对照的历史数据来确定的，多数文献未能较好地报告非劣效试验的随机化方法、盲法、样本量、分析人群（analysis popupion）、试验结果及其置信区间等，甚至少部分试验所报告的结论有些是错误的或不可理解的［７－８］；非劣效试验的设计和解释存在明显的系统偏倚，可导致产生有利的试验结论［９］。为了提高非劣效试验设计、实施和报告的质量，ＩＣＨ的临床试验中对照组选择和相关问题指南（ICH E10）在 2000 年提出了确定检定灵敏度和选择适当的非劣效界值的建议［１４］，欧洲ＥＭＡ和美国ＦＤＡ分别在 2005 年和 2010 年发布了非劣效试验指南［１５－１６］，试验报告综合标准（CONSORT）小组在 2010 年对非劣效试验的报告标准提出了建议［１７］。内容由凡默谷小编查阅文献选取，排版与编辑为原创。如转载，请尊重劳动成果，注明来源于凡默谷公众号。

2

非劣效试验的主要特征

２．１　符合伦理要求　通常采用非劣效试验的原因是为了符合伦理要求。ICH E10 指出，如果已知可用的治疗可以预防研究人群的死亡或不可逆转的发病等严重危害，则通常不宜使用安慰剂对照［１４］。因此，当标准治疗药能为试验所研究的疾病提供重要获益（如挽救生命或预防不可逆转的损害）时，使用安慰剂对照、无治疗对照或极低剂量的阳性对照药均不符合伦理要求［１８］。出于同样的原因，试验药失去阳性对照药的大部分疗效通常是不可接受的，因此在非劣效试验中通常选择非劣效界值来反映临床上可接受的最大疗效损失［１８］。２．２　提供潜在获益　即使在对照选择上符合伦理要求，如果允许试验药损失临床上可接受的最大疗效却不要求提供其他方面的潜在获益时，使用非劣效试验仍然是不道德的。与阳性对照药相比，其他方面的潜在获益包括剂量更低、疗程更短、价格更便宜、使用更方便、创伤（毒性）更小、不良反应更少、依从性更好等。只有试验药能够提供一项或多项其他方面的潜在获益，使用非劣效试验才是有意义的［１，１０，１９－２６］。２．３　建立恒定假设　恒定假设（constancy assumption）是非劣效试验的统计推断所需的一个关键假设，要求在当前非劣效试验中阳性对照药的疗效要与其历史安慰剂对照试验中观察到的疗效保持一致。这意味着，当前非劣效试验和历史安慰剂对照试验应该在所有重要方面尽可能接近一致，如患病群体的特征、重要的伴随治疗、研究终点的定义和确定、阳性对照药的剂量、入选标准、分析方法等［１８］。如果有充分的理由质疑恒定假设，并且无法排除违反该假设的偏倚，最好采用优效试验而不是非劣效试验［２７］。２．４　具有检定灵敏度　非劣效试验的检定灵敏度是指检测阳性对照药与安慰剂的疗效差异是否达到指定幅度以区分试验药为有效、低效或无效治疗的能力［１４，１８］。在无安慰剂对照的情况下，评估非劣效试验的检定灵敏度依赖于外部信息（历史数据）和恒定假设［１８］。此外，试验质量不佳也可以降低检定灵敏度，如药物依从性差、治疗效果差、使用试验方案之外的药物或治疗、纳入的研究人群不合适、诊断标准应用不当以及对研究终点进行有偏倚的评估［１４，１８］。如果在非劣效试验中发现阳性对照药没有预期疗效，那么即使获得试验药非劣效于阳性对照药的结论，也不能认为试验药是有效的［１８］。

3

非劣效试验的设计要点

３．１　研究假设　由于非劣效试验中未设安慰剂对照，因此需要假设阳性对照药具有相对于安慰剂的预期疗效，即通过设定非劣效界值以确保试验具有检定灵敏度。非劣效试验的目的是通过非劣效界值（Δ）表明在具有检定灵敏度的前提下试验药（Ｔ）的疗效并不比阳性对照药（Ｃ）的疗效低［１８］。表１列出了在不同指标类型下非劣效试验的原假设（Ｈ０）和备择假设（Ｈ1）［１８，２８－３０］。

３．２　阳性对照药　
除了被广泛使用之外，作为合适的阳性对照药还需要具备２个条件：首先，该药针对相关适应证中的有效性在高质量的优效试验中得到了定量化验证。其次，该药能够可靠地预期在将要实施的试验中显示出相似的有效性［３１］。为了证明在非劣效试验中选择的阳性对照药具有合理性，必须阐明阳性对照药与安慰剂的有效性、其在特定人群和疾病研究阶段的益处、其结果测量的方法和时机等问题［３２］。通常建议选择当前标准治疗药或者最佳治疗药作为阳性对照药［４，１０，３３－３４］。如果现有的阳性对照药的总体疗效证据不能完全令人信服，那么将其用于评价其他新药的疗效具有巨大的风险［３５］，其中最令人关注的风险是生物爬行现象（Bio-creep)［３３－３４］。生物爬行现象是指当连续批准使用非劣效试验作为药物注册申报的试验时，上一代非劣效试验的试验药获批后会被作为下一代非劣效试验的阳性对照药，经过数代试验，阳性对照药的疗效可能会逐渐递减直至不再优于安慰剂，最终导致无效甚至有害的试验药经过非劣效试验而获批［１１，３３－３４，３６－３９］。３．３　研究终点　研究终点选择关系到非劣效试验的质量。选择研究试验终点时应考虑以下几个方面：① 应该能够在阳性对照药与安慰剂比较的既往非劣效试验中找到该研究终点的历史数据，以便可以选择合理的非劣效界值［４，３２］。② 该研究终点应该易于被测量，其数据能够被准确和完整地收集，较少出现缺失，因为研究终点数据缺失可能使试验倾向于得出非劣效结论［４，４０］。③ 应该避免选择测量方法主观性较强的研究终点，如采用量表或评分，因为对所有受试者进行相似评价即可使试验倾向于得出非劣效结论，盲法无法控制此偏倚［３２，４１－４２］。④ 应该避免选择具有不可调和的利益和风险组分的复合终点作为研究终点，例如包含安全性和有效性评价指标的复合终点［４，２１］。３．４　度量类型　非劣效试验的统计分析方法和非劣效界值的度量类型（measurement type）分为绝对度量和相对度量。绝对度量包括均值差、率差、风险差等，相对度量包括率比、风险比、优势比等［４，２９，３７］。由于绝对度量和相对度量的选择会影响试验的检验效能和有效性评价，所以在试验设计阶段必须仔细考虑这种选择［４］。研究显示，在估计阳性对照药相对安慰剂的疗效差异时，合并多个试验的绝对度量值比合并相对度量值更易于显示出较大的异质性［４３］；当把风险比作为有效性的评价方法时，试验得出非劣效结论的概率会随着阳性对照组中潜在风险的增加而增加［４４］，但当比例风险假设不成立时，在非劣效试验中使用风险比评价有效性存在局限性［４５］；当阳性对照组的事件率不可预测或低于预期时，可考虑使用相对度量，能够提供更保守的非劣效界值，当阳性对照组的事件率较高时，可考虑使用绝对度量［２１，２５］。如果基于绝对度量和相对度量的分析结果一致，那么对非劣效的判断会更有说服力［２１］。３．５　样本量　与非劣效试验的样本量估算有关的关键参数一般包括检验水准（α）、检验效能（１⁃β）、预期疗效变异（σ）和非劣效界值（Δ）［１８，３１］。通常检验水准设在双侧５％（或单侧２．５％）及以下，检验效能设在８０％及以上，预期疗效变异基于公开发表数据或早期试验结果进行估计［３１］。除此之外，对样本量估算产生显著影响的参数是非劣效界值。非劣效界值越小，所需样本量越大。原则上，在确定非劣效界值时不应该事先考虑样本量大小，即临床上可接受的最大疗效损失不会因为试验规模大小而发生变化［１５］。如果阳性对照药的疗效小到仅略微区别于安慰剂，或者疗效不确定，则会设定很小的非劣效界值或者设定困难，会导致估算的样本量大到完全不可行，这时可考虑采用 ICH E10 推荐的替代设计，如加载研究、补救治疗、随机撤药等［１４，１８］，不能因为期望开展规模较小的试验而有意识地选择较宽的非劣效界值［１５］。由于预期疗效变异如事件发生率等的假设存在不确定性，因此在试验设计时难以准确估算样本量。为此，可考虑规划期中分析（interim analysis）以前瞻性地重新评估样本量［１８］。例如，对于事件驱动性的非劣效试验，如果试验中事件发生率低于预期，则证明非劣效的检验效能将会降低，则需要通过期中分析调整样本量［１８］。３．６　分析人群　意向性治疗（ＩＴＴ）原则是指基于受试者的治疗意向（即计划的治疗方案）而不是实际给予的治疗进行评价的原则，遵循该原则需要对所有随机化受试者完成随访以获得研究结局，但在实践中很难达到这一理想状态；因此，只能获得尽可能接近符合意向性治疗原则的理想受试者集，即从所有随机化的受试者中以最少的和合理的方法排除违背入选标准、未服用任何试验药以及缺乏随机化后任何数据的受试者后得到的数据集，称之为全分析集（ＦＡＳ）；符合方案集（ＰＰＳ）是指由全分析集中对方案的依从性较好的受试者子集所产生的数据集，依从性是指暴露于处理、可获得测量值以及无重大方案违背等［３１］。对于非劣效试验，如果ＩＴＴ／ＦＡＳ人群中出现大量失访、退出、替代治疗或组间交叉等试验质量问题时，试验药不会比阳性对照药显示出更好的疗效，可能会缩小组间疗效差异，从而得出非劣效的假阳性结论［４，１０－１１，２３，２５，３４，４０，４１，４６］。因此，ＩＴＴ／ＦＡＳ人群不是非劣效试验的最佳分析人群［１１，３４］。由于ＰＰＳ人群排除了不符合入选标准、未被随机化以及违背方案等的受试者，减少了脱落和不依从对试验结果解释的潜在影响，所以该人群在某种程度上被认为是非劣效试验的优选或替代分析人群［４，３４，３７，４７］。但是，ＰＰＳ人群在非劣效试验中的预期保守作用尚未探索清楚［２５，３４］，受试者数量减少、基线特征不平衡等因素也可能会引入偏倚［４，２３，２５，３４，４０］。为此，形成的共识对ＩＴＴ／ＦＡＳ人群和ＰＰＳ人群是同等重要的，应同时进行分析，只有２个分析结果均得出非劣效结论，才认为试验的非劣效结论成立［４，１０－１１，２３，２５－２６，３４，３７，４０－４１，４６－４７］。当２个分析结果不一致，表明偏倚已经被引入到试验中，因此需要进一步的分析和解释［４６］。３．７　期中分析／监测［４８］ 　除了样本量再评估之外，在非劣效试验中进行期中分析／监测（interim analysis/monitoring）的主要目的应该是减少受试者对劣效治疗的暴露。当试验药的疗效劣于阳性对照药时，适当的期中分析／监测可以及早发现并停止试验；反之，当试验药的疗效显著优于阳性对照药时，通过期中分析／监测发现后也应尽早停止试验。期中分析／监测应纳入试验设计中，制定正式计划，并作为数据监查委员会的审议指南。在理论上，通过预设的期中分析／监测发现试验结果的非劣效结论成立，可以提早停止试验并得出结论，但通常不推荐这种期中分析／监测计划，因为考虑到确定非劣效界值会有某种程度的主观性，只有通过完整的试验获得更加充分的信息（以及较窄的置信区间）才能较为准确地评价试验药疗效。

4

非劣效界值的确定方法

确定非劣效界值是非劣效试验中至关重要但又最具挑战性的环节之一。研究表明，在既往试验中由于规则不明确，确定非劣效界值并不经常基于阳性对照药的历史数据，更可能是来自临床上的主观判断，所选界值过于宽松，因此在统计学上被认为其选择过于自由［７，４９－５１］。对此， ICH E10 指出，非劣效界值的确定应当基于统计推断和临床判断［１４］。但是，目前却更倾向于通过统计推断来确定非劣效界值，从而使临床判断处于从属位置［３７］，这种现象值得关注。非劣效界值是指试验药与阳性对照药相比在临床上可接受的最大疗效损失，不应大于阳性对照药相对于安慰剂的临床获益，以确保非劣效试验具有足够的检定灵敏度［１８］。近年来，经常用于确定非劣效界值的方法包括点估计法（point estimate method）、固定界值法（fixed margin method）、综合法（synthesis method）和德尔菲法（ Delphic method）等［２５，３６，４３］。美国ＦＤＡ推荐使用固定界值法和综合法，主要基于阳性对照药与安慰剂、试验药与阳性对照药、可接受的最大疗效损失比例之间的相互关系［１８］。有学者认为，在药物研发进展迅速以及治疗把握度不断增加的情况下，仅根据阳性对照药相对于安慰剂的疗效基础来选择非劣效界值是不够的，建议基于“最佳”和“次佳”阳性对照药之间的疗效差异选择非劣效界值［５２］。４．１　固定界值法　固定界值法始于估算阳性对照药相对于安慰剂的疗效差异（Ｍ1）。Ｍ1的估算主要依赖于阳性对照药的历史安慰剂对照试验，通常使用Meta分析方法，选择随机效应模型分析异质性［１８］。但有学者指出，随机效应模型的假设对小样本试验赋予了不适当的权重，因此Ｍ1的估算易受与其他大样本试验结果完全不同的小样本试验的影响［３６］。通常选择Meta 分析估算出的阳性对照药相对于安慰剂的疗效差异的双侧９５％（或单侧９７.５％）置信区间的上限或下限作为Ｍ1（疗效评价指标为高优时选下限，低优时选上限）。美国ＦＤＡ建议，如果恒定假设存在不确定性，可采用“折扣”策略（如减半）确定Ｍ1，即将Meta分析估算出的Ｍ1通过一定幅度的“折扣”转换为更加保守的Ｍ1；这种“折扣”的概念着重于确定Ｍ1，明显不同于在临床判断上可接受的最大疗效损失（Ｍ２）［１８］。Ｍ1 的估算归属于统计推断的范畴［４３］。Ｍ２的确定需要基于临床判断，即选择临床上可接受的Ｍ1 的最大损失，其损失比例为ｒ［４３］。例如选择ｒ＝０．５，即临床上最多可接受Ｍ1 损失５０％作为Ｍ２［１８，２２］。若Ｍ1为绝对度量，则Ｍ２＝－ｒＭ1，若Ｍ1为相对度量，则Ｍ２＝ｅｒｌｎ（１／Ｍ1）。对ｒ的选择有影响的因素可能包括研究终点的严重性（例如不可逆的发病率或死亡率）、阳性对照药的疗效、风险获益曲线、阳性对照药的成本、阳性对照的疗效是否随时间减少等［４３］。当阳性对照药与安慰剂的疗效差异很大时，如疫苗，对ｒ的选择应该需要更加严格［３６，５３］；当研究终点测量为不可逆的发病率或死亡率时，对ｒ的选择应基于伦理慎重考虑［３７］；当试验药显示出其他方面的明显优势时，如不良事件发生率低、用药依从性好、价格便宜等，对ｒ的选择可以适当放宽［３６－３７］。Ｍ２即为非劣效界值。在检验水准为双侧５％（或单侧２．５％）的情况下，当疗效评价指标为高优时，双侧９５％（或单侧９７．５％）置信区间的下限大于非劣效界值，即认为试验的非劣效结论成立；当疗效评价指标为低优时，双侧９５％（或单侧９７．５％）置信区间的上限小于非劣效界值，即认为试验的非劣效结论成立［１５，１８］。虽然从假设检验的角度拒绝原假设则允许得出非劣效结论，但在临床上更关心的是试验药相对于阳性对照药的疗效差异程度，即置信区间与非劣效界值的相对位置及其对应的统计结论。图１显示了５种潜在的试验结果［４，３６］。结果Ａ表明试验药不仅显示出了非劣效，而且显示出了优效（从优效试验的角度）；结果Ｂ表明试验药显示出了非劣效；结果Ｃ表明试验药虽然显示出了非劣效，但也显示出了劣效（从优效试验的角度）；结果Ｄ表明试验药显示出了劣效；结果Ｅ表明试验的检验效能不足，具有不确定性。

４．２　综合法　
综合法不要求指定特定的界值（Ｍ1和Ｍ２），通常通过确定一个检验统计量来显示试验药是否保留了阳性对照药疗效的一部分［２６，３６，４３］。该检验统计量基于疗效估计和标准误差的组合，即比较阳性对照药的历史安慰剂对照试验和当前试验药的阳性对照非劣效试验之间的疗效估计和标准误差［２６，３６］。利用历史试验（阳性对照药Cｈ与安慰剂Ｐ比较）和当前非劣效试验（试验药Ｔ与阳性对照药Cn比较）的数据来源的变异性（Cｈ相对于Ｐ的疗效估计及其标准误差ＳＥ，Ｔ相对于Cn的疗效估计及其ＳＥ），并根据预先确定的Cｈ相对于Ｐ的疗效差异的可损失比例ｒ，构建用于检验非劣效假设的统计量Ｚ如下［１８］：对于绝对度量的疗效评价，

综合法作为固定界值法的替代方法，也考虑了阳性对照药相对于安慰剂的疗效差异的变异性［４］。需要选择Ｍｅｔａ分析估算出的阳性对照药相对于安慰剂的疗效差异的点估计值及其双侧９５％（或单侧９７．５％）置信区间，推算出ＳＥ。
当疗效评价指标为高优时，统计量Ｚ大于Ｚ１－α２（α ＝５％时，Ｚ１－ α２＝１．９６），则认为试验药非劣效于阳性对照药；当疗效评价指标为低优时，统计量Ｚ小于－Ｚ１－ α２（α ＝５％时，Ｚ１－ α２＝１．９６），则认为试验药非劣效于阳性对照药［１８］。只要恒定假设成立，使用综合法相对于使用固定界值法可以使研究设计更加有效率（例如，可以减少样本量或在给定样本量上获得更大的检验效能）；综合法在开展非劣效试验之前不能根据Ｍ1 通过临床判断选择Ｍ２，但是需预先确定ｒ［１８］。
４．３　其他方法　非劣效界值的确定主要依赖于阳性对照药的历史数据［１８］。在实践中，历史数据可能存在缺失，如未报告置信区间［５４］，或者可能无可用的历史数据，如在抗感染治疗领域没有安慰剂对照研究［４］。为此，也采用过其他一些替代方法来确定非劣效界值。例如，可选择其他不太有效的药物代替安慰剂来确定阳性对照药的预期疗效，或者采用点估计法、德尔菲法等［４，２６，３６，４３］。在确证性临床试验中一般不推荐使用这些替代方法。点估计法与固定界值法的区别在于，点估计法选择阳性对照药相对于安慰剂的疗效差异的点估计值作为Ｍ1，而固定界值法选择选择Ｍｅｔａ分析估算出的双侧９５％（或单侧９７．５％）置信区间的上限或下限作为Ｍ１［４３］。德尔菲法需要临床医生或患者考虑愿意牺牲何种程度的阳性对照药的疗效（Ｍ1 ）来换取试验药提供的潜在获益［２６］。对于德尔菲法，Ｍ1可能存在于临床医生或患者的头脑、经验和判断中［３６］。使用德尔菲法时，应该严格按照该方法的要求收集信息并进行科学分析［５５］，以避免选择Ｍ1时的主观性和随意性。点估计法和德尔菲法的Ｍ２选择方法和统计推断方法与固定界值法相同。

5

非劣效试验的技术挑战

５．１　试验结果难以解释和理解　非劣效试验建立在难以验证的假设之上，导致研究者、临床医生、患者以及其他相关人员都可能对非劣效试验的概念、设计、统计方法等存在误解，难以解释和理解非劣效试验结果［１，２１，３６］，更难以判断非劣效试验之间的真实信息传递［１０，２５］。例如，优效试验结果具有传递性，如果药物Ｂ优效于药物Ａ，药物Ｃ优效于药物Ｂ，则药物Ｃ优效于药物Ａ；但非劣效试验结果不具有传递性，如果药物Ｂ非劣效于药物Ａ，药物Ｃ非劣效于药物Ｂ，则难以直接推导出药物Ｃ与药物Ａ之间的疗效关系。５．２　试验质量不佳会受到鼓励　当优效试验质量较差时，如有设计缺陷、方案违背、依从性差、数据缺失等，常常稀释了试验药与阳性对照药之间对真实疗效差异的敏感性，从而不能拒绝原假设［３６，５６］。但在非劣效试验中，试验质量差可能使得试验药与阳性对照药的研究结果趋向于一致，更容易表现出非劣效［４，１１，３６，５６－５７］。仅根据结果数据，实施良好且正确地证实非劣效的非劣效试验却无法与实施不佳而未能发现真实差异的非劣效试验进行区别［４１－４２］。这意味着非劣效试验质量不佳不仅未受到惩罚，反而可能会受到鼓励［３６，５７］。５．３　恒定假设通常难以成立　在实践中，恒定假设通常难以被证明是成立的。阳性对照药的历史试验并不总是安慰剂对照试验，也可能与标准治疗药或其他阳性对照药进行比较；或者历史试验的结果测量方法、阳性对照药剂量等不同于当前试验；或者历史试验中使用了与当前试验中阳性对照药同类的不同药物；或者历史试验与当前试验是在不同的国家开展的［３６，４１］。在历史试验和当前试验之间受试者特征也可能存在不同的分布［４，５６］。此外，材料研究、制造工艺、生物学以及医学（如诊断和治疗标准）等领域可能随着时间在不断发展进步，但这些因素是不可测量的［５４］。５．４　检定灵敏度无法得到证实　在安慰剂对照的优效试验中可以通过试验药优效于安慰剂来验证检定灵敏度［４，３６，４２］，因此ＥＭＡ建议尽可能在非劣效试验中包括安慰剂对照，以允许试验药和阳性对照药与安慰剂直接比较［１５］。但出于伦理考虑，大多数情况下，在非劣效试验中设置安慰剂对照是不可接受的［４，３６］。在没有安慰剂对照的情况下，非劣效试验的检定灵敏度无法被验证［４，２３，３６，４１－４２］，只能基于显示阳性对照药优效的历史数据、当前试验与历史试验的相似性（恒定假设）以及当前试验质量去假设具有检定灵敏度［１８］。５．５　生物爬行现象的风险很高　虽然药品监管机构批准的药物在特定条件下是安全有效的，但并不意味着使用该药物作为阳性对照药开展新药的非劣效试验能够提供可靠的依据［３５］。研究显示，在约６０％的非劣效试验中试验药相对于阳性对照药存在５０％以上的疗效降低的可能性［５８］。这意味着重复开展非劣效试验出现生物爬行现象的风险很高。除了阳性对照药疗效降低之外，试验药为降低剂量的阳性对照药（降低治疗强度）［５９］，阳性对照药相对于安慰剂的历史数据存在发表偏倚、统计显著性偏倚以及选择偏倚等［３３，５４］，违反恒定假设［３６－３８］，以及非劣效界值不够保守［３３，３９］，也可导致出现生物爬行现象。此外，生物体本身的进化也可能产生真正的生物爬行现象，例如人体对于长期使用的药物逐渐耐受，致病微生物对药典中抗感染药物产生耐药性等［３６］。５．６　选择大界值的诱惑很强烈　研究显示，药物临床试验申办方支持的非劣效试验中有９７％得出了有利的结论，确保试验成功的最简单方法是选择较大的非劣效界值［１９］。从成本角度来看，较大的非劣效界值意味着较小的试验规模以及较大的可能性得出非劣效结论，这对药物临床试验申办方来说利害攸关，具有强烈的诱惑力［２１－２２，３２，３９，５６］。因此，选择较大的非劣效界值通常不是基于研究人员的误解或判断差异，而是其明确地认识到可能的预期收益［５６］。开展非劣效试验可能是试图获取市场份额而非为了回答有意义的临床问题，所以会有意识地忽视对临床上可接受的疗效所造成的巨大损失［１９，３２］。

6

非劣效与优效检验的相互转换

在非劣效试验中，对于单一主要疗效指标，当试验结果显示出非劣效后可以进行优效检验，若也显示出优效，则可以允许同时声明非劣效和优效结论，在此过程中不需要消耗检验水准（α）［２１，２３，２５，２８，３６，４０－４２，６０］。有学者认为该过程需要事先计划［４０－４１］，也有学者认为无需事先计划［４２］，但更多的学者强调要按照顺序先检验非劣效再检验优效，即“封闭检验”［２１，２５，２８，３６，４０－４１］。在优效试验中，对于单一主要疗效指标，当试验结果未显示出优效后，是否可以进行非劣效检验，则要区分２种情况：① 事先计划了非劣效检验，制定了非劣效界值。这种情况下，可以先检验优效再检验非劣效，不需要进行统计学惩罚［２３，４１，６０］。② 事先未计划非劣效检验，事后再制定非劣效界值。这种情况下原则上不允许再进行非劣效检验［２１，２３，４１－４２，６１］。然而，ＥＭＡ认为，只要证明事后非劣效界值是合理的，则可以允许再进行非劣效检验，但事实上这难以证明，并且仅限于非劣效界值是被广泛接受的少数情况下［６０］。对于单一主要疗效指标，无论是在非劣效试验中进行优效检验，还是在优效试验中预设非劣效界值进行非劣效检验，在实践中都等同于在同一个试验中检验非劣效和优效，无需进行统计学惩罚［２５，４１－４２］，其原因是，可以将非劣效和优效检验视为对主要疗效指标的置信区间的解释，根据置信区间所处的不同位置得出不同的统计学结论［３６］。原则上，在非劣效与优效检验的相互转换过程中，无论是哪个检验，对ＩＴＴ／ＦＡＳ人群和ＰＰＳ人群的分析结果均应保持一致，若不一致则需要进一步的分析和解释。值得注意的是，当允许在同一个试验中对单一主要疗效指标进行非劣效和优效检验时，则存在试验药和阳性对照药之间疗效解释不对称的矛盾，即当试验药优效于阳性对照药时，阳性对照药却可以非劣效于试验药，或者反之［６２－６３］。这种不对称性来源于非劣效检验标准（即非劣效界值）与优效检验标准（即差异性检验）的混合［６２］。若要消除不对称性，则需要在优效检验中设定与非劣效界值对称的优效界值［６３］。

7

总结与思考

虽然非劣效试验在临床研究中应用越来越广泛，在识别具有临床价值的创新药方面发挥了重要作用，但应该认识到非劣效试验的结果不如优效试验可信，其面临的技术挑战隐藏着固有偏倚风险，如恒定假设、检定灵敏度、非劣效界值、试验质量等，可能会导致高估试验药的真实疗效。在开展非劣效试验时，必须通过合理应用、正确设计、良好实施、全面分析和充分解释等措施来控制其固有偏倚风险。当有证据显示非劣效试验的固有偏倚风险无法被有效控制时，应采用其他合适的试验设计。由于错误认为非劣效试验更容易得出有利结论而滥用该试验设计，将会极大危害公众健康利益。药品监管机构、药物临床试验申办方、伦理委员会、研究者、临床医生以及患者等各相关方应该谨慎看待非劣效试验的技术挑战，建立沟通机制，充分评估使用其解决研究问题的风险与获益。目前，非劣效试验的成功与否取决于主要疗效评价指标的分析结果，而未考虑其潜在获益的评价，如安全性、依从性、成本等。对此，药品监管机构和药物临床试验各相关方应该进一步讨论现行的非劣效试验评价标准的合理性，以确保非劣效试验能够全面评价药物的真正价值。

参考文献

详见中国新药杂志 2020年第29卷第13 期

非劣效临床试验的总结与思考

本帖子中包含更多资源