近年来,一些国际医学组织和权威医学期刊十分重视临床诊断试验评价的质量问题[1,2],我们采用整群典型抽样方法,对我国5种权威临床医学杂志90年代中期刊载的诊断试验评价论著质量进行了调查,现报告如下。

  一、材料与方法

  1.调查对象:1994年1月至1995年6月连续出版的共80本中华医学杂志中华内科杂志中华外科杂志中华妇产科杂志中华儿科杂志论著栏目刊载的诊断试验评价论著,凡符合以下条件者纳入本次调查:①标题中明确交待疾病诊断;②摘要或关键词中出现了敏感性、特异性等诊断试验评价指标。同时排除案例报告、诊断技术报告类论著。根据上述标准,由两位研究者用盲法逐期逐篇阅读,后确定58篇论著作为本次调查对象。

  2.调查内容:参照shepsSB[2]等人提出的诊断试验质量评价标准,结合我们教学和论文评阅中的体会,确定以下7个方面的调查内容:①金标准是否明确可靠。②阳性阴性判断标准(临界值)是否明确。③评价效度指标(敏感性、特异性等)及信度指标(kappa值、信度系数等)使用是否正确完整。④是否报告预测值(阳性预测值、阴性预测值等)。⑤是否使用盲法。⑥病例组样本代表性好坏?根据RansohoffDF和JowdenWJ提出的评价原则[1,3],凡有以下3条均满足者,代表性评定为较好:A所有病例均由金标准确定为有病;B样本包括不同病型(期)、不同年龄层次、不同性别的病人;C样本含量在30例以上。⑦对照组样本代表性好坏?根据RansohoffDF和JowdenWJ提出的评价原则[1,3],凡有以下4条均满足者,代表性评定为较好:A所有对象均由金标准确诊为无病;B样本包括临床症状体征或患病部位与病例组相近的其他疾病患者;C年龄、性别构成与病例组相近;D样本含量在30例以上。

  3.调查方法:随机抽取10篇论著,由2名研究者用盲法作预调查,结果仅病例组和对照组样本代表性两项目出现微小分歧,经共同探讨取得一致意见,剩下的48篇由研究者分别独立完成。

  二、结果

  1.金标准明确可靠的占84%,金标准未交待或交待不明占16%。在金标准明确可靠中59%篇是以活体组织检查、外科手术、特殊影像诊断或长期随访作为金标准的;25%篇是以临床医学专家共同制订的公认的综合诊断标准作为金标准的。

  2.阴性、阳性判断标准(临界值)交待明确的占83%,其中有21%篇论著虽然交待明确,但确定临界值的方法欠妥当。没有交待或交待不清的占17%。

  3.敏感性、特异性等效度评价指标使用不正确或不完整的占60%,其中28.6%篇论著因缺乏对照组仅报告了敏感性,34.3%篇论著为两种诊断方法的比较,应该用信度指标(kappa值等),却误用敏感性或特异性等效度指标,另外37.1%篇敏感性或特异性指标计算错误。

  4.报告了预测值的仅占16%;使用了盲法的占31%;病例组和对照组样本代表性较好的分别占43%和17%。

  三、缺陷实例分析

  1.《耳蜗电图在婴幼儿听力障碍诊断中的应用》(中华儿科杂志1995,33(2):96)选用小儿耳蜗电图(ECOCHG)和脑干听觉诱发电位(BAEP)两种方法检测婴幼儿听力,在不同刺激强度下各波振幅及波间期正常者为无病,异常者为有病,并以此作为金标准对ECOCHG法的诊断价值进行评价。评析此实例主要缺陷是金标准不可靠。金标准必须是可靠的公认的临床诊断方法,且独立于试验本身,不受试验本身结果的影响。该文选用欲评价的诊断方法ECOCHG与另一种诊断方法BAEP联合检测的结果作为判定有病、无病的金标准,未独立于ECOCHG诊断方法本身,其结果必然受ECOCHG法试验结果的影响,存在掺合偏倚(IncorporationBias)[2],使敏感性和特异性偏高。建议重新选择金标准。

  2.《细胞外间质成分与肝病关系的研究》(中华内科杂志1994,33(2):109)以20例慢性活动性肝炎病人细胞外间质成分的测定值加上一个标准差(X+S)作为欲评价的诊断方法(LN和HA联合检测法)的阴性、阳性判断标准。评析此实例主要缺陷是诊断临界值不合理。诊断试验中确定阴性、阳性判断标准的常用方法有正态分布法、百分位数法及ROC曲线法。正态分布法要求样本含量较大,且资料呈正态分布,一般是用X±2S或X±3S作为判定的临界值。该文样本含量较小且仅用X±S作为判定的临界值欠妥当。建议改用ROC曲线法。

  3.《肠道病毒特异性抗体和RNA检测对心肌炎的诊断价值》(中华儿科杂志1995,33(5):271)64例心肌炎组(病例组)中49例急性心肌炎患儿取2次或2次以上血,95例非心肌炎组(对照组)取1次血,用ELISA法检测血清IgG和IgM,评价ELISA法的诊断价值。评析此实例主要缺陷是未使用盲法评定。病例组与对照组检测程序不一致。诊断试验评价中,病例组用于考察诊断方法的敏感性,对照组用于考察诊断方法特异性,诊断方法操作规程在两组间应保持一致,以保证评价结果的真实性和客观性,因此现代临床流行病学要求试验和评价均应采用盲法。该文对病例组部分对象检测2次或2次以上,但对照组所有对象均仅检测1次,人为地使诊断方法特异性偏高。建议对照组对象亦检测2次或2次以上。

  四、分析与讨论

  1.与国际80年代初shepsSB[2]结果相比,金标准明确可靠及阴性阳性判断标准交待明确的比例有所提高,但敏感性、特异性等试验评价指标使用正确完整、使用盲法的比例均较低。与国内80年代中期张氏[5]调查结果相比,金标准明确可靠,敏感性、特异性等评价指标使用正确完整以及使用盲法的比例均有提高。

  2.病例组和对照组代表性包括样本含量大小是影响诊断试验评价结论可靠性的重要因素。一个诊断试验用于不同特征的人群如年龄、性别和不同临床表现的病人如病程、病情等,其评价指标会有所变化。因此选择病例结构特征明确、代表性较好的样本,有益于正确认识评价结果和指导临床应用[1,4]。本次调查国内临床诊断试验评价论著中,病例组和对照组样本代表性较好者分别仅占43%和17%。Reid等人对4种权威英文期刊1990年~1993年间刊登的34篇临床诊断试验评价论著调查表明,病例结构特征有较明确交待,包括年龄、性别、病程或临床症状等的论著也仅占32%。

  3.临床诊断试验评价中,先做诊断试验,然后由知情者判断金标准结果,易产生test-reuiewbias;先有金标准结果,再由知情者做诊断试验,易产生Diagnostic-reuiewbias,两者均会使结果间的一致性偏高[1,2,4]。克服这2种偏倚的主要方法就是盲法评定。本次调查表明盲法评定结果的论著占31%,国外90年代初也仅为47%[4]。

  【参考文献】

  1RansohoffDF.FeinsteinAR.ProblemsofSpectrumandBiasinEvaluatingtheEfficacyofDiagnosticTests.N.Engl.J.Med,1978,299:926.

  2ShepsSB,SchechterMT.TheAssessmentofDiagnosticTestsAsurveyofCurrentMedicalResearch.JAMA,1984,252:2418.

  3YoudenWJ.IndexforRatingDiagnosticTests.Cancer,1950,3:32.

  4ReidML,LachsMS,FeinsteinAR.UseofMethodologicalStandardsindiagnosticTestResearch-GettingbetterbutStillnotGood.JAMA,1995,274:645.