Research

广义估计方程在交叉设计等级资料分析中的应用

广义估计方程在交叉设计等级资料分析中的应用

成都医学院公共卫生学教研室 陈卫中
南京医科大学法医学系 杜显刚
四川大学公共卫生学院卫生经济学教研室 张果

[摘 要] 目的:探讨广义估计方程在交叉试验等级资料中的应用,为临床试验交叉设计资料的正确分析提供方法学参考。方法:采用SAS软件包的GENMOD过程拟合模型,并以某治疗精神分裂症药物临床试验资料进行实例分析。结果:获得了各参数及其标准误的估计值,并可以对各因素进行直观的解释。结论:广义估计方程可以根据需要纳入如中心、年龄、性别、基线值等协变量进行分析,同时对缺失数据处理具有较好的稳健性,是处理交叉设计中等级资料的有效分析方法。

[关键词] 广义估计方程;交叉设计;等级资料

[中图分类号]R195·1     [文献标识码]A     [文章编号]1003-8507 (2006) 07-1129-02

ANALYSIS OF THE ORDERED CATEGORICAL DATA IN CROSS-OVER TRIAL USING GENERALIZED ESTIMATING EQUATION.CHEN
Wei-zhong, DU Xian-gang, ZHANG Guo. Chengdu Medical college, Chengdu,610081

Abstract: Objective:To explore the application of generalized estimating equation in ordered categorical data of cross-over trial analysis and provide methodology reference.Methods:An example was illustrated by modeling generalized estimating equation using the GENMOD command of SAS.Results:All parameters and their standard error were estimated, so every factor could be intuitionistic interpreted.Conclusion:When using GEE, the accuracy of the estimation was improved, as well as covariates, such as the center, age, gender and baseline value could be taken into consideration. The method could also deal with data with missing values, it is useful in analysis of ordered categorical data of cross-over trial.

Key words:Generalized estimating equation; Cross-over trial; Ordered categorical data

  交叉试验(cross-over trial)是指按事先设计好的试验次序,在各个时期对研究对象逐一实施各种处理,以比较各处理组间的差异,是将自身比较和组间比较设计思路综合应用的一种设计方法[1]。它克服了实验前后自身对照由于观察期间各种非实验因素对实验结果的影响所造成的偏倚,同时节约样本含量[2]。临床上多用于评价可缓解症状但无根治作用药物的疗效,如止痛、镇静、抗风湿 降血压、抗失眠药物等的疗效比较。
二分类资料的处理在国内外的文献中已有较多报道。但许多资料的结果指标为有序多分类,如临床化验结果为“-、±、+、 、 ”,疗效评价为“痊愈、显效、进步、无效”等,有关该类型资料的分析文献报道较少。本文以最常用的2×2交叉设计为例,探讨广义估计方程在交叉设计等级资料分析中的应用。
1 基本理论与模型[3~5]
设有n例受试者和p个观察时间点,第i (i=1,2,…, n)例受试者在第j (j=1,2,…, p)时间点的观测值为yij,与yij相对应的解释变量向量为xij。则广义估计方程(Generalized estimating equation/GEE)建立的是边际反应变量平均值的连接函数与解释变量之间的线性关系,可表述为:

g (μij)=χ′ijβ  (1)

其中,μij=E (yij),为边际反应变量的平均值; g (·)为连接函数(link function),可根据资料的不同分布形式进行选择,β为模型中的系数。
yij的方差与平均值之间的函数关系可表示为:

Var (yij)=ν(μij)·  (2)

式中ν(μij)为一己知方差函数;为一己知或者未知的离散参数。
根据资料的特点,选择一个yi=(yi1,…, yip) p×p维作业相关矩阵Ri(α)后,按给定的和Ri(α)的当前估计值,用迭代重复加权最小二乘法求参数β的估计值β及其协方差距阵。得到β的估计方程为:

S (β;α,)=∑i( μi β) V-1i(μi;α) (yi-μi) (3)

式中,Vi是yi的作业协方差矩阵, Vi=A1/2iRi(α)A1/2i, Ai为p×p维的对角矩阵,其中第j个对角元素为(ν(μij)。
2 应用实例
2·1 资料来源 为评价某公司开发的新药盐酸哌罗匹隆治疗精神分裂症的疗效,以氯丙嗪为对照,将所有患者随机分为两组,一组患者先服用盐酸哌罗匹隆,再服用氯丙嗪;另一组患者顺序相反,即先服用氯丙嗪,再服用盐酸哌罗匹隆,每个阶段用药3周,期间清洗期(washout time) 2周,进行多中心的2×2交叉设计试验,共纳入病例200例,分别在5个中心进行。主要结果指标疗效为每阶段结束后,按照PANSS总评分的变化情况将疗效划分的4个等级,即基本痊愈、显著进步、好转和无变化,分别赋值为1、2、3、4。
2·2 方法 以疗效(effect)为应变量,药物(treat, A=盐酸哌罗匹隆, B=氯丙嗪)、顺序(sequence)、阶段(period)、中心(center)为解释变量,其中中心仍然纳入为固定效应,并将5中心作为参照组,以哑变量的形式纳入模型;个体(subject)效应作为重复测量因素纳入;由于结果变量为有序多分类资料,工作相关矩阵不能自由选择,只能为独立结构;连接函数采用累积logit函数,建立广义估计方程。
在累计logit函数为连接函数的模型中,设小于等于应变量(比如本次试验中的疗效)分类中某切点j的累计概率为: j(χ)=P(effect≤j),其中χ为某一解释变量,则χ在某一水平χ1相对于χ2的OR值可表示p×p为[6]:

γi(χ1) / (1-γj(χ1))γi(χ2) / (1-γi(χ2))=exp(χ1-χ2)′β (4)

式中,β为解释变量χ在模型中的系数。由此可以对模型中参数的符号和大小进行专业解释。
2·3 结果 所有分析过程在SAS软件包中完成,调用SAS软件包中的GENMOD过程。结果显示;组别、次序的差别均无统计学意义;阶段和中心的差别有统计学意义,第2阶段的疗效好于第1阶段; 1、2、3中心的疗效好于5中心,而4中心和5中心疗效的差异无统计学意义。具体拟和结果参见表1。
表1 模型中各参数拟和结果
3 讨论
  在交叉试验统计学分析方法选择上,较常用的方法如方差分析等,是将所有变量尤其是个体变量作为固定效应被估计,而导致检验效能降低,以及无法在模型中增加其它混杂因素,例如中心效应、年龄、性别、基线等[7],而且这些方法对资料的类型有一定限制,如方差分析只能分析定量资料;同时在交叉设计中,由于方法的限制,常常会忽略试验次序对指标观察的影响,即认为无论观察对象选择何种次序进行试验,在每个阶段的结果是一样的,这显然是不符合实际的。针对以上问题,混合效应模型越来越受到人们的重视,有关定量资料、二分类资料的处理在国内外的文献中已有较多报道。但许多资料的结果指标为有序多分类,如临床化验结果为“-、±、+、 、 ”,疗效评价为“痊愈、显效、进步、无效”等,有关该类型资料的分析文献报道较少。
  GEE是在广义线性模型的基础上发展起来的一种拟似然估计方程,用于纵向观察资料的分析。GEE模型在重复测量的数据分析中大量的文献都显示了其优越性。其作业相关矩阵在估计回归参数β及其方差时,不一定需要完全确定其形式。Liang等从理论上证明了,当α的估计值α和的估计值具有一致性估计时,即使Ri(α)未被正确指定,β的估计值β仍具有渐进正态性,而且β和Var (β)仍具有一致性[3,4]。而且GEE允许每个观察对象的观察次数不同或观察时间间隔不同,还可以处理有缺失值的资料,只要缺失值不是太多,且为随机缺失, GEE得到的估计仍是一致稳健的[8]。
  交叉设计从某种意义上可以认为是一种特殊形式的重复测量,不过在重复的过程中使用了不同的处理方法,因此其适用于广义估计方程。本文以最常用的2×2交叉设计为例,探讨广义估计方程在交叉设计等级资料分析中的应用,较好的弥补了一般统计学方法的缺陷,对于本资料,如各处理组内部还存在时点上的重复测量,亦可将其纳入分析,以综合评价组间的差异,同时还可以探讨时间和组别的交互作用。上述模型在SAS中调用PROC GENMOD过程即可实现,相对比较简单。但也有报道认为[9],在交叉设计中, GEE的独立处理因素是基于观察对象之间,而不是之内构建的,因此导致校正的标准误过分的夸大,从而降低了检验效能。
[参考文献]
[1]苏炳华,何清波.交叉试验计量资料分析的SAS程序[J].中国卫生统计, 1997; 14: 52.
[2]倪宗瓒.医学统计学[M].北京:高等教育出版社, 2003.106-107.
[3]余松林,向惠云.重复测量资料的分析方法与SAS程序[M].北京:科学出版社, 2000. 183-192.
[4] Zeger SL, Liang KY and Albert PS. Models for longitudinal data:a generalized estimating equation approach [ J ]. Biometrics,1988; 44: 1049~1060.
[5] Zeger SL, Liang KY. Longitudinal data analysis for discrete and continuous outcomes [J]. Biometrics, 1986; 42 (1): 121 ~130
[6] McCullagh P, Nelder JA.Generalized Linear Models,Second Edition [J]. London: Chapman and Hall, 1989.
[7]赵杨,于浩.交叉设计多中心临床试验的混合效应模型[J].中国临床药理学与治疗学, 2005, 10 (1): 116-120.
[8]陈峰,任仕泉.非独立试验的组内相关与广义估计方程[J].南通医学院学报, 1999, 19 (4): 359-362.
[9] Lindsey JK, Jones B. Analysis of cross-over trials for duration data [J]. Statistics in Medicine, 1996; 15: 527-535.