首页 > 文献资料
-
应用LOGISTIC回归法分析四川省中学生吸烟状况影响因素
LOGISTIC回归法是一种多变量分析方法,适用于当结果变量为二分类变量时分析多种因素对同一结果的影响程度.在吸烟这个问题上,有很多因素会对行为产生影响.为了解四川省中学生吸烟状况及其影响因素,四川省健康教育所于1996年9月对省内4所城、乡中学进行了调查.将吸烟状况分为尝试吸烟与吸烟两种情况,设计出可能的影响因素20项,采用问卷调查收集资料,应用STATA5.0软件进行统计分析,筛选出尝试吸烟影响因素11项,吸烟影响因素7项,其中二者共同的影响因素6项.
-
回归树的建模与应用
近年来,大量研究致力于建立新的回归技术解决经典回归中假设过于严格的问题,包括预测变量与反应变量的线性关系、反应变量的正态性及方差齐性等.当线性关系不成立时选用线性模型明显不适宜,此时一种方案是在模型中加入交互作用项或采用变量变换,但这种方式容易导致解释时的困难,并且可能仍然不能解决非线性的问题.另一种解决方案则是选用非参数回归技术,包括Friedman和Stuetzle[1]提出的光滑技术和Yarnlod等[2]及Breiman等[3]提出的分类与回归树.其中分类与回归树的区分关键在于反应变量为连续性变量或为分类变量,若为连续性变量则建立回归树,反之则建立分类树.现就回归树的建模与应用进行探讨.
-
介入治疗继发孔型房间隔缺损直径与所用封堵伞关系的研究
目的:通过分析已行经导管继发孔型房间隔缺损(ASD)介入治疗患者相关资料,探讨经胸超声心动图(TTE)测量ASD直径与所用封堵伞伞腰直径的关系,以助介入治疗中封堵伞大小的选择。
方法:山东省立医院小儿心脏科行ASD介入治疗且资料完整的患者205例,所有患者均行TTE测量ASD直径。将205例患者,按照ASD大径的不同,分为三组:A组(5 mm≤ASD直径<12 mm)65例、B组(12 mm≤ASD直径<20 mm)76例,C组(ASD直径≥20 mm)64例。统计分析经评价判断手术成功的患者相关资料;连续变量资料采用方差分析,分类变量资料采用卡方检验或Fisher确切概率法,对比研究不同组中TTE测量ASD直径与所用封堵伞伞腰之间的关系。 -
儿童肺包虫病术后并发症及复发的影响因素
肺包虫病又称肺棘球蚴病,是细粒棘球绦虫幼虫在肺部寄生引起的疾病,在我国西北牧区是常见的一种人畜共患的肺部寄生虫病。肺包虫的发病率仅次于肝包虫,位于第二位。包虫病多发生于成人,但感染高峰期主要在儿童期[1]。目前,外科手术是治疗儿童肺包虫病的惟一有效方法,其主要目的是内囊摘除和大限度保存正常肺组织[2]。术后亟需解决的是如何防止术后并发症的发生及复发。根据文献报道及临床经验,我们选择了8个主要影响该病的术后并发症及复发的因素,进行了单因素分析及二分类变量的多因素logistic回归分析,以求得重要影响发生术后并发症及复发的因素,从而为儿童肺包虫的治疗提供理论和临床依据。
-
医学科研中统计学方法简介(四)
当观察指标属定性指标(亦称分类变量)时,将n个对象按指标的不同类别分类,然后清点各类别的观察单位数,得到的资料称为计数资料.统计学中常用率、构成比及相对比等统计量进行描述.因为他们都是由两个数之比构成的百分比,所以在假设检验中用到的方法是相同的.通常用χ\+2(卡方)检验.在临床工作中通常可获得两种类型的表格,第一类表的型式如下:
-
分类变量缺失数据处理方法有效性的比较研究
目的 比较删除法(deletion methods,DM)、基于对数线性模型的多重填补法(multiple imputation of category variables using log-linear model,MILL)及基于潜在类别模型的多重填补法(multiple imputation based on latent class model,MILC)处理分类变量缺失数据的效果,并将MILC应用于实例数据的分析.方法 利用R语言产生不同缺失机制、缺失率和样本含量的多变量缺失模拟数据,运用DM、MILL和MILC处理形成完整数据集并进行logistic回归分析,通过回归系数的偏倚、均方根误差、稳定度和标准误偏倚评价各方法的处理效果.结果 模拟实验表明当缺失率为5%时,三种方法处理效果均较好;随着缺失率的增大,MILL和MILC的各项评价指标均优于DM,且MILC的准确度高于MILL.三种方法处理效果均表现为完全随机缺失优于随机缺失、样本含量1000优于样本含量500.应用MILC对实例数据填补后标准误减小,回归系数估计更准确.结论 本文应用MILL和MILC两种多重填补方法处理分类变量缺失数据均可减少缺失导致的参数估计偏倚.当缺失率>5%、样本含量1000时,建议应用MILC处理分类变量缺失数据.
-
配对设计两组多分类频数分布的比较方法
对于配对设计的分类变量资料,如果变量取值是两分类的,此种资料称为2×2交叉分类资料,一般统计学教材又常称其为配对四格表资料.此种资料进行统计分析时一般采用McNemer检验,用于检验两组比率是否相等.当变量取值为多分类时,对应资料为r×r交叉分类资料,此时的数据格式见表1.
-
医药类高校科研管理中引入对应分析的尝试
对应分析的基本形式是对两个定性或分类变量构成的交互表进行分析,将定性变量数据转变成可度量的分值, 减少维度并作出分值分布图.在减少维度方面,与因子分析相似;在作分布图方面,与多维标度方法相似.其优点就在于可以同时做到这两方面,而这是其他的统计方法所不能达到的,因而具有广泛的应用[1~4].
-
GENMOD过程和GLIMMIX过程的比较
重复测量资料(repeated measurement data)是指对同一观察单位进行重复观察或测量所得到的资料,它以节省样本含量、资料容易收集、检验效能高等优点受到医学界科研人员的青睐.当反应变量是二分类变量时,为二分类重复测量资料,其在临床研究中非常多见,如在乳腺增生患者疗效研究中,定期记录患者治疗期间的变化,检测指标为是否有改善的二分类变量;呼吸道疾病疗效记录为是否好转的二分类变量等.
-
非线性混合效应模型和广义线性模型拟合随机效应logistic回归的应用比较
在临床药物试验中药物疗效的评价经常遇到二分类资料,即反应变量有两个水平如有效、无效;成功、失败等.二分类变量服从二项分布,可采用logistic回归模型.运用logistic回归模型对分类资料进行分析,能给实际研究带来很多便利.与多元线性回归相比,logistic回归具有许多独特的优点,如对正态性和方差齐性不做要求,系数的可解释性等.
-
配对二分类变量间的差异的区间估计
在医学科研中,人们常用假设检验的方法判断两总体是否存在差异.但是有时候人们不仅是想了解"有无差异",而且还想了解"差异的大小",这时区间估计就能满足人们的这个要求.
-
绝对危险可信度发展简史
多分类变量和哑变量对于一套流行病学资料来说,数据的类型不外乎两类:定量资料(quantitative variable)和定性资料(qualitative variable).前者有明确的物理学含义,测量值的意义和单位都非常明确,可以直接进入分析;但后者则不然.
-
两变量关联性研究meta分析效应量选择与计算
两变量之间关联性问题研究meta分析,根据两变量的结构和属性不同,以及对变量进行的处理不同(如测量方法不同),相关系数的表达形式及计算公式也不尽相同,这些都对进行此类问题的meta分析带来了诸多不便.根据两变量的结构和属性不同,可分为三种情况:①两个变量均为固有的连续性变量;②两个变量均为固有的二分类变量;③一个变量为固有的连续性变量,另一个为固有的二分类变量.
-
配对设计2×2列联表的精确检验方法及应用
配对设计在医学科研中应用很广泛.病例对照研究或者实验研究中有时会采用1:1匹配(match)设计来提高研究效率,控制混杂因素;或者在相同条件下同一受试者接受两种不同的处理,以评价两种处理是否有差异.当配对设计中所研究的变量为二分类变量时,常需要将数据整理成配对设计的2×2列联表,然后进行相应的统计学检验.对于配对设计的2×2列联表,目前大多数的国内医学统计书籍介绍McNemar卡方检验方法.但是此卡方检验的使用,需要满足正态近似的条件.当正态近似不满足时,此检验是不适用的,需要采用相应的精确检验方法[1~5].常用统计软件SPSS和SAS中已经给出精确检验方法,但目前国内医学书籍却较少介绍此方法.本文讨论了配对设计2×2列联表的精确检验方法,通过实例介绍精确检验的应用,并给出相应的SPSS和SAS程序.
-
完全随机缺失条件下分类随机变量数据缺失插补方法的比较研究
目的 探讨完全随机缺失条件下分类随机变量数据缺失对研究结果的影响,对各方法插补效果进行评价.方法 基于上海地区35岁及以上吸烟人群吸烟与肺癌死亡关系的完整数据集,在5%、10%、20%及30%缺失率下,模拟有序分类变量(吸烟年数分组syfz)缺失和二分类变量(性别sex)缺失,重复模拟100次.采用删除法、众数插补法、多重插补-logistic回归法(MI/logistic)及多重插补-判别分析法(ML/discrim)对分类变量数据缺失进行处理.对插补效果从插补正确率及插补后模型参数的变化两个方面进行评价.结果 有序分类变量缺失:各缺失率下,MI/logistic插补的正确率高,MI/logistic和MI/discrim插补后模型参数的偏差均较小,对于吸烟年数sy以分组形式syfz纳入模型数据缺失导致模型参数的相对偏差更小,对syfz插补后模型参数相对偏差也小于连续变量sy插补后模型参数相对偏差.二分类变量缺失:各缺失率下,众数插补的正确率高,删除法处理缺失数据后模型参数的偏差小.结论 连续变量缺失对模型结果的影响大于分类变量缺失,对于有数据缺失的连续变量可将其离散化,以分类变量的形式进行分析.缺失数据插补模型的拟合效果会直接影响插补效果,当模型拟合效果较差时可能会带来更大的偏差.
-
基于肿瘤患者高维生物信息的生存预测
高维DNA微阵列技术这种强大的基因组扫描方法为肿瘤分型提供了遗传学研究工具.其基因表达谱被广泛的应用于癌症的分子水平分类,发现新的标记物和新的治疗靶标,并以此来预测药物基因组研究领域中不同水平的药物应答和不同病人的临床结果.用基因预测癌症分类已为国内外学者关注,并取得了很大的进展.然而,由于癌症病人的癌症复发时间很不稳定,研究有删失的生存显型的概率可能比仅将显型处理成二分类或者分类变量要得到更多的信息.因此近年来,从基因表达数据和其他的高维染色体数据进行生存预测已经成为很多研究的主题,研究者希望可以通过揭露死亡时间或复发时间和肿瘤基因表达谱之间的关系来得到更精确的预后并改进治疗策略,使之成为一种有用的诊断工具.
-
样本量估计及其在nQuery和SAS软件上的实现——相关分析
4.相关分析4.1.单样本相关性分析4.1.1.差异性检验4.1.1.1.kappa系数检验(二分类变量)方法:Donner和Eliasziw(1992)[1]给出的单样本二分类变量kappa系数双侧检验的样本量估计方法,是建立在自由度为1,非中心参数为λ(1,1-β,α)的非中心x2分布上的,其样本量的计算公式为:n=λ (1,1-β,α){[π(1-π)(κ1-κ0)]2/π2+π(1-π)k0+2[π(1-π)(κ1-κ0)] 2/π(1-π)(1-k0)+[π(1-π)(k1-k0)]2/(1-π)2+π(1-π)k0}(4-1)式中,π为研究对象被判为阳性的概率,κ0为原假设kappa系数,κ1为备择假设kappa系数.在自由度为1的情况下,非中心参数λ(1,1-β,α)近似等于(Z1-α/2+Z1-β)2,在计算样本量时,将其代入(4-1)进行计算.
-
列联表的行列关联度与对应分析
在流行病学和行为科学研究中,经常需要考察两个分类变量的统计学关联,进而探索其因果关联.与四格表资料相比,列联表是一种用多行多列来表达两个分类变量的特殊类型.本文旨在探讨和比较运用SPSS11.0进行列联表资料的χ2检验、列联系数C和对应分析的应用.
-
处理分类变量资料中几种常见统计方法的分析
目的:研究如何正确判识分类变量数据,并选择适宜的处理方法.方法:阐述几种常见分类变量数据的统计方法. 结果:根据分类变量的分类项数及序列的关联性,判定分类变量的类型,以便对同一观察数据进行多项统计处理,充分利用数据资料的内在信息. 结论:χ2检验并非适用于所有的分类变量,应根据资料类型选择正确的处理方法.
-
何谓“logistic回归分析”
logistic回归分析主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。