首页 > 文献资料
-
logistic回归应用中容易忽视的几个问题
logistic 回归在流行病学研究中应用十分广泛,在病例对照研究和队列研究中, logistic 回归是经常用到的多变量统计分析方法,在随访研究和横断面调查中,logistic 回归的应用也较为普遍[1-5].与多元线性回归相比,logistic回归具有许多独特的优点,如对正态性和方差齐性不做要求,对自变量类型不做要求、系数的可解释性等.正是这些优点,使得logistic 回归成为流行病学研究中广受欢迎的分析工具.
-
非线性混合效应模型和广义线性模型拟合随机效应logistic回归的应用比较
在临床药物试验中药物疗效的评价经常遇到二分类资料,即反应变量有两个水平如有效、无效;成功、失败等.二分类变量服从二项分布,可采用logistic回归模型.运用logistic回归模型对分类资料进行分析,能给实际研究带来很多便利.与多元线性回归相比,logistic回归具有许多独特的优点,如对正态性和方差齐性不做要求,系数的可解释性等.
-
高维数据回归分析中基于LASSO的自变量选择
生物信息学背景下普遍存在着高维数据,所谓的“高维”即待估计的未知参数的个数是样本量的一个或几个数量级[1],例如Van't Veer(2002)[2]等学者收集的乳腺癌数据集共包括259例乳腺癌患者,25000个微阵列基因数据,研究变量个数25000远远大于样本量259,存在“高维”现象.传统的方法进行参数估计和统计推断的一个必要前提是待估参数的个数小于样本量,这样统计推断的结果才是稳定、可靠的.对于高维数据回归分析,经验研究表明自变量进入模型的顺序不同所得到的回归系数的估计方差亦不相同,甚至变异很大,提示估计结果不稳定,此时通常需要考虑其他变量选择策略.Fan等(2001年)[3]提出变量选择应该满足以下要求:(1)模型预测的准确性;(2)模型的可解释性,即模型中选择的自变量在专业上是合理的、科学的;(3)模型的稳定性,即数据集中数据微小的变动不会导致模型较大变动;(4)应尽量避免在假设检验中出现的偏倚;(5)应尽量控制计算的复杂度.以往提出的一些降维方法如聚类、偏小二乘法、主成分回归、岭回归、基于树的集成方法等都只能达到其中的部分目标:通过聚类得到的模型对于聚类算法过于敏感;偏小二乘法与主成分回归通常根据累计贡献率、特征根的大小、统计学意义等准则选取成分,所得模型虽结构简约、估计稳定,但估计是有偏的[4],同时所得到的主成分虽或有一定的实际意义,但是不能清晰地解释单个协变量的效应[5];岭回归虽能较好地处理变量间的多重共线性,但因它不能降低维度而无法提供一个稀疏的模型;基于树的集成方法则因调整参数过多,而导致结果的可解释性往往较差.
-
大学生的家庭绘画分析
由于绘画具有简便性、非威胁性、控制起来比较轻松、含有大量的可解释性的内容,它已作为一种媒介来表达个体的恐惧、愿望的实现、幻想等[1].绘制家庭这种方法早可以追溯到二十世纪三、四十年代,五、六十年代已完善发展出"画一个家庭测验"(Draw-A-Family Test)[2].本次研究要求被试画一张现实的家庭和一张理想的家庭,通过两张画的比较可以比较清晰地呈现被试对家庭关注的重点,通过对被试绘画的分析,展示了被试家庭关系存在的较为普遍的问题,并为家庭关系的研究提供一个全新的角度.