首页 > 文献资料
-
卡方自动交互检测法及其应用
卡方自动交互检测法(chi-squared automatic interaction detector,CHAID)早由Kass于1980年提出,其核心思想是:根据给定的反应变量和解释变量对样本进行优分割,按照卡方检验的显著性进行多元列联表的自动判断分组.利用卡方自动交互检测法可以快速、有效地挖掘出主要的影响因素,它不仅可以处理非线性和高度相关的数据,而且可以将缺失值考虑在内,能克服传统的参数检验方法在这些方面的限制,结果的解释也简单明了.现就卡方自动交互检测法及其应用进行探讨.
-
连续变量的相关与回归分析
连续变量的相关与回归分析有时也称为线性相关与线性回归,它们都是分析变量间关系的方法,但侧重目的不同.线性相关是分析变量间的相互依存关系,即两个或多个变量不区分主次关系,重在解释变量间的关联.而线性回归分析的变量有主次之分,侧重分析自变量对因变量的影响.如研究身高与体重的关系,这两个指标是相互关联的,可采用线性相关分析.如果要分析体重对血压值的影响,此时我们侧重观察血压值随体重的变化而变化的趋势,而不是体重随血压值变化的情况,因此需采用线性回归分析.
-
广义可加模型及其SAS程序实现
回归分析中,非参数回归以其适用性强,对模型假定要求不严等优点,扩展了参数回归的应用范围,增强了模型的适应性[1].但非参数回归也有其局限性[2],当模型中的解释变量个数较多而样本含量并不是很大时,非参数回归拟合的效果并不尽如人意,容易引起方差的急剧增大.这种由于维度的增加而使方差急剧扩大的问题通常被称为"维度的孽根(curse of dimensionality)".而且非参数回归多是建立在核估计和光滑样条基础上的,其解释性也是一个问题.为了解决这些问题,Stone(1985)提出了可加模型(additive models),这种模型对多变量回归方程估计一个可加近似值.可加近似值有两个优点:(1)由于每一个个体的可加项是以单变量平滑估计的,因而"维度的孽根"可以避免;(2)个体项的估计解释了应变量如何随着自变量的变化而变化的.为了使可加模型扩展到更广范围的分布族,Hastie和Tibshirani(1990)又提出了广义可加模型(generalized additive models,GAM).它使反应变量的均值通过一个非线性连接函数而依赖于可加解释变量,同时还允许响应概率分布为指数分布族中的任意一员.许多广泛应用的统计模型均属于广义可加模型,包括带正态误差的经典线性模型、二分类数据的非参数logit模型、Poisson数据的非参数对数线性模型等.