欢迎来到360期刊网!
学术期刊
  • 学术期刊
  • 文献
  • 百科
电话
您当前的位置:

首页 > 文献资料

  • 高维组学数据分析中的贝叶斯变量选择方法

    作者:董晓强;许树红;陶然;王彤

    随着基因组测序技术和生物信息学的迅猛发展,近几年涌现了大量与疾病相关的组学数据即所谓高维数据.对于这类组学数据,共同特点是自变量个数p通常远大于观察例数n,且自变量间往往高度相关,从成千上万个组学数据中识别出真正有意义的自变量带来一些统计学挑战.本文对高维数据中的贝叶斯变量选择方法做论述.

  • 基于LASSO的高维数据线性回归模型统计推断方法比较

    作者:赵俊琴;王慧;王彤

    目的 比较五种基于LASSO的高维数据线性回归模型统计推断方法:LASSO-惩罚计分检验,多重样本拆分、稳定选择、低维投影、协方差检验.方法 采用R软件模拟不同情形的高维数据,用五种方法做统计推断,以期望假阳性率和检验效能为评价指标,比较这五种方法在不同高维数据情形下的表现.结果 在理想高维数据情形下,除协方差检验推断结果保守外,其余方法表现都较好.在复杂高维数据情形下,LASSO-惩罚计分检验的检验效能是五种方法中高的,其次为多重样本拆分,而LASSO-惩罚计分检验的EFP也是高的,多重样本拆分的EFP基本接近0.结论 在常见复杂高维数据中LASSO-惩罚计分检验和多重样本拆分是两种较好的高维线性回归模型统计推断方法,两者相对而言前者较宽松,后者较保守.在实际应用中可根据应用需求来选择合适的统计推断方法.

  • 偏小二乘判别分析交叉验证在代谢组学数据分析中的应用

    作者:柯朝甫;武晓岩;侯艳;李康

    近年来,偏小二乘判别分析(PLSDA)方法在代谢组学研究中得到了广泛的应用,并成为一种标准的高维数据分析方法[1-2].PLSDA是一个有监督的学习方法,在分析代谢组学数据时往往由于变量过多而出现过拟合现象.判断PLSDA模型分类效果使用多的是交叉验证方法,Westerhuis等(2008)曾对代谢组学研究中PLSDA模型交叉验证的问题进行过深入细致的研究和阐述,并指出目前代谢组学中使用的PLSDA模型交叉验证方法仍然存在过拟合等问题[3].本文在简单介绍PLSDA及其交叉验证原理的基础上,给出一种新的评价PLSDA模型的交叉验证方法,并结合实例说明这种方法的有效性.

  • 高维组学变量筛选方法的稳定性评价方法及应用

    作者:王璟涛;侯艳;李康

    目的 在高维组学变量筛选过程中,当数据发生轻微变化时,变量筛选方法筛选出的变量会发生一定的变化.本文探索如何评价筛选变量的结果是否稳定.方法 通过模拟实验,分析对比了HD、SCSR、TD、KI、CW、RCW六种稳定性评价方法的准确性及变异程度,并通过实例结合PLS、svmRFE和RF三种变量筛选方法对SCSR方法进行了考察.结果 当变量排序为随机产生时,SCSR、KI和RCW三种方法基本能够在取各种变量数目情况下始终接近于小值0.对于置换标签和变量值后的数据集,PLS、RF、svmRFE三种方法的稳定性几乎完全相同,SCSR、KI和RCW三种稳定性评价指标在取不同筛选阈值时都达到了小期望值.在评价指标的稳定性上,HD和SCSR能够保持很小的变异,具有更好的稳健性.结论 SCSR的准确性和稳定性好,推荐作为稳定性评价指标.

  • 多次交叉验证对PLS DA模型的影响研究

    作者:曲思杨;张秋菊;王文佶;谢彪;孙琳;高兵;刘美娜

    目的:比较一次交叉验证和多次交叉验证对PLSDA优模型的影响,探讨在个体正确分组和少数个体错分时,多次交叉验证对PLSDA优模型稳定性的影响。方法打乱数据集中个体顺序进行多次交叉验证,通过一次交叉验证和多次交叉验证的方法对模拟数据和真实数据进行分析,使用成分数和MSEP等参数值来评价模型变异性和稳定性。结果模拟数据结果,仅进行1次交叉验证结果成分数为3,MSEP值为0.3792;在不打乱数据标签时,5000次交叉验证结果中,成分数范围是2~6,MSEP值的范围0.2569~0.5794;打乱5%的标签时,5000次交叉验证结果中,成分数范围是1~8,MSEP值的范围0.2061~0.6463;真实数据结果,进行1次交叉验证结果成分数为4,MSEP值为0.1376;10000次交叉验证成分数范围是4~10,MSEP范围是0.0802~0.3761。结论一次交叉验证结果不稳定,在应用PLSDA建模时,多次交叉验证在少量个体错分时能够获得稳定模型,建议使用多次交叉验证确保PLSDA模型稳定性。

  • 有监督的主成分分析和偏Cox回归模型在基因数据生存预测中的应用

    作者:覃婷;王彤

    目的 探讨有监督的主成分分析及偏Cox回归模型在基因数据生存预测中的应用.方法 针对基因数据的协变量个数大于样本例数,以及变量间存在相关性等特点进行模拟研究,并对国际上公开的三个基因数据集进行分析,考察两种模型的预测性能.结果 模拟研究显示随着影响生存的基因块的方差的增大以及组内相关系数的增高,两种方法的预测性能变好;随着删失比例的增加,两种方法的预测性能变差.实例分析提示不同的数据集适方法不同.结论 SuperPC 和偏Cox回归都适用于基因数据的生存分析.在模拟中SuperPC比偏Cox回归的表现好,但偏Cox回归计算速度较快.

  • 高维数据回归分析中基于LASSO的自变量选择

    作者:张秀秀;王慧;田双双;乔楠;闫丽娜;王彤

    生物信息学背景下普遍存在着高维数据,所谓的“高维”即待估计的未知参数的个数是样本量的一个或几个数量级[1],例如Van't Veer(2002)[2]等学者收集的乳腺癌数据集共包括259例乳腺癌患者,25000个微阵列基因数据,研究变量个数25000远远大于样本量259,存在“高维”现象.传统的方法进行参数估计和统计推断的一个必要前提是待估参数的个数小于样本量,这样统计推断的结果才是稳定、可靠的.对于高维数据回归分析,经验研究表明自变量进入模型的顺序不同所得到的回归系数的估计方差亦不相同,甚至变异很大,提示估计结果不稳定,此时通常需要考虑其他变量选择策略.Fan等(2001年)[3]提出变量选择应该满足以下要求:(1)模型预测的准确性;(2)模型的可解释性,即模型中选择的自变量在专业上是合理的、科学的;(3)模型的稳定性,即数据集中数据微小的变动不会导致模型较大变动;(4)应尽量避免在假设检验中出现的偏倚;(5)应尽量控制计算的复杂度.以往提出的一些降维方法如聚类、偏小二乘法、主成分回归、岭回归、基于树的集成方法等都只能达到其中的部分目标:通过聚类得到的模型对于聚类算法过于敏感;偏小二乘法与主成分回归通常根据累计贡献率、特征根的大小、统计学意义等准则选取成分,所得模型虽结构简约、估计稳定,但估计是有偏的[4],同时所得到的主成分虽或有一定的实际意义,但是不能清晰地解释单个协变量的效应[5];岭回归虽能较好地处理变量间的多重共线性,但因它不能降低维度而无法提供一个稀疏的模型;基于树的集成方法则因调整参数过多,而导致结果的可解释性往往较差.

  • Boosting方法在高维数据分析中的应用

    作者:贾慧珣;刘晋;李康

    目的 随着现代基因组学、蛋白组学和代谢组学等研究兴起,产生了大量的高维组学数据.对高维组学数据的分析,其重要任务是对样品进行分类及筛选出具有生物学意义的特征标志物.本项研究针对这一问题,采用目前公认效果较好的Boosting方法进行高维数据分析,并探讨Boosting算法在高维数据研究中的应用条件和效果.方法 通过多次迭代,Boosting能够将基础弱分类器(决策树)形成优效分类器.模拟试验研究和验证了在含有大量无差异变量情况下对分类及变量重要性度量的效果,并通过实际基因表达数据进一步考核其应用效果.结果 模拟试验显示,应用Boosting方法与决策树所建的组合模型对分类具有较高的准确性,并对噪声变量的干扰具有一定的抵抗能力.分类的同时能够对变量的重要性进行有效的评价;在保留了所有基因的情况下,对结肠癌真实基因表达数据的分类效果甚为理想,并为医学研究中结肠癌致病基因的发现提供了线索.结论 基于决策树所构造的Boosting组合分类模型,可以有效地应用于高维数据的判别分类及变量重要性评价的问题.Boosting算法在解决小样本、多噪声的高维问题中表现出许多潜在的优势,与目前使用的其他方法相比,对于具有复杂结构高维数据,Boosting算法有其明显的自身特点,如运算速度快,适用性更强,软件实现相对容易等,是一种值得推荐和进一步研究的方法.

  • 基于正则化回归的变量选择方法在高维数据中的应用

    作者:荣雯雯;张奇;刘艳

    变量筛选和模型估计一直是高维数据的研究热点,而高维数据的维度灾难问题日渐突出,传统的统计分析方法因模型不稳定不再适用,本文对高维数据中基于正则化回归的变量选择方法的原理、适用的数据类型及优缺点、调整参数的选择进行综述.

360期刊网

专注医学期刊服务15年

  • 您好:请问您咨询什么等级的期刊?专注医学类期刊发表15年口碑企业,为您提供以下服务:

  • 1.医学核心期刊发表-全流程服务
    2.医学SCI期刊-全流程服务
    3.论文投稿服务-快速报价
    4.期刊推荐直至录用,不成功不收费

  • 客服正在输入...

x
立即咨询