首页 > 文献资料
-
系统流行病学
医学大数据、转化医学、精准医学时代为慢性复杂疾病及其病因的研究带来新的契机.如何实现循证医学、科学转化、合理精准是我们目前面临的任务和挑战.系统流行病学是一种进行疾病危险因素风险识别的流行病学方法,是流行病学的新领域,其利用系统生物学、流行病学、计算数学等技术将健康大数据与系统生物学结合起来,在分子、细胞、组织、人群社会行为和生态环境等多水平、多组学上深入研究疾病发生风险的统计学模型,并对未来风险状况进行计算模拟和预警预测.由于数据来源的多样性、复杂性以及大数据的特征,为系统流行病学的设计方法和分析方法提出了新的挑战.本文详细介绍了系统流行病学的理论基础、概念、研究目的、研究内容、研究意义、研究设计、分析方法及其在公共卫生领域的应用.
-
面向肿瘤精准医学的综合数据资源TCGA及其相关在线分析工具推荐
癌症基因组图谱(TCGA)是一个公共资助的项目,旨在编目和发现引起癌变的主要人类基因组变化,目标是创建癌症基因组的全面"图谱".TCGA数据库收录了多种癌症组学数据,包括转录组数据、表观遗传组学数据、基因突变数据和疾病样本临床数据等,为认识肿瘤发生的相关知识提供了丰富的资源,可以帮助科研人员更好地学习和认识癌症相关领域知识并促进肿瘤精准医学的实现.调查整理了TCGA数据在线分析工具并对其进行筛选推荐,可以帮助研究人员方便地进行TCGA数据分析.
-
多组学联合缺失数据填补方法的评价
目的 本研究旨在评价不同平台间“块缺失”数据的填补方法.如何在保证方差-协方差结构相对稳定的前提下提高多组学数据填补的精确度,对于后期数据挖掘有重要的意义.方法 利用癌症基因组图谱(TCGA)数据库的肺癌数据(甲基化数据、基因表达数据),构建不同缺失比例的数据集(缺失比例分别为5%、20%、35%、50%和65%).采用统计学填补方法均值法,马尔科夫蒙特卡洛法(MCMC)和机器学习填补法[邻近法(kNN),随机森林法(RF),多层感知机法(MLP)]对缺失数据进行填补,填补后数据集与原数据集进行比较.评价指标包括估计偏差和矩阵-2-范数.根据评价指标和填补时间,比较出填补效果优、填补时间较短的方法.结果 MLP和kNN算法在各种缺失比例下均比其他填补方法有更优的效果,填补时间也相对较短.均值法的时间短,在数据集缺失比例较小时(≤5%),填补效果与其他填补方法相当,但在高比例缺失情况下表现较差.在数据集高比例缺失情况下,RF和MCMC的填补效果优于均值法,但填补时间过长,不适用于实际工作.结论 综合比较,机器学习填补方法中的MLP和kNN两法适合于甲基化数据和表达数据的填补.
-
多组学数据整合分析的统计方法研究进展
复杂疾病往往是由环境因素、遗传因素(多个组学层面)共同作用所致.全面分析不同分子水平的信息对认识疾病的发生发展至关重要.多组学数据整合分析能够提高特征筛选检验效能、改善疾病预测精度.本文从统计学角度出发,对多组学数据整合分析的统计理论方法研究进展做一述评.