首页 > 文献资料
-
基于数据挖掘技术的消化道恶性肿瘤诊断
目的 探讨数据挖掘技术在血清肿瘤标志物(STM)联合检测诊断消化道恶性肿瘤(DTC)中应用的可能性,并比较Logistic回归模型、神经网络和朴素贝叶斯分类器及临床单一及联合STM诊断DTC的性能.方法 对301例DTC和114例消化道良性疾病患者的血清肿瘤标志物CA19-9、CA242、CA50、CEA检测值,分别建立基于统计Logistic回归、反向传播神经网络和朴素贝叶斯方法的诊断分类器,并进行10折交叉验证.利用诊断敏感度、特异度和接受者操作特征(ROC)曲线下面积对三种数据挖掘分类器、CA19-9以及4种STM并联诊断DTC的性能进行评价.结果 神经网络诊断模型的敏感度和ROC曲线下面积(Az)分别为92.0%和0.903,高于STM并联诊断的敏感度83.4%(P<0.001)和CA19-9诊断的ROC曲线下面积0.806(P<0.001),特异度69.3%与STM并联诊断的特异度68.4%相当(P=1.00);Logistic回归模型的敏感度91.4%高于STM并联诊断(P<0.001),特异度45.6%低于STM并联诊断(P<0.001),Az=0.819与CA19-9诊断相当(P=0.55);贝叶斯分类器的敏感度72.8%低于STM并联诊断(P<0.001),特异度75.4% 和Az=0.797与STM并联诊断和CA19-9诊断相当(P=0.13和P=0.61).结论 数据挖掘技术的分类方法中,神经网络的分类方法比单一STM及其并联诊断的准确性高,Logistic回归和贝叶斯方法的诊断水平与普通STM并联诊断水平相当;神经网络分类器的诊断性能优于Logistic回归模型和贝叶斯分类器,可进一步应用于计算机辅助诊断中.
关键词: 数据挖掘 消化道恶性肿瘤 神经网络 Logistic回归 朴素贝叶斯分类器 -
基于朴素贝叶斯分类器的大鼠体态自动识别
目的提出一种有效的大鼠体态识别方法,适用于不同目标分辨率的图像.方法从大鼠体态图像中提取目标的4个旋转、平移、尺度不变量,作为朴素贝叶斯网络的属性变量,将体态分为4类,作为网络的类变量.对网络进行训练,并应用训练好的网络对5组不同分辨率的图像进行识别.结果 5组不同分辨率的图像集均取得较高的识别正确率,该方法能有效克服大鼠体态差异等因素带来的目标分辨率不同对识别结果的影响,具有很好的鲁棒性,且运算复杂度低.结论提供了一种大鼠体态识别的算法,该方法具有较强的实用性.
-
基于大相关小冗余朴素贝叶斯分类器的应用
目的 将基于大相关小冗余(maximum relevance minimum redundancy,MRMR)的朴素贝叶斯分类器(na?ve bayesian classifier,NBC)应用于基因表达数据并与经典NBC、随机森林(random forests,RF)进行比较.方法 采用Matlab与R软件编程,应用结肠癌与肺癌基因表达数据集,分别采用上述三种方法进行比较研究,使用10-折交叉验证方法估计经典NBC与RF的分类准确率.结果 应用MRMR-NBC分析结肠癌基因表达数据集显示,采用信息熵(mutual information quotient,MIQ)法,当特征m=11时分类准确率达93.55%;而采用信息差(mutual information difference,MID) 法时,当m=15时分类准确率达到95.16%.应用MRMR-NBC分析肺癌基因表达数据集显示,采用MIQ法,当m=14时分类准确率高达98.63%,而采用MID法时当m=12时分类准确率达到97.26%.而采用经典NBC分析结肠癌与肺癌基因表达数据时,分类准确率分别为66.67%、80.00%;RF在分析结肠癌与肺癌基因表达数据时,分类准确率分别为81.89%、77.62%.结论 MRMR-NBC能在仅有极少属性参与分类时,得到较高的分类准确率,优于经典NBC与RF.