首页 > 文献资料
-
基于多特征信息及Ma-Ada多分类器融合的蛋白质结构类预测
蛋白质序列特征表示和机器学习算法是影响蛋白质结构类预测效果好坏的两个重要方面.本研究基于k-字统计频率和k-片段位置分布两种特征提取方法,将分别提取到的氨基酸序列信息和物理化学性质信息同蛋白质二级结构信息进行融合,建立17维和57维的特征信息集,并尝试在Adaboost.M1算法中引入Multi-Agent多智能体融合的思想,提出了一种Ma-Ada多分类器融合算法.该算法作为蛋白质结构类的预测工具,充分挖掘了单分类器度量层信息以及各个单分类器之间的交互融合信息.实验结果表明,Ma-Ada算法在Z277、Z498、1189和D640四个蛋白质数据集的57维特征信息集上的分类率分别达到了91.3%、96.8%、85.3%和87.2%,在17维特征信息集上的分类率也分别达到了90.6%、95.8%、84.8%和88.3%.与其它蛋白质结构类预测方法的结果相比,本方法能够获得较好的分类率.
关键词: 蛋白质结构类预测 特征信息集 Ma-Ada多分类器融合 -
基于二叉树支持向量机的蛋白质结构类预测
提出了一种基于二叉树支持向量机(BT-SVM)的蛋白质结构类多类预测新方法.采用26维的向量来表示蛋白质序列的特征.BT-SVM多类分类方法能消除SVM在多分类问题中存在的不可分数据问题.采用两个经典数据集作为测试数据,通过自身一致性和n折叠交叉验证方法测试了新方法的性能.预测结果表明新方法具有良好的预测能力,与使用同一数据集的已有结果相比较,新方法的Jackknife结果和目前好的方法取得的结果相当,可作为蛋白质结构类预测的一个工具.