实用医学杂志在线投稿      医学杂志投稿     齐鲁医学杂志投稿   医学论文杂志投稿

  知识发现方法及其在中医医案研究中的应用
  知识发现是指从数据集中识别出有效的、新颖的、潜在有用的,以及终可被理解的模式的非一般的过程[5, 6]。知识发现是多学科交叉的新兴边缘学科。近年来,随着数据获取和数据存储技术的快速发展,各种数据库、数据集和数据仓库中存储的数据量飞速增长。前国际上,知识发现的研究主要是以知识发现的任务描述、知识评价与知识表示为主线,以有效的知识发现算法为中心。知识发现过程一般由三个主要的阶段组成:数据准备、数据挖掘、结果表达和解释。知识的发现可以描述为这三个阶段的反复过程。中医医案中的知识发现也不例外。
  要有效地利用KDD进行中医医案知识发现,首先必须进行数据准备工作。目前,在;中文科技期刊数据库(引文版)”、;中国期刊全文数据库”等数据库中,以发表论文的形式实现了部分现代医案的数据准备工作。此外仅少数专题性质的数据库收录了一些古今医案。再加上散见于古今医籍和文史书中的医案,中医医案的数据准备工作将是一个庞大的系统工程。中医医案的数据准备中具体要解决的是:设定并明确中医医案知识发现的目标;对中医医案数据加以充分理解;对相关的中医医案数据进行必要的预处理,使其符合KDD算法的要求;选用合适的KDD方法进行数据建模。其中中医医案中的知识发现的目标,可以从指导中医临床应用角度,对医案内容加以分析归纳研究,如对医者临证思维的阐释,对各医家、流派学术思想的探讨,各专科、专病、专症理法方药运用特点的归纳,以供临证学习参照,并可建立智能诊疗系统。也可以就其中蕴含的中医医理、药理进行研究,寻求中医药基础理论的新突破、中药新药的勘探等。
  2.2  中医医案中的知识发现可能运用的主要技术
  2.2.1  统计方法
  从历史上看,统计工作主要集中在测试预先的假说以及使模型适合于数据等。研究上,统计方法通常依赖于一个明确的潜在概率模型。此外,人们假定这些方法是由统计学家来使用的;为了生成候选假说和模型,人的干预是必要的。目前已有中医医案论文中用了频数统计的这种粗浅的医学统计方法来进行研究,通过这种计量的研究使得结论更有说服力。如姜良铎[7]在董建华的指导下,运用统计学原理对古今700多医家10 009则温病医案进行分析,从而总结出温病诊断指标及证治方药规律。
  2.2.2  聚类分析
  又称集群分析,是指利用物以类聚的原理,把大量无序的数据分成数类,有助于对大量数据中的规则予以认识,它是一种数理统计方法,可将一些观察对象依据某些特征加以归类,在生物学和医学分类问题中有着广泛的应用。在中医医案研究中,聚类分析能较好地避免分类过程中掺杂的主观因素,能客观地准确地反映研究对象,并从中可能发现其内在的客观规律[8]。如周德生[9]统计了明清时期26部现存医案中的津液亏损病案573例,采用R型系统聚类分析方法,得出津液亏损中每个亚型的几个主要用药,并揭示了明清时期津液理论的某些特征。
  2.2.3  人工神经网络
  人工神经网络是指模拟人脑工作机制的一种计算模型,它是由非处理单元组成的非线性大规模自适应系统,以类似于人脑神经网络的并行处理结构进行信息的高级处理。由于它具有自适应性、并行处理能力和非线性处理的优点,所以在医学领域被广泛应用[10]。目前已有学者利用人工神经网络原理实现对病案的分析,用病症分类神经网络来说明知识自动获取方法的实现。它应用人工神经网络的反向传播算法(back propagation algorithm, BP),通过研究中医医案,形成专家知识,对BP网络进行训练,从而使网络获得一定的学习能力,将训练所;学习”而来的;知识”运用到新的病症判断中,从而实现对新知识的获取[11]。其虽然只是举了一个例子,但引进了医案分析的新方法。
  2.2.4  决策树
  该树的每个非终端点均表示被考察数据项目的一个测试或决策,根据测试结果选择某个分支。为了分类一个特定数据项目,从报结点开始,一直向下判定,直到到达一个终端结点(或叶子)时为止。当到达一个终端结点时,一个决策便形成了。决策树也可解释成一种特殊形式的规则集,其特征是规则的层次组织关系。前已述及,中医医案数据是混乱又复杂的经验数据。而处理大量混乱而复杂的经验数据的一个很好的方法是决策树分类技术。利用知识发现中的决策树方法来对这些数据分析,可以为医生提供极具价值的知识,从而对临床医疗方案进行优化。目前已有研究者从医院病案室保存的冠状动脉粥样硬化性心脏病(简称冠心病)病案中选取了一些数据作为挖掘的原始数据集,进行了基于决策树的医疗数据分析,得到了良好的效果[12]。同样,我们也可以进行基于决策树的中医医案数据分析,从而优化传统的中医医疗方案。
  2.2.5  模糊集与粗糙集
  模糊集是一种表达和处理不确定性的重要方法。不确定性以多种形式发生在今天的数据库模型中,如不精确、不完全、不典型、不一致、含糊,等等。模糊集利用不确定性使系统的复杂性变得可处理。当精确输入不可能或太昂贵时,模糊系统就是一种强有力的模型方法。粗糙集合理论中的模糊性就是一种基于边界的概念,即一个不精确的概念具有模糊的不可被明确划分的边界。粗糙集用一个集合的上下界来定义,下界中的每个成员都是这个集合的成员,而上界的每个非成员也一定是这个集合的非成员。粗糙集中的上界是下界和边界区域的并集。边界区域的成员可能(但是不能肯定)是这个集合中的成员。因此,粗糙集可以被看成是一个有三级成员函数(是,否,可能)的模糊集。象模糊集那样,粗糙集是处理数据不确定性的一种数学概念。与模糊集类似,粗糙集很少单独使用,而通常是与规则推导、分类、聚类等其他方法一起组合使用。已有学者基于奇异粗集及其元素迁移,研究其在中医药辨证诊治过程和中药方加减中的应用,设计一个基于双向S?粗集的中医药辨证诊治知识支持系统,为人工智能技术在中医药诊治领域中的应用开辟了一个新的思路[13]。我们也可以采用类似方法研究中医医案中蕴含的各医家辨证诊治思维过程,从而把中医药研究引向深入。