您当前的位置:
首页 > 文献资料
所属专业:
短文本文献资料
-
利用实体与依存句法结构特征的病历短文本分类方法
近年来,电子病历文本的分类、挖掘成为医学大数据研究的基础.该文提出一种利用实体与依存句法结构分析构特征集的电子病历短文本分类方法.首先对病历文本进行自然语言处理,包括分句、分词、词性标注以及实体提取,构建实体词典,利用TF-IDF方法构建词-文本矩阵并利用潜在语义分析LSA方法进行词汇特征的选择,然后分析病历文本的依存句法关系,挖掘出词汇之间的依存关系并构建特征三元组作为分类特征的扩展,后构建出分类特征向量集对病历短文本进行分类.实验证明,相比于未进行特征扩展的短文本分类,所提方法能有效地提高分类器的分类性能,其分类的准确率与F值均有明显的提高.