首页 > 文献资料
-
基于TF-IDF相对熵的中医证候量化研究*
提出了用术语频率-逆文档频率(Term Frequency - Inverse Document Frequency,TF-IDF)相对熵作为证候量化的表示方法。TF-IDF思想来源于文本信息挖掘,是文本自动分类中一种重要的方法。TF-IDF算法也体现了中医证候的自动分类思想:一个症状在特定证候中出现的频率越高,说明它在区分该证候方面的能力(即TF)越强;一个症状在所有证候中出现的范围越广,说明它区分某证候的能力(即IDF)越低,并用具体实例进行了验证。
-
中文专利文档关键词自动提取方法研究进展
专利是一种包含学术、商业、法律等信息的科技文献,记录了大量新颖、实用的研究成果,近年来关注度不断提高.利用共词分析、文本聚类等方法对专利文献进行信息分析时,往往需要借助关键词提取技术达到降低数据复杂度、过滤噪声的目的.关键词提取技术多数基于统计规律.本文对基于词频、关联信息和多特征的关键词提取方法研究进展进行了总结,介绍了常用的分别以TF-IDF、熵、词汇链、TextRank、遗传算法、决策树学习、朴素贝叶斯分类器、支持向量机等为主导的方法.另外,本文还总结了在专利文档关键词提取中可能用到的词频、位置、语义、关联、自身等方面的特征.实际应用中,关键词自动提取技术可作为一种有力的辅助手段,降低数据处理过程中的人力和时间成本.
-
利用实体与依存句法结构特征的病历短文本分类方法
近年来,电子病历文本的分类、挖掘成为医学大数据研究的基础.该文提出一种利用实体与依存句法结构分析构特征集的电子病历短文本分类方法.首先对病历文本进行自然语言处理,包括分句、分词、词性标注以及实体提取,构建实体词典,利用TF-IDF方法构建词-文本矩阵并利用潜在语义分析LSA方法进行词汇特征的选择,然后分析病历文本的依存句法关系,挖掘出词汇之间的依存关系并构建特征三元组作为分类特征的扩展,后构建出分类特征向量集对病历短文本进行分类.实验证明,相比于未进行特征扩展的短文本分类,所提方法能有效地提高分类器的分类性能,其分类的准确率与F值均有明显的提高.
-
基于TF-IDF量化的模糊诊断矩阵在中医诊断中的应用
以TF-IDF相对熵为证候的量化依据, 构建症状-证型模糊诊断矩阵, 并以此为基础, 结合患者的症状矢量空间, 建立中医证候诊断的推理模型及推理机制.实验表明, 此模型对中医证候诊断是可行的, 也为中医智能化诊断中的机器学习, 提供了一种重要的途径与方法.
-
学科背景知识在医学文本特征抽取中的应用
分析目前科技文献文本特征抽取方法研究现状,将基于背景知识的TF-IDF方法应用到医学文本特征抽取中,在4个医学领域中进行试验对比,结果表明该方法在抽取词汇数量较少时可以显著提高抽取效果,在对文本集合中通用词的过滤及重要特征词的识别方面明显优于使用通用IDF的TF-IDF方法.
-
数据挖掘在移动客户投诉分析中的应用研究
针对通信企业分析汇总海量客户投诉数据提取有效信息时工作量较大、定位不够精准的问题,文章提出了一种基于Python的客户投诉大数据挖掘的方法,通过Python编程将离散的文本信息运用TF-IDF词频统计的方法精准定位出投诉热点,为企业降本增效、NPS提升提供重要数据支撑.