首页 > 文献资料
-
基于条件随机域的临床文本去识别研究
目的 本研究旨在有效识别临床文本中的隐私信息,以保护患者隐私,实现临床信息的共享与利用,促进基于临床医学证据研究的发展.方法 采用中国四川省某市级区域人口健康信息平台随机抽取的18350条住院小结作为样本,基于条件随机域(conditional random field,CRF)模型,对样本数据中多种PHI类型进行识别.结果 人工标注PHI实体总数为32210个,标注一致性达到92.7%,经过对不一致标记进行校正审核,一致性收敛至100%.测试结果评估显示,除病理号、X线片号、89岁以上的年龄以外,其他PHI类型的F值均超过95%,综合F值达到98.72%.结论 本研究基于大规模多样化临床文本数据,利用机器学习的方法,实现了高效的自动化临床文本去识别.对于在保护模型的基础上开发更高效的健康大数据去识别算法以及保证去识别技术的一般性和可扩展性的研究还有待探索.
-
主题模型在临床文本挖掘中的应用现状
采用文献调研分析法对近10年国内外运用主题模型方法挖掘临床文本的研究进行归纳分析,总结研究现状和常用的主题模型方法,阐述主题模型在文本挖掘领域存在的局限性,以期为相关领域的研究提供借鉴.
-
临床文本自然语言处理系统构建研究——以cTAKES为例
从系统架构、语料库构建、应用效果3方面阐述临床文本自然语言处理系统cTAKES构建方法,从设计基于开源框架的系统架构、开发模块化组件、构建临床语料库、注重创新以及针对中文特点建设系统5个方面提出对我国中文临床文本自然语言处理系统构建的建议.