• 1.60 MB
  • 2022-04-29 14:35:18 发布

最新面向中文电子病历的NLP关键技术研究(39)课件PPT.ppt

  • 58页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'面向中文电子病历的NLP关键技术研究(39) 电子病历(EMR)医务人员在医疗活动过程中,使用医疗机构信息系统生成的文字、符号、图表、图形、数据、影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录2014年4月13日2021/8/22021/8/2 中文电子病历(CEMR)对患者身体状况的半结构化专业描述2014年4月13日2021/8/22021/8/2 语法标注规范制定基于PCTB规范进行迭代修订人机互助医生协助一致性评价2014年4月13日2021/8/22021/8/2 语法标注规范制定规范中一些重要修订筛选、补充、细化PCTB词性标注规范例如,“伴有视物模糊”中的“视物”提出适用于CEMR的术语切分方案PCTB:“吃饭”不切分,“吃梨”“吃桃”切分CEMR:“持物”“抗凝”是否切分?以“抗凝”为例:2014年4月13日2021/8/22021/8/2 语法标注规范制定标注质量控制表1规范修订前后主要词性歧义项分布表2前3次迭代分词和词性标注准确率及一致性PCTB词性标注规范面向电子病历的词性标注规范歧义项数量歧义项数量NNVV89NNVV47JJLC72NNM15MLC64JJNN9NNVA63NNVA9JJNN37NDNN6迭代次数中文分词词性标注A1F1值(%)A2F1值(%)IAA(%)A1Precision(%)A2Precision(%)IAA(%)196.7692.2796.5396.6888.5389.25295.5196.9497.8997.3697.8195.18398.4996.4798.2597.8097.6095.602014年4月13日2021/8/22021/8/2 语法标注规范制定分词、词性标注、句法标注规范2014年4月13日2021/8/22021/8/2 语法标注规范制定标注结果138份带有词性、句法标签的电子病历来自神经内科和普通外科包括出院小结和首次病程记录2014年4月13日2021/8/22021/8/2 语法标注规范制定CEMR句法树库构建的主要困难:目前没有任何基于CEMR的标注语料各级标注均需要医生的参与不同医疗机构、不同科室病历差异较大2014年4月13日2021/8/22021/8/2 CEMR句法树库构建语法标注规范制定语法标注结果分析高精度词性标注系统2014年4月13日2021/8/22021/8/2 语法标注结果分析CEMR文本语言的特点:包含大量专业术语(如“共济运动”、“脑梗死”)、习惯用语(如“伴”、“否认”)及缩略词(如“CT”、“MMR”)常用数字、量词和形容词表示检查结果(如“100/70mmHg”)句子结构不完整,但规律性较强频繁使用并列长句,导致句法结构趋于扁平2014年4月13日2021/8/22021/8/2 语法标注结果分析通用标注模型效果词性标注平均准确率仅为82.35%Fig.2a出院小结各部分标注效果Fig.2b首次病程记录各部分标注效果2014年4月13日2021/8/22021/8/2 语法标注结果分析通用标注模型效果句法分析F1(autopos):53.58%F1(goldpos):73.19%Fig.3a出院小结各部分标注效果Fig.3b首次病程记录各部分标注效果2014年4月13日2021/8/22021/8/2 语法标注结果分析实验数据:训练集:56份中文电子病历调试集:14份中文电子病历实验结果:CORPUSPOS(%)PARSE(%)CEMR(group)93.5980.68CEMR(all)93.7680.36CEMR(single)93.5380.11PCTB77.6853.58*CEMR(all)85.9468.462014年4月13日2021/8/22021/8/2 CEMR句法树库构建语法标注规范制定语法标注结果及分析高精度词性标注系统2014年4月13日2021/8/22021/8/2 系统处理流程2014年4月13日2021/8/22021/8/2 中文分词与词性标注的联合模型感知器算法输入:训练样本;迭代次数T初始化:参数向量训练过程:fort=1...T,i=1...n使用beamsearch算法找到当前参数下满足下面条件的标注序列如果则更新参数向量输出:参数向量2014年4月13日2021/8/22021/8/2 基于转移的错误驱动模型提出适用于CEMR的转移模板扩展经典的训练算法:1.以转换前为当前词的规则2.以转换前为条件的规则3.以转换后为当前词的规则4.以转换后为条件的规则2014年4月13日2021/8/22021/8/2 实验结果及分析实验数据:训练集:PCTB语料+110份中文电子病历调试集:14份中文电子病历测试集:14份中文电子病历实验结果标注模型分词(F1)词性标注(F1)WIpostagger94.39%93.20%词网格模型90.45%89.05%基于字的模型90.15%88.73%管道式模型84.15%82.11%2014年4月13日2021/8/22021/8/2 CEMR实体和实体关系语料构建实体标注语料规模和科室分布标注语料中实体的统计分析实体标注规范制定实体标注结果及评价2014年4月13日2021/8/22021/8/2 实体标注语料规模CEMR实体标注语料规模原始语料:2012全年的电子病历,共144230份,来自35个科室,87个子科室已校对语料:3085份中文电子病历,按照上述子科室平均抽取已标注语料:991份中文电子病历,包含为479420个字符,35327个实体2014年4月13日2021/8/22021/8/2 实体标注语料科室分布CEMR实体标注语料分布2014年4月13日2021/8/22021/8/2 CEMR实体和实体关系语料构建实体标注语料规模和科室分布标注语料中实体的统计分析实体标注规范制定实体标注结果及评价2014年4月13日2021/8/22021/8/2 标注语料中实体的统计分析对比CEMR和开放领域语料的实体密集度开放领域语料:MET-2中的中文新闻语料,共104个文档2014年4月13日2021/8/22021/8/2 CEMR实体和实体关系语料构建实体标注语料规模和科室分布标注语料中实体的统计分析实体标注规范制定实体标注结果及评价2014年4月13日2021/8/22021/8/2 实体标注语料构建团队语料构建团队研究室成员:2名博士生,1名硕士生主要负责标注规范初步制定、实体关系标注参与标注的医生:哈医大四院神经内科医生(硕士)哈医大二院呼吸内科医生(博士)主要负责标注规范修订、实体标注和标注人员培训2014年4月13日2021/8/22021/8/2 实体标注规范制定●实体标注规范制定●实体标注培训2014年4月13日2021/8/22021/8/2 TherealizationofChineseinterfaceforUMLS2014年4月13日Copyrights@2014HITAllRightsReserved实体标注规范制定CEMR实体和实体关系标注规范2021/8/2 CEMR实体和实体关系语料构建实体标注语料规模和科室分布标注语料中实体的统计分析实体标注规范制定实体标注结果及评价2014年4月13日2021/8/22021/8/2 TherealizationofChineseinterfaceforUMLS2014年4月13日Copyrights@2014HITAllRightsReserved实体标注结果CEMR实体标注样例2021/8/2 TherealizationofChineseinterfaceforUMLS2014年4月13日Copyrights@2014HITAllRightsReserved实体标注结果CEMR实体关系标注样例2021/8/2 实体标注语料一致性评价正式标注质量控制2014年4月13日2021/8/22021/8/2 实体标注语料一致性评价评价标准实体边界匹配实体边界、实体类型匹配实体边界、实体类型、实体修饰类型匹配IAAKappa类型修饰边界+类型+修饰186.7%98.0%95.5%73.6%293.9%97.5%95.7%85.4%394.2%98.4%96.5%86.4%2014年4月13日2021/8/22021/8/2 其他研究工作CEMRPHKUMLS个性化健康信息抽取个性化健康知识表示个性化健康知识维护2014年4月13日2021/8/22021/8/2 已录用文章XinboLv,YiGuan,BenyangDeng.TransferLearningbasedClinicalConceptExtractiononDatafromMultipleSources.JournalofBiomedicalInformations,2014(SCI2.131)杨锦锋,于秋滨,关毅,蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述,自动化学报,2014(long)蒋志鹏,赵芳芳,关毅,杨锦锋.面向中文电子病历的词法语料标注研究.高技术通讯,2014,62014年4月13日2021/8/22021/8/2 谢谢!Q&A2014年4月13日2021/8/22021/8/2 运算 末尾带0的口算乘法30×260×5500×8400×98×4007×90030×4060×5060×8070×9080×40050×900 菜市场里,每箱有400把菠菜,一共有4箱,请问一共有多少把菠菜? 不进位乘法13×223×333×222×38×11124×242×222×411×6132×2 邮递员每天要送110封邮件,那么一个周他要送多少快件呢? 小明的卧室里有一个书架,书架一共有4层,每层有书本20册,请问小明的书架上共有多少本书? 几倍多(少)几的问题李师傅加工了19个零件,王师傅加工的零件数比李师傅加工的2倍多1个。王师傅和李师傅一共加工了多少个零件? 学校组织兴趣社团,绘画组有45人,合唱团的人数比绘画组人数的2倍多27人。合唱团比绘画组多多少人? 三年级学生植树54棵,四年级学生植树的棵数是三年级学生植树棵数的3倍多12棵,四年级学生植树多少棵? 食堂有面粉260千克,有大米6袋,每袋25千克。大米和面粉一共多少千克? 发散思维小明今年14岁,爸爸的年龄是小明的3倍,四年后爸爸多少岁? 一支圆珠笔2元钱,一支钢笔的价钱比一支圆珠笔的6倍多3元,小明带了15元钱买了一支钢笔和一支圆珠笔够吗? 搭配问题贝贝的早餐有几种不同的搭配?主食:面包、包子。饮料:牛奶、豆浆。要求:饮料和主食只能各选一种。 豆豆从家到超市有几条路可以走?豆豆家超市 密码只有两位数,个位是1、3、5、7中的一个数字,十位是2、4、6中的一个数字。密码共有几种可能? 估算小试牛刀:近似数69()199()203()799() 93()28()305()406()45()102()88()801()295()595()802()597() 估算下列各题53×8≈()×()=()310×9≈()×()=()703×7≈()×()=() 练习64×7≈()×()=()78×9≈()×()=()99×5≈()×()=()501×6≈()×()=()699×8≈()×()=()'