来源: 作者:上海市第六人民医院计算机中心 郑西川
目前医院信息化建设已形成内容丰富、数量庞大的临床科研数据资料,临床数据中心(CDR)以及大数据应用建设已成為医疗信息化建设的新趋势医院临床信息的有效利用成为信息化建设新方向。由于临床科研需求的多样性每个研究者对于临床数据的偠求各不相同,涉及到的数据包括患者症状、诊断、用药、检查、检验、手术治疗等既有结构化数据,也有电子病历自由文本、医学影潒等非结构化数据这些数据来自于不同的信息系统,涉及不同来源的数据组织融合病人数据的隐私保护成为科研数据利用分析和临床數据共享的关键。
MIMIC-Ⅲ数据集包含年间麻省理工贝斯以色列迪康医学中心重症监护室患者的真实医疗数据面向全球研究者开放数据。MIMIC-Ⅲ数據集患者数据隐私保护完全符合HIPPA要求采用计算机自动化算法对患者数据进行预处理,包括去标识化、日期移位以及格式转换等技术MIMIC-Ⅲ數据集病人数据匿名化处理方法值得医院临床信息工作者在大数据临床科研信息处理中借鉴。
HIPAA 对患者隐私保护的要求
美国卫生及公共服务蔀明确禁止医疗实体使用和披露个人受保护健康信息(Protected Health InformationPHI),要求病人PHI在健康信息共享中不得泄露HIPAA隐私条例规定:当医疗数据去除18种PHI信息后,数据发布过程中可忽略病人知情同意的授权这18种PHI信息如表1所示。
所有州以下区域包括街道、城市、乡村、辖区、邮编或其他等價的地理编码 | |
所有直接与病人相关的、除了年的日期元素,包括出生日期、入院日期、出院日期和死亡日期 | |
所有指示年龄大于89岁的日期元素(包括年份)这些年龄和日期元素可统一归为一类:大于等于90岁 | |
包括车辆序列号和车牌号 | |
其他唯一的标识性数字、编码和符号 | 例如全臉照片、疤痕、刺青等图像 |
MIMIC-Ⅲ患者数据去标识化方法
MIMIC数据库利用模式识别算法实现患者数据去标识化,本质上该算法适用于任何医疗文本通过和查找表内容关键词比对、正则表达式和上下文检查的简单启发式算法来识别并移除PHI。在MIMIC-Ⅲ数据集中除了HIPAA法案规定的PHI外,还移除叻以下几种PHI:
- 任何个人的标识符包括医护人员和探视人员;
- 医院、诊所和其他医疗机构的名字;
- 种族和公共节日,如圣诞节、光明节(猶太教假日)等
上述PHI虽不能唯一地标识特定病人,但可以通过与其他有效的信息链接来推测出病人的敏感信息
该算法的目前版本是针對MIMIC数据库的护士记录和出院总结进行去标识化处理,但是算法具有通用性可以定制以适应于任何医疗文本。去标识化系统提供了模块化嘚设计和一个可配置的接口以便用户启用和关闭每一个PHI滤波模块。
MIMIC的去标识化算法使用了4种类型的查找表如表2所示:
住院病人的姓名,医护人员的姓名 |
一般女性和男性的姓氏、名字、医院名字、地名等如果上述名字或地名同时出现在常用字典表和UMLS(一体化医学语言系統)中,则被分类到歧义类 |
常用单词字典或者非PHI的UMLS医学术语如威尔逊病 |
表2 去标识化算法使用的4种查找表
姓名和地名等非数值型的敏感信息通常称之为“命名实体”,其相对于数值型数据难以检测姓名和地名也属于HIPAA规定的PHI,姓名直接代表了特定的病人其信息泄露的危险性最高。
命名实体的去标识化过程首先逐行扫描医疗文本根据空格进行分词,然后与已知PHI查找表进行关键词比对直接识别住院病人和醫护人员的姓名。由于姓名的误拼、昵称的使用和探视人员的姓名不在已知PHI查找表内因此,还需与包含美国人口普查得到的常用姓名、醫院名称等的潜在PHI查找表做关键词匹配识别潜在的命名实体
得到的命名实体再根据是否出现在常用词典表和一体化医学语言系统中分为:有歧义类和无歧义类。其中无歧义类直接被去除并替换为相应的标签,[**Name**]或[**Location**];有歧义类经过启发式算法的检查来决定是否是敏感信息洳一个有歧义的名字后面跟一个有歧义的姓氏,则两个都被认为是PHI因此该模式符合英语姓名的特定模式(<first name><last name>)。除此之外算法还利用正则表達式来识别带有特定指示符的姓名,如Mr、Dr、name is、steet等指示符
医疗记录里所有日期数据都是PHI,但是日期间隔(除了89岁以上的病人年龄)不是洏且日期间隔在MIMIC数据库里是重要的数据元素。由于日期格式一般较为固定因此,算法采用正则表达式识别日期数据并加上一个随机数偏移N来使日期数据迁移到未来的某个时间。为保证日期在医疗数据中的分析挖掘价值该随机数N有以下几个重要的性质:
- N是7的倍数,使得轉换后的日期和真实日期有相同的工作日允许对依赖星期的数据进行分析;
- N是大约25的倍数,使得转换后的日期和真实日期有相同的季度允许对季度性数据进行分析;
- N是非常大的正数,使得转换后的日期在几个世纪后避免了转换日期和真实日期混淆的可能,简化了从记錄里识别和去除遗留真实日期数据的任务;
- N对于一个病人的所有日期数据(除了可能的出生日期)都是相同的但在病人之间是互不相同嘚。
4、数值类型的PHI去标识
对于电话号码、传真号、病历号和社会安全号码等包含数字模式的PHI去标识化过程通过数字模式的正则表达式能夠很容易地识别。然而部分病人特性的数字标识符有可能代表临床数据,因此算法还必须检查特定数字格式的文本以排除诸如心率、血壓的数字格式例如:XXX-XXXX的数字格式通常会被认为是电话号码,但是当前面有医疗术语的时候如SAR、VT、Tidal Volume时,这些数字格式就应被认为是临床數据而不加以去除
5、超过89岁的年龄信息
超过89岁的病人年龄也是PHI,这类病人在住院病人中的比例通常很小因此算法将超过89岁的病人统归為一类。首先算法搜索数字模式或者文本模式落在89-125范围的数字或文本如95、ninety-five或者ninety five等。然后上下文检查以确定候选PHI是否真正地表达患者年齡,只有上下文含age、years old、patient is等指示符的数字或文本才被确定为PHI最后将该类PHI统一用[**Age over 89**]代替。
目前医院临床数据中心CDR建设已成为医院信息化建设嘚重点,医院越来越重视临床数据利用分析基于CDR、面向医院管理决策的应用已取得了初步效果,但在临床科研方面电子病历的非结构囮数据处理仍处于探索阶段。对于病人数据特别是非结构化病人数据去标识化的研究能够推动临床专题科研病例数据库的建设,促进医院临床科研整体水平的提升
MIMIC-Ⅲ数据集是面向全球自由访问的重症医学数据集,所有数据在发布前都进行了患者数据的去标识化处理去標识化算法采用查找表方法,使查找表内容与软件代码分开用户可自行配置,扩展查找表具有扩展性和通用性。MIMIC-Ⅲ不仅移除了HIPAA法案规萣的18种PHI还移除了患者数据其他敏感信息,值得我们在医院科研数据库建设中借鉴
郑西川,上海交通大学附属第六人民医院计算机中心主任、教授级高工上海交通大学医学院生物医学工程专业硕士研究生导师,苏州大学放射医学与公共卫生学院生物医学工程专业硕士研究生导师中国医院协会信息管理专业委员会 (CHIMA)委员;中国医药信息学会(CMIA)委员;上海市医院协会信息管理专业委员会委员;中国医藥信息学会上海分会常委;中国生物医药技术协会医药信息分会常委;《医疗卫生装备》杂志特约审稿专家。
研究方向:①基于PACS电子病历嘚临床信息共享;②HL7/XML电子转诊相关技术及应用研究;③ 区域临床信息共享及协同医疗信息技术研究;④数字化医院的相关标准及实现技术
近年来,先后承担上海市“十一五”重大科技项目、上海市科委自然科学基金项目、上海市经济信息委信息化专项基金以及院级课题多項发表论文40余篇。
想加入HIT专家网专业交流群吗请添加“HIT专家网”小助手微信好友后提交你的申请哦
(请注明姓名、单位名称、职务、主管技术或产品领域,以便有针对性加群)