Hi!请登陆

临床科研数据库平台关键技术研究与实现

2021-2-19 35 2/19

临床科研是人类探索疾病机制、拓展医学认知、促进医学创 新、提升医疗质量的重要途径。 临床数据是开展临床科研的基 础。电子数据采集(electronic data capture,EDC)系统可根据研究者 的需求设计并实现电子表单进行数 据采集,是目前主要的数据采集手段。

随着医疗信息化的不断发展,医院积累了大量的临床诊疗数 据,有效利用真实环境中产生的数据开展临床科研,已成为国内外学者的迫切需求,它不但可以解决基于传统EDC系统人工采集数据的 烦恼,而且能为临床科研带来更加 真实而丰富的数据资源。 临床科研数据平台是对分散在 医院各类信息系统中的临床诊疗数据进行整合和规范化处理,为临床研究提供多元数据服务的综合性平 台。近几年来,构建临床科研数据
平台已逐渐成为研究型医院建设的重点内容。

1. 临床科研数据平台需解决 的关键问题

目前,虽然真实环境下的临床 诊疗数据不断积累,但是数据的可 及性与可用性较低,导致了这些数 据很难被临床科研有效利用,这也是临床科研数据平台亟需解决的关 键问题。

1.1 临床数据的可及性问题 虽然很 多医院已经建设了HIS、电子病历 等信息系统,每天都在产生大量宝 贵的可用于临床科研的数据资源, 但是这些数据的可及性不高,主要 体现在:系统主要面向医疗业务流 程,数据往往不能开放共享;大量 临床科研所需的数据分散存储在不 同的信息系统之中;部分诊疗过程 未完全数字化,如特殊护理记录 等;新型医疗设备进入医疗机构 形成新的数据/信息源,与现有信
息系统缺乏有效联接;各医疗机构 信息化建设水平参差不齐;系统异 构等等。所有这些问题的存在,为 临床科研的数据获取设置了重重障 碍,简单的数据获取需求会经由临 床研究者与信息科的反复沟通,有 时还会涉及厂商,耗时数月才得以 完成,在如此高昂的沟通成本下, 临床研究者往往被迫仍旧选择手工 采集数据的方式。

1.2 临床数据的可用性问题 与传统 的临床试验不同,真实世界场景中 所产生的数据并未经过严格的数据 质量控制;与此同时,在整合不同 系统临床数据的过程中,也可能引 入新的数据质量问题。这些数据质 量问题包括:数据不充分,缺乏用 于某项临床科研的关键数据;逻辑 错误、录入差错、同一患者多个主 索引等数据不可靠问题;同名异 义、异名同义等数据不标准问题; 数据未结构化,隐藏在自然语言报
告或病历中,如“阴性切缘切取次 数”;针对特定研究案例存在相关 数据少或不平衡的问题。低质量的 临床数据会导致错误的研究结论, 因而很多情况下研究者即使获取到 了临床数据,但仍需要花费大量的 时间过滤、清洗、转换数据,给研 究带来了巨大的负担。

2.临床科研数据平台构建及其关键技术

针对临床数据的可及性和可用性低的问题,很多医院均把建设临 床科研数据平台作为解决该问题的 主要方法。临床科研数据库平台的 系统框架如图1所示,它从不同系 统和设备中抽取临床数据,进行数 据治理,形成可供临床科研所用的 高质量临床数据库,在此基础上, 针对不同课题研究的需求,提供患 者隐私匿名化、入组患者智能筛 选、动态表单数据采集、临床数据 统计分析等共性数据服务。信息模
型和质量评估贯穿临床数据从抽 取、治理、存储到应用的全过程, 前者为平台提供了临床数据管理和 共享的基础,后者保障了平台中临 床数据的质量。 数据建模、抽取、治理、应用 等技术在各类数据集成整合平台上 都会涉及,但是针对临床科研需求, 如何实现这些技术来解决临床数据的 可及性和可用性问题却有其特殊性, 以下从这两个问题出发对平台的关键 技术及解决方案进行介绍。

2.1 提高数据可及性的关键技术 针 对临床科研来说,数据可及性包括 两个内涵,一是需要提供一种统一 的、易理解的临床数据与科研数据 的表达和共享访问方式,二是针对 临床科研的主要环节:患者入组筛 选以及研究特征变量采集等,为不 熟悉信息技术的研究者提供更为直 观的数据获取方法。

2.1.1 统一的数据表达与共享访问 信息模型是表达数据的主要方法, 也是实现数据共享访问的基础。平 台中临床数据和科研数据的内容有 重叠但不完全一致,它们的信息模 型往往遵循不同的标准:临床数据有openEHR、HL7等国际信息建模 标准;科研数据有CDISC、CDE 等标准。如果采用多个信息模型进 行表达,会导致数据难以共通融 合,无法进行数据的共享。 基于openEHR建立能表达所有
覆盖临床数据和科研数据的统一信 息模型。openEHR是一种开放的国 际医疗信息模型标准,它基于分层 建模的方法,不但具有较好的可扩 展性,而且便于临床研究者理解, 在医疗健康数据的语义互操作、利 用与共享方面具有优势。openEHR 通过开放式的Clinical Knowledge Manager(CKM)平台已经发布了 大量得到国际专家公认的模型,超 过12 000个数据项定义,覆盖了大
多数临床诊疗数据。以此为基础, openEHR提供了一种高度可扩展 “搭积木式”的建模方法,只需对 已有公开发布的模型中未定义的数 据项进行扩展即可完成建模。针对 “非小细胞肺癌”临床科研数据的 建模实践表明,在课题需要的150 项非小细胞肺癌患者诊断、治疗和 随访数据中,仅有其他突变位点、 靶向治疗等16个数据项需要扩展定 义(图2中加旗标的框中所包含的部分)。这种方法可以在保证模型统
一且稳定的前提下,又能尽可能满 足不同课题数据需求的动态扩展。 为了保证在信息模型动态扩展 的同时还能提供一致的数据的共享 访问方式,提出了一种模型驱动的 临床科研数据库平台实现方式, 也就是说数据库结构可随openEHR 模型扩展而自动调整。这样, openEHR模型扩展后,无需修改平台软件,研究者就可以非常方便地 在表单中选择模型中新增或修改的 数据项访问数据,其他数据利用者
也能动态配置相应的RestfulAPI接口访问数据,从而大幅提高了数据 的可及性。

2.1.2 入组患者的智能筛选 从平台 的海量数据中快速准确地筛选出足 够数量符合入组条件的患者是临床 科研成功的关键,但是由于临床研 究者的知识背景所限,他所提出纳 排条件往往很难从平台中直接进行 检索,如查询条件“化疗后白细胞 计数降低的患者”中“化疗”在数 据库中往往不会记录,“白细胞计 数降低”这样的约束也很难用通用 的检索工具表达。 为此,着重从概念表达和约束
表达两个方面入手增强了现有检 索工具的能力。具体来说,首先 设计一种直观的检索界面方便研 究者表达筛选条件;然后基于一 种形式化、表达能力强的openEHR Expression Language(EL)语言建 立筛选条件中的概念与信息模型中 数据项的映射关系以及表达复杂的 约束条件;最后,将EL表达式自 动转换为计算机可执行的SQL语句 进行检索(图3)。 为进一步提高可及性,研究了
一种可直接支持自然语言筛选条件 的检索工具。利用自然语言处理技 术自动解析临床研究者的筛选条件, 同时融合不同来源的知识进行概念的 语义扩展,并使用关联规则、贝叶斯 推理等技术对临床数据库进行挖掘, 尽可能筛选出跟研究者所述纳排条件 相符或接近的患者。

2.1.3 动态表单中的数据智能转换 临床科研所需要的数据大量是一些 问答式的观察性或结局变量,如 “是否服用过他汀类药物?”“是 否行静脉溶栓治疗”“M1血管狭 窄程度”,很难直接从临床数据库 中获取。研究者往往只能采取人工 解读病历进行数据录入的方式,耗 时耗力且容易出错。 设计了一种支持数据智能转换 的动态表单技术,首先动态配置科 研数据与临床数据项之间的关联,
其次针对不同种类数据进行自动 转换,并可把相关联的临床数据显 示在表单右侧的参考视图上,便于研 究者对自动转换结果进行核对或在录 入时快速定位相关联数据(图4)。 具体来说,“患者发病天数”“BMI 指标”等数据通过逻辑计算进行转 换;“HER-2”“EGFR”“分化程 度”等数据通过解析报告自然文本获 取;“是否既往多次CT检查”“是 否进行二次手术切除”等数据通过
对患者诊疗事件进行自动统计分析 后获取;“急性淋巴细胞性白血 病”“急性淋巴细胞白血病”等临 床医学术语通过术语相似度计算匹 配出相近的标准术语或编码;“当 前化脓情况”“病变畸形情况”等 数据项通过定位随访收集的图片、 视频、语音的文件进行参考录入。 在“非小细胞肺癌”临床科研 数据库项目中,基于上文所述的方 法,在研究所需的150项数据中, 144项数据(96%)可以通过直接
或转换的方式从电子病历数据中获 取,极大地提高了数据的可及性。

2.2 提高数据可用性的关键技术 数 据质量是数据可用性的重要标志。 从医疗信息系统中抽取的临床数据 往往质量较低,数据质控贯穿着临 床科研数据库平台的数据生产的整 个过程(图5),在数据质量评估 的基础上,对抽取的临床数据进行 治理,以及对录入的科研数据进行 校验。

2.2.1 临床数据质量的自动评估 要 提升临床数据质量,首先需要通过 质量评估发现数据中存在的质量问 题,才能够“对症下药”。目前已 经发表的质量评估模型或框架仅对 数据质量特性进行概括性描述,如 “观察值或测量值符合预期的时间属性”,在具体评估时依赖专家 主观评价。因此,构建一套定义清 晰、无歧义的临床数据质量评估指 标是基础。 文献中包含了大量来自专家学 者的经验知识,实际项目中的数据
质量问题也是重要知识来源。分析 了30篇国内外文献和3 712条实际 项目中数据质量问题,对碎片化的 数据质量评估相关知识进行汇集和 凝练,最终构建了涵盖完整性、合 理性、准确性、时间性、一致性五 种质量维度的43项临床数据质量评估指标,在质量评估指标的基础上,设 计并开发了临床数据质量的自动化 评估工具。对于完整性、准确性相 关的大多数指标,采用了基于逻辑规则的自动化评估技术,考虑到临
床数据质量评估往往涉及众多数据 项,通过手工方式配置规则费时费 力,实现了从openEHR信息模型中 提出数据约束关系来自动生成规则的方法,可以大幅提高规则配置效 率。对于数据准确性、一致性相关 指标,利用数据项可能在多个数据 源中出现的特点,例如文本病历和 结构化医嘱中都会记录患者在院的 治疗信息,通过信息提取技术从病 历文本中提取患者的关键信息,并 与结构化信息比较,自动核查数据
项的一致性;对于患者主索引重复 等合理性指标,通过计算患者不同 记录的相似性,自动检测数据中的 重复患者。

2.2.2临床数据的自动处理 。针对不 同的质量问题,需要针对性地进行 数据治理,包括:对缺失数据的填 充,对冗余数据的去重,同一患者 主索引的归一化,医学术语的标准 化处理等等,自动化的数据处理工 具可以大幅提升数据治理的效率, 是临床科研数据库平台的关键技 术。以下对其中三种自动化数据处 理技术进行介绍。 主索引自动匹配:结合国内外 患者身份标识标准,设计了一套通
用患者身份匹配框架,基于多字段 相似度计算患者身份信息匹配的可 能性,并在数据缺失的情况下通过 最大期望算法估计缺失值,在患者信息缺失时仍保持患者匹配算法的 稳定性,相较于传统匹配算法具有 更好的实际应用价值。 术语自动标化:首先通过数据 预处理进行文本分割、术语去重以 及术语清洗,接着针对不同临床领 域特异性使用不同的文本相似度方 法与文本匹配模型,比如药品领域
多包含同音错别字,使用拼音相似 度算法具有更好的标准化效果,最 后通过算法推荐最优匹配结果。目 前已经在诊断、药品、检验和检查 四大临床领域形成特有术语标准化 方案,并在自动标化中取得了良好 的结果。 结构化信息自动提取:有些临 床科研缺失的结构化信息隐藏在病 历文本中,需要实现针对性的信息 提取技术。例如肿瘤TNM分期信 息往往存在于各类影像报告中,基 于命名实体识别和关系抽取从患者
CT影像报告中自动获得与分期相 关的概念及其关系,再利用规则进 行分析推断,得到分期信息。

2.2.3 科研数据的自动校验。临床数 据库并不能满足临床科研的全部数 据需求,仍然需要通过表单录入的 方式收集患者数据。为了确保数据 质量,对录入数据进行校验十分必 要。基于前述的数据质量评估指 标,设计并实现了融合质量自动校 验和核查功能的动态表单工具。 具体来说,在设计表单时,根 据所选择的数据项定义,可以把数 值的完整性、合理性等评估指标自 动转换成数据校验的规则,在录入数
据时对数据进行核查,不满足校验规 则的数据则无法进行提交(图6a)。 对于部分需要对多个数据项进行综 合评估的指标,如变量随时间变化 的趋势等,在录入完成后通过设计 相对应的评估规则或算法对整体数 据进行数据校验,形成数据质疑报 告,反馈给数据录入人员进行问题 追溯和修改(图6b)。通过数据 采集时/后对数据的质量校验与核 查,提高了数据的可用性。

3.结论

提高临床数据可及性和可用性 是临床科研数据库平台需要解决的 核心问题,为此需要研发临床数据 获取、治理、存储、共享、利用的 关键技术,建立面向临床科研的数 据有效利用的技术体系。虽然目前 各项技术已有发展,但离实现“把 访问数据的权利交给真正需要数据 的人”的最终目标尚有距离,仍然 需要不断探索,发挥临床数据的真 正价值,促进医学创新。

本文作者吕旭东 田琪 蔡海领 李梦阳 陈雅妮 段会龙,来源 中国数字医学。

相关推荐