临床科研数据库平台关键技术研究与实现

临床科研是人类探索疾病机制、拓展医学认知、促进医学创新、提升医疗质量的重要途径。临床数据是开展临床科研的基础。电子数据采集（electronic data capture，EDC）系统可根据研究者的需求设计并实现电子表单进行数据采集，是目前主要的数据采集手段。

随着医疗信息化的不断发展，医院积累了大量的临床诊疗数据，有效利用真实环境中产生的数据开展临床科研，已成为国内外学者的迫切需求，它不但可以解决基于传统EDC系统人工采集数据的烦恼，而且能为临床科研带来更加真实而丰富的数据资源。临床科研数据平台是对分散在医院各类信息系统中的临床诊疗数据进行整合和规范化处理，为临床研究提供多元数据服务的综合性平台。近几年来，构建临床科研数据
平台已逐渐成为研究型医院建设的重点内容。

1. 临床科研数据平台需解决的关键问题

目前，虽然真实环境下的临床诊疗数据不断积累，但是数据的可及性与可用性较低，导致了这些数据很难被临床科研有效利用，这也是临床科研数据平台亟需解决的关键问题。

1.1 临床数据的可及性问题虽然很多医院已经建设了HIS、电子病历等信息系统，每天都在产生大量宝贵的可用于临床科研的数据资源，但是这些数据的可及性不高，主要体现在：系统主要面向医疗业务流程，数据往往不能开放共享；大量临床科研所需的数据分散存储在不同的信息系统之中；部分诊疗过程未完全数字化，如特殊护理记录等；新型医疗设备进入医疗机构形成新的数据/信息源，与现有信
息系统缺乏有效联接；各医疗机构信息化建设水平参差不齐；系统异构等等。所有这些问题的存在，为临床科研的数据获取设置了重重障碍，简单的数据获取需求会经由临床研究者与信息科的反复沟通，有时还会涉及厂商，耗时数月才得以完成，在如此高昂的沟通成本下，临床研究者往往被迫仍旧选择手工采集数据的方式。

1.2 临床数据的可用性问题与传统的临床试验不同，真实世界场景中所产生的数据并未经过严格的数据质量控制；与此同时，在整合不同系统临床数据的过程中，也可能引入新的数据质量问题。这些数据质量问题包括：数据不充分，缺乏用于某项临床科研的关键数据；逻辑错误、录入差错、同一患者多个主索引等数据不可靠问题；同名异义、异名同义等数据不标准问题；数据未结构化，隐藏在自然语言报
告或病历中，如“阴性切缘切取次数”；针对特定研究案例存在相关数据少或不平衡的问题。低质量的临床数据会导致错误的研究结论，因而很多情况下研究者即使获取到了临床数据，但仍需要花费大量的时间过滤、清洗、转换数据，给研究带来了巨大的负担。

2.临床科研数据平台构建及其关键技术

针对临床数据的可及性和可用性低的问题，很多医院均把建设临床科研数据平台作为解决该问题的主要方法。临床科研数据库平台的系统框架如图1所示，它从不同系统和设备中抽取临床数据，进行数据治理，形成可供临床科研所用的高质量临床数据库，在此基础上，针对不同课题研究的需求，提供患者隐私匿名化、入组患者智能筛选、动态表单数据采集、临床数据统计分析等共性数据服务。信息模
型和质量评估贯穿临床数据从抽取、治理、存储到应用的全过程，前者为平台提供了临床数据管理和共享的基础，后者保障了平台中临床数据的质量。数据建模、抽取、治理、应用等技术在各类数据集成整合平台上都会涉及，但是针对临床科研需求，如何实现这些技术来解决临床数据的可及性和可用性问题却有其特殊性，以下从这两个问题出发对平台的关键技术及解决方案进行介绍。

2.1 提高数据可及性的关键技术针对临床科研来说，数据可及性包括两个内涵，一是需要提供一种统一的、易理解的临床数据与科研数据的表达和共享访问方式，二是针对临床科研的主要环节：患者入组筛选以及研究特征变量采集等，为不熟悉信息技术的研究者提供更为直观的数据获取方法。

2.1.1 统一的数据表达与共享访问信息模型是表达数据的主要方法，也是实现数据共享访问的基础。平台中临床数据和科研数据的内容有重叠但不完全一致，它们的信息模型往往遵循不同的标准：临床数据有openEHR、HL7等国际信息建模标准；科研数据有CDISC、CDE 等标准。如果采用多个信息模型进行表达，会导致数据难以共通融合，无法进行数据的共享。基于openEHR建立能表达所有
覆盖临床数据和科研数据的统一信息模型。openEHR是一种开放的国际医疗信息模型标准，它基于分层建模的方法，不但具有较好的可扩展性，而且便于临床研究者理解，在医疗健康数据的语义互操作、利用与共享方面具有优势。openEHR 通过开放式的Clinical Knowledge Manager（CKM）平台已经发布了大量得到国际专家公认的模型，超过12 000个数据项定义，覆盖了大
多数临床诊疗数据。以此为基础， openEHR提供了一种高度可扩展 “搭积木式”的建模方法，只需对已有公开发布的模型中未定义的数据项进行扩展即可完成建模。针对 “非小细胞肺癌”临床科研数据的建模实践表明，在课题需要的150 项非小细胞肺癌患者诊断、治疗和随访数据中，仅有其他突变位点、靶向治疗等16个数据项需要扩展定义（图2中加旗标的框中所包含的部分）。这种方法可以在保证模型统
一且稳定的前提下，又能尽可能满足不同课题数据需求的动态扩展。为了保证在信息模型动态扩展的同时还能提供一致的数据的共享访问方式，提出了一种模型驱动的临床科研数据库平台实现方式，也就是说数据库结构可随openEHR 模型扩展而自动调整。这样， openEHR模型扩展后，无需修改平台软件，研究者就可以非常方便地在表单中选择模型中新增或修改的数据项访问数据，其他数据利用者
也能动态配置相应的RestfulAPI接口访问数据，从而大幅提高了数据的可及性。

2.1.2 入组患者的智能筛选从平台的海量数据中快速准确地筛选出足够数量符合入组条件的患者是临床科研成功的关键，但是由于临床研究者的知识背景所限，他所提出纳排条件往往很难从平台中直接进行检索，如查询条件“化疗后白细胞计数降低的患者”中“化疗”在数据库中往往不会记录，“白细胞计数降低”这样的约束也很难用通用的检索工具表达。为此，着重从概念表达和约束
表达两个方面入手增强了现有检索工具的能力。具体来说，首先设计一种直观的检索界面方便研究者表达筛选条件；然后基于一种形式化、表达能力强的openEHR Expression Language（EL）语言建立筛选条件中的概念与信息模型中数据项的映射关系以及表达复杂的约束条件；最后，将EL表达式自动转换为计算机可执行的SQL语句进行检索（图3）。为进一步提高可及性，研究了
一种可直接支持自然语言筛选条件的检索工具。利用自然语言处理技术自动解析临床研究者的筛选条件，同时融合不同来源的知识进行概念的语义扩展，并使用关联规则、贝叶斯推理等技术对临床数据库进行挖掘，尽可能筛选出跟研究者所述纳排条件相符或接近的患者。

2.1.3 动态表单中的数据智能转换临床科研所需要的数据大量是一些问答式的观察性或结局变量，如 “是否服用过他汀类药物?”“是否行静脉溶栓治疗”“M1血管狭窄程度”，很难直接从临床数据库中获取。研究者往往只能采取人工解读病历进行数据录入的方式，耗时耗力且容易出错。设计了一种支持数据智能转换的动态表单技术，首先动态配置科研数据与临床数据项之间的关联，
其次针对不同种类数据进行自动转换，并可把相关联的临床数据显示在表单右侧的参考视图上，便于研究者对自动转换结果进行核对或在录入时快速定位相关联数据（图4）。具体来说，“患者发病天数”“BMI 指标”等数据通过逻辑计算进行转换；“HER-2”“EGFR”“分化程度”等数据通过解析报告自然文本获取；“是否既往多次CT检查”“是否进行二次手术切除”等数据通过
对患者诊疗事件进行自动统计分析后获取；“急性淋巴细胞性白血病”“急性淋巴细胞白血病”等临床医学术语通过术语相似度计算匹配出相近的标准术语或编码；“当前化脓情况”“病变畸形情况”等数据项通过定位随访收集的图片、视频、语音的文件进行参考录入。在“非小细胞肺癌”临床科研数据库项目中，基于上文所述的方法，在研究所需的150项数据中， 144项数据（96%）可以通过直接
或转换的方式从电子病历数据中获取，极大地提高了数据的可及性。

2.2 提高数据可用性的关键技术数据质量是数据可用性的重要标志。从医疗信息系统中抽取的临床数据往往质量较低，数据质控贯穿着临床科研数据库平台的数据生产的整个过程（图5），在数据质量评估的基础上，对抽取的临床数据进行治理，以及对录入的科研数据进行校验。

2.2.1 临床数据质量的自动评估要提升临床数据质量，首先需要通过质量评估发现数据中存在的质量问题，才能够“对症下药”。目前已经发表的质量评估模型或框架仅对数据质量特性进行概括性描述，如 “观察值或测量值符合预期的时间属性”，在具体评估时依赖专家主观评价。因此，构建一套定义清晰、无歧义的临床数据质量评估指标是基础。文献中包含了大量来自专家学者的经验知识，实际项目中的数据
质量问题也是重要知识来源。分析了30篇国内外文献和3 712条实际项目中数据质量问题，对碎片化的数据质量评估相关知识进行汇集和凝练，最终构建了涵盖完整性、合理性、准确性、时间性、一致性五种质量维度的43项临床数据质量评估指标，在质量评估指标的基础上，设计并开发了临床数据质量的自动化评估工具。对于完整性、准确性相关的大多数指标，采用了基于逻辑规则的自动化评估技术，考虑到临
床数据质量评估往往涉及众多数据项，通过手工方式配置规则费时费力，实现了从openEHR信息模型中提出数据约束关系来自动生成规则的方法，可以大幅提高规则配置效率。对于数据准确性、一致性相关指标，利用数据项可能在多个数据源中出现的特点，例如文本病历和结构化医嘱中都会记录患者在院的治疗信息，通过信息提取技术从病历文本中提取患者的关键信息，并与结构化信息比较，自动核查数据
项的一致性；对于患者主索引重复等合理性指标，通过计算患者不同记录的相似性，自动检测数据中的重复患者。

2.2.2临床数据的自动处理。针对不同的质量问题，需要针对性地进行数据治理，包括：对缺失数据的填充，对冗余数据的去重，同一患者主索引的归一化，医学术语的标准化处理等等，自动化的数据处理工具可以大幅提升数据治理的效率，是临床科研数据库平台的关键技术。以下对其中三种自动化数据处理技术进行介绍。主索引自动匹配：结合国内外患者身份标识标准，设计了一套通
用患者身份匹配框架，基于多字段相似度计算患者身份信息匹配的可能性，并在数据缺失的情况下通过最大期望算法估计缺失值，在患者信息缺失时仍保持患者匹配算法的稳定性，相较于传统匹配算法具有更好的实际应用价值。术语自动标化：首先通过数据预处理进行文本分割、术语去重以及术语清洗，接着针对不同临床领域特异性使用不同的文本相似度方法与文本匹配模型，比如药品领域
多包含同音错别字，使用拼音相似度算法具有更好的标准化效果，最后通过算法推荐最优匹配结果。目前已经在诊断、药品、检验和检查四大临床领域形成特有术语标准化方案，并在自动标化中取得了良好的结果。结构化信息自动提取：有些临床科研缺失的结构化信息隐藏在病历文本中，需要实现针对性的信息提取技术。例如肿瘤TNM分期信息往往存在于各类影像报告中，基于命名实体识别和关系抽取从患者
CT影像报告中自动获得与分期相关的概念及其关系，再利用规则进行分析推断，得到分期信息。

2.2.3 科研数据的自动校验。临床数据库并不能满足临床科研的全部数据需求，仍然需要通过表单录入的方式收集患者数据。为了确保数据质量，对录入数据进行校验十分必要。基于前述的数据质量评估指标，设计并实现了融合质量自动校验和核查功能的动态表单工具。具体来说，在设计表单时，根据所选择的数据项定义，可以把数值的完整性、合理性等评估指标自动转换成数据校验的规则，在录入数
据时对数据进行核查，不满足校验规则的数据则无法进行提交（图6a）。对于部分需要对多个数据项进行综合评估的指标，如变量随时间变化的趋势等，在录入完成后通过设计相对应的评估规则或算法对整体数据进行数据校验，形成数据质疑报告，反馈给数据录入人员进行问题追溯和修改（图6b）。通过数据采集时/后对数据的质量校验与核查，提高了数据的可用性。

3.结论

提高临床数据可及性和可用性是临床科研数据库平台需要解决的核心问题，为此需要研发临床数据获取、治理、存储、共享、利用的关键技术，建立面向临床科研的数据有效利用的技术体系。虽然目前各项技术已有发展，但离实现“把访问数据的权利交给真正需要数据的人”的最终目标尚有距离，仍然需要不断探索，发挥临床数据的真正价值，促进医学创新。

本文作者吕旭东田琪蔡海领李梦阳陈雅妮段会龙，来源中国数字医学。

临床科研数据库平台关键技术研究与实现

相关推荐

最新文章

1俄罗斯称正考虑与中国合作在月球...

2革命性人工智能可在症状出现前七...

3低血糖真的很可怕：严重会要命 ...

4NASA的SWOT卫星揭示加州天气问题...

5释放Hexaplex纳米脂质体的力量 ...

6研究人员在THz级别拍摄到了极速...