编者按:2019年3月28日,CIT 2019于北京召开。在今天早上的第十一届临床研究专题研讨峰会的“临床研究卓越之路”专场,中国医学科学院阜外医院王增武教授发表主题演讲,以实例阐述中国人群大数据分析的研究结果。
中国医学科学院阜外医院 王增武教授
大数据的定义
大数据(Big data)或称巨量资料,指的是需新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率多样化的信息资产。
在维克托迈尔-舍恩伯格及肯尼斯库克耶编写的《大数据时代》中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。
大数据的特征
阿姆斯特丹大学的Yuri Demchenko等提出大数据体系架构框架,认为大数据具有5V特征,包括数量(Volume)、速度(Velocity)、种类(Variety)、价值(Value)和真实性(Veracity)。
大数据的应用
健康服务是最重要的大数据应用领域之一。医学数据应用领域包括业务应用、临床数据对比、临床决策支持、实时统计分析、远程患者数据分析、人口统计学分析、就诊行为分析、基本药物临床应用分析和药品研发等。
Google流感趋势分析是大数据分析的一个范例。Google搜索预测到流感趋势,预测结果同美国CDC数据相符,并且在流感传染曲线到达峰值前一周作出准确预测。另一个大数据分析的例子来自Twitter对心血管病死亡数量的预测,结果也同美国ADA的数据相仿。
大数据能支撑临床开展有效研究。《柳叶刀》杂志2014年曾发表研究,比较2004~2010年瑞典和英国急性心肌梗死(AMI)患者30天内的生存率。该研究共纳入242所英国医院和86所瑞典医院展开分析,英国医院患者739 828例,瑞典医院患者414 831例,其中,因AMI入院的英国和瑞典患者分别为391 077例和119 786例,30天后死亡患者数分别为41 509例和9173例。
大数据还可支持展开疾病进展预测,这一作用在中国的流行病学分析领域发挥巨大作用。
例1:中国人群的心血管领域研究范例——慢性心力衰竭的中国患者再入院的风险分析模型研究
研究机构:中日友好医院;
研究过程:建立研究平台,从历史记录中收集结构性和非结构性数据。最终收集到心力衰竭的患者1103例,再入院组329例,对照组774例。收集数据的情况为,每位患者123个变量,共计135 669个变量;
方法:单变量分析法,Cox回归分析法;
建立一个用于分析再入院风险的模型,包括10个因素:年龄、糖尿病、高脂血症、缺血性脑血管疾病、慢性肺梗阻疾病、舒张性高血压、血清蛋白、血清钠、血胆固醇和β阻滞剂等。
例2:中国人群的心血管领域研究范例——中国急性心肌梗死(CAMI)注册研究
研究机构:中国医学科学院阜外医院;
医院数量:108家;
患者数量:26 103例;
启动时间:2013年;
研究目的:比较75岁STEMI患者行PCI、纤维蛋白溶解和无再灌注治疗的临床结局。
影响:CAMI-NSTEMI评分为预测非STEMI患者的入院死亡率提供新的预测工具。
例3:中国人群的心血管领域研究范例——中国心力衰竭注册研究
医院数量:132家;
患者数量:13 687例;
时间:2012年~2015年;
结果:判断不同年龄人群中,射血分数同死亡率的关系。
例4:中国人群的心血管领域研究范例——中国冠状动脉旁路移植术注册研究
研究机构:中国医学科学院阜外医院;
医院数量:43家;
患者数量:9248例;
时间:2009年。
例5:中国人群的心血管领域研究范例——中国-PAR(中国ASCVD风险预测)项目
患者人数:127 000例;
随访时间:23年;
结论:研究结果显示,对中国10年ASCVD风险的预测值和观察值之间无显著差异。
例6:中国人群的心血管领域研究范例——中国高血压调查
研究机构:中国医学科学院阜外医院;
方法:多几分层随机抽样法;
患者数量:500 000例;
时间:2012年~2015年;
结果:比较1991年至2015年,中国高血压的流行病学变化。
大数据的局限性
大数据的局限性也很显著,主要包括人群代表未知、数据质量问题、个体多样性较差、隐私问题、难以确定数据的精确性和未知性。