虚拟医学研究中大数据挖掘的思考

虚拟医学研究中大数据挖掘的思考

1.基于大数据挖掘的虚拟医学研究案例

数据挖掘发展到今天,按照现在的概念应该是“大”数据挖掘的时代。先说几个相关案例。

1.1虚拟临床试验-大数据采集

我们先来看这样一个案例。2011年6月,辉瑞制药有限公司公布了一项“虚拟”临床研究,是美国美国食品药品监督管理局批准的试点项目,首字母缩写为“REMOTE”。“远程”项目是美国第一个病人只需要使用手机和互联网,而不是反复去医院的临床研究。这个项目的目标是确定这种“虚拟”临床研究是否能产生与传统临床研究相同的结果。而传统的临床研究需要患者住在医院附近,定期到医院或诊所进行初次检查和多次随访检查。如果这个项目是有效的,可能意味着全美国的病人将来都可以参与很多医学研究。这样一来,原本科研项目中没有得到充分代表的群体将能够参与进来,数据收集的速度将大大加快,成本也很可能大大降低,参与者退出的概率也将大大降低。

从上面的例子中我们可以看到,利用互联网可以收集到大量患者的临床数据,这远远大于传统临床研究样本的数量,并且部分临床数据可能来自更方便的可穿戴健康监测设备。如果进行这样的研究,在科研设计严谨、质量标准得到有效执行、各种误差得到有效控制的条件下,可以显著提高科研的效率和成果的可信度。作为辉瑞的首席医疗官,弗雷达?刘易斯-霍尔说:“让更多不同的人参与研究,可能会推动医学进步,为更多患者带来更好的疗效。”

1.2虚拟药物临床试验-大数据挖掘

我们来看另一个案例。1992,抗抑郁药帕罗西汀(帕罗西汀)获准上市;从65438到0996,降胆固醇药物普拉瓦醇正式上市。两家药厂的研究证明,每种药单独服用都是有效且安全的。然而,没有人知道患者同时服用两种药物是否安全,甚至很少有人想过这个问题。美国斯坦福大学的研究人员利用数据挖掘技术分析了数万名患者的电子病历,很快找到了一个出人意料的答案:同时服用两种药物的患者血糖含量更高。这对糖尿病患者的影响很大,血糖过高对他们的健康是严重的威胁!科学家还通过分析血糖检测结果和药物处方来寻找潜规则。

对于单个医生来说,同时服用这两种药物的患者数量非常有限。虽然可能会有少数糖尿病患者血糖莫名其妙的升高,但医生很难意识到这是患者同时服用帕罗西汀和普瓦醇引起的。因为这是一个隐藏在大数据中的隐性规律,如果没有人专门研究帕罗西汀和普拉固联合用药的安全性,那么单个医生很难揭示这个规律。然而,临床药物有成千上万种。我们如何研究两种或三种药物的任意组合的安全性和有效性?数据挖掘很可能成为探索多种药物联合应用的一种有效、快速、主动的方法!

研究人员不必打电话给病人做临床试验,那样花费太大。电子病历及其计算机应用的普及为医学数据挖掘提供了新的机遇。科学家不再局限于传统的通过召集志愿者进行研究,而是更多地从现实生活的实验中选择数据,如大量的日常临床病例,并开展虚拟研究。这些不是来自计划项目的实验数据,保存在很多医院的病历里。

类似于这个案例,数据技术的应用使研究人员能够发现药物被批准上市时无法预见的问题,比如一种药物可能如何影响特定人群。此外,对病历进行数据挖掘不仅会给研究带来好处,还会提高医疗服务系统的效率。

1.3虚拟药物靶点发现-知识发现

我们再来看看这类研究。通常新药研发的过程相对较长,投入巨大,风险较高。据统计,新药研发平均时间长达15年,平均花费超过8亿美元。然而,由于药物疗效差、副作用大,很多药物的研发往往在临床阶段就宣告失败,造成巨大的经济损失。作为药物研发的源头,药物靶点的发现和识别对药物研发的成功率起着至关重要的作用。随着生物信息学技术的不断发展,蛋白质组学和化学遗传学的数据日益增多,应用数据挖掘技术结合传统的生物实验技术,可以为新药靶点的发现提供新的技术手段,为靶点的识别和预测提供新的方法。构建药物靶点数据库,利用智能计算技术和数据挖掘技术对现有药物靶点数据进行深入探索,以发现新的药物靶点就是这样一种研究,我们也称之为药物靶点知识发现。

传统药物靶点的发现通常是通过大量重复的生化实验来实现的,不仅成本高、效率低、成功率低,就像盲人摸象,很难把握方向。应用数据挖掘这种自动、主动、高效的探索技术,可以进行虚拟药物靶点发现,不仅大大加快了药物靶点发现的进程,而且大大减少了生化实验的次数和成本,提高了传统生化实验的成功率。

2.数据挖掘在虚拟医学研究中的应用。

在大数据时代,R&D制药面临着更多的挑战和机遇。为了更好地节约R&D成本,提高新药研究的成功率,开发更具竞争力的新药,可以应用数据挖掘技术开展虚拟医学研究和药物研究。数据挖掘在虚拟医学研究中的应用可以概括如下。

2.1通过预测建模帮助制药公司降低R&D成本并提高R&D效率。该模型基于药物临床试验阶段前的数据集和临床早期的数据集,可以尽快预测临床结果。评估因素包括产品安全性、有效性、潜在副作用和总体测试结果。预测建模可以降低医药产品公司的研发成本。通过数据建模和分析预测药物的临床结果后,可以暂停对次优药物的研究或停止对次优药物的昂贵临床试验。

2.2通过挖掘患者数据,评估招募的患者是否符合试验条件,从而加快临床试验进程,提出更有效的临床试验设计建议。比如用聚类的方法对患者人群进行聚类,找出年龄、性别、病情、实验室指标等特征。,并判断是否满足测试条件,根据这些特征可以更好地建立对照组。

2.3分析临床试验数据和患者病历,可以确定药物的更多适应症,发现副作用。在分析临床试验数据和患者记录后,药物可以针对其他适应症进行重新定位或上市。通过相关性分析等方法挖掘实验数据,可能会发现一些意想不到的结果,大大提高了数据的利用率。

2.4实时或近实时收集不良反应报告可促进药物警戒。药物警戒是上市药物的安全保障体系,对药物不良反应进行监测、评价和预防。通过聚类、关联等大数据挖掘手段,了解药品不良反应的情况、用药表现、疾病和不良反应、是否与某种化学成分有关等。比如不良反应症状的聚类分析,化学成分与不良反应症状的相关性分析等。此外,在某些情况下,临床试验已经暗示了一些情况但没有足够的统计数据来证明它们。现在基于临床试验大数据的分析可以给出证据。

2.5靶向药物研发:通过分析大数据集(如基因组数据)开发个性化药物。本申请考察了遗传变异、对特定疾病的易感性和对特定药物的反应之间的关系,然后考虑药物开发和用药过程中的个体遗传变异因素。在许多情况下,患者使用相同的药物方案但疗效不同,部分原因是基因变异。针对同一疾病的不同患者开发不同的药物,或者给出不同的用法。

2.6探索药物的化学成分和药理作用的结合,激发R&D人员的灵感。比如对于中药的研发,利用数据挖掘对中药的方剂和症状进行分析研究,探索方剂与症状的关系,从功效、归经、药性、药味等方面分析分类特征。

3.虚拟药物临床试验分析系统

现在越来越多的临床科研和药物临床试验,通过严格的条件筛选,从日常临床工作中产生的大数据中提取数据。就像本文1.1和1.2中提到的案例一样,所谓的虚拟药物临床试验,就是从大量的医院电子病历中,收集更广泛的临床数据,按照设计要求提前筛选严格的条件,进行临床试验。虽然是虚拟方法而非传统方法,但这类药物临床试验研究样本更广泛,成本低,效率高,研究成果多。虚拟研究的方法完全可以替代一些传统的药物临床研究,也可以作为一些传统药物临床研究的前期试验或探索性研究,使真正的药物临床研究工作多、快、好、省。现在我们来看看虚拟药物临床试验分析系统是如何工作的。

3.1虚拟药物研究的基本思路

1,药物临床试验数据仓库建设,充分整合和积累临床数据和药物应用数据。2.药物临床试验中观察组和对照组样本的设计和选择。3.利用数据挖掘技术探索药物对疾病治疗的效果和副作用。4.利用统计技术推断和评价药物临床试验的效果。

3.2药物临床数据仓库的建立

有两种方法可以构建药物临床试验数据仓库。一种方式是通过经典药物临床试验设计定制和收集相关数据。传统的方法主要是纸质文档记录,也有专门的数据录入软件。这种方法收集的数据是事先设计好的,直接形成药物临床试验的特殊数据,但通常样本数据不会太大;另一种是提取、转换、加载医院大量的历史临床用药数据,然后充分整合积累的其他临床数据和药物申请数据,形成药物临床试验数据源,为生成药物临床试验数据提供支持。这样的样本数据可能很大,我们后面要演示的方法就是使用这些数据来筛选和分析“虚拟”样本。

3.3药物临床试验的样本设计

根据药物研究的需要,药物临床试验样本的设计有多种,如单因素单水平设计、单因素两水平设计、单因素多水平设计、配对设计、区组设计、重复测量设计等。下面以双因素区组设计为例介绍样本筛选。这个例子只是为了演示方法,不考虑严格的医学专业意义。

本研究中的疾病为动脉粥样硬化性心脏病,治疗因素为药物应用。* * *有三种药物,分别是倍他乐克、诺和灵、硝酸异山梨酯。街区组的因素是年龄,分为三个年龄组。观察指标为血钠。我们的科研设计是基于“三要素四原则”进行数据筛选的。所谓“三要素”,即研究人群、加工因素和观察对象。所谓四大原则,是指随机性原则、比较性原则、重复性原则和平衡性原则。根据如下图1所示的输入条件,可以筛选出数据集,然后用统计分析工具进行统计分析。

3.4药物临床数据挖掘

数据挖掘技术的应用不仅可以提高药物临床数据的利用率,还可以探索和发现药物临床应用中新的正负效应。利用多种数据挖掘方法分析临床试验数据和患者电子数据,可以确定更多的药物适应症,发现未知的副作用。在对临床试验数据和患者记录进行挖掘和分析后,药物可以针对其他适应症进行重新定位或推广。通过挖掘药物试验数据可能会发现一些意想不到的结果,大大提高了数据的应用效益。

比如我们用数据挖掘的方法深入研究药物对实验室指标的影响。探索和发现药物在临床应用中的正负效应,可以通过观察患者服药前后的多项医学特征和生理指标来进行,观察更客观的实验室指标是很多药物研究的必要设计之一。以下是倍他乐克在冠心病治疗中的应用研究。我们应用数据挖掘的相关技术分析了倍他乐克血药浓度的变化对患者各项实验室指标的影响,如下图2所示,显示了部分实验室指标的影响结果。

以上结果需要与临床医务人员和药物研究人员讨论。在排除了各种人为因素和商业系统的客观因素后,我们可以发现之前未知的倍他乐克对患者生理指标的影响,有些可能是医学上的正影响,有些可能是医学上的负影响。

3.5统计分析设计

虚拟药物临床试验分析系统的统计分析模块包括药物研发中常用的统计分析方法,如T检验、方差分析、相关分析、回归分析、非参数检验等。设计思想基于统计思维。首先对数据进行验证,根据验证结果选择统计分析方法。我们以重复测量设计为例来说明。

本研究中的疾病为动脉粥样硬化性心脏病,治疗因素为倍他乐克的用药,观察指标为我们从数据挖掘中发现的有影响的血钾指标。我们可以使用3.3中提供的模块对筛选后的样本进行提取和分析,也可以直接从这个模块中选取需要的数据进行分析。重复测量分析有两种方法,一种是霍特林T2检验,另一种是方差分析。该系统提供了这两种统计测试方法。

下面的图3显示了一些示例数据:

这里,我们只观察方差分析方法的输出,如下图4所示。

从图中可以看出,根据P的值,治疗因子“倍他乐克”对血钾有影响,测量时间对血钾有影响,治疗因子和测量时间有交互作用。因此,通过我们的数据挖掘应用所获得的结果得到了验证。

4.数据挖掘在中药研发中的应用

以上,我们重点以西医的研究和应用为例来说明以数据挖掘为特征的虚拟医学研究方法。事实上,数据挖掘和虚拟药物研究也非常适合中医药的研究,因为中医药本身就是一门医学,经过几千年的不断探索、积累和验证,拥有庞大的知识体系和完整的理论体系,但我们仍然需要应用现代知识不断了解、挖掘、完善和应用,才能更好地与现代科学结合。而数据挖掘是探索和解释中医奥秘的有力工具!

国内很多单位也进行了一些地方性的中医药数据挖掘的尝试。现将这些数据挖掘在中医研究中的尝试进行总结如下:1,中医方剂中的文本数据挖掘;2.“有效成分”的挖掘——在“药理学”中起关键作用的单体或化学成分;3.数据挖掘与中药方剂配伍规律研究:4.方剂配伍的物质基础与功效之间关系的数据挖掘,如症状与症候;5.挖掘方剂配伍剂量与方剂效用水平之间的关系(量效关系和模型);6.探索中药药性理论与中药有效成分的关系;7.挖掘方剂中药物之间的相关性;8.挖掘相似疾病的隐含相似性;9.挖掘和研究同病不同方的异同。10.数据挖掘用于不准确疾病的分类和研究。