中药指纹图谱的数据挖掘
中药指纹图谱需要研究如何利用这些信息实现指纹图谱的知识化。指纹图谱的知识包括信息解读、比较判断、化学信息与药效信息的相关性研究、信息利用,即从大量的指纹图谱数据中获取相关的规律和知识。采用的方法包括聚类分析、模式识别、相关分析、人工神经网络等。
(1)聚类分析
聚类分析是将研究对象按照一定的规律和要求进行分类。基本思想是用“相似度”来衡量样本之间的接近程度,实现分类。一般相似度大的样本归入一类,相似度小的样本归入不同的类。计算机可以快速识别不同批次中药样品的色谱指纹图谱,并根据批次间的相似度来判定中药样品的稳定性。
模糊聚类分析的基本步骤如下:
A.计算样本之间的相似度,形成模糊相似度矩阵r,在m个量化指纹特征组成的m维空间中,样本之间的相似度可以用多种方式定义。如:相关系数法、最大最小值法、算术平均最小值法、几何平均最小值法、绝对指数法、广义角度余弦法、马氏距离法、欧氏距离法等等。
B.用上述方法建立的模糊相似关系矩阵R具有自反性和对称性,但没有传递性。需要将模糊相似关系矩阵R转化为模糊等价关系矩阵R’,然后对其进行分类。
c .取m的某个值作为等价矩阵的截面矩阵,根据不同的值得到动态聚类谱系图。
(2)模式歧视
模式识别的基本思想是先建立标准样品模式的色谱指纹图谱,然后用计算机分析未知模式(待识别样品)的色谱指纹图谱,根据其与标准样品模式的“隶属度”来判断未知模式的真伪和优劣。
(3)相关性分析
众所周知,衡量药品质量的最终标准是疗效。通过化学分析控制药品质量是一种间接的质量控制方法。一般来说,西药是单一成分的化合物或化学成分明确的混合物。这些化学成分的性质和数量决定了药物的疗效。因此,对这些化学成分进行定性和定量控制,可以全面控制药品的内在质量。但是,中医不同于西医。中药就相当于一个大复方,成分众多且复杂。中药的化学成分大多不完全清楚,一些已知的成分也不代表中药的全部疗效。因此,传统的质量控制模式,即单一成分的定性定量分析,难以控制药品的质量。就中药指纹图谱而言,也存在指纹图谱与药效脱节的问题。所谓关联度,是指两个系统或两个因素之间相关性的度量。关联度描述了系统发展过程中各因素的相对变化。如果两者在发展过程中的相对变化基本相同,则认为两者高度相关;相反,它们之间的相关性很小。
(4)人工神经网络
随着模式识别理论的发展,人工神经网络的实践得到了迅速的提高,并在许多领域得到了广泛的应用。自1990以来,人工神经网络逐渐应用于中医药研究领域。与经典模式识别相比,神经网络方法更接近人脑的思维过程,具有自组织和容错的优点。神经网络结构和学习算法有很多种,其中BP(反向误差传播)、ART、MBL和FANN主要用于中药指纹图谱。
(5)其他
实现指纹知识的方法有峰重叠法、夹角法、决策树、遗传算法和最近邻法。最近出现了几种相似度计算方法。将从药材、中间体到最终产品的大量指纹图谱收集到数据库中,利用数学方法确定峰间的相关性,实现生产全过程的“全过程质量管理”,而对于基础研究和新药开发,则可以实现全过程化学成分的表征。再加上多维信息的指纹图谱(HPLC/PDAD/MS/MS),整个研究需要处理的信息非常多,建立一个智能的指纹数据库可以较好的解决这类问题。