聚类分析方法

聚类分析又称群分析或点分析,是一种研究多因素事物分类的定量方法。其基本原理是根据样本本身的性质,根据某些相似性或差异性指标,用数学方法定量确定样本之间的关系,并根据关系的程度对样本进行聚类(徐建华,1994)。

聚类分析法,应用于地下水,是在各种指标和质量等级标准的约束下,通过对样品各种指标的监测值进行综合聚类,来判断地下水的质量等级。常见的聚类分析方法有系统聚类、模糊聚类和灰色聚类。

(一)系统聚类法

系统聚类法的主要步骤是数据标准化、相似性统计计算和聚类。

1.数据标准化

在聚类分析中,聚类元素的选择非常重要,它直接影响分类结果的准确性和可靠性。在地下水质量研究中,聚类对象往往由多种元素组成。不同元素的数据可能差异很大,会对分类结果产生影响。因此,当分类元素的对象确定后,在进行聚类分析之前,应该先对聚类元素的数据进行标准化处理。

假设将考虑的水质分析点(g)作为聚类对象(有m个),用I表示(I = 1,2,...,m);将影响水质的主要因子作为聚类指标(有n个),用j (j = 1,2,…,n)表示,其对应的因子数据可在表4-3中给出。在聚类分析中,对聚类元素的数据进行标准化的方法有很多,一般采用标准差法和极差法。

表4-3集群对象和元素数据

标准化第j个变量就是把xij转化成x'ij。

(1)求和标准化

区域地下水功能可持续性评价理论与方法研究

通过这种标准化方法获得的新数据x'ij满足以下要求。

区域地下水功能可持续性评价理论与方法研究

(2)标准差标准化

区域地下水功能可持续性评价理论与方法研究

哪里:;

用这种标准化方法得到的新数据x'ij,每个元素的平均值为0,标准差为1,即有

区域地下水功能可持续性评价理论与方法研究

(3)靶场标准化

区域地下水功能可持续性评价理论与方法研究

这样标准化得到的新数据,每个元素的最大值为1,最小值为0,其余值都在[0,1]的闭合区间内。

上式中:xij为j变量的测量值;Xj是J变量的样本平均值;Sj是样本的标准差。

2.相似性统计

系统聚类方法需要一个能够反映样本间相似性的数值指标,需要找到能量相似性的统计量,这是系统聚类方法的关键。

相似性统计量一般用距离系数和相似系数来计算。距离系数将样本视为多维空间中的一个点,用点与点之间的距离来表示研究对象的密切关系。距离越小,关系越近。相似系数的值表示样本和变量之间的相似性。

(1)距离系数

经常使用欧几里德绝对距离,其中I样本和J样本之间的距离dij是

区域地下水功能可持续性评价理论与方法研究

dij越小,I和J样本越相似。

(2)相似系数

常见的相似系数有夹角余弦和相关系数,计算公式为

1)夹角的余弦

区域地下水功能可持续性评价理论与方法研究

在公式(4-20)中:-1≤cosθij≤1。

2)相关系数

区域地下水功能可持续性评价理论与方法研究

其中dij是I样本和J样本之间的欧几里德距离;Cosθij是I样本和J样本的相似系数;Rij是I样本和J样本之间的相关系数;Xik是第I个样本的第k个因子的测量值或标准化值;Xjk是第J个样本的第k个因子的测量值或标准化值;是第I个样本第k个因子的平均值,;是第J个样本的第k个因子的平均值,;n是样本数;k是因子(变量)的数量。

3.使聚集

相似度统计量选定后,根据计算结果构造距离或相似系数矩阵(n×n),然后通过一定的方法将N个样本组合成不同的分类单元,进行类的组合,即最相似的样本归为一组,再将次相似的样本归为分类级别较高的组。聚类主要有直接聚类法和距离聚类法(最短距离聚类法和最远距离聚类法)。

(1)直接聚类法

直接聚类法是一种简单的聚类方法,它是基于距离或相似系数矩阵的结构一次性得到结果。它首先将每个分类对象单独作为一个类,然后按照距离最小或相似系数最大的原则依次选择一对分类对象,形成一个新的类。如果一对分类对象碰巧属于两个类别,则这两个类别合并为一个类别。每次合并时,都会删除与对象列顺序相同的行。n-1次后,将所有分类对象归为一类,最后按照归并顺序做出聚类分析谱系图。

(2)距离聚类法

距离聚类法包括最短距离聚类法和最远距离聚类法。最短距离聚类法具有空间可压缩性,而最远距离聚类法具有空间可扩展性。这两种聚类方法对类间距离的计算可以用一个统一的公式表示:

区域地下水功能可持续性评价理论与方法研究

当γ=-0.5时,公式(4-22)中计算类之间的距离最短;当γ=0.5时,方程(4-22)中计算类之间的距离最远。

最短最远距离法是从原n×n距离矩阵的非对角元素中找出dpq=min(dij)或dpq=max(dij),将分类对象Gp和Gq合并成一个新的类Gr,然后根据计算公式:

dpq=min(dpk,dqk)(k≠ p,q) (4-23)

dpq=max(dpk,dqk)(k≠ p,q) (4-24)

计算原类和新类之间的距离,从而得到一个新的距离矩阵的阶(n-1);然后从新的距离矩阵中选择最小或最大的dij,Gi和Gj合并成一个新的类。然后计算每个类与新类之间的距离,直到每个子类对象被归为一类。最后整合整个聚类过程,做出最短距离或最远距离聚类谱系图(图4-1)。

图4-1地下水质量评价聚类谱系图

(二)模糊聚类法

模糊聚类方法是普通聚类方法的扩展,是在聚类方法中引入模糊概念而形成的。该方法评价地下水质量的主要步骤包括数据标准化、校正和聚类(傅等,1987)。

1.数据标准化

在聚类的过程中,由于所研究变量的绝对值不同,直接用原始数据进行计算会突出绝对值大的变量,降低绝对值小的变量的作用。特别是在模糊聚类分析中,模糊运算要求数据必须压缩在[0,1]之间。因此,模糊聚类计算的首要任务是解决数据标准化问题。数据标准化的方法见系统聚类分析。

2.校准和聚类

所谓校准,就是计算被分类对象之间的相似系数rij,从而确定论域集合u上的模糊相似关系Rij,相似系数的计算与系统聚类分析相同。

聚类就是给不同的置信度λ (λ ∈ [0,1])在建立的模糊关系矩阵Rij上截取,然后得到不同的分类。

聚类方法有很多种,包括基于模糊等价关系的聚类和基于最大树的聚类。

(1)模糊等价关系法

所谓模糊等价关系是指自反性(rii=1)、对称性(rij=rji)和传递性(R R?r)模糊关系。

基于模糊等价关系的模糊聚类分析方法的基本思想是,由于模糊等价关系R是论域集合U与其自身的直积U×U上的模糊子集,所以R可以分解。当R被λ-level截时,U×U的截普通子集Rλ是U上的普通等价关系,即得到U中的一类分类对象元素。当λ从1减小到0时,得到的分类由细变粗,逐渐合并,形成动态聚类谱系图(徐建华,1994)。这种分析方法的具体步骤如下。

第一步:模糊相似关系的建立,即子对象间相似统计量的计算。

第二步:将模糊相似关系R转换成模糊等价关系R’。模糊等价关系要求自反性、对称性和传递性。一般来说,模糊相似关系满足自反性和对称性,但不满足传递性。因此,有必要利用传递闭包的性质将模糊相似关系转化为模糊等价关系。变换方法是对相似关系R进行平方,即

R2=R R

R4 = R2·R2

这样的计算一直持续到:R2K = RK RK = RK,那么R’= RK就是一个模糊等价关系。

第三步:不同割集层次下的聚类。

(2)最大树聚类方法

基于最大树的模糊聚类分析方法的基本思想是:最大树是没有回路的连通图(图4-2);选择λ级截取分支,截掉权重低于λ的分支,形成若干个孤立的子树,每个子树就是一个类的集合。这种分析方法的具体步骤如下。

图4-2最大集群生成树图

第一步是计算分类对象之间的模糊相似性统计rij,并构造最大树。

以所有被分类的对象为顶点,当两点之间的rij不等于0时,可以用树干连接两点,这种连接按照rij由大到小的顺序进行,从而形成最大的树。

第二步:最大树聚类分析。

选取某个λ值作为割集,将小于λ值的树的主干剪掉,使连通的节点形成一个类,即子树。当λ从1到0时,得到的分类由细变粗,各节点代表的分类对象逐渐融合,从而形成动态聚类谱系图。

在聚类方法中,模糊聚类方法相对于普通聚类方法有很大的突破,简化了操作过程,使聚类方法更容易掌握。

(3)灰色聚类方法

灰色聚类是根据不同聚类指标的白化数,将聚类对象按若干灰色类进行分类,从而判断聚类对象属于哪一类。

灰色聚类应用于地下水质量评价,以考虑的水质分析点为聚类对象,用I表示(I = 1,2,…,n);将影响水质的主要因子作为聚类指标,用j表示(j = 1,2,...,m),并将水质等级作为聚类灰数(灰类),用k (k = 1,2,3)表示,即第一、二、三灰类(罗定贵等,65433)。

灰色聚类的主要步骤是:确定聚类的白化数,确定每个灰色白化函数fjk,计算标定的聚类权重ηjk,计算聚类系数,根据极大值原理确定聚类对象分类。

1.确定聚类白化数。

当各灰类的白化数相差较大时,为了保证各指标的可比性和等效性,需要对白化数进行无量纲化处理。即给定第I个聚类对象中第j个聚类索引的白化数,I = 1,2,…,n;j=1,2,…,m .

2.确定每个灰度白化函数。

建立效率函数fij(x),满足所有指标,水平区间为最大白化函数值(等于1)。离这个区间越远,白化函数越小(趋于0)。根据监测值Cki,对应的白化函数值fjk(Cik),j = 1,2,...,m可以在图上分解出来(图4-3);k=1,2,3 .

3.找到校准组权重

根据公式(4-25),计算聚类权重ηjk的矩阵(n×m)。

区域地下水功能可持续性评价理论与方法研究

其中ηjk是第j个指标对第k个灰类的权重;λjk是增白函数的阈值(取决于标准浓度)。

图4-3增白功能图

注:图4-3中的白化函数f (x) ∈ [0,1]有以下特点:①平顶部分表示这个量的最优程度。这部分的值为最佳值,即系数(权重)为1,f(x)=max=1(峰值),x ∈ [x2,x3]。②白化函数是单调变化的,左边部分f(x)=L(x)单调增加,x∈(x1,x2],称为白化左支函数;右边部分f(x)=R(x),单调递减,x ∈ [x3,x4],称为白化右支函数。③白化函数的左右分支是对称的。④美白功能,简单来说,一般是直线。⑤一般来说,美白功能的起点和终点是由人的经验决定的。

4.求聚类系数

σik=∑fjk(dij)ηjk (4-26)

其中:σik是第I个聚类对象属于第k个灰类的系数,I = 1,2,…,n;k=1,2,3 .

5.根据最大值原则确定聚类对象的分类。

用σik构造聚类向量矩阵,如果行向量最大,则确定k样本属于J级的对应级别。

用灰色聚类法评价地下水质量,可以最大限度地避免人为因素造成的“失真失效”现象。

聚类法的计算相对复杂,但计算结果与地下水质量标准等级明显对应,可以全面反映地下水质量,也是在更高层次上定量研究地下水质量的重要方法。