数据挖掘不同领域的采样方法有哪些?

1,关联规则采样

挖掘关联规则的任务通常与事务处理和关系数据库相关,需要反复遍历数据库,因此在大型数据集上会花费大量时间。有很多算法可以提高关联规则算法的效率和精度,但抽样是在保证精度的前提下提高效率最直接最简单的方法。

2.分类抽样

分类一般分为三种:决策树、神经网络和统计方法(如无偏分析),这些算法中都有使用抽样的情况。分类抽样一般有四种,一种是随机抽样,另外三种是非随机抽样,即“压缩重复”、“窗口”和“分层”。

3.聚类抽样

聚类中的抽样有多种用途。一些聚类算法使用采样进行初始化,例如,使用采样的样本获得初始化参数,然后对大数据集进行聚类。在处理大数据集时,需要减少算法占用的空间。为了得到更好的聚类,需要根据数据的分布采用不同的采样方法。随机抽样仍然是一种常规方法。当随机抽样忽略小簇时,一般采用非随机抽样。分层抽样是最常用的非随机抽样方法。比如在一个密度相差很大的数据集中,根据密度的不同,采样的样本数可以不同,高密度区域采样次数少,稀疏区域采样次数多。

4.向上扩展数据挖掘算法的抽样。

扩展是指利用现有的数据挖掘算法处理大数据集,具有很高的收敛性。当数据挖掘的算法最初处理小数据集时,它将局限于处理大数据集。在这种情况下,一般采用划分提升的方法:将大数据集分解成较小的互不重叠的数据集,用已有的算法进行处理,然后将小数据集得到的结果合并成最终结果。需要注意的是,这种方法相当于把难点转移到了合并步骤,即需要复杂的处理才能得到正确的结果。因此,整体复杂度没有降低。

gji.js">