Weka 聚类


聚类算法在整个数据集中查找相似实例组。 WEKA支持EM、FilteredClusterer、HierarchicalClusterer、SimpleKMeans等几种聚类算法。你应该完全了解这些算法才能充分利用 WEKA 功能。

与分类的情况一样,WEKA 允许你以图形方式可视化检测到的集群。为了演示聚类,我们将使用提供的 iris 数据库。该数据集包含三类,每类 50 个实例。每个类别指的是一种鸢尾植物。

加载数据中


在 WEKA 资源管理器中选择 预处理 标签。点击 打开文件 ... 选项并选择 鸢尾花 文件选择对话框中的文件。加载数据后,界面如下图:

Screen Looks

你可以观察到有 150 个实例和 5 个属性。属性的名称被列为 分离长度 , 萼片宽度 , 花瓣长度 , 花瓣宽度 and class .前四个属性是数字类型,而类是具有 3 个不同值的名义类型。检查每个属性以了解数据库的特性。我们不会对这些数据进行任何预处理,直接进行模型构建。

聚类


点击 Cluster TAB 将聚类算法应用于我们加载的数据。点击 Choose 按钮。你将看到以下屏幕:

Cluster Tab

现在,选择 EM 作为聚类算法。在里面 集群模式 子窗口,选择 类到集群评估 选项如下图所示:

Clustering Algorithm

点击 Start 按钮来处理数据。一段时间后,结果将显示在屏幕上。

接下来,让我们研究一下结果。

检查输出


数据处理的输出如下图所示:

Examining 输出

从输出画面可以观察到:

  • 在数据库中检测到 5 个集群实例。

  • The 集群 0 代表 setosa, 集群 1 代表弗吉尼亚, 集群 2 表示 versicolor,而最后两个簇没有任何与它们关联的类。

如果你向上滚动输出窗口,你还将看到一些统计数据,这些统计数据给出了各种检测到的集群中每个属性的平均值和标准差。如下图所示:

Detected Clusters

接下来,我们将查看集群的可视化表示。

可视化集群


要可视化集群,请右键单击 EM 导致 结果列表 .你将看到以下选项:

Clusters Result List

Select 可视化集群分配 .你将看到以下输出:

Cluster Assignments

与分类的情况一样,你会注意到正确识别实例和错误识别实例之间的区别。你可以通过更改 X 和 Y 轴来分析结果。你可以在分类的情况下使用抖动来找出正确识别的实例的集中度。可视化图中的操作与你在分类案例中学习的操作相似。

应用层次聚类器


为了展示 WEKA 的强大功能,现在让我们研究另一种聚类算法的应用。在 WEKA 资源管理器中,选择 层次聚类器 作为你的 ML 算法,如下图所示:

Hierarchical Clusterer

选择 集群模式 选择到 聚类评估的类 ,然后单击 Start 按钮。你将看到以下输出:

Cluster Evaluation

请注意,在 结果列表 ,列出了两个结果:第一个是 EM 结果,第二个是当前 Hierarchical。同样,你可以将多个 ML 算法应用于同一数据集并快速比较它们的结果。

如果你检查此算法生成的树,你将看到以下输出:

Examine Algorithm

在下一章中,你将学习 联系 ML算法的类型。