Weka 分类器


许多机器学习应用程序都与分类相关。例如,你可能希望将肿瘤分类为恶性或良性。你可能想根据天气情况决定是否玩户外游戏。一般来说,这个决定取决于天气的几个特征/条件。因此,你可能更喜欢使用树分类器来决定是否玩。

在本章中,我们将学习如何根据天气数据构建这样一个树分类器来决定比赛条件。

设置测试数据


我们将使用上一课中预处理的天气数据文件。使用打开保存的文件 打开文件 ...选项下 预处理 选项卡,单击 Classify 选项卡,你将看到以下屏幕:

Classify Tab

在你了解可用的分类器之前,让我们检查一下测试选项。你会注意到下面列出的四个测试选项:

  • 训练集
  • 提供的测试集
  • 交叉验证
  • 百分比分割

除非你有自己的训练集或客户提供的测试集,否则你将使用交叉验证或百分比分割选项。在交叉验证下,你可以设置在每次训练迭代期间拆分和使用整个数据的折叠数。在百分比拆分中,你将使用设置的拆分百分比在训练和测试之间拆分数据。

现在,保持默认 play 输出类选项:

Play Option

接下来,你将选择分类器。

选择分类器


点击Choose按钮,选择以下分类器:

weka→分类器>树>J48

如下图所示:

Weka Trees

点击 Start 按钮开始分类过程。稍等片刻,分类结果就会出现在你的屏幕上,如下图:

Start Button

让我们检查屏幕右侧显示的输出。

它说树的大小是 6。你很快就会看到树的视觉表示。在摘要中,它说正确分类的实例为 2,错误分类的实例为 3,它还说相对绝对误差为 110%。它还显示了混淆矩阵。对这些结果进行分析超出了本教程的范围。但是,你可以很容易地从这些结果中看出分类是不可接受的,你将需要更多数据进行分析,以优化你的特征选择,重建模型等等,直到你对模型的准确性感到满意。无论如何,这就是 WEKA 的全部意义所在。它使你可以快速测试你的想法。

可视化结果


要查看结果的可视化表示,请右键单击结果中的 结果列表 盒子。屏幕上会弹出几个选项,如下所示:

Result List

Select 可视化树 获取遍历树的可视化表示,如下面的截图所示:

Visualize Tree

选择 可视化分类器错误 将绘制分类结果如下所示:

Classifier Errors

A cross 表示一个正确分类的实例,而 squares 表示错误分类的实例。在绘图的左下角,你会看到一个 cross 这表明如果 outlook 那时是晴天 play 游戏。所以这是一个正确分类的实例。要定位实例,你可以通过滑动 jitter 滑动条。

当前的情节是 outlook versus play .这些由屏幕顶部的两个下拉列表框指示。

Outlook Versus Play

现在,在每个框中尝试不同的选择,并注意 X 和 Y 轴的变化。同样可以通过使用绘图右侧的水平条来实现。每个条带代表一个属性。左键单击条带将选定属性设置在 X 轴上,而右键单击将其设置在 Y 轴上。

还提供了其他几个图表供你进行更深入的分析。明智地使用它们来微调你的模型。一个这样的情节 成本效益分析 如下所示,供你快速参考。

Cost Benefit Analysis

在这些图表中解释分析超出了本教程的范围。鼓励读者复习他们对机器学习算法分析的知识。

在下一章中,我们将学习下一组机器学习算法,即聚类。