清理、处理和可视化数据集,第 2 部分 从干净的数据集中获取宝贵洞察-4
- UID
- 1066743
|
清理、处理和可视化数据集,第 2 部分 从干净的数据集中获取宝贵洞察-4
通过 ART 进行聚类例如,我将参照动物园数据集来测试我的 ART 实现。首先指定我之前创建的已清理的数据集。指定已清理的数据集文件、一个输出文件和 ART 算法。在本例中,我指定我的验证数据来检查该算法对它从训练数据集学到的模型的推广效果。
清单 12. 来自 ART 训练示例的输出1
2
3
4
5
6
7
8
9
10
11
| $ ./learn -t output.dat -v output.tst -o out -a art
Cluster 0: Count 17 : [ 0 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 1 0 0 ]
Cluster 1: Count 5 : [ 0 0 1 0 0 0 0 1 1 1 0 0 0 0 1 0 0 0 0 0 0 ]
Cluster 2: Count 1 : [ 0 0 0 0 0 0 1 0 0 1 1 0 0 0 0 0 0 1 1 0 0 ]
Cluster 3: Count 7 : [ 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ]
Cluster 4: Count 3 : [ 0 0 1 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 ]
Cluster 5: Count 36 : [ 1 0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 ]
Cluster 6: Count 2 : [ 0 0 1 0 0 0 0 0 1 1 0 0 0 0 1 0 0 0 1 0 1 ]
Cluster 7: Count 19 : [ 0 1 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 0 ]
Cluster 8: Count 7 : [ 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 ]
$
|
清单 13 显示了输出文件这个文件显示了实际的聚类结果,在我检查它时,可以看到动物名称、动物园数据集所定义的原始集群、ART 所识别的集群,以及验证数据集。
清单 13. ART 输出文件中生成的输出1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
| bass,0,4
carp,0,4
catfish,0,4
chub,0,4
dogfish,0,4
dolphin,0,1
haddock,0,4
...
wasp,8,6
Validation:
Validation:
aardvark (1) -> Cluster 5
ladybird (6) -> Cluster 8
parakeet (2) -> Cluster 2
piranha (4) -> Cluster 0
antelope (1) -> Cluster 5
|
在这个示例中,可以看到 ART 采用了所有 9 个集群,即使仅需要其中的 7 个。训练和验证集的整体准确率为 89%。ART 的优势在于,它可以扩展 RHO 所确定的集群数量,但它可能得到基于旧数据集的误分类结果。随机抽取数据集可以改善结果。
结束语本教程探索了如何为一个已清理的数据集构造两种无监督学习模型。VQ 是一个可以快速高效地对数据集进行聚类的简单算法;ART 稍微复杂一点,但可以根据数据集及其配置参数来调节聚类次数。在本系列的最后一篇教程中,我将探索多个数据可视化方法,以增进对它的理解。 |
|
|
|
|
|