this distance is suitable for clustering when you pay much attention on two variable correlation
》》》》层次聚类的树状结构(Dendrogram)的解释:
对于含有n个样本的dendrogram而言,必然是有n-1次fuse into branch,最后才会只有一个branch,因为这个dendrogram最后只有一个branch。而这n-1次的fuse into branch的过程,因为是二叉树,所以可以是任意选择两个的,所以说there are 2^(n-1) possible reordings of the dendrogram,where n is
the number of leaves(就是样本个数)。
对于dendrogram中的每个叶子代表了一个样本,as we move up the tree,某些leaves开始做fuse into
branches(就是叶子合并到branch上,一个brach上可以有多个叶子)。越早做fuse(lower in the tree),表示这一组的样本之间距离越近。----可以看出每次fuse必然会形成一个group组的概念--------。所以如果你想看两个样本的距离,就去look for the point in the tree where branches containing those two 样本 are first fused,也就是通过纵坐标来衡量。
》》》》如何判定一个dendrogram的好坏?如下图所示:粗体代表了两个变量之间是有线性相关的,其他的两个变量时没有关系的。相关系数矩阵如下所示
我们采用四个 correlation有关的距离函数来做衡量
- Dissimilarity = 1 - Correlation
- Dissimilarity = (1 - Correlation)/2
- Dissimilarity = 1 - Abs(Correlation)
- Dissimilarity = Sqrt(1 - Correlation2)
得到的图像如下所示
这个距离的选择为何是不好的?
1-correlation图中的变量M10B和 M02A, M10A 和 P00B竟然聚在了一块,而他们的实际在表格中是不相关的接近0;
(1-correlation)/2仅仅是对纵坐标做了scaling,没有改变实际形状。
1-Abs(Correlation)效果是不错的,不相关的变量没有聚在一块,注意比如P00A and P00B没有聚集,因为他们没有相关系数.
Sqrt(1-Correlation2)也是不错的, 但是缩减了 垂直spread .这种场景适用于 when
only a small number of highly correlated clusters are desired.
》》》》总结就是:没有线性相关的变量不会聚集在一个group
还有就是做一次fuse into branch 就会做了个一个group
这个tree自底向上表示相关度逐渐减弱。
reference:
http://research.stowers-institute.org/mcm/efg/R/Visualization/cor-cluster/index.htm
没有评论:
发表评论