首頁 > 娛樂

R語言資料探勘實踐——系譜聚類

由 懂碼雜記 發表于 娛樂2021-11-02

簡介我們首先從iris資料集中抽取含有40條記錄的一個樣本呢,避免繪製聚類影象時太過擁擠,我們先從資料集中中剔除Species屬性,然後在該樣本上進行層次聚類

系譜圖怎麼繪製

R語言資料探勘實踐——系譜聚類

我們將在iris資料集上使用hclust()進行系譜聚類。

我們首先從iris資料集中抽取含有40條記錄的一個樣本呢,避免繪製聚類影象時太過擁擠,我們先從資料集中中剔除Species屬性,然後在該樣本上進行層次聚類。程式碼如下:

> idx <- sample(1:dim(iris)[1],40)

> irisSample <- iris[idx,]

> irisSample$Species <- NULL

> hc <- hclust(dist(irisSample),method = “complete”)

> plot(hc, hang = -1, labels = iris$Species[idx])

> rect。hclust(hc,k=3)

>groups <- cutree(hc, k=3)

R語言資料探勘實踐——系譜聚類

在hclust()函式中,method引數用於選擇聚類的具體演算法,可供選擇的有ward、single及complete等7種,預設選擇complete方法。從繪製的樹狀圖中可以看出,“setaosa”與其他兩個簇的劃分比較明確,而“versicolor”和“virginica”存在小範圍的重疊。

Tags:聚類irishclustSpecieshc