首頁 > 娛樂

R語言資料探勘實踐——系譜聚類

由懂碼雜記發表于娛樂2021-11-02

簡介我們首先從iris資料集中抽取含有40條記錄的一個樣本呢，避免繪製聚類影象時太過擁擠，我們先從資料集中中剔除Species屬性，然後在該樣本上進行層次聚類

系譜圖怎麼繪製

我們將在iris資料集上使用hclust（）進行系譜聚類。

我們首先從iris資料集中抽取含有40條記錄的一個樣本呢，避免繪製聚類影象時太過擁擠，我們先從資料集中中剔除Species屬性，然後在該樣本上進行層次聚類。程式碼如下：

> idx <- sample（1：dim（iris）［1］，40）

> irisSample <- iris［idx，］

> irisSample$Species <- NULL

> hc <- hclust（dist（irisSample），method = “complete”）

> plot（hc， hang = -1， labels = iris$Species［idx］）

> rect。hclust（hc，k=3）

>groups <- cutree（hc， k=3）

在hclust（）函式中，method引數用於選擇聚類的具體演算法，可供選擇的有ward、single及complete等7種，預設選擇complete方法。從繪製的樹狀圖中可以看出，“setaosa”與其他兩個簇的劃分比較明確，而“versicolor”和“virginica”存在小範圍的重疊。