Sklearn学习之k-means算法

sklearn学习之k-means算法。

非监督学习

特点:物以类聚,人以群分

image-20200903023728577

k-means步骤

1、随机设置K个特征空间内的点作为初始的聚类中心

2、对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别

3、接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值

4、如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行第二步过程

image-20200903023948152

image-20200903024000591

image-20200903024009131

k-means API

sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’)

  • k-means聚类

  • n_clusters:开始的聚类中心数量

  • init:初始化方法,默认为’k-means ++’

  • labels_:默认标记的类型,可以和真实值比较(不是值比较)

k-means举例

k-means对Instacart Market用户聚类

1、降维之后的数据

2、k-means聚类

3、聚类结果显示

K-means性能评估指标

轮廓系数:

image-20200903024419941

对于每个点i 为已聚类数据中的样本 ,bi 为i 到其它族群的所有样本的平均距离,ai 为i 到本身簇的距离平均值,最终计算出所有的样本点的轮廓系数平均值。

如果sci 小于0,说明ai 的平均距离大于最近的其他簇。聚类效果不好。

如果sci 越大,说明ai 的平均距离小于最近的其他簇。

聚类效果好轮廓系数的值是介于 [-1,1] ,越趋近于1代表内聚度和分离度都相对较优。

K-means性能评估指标API

sklearn.metrics.silhouette_score(X, labels)

  • 计算所有样本的平均轮廓系数

  • X:特征值

  • labels:被聚类标记的目标值

K-means总结

特点分析:采用迭代式算法,直观易懂并且非常实用

缺点:容易收敛到局部最优解(多次聚类),需要预先设定簇的数量(k-means++解决)

代码实现

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score

# 读取四张表的数据
prior = pd.read_csv("./data/instacart/order_products__prior.csv")
products = pd.read_csv("./data/instacart/products.csv")
orders = pd.read_csv("./data/instacart/orders.csv")
aisles = pd.read_csv("./data/instacart/aisles.csv")

# 合并四张表到一张表 (用户-物品类别)
_mg = pd.merge(prior, products, on=['product_id', 'product_id'])
_mg = pd.merge(_mg, orders, on=['order_id', 'order_id'])
mt = pd.merge(_mg, aisles, on=['aisle_id', 'aisle_id'])

# 交叉表(特殊的分组工具)
cross = pd.crosstab(mt['user_id'], mt['aisle'])

# 进行主成分分析
pca = PCA(n_components=0.9)

data = pca.fit_transform(cross)

# 把样本数量减少
x = data[:500]
x.shape

# 假设用户一共分为四个类别
km = KMeans(n_clusters=4)

km.fit(x)

predict = km.predict(x)

# 显示聚类的结果
plt.figure(figsize=(10,10))

# 建立四个颜色的列表
colored = ['orange', 'green', 'blue', 'purple']
colr = [colored[i] for i in predict]
plt.scatter(x[:, 1], x[:, 20], color=colr)

plt.xlabel("1")
plt.ylabel("20")

plt.show()

# 评判聚类效果,轮廓系数
silhouette_score(x, predict)
打赏
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2015-2020 WuXei Si
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

支付宝
微信