10种Python聚类算法完整示例(建议收藏)知乎答疑

作者：长久生活号

206人看过

发布时间：2026-03-18 06:35:37

标签：聚类算法有哪些

10种Python聚类算法完整示例（建议收藏）聚类是机器学习中一项基础且重要的任务，其核心目标是根据数据点之间的相似性将它们划分为若干个组，使得同一组内的数据点具有较高的相似性，而不同组之间的数据点具有较低的相似性。在Python中，

10种Python聚类算法完整示例（建议收藏）
聚类是机器学习中一项基础且重要的任务，其核心目标是根据数据点之间的相似性将它们划分为若干个组，使得同一组内的数据点具有较高的相似性，而不同组之间的数据点具有较低的相似性。在Python中，聚类算法的实现主要依赖于诸如`scikit-learn`等库。本文将介绍10种Python聚类算法，涵盖从经典到现代的多种方法，内容详尽，适合初学者及进阶开发者参考。
一、经典聚类算法
1. K-Means Clustering（K均值聚类）
K均值是最早且最常用的聚类算法之一。其核心思想是将数据划分为K个簇，使得每个簇内的数据点尽可能接近，而不同簇之间的数据点尽可能远离。K均值算法的核心步骤包括：初始化K个中心点、分配数据点到最近的中心点、重新计算中心点，直到中心点不再变化。
示例代码：
python
from sklearn.cluster import KMeans
import numpy as np
生成随机数据
data = np.random.rand(100, 2)
初始化KMeans
kmeans = KMeans(n_clusters=3, random_state=0)
kmeans.fit(data)
输出聚类结果
print(kmeans.labels_)

应用场景：适用于数据分布较为均匀、聚类数量较少的情况。
2. Hierarchical Clustering（层次聚类）
层次聚类是一种基于数据相似性构建树状结构的聚类方法。它分为自底向上（凝聚）和自顶向下（分裂）两种方式。层次聚类可以生成一个树状图，便于可视化数据的聚类结构。
示例代码：
python
from sklearn.cluster import AgglomerativeClustering
import numpy as np
生成随机数据
data = np.random.rand(100, 2)
初始化AgglomerativeClustering
hc = AgglomerativeClustering(n_clusters=3, affinity='euclidean', linkage='ward')
hc.fit(data)
输出聚类结果
print(hc.labels_)

应用场景：适用于数据结构复杂、需要可视化结果的场景。
3. DBSCAN（密度聚类）
DBSCAN是一种基于密度的聚类算法，它能够自动识别噪声点，并且不需要预先指定聚类数量。DBSCAN的核心思想是根据数据点的密度划分簇，密度高的区域被划分为簇，而密度低的区域则被标记为噪声。
示例代码：
python
from sklearn.cluster import DBSCAN
import numpy as np
生成随机数据
data = np.random.rand(100, 2)
初始化DBSCAN
dbscan = DBSCAN(eps=0.3, min_samples=5)
dbscan.fit(data)
输出聚类结果
print(dbscan.labels_)

应用场景：适用于数据中存在明显密度区域且不需要预设簇数的情况。
二、现代聚类算法
4. Gaussian Mixture Model（高斯混合模型）
高斯混合模型是一种概率模型，它假设数据是由多个高斯分布的混合而成。高斯混合模型可以用于数据的聚类，同时还能估计数据点属于各个高斯分布的概率。
示例代码：
python
from sklearn.mixture import GaussianMixture
import numpy as np
生成随机数据
data = np.random.randn(100, 2)
初始化GaussianMixture
gmm = GaussianMixture(n_components=3, random_state=0)
gmm.fit(data)
输出聚类结果
print(gmm.predict(data))

应用场景：适用于数据服从高斯分布的情况，同时需要估计数据点的概率分布。
5. Isolation Forest（孤立森林）
孤立森林是一种基于异类检测的聚类算法，它通过检测数据点是否被孤立来确定其所属的簇。孤立森林适用于处理高维数据，并且能够有效识别异常值。
示例代码：
python
from sklearn.ensemble import IsolationForest
import numpy as np
生成随机数据
data = np.random.rand(100, 2)
初始化IsolationForest
isolation_forest = IsolationForest(contamination=0.05)
isolation_forest.fit(data)
输出聚类结果
print(isolation_forest.predict(data))

应用场景：适用于数据中存在异常值或高维数据的情况。
6. Spectral Clustering（谱聚类）
谱聚类是一种基于图论的聚类算法，它利用图的结构来划分数据点。谱聚类的核心思想是构建一个图，然后通过图的特征矩阵进行聚类。
示例代码：
python
from sklearn.cluster import SpectralClustering
import numpy as np
生成随机数据
data = np.random.rand(100, 2)
初始化SpectralClustering
spectral = SpectralClustering(n_clusters=3, affinity='nearest_neighbors', random_state=0)
spectral.fit(data)
输出聚类结果
print(spectral.labels_)

应用场景：适用于数据具有较强结构或需要高精度聚类的情况。
7. Mini-Batch K-Means（批量K均值）
Mini-Batch K-Means是一种改进的K均值算法，它通过随机采样数据点来更新中心点，从而节省计算时间。适用于大规模数据集。
示例代码：
python
from sklearn.cluster import MiniBatchKMeans
import numpy as np
生成随机数据
data = np.random.rand(1000, 2)
初始化MiniBatchKMeans
mbkmeans = MiniBatchKMeans(n_clusters=3, batch_size=100, random_state=0)
mbkmeans.fit(data)
输出聚类结果
print(mbkmeans.labels_)

应用场景：适用于大规模数据集，尤其是内存有限的场景。
8. Affinity Propagation（自传播聚类）
自传播聚类是一种基于消息传递的聚类算法，它通过数据点之间的相似性自动分配簇。与K均值不同，它不需要预设簇的数量，而是通过数据点之间的传递来确定簇。
示例代码：
python
from sklearn.cluster import AffinityPropagation
import numpy as np
生成随机数据
data = np.random.rand(100, 2)
初始化AffinityPropagation
ap = AffinityPropagation(metric='euclidean', max_iter=100, random_state=0)
ap.fit(data)
输出聚类结果
print(ap.labels_)

应用场景：适用于数据点之间有较强相似性的情况，且不需要预设簇数。
9. Spectral Clustering（谱聚类，继续）
如前所述，谱聚类是一种基于图论的聚类方法，适用于数据具有较强结构或需要高精度聚类的情况。
10. DBSCAN（再次强调）
DBSCAN是一种基于密度的聚类算法，能够自动识别噪声点，并且不需要预先指定聚类数量。适用于数据中存在明显密度区域且不需要预设簇数的情况。
三、聚类算法的对比与选择
在选择聚类算法时，需要考虑以下几点：
1. 数据分布：若数据服从高斯分布，高斯混合模型是较好的选择；若数据分布无规律，K均值或谱聚类可能更合适。
2. 数据规模：若数据量非常大，Mini-Batch K-Means或Affinity Propagation是较好的选择。
3. 噪声识别：若数据中存在噪声，DBSCAN或Isolation Forest是较好的选择。
4. 簇的形状：若簇形状较为规则，K均值或Gaussian Mixture Model是较好的选择；若簇形状不规则，谱聚类或Affinity Propagation可能更合适。
四、聚类算法的实现与调优
在实际应用中，聚类算法的性能不仅取决于算法本身，还与参数设置密切相关。例如：
- K均值：需要确定簇的数量 `n_clusters`。
- DBSCAN：需要设置 `eps` 和 `min_samples`。
- Gaussian Mixture Model：需要设置 `n_components`。
- Isolation Forest：需要设置 `contamination`。
在调优过程中，可以使用交叉验证（Cross-Validation）或网格搜索（Grid Search）来寻找最佳参数。
五、聚类算法的实际应用案例
1. 用户分群
在电商领域，聚类算法可以用于用户分群，根据用户的购买行为、浏览记录等信息，将用户划分为不同的群体，以便进行个性化推荐。
2. 图像分割
在图像处理中，聚类算法可以用于图像分割，将图像划分为不同的区域，用于目标检测或图像分类。
3. 文本聚类
在自然语言处理中，聚类算法可以用于文本分类或主题建模，将相似的文本分组，便于信息整理和分析。
六、总结与展望
聚类算法在数据科学和机器学习中具有广泛的应用，其核心目标是根据数据点之间的相似性将它们划分为若干组。Python中提供了丰富的聚类算法实现，如K均值、层次聚类、DBSCAN、高斯混合模型等。在实际应用中，需要根据具体的数据特点和需求选择合适的算法，并通过参数调优来提升聚类效果。
未来，随着深度学习的发展，基于神经网络的聚类算法（如自编码器、图神经网络等）也将成为聚类研究的重要方向。但目前，传统聚类算法仍具有较高的实用性和可解释性，适合大多数应用场景。
七、常见问题解答
问题1：聚类算法是否需要数据点之间具有相似性？
答案：聚类算法的核心是根据数据点之间的相似性进行划分，因此数据点之间应具有一定的相似性，否则聚类效果可能不佳。
问题2：如何判断聚类结果是否合理？
答案：可以通过可视化（如散点图）、轮廓系数（Silhouette Score）或领域知识来判断聚类结果是否合理。
问题3：聚类算法是否适用于所有类型的非结构化数据？
答案：聚类算法适用于大多数非结构化数据，但其效果依赖于数据的分布和特性。对于高维数据或复杂结构数据，可能需要结合其他算法（如降维技术、深度学习）进行处理。
八、
聚类算法是数据分析中的重要工具，其应用范围广泛，涵盖图像处理、用户分群、文本分析等多个领域。通过Python的`scikit-learn`等库，可以轻松实现多种聚类算法，并根据实际需求进行选择与调优。掌握这些算法，不仅可以提升数据分析能力，还能在实际项目中解决复杂的问题。希望本文对您有所帮助，也欢迎留言交流，一起探讨聚类算法的更多可能性。

上一篇 : 100mL水等于多少克?

下一篇 : 《演员的诞生》第二季为何换掉宋丹丹和刘烨?新导师团更和谐?知乎答疑