博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scikit-learn包的学习资料
阅读量:6155 次
发布时间:2019-06-21

本文共 3026 字,大约阅读时间需要 10 分钟。

K-Means clustering参数说明:

class sklearn.cluster.KMeans(n_clusters=8init='k-means++'n_init=10max_iter=300tol=0.0001,precompute_distances='auto'verbose=0random_state=Nonecopy_x=Truen_jobs=1)

n_clusters : int, optional, default: 8

The number of clusters to form as well as the number of centroids to generate.

集群形成的数量以及质心产生的数量。

max_iter : int, default: 300

Maximum number of iterations of the k-means algorithm for a single run.

k-means算法的一个单一运行的最大迭代数。

n_init : int, default: 10

Number of time the k-means algorithm will be run with different centroid seeds. The final results will be the best output of n_init consecutive runs in terms of inertia.

不同质心的种子的k - means算法将运行的次数。最终结果将是n_init次连续运行的最好的输出。

init : {‘k-means++’, ‘random’ or an ndarray}

Method for initialization, defaults to ‘k-means++’:

初始化的方法,默认为“k - means + +”:

‘k-means++’ : selects initial cluster centers for k-mean clustering in a smart way to speed up convergence. See section Notes in k_init for more details.“k - means + +”:用优化的方式来加速收敛,以选择k-mean初始集群中心。

‘random’: choose k observations (rows) at random from data for the initial centroids.

‘random’:从数据中随机的选择k个观测值作为初始的聚类中心。

If an ndarray is passed, it should be of shape (n_clusters, n_features) and gives the initial centers.

如果一个n胃数组传递,它的形状应该是(n_clusters n_features),并给出初始中心。

precompute_distances : {‘auto’, True, False}

Precompute distances (faster but takes more memory).

预计算的距离(更快,但需要更多的内存)。

‘auto’ : do not precompute distances if n_samples * n_clusters > 12 million. This corresponds to about 100MB overhead per job using double precision.

‘auto’:当n_samples * n_clusters > 1200万时,不要预先计算距离。这对应于使用双精度数据会带来平均大约100 mb的开销。

True : always precompute distances

False : never precompute distances

tol : float, default: 1e-4

Relative tolerance with regards to inertia to declare convergence

对于精度的惯性收敛

n_jobs : int

The number of jobs to use for the computation. This works by computing each of the n_init runs in parallel.用于计算的工作量。这是通过计算每个n_init并行运行。

If -1 all CPUs are used. If 1 is given, no parallel computing code is used at all, which is useful for debugging. For n_jobs below -1, (n_cpus + 1 + n_jobs) are used. Thus for n_jobs = -2, all CPUs but one are used.

random_state : integer or numpy.RandomState, optional

The generator used to initialize the centers. If an integer is given, it fixes the seed. Defaults to the global numpy random number generator.

verbose : int, default 0

Verbosity mode.

copy_x : boolean, default True

When pre-computing distances it is more numerically accurate to center the data first. If copy_x is True, then the original data is not modified. If False, the original data is modified, and put back before the function returns, but small numerical differences may be introduced by subtracting and then adding the data mean.

cluster_centers_ : array, [n_clusters, n_features]

Coordinates of cluster centers

labels_ : :

Labels of each point

inertia_ : float

Sum of distances of samples to their closest cluster center.

 

转载于:https://www.cnblogs.com/j6-2/p/4779455.html

你可能感兴趣的文章
下一步工作分配
查看>>
Response. AppendHeader使用大全及文件下载.net函数使用注意点(转载)
查看>>
Wait Functions
查看>>
jQuery最佳实践
查看>>
centos64i386下apache 403没有权限访问。
查看>>
jquery用法大全
查看>>
PC-BSD 9.2 发布,基于 FreeBSD 9.2
查看>>
css斜线
查看>>
Windows phone 8 学习笔记(3) 通信
查看>>
Revit API找到风管穿过的墙(当前文档和链接文档)
查看>>
Scroll Depth – 衡量页面滚动的 Google 分析插件
查看>>
Windows 8.1 应用再出发 - 视图状态的更新
查看>>
自己制作交叉编译工具链
查看>>
Qt Style Sheet实践(四):行文本编辑框QLineEdit及自动补全
查看>>
[物理学与PDEs]第3章习题1 只有一个非零分量的磁场
查看>>
深入浅出NodeJS——数据通信,NET模块运行机制
查看>>
onInterceptTouchEvent和onTouchEvent调用时序
查看>>
android防止内存溢出浅析
查看>>
4.3.3版本之引擎bug
查看>>
SQL Server表分区详解
查看>>