教育资源为主的文档平台

当前位置: 查字典文档网> 所有文档分类> > 数学> k均值聚类报告

k均值聚类报告

上传者:汤晓青
|
上传时间:2015-05-04
|
次下载

k均值聚类报告

K-均值聚类算法报告

摘要

K-均值是聚类方法中长用的一种划分方法,有很多优点,本文主要对K-均值是聚类方法的产生,工作原理,一般步骤,以及它的源码进行简单的介绍,了解K-均值是聚类!!!

(一)课题名称:K-均值聚类(K-means clustering)

(二)课题分析: J.B.MacQueen 在 1967 年提出的K-means算法[22]到目前为止用于科学和工业应用的诸多聚类算法中一种极有影响的技术。它是聚类方法中一个基本的划分方法,常常采用误差平方和准则函数作为聚类准则函数,误差平方和准则函数定义为:

K-means 算法的特点——采用两阶段反复循环过程算法,结束的条件是不再有数据元素被重新分配:

① 指定聚类,即指定数据 到某一个聚类,使得它与这个聚类中心的距离比它到其它聚类中心的距离要近。

② 修改聚类中心。

优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K<<N,t<<N 。

动态聚类方法是模式识别中一种普遍采用的方法,它具有以下3个要点: 1:选定某种距离度量作为样本间的相似性度量

2:确定某个评价聚类结果质量的准则函数

3:给定某个初始分类,然后用迭代算法找出使准则函数取极值的最好的聚类结果

处理流程:

(1) 从 n个数据对象任意选择 k 个对象作为初始聚类中心;

(2) 循环(3)到(4)直到每个聚类不再发生变化为止;

(3) 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

(4) 重新计算每个(有变化)聚类的均值(中心对象)

k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。

k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

(三)总体检索思路:

利用goole,百度,搜狗等搜索引擎及校内的一些数据库进行相关内容的检索。主要检索内容为K-均值聚类算法的工作原理,一般步骤,源码。

(四)检索过程记录:

关键词:K-均值聚类算法

搜索引擎:百度

检索内容:①K-均值聚类算法工作原理

②K-均值聚类算法的一般步骤

③K-均值聚类算法的源码

中文数据库检索:中国知网(http://wendang.chazidian.com/)

维普网 (http://wendang.chazidian.com/)

万方 (http://wendang.chazidian.com/)

学科范围:信息技术

检索词:K-均值聚类算法

(五)检索结果分析:

1. K-均值聚类算法的工作原理:

K-means算法的工作原理:算法首先随机从数据集中选取 K个点作为初始聚类中心,然后计算各个样本到聚类中的距离,把样本归到离它最近的那个聚类中心所在的类。计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心,如果相邻两次的聚类中心没有任何变化,说明样本调整结束,聚类准则函数 已经收敛。本算法的一个特点是在每次迭代中都要考察每个样本的分类是否正确。若不正确,就要调整,在全部样本调整完后,再修改聚类中心,进入下一次迭代。如果在一次迭代算法中,所有的样本被正确分类,则不会有调整,聚类中心也不会有任何变化,这标志着 已经收敛,因此算法结束。

2.K-means聚类算法的一般步骤:

处理流程:

(1) 从 n个数据对象任意选择 k 个对象作为初始聚类中心;

(2) 循环(3)到(4)直到每个聚类不再发生变化为止;

(3) 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

(4) 重新计算每个(有变化)聚类的均值(中心对象)

3.K-均值聚类算法代码

#include <stdio.h>

#include <math.h>

#define TRUE 1

#define FALSE 0

int N;//数据个数

int K;//集合个数

int * CenterIndex;//初始化质心数组的索引

double * Center;//质心集合

double * CenterCopy;//质心集合副本

double * AllData;//数据集合

double ** Cluster;//簇的集合

int * Top;//集合中元素的个数,也会用作栈处理

//随机生成k个数x(0<=x<=n-1)作为起始的质心集合

void CreateRandomArray(int n, int k,int * center)

{

int i=0;

int j=0;

srand( (unsigned)time( NULL ) );

for( i=0;i<k;++i)//随机生成k个数

{

int a=rand()%n;

//判重

for(j=0;j<i;j++)

{

if(center[j]==a)//重复

{

break;

}

}

if(j>=i)//如果不重复,加入

{

center[i]=a;

}

else

{

i--;

//如果重复,本次重新随机生成

}

}

}

版权声明:此文档由查字典文档网用户提供,如用于商业用途请与作者联系,查字典文档网保持最终解释权!

下载文档

热门试卷

2016年四川省内江市中考化学试卷
广西钦州市高新区2017届高三11月月考政治试卷
浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
广西钦州市钦州港区2017届高三11月月考政治试卷
广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
广西钦州市高新区2016-2017学年高二11月月考政治试卷
广西钦州市高新区2016-2017学年高一11月月考政治试卷
山东省滨州市三校2017届第一学期阶段测试初三英语试题
四川省成都七中2017届高三一诊模拟考试文科综合试卷
2017届普通高等学校招生全国统一考试模拟试题(附答案)
重庆市永川中学高2017级上期12月月考语文试题
江西宜春三中2017届高三第一学期第二次月考文科综合试题
内蒙古赤峰二中2017届高三上学期第三次月考英语试题
2017年六年级(上)数学期末考试卷
2017人教版小学英语三年级上期末笔试题
江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
四川省简阳市阳安中学2016年12月高二月考英语试卷
四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
安徽省滁州中学2016—2017学年度第一学期12月月考​高三英语试卷
山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷

网友关注

2017年高考语文一轮复习考点规范练11:文学类文本阅读(散文)(苏教版)
中考数学:图形运动类问题的解答方法
2017年高考语文一轮复习考点规范练15:常见古诗文名句名篇的默写(苏教版)
广东茂名第二十中学2016-2017学年度第一学期期中质量监测九年级语文试卷
小学语文教育——说话不是读文
初一地理上册知识点学习5:发展与合作
2017年高考语文一轮复习考点规范练10:文学类文本阅读(小说)(苏教版)
博览群书的名言警句精选
高二数学圆锥曲线的答题解析
高二数学知识点学习:平面平行的性质
甘沟中学2016-2017学年第一学期高一半期考英语试题
2017中考数学平面直角坐标系常见考法及误区
易仁荣:巧用口诀和图表学习非谓语动词
高二文科数学选修1系列知识框架
人教版语文八年级上精选习题卷
高二物理教学计划及教学方案
初中数学考试常用的解题方法
八年级语文(上)古诗词鉴赏习题
高二物理选修1-1的复习资料整理
中考英语分类复习:翻译(解析)
小学语文课外文学常识积累练习
高二物理电场知识要点
2017年高考语文一轮复习考点规范练13:文言文阅读(散文)(苏教版)
初中语文现代文阅读答题思路
中考英语分类复习:代词(解析)
小学五年级2016年语文上秋季期中考试题
晓天中学2016-2017年度第一学期期中考试高二语文试题卷
高中语文作文序列训练
2017年高考语文一轮复习考点规范练17:外国小说欣赏(苏教版)
初中数学平面图形公式整理

网友关注视频

二年级下册数学第一课
苏科版数学 八年级下册 第八章第二节 可能性的大小
北师大版小学数学四年级下册第15课小数乘小数一
冀教版小学数学二年级下册第二单元《余数和除数的关系》
苏教版二年级下册数学《认识东、南、西、北》
沪教版牛津小学英语(深圳用) 五年级下册 Unit 10
七年级下册外研版英语M8U2reading
青岛版教材五年级下册第四单元(走进军营——方向与位置)用数对确定位置(一等奖)
冀教版小学英语五年级下册lesson2教学视频(2)
沪教版牛津小学英语(深圳用) 四年级下册 Unit 7
沪教版牛津小学英语(深圳用) 四年级下册 Unit 4
冀教版小学数学二年级下册第二单元《有余数除法的竖式计算》
第19课 我喜欢的鸟_第一课时(二等奖)(人美杨永善版二年级下册)_T644386
河南省名校课堂七年级下册英语第一课(2020年2月10日)
【部编】人教版语文七年级下册《老山界》优质课教学视频+PPT课件+教案,安徽省
沪教版八年级下册数学练习册20.4(2)一次函数的应用2P8
飞翔英语—冀教版(三起)英语三年级下册Lesson 2 Cats and Dogs
小学英语单词
七年级英语下册 上海牛津版 Unit5
外研版英语七年级下册module3 unit1第二课时
第12章 圆锥曲线_12.7 抛物线的标准方程_第一课时(特等奖)(沪教版高二下册)_T274713
沪教版八年级下册数学练习册21.3(2)分式方程P15
30.3 由不共线三点的坐标确定二次函数_第一课时(市一等奖)(冀教版九年级下册)_T144342
三年级英语单词记忆下册(沪教版)第一二单元复习
【部编】人教版语文七年级下册《过松源晨炊漆公店(其五)》优质课教学视频+PPT课件+教案,江苏省
二次函数求实际问题中的最值_第一课时(特等奖)(冀教版九年级下册)_T144339
第五单元 民族艺术的瑰宝_15. 多姿多彩的民族服饰_第二课时(市一等奖)(岭南版六年级上册)_T129830
3.2 数学二年级下册第二单元 表内除法(一)整理和复习 李菲菲
七年级英语下册 上海牛津版 Unit3
冀教版小学数学二年级下册第二周第2课时《我们的测量》宝丰街小学庞志荣