教育资源为主的文档平台

当前位置: 查字典文档网> 所有文档分类> > 数学> k均值聚类报告

k均值聚类报告

上传者:汤晓青
|
上传时间:2015-05-04
|
次下载

k均值聚类报告

K-均值聚类算法报告

摘要

K-均值是聚类方法中长用的一种划分方法,有很多优点,本文主要对K-均值是聚类方法的产生,工作原理,一般步骤,以及它的源码进行简单的介绍,了解K-均值是聚类!!!

(一)课题名称:K-均值聚类(K-means clustering)

(二)课题分析: J.B.MacQueen 在 1967 年提出的K-means算法[22]到目前为止用于科学和工业应用的诸多聚类算法中一种极有影响的技术。它是聚类方法中一个基本的划分方法,常常采用误差平方和准则函数作为聚类准则函数,误差平方和准则函数定义为:

K-means 算法的特点——采用两阶段反复循环过程算法,结束的条件是不再有数据元素被重新分配:

① 指定聚类,即指定数据 到某一个聚类,使得它与这个聚类中心的距离比它到其它聚类中心的距离要近。

② 修改聚类中心。

优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K<<N,t<<N 。

动态聚类方法是模式识别中一种普遍采用的方法,它具有以下3个要点: 1:选定某种距离度量作为样本间的相似性度量

2:确定某个评价聚类结果质量的准则函数

3:给定某个初始分类,然后用迭代算法找出使准则函数取极值的最好的聚类结果

处理流程:

(1) 从 n个数据对象任意选择 k 个对象作为初始聚类中心;

(2) 循环(3)到(4)直到每个聚类不再发生变化为止;

(3) 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

(4) 重新计算每个(有变化)聚类的均值(中心对象)

k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。

k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

(三)总体检索思路:

利用goole,百度,搜狗等搜索引擎及校内的一些数据库进行相关内容的检索。主要检索内容为K-均值聚类算法的工作原理,一般步骤,源码。

(四)检索过程记录:

关键词:K-均值聚类算法

搜索引擎:百度

检索内容:①K-均值聚类算法工作原理

②K-均值聚类算法的一般步骤

③K-均值聚类算法的源码

中文数据库检索:中国知网(http://wendang.chazidian.com/)

维普网 (http://wendang.chazidian.com/)

万方 (http://wendang.chazidian.com/)

学科范围:信息技术

检索词:K-均值聚类算法

(五)检索结果分析:

1. K-均值聚类算法的工作原理:

K-means算法的工作原理:算法首先随机从数据集中选取 K个点作为初始聚类中心,然后计算各个样本到聚类中的距离,把样本归到离它最近的那个聚类中心所在的类。计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心,如果相邻两次的聚类中心没有任何变化,说明样本调整结束,聚类准则函数 已经收敛。本算法的一个特点是在每次迭代中都要考察每个样本的分类是否正确。若不正确,就要调整,在全部样本调整完后,再修改聚类中心,进入下一次迭代。如果在一次迭代算法中,所有的样本被正确分类,则不会有调整,聚类中心也不会有任何变化,这标志着 已经收敛,因此算法结束。

2.K-means聚类算法的一般步骤:

处理流程:

(1) 从 n个数据对象任意选择 k 个对象作为初始聚类中心;

(2) 循环(3)到(4)直到每个聚类不再发生变化为止;

(3) 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

(4) 重新计算每个(有变化)聚类的均值(中心对象)

3.K-均值聚类算法代码

#include <stdio.h>

#include <math.h>

#define TRUE 1

#define FALSE 0

int N;//数据个数

int K;//集合个数

int * CenterIndex;//初始化质心数组的索引

double * Center;//质心集合

double * CenterCopy;//质心集合副本

double * AllData;//数据集合

double ** Cluster;//簇的集合

int * Top;//集合中元素的个数,也会用作栈处理

//随机生成k个数x(0<=x<=n-1)作为起始的质心集合

void CreateRandomArray(int n, int k,int * center)

{

int i=0;

int j=0;

srand( (unsigned)time( NULL ) );

for( i=0;i<k;++i)//随机生成k个数

{

int a=rand()%n;

//判重

for(j=0;j<i;j++)

{

if(center[j]==a)//重复

{

break;

}

}

if(j>=i)//如果不重复,加入

{

center[i]=a;

}

else

{

i--;

//如果重复,本次重新随机生成

}

}

}

版权声明:此文档由查字典文档网用户提供,如用于商业用途请与作者联系,查字典文档网保持最终解释权!

下载文档

热门试卷

2016年四川省内江市中考化学试卷
广西钦州市高新区2017届高三11月月考政治试卷
浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
广西钦州市钦州港区2017届高三11月月考政治试卷
广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
广西钦州市高新区2016-2017学年高二11月月考政治试卷
广西钦州市高新区2016-2017学年高一11月月考政治试卷
山东省滨州市三校2017届第一学期阶段测试初三英语试题
四川省成都七中2017届高三一诊模拟考试文科综合试卷
2017届普通高等学校招生全国统一考试模拟试题(附答案)
重庆市永川中学高2017级上期12月月考语文试题
江西宜春三中2017届高三第一学期第二次月考文科综合试题
内蒙古赤峰二中2017届高三上学期第三次月考英语试题
2017年六年级(上)数学期末考试卷
2017人教版小学英语三年级上期末笔试题
江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
四川省简阳市阳安中学2016年12月高二月考英语试卷
四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
安徽省滁州中学2016—2017学年度第一学期12月月考​高三英语试卷
山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷

网友关注

申万宏源-有色金属行业一周回顾:稀土等出口关税5月起取消,碳酸锂补涨
中金公司-A股策略周报:关注股票供应层面的边际变化
世界投行和资本市场——以高盛为例
【现货黄金投资】美国1月ADP持稳20万上方,黄金震荡1270
齐鲁证券-周策略:站在风口等风来
长江证券-汽车与汽车零部件行业周报:继续重点推荐“汽车后市场+低估值蓝筹”
节能环保行业周报-2013-7-2——《环境保护法修正案(草案)》将进行二次审议
高华证券-煤炭行业:中国神华和中煤能源一季度业绩;2015年开局疲弱
中金公司-钢铁、建材行业周报:现跌期涨,需求弱复苏,产量环比回升
中金公司-中国宏观周报:民间基建投资起步、加速
【2015】斯蒂文斯理工学院:平凡背景下的绝处逢生
高华证券-建筑行业:掘丝路商机II,1060亿美元新市场于2016年打开;买入中交建、中国机械工程(摘要)
2009年合肥丰联房地产有限公司绿城雅苑项目可行性研究报告
【环球外汇网】:多头溃败美元待重振 看美联储决议定军心
海通证券-宏观周报:股债双牛去杠杆,宽货币再添新招
资金池分析与案例
环保行业:掘金新三板,飨行业盛宴-新三板投资机会
信达证券-化工行业:芭田股份、风神股份、新洋丰
民生证券-农业行业周报:板块多点开花,继续重推北大荒+隆平+大北农
中金公司-汽车及零部件行业:长安定增加码自主品牌,新能源和互联网汽车持续受关注
银河证券-国际经济周报第201期:美国房地产量价齐升
【现货黄金投资】美联储决议和疲软GDP来袭,黄金走势前景不明
【现货黄金投资】虽然受到34日均线有效支撑,但20日均线也带来了有效压力
民族证券-农林牧渔行业月度策略:猪周期的关键窗口期,继续看好并购重组转型
华信证券-宏观行业分析
【环球外汇网】:黄金破局恐加速下行 美联储决议或再探底线
安信证券-新能源汽车行业第16周周报:板块再次迎来投资拐点
信达证券-军工机械行业:潍柴动力、中航光电
信达证券-建筑建材行业:中国海诚、东方雨虹
中信建投-2015年第二次天津调研纪要:地方亟待资源重整

网友关注视频

外研版英语三起6年级下册(14版)Module3 Unit1
第五单元 民族艺术的瑰宝_15. 多姿多彩的民族服饰_第二课时(市一等奖)(岭南版六年级上册)_T129830
沪教版八年级下册数学练习册一次函数复习题B组(P11)
每天日常投篮练习第一天森哥打卡上脚 Nike PG 2 如何调整运球跳投手感?
七年级下册外研版英语M8U2reading
冀教版小学数学二年级下册1
外研版英语三起6年级下册(14版)Module3 Unit2
二年级下册数学第一课
3月2日小学二年级数学下册(数一数)
北师大版小学数学四年级下册第15课小数乘小数一
苏教版二年级下册数学《认识东、南、西、北》
沪教版牛津小学英语(深圳用) 五年级下册 Unit 12
外研版英语七年级下册module3 unit2第二课时
化学九年级下册全册同步 人教版 第22集 酸和碱的中和反应(一)
【部编】人教版语文七年级下册《过松源晨炊漆公店(其五)》优质课教学视频+PPT课件+教案,辽宁省
3.2 数学二年级下册第二单元 表内除法(一)整理和复习 李菲菲
外研版英语七年级下册module3 unit2第一课时
【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,广东省
外研版英语三起5年级下册(14版)Module3 Unit2
沪教版八年级下次数学练习册21.4(2)无理方程P19
外研版英语三起5年级下册(14版)Module3 Unit1
七年级英语下册 上海牛津版 Unit9
冀教版小学英语四年级下册Lesson2授课视频
【部编】人教版语文七年级下册《过松源晨炊漆公店(其五)》优质课教学视频+PPT课件+教案,江苏省
第五单元 民族艺术的瑰宝_16. 形形色色的民族乐器_第一课时(岭南版六年级上册)_T3751175
北师大版数学 四年级下册 第三单元 第二节 小数点搬家
化学九年级下册全册同步 人教版 第25集 生活中常见的盐(二)
苏科版八年级数学下册7.2《统计图的选用》
8.练习八_第一课时(特等奖)(苏教版三年级上册)_T142692
苏科版数学八年级下册9.2《中心对称和中心对称图形》