k均值聚类报告
K-均值聚类算法报告
摘要
K-均值是聚类方法中长用的一种划分方法,有很多优点,本文主要对K-均值是聚类方法的产生,工作原理,一般步骤,以及它的源码进行简单的介绍,了解K-均值是聚类!!!
(一)课题名称:K-均值聚类(K-means clustering)
(二)课题分析: J.B.MacQueen 在 1967 年提出的K-means算法[22]到目前为止用于科学和工业应用的诸多聚类算法中一种极有影响的技术。它是聚类方法中一个基本的划分方法,常常采用误差平方和准则函数作为聚类准则函数,误差平方和准则函数定义为:
K-means 算法的特点——采用两阶段反复循环过程算法,结束的条件是不再有数据元素被重新分配:
① 指定聚类,即指定数据 到某一个聚类,使得它与这个聚类中心的距离比它到其它聚类中心的距离要近。
② 修改聚类中心。
优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K<<N,t<<N 。
动态聚类方法是模式识别中一种普遍采用的方法,它具有以下3个要点: 1:选定某种距离度量作为样本间的相似性度量
2:确定某个评价聚类结果质量的准则函数
3:给定某个初始分类,然后用迭代算法找出使准则函数取极值的最好的聚类结果
处理流程:
(1) 从 n个数据对象任意选择 k 个对象作为初始聚类中心;
(2) 循环(3)到(4)直到每个聚类不再发生变化为止;
(3) 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;
(4) 重新计算每个(有变化)聚类的均值(中心对象)
k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。
k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
(三)总体检索思路:
利用goole,百度,搜狗等搜索引擎及校内的一些数据库进行相关内容的检索。主要检索内容为K-均值聚类算法的工作原理,一般步骤,源码。
(四)检索过程记录:
关键词:K-均值聚类算法
搜索引擎:百度
检索内容:①K-均值聚类算法工作原理
②K-均值聚类算法的一般步骤
③K-均值聚类算法的源码
中文数据库检索:中国知网(http://wendang.chazidian.com/)
维普网 (http://wendang.chazidian.com/)
万方 (http://wendang.chazidian.com/)
学科范围:信息技术
检索词:K-均值聚类算法
(五)检索结果分析:
1. K-均值聚类算法的工作原理:
K-means算法的工作原理:算法首先随机从数据集中选取 K个点作为初始聚类中心,然后计算各个样本到聚类中的距离,把样本归到离它最近的那个聚类中心所在的类。计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心,如果相邻两次的聚类中心没有任何变化,说明样本调整结束,聚类准则函数 已经收敛。本算法的一个特点是在每次迭代中都要考察每个样本的分类是否正确。若不正确,就要调整,在全部样本调整完后,再修改聚类中心,进入下一次迭代。如果在一次迭代算法中,所有的样本被正确分类,则不会有调整,聚类中心也不会有任何变化,这标志着 已经收敛,因此算法结束。
2.K-means聚类算法的一般步骤:
处理流程:
(1) 从 n个数据对象任意选择 k 个对象作为初始聚类中心;
(2) 循环(3)到(4)直到每个聚类不再发生变化为止;
(3) 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;
(4) 重新计算每个(有变化)聚类的均值(中心对象)
3.K-均值聚类算法代码
#include <stdio.h>
#include <math.h>
#define TRUE 1
#define FALSE 0
int N;//数据个数
int K;//集合个数
int * CenterIndex;//初始化质心数组的索引
double * Center;//质心集合
double * CenterCopy;//质心集合副本
double * AllData;//数据集合
double ** Cluster;//簇的集合
int * Top;//集合中元素的个数,也会用作栈处理
//随机生成k个数x(0<=x<=n-1)作为起始的质心集合
void CreateRandomArray(int n, int k,int * center)
{
int i=0;
int j=0;
srand( (unsigned)time( NULL ) );
for( i=0;i<k;++i)//随机生成k个数
{
int a=rand()%n;
//判重
for(j=0;j<i;j++)
{
if(center[j]==a)//重复
{
break;
}
}
if(j>=i)//如果不重复,加入
{
center[i]=a;
}
else
{
i--;
//如果重复,本次重新随机生成
}
}
}
下载文档
热门试卷
- 2016年四川省内江市中考化学试卷
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
- 山东省滨州市三校2017届第一学期阶段测试初三英语试题
- 四川省成都七中2017届高三一诊模拟考试文科综合试卷
- 2017届普通高等学校招生全国统一考试模拟试题(附答案)
- 重庆市永川中学高2017级上期12月月考语文试题
- 江西宜春三中2017届高三第一学期第二次月考文科综合试题
- 内蒙古赤峰二中2017届高三上学期第三次月考英语试题
- 2017年六年级(上)数学期末考试卷
- 2017人教版小学英语三年级上期末笔试题
- 江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
- 重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
- 江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
- 江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
- 山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
- 【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
- 四川省简阳市阳安中学2016年12月高二月考英语试卷
- 四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
- 安徽省滁州中学2016—2017学年度第一学期12月月考高三英语试卷
- 山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
- 福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
- 甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷
网友关注
- EB病毒检测临床意义
- 一位癌症患者和深圳户口的战争
- 高能聚焦超声刀HIFU治疗高危前列腺增生症体会
- 肥胖成心脏疾病第一杀手 防猝死做好5个方面
- 高能聚焦超声肿瘤治疗机治疗肝癌的护理
- 高能超声聚焦治疗子宫肌腺瘤临床报告
- 高能聚焦超声治疗子宫肌瘤的疗效观察
- 乳腺癌ER_PR_Her_2表达与临床病理特征(1)
- 人体自身作息时间表
- Air Pollution and Nonmalignant Respiratory Mortality in 16 Cohorts within the ESCAPE Project
- 肥胖成心脏疾病第一杀手
- 高能紫外光治疗白癜风的临床观察
- 6招远离肩部疼痛
- 8招抗疲劳运动保健康
- 感染题
- 职称论文 (3)
- 兰州理工大学两百余学生腹泻入院 疑因自来水异常
- 针灸科危急值报告制度及流程
- 高能窄谱光子治疗Ⅲ度压疮临床疗效分析
- 教你几招,灭“春火”
- LASIK手术中飞秒激光制作角膜瓣的临床观察和护理体会
- 健康生活可延缓脑衰老
- 高能电子线皮肤辐射损伤动物模型的超微病理学研究
- 高能聚焦超声在肿瘤治疗中的能效
- 上肢骨折的护理常规
- 提高脊神经根损伤后神经元存活率:我们能做什么?
- 重症医学科知情同意书制度
- 高能聚焦超声治疗腹膜后淋巴结转移癌37例护理体会
- 诱发“口气”的原因
- 高能能全力用于危重症患者肠内营养疗效观察
网友关注视频
- 外研版英语三起6年级下册(14版)Module3 Unit2
- 外研版英语三起5年级下册(14版)Module3 Unit1
- 小学英语单词
- 第五单元 民族艺术的瑰宝_15. 多姿多彩的民族服饰_第二课时(市一等奖)(岭南版六年级上册)_T129830
- 【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,辽宁省
- 3.2 数学二年级下册第二单元 表内除法(一)整理和复习 李菲菲
- 冀教版小学数学二年级下册第二单元《有余数除法的整理与复习》
- 沪教版八年级下册数学练习册20.4(2)一次函数的应用2P8
- 第12章 圆锥曲线_12.7 抛物线的标准方程_第一课时(特等奖)(沪教版高二下册)_T274713
- 冀教版英语三年级下册第二课
- 冀教版小学数学二年级下册第二周第2课时《我们的测量》宝丰街小学庞志荣
- 化学九年级下册全册同步 人教版 第25集 生活中常见的盐(二)
- 外研版英语三起6年级下册(14版)Module3 Unit1
- 【部编】人教版语文七年级下册《过松源晨炊漆公店(其五)》优质课教学视频+PPT课件+教案,江苏省
- 【部编】人教版语文七年级下册《老山界》优质课教学视频+PPT课件+教案,安徽省
- 苏教版二年级下册数学《认识东、南、西、北》
- 七年级下册外研版英语M8U2reading
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 12
- 六年级英语下册上海牛津版教材讲解 U1单词
- 二年级下册数学第二课
- 二次函数求实际问题中的最值_第一课时(特等奖)(冀教版九年级下册)_T144339
- 8.练习八_第一课时(特等奖)(苏教版三年级上册)_T142692
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 7
- 每天日常投篮练习第一天森哥打卡上脚 Nike PG 2 如何调整运球跳投手感?
- 沪教版牛津小学英语(深圳用) 五年级下册 Unit 7
- 第8课 对称剪纸_第一课时(二等奖)(沪书画版二年级上册)_T3784187
- 苏科版数学 八年级下册 第八章第二节 可能性的大小
- 冀教版小学数学二年级下册第二单元《有余数除法的简单应用》
- 河南省名校课堂七年级下册英语第一课(2020年2月10日)
- 青岛版教材五年级下册第四单元(走进军营——方向与位置)用数对确定位置(一等奖)
精品推荐
- 2016-2017学年高一语文人教版必修一+模块学业水平检测试题(含答案)
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
分类导航
- 互联网
- 电脑基础知识
- 计算机软件及应用
- 计算机硬件及网络
- 计算机应用/办公自动化
- .NET
- 数据结构与算法
- Java
- SEO
- C/C++资料
- linux/Unix相关
- 手机开发
- UML理论/建模
- 并行计算/云计算
- 嵌入式开发
- windows相关
- 软件工程
- 管理信息系统
- 开发文档
- 图形图像
- 网络与通信
- 网络信息安全
- 电子支付
- Labview
- matlab
- 网络资源
- Python
- Delphi/Perl
- 评测
- Flash/Flex
- CSS/Script
- 计算机原理
- PHP资料
- 数据挖掘与模式识别
- Web服务
- 数据库
- Visual Basic
- 电子商务
- 服务器
- 搜索引擎优化
- 存储
- 架构
- 行业软件
- 人工智能
- 计算机辅助设计
- 多媒体
- 软件测试
- 计算机硬件与维护
- 网站策划/UE
- 网页设计/UI
- 网吧管理