教育资源为主的文档平台

当前位置: 查字典文档网> 所有文档分类> 论文> 其他论文> 基于Hadoop的并行聚类算法的研究

基于Hadoop的并行聚类算法的研究

上传者:网友
|
翻新时间:2023-01-14

基于Hadoop的并行聚类算法的研究

摘 要:本文介绍了Hadoop平台下MapReduce的并行编程框架,分析了传统Kmeans聚类算法的优缺点,提出基于Canopy的Canopy-Kmeans聚类算法。使用Canopy聚类先对数据进行“粗”聚类,以优化Kmeans聚类算法初始聚类中心的选取。选用MapReduce并行编程方法。实验表明该方法相对于传统Kmeans聚类算法有着更高的计算效率。

关键词:Hadoop;MapReduce;聚类;Canopy-Kmeans算法

中图分类号:TP391.1

1 MapReduce并行编程模型

MapReduce是现在各种云计算平台的基础模型。此模型的核心是Map和Reduce函数,他们都可以高度并行运行。Map函数可以处理多组数据,把一对Key\Value对映射成新的Key\Value对,Reduce的输入数据为Map函数的输出数据。由并发Reduce函数来确保所有映射Key\Value对中的每组都有相等的Key键值[3]。MapReduce的运行机制是将大数据集分解成为许多小数据集splits,每个数据集分别由集群中的一个节点执行Map过程并生成中间结果。接着这些中间结果被大批的并行执行的 Reduce过程做相应的处理,从而产生最终结果,输出给用户[4]。

2 Canopy-Kmeans算法

2.1 算法的思想

2.2 基于MapReduce的Canopy-Kmeans算法

图1 Canopy-Kmeans 实现流程

3 算法时间复杂度分析

传统的Kmeans算法的时间复杂度为O(nck)。其中n为数据对象数量,c为迭代次数,k为类数量。该文引入Canopy聚类,产生k个canopy,每一个数据对象有可能同时属于q(q≤k)个canopy。当集群数量为p时,可知算法的时间复杂度为O(ncq2k/p)。可以看出该算法的时间复杂度与传统的Kmeans时间复杂度相比明显降低了。

4 实验与结果分析

4.1 数据集和实验环境

实验数据是从UCI机器学习库中选取的部分数据集,如表1所示。这些标准数据集用以准确度量本文算法的聚类效果。

表1 实验数据集

数据集 样本数 属性数 类别数

Synthetic_Control 600 60 6

Segmentation 2310 18 7

Waveform-40 5000 40 3

Hadoop为开发平台,运用MapReduce编程框架完成实验。本实验是在5台VMWare平台下的虚拟机搭建成的Hadoop集群环境中完成,实验由5台PC机构成,其中一台作为主节点,剩余四台作为从节点。

4.2 实验结果及分析

将本文算法与MapReduce框架下的Kmeans聚类(算法a)、Weka环境下的串行Kmeans聚类(算法b)做比较。实验结果如表2所示。实验结果表明,算法a、b的正确率和误差平方和相对接近,可以看出该算法的聚类效果明显更好。

表2 实验结果

数据集 算法a 算法b 本文算法

正确率/(%) 误差平方和 迭代时间/ms 正确率/(%) 误差平方和 迭代时间/ms 正确率/(%) 误差平方和 Canopy聚类时间/ms 迭代时间/ms

Synthetic_Control 66.9 600.07 191543 64.8 604.65 10948 71.35 533.54 18945 173475

从算法的迭代时间来看,算法a的迭代时间比本文算法的迭代时间要长。这说明本文在引进Canopy聚类后。大大减少了每次迭代中的计算量,降低了运行时间。

5 结束语

针对大规模数据聚类的问题。本文提出了基于Map Reduce的并行化Canopy-Kmeans算法。对Kmeans聚类算法的优化确实避免了传统Kmeans算法的缺陷,明显降低时间复杂度,减少了计算量,提高聚类效率。MapReduce是目前主流的并行编程模型,但该模型本身存在一些局限性。最新的并行计算框架Prlter,Spark等对MapReduce进行了改进,怎么在最新的并行计算框架上对算法进行并行化设计和实现需要做进一步的实践。

参考文献:

[2]李应安.基于MapReduce聚类算法的并行化研究[D].中山大学,2010.

[3]张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012

(10):114-118.

[4]赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程应用,2008

(10):147-149.

下载文档

版权声明:此文档由查字典文档网用户提供,如用于商业用途请与作者联系,查字典文档网保持最终解释权!

网友最新关注

戏猫
爸爸真好
百宝匣
叶老师,你真好!
我哭了
童年的“发明梦”
拜月
日记
我的幸福
我最希望成为一名吉他手
“抠门”的妈妈
大姐姐
童年“顽”事
采八角
尊敬的清洁工
浅谈英语口语技能大赛背景下的高职英语教学改革
传媒类院校学科建设管理机制创新及发展路径研究
浅谈环境艺术设计专业“工作室制”创业指导体系研究
试析理工院校英语专业办学定位与课程设置研究
试析军校大学英语教学语境下性别差异对教学的影响
试析全息理论视域下的高校科技创新扩散模式
试析新时期高校思政教育有效性研究
试析视域下的现代大学制度改革
试析大学生口语交际能力的培养
试析独立学院的个性化教育与人才培养
试析对高校就业指导体系建设的思考
试析微格教学实践共同体自组织特征与形成机制研究
简论新形势下加强高校班级文化建设策略研究
试论深化学分制改革的思考
简论新形势下高职院校教学管理改革探析
《与朱元思书》通假字
《与朱元思书》教学提示
《与朱元思书》题解
《与朱元思书》教法建议
《与朱元思书》字词综合运用
《与朱元思书》解词
《与朱元思书》多音字辨析
《与朱元思书》课文赏析
《与朱元思书》重点难点点拨
《与朱元思书》疑难解析
《与朱元思书》古今异义
《与朱元思书》课文品析
《与朱元思书》课文背景知识
《与朱元思书》翻译及点评
《与朱元思书》问题探究