教育资源为主的文档平台

当前位置: 查字典文档网> 所有文档分类> > 其它> 数据挖掘在超市中的应用与分析

数据挖掘在超市中的应用与分析

上传者:齐和乐
|
上传时间:2015-05-06
|
次下载

数据挖掘在超市中的应用与分析

数据挖掘在超市中的应用与分析

摘要:随着我国经济高速发展,人们生活水平的提高,超市在社会中的普及范围越来越广,极大的方便了人们的生活和工作的同时快速的促进了我国社会经济的发展,尤其是近年来的各类大型超市在城市中所占的比例越来越高,其中不乏国外的一些大型超市企业入驻我国,但正因为国内外超市在我国所占的比例和数量在不断的增加,导致目前我国超市行业的竞争程度日益激烈,顾客在各个超市的选择上有了比较对比,顾客有了更多的选择,导致各个超市的利润空间在不断的压缩,为了解决在如此激烈的社会竞争环境下获得更好的发展,需求新的突破问题,目前超市的运营模式从货物的采购到运输、管理、营销、服务等方面进行了创新和完善,期望从中数据方面发现一些关联规则,利用这些关联规则来提高超市的销量,为此本文就主要对数据中的关联规则算法进行分析,建立起关联规则算法模型,再结合实例进一步的研究数据挖掘对于超市的作用。

关键词:超市;数据挖掘;关联规则算法;数据模型

1.前言

1.1研究目的和研究意义

随着信息技术的不断进步和计算机的不断普及,人们所收集和积累的数据急剧增加。在海量的数据中提取有用的信息、发现隐含的规则,成为人们研究的重点。本文通过对超市运营中存在的问题现状进行分析,再结合以往某大型超市的销售数据,期望从中去发现数据中的一些关联规则,主要采用关联规则算法对数据进行建模分析,利用商品之间的关联关系合理的设置货架摆放、合理的进行商品捆绑销售以及对竞争商品进行合理的促销,从而提高超市的销售量,使超市能够健康的发展。

由于超市所面对的竞争环境越来越严峻,使得很多超市的管理人员和决策人员逐渐的认识到超市在信息时代要想获得更好的发展空间,数据支持是一项必不可少的手段,尤其是近10年来商品条码技术、收银POS系统等在超市中广泛运用,这为超市企业积累了大量的销售以及库存等方面的数据,这为超市的数据分析提供了很庞大的数据资源,由于以往超市很少对这些数据资源进行完整的分析

和应用,使得超市在进货选择的类型、数量、厂家等都有一定的盲目性,同时对顾客的购买行为、购买趋势以及客户的关系没有进行透彻分析和研究,导致这些方面都基本缺乏较为科学的数据进行支持,这对提高超市核心竞争力和超市以后的发展极为不利。当人们逐渐认识到数据支持对于超市发展的作用和意义,他们也认识到在21世纪信息时代要想在如此激烈的竞争中占取有利的地位,得到最大的利润,必须要充分的利用好网络计算机信息技术、数据技术等,更深层次的去挖掘和分析以往的所有数据以及相关的数据的关系,从中提取对超市发展有利的核心决策数据,再根据决策数据来制定出相应的决策,最终使超市能够可持续的发展。

1.2国内外文献综述

数据挖掘技术的出现是上个世纪90年代,虽然发展的时间并不长,但是其发展的速度极快,它是由多个学科综合而诞生的产物,所以使得它并没有一个完整的定义,很多学者和研究人员也尝试的对数据挖掘进行定义,本文认为数据挖掘是利用数学统计技术、识别技术、计算机信息技术等技术在大量的数据中去挖掘和获取有用数据或有用关系的过程。目前数据挖掘技术在超市的商业模式中应用的较为广泛,其功能主要包含了以下几个方面:聚类、关联规则和序列模式的发现、分类、预测以及偏差的检测。

在国际上,对于数据挖掘的研究有了较大的突破,例如在1989年国际联合人工智能学术会议上就首次的提出了KDD一词,到目前为止,美国人工智能协会所举办的KDD会议已经多达10多次,从最先的几十个人发展到目前的几千人,各项新的研究成果以及论文论述在不断的增多,目前重点的研究内容有大规模集成开发、系统的应用、学科与学科之间的相互配合和渗透等。国际上也有很大的研究机构和大学也在积极的研究数据挖掘技术,较为著名的大学有卡内基梅隆大学、斯坦福大学等,研究机构有美国资料勘探中心、美国计算机协会等,除了上述的研究机构和著名大学外,美国的一些主流的计算机研究刊物也对数据挖掘技术进行了专项讨论,例如IEEE中的Knowledge and Data Engineering,它就对KDD系统设计、方法、逻辑等进行了全面的分析,详细的分析了常见的数据库动态性冗余、空值、高噪声等问题,并针对这些问题提出一系列的解决方案。 在国内,数据挖掘技术的研究较国外更晚,目前的研究成果和研究进度较国

际还有一定的差距,不过近年来由于我国的经济发展较为快速,科学技术也在不断提高,使得我国的一些关于数据挖掘技术的研究机构和大学也取得了一定的成就,越来越多关于数据挖掘技术的论文和刊物被发表,这为我国未来的数据挖掘技术的研究奠定了良好的基础。目前关于数据挖掘技术的研究主要有清华大学、中科院计算机研究所、北京大学、浙江大学、南京大学、复旦大学、中国科技大学等,这些高等院校和研究机构都有个各自的研究成果。

2.数据挖掘综述

2.1数据挖掘理论

2.1.1数据挖掘的产生和发展

2.1.2数据挖掘相关技术和方法

通常来说,数据挖掘技术可以分为两类,分别是传统的数据挖掘技术和改良后的数据挖掘技术,前者主要包括了概率论、序列统计、类别数据分析、回归分析等,后者主要包含了规则归纳分析、决策树理论分析、类神经网络分析,其中的分析方法多种多样,每一种分析方法所运用到的知识和学科相对应,以下就简单的概述常见的方法。

(1)统计学

统计学是最为常见的一种数据挖掘方法,该方法主要是通过在所选取的数据中提取未知的数学模型,具有较强的统计过程,例如涉及到数据的抽样、建模、假设判断、误差控制等过程。

(2)人工神经网络算法

该方法主要模拟的是生物神经网络的一种分析方法,主要是通过训练以进一步的学习非线性预测模型,该方法常见的操作有分类、聚类、数据特征采集等。

(3)决策树算法

该方法主要运用在数据分类上,通常有两个过程,一是决策树的构造,二是决策树的修剪,实现方法如下:先将训练数据生成一个测试函数,再选取一些特定的数值来构建起数的分支,再对每个树的分支集中充分的建立起下层的分支和结点,从而形成决策树,然后对整个决策树进行修剪,形成一种规则,我们就可以利用这种规则对新的数据进行进一步的分类处理。由于决策树分析方法具有转化快、速度快、易于数据库查询等优势,使得这种方法在很多领域得以广泛的运

用。

(4)关联规则

在数据挖掘领域,关联规则法是目前研究较为活跃的方法,这种方法最早是由Agrawal等人在上个世纪90年代提出,目前这种方法在数据库以及人工智能方面得到广泛的关注和研究,这种方法主要反映的是数据与数据指间的定性关联关系,通过数据间的关系来对数据进行分类和挖掘,目前这种方法有并行发现算法、增量更新算法、多循环方式挖掘算法、多值属性挖掘、多层关联规则挖掘等等。

(5)遗传算法

遗传算法本质是一种优化技术,它的产生主要是根据生物进行概念对数据问题进行分析和搜索,进而对数据进行优化,采用遗传算法需要先对要求解的问题进行编码处理,先得到最初始的群体,然后再计算出个体适应度,再进行染色体的复制、交换、突变等操作,最后得到新的个体,我们可以重复上述这个过程,直到得到我们认为的最优解。而在数据挖掘中,通常将数据挖掘问题表达成一种搜索性问题,利用遗传算法较强的搜索能力,从而得到我们想要的最优结果。

2.1.3数据挖掘应用流程

我们知道数据挖掘的最终目的是在庞大的数据中找到关键或者核心的数据,并将其作为制定决策的重要依据,所以我们仅仅是将数据发现出来还远远不够,要想发现的数据作为制定决策的依据,还需要在数据挖掘前明确应该采用什么样的方法和步骤,每个步骤的目标是什么,挖掘的数据和决策之间有什么样的关系,只有明确了每一步的任务,我们才能有条不紊的进行数据挖掘,并使挖掘的技术能够为决策提供服务。数据挖掘的应用流程如下图所示:

图2-1 数据挖掘应用流程

内容需要下载文档才能查看

通过上图我们可以做出以下的解释,所谓的确定业务问题就是指定义出业务问题,即我们需要明确出数据挖掘的目的是什么,需要我们对数据和业务进行进一步的了解,如果没有这一步,那么我们很难去定义需要解决的问题,那么也就无法很好的进行数据挖掘,也就无法得到我们满意的结果,所以需要充分的发挥出数据挖掘的价值,要对目标进行明确的定义;数据准备是指当业务问题确定后,我们就需要对选取的数据进行筛选,数据准备主要内容有数据的选择、数据的预处理、数据的加工;数据挖掘是指通过数据的特点和数据的功能类型选择一种最科学的算法,在转换以及净化数据集上进行数据挖掘,建立起数据挖掘模型,最后对建立的模型进行评价;结果分析就是指对数据挖掘的结果进行评价和解释,并转换为用户能够理解的语言或知识;知识的同化是指分析得到的知识集成到业务员信息系统组织结构中。

2.2关联规则算法

目前的关联规则挖掘算法大致可以分为以下几种:层次算法、搜索算法、抽样算法和数据集划算法。采用关联规则算法主要注意的问题有两个,分别是降低IO操作和降低需要计算支持率项目集数量,这两个问题对于数据挖掘的效率影响较大。

关于挖掘关联规则算法,Agrawal在1993年提出了一种Apriori算法,该算法是一种关联规则经典算法,是一种基于两阶段频集思想的算法,该算法可以分解成关于两个子问题的算法,先找出全部支持度都超过了最小支持度的项集,并将这些项集成为频集,然后在从频集中去找出期望的规则。

Apriori算法作为一种经典的关联规则算法,在当时作为一种较为主流的数据挖掘方法,它通过项目集元素数目不断的增加来逐渐的完成频繁项目集的发现。先是产生1-频繁项集L1,然后是2-频繁项集L2,当频繁项集元集元素数目无法

进一步的扩展则算法停止。例如经过K次循环后产生了K-候选集集合Ck,最后通过扫描数据库生产支持度并测试产生K-频繁项集Lk。

从上述的步骤来看,Apriori算法存在着两个问题,一是重复循环过程中会产生大量的候选集,候选集的数目是呈指数上涨,就例如1041-频繁项集产生的2-候选集的元素可能达到107,这样庞大的元素数目对空间的要求极高,再者是每个元素都必须要对数据库进行扫描来验证其是否能够加入到频繁项集中,这需

版权声明:此文档由查字典文档网用户提供,如用于商业用途请与作者联系,查字典文档网保持最终解释权!

下载文档

热门试卷

2016年四川省内江市中考化学试卷
广西钦州市高新区2017届高三11月月考政治试卷
浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
广西钦州市钦州港区2017届高三11月月考政治试卷
广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
广西钦州市高新区2016-2017学年高二11月月考政治试卷
广西钦州市高新区2016-2017学年高一11月月考政治试卷
山东省滨州市三校2017届第一学期阶段测试初三英语试题
四川省成都七中2017届高三一诊模拟考试文科综合试卷
2017届普通高等学校招生全国统一考试模拟试题(附答案)
重庆市永川中学高2017级上期12月月考语文试题
江西宜春三中2017届高三第一学期第二次月考文科综合试题
内蒙古赤峰二中2017届高三上学期第三次月考英语试题
2017年六年级(上)数学期末考试卷
2017人教版小学英语三年级上期末笔试题
江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
四川省简阳市阳安中学2016年12月高二月考英语试卷
四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
安徽省滁州中学2016—2017学年度第一学期12月月考​高三英语试卷
山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷

网友关注

2015年福建省公务员无领导小组面试真题(6月28日下午)
2016福建公务员面试热点模拟题:毒保姆之殇
2016公务员面试热点模拟题:儿科门诊爆棚
2016福建公务员面试热点模拟题:个人信息泄露频发
2016福建公务员考试面试热点模拟题:树木打药致对虾“全塘覆没”
2016福建公务员面试热点模拟题:全面放开二孩制度
2015年福建省公务员面试真题解析(6月29日下午)
2016福建公务员面试热点模拟题:实体书店的坚守与变革
2016福建公务员面试热点模拟题:“饿了么”曝光揭示外卖乱象
2014年福建省公务员考试行测真题答案解析
2014年福建省公务员考试行测模拟试卷答案解析
2015年福建省公务员面试真题解析(6月30日上午)
2016福建公务员面试热点模拟题:拦不住的“黄牛”
2014福建公务员考试申论真题
2014年福建公务员考试行测真题
2016福建公务员面试热点模拟题:学前教育之难
2016福建公务员面试热点模拟题:医院挂条幅庆祝入院人数破四万
2016福建公务员面试热点模拟题:“离婚限号”
2015福建省考行测数量关系专项解读:题量减少 八选项依旧
2016福建公务员面试模拟题:一号难求
2016福建公务员面试模拟题:玩手机算缺课
2016福建公务员面试模拟题:“女性专用公交”是与非
2016福建公务员面试热点模拟题:公共素质如何提高
2016福建公务员考试《申论》全真模拟试卷(二)
2014福建秋季公务员考试行测真题答案解析
公务员考试必看重要申论热点预测
2016福建公务员面试热点模拟题:家长为何怒打老师
2016福建公务员面试热点模拟题:教师资格打破“终身制”
2015福建公务员考试行测参考答案及解析
近3年福建公务员考试经济学真题及相关考点归纳

网友关注视频

精品·同步课程 历史 八年级 上册 第15集 近代科学技术与思想文化
3.2 数学二年级下册第二单元 表内除法(一)整理和复习 李菲菲
二年级下册数学第一课
人教版历史八年级下册第一课《中华人民共和国成立》
沪教版八年级下次数学练习册21.4(2)无理方程P19
化学九年级下册全册同步 人教版 第22集 酸和碱的中和反应(一)
8.对剪花样_第一课时(二等奖)(冀美版二年级上册)_T515402
第8课 对称剪纸_第一课时(二等奖)(沪书画版二年级上册)_T3784187
【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,广东省
冀教版小学数学二年级下册第二周第2课时《我们的测量》宝丰街小学庞志荣
沪教版牛津小学英语(深圳用) 五年级下册 Unit 7
沪教版牛津小学英语(深圳用)五年级下册 Unit 1
三年级英语单词记忆下册(沪教版)第一二单元复习
沪教版牛津小学英语(深圳用) 四年级下册 Unit 7
沪教版牛津小学英语(深圳用) 四年级下册 Unit 2
苏科版八年级数学下册7.2《统计图的选用》
冀教版小学数学二年级下册第二单元《有余数除法的整理与复习》
【部编】人教版语文七年级下册《逢入京使》优质课教学视频+PPT课件+教案,安徽省
每天日常投篮练习第一天森哥打卡上脚 Nike PG 2 如何调整运球跳投手感?
外研版英语三起5年级下册(14版)Module3 Unit1
二次函数求实际问题中的最值_第一课时(特等奖)(冀教版九年级下册)_T144339
沪教版八年级下册数学练习册20.4(2)一次函数的应用2P8
外研版英语三起6年级下册(14版)Module3 Unit1
外研版英语三起5年级下册(14版)Module3 Unit2
【获奖】科粤版初三九年级化学下册第七章7.3浓稀的表示
沪教版牛津小学英语(深圳用) 四年级下册 Unit 3
第五单元 民族艺术的瑰宝_15. 多姿多彩的民族服饰_第二课时(市一等奖)(岭南版六年级上册)_T129830
化学九年级下册全册同步 人教版 第18集 常见的酸和碱(二)
外研版英语七年级下册module3 unit2第二课时
苏科版数学 八年级下册 第八章第二节 可能性的大小