翻新时间:2023-08-09
Web内容挖掘算法模拟器设计
摘要:各种数据源的大量出现,数据的分析算法的研究已成为Web挖掘一个热点研究课题。本论文提针对Web内容挖掘,采用回归算法、趋势分析方法、cure算法及分类,利用MATLAB和VC++设计了一个Web内容挖掘算法模拟器,从不同的角度来观看数据,从而得到不同的结果。
关键词: Web内容挖掘 算法模拟器 可视化
1 Matlab与VC++接口技术
挖掘技术中广泛使用MATLAB对挖掘信号进行数字滤波处理,将MATLAB和可视化的编程语言VC++结合起来可实现二者的混合软件开发[3],从而实现自动化的挖掘。
而MATLAB与VC++结合方式有:MATLAB引擎方式、MATLAB编译器(MCC)、COM组件。
本文采用基于MCC和COM组件的MATLAB与VC++接口编程方法,以VC++作为主界面,通过调用MATLAB下的MCC命令,实现Web内容挖掘自动化、可视化。
2 WEB内容挖掘算法的实现
WEB内容中数据表现形式不规则,不易进行挖掘。针对海量数据的研究,本文采用多种挖掘算法进行比较分析[4],利用利用MATLAB和VC++设计了一个Web内容挖掘算法模拟器,得出数据间的关系,抽取深层、潜在的有用信息。
2.1回归算法
回归算法是用两个或多个变量之间的函数关系。
一元线性回归对数据的平滑作用,可用于处理异常值。
从数据的散点图、线性回归、二次回归、对比分析可以推测,数据之间大致具有线性相关关系
2.2趋势分析
利用趋势分析的方法进行Web内容挖掘过程中,这种趋势分析分为样本数据采集、直接预测算法、移动平均平滑算法、趋势预测四个过程。
2.3 CURE算法
CURE聚类算法的一个目的就是较好地处理特殊点。
聚类过程:随机抽取的数据样本,对样本对象进行分割,形成三个簇,每一个簇有两个代表性点,具体的聚类过程结果如图1。
2.4分类
分类视为一个从数据库到类别集合的映射。
给定一个由形如t=的一些元组组成的数据库,其中0≤x≤8, 0≤y≤10。
CURE的时间复杂性是O(n2lgn),空间复杂度是O(n)。
图2通过分割数据空间而得到预先定义的类,提供了样本输入数据,展示了基于已定义的类对Web数据进行分类。
3结语
基于以上算法对比分析,可对Web页面内容进行分类,挖掘出用户的访问行为,既可满足访问者对信息的渴求,又可向经营者提供站点的改进意见。而将Web挖掘技术与信息检索的智能搜索引擎搜索技术相结合,向用户提供个性化智能化的服务,是互联网+的一个重要研究方向。
参考文献
[4]岳岩,郑丽英.Web挖掘技术研究[J].科技咨询导报,2007
(3):34-34.
下载文档
网友最新关注
- 自我介绍
- Never judge a book by its cover(从来没有从封面判断一本书)
- 我的教室
- 树叶贴画
- 我体验到了标点符号的重要性
- 笤帚与拖布
- 粘树叶
- 我
- 今天我洗菜
- 海南经济特区-The EConomic Zone
- 敲门
- “懒”爸爸
- 这就是我
- 跟我学
- 介绍自己
- 闪迪至尊高速 OTG USB 3.0
- 如何关闭三星手机的拍照声音
- 如何取消Word的启动画面
- AV终结者2015来袭 更恐怖的流氓软件
- 更新后系统盘空间不足
- 基于GSM―HI的海面超级无线宽带覆盖方案研究
- 密集型城中村TD―LTE网络深度覆盖方案探讨
- 神舟优雅HP580笔记本
- 如何查看邮件的发出IP地址
- 4G网络16T16R覆盖方案及效果分析
- 双频时代来临 斐讯新发五大系列智能产品
- 打发无聊时间 充实每一分钟
- 远控木马新变种 偷窥隐私需小心
- ThinkPad E555笔记本
- 摩托罗拉Moto X Pro智能手机
- 蓝色的树叶-教案精品2
- 20纸船和风筝教案二教学实录
- 蓝色的树叶最新教案四教学实录
- 蓝色的树叶最新教案三教学实录
- 蓝色的树叶最新教案七(第一课时)教学实录
- 纸船和风筝教案八(第二课时)教学实录
- 蓝色的树叶-教案精品1
- 蓝色的树叶最新教案八(第一课时)教学实录
- 纸船和风筝教学片段赏析教学实录
- 蓝色的树叶最新教案六教学实录
- 纸船和风筝教案与点评教学实录
- 20纸船和风筝教案三教学实录
- 20纸船和风筝之教材分析教学实录
- 纸船和风筝教学实录教学实录
- 蓝色的树叶字词教学