教育资源为主的文档平台

当前位置: 查字典文档网> 所有文档分类> 论文> 其他论文> Web内容挖掘算法模拟器设计

Web内容挖掘算法模拟器设计

上传者:网友
|
翻新时间:2023-08-09

Web内容挖掘算法模拟器设计

摘要:各种数据源的大量出现,数据的分析算法的研究已成为Web挖掘一个热点研究课题。本论文提针对Web内容挖掘,采用回归算法、趋势分析方法、cure算法及分类,利用MATLAB和VC++设计了一个Web内容挖掘算法模拟器,从不同的角度来观看数据,从而得到不同的结果。

关键词: Web内容挖掘 算法模拟器 可视化

1 Matlab与VC++接口技术

挖掘技术中广泛使用MATLAB对挖掘信号进行数字滤波处理,将MATLAB和可视化的编程语言VC++结合起来可实现二者的混合软件开发[3],从而实现自动化的挖掘。

而MATLAB与VC++结合方式有:MATLAB引擎方式、MATLAB编译器(MCC)、COM组件。

本文采用基于MCC和COM组件的MATLAB与VC++接口编程方法,以VC++作为主界面,通过调用MATLAB下的MCC命令,实现Web内容挖掘自动化、可视化。

2 WEB内容挖掘算法的实现

WEB内容中数据表现形式不规则,不易进行挖掘。针对海量数据的研究,本文采用多种挖掘算法进行比较分析[4],利用利用MATLAB和VC++设计了一个Web内容挖掘算法模拟器,得出数据间的关系,抽取深层、潜在的有用信息。

2.1回归算法

回归算法是用两个或多个变量之间的函数关系。

一元线性回归对数据的平滑作用,可用于处理异常值。

从数据的散点图、线性回归、二次回归、对比分析可以推测,数据之间大致具有线性相关关系

2.2趋势分析

利用趋势分析的方法进行Web内容挖掘过程中,这种趋势分析分为样本数据采集、直接预测算法、移动平均平滑算法、趋势预测四个过程。

2.3 CURE算法

CURE聚类算法的一个目的就是较好地处理特殊点。

聚类过程:随机抽取的数据样本,对样本对象进行分割,形成三个簇,每一个簇有两个代表性点,具体的聚类过程结果如图1。

2.4分类

分类视为一个从数据库到类别集合的映射。

给定一个由形如t=的一些元组组成的数据库,其中0≤x≤8, 0≤y≤10。

CURE的时间复杂性是O(n2lgn),空间复杂度是O(n)。

图2通过分割数据空间而得到预先定义的类,提供了样本输入数据,展示了基于已定义的类对Web数据进行分类。

3结语

基于以上算法对比分析,可对Web页面内容进行分类,挖掘出用户的访问行为,既可满足访问者对信息的渴求,又可向经营者提供站点的改进意见。而将Web挖掘技术与信息检索的智能搜索引擎搜索技术相结合,向用户提供个性化智能化的服务,是互联网+的一个重要研究方向。

参考文献

[4]岳岩,郑丽英.Web挖掘技术研究[J].科技咨询导报,2007

(3):34-34.

下载文档

版权声明:此文档由查字典文档网用户提供,如用于商业用途请与作者联系,查字典文档网保持最终解释权!

网友最新关注

自我介绍
Never judge a book by its cover(从来没有从封面判断一本书)
我的教室
树叶贴画
我体验到了标点符号的重要性
笤帚与拖布
粘树叶
今天我洗菜
海南经济特区-The EConomic Zone
敲门
“懒”爸爸
这就是我
跟我学
介绍自己
闪迪至尊高速 OTG USB 3.0
如何关闭三星手机的拍照声音
如何取消Word的启动画面
AV终结者2015来袭 更恐怖的流氓软件
更新后系统盘空间不足
基于GSM―HI的海面超级无线宽带覆盖方案研究
密集型城中村TD―LTE网络深度覆盖方案探讨
神舟优雅HP580笔记本
如何查看邮件的发出IP地址
4G网络16T16R覆盖方案及效果分析
双频时代来临 斐讯新发五大系列智能产品
打发无聊时间 充实每一分钟
远控木马新变种 偷窥隐私需小心
ThinkPad E555笔记本
摩托罗拉Moto X Pro智能手机
蓝色的树叶-教案精品2
20纸船和风筝教案二教学实录
蓝色的树叶最新教案四教学实录
蓝色的树叶最新教案三教学实录
蓝色的树叶最新教案七(第一课时)教学实录
纸船和风筝教案八(第二课时)教学实录
蓝色的树叶-教案精品1
蓝色的树叶最新教案八(第一课时)教学实录
纸船和风筝教学片段赏析教学实录
蓝色的树叶最新教案六教学实录
纸船和风筝教案与点评教学实录
20纸船和风筝教案三教学实录
20纸船和风筝之教材分析教学实录
纸船和风筝教学实录教学实录
蓝色的树叶字词教学