中文网页自动分类技术研究
上传者:蔡恒君|上传时间:2015-04-26|密次下载
中文网页自动分类技术研究
桂林工学院硕士学位论文
摘要
随着科学技术的飞速发展,人们进入了数字信息化时代,同时,电子信息急
剧膨胀。在这个时代,信息就是财富,信息决定成败。只有及时获取准确、有效
的信息,才能跟上时代的步伐。因此,对于浩如烟海的信息,帮助人们从中获取
准确、有效的信息成为信息处理领域的一个重要研究课题。网页是电子信息的载
体,其自动分类由此成为这个领域的一个重要研究方向。相对于人工分类,它能
够大大节省时间、物力和财力,还能提高自动分类的准确率和召回率。简言之,
研究实现中文网页自动分类不仅对于帮助人们快速、准确获取所需信息具有积极
的意义,而且对于推动和发展中文信息检索技术也有重要意义。
本文首先介绍了论文的课题背景、意义和国内外的研究现状,概述了文本自
动分类相关理论、主要技术和重要算法,在此基础上,简述中文网页自动分类,
再重点分析中文网页自动分类的关键技术,包括网页格式的转换、中文分词技术、
特征项选择方法、遗传算法降维和自动分类方法等。对于网页格式的转换,本文
通过分析网页的结构信息,针对其特点利用开源软件提取对分类有一定贡献的文
本信息:对于中文分词技术,采用分词性能良好的海量中文智能分词功能基础件
研究版进行分词;分词结束后,先组合文本频数和z2统计法进行初步的特征项选
择,再根据分词结果结合网页结构信息特点改进TF.IDF权重公式,使用改进后
的公式对特征项权重调整之后进行特征项的二次选择,然后,用文本表示模型表
示网页。这样,网页就转化成了文本,网页自动分类也就转化为了文本自动分类;
在综合比较了当前几个典型的网页自动分类算法之后,本文
选取了分类方面表现
出色的支持向量机方法。在特征项选择过程中降低特征向量维数方面,本文采用
了目前已应用于许多领域的具有全局优化能力的遗传算法。特征T旬量降维后,将
其用支持向量机方法训练构造SVM多类分类器。实验结果表明,与用不降维的
特征向量训练构造的SVM多类分类器相比,用降维后的特征向量训练构造的
SVM多类分类器,其对网页进行自动分类的准确率和召回率都有~定程度的提
古
同。
关键词:中文主题网页自动分类,文本自动分类,特征项选择,遗传算法,网页
自动分类算法
下载文档
热门试卷
- 2016年四川省内江市中考化学试卷
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
- 山东省滨州市三校2017届第一学期阶段测试初三英语试题
- 四川省成都七中2017届高三一诊模拟考试文科综合试卷
- 2017届普通高等学校招生全国统一考试模拟试题(附答案)
- 重庆市永川中学高2017级上期12月月考语文试题
- 江西宜春三中2017届高三第一学期第二次月考文科综合试题
- 内蒙古赤峰二中2017届高三上学期第三次月考英语试题
- 2017年六年级(上)数学期末考试卷
- 2017人教版小学英语三年级上期末笔试题
- 江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
- 重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
- 江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
- 江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
- 山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
- 【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
- 四川省简阳市阳安中学2016年12月高二月考英语试卷
- 四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
- 安徽省滁州中学2016—2017学年度第一学期12月月考高三英语试卷
- 山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
- 福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
- 甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷
网友关注
- 安全规章制度
- 总经理办公室规章制度
- 《企业管理规章制度》管理范文
- 资产经营管理有限公司子公司财务管理办法_规章制度
- 施工队管理制度_规章制度
- 中华人民共和国农业部令农业转基因生物进口安全管理办法第一章
- [指南]火药库验收资料
- 某咨询类公司规章制度
- 规章制度建设管理办法
- 安全规章制度
- 公司规章制度
- 武威天强商贸工厂规章制度
- 工程管理制度(修改稿)
- 【精品】江苏省二级妇幼保健院评审标准及细则(第二周期)38
- 【精品】山城啤酒爱心助学活动组委会关于第五届山城啤酒爱心助学活动受助候选人公示
- 学生会学习宣传部工作管理制度_规章制度
- 安全生产岗位责任制490021539
- 浅谈用人单位在制定规章制度时应把握的问题
- 工厂管理规章制度范
- 完善国有企业规章制度
- 北京歌乐广告有限公司规章制度_规章制度
- 快递公司规章制度
- 雅之有限公司安全管理规章制度
- 广州居是邦文化有限公司关于提供广东省农业类名牌产品画册资料的有关要求
- 如何落实规章制度
- 注册土木工程师(岩土)人员外聘协议书(样本)
- 十六种安全生产规章制度
- [建筑/土木]最新全国建筑、公路、园林一级资质企业
- 工程技术资料及档案管理制度1
- 设计变更签证管理办法_规章制度
网友关注视频
- 8.练习八_第一课时(特等奖)(苏教版三年级上册)_T142692
- 人教版历史八年级下册第一课《中华人民共和国成立》
- 外研版英语七年级下册module3 unit2第一课时
- 人教版二年级下册数学
- 七年级下册外研版英语M8U2reading
- 七年级英语下册 上海牛津版 Unit5
- 外研版英语三起6年级下册(14版)Module3 Unit1
- 北师大版数学四年级下册3.4包装
- 苏科版数学八年级下册9.2《中心对称和中心对称图形》
- 19 爱护鸟类_第一课时(二等奖)(桂美版二年级下册)_T502436
- 冀教版小学数学二年级下册第二单元《有余数除法的整理与复习》
- 30.3 由不共线三点的坐标确定二次函数_第一课时(市一等奖)(冀教版九年级下册)_T144342
- 【部编】人教版语文七年级下册《过松源晨炊漆公店(其五)》优质课教学视频+PPT课件+教案,江苏省
- 冀教版小学数学二年级下册第二周第2课时《我们的测量》宝丰街小学庞志荣.mp4
- 【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,广东省
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 7
- 第8课 对称剪纸_第一课时(二等奖)(沪书画版二年级上册)_T3784187
- 北师大版小学数学四年级下册第15课小数乘小数一
- 第五单元 民族艺术的瑰宝_16. 形形色色的民族乐器_第一课时(岭南版六年级上册)_T3751175
- 苏科版数学七年级下册7.2《探索平行线的性质》
- 青岛版教材五年级下册第四单元(走进军营——方向与位置)用数对确定位置(一等奖)
- 六年级英语下册上海牛津版教材讲解 U1单词
- 每天日常投篮练习第一天森哥打卡上脚 Nike PG 2 如何调整运球跳投手感?
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 3
- 冀教版小学数学二年级下册第二单元《租船问题》
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 4
- 冀教版英语三年级下册第二课
- 小学英语单词
- 二年级下册数学第一课
- 第12章 圆锥曲线_12.7 抛物线的标准方程_第一课时(特等奖)(沪教版高二下册)_T274713
精品推荐
- 2016-2017学年高一语文人教版必修一+模块学业水平检测试题(含答案)
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
分类导航
- 互联网
- 电脑基础知识
- 计算机软件及应用
- 计算机硬件及网络
- 计算机应用/办公自动化
- .NET
- 数据结构与算法
- Java
- SEO
- C/C++资料
- linux/Unix相关
- 手机开发
- UML理论/建模
- 并行计算/云计算
- 嵌入式开发
- windows相关
- 软件工程
- 管理信息系统
- 开发文档
- 图形图像
- 网络与通信
- 网络信息安全
- 电子支付
- Labview
- matlab
- 网络资源
- Python
- Delphi/Perl
- 评测
- Flash/Flex
- CSS/Script
- 计算机原理
- PHP资料
- 数据挖掘与模式识别
- Web服务
- 数据库
- Visual Basic
- 电子商务
- 服务器
- 搜索引擎优化
- 存储
- 架构
- 行业软件
- 人工智能
- 计算机辅助设计
- 多媒体
- 软件测试
- 计算机硬件与维护
- 网站策划/UE
- 网页设计/UI
- 网吧管理