网页体裁自动识别研究

上传者：网友
|

翻新时间：2022-12-10

收藏到账号

全屏

网页体裁自动识别研究

摘要：随着网络的飞速发展，网页数量急剧膨胀，近几年来更是以指数级进行增长，搜索引擎面临的挑战越来越严峻，很难从海量的网页中准确快捷地找到符合用户需求的网页。网页分类是解决这个问题的有效手段之一，基于网页主题分类和基于网页体裁分类是网页分类的两大主流，二者有效地提高了搜索引擎的检索效率。网页体裁分类是指按照网页的表现形式及其用途对网页进行分类。介绍了网页体裁的定义，网页体裁分类研究常用的分类特征，并且介绍了几种常用特征筛选方法、分类模型以及分类器的评估方法，为研究者提供了对网页体裁分类的概要性了解。

关键词：网页分类；网页体裁；特征选择；机器学习

作者简介：王海洋（1989-），男，四川大学计算机学院硕士研究生，研究方向为数据挖掘与计算语言学。

0引言

近年来，互联网中网页数量激增，中文网页数量呈指数级增长。庞大的网页数量使得搜索引擎的任务更加艰巨，很难从网页中准确快捷地筛选出用户需求的网页。人们搜索万维网通常有一个明确的概念：他们知道他们正在寻找，他们知道哪种形式＼[20＼]。前者涉及到找到文件的内容，后者介绍其内容的展现形式。按网页体裁分类主要是基于网页的结构及其展现形式向用户提供更符合其需求的网页。本文简要介绍了网页体裁的定义及其与传统网页分类的异同，简要介绍了常用的特征选取和机器学习方法以及分类评价指标，并对目前网页体裁分类研究常用的分类特征进行了介绍。

1网页体裁分类概述

1.1网页体裁定义

多数英文字典通过特定的风格、内容以及表现形式将体裁定义为艺术、音乐或文学等。其中风格指的是写作的结构特征，内容是指文档的主题，表现形式则指的是内容的展现形式＼[4＼]。

目前对于网页的体裁仍没有明确的定义。Kessler＼[6＼]等人做了如下定义：体裁是通过交流上的目的或其它功能特性来定义的一种广泛的种类，定义并假设这些功能与某些官方的或者大众化的线索有关系，且这种类别是可扩展的。

网页体裁分类是网页分类的一个分支＼[1＼]。传统的网页分类多数从网页的内容角度出发对网页进行分类；而网页体裁分类主要从网页的功能角度出发对网页进行分类。网页的功能在网页设计中主要体现在网页的结构和展现形式方面，网页体裁分类在特征选取不单纯考虑网页的文本信息，更侧重于网页的结构方面特征。在下文中将对网页体裁分类常用的特征进行介绍。

2体裁分类常用特征研究

目前已经有多种类型特征在网页自动体裁分类中得到了应用。用于网页分类的网页特征必须在类别之间具有一定的分辨性。本文将目前常用的特征归纳为文本特征、结构特征、URL特征三大类。

2.1文本特征

传统的网页分类中，多数将文档看成词袋的形式，根据特征选取方法选取对类别具有分辨的词汇作为特征，这些词汇是文档主题的主要体现。而在网页体裁分类中，更偏向于选取可以表现网页文本结构特征。

文本的平均字长、句长、模糊字串模式、频繁字串等特征往往能反映一个此类文本的常用风格，通常这些特征往往对于网页体裁类别具有一定的分辨性，也是较为常用的特征＼[2，6，14，15＼]。实验表明，该类特征在写作风格不同的网页类别间具有很好的分辨作用。

除此外Kanaris＼[5＼]提出了基于n元语的低维特征。文中提出了一个全自动抽取结构的特征方法，包括常用来分辨网页体裁的标签和n元语信息对网页进行分类，实验表明具有较好的效果，并且该方法由于不涉及到分词等预处理操作，不受语言影响。Yunhyong Kim＼[18＼]用term在整篇网页中的分布信息来描述网页的结构信息以及网页的写作风格。在文中Yonhyong Kim用term在网页中的首位置、末位置以及平均出现周期律作为该term的特征分量。实验结果表明，该方法要好于采用词频的方法。

2.2结构特征

网页的结构信息指的是网页展现结构上的特征。不同体裁类别的网页，由于其功能的不同，在网页的设计上往往具有很大的差别，比如新闻类网页和博客类网页。通常采用HTML关键标签作为网页的结构特征＼[5，18＼]。在网页体裁分类中，HTML标签特征通常是必不可少的特征之一。

2.3URL特征

网页的URL信息往往含有很多重要的分类信息，其中一些对不同类别间的网页具有一定的区分性，比如URL中的关键字串、时间信息等。MinYen KAN＼[7＼]对URL中包含的特征进行了详细的研究，仅依靠URL中含有的特征构造分类器，该方法在网页分类的效率上有了很大的提升。Myriam Abramson等＼[8＼]也仅采用了URL的信息，使用了一种级联分类的策略对开放类别数据集进行分类，取得了较好的效果。

3体裁分类常用技术介绍

3.1特征选取方法

特征选取是分类的关键环节之一。初始抽取出的特征集合往往比较庞大，使得分类变得较为困难。因而选取特征集合中的代表性特征以降低特征维度是分类任务中的必要工作之一。具有代表性的特征往往具有以下两个特点：①在对类别间的文档具有一定的区分度；②至少对一个类别的文档具有一定的代表性。

常用的特征选取方法主要有文档频率、信息增益、互信息、CHI 等＼[11＼]。

文档频率（DF）是训练数据中包含特征项的文档数。该方法假定文档频率越小对分类结果影响越小，优先选取文档频率较大的特征。文档频率是最简单的特征项选取方法，其计算复杂度低，因而能够胜任大规模的分类。文献＼[17＼]在此基础上进行了改进，得到了较好的实验结果。

信息增益（IG）使用较为广泛，是最常用的特征选取方法之一。在训练数据集上根据信息增益公式计算各个特征的信息增益值。特征的信息增益值越大，表明该特征对于类别的区分度越高。互信息（MI）是一种特征项关联统计模型，它表明了特征项和类别的关联度，可以根据特征项和类别的同现频率等来计算。特征项F和类别C的MI值越大，F和C的关联性越大，F越可能是C的代表特征。

卡方统计法（CHI）用于度量特征项和类别之间独立性的缺乏程度，同样通过计算特征t 和类别c间的依赖程度来完成提取。

文献＼[11＼]对以上4种特征选取方法在中文网页分类上进行比较发现：①CHI、IG和DF的性能明显优于MI；②CHI、IG和DF的性能大体相当；③DF具有算法简单、质量高的优点，可以用来代替CHI和IG。

此外还有一些其它的特征选取方法，文献＼[12，14＼]采用了似然比方法对词汇特征进行选取，并取得了较好的效果。

3.2常用机器学习方法

3.2.1中心向量比较法

中心向量比较法是一种简单的分类方法＼[9，13＼]。该方法首先根据训练集中的数据计算各个类别的向量中心。对于测试样例，计算与各个类别中心的距离，选取距离最近的类别作为测试样例的类标。文献＼[4＼]采用了该方法对体裁网页多类别问题进行了研究，取得了较好的效果。

3.2.2K近邻法

K近邻方法是一种基本分类与回归方法，该方法简单、直观：给的那个训练数据集，对于测试样例，在训练集中找到与该样例最邻近的k个实例，这k个实例的多数属于某个类，就把该输入实例标记为该类别。该方法是一种较为常用的分类方法＼[3，9，13＼]。

3.2.3朴素贝叶斯算法

朴素贝叶斯法基于贝叶斯定理和特征条件独立性假设。首先基于特征条件独立假设从训练数据集中学习输入/输出的联合概率分布；然后基于该分布，对给定的输入，利用贝叶斯定理求出后验概率最大的类别输出。该方法实现简单，效率较高，是常用的方法＼[14，18＼]。

3.2.4支持向量机

支持向量机是一种二类分类模型。它的基本模型定义在特征空间上的间隔最大的线性分类器。支持向量机的学习策略就是寻找最大化间隔，其学习算法是求解凸二次规划的最优算法，可分为线性可分支持向量机，线性支持向量机以及非线性支持向量机。该方法是文本分类中常用的分类方法之一＼[18，10，9＼]。

3.3分类器评估方法

通常使用类别准确率，查全率和F度量值对实验结果进行评价。

表1设类别A的分类结果

[]分类为正例[]分类为负例

实际上为正例[]TP[]FN

实际上为负例[]FP[]TN

根据表1，对于类别A、准确率（p）、查全率（r）及F度量值（F）定义如下：

p=TP[]TP+FPr=TP[]TP+FN

F=2p[]p+r

此外，还有一些其它常用的评价标准，如正确率（Accuracy）、错误率（Error）等。

4结语

本文阐述了网页体裁分类的概念，并简要介绍了网页体裁分类的流程及网页分类中常用的特征。由于网页体裁分类常用文本信息作为特征，其维数庞大，需要在构建分类器前对其进行降维处理。本文介绍了几种常用的特征降维方法，常用网页分类模型以及分类器的评估方法，为读者提供了一个网页体裁分类的大概认识。

参考文献：

＼[2＼]黄臻臻，吴扬扬.基于体裁的中文网页分类的特征选取＼[J＼].计算机工程与设计，2007

（11）.

＼[3＼]胡燕，吴虎子，钟珞.基于改进的KNN算法的中文网页自动分类方法研究＼[J＼].武汉大学学报：工学版，2007

（4）.

＼[4＼]JEBARI C， OUNELLI H. Genre categorization of web pages＼[C＼]. In： Proceedings of the ICDMW’07， pp. 455464，2007.

＼[6＼]KESSLER B， NUNBERG G， SEHUTZE H. Automatic detection of text genre＼[C＼]. Proceedings of 35th Annual Meeting of Association for Computational Linguistics and 8th Conference of European Chapter of Association for Computational Linguistics， Madrid， Spain，1997.

＼[8＼]M ABRAMSON， DW AHA. What’s in a URL genre classification from URLs＼[C＼]. The TwentySixth Conference on Artificial Intelligence，2012.

＼[9＼]马慧敏.中文文本自动分类方法的研究和实现＼[D＼].北京：华北电力大学，2004.

＼[20＼]ZU EISSEN S M， B STEIN. Genre classification of Web pages＼[C＼].In Proceedings of the 27th German Conference on Artificial Intelligence， Volume 3238 of LNCS， Berlin， pp. 256269. Springer，2004.