教育资源为主的文档平台

当前位置: 查字典文档网> 所有文档分类> > 互联网> 基于Web的网络流量分类管理系统_王金光

基于Web的网络流量分类管理系统_王金光

上传者:党怀义
|
上传时间:2015-04-22
|
次下载

基于Web的网络流量分类管理系统_王金光

第28卷第1期2014年1月

济南大学学报(自然科学版)

JOURNALOFUNIVERSITYOFJINAN(Sci.&Tech.)

Vol.28No.1

Jan.2014

文章编号:1671-3559(2014)01-0071-06

基于Web的网络流量分类管理系统

王金光,陈贞翔

(济南大学信息科学与工程学院,山东省网络环境智能计算技术重点实验室,山东济南250022)

摘要:针对传统的流量分类管理系统存在不稳定、结果反馈不及时、分类结果显示不直观等问题,设计一个基于Web的

在线的流量分类管理系统。该系统采用流中前5个包(排除3次握手包)所含信息作为特征值计算资源,集成一种或多种分类算法用于在线网络流量分类,应用数据可视化技术处理分类结果。实验表明:在采用适应在线分类的特征集和C4.5决策树算法做分类时,系统能快速做出分类,且精度达到94%以上;数据可视化有助于人机交互,改善分类指导。

关键词:网络流量;数据可视化;在线流量分类中图分类号:TP393

文献标志码:A

NetworkTrafficClassificationManagementSystemBasedonWeb

WANGJinguang,CHENZhenxiang

(ShandongProvincialKeyLaboratoryofNetworkBasedIntelligentComputing,SchoolofInformationScienceandEngineering,UniversityofJinan,Jinan250022,China)

Abstract:Fortheproblemsthatthetraditionaltrafficclassificationmanagementsystemisnotstable,theresultsfeedbackisnottimely,andclassificationresultsshowlessintuitiveandsoon,wedesignaweb-basedonlinetrafficclassificationmanagementsystem.Thesystemusesflow’sfirst5packets(excludingthreehandshakepackets),inwhichtheinformationisusedasthefeaturecomputinganddealtwithbydatavisualizationtechnolo-resourcestointegrateoneormoreclassificationalgorithmsforonlinetrafficclassification,

gy.ExperimentsshowthatbyadoptingonlineclassifiedfeaturesetandC4.5decisiontreealgorithmforclassification,thesystemcanquicklymakeaclassification,andtheprecisionisabove94%;Datavisualizationhelpshuman-computerinteraction,improvestheguid-ancefortheclassification.

Keywords:networktraffic;datavisualization;onlinetrafficclassification

网络流量迅猛增长,互联网技术发展的日臻复

杂,新网络技术和应用的出现,对管理网络,解决网络拥塞,提供高质量的网络服务等提出挑战。网络

[1]

流量的准确区分仍是亟需解决的问题,高效的流量分类系统成为提高网络管理能力的关键因素之一。传统的基于端口和负载检测等的网络流量分类方法,由于面临动态端口、端口伪装、数据加密和协

收稿日期:2012-06-15

以及涉及侵犯用户隐私的问题,致使议混淆等技术,

[2]

其不再可靠,尤其是在Paxson对网络流量的统计特征进行开创性研究下,许多研究团体便将目光转

[3-4][5]

向统计特征和机器学习的方法上来。机器学因其习是一种学科涉及面更广的人工智能的方法,

深受当能很好的应对传统分类方法所面临的问题,前研究团体的关注。

18:38

网络出版时间:2013-11-20

基金项目:国家自然科学基金(60903176);山东省自然科学基金(ZR2010FQ028)作者简介:王金光(1988—),男,山东潍坊人,硕士生。

通信作者:陈贞翔(1979—),男,湖南郴州人,副教授,博士,硕士生导师。

网络出版地址:http://www.cnki.net/kcms/detail/37.1378.N.20131120.1838.016.html

72济南大学学报(自然科学版)第28卷

相关研究加快了机器学习的各种分类算法在分

[6]

类领域的快速发展。Moore等研究了朴素贝叶斯分类对网络流量按照应用分类的适用性,并在简单的贝叶斯分类的基础上进行改进,提高了分类精度。他们对流量分类面临的问题和未来方向也提出了自

[7]

己的看法。这项工作被Jiang等继续研究并应用到实时流量分类。

Gomez等[8]针对传统的分类算法的弊端,将SVM分类方法应用到流量分类,并做了研究分析,得出数据流的前5~6个包已满足用于流量分类的结论。

Jeffrey等[9]最早界定了使用少量的有标签和大量的无标签数据共存的方式训练分类算法的半监督

对使用少学习方法。他们在离线和实时的条件下,量有标签和大量无标签训练的分类方法做了可行性

分析,精确度达到90%以上。在线的流量分类要求更强的实时性,因此更具有实用性。一些研究团体对在线分类也进行了研究。TCP统计和分析工具Tstat可用于TCP流量的

是有效的实现机器学习技术流量分类统计和分析,

10]中描述的工具。Tstat经过发展能够使用文献[

的技术来识别Skype流量,但这种技术仅被设计成还不可以扩展到整个链对一种应用进行分析分类,路流量的区分。

Alberto等[11]提出了集成多种分类器,以此来实现分类器优点的互补的多元分类系统,但同时存在

[12]

计算处理复杂的问题。流量识别引擎(TIE)是面向研究团体的工具,注重于多元分类和分类方法的

为研究者和实践者提供流量分类技术的开发比较,

平台。另外,一些研究工作运用机器学习的方法对

[13]

专门应用场景的流量进行分类,如Jason等提出了侦测并优化游戏流量的ANGEL系统。

我们在借鉴上述平台的基础上,设计了一个基于Web方式的网络流量分类的管理系统。该系统通过人工筛选适应在线分类的特征后,使用智能算法进一步优化选取特征集,并可按照需要采用一种或多种不同的分类算法进行在线网络流量分类。系统还结合Web技术和数据可视化技术,使系统管理图形化,分类结果显示直观化,易于理解且有助于管理员对分类做出评价和指导,辅助调整分类算法。

总体上分为Web前台管理和后台底层技术实现两部分。系统通过部署在园区网边缘出口进行流量分类,其位置如图1所示

内容需要下载文档才能查看

图1系统部署位置图

Web前台管理利用JSP技术实现系统界面搭建,便于跨平台、跨地域访问系统,从而简化分类系统的管理。后台系统主要负责网络流量的在线分类,包括数据包过滤、特征提取、分类器生成和结果生成等模块。数据包过滤模块指定过滤规则,实现对获得数据包做过滤操作,从而剔除错误或不符合规则的数据包。

数据包过滤模块数据来源有两部分:一是读取

从而为分类器的训练生成提供离线的训练数据集,

实现流量数据;一是从网络接口抓取实际网络流量,

的分类操作。特征抽取模块依照选取的特征集,从过滤后的训练数据集或实际网络流量中计算获得一系列特征的值,为分类器训练和在线流量的分类做好准备。

分类器的训练以通过选取获得的特征集和机器

用训练集对初始分类器做训练,获学习算法为基础,

得可用于流量分类的分类器。分类器生成后,可以根据之前提取计算的特征值对实际网络流量进行分

类。结果输出模块输出最终分类结果并用数据可视以直观可视化的方式用于前化技术对结果做处理,

台显示。

流量分类系统的总体分类流程如图2所示

内容需要下载文档才能查看

1系统总体设计

本系统是基于Web的网络流量在线分类平台,

图2

总体分类流程图

第1期王金光,等:基于web的网络流量分类管理系统73

2

2.1

系统主要流程

数据包采集与过滤

时处理后续数据时,将引起分类阻塞,使分类因分类

精度和分类效率低而失去意义。流量数据中存在冗余和误导数据,选取无关的特征会误导分类,降低分类的准确率,例如采用伪装数据流的端口号或者使用加密的包负载进行分类,将会影响最终的分类精度。因此,特征选取的好坏将直接关系到分类的优劣。如何做好特征选取,不仅需要结合相对应的分

还要考虑排除冗余和伪装信息对精确度的类算法,干扰。

目前,特征集逐步由专家人工转向通过学习方

15]中运用遗传法和神经网络等自动选取。文献[

算法进行特征子集的选取,并使用粒子群优化算法

做了优化处理,使得分类处理准确率得到改善。在线流量分类是当前研究的关注点,针对在线分类的特征选取也是多种多样。

在线流量分类不仅要求识别出真实流量所属的

而且要求能够在尽可能短的时间内完成应用类别,

这一过程,所以在线分类要遵循尽早分类、计算开销

低、存储开销低和快速重训练分类器等条件。为了结合相关研究和自身分析计满足在线分类的需要,算,本系统通过人工筛选和智能算法,优化选取适应在线分类的特征集(表1)。这些特征信息主要从流前5个数据包(排出ACK包和连接建立的3次握手降低了冗余信息,减少了计算消数据包)计算获取,

耗的空间和时间资源,能很好的提高特征处理的效率和精确度。

表1

选取特征包大小负载大小

访问外界网络的网络流量都会经边缘路由器进

行转发,系统被部署在网络出口处,可以对所有进出流量做处理。系统利用数据镜像技术将所有途径边缘路由器的网络流量做镜像,在不影响原网络通信的情况下实现流量采集工作。本系统的流量采集工作运作于服务器端,是通过采集流经路由器的流量在服务器端网卡上的备份而做出的反应。其反应的时效性依赖于服务器的运行状况,以及服务器与路由器之间的联通状况。

——LIB-本系统是通过网络数据包捕获函数库—PCAP函数库对数据包实现抓取,流量在流经数据链路层时被捕获。LIBPCAP是基于UNIX或LINUX下的网络数据包捕获函数包,提供了系统独立于用户级别的数据网络数据包捕获接口,并充分考虑到

包含数移植问题。其原理是在网卡上捕获数据帧,据链路层的IP目的端与发送端信息,捕获的信息内

容庞大。LIBPCAP在抓取数据包时并不区分数据包完整与否,引入数据包过滤机制成为必然。数据包过滤机制用于去除不必要的数据包内容和错误数据包对分类的影响,从而提高数据包的有效利用率。在UNIX操作系统的内核层框架的流量抓取,大都基于伯克利软件套件中的包过滤规则(BPF),其允许通过特定的过滤规则来丢弃不想要的包。LIBP-CAP支持BPF语法建立数据包过滤机制,因此,将BPF运用到系统,实现数据包过滤。2.2

分类特征选取与特征处理

互联网流量的特征是对流量的特定属性的描述,不同的特征对流量有不同方面的刻画。流量特征主要分数据包级别和流级别的特征。包特征是数据包层次的界定,流特征则是侧重在数据流的限定。Moore等[14]给出了TCP流的详细对于特征的描述,特征列表,然而要将其运用到实际的流量分类,需要对特征进行进一步的筛选。特征集是互联网数据流中用于区别于不同流的特征向量,不同特征的特征值组成的特征向量,经过计算便可得出流量中隐含模式,为适合在高速网络流量下工作,选取准确高效的特征集是必要的。

特征集包含特征越多,越有助于对流量做出识别,但是特征集包含的特征增多时,获取数据占用的存储空间也会增大,特征计算和分类所消耗的时间会增加,当空间和时间资源被消耗到不足以用于及

在线流量分类选取特征集

相关解释性描述

IP数据包大小IP数据包的负载大小

前5个包间隔时间特定数据流相邻前5个数据包到达

时间间隔

包发送速率字节发送速率

每秒发送包数每秒发送字节数

ACK、PSH和RST标记的数据带有标记的包个数URG、

包的个数

2.3分类器的训练与生成

分类器是实现流量分类的主要模块,基于机器

学习算法的分类器在生成过程中需要进行训练和测

试两个步骤,这一过程缺少不了训练集和测试集的配合。网络流量数据集分公开数据集和自制数据集,数据集可根据需要包含或去掉数据负载。网络流量公开的数据集有摩尔数据集和奥克兰数据集等,这些数据集的可信度被业界公认为比较高。

74济南大学学报(自然科学版)第28卷

学习算法的选取对分类器分类精度有重要影响。对流量分类的机器学习算法主要分为有监督学习、无监督学习和半监督学习算法。有监督学习算法的训练数据集需要标签化,无监督学习算法则不需要包含标签,半监督学习算法的训练数据集需要包含少量标签化数据。选取好的机器学习分类方法

Nigel等[16]通过研究5种被广泛存在一定的困难,

使用的机器学习分类方法,认为AdaBoost+C4.5具

17]有最高的分类精确度。文献[对15种网络流量分类方法的建模时间、测试时间和简易性进行比较

描述,认为C4.5决策树是最适合网络流量的分类方法。

系统本身属于多分类系统,可以使一种或多种

如将传统的分类算法实现的分类器同时进行分类,

基于端口的分类器与机器学习方法的分类器结合使

用,或多种机器学习方法的分类器同时使用。C4.5决策树算法因其准确高效的优点而受到关注,本系统采用其进行系统可行性的测试。决策树分类的整体流程如图3所示,其中,训练数据读入、数据预处

规则树和分类器生成属于总体的训练过程,在这理、

一过程中将学习生成分类器模型。测试数据采集及处理、数据分类和分类结果输出则属于分类过程的范畴

内容需要下载文档才能查看

奥克兰数据集是2001年对新西兰奥克兰大学

园区网边界路由器进行为期5d的采集所得,采集过程中所有数据包的负载均被剔除。该数据集的采

处理后用做集位置与本系统假定的部署位置相似,

训练数据集,具有一定代表意义,因原始流量太大,

故选取其中2001-6-8T15:31:05开始总计约5h流量,随机抽取各种应用流共3000条做训练集,相同状况下制作测试集。数据集中包含的主要应用类别如表2所示。

表2

应用类别WWWMAILINTERACTIVE

BULKP2PIMATTACKSTREAMMEDIA

OTHER

数据集包含主要应用类别

包含应用HTTP,HTTPSSMTP,IMAP,POP3

SSHTelnet,

FTP

Gnutella,BitTorrent,eDonkey

InternetChatWormsMediaPlayer

3实验及结果分析

Web系统使用了MVC设计结构,将前台界面

与后台分类模块解耦和,使得系统易于调整、修改及维护。前台页面使用JSP技术进行设计,后台使用

线程调用底层流量采集和分类程序,实现对分类结具体Web系统架构如图4所示

内容需要下载文档才能查看

。果的读取,

图3决策树分类的整体流程

系统采用C4.5决策树算法,获取网络流测试

集数据,其中包含网络流的属性向量,即特征集中包含的特征。根据属性向量取值的不同,计算各属性向量的信息增益率,选取信息增益率最大的属性向形成规则树的根或分裂节点。量作为分割的节点,以同样的方法,再对每个子集进行划分,递归调用算法进行计算,将属性相同的样本判定为同一子集,最终初步形成规则判定树。为实现优化处理,将对生成的判定树做修剪处理,去除因孤立点造成的不良分支,最终形成决策树。系统使用奥克兰公开数据集进行分类器的训练和测试,待分类器学习完成后在山东省网络环境智能计算重点实验室的出口做在线流量的识别实验。

图4

Web系统架构

第1期王金光,等:基于web的网络流量分类管理系统75

CPU为实验平台采用Fedora16操作系统,

PentiumE52002.5GHz,内存为2GB。底层算法由C语言实现,上层基于Web形式的界面使用JSP技术实现,通过Tomcat6.0服务器部署。系统用抽取的训练集做C4.5分类器的训练,测试集对生成分类器进行验证,确保训练得到分类器的准确性。使用选取的特征集,通过十交叉验证测试分类,分类系统所使用分类模型的十次平均分类精度如图5所示。对图5进行分析可知,十交叉结果整体不存在大的波动,总体的分类精度能达到94%,分类比较稳定

内容需要下载文档才能查看

这将有助于对网络流量进行有目的性的管理,出来,

也有利于指导新的特征选取。

4结语

基于Web的在线流量分类管理系统,通过选取

特征计算只需要对除3适用于在线分类的特征集,

次握手包后流前5个包进行处理,不再对每个包进

行处理,提高了处理速度,有效地解决了大流量的分实验证明可以对在线的高速流量做出区分。类问题,

Web技术和数据可视化技术可对结果进行直观展示,但对流量分类的指导机制仍需要进一步研究。此外,在线分类要求不断提高,处理能力和持续精准需要考虑用新的途径解决在线性等问题不可避免,高速流量分类的问题。

参考文献:

[1]JINY,NICKD,JEFFREYE,etal.Amodularmachinelearning

systemforflow-leveltrafficclassificationinlargenetworks[J].2012,ACMTransactionsonKnowledgeDiscoveryfromData,6(1):1-34.

[2]VERNP.Empiricallyderivedanalyticmodelsofwide-areaTCP

1994,connections[J].IEEE/ACMTransactionsonNetworking,

图5分类精度图

2(4):316-336.

[3]DEHGHANIF,MOVAHHEDINIAN,KHAYYAMBASHIM,etal.

Real-timetrafficclassificationbasedonstatisticalandpayloadcon-tentfeatures[C]//20102ndInternationalWorkshoponIntelligentSystemsandApplications,Wuhan:IEEE,2010:1-4.

[4]HUANGSJ,CHENK,LIUC,etal.Astatistical-feature-basedap-proachtointernettrafficclassificationusingmachinelearning[C]//InternationalConferenceonUltraModernTelecommunica-tions&Workshops,StPetersburg:IEEE,2009:1-6.

[5]LIW,MOOREAW.Amachinelearningapproachforefficient

trafficclassification[C]//Proceedingsofthe200715thInterna-AnalysisandSimulationofCom-tionalSymposiumonModeling,

puterandTelecommunicationSystems,Washington:IEEE,2007:310-317.

[6]MOOREAW,ZUEVD.Internettrafficclassificationusingbayes-iananalysistechniques[J].SIGMETRICSPerformanceEvaluationReview,2005,33(1):50-60.

[7]JIANGHB,MOOREAW,GEZH,etal.Lightweightapplication

classificationfornetworkmanagement[C]//ProceedingsoftheKyo-2007SIGCOMMWorkshoponInternetNetworkManagement,to:ACM,2007:299-304.

系统做在线分类时可以设置不同时间间隔来输

出图形结果。我们对实验室所产生的流量进行系统在线分类验证,以30min作为更新时间间隔,系统

在分类运行良好。分类结果被转化成可视化图像,Web管理端显示,直接观察结果,便于分析出隐含的信息。系统在线运行24h,其分类的结果如图6

所示

内容需要下载文档才能查看

图6分类结果分析图

[8]GOMEZSG,PABLOB.Earlytrafficclassificationusingsupport

vectormachines[C]//Proceedingsofthe5thInternationalLatinAmericanNetworkingConference,Pelotas:ACM,2009:60-66.[9]

JEFFREYE,ANIRBANM,MARTINA,etal.Offline/realtimetrafficclassificationusingsemi-supervisedlearning[J].Perform-2007,64(9/12):1194-1213.anceEvaluation,

由图6可知,系统可对常用的应用类别做出分类,纵坐标可以表示出流量在时刻点的发送速率大小。主导流量的应用类型、数据流量活跃时间区间及隐含的流量发展趋势等信息,都能够从图中表现

版权声明:此文档由查字典文档网用户提供,如用于商业用途请与作者联系,查字典文档网保持最终解释权!

下载文档

热门试卷

2016年四川省内江市中考化学试卷
广西钦州市高新区2017届高三11月月考政治试卷
浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
广西钦州市钦州港区2017届高三11月月考政治试卷
广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
广西钦州市高新区2016-2017学年高二11月月考政治试卷
广西钦州市高新区2016-2017学年高一11月月考政治试卷
山东省滨州市三校2017届第一学期阶段测试初三英语试题
四川省成都七中2017届高三一诊模拟考试文科综合试卷
2017届普通高等学校招生全国统一考试模拟试题(附答案)
重庆市永川中学高2017级上期12月月考语文试题
江西宜春三中2017届高三第一学期第二次月考文科综合试题
内蒙古赤峰二中2017届高三上学期第三次月考英语试题
2017年六年级(上)数学期末考试卷
2017人教版小学英语三年级上期末笔试题
江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
四川省简阳市阳安中学2016年12月高二月考英语试卷
四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
安徽省滁州中学2016—2017学年度第一学期12月月考​高三英语试卷
山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷

网友关注视频

【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,辽宁省
8.练习八_第一课时(特等奖)(苏教版三年级上册)_T142692
七年级英语下册 上海牛津版 Unit5
每天日常投篮练习第一天森哥打卡上脚 Nike PG 2 如何调整运球跳投手感?
第五单元 民族艺术的瑰宝_15. 多姿多彩的民族服饰_第二课时(市一等奖)(岭南版六年级上册)_T129830
沪教版八年级下册数学练习册21.3(3)分式方程P17
第19课 我喜欢的鸟_第一课时(二等奖)(人美杨永善版二年级下册)_T644386
北师大版数学 四年级下册 第三单元 第二节 小数点搬家
【部编】人教版语文七年级下册《逢入京使》优质课教学视频+PPT课件+教案,安徽省
第五单元 民族艺术的瑰宝_16. 形形色色的民族乐器_第一课时(岭南版六年级上册)_T3751175
沪教版牛津小学英语(深圳用) 四年级下册 Unit 3
苏科版数学八年级下册9.2《中心对称和中心对称图形》
8 随形想象_第一课时(二等奖)(沪教版二年级上册)_T3786594
人教版二年级下册数学
《空中课堂》二年级下册 数学第一单元第1课时
8.对剪花样_第一课时(二等奖)(冀美版二年级上册)_T515402
二年级下册数学第三课 搭一搭⚖⚖
化学九年级下册全册同步 人教版 第22集 酸和碱的中和反应(一)
19 爱护鸟类_第一课时(二等奖)(桂美版二年级下册)_T3763925
沪教版牛津小学英语(深圳用)五年级下册 Unit 1
冀教版小学数学二年级下册第二单元《有余数除法的竖式计算》
冀教版小学数学二年级下册第二单元《余数和除数的关系》
《小学数学二年级下册》第二单元测试题讲解
【部编】人教版语文七年级下册《老山界》优质课教学视频+PPT课件+教案,安徽省
青岛版教材五年级下册第四单元(走进军营——方向与位置)用数对确定位置(一等奖)
冀教版小学数学二年级下册第二单元《有余数除法的简单应用》
三年级英语单词记忆下册(沪教版)第一二单元复习
【部编】人教版语文七年级下册《老山界》优质课教学视频+PPT课件+教案,安徽省
北师大版数学四年级下册3.4包装
【部编】人教版语文七年级下册《逢入京使》优质课教学视频+PPT课件+教案,辽宁省