教育资源为主的文档平台

当前位置: 查字典文档网> 所有文档分类> 人文社科> 哲学/历史> 大数据及其科学问题与方法的探讨

大数据及其科学问题与方法的探讨

上传者:方来华
|
上传时间:2015-04-21
|
次下载

大数据及其科学问题与方法的探讨

第60卷第1期014年2月 2武汉大学学报(理学版)

()J.WuhanUniv.Nat.Sci.Ed. 

Vol.60No.1 

Feb.2014,001~

内容需要下载文档才能查看

012



内容需要下载文档才能查看

综述

()文章编号:16718836201401000112---

大数据及其科学问题与方法的探讨

何 非1,何克清2

(湖北武汉41.武汉大学国际软件学院,30079;)湖北武汉42.武汉大学软件工程国家重点实验室,30072

对现有的IT架构以及计算  摘 要:大数据的规模和复杂度的增长超出了计算机软硬件能力增长的摩尔定律,

能力带来了极大挑战,也为人们深度挖掘和充分利用大数据的大价值带来了巨大机遇.因此,针对网络大数据的共需要研究网络大数据定性定量分析的基础理论与方法.本文重点分析了大数据在数据关联上性规律和科学问题,

的复杂性、计算复杂性、系统的复杂性、学习复杂性四个方面的主要研究问题和现状,介绍小结了产业界具有代表性的实际应用I以形成从网络大数据的感知、挖掘获取、质量评估、数据提炼处理到融合表示的综合过T基础架构,最后对大数据科学、数据计算需要的新模式与新范式(第四范式)等方面的发展趋势和方向进行了展望程图景,探讨.

关 键 词:大数据;科学问题;科学方法;第四范式;本体元建模中图分类号:TP311   文献标识码:A 

TheScientificProblemsandMethodoloofBiData     gyg  

12

,HEFeiHEKein   qg

(,Wu,Wu,;1.InternationalSchoolofSoftwarehanUniversithan430079,HubeiChina     y

,Wu,Wu,)2.StateKeLaboratorofSoftwareEnineerinhanUniversithan430072,HubeiChina     yyggy  

:bstractTheincreaseofscaleandcomlexitofBiDataexceedsthatofthecaacitofsoftwareandhardware  A              pygpy   

,btheMoorelaw,whichbrinsbichallenetothearchitecturetheandcomutincaacitcharacterizedrocessin          ygggpgpypg    ,ofresentsthecontemorarITsstemsmeanwhileunrecedentedoortunitiesondeelmininandtakinfullad          -ppyyppppygg    

,vantaeofthevalueofBiData.Thereforeitisressintoinvestiatethediscilinarissuesanddiscoverthecom-              ggpggpy   ,monlawsofBiDataandfurtherstudthefundamentaltheoriesandbasicaroachestoualitativeloruantitative             -gyppqyq   ,aerldealinwithBiData.Thisanalzesthechallenescausedbthecomlexituncertaintandemerenceof          ppyggygypyyg     

,,,DataandsummarizesmaorissuesandresearchstatusofthedatacomlexitcomutincomlexitsstemBi          jpypgpyyg  ,comlexitandlearnincomlexitofBiData.ItalsolooksaheadtothedevelomenttrendsofBiDatascienceas            pygpygpg     

,wellasnew modesaradimandITinfrastructureofdatacomutin.        pgpg

:;;;Kewordsbidatascientificroblemsscientificmethodsthefourtharadim;ontolobasedmetamodellin     gppggygy   

快速发展的  从本世纪初进入互联网时代以来,

信息技术领域正在面临各种计算处理能力和计算需求之间的平衡和相互融合的挑战,对这些问题挑战的迎击又演变成新的契机,如此的起伏形成一波又从互联网、物联网、云计算直到现在的一波的浪潮:大数据.

要想感受当前社会对大数据投入的热情,只需

要简单通过搜索大数据这样的关键词或查阅当前各大主要信息产业类新闻报道中的热点专栏就能一目了然.其原因主要有两点:首先,从复杂的专业性科学/商业计算到基于互联网的消费型计算的数据每这些庞大的数据记录时每刻都在呈爆炸性的增长,

了各种目标结果和可能性,形成了难以估价的数据其次,由上述实际数据衍生而来的资源及信息资产.

20130830  收稿日期:--

:);)基金项目国家重点基础研究发展计划9国家自然科学基金资助项目(73项目(2014CB34040161373037

:作者简介:何非,男,讲师,现从事软件工程、基于知识的需求工程的理论方法的研究与开发.E-mailhefei.khdu.edu.cn@w

武汉大学学报(理学版)第60卷

决策信息直接给企业带来长中短期各个阶段可见的巨大经济价值和效益,并成为推动大数据研究尤其是应用的主要动力.

大数据的应用也有很多现实的案例.在电子商客观反应市场经济活力的重要经济体即中务领域,

银行)很难获得资助,小型企业在通常的融资渠道(

由阿里巴巴金融带来的融资服务则通过中小微型客户在阿里电子商务体系中长期的注册信息、历史交客户交互行为、海关进出口信息、纳税、水易记录、

电缴费以及阿里体系外的网上社交行为记录等多种信息与性格特征测试的数据汇总,来进行信用评级以资助中小微型企业的运作,并直接挑战银为中小微型企业的发展提供行的传统金融体系,

了一种难得的、值得尝试的新途径.在金融领域,当分析发现大规模对冲基金已经积聚在某相同的

金融资产上,如果该金融资产突然出现严重脆弱迹象并破产,该下挫价格的行为,迫使其他基金尾随卖出,加速资产价格下挫;关联的诸多基金可能在短时间内就会连锁破产,对整个金融系统的健此种前提下,国家康和稳定造成极大的安全威胁.

金融监督机构通过各种金融监控手段从金融交易中获得社会规模的数据,并基于这些数据进行灾难建模,将是预测并阻止下一场金融危机的一种积极可行的手段.

artner发布大2012年国际著名的咨询机构G

,数据技术成熟度曲线(图1)分析提出了当前大数据面临的技术挑战和问题.主要包括对数据的内在计算/存储/管理的提升、数据复杂度理规律的揭示、

论、数据感知(价值判断、态势预测、溯源、异常检测、等)数据安全等

内容需要下载文档才能查看

/)图1 大数据关联技术成熟度曲线(Gartner201207 

果将这些数据刻录到C并堆起来,D-R只读光盘上,

1 什么是大数据

数据发展历程上出现过类似的术语有超大规模“数据、海量数据等.超大规模”一般表示对应GB(1“级别的数据,海量”一般表示的是GB=1024MB) 

级的数据,而现在的“大数据”TB(1TB=1024GB) 、、则是PB(1PB=1024TB)EB(1EB=1024PB)  

甚至Z级别以上的数据.B(1ZB=1024EB)2013年 如Gartner预测世界上存储的数据将达到1.2ZB,

其高度将是地球到月球距离的5倍.不同规模的背后隐含的是不同的技术问题或挑战性研究难题.

在“超大规模”下,我们研究的主要是关系数据模型的高效实现技术、事务管理与故障恢复技术、索引与查询优化技术等,创建了一套关系数据库的理论与技术体系,并在商业上取得了成功.

在“海量数据”下主要考虑各种非结构化数据的有效管理、多数据源的集成问题.对于非结构化的数据,由于不存在显式的模式结构,所以缺乏必要的手

第1期何 非等:大数据及其科学问题与方法的探讨

段来管理这些数据.它关心的主要问题是如何统一表达非结构化数据,如何实现基于语义的非结构化数据的集成和检索,如何解决与应用紧密相关的功能与数据管理系统融合等.

而大数据,一般意义上,是指无法在可容忍的时间内用现有IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合.所谓数据“大的,程度”本文认为是数据关联复杂度×价值尺度×发掘难度.

现有大数据发展可分为两种类型,第一种类型大数据,是指企业自身的产品和服务产生了大量的,密集型“超大规模”或“海量数据”通过对这些数据改进自身业务,改进后的业务进行深入的挖掘分析,

吸引更多用户或客户,产生更大量的数据,形成正向的循环.第二种类型大数据,是网络大数据,通常是指在互联网上发生的、蕴含有丰富的、可被发掘的具有社会价值、商业价值或科研价值的大数据.

大数据具有的4V特性(Volume规模巨大,Ve-locitVarietVeracity速度极快,y模态多样,y真伪难

导致的规模与复杂度为我们带来的技术挑战主辨)

要集中在数据的异构性和不完备性、数据处理的实数据的隐私保护、大数据价值服务的有效性发效性、

大数据的再分析处理等方面.而针对第二类型的掘、

诸多企业等实体面临的这些4也V问题更加严峻,正在积极尝试解决以探索下一个阶段的可行商业开发和应用形态.

分析,态势与效应的判定与调控,揭示事物发展的演变规律,进而对事物发展趋势进行预测.例如,国外基于T通过对Twitter数据的选举结果预测,witter等网上公开数据的实时感知、动态获取与综合分析,结合仿真调控,预测大选结果.又如,联合国“全球脉(),是利用网络大数据预测失业率动”GlobalPulse 与疾病爆发等现象,利用数字化的早期预警信号来提前指导援助项目.

“因此,预测未来”面临数据交互性强、实时性强、动态演变,导致传统数据计算方法的数据生命周期的割裂、时效性与准确性难以兼顾、演变趋势难以预测的问题与挑战.

面向服务

现在的社会是建立在多样化的异构网络(如互联网、电信网、广播电视网、物联网等)上的、并基于这些网络提供多样化多层次的社会服务(诸如医疗、物流、旅游、交通、饮食、教育、电子政务等现代服务,业)而需求尤其是个性化的需求则是驱动这些服务运转的主要动力.

因此,如何利用大数据理论与技术,从异域、异构网络大数据中获取跨域业务关联的服务需求、并提升社会服务的综合绩效,综合高效利用服务资源,

是实现大数据巨大价值的最终目的和意义所在.

3 大数据的科学问题思考

大数据的兴起与应用的迅猛发展,超出了传统传统数据挖掘、处理技术的能力范畴.我们数据库、

为创新提不得不认真思考大数据研究的科学问题,数据科学”学科提供基础.本节以中科院计算出的“

所主持、武汉大学参加的国家重点基础研究发展计)划(项目为基础,集中论述四个主要的科学问973数据复杂性、数据计算复杂性、数据处理系统复题:

1~6]

杂性和基于数据的学习复杂性[.

2 网络大数据的应用价值

需求决定并度量价值,网络大数据计算的现实需求,总体说来可分为三大类:

感知现在

是面向领域或主题的历史数据与当前数据的融合,是对潜在线索与模式的挖掘、对事件群体与社会发展状态的感知.例如,为了感知中国发展状况的综,合指数(物价、环境、健康等)需要通过对历史与实时产生的P如淘宝社区CB级社会媒体数据(PI

、、等)百亿级观察日志数据(如环境PM2.5指数等)以获取有针对性有价值EB级监控数据等进行挖掘、的信息源.

同时“感知现在”面临数据规模巨大、模态多样、关联复杂、真伪难辨、现有数据处理方法感知度量难、特征融合难、模式挖掘难等诸多问题与挑战.

预测未来

针对全量数据、流式数据、主题离线数据的关联

数据复杂性3.1 科学问题一:

传统意义上的量或规模已经不再是衡量复杂性的第一要素,复杂关联与聚集阵发使得数据复杂性远为此,我们需要针对大远超过规模所带来的复杂性.

数据的复杂性,探明网络大数据复杂性的内在机理.3.1.1 研究现状

在数据复杂规律发现方面,前期的研究针对可收集到的多种来源的网络数据展开性质分析和规律探索,很多学者都尝试运用图论以及统计分析等方法对数据进行定量分析,近几年产生了较多的研究成果.

武汉大学学报(理学版)第60卷

[,]

例如2美国西北大学的B005年,arabasi教授等通过大量电子邮件数据的分析,证明人类行为中的通信、娱乐和工作模式并不遵循泊松过程,而是基于决策排队过程的结果,即由于存在优先次序导致任

7,8]

康奈尔大学务执行时间具有重尾效应[.2006年,

1314

),研究泛在的异质信息Lin等(UIUC)2

)网络中的模式发现与分析;提出元路径(MetaPath-

作为基本表示单元来刻画网络模式(NetworkSche -);指出通过定义合适的元路径,便可在网络中挖ma

提出基于元路径的图数据相似度掘有价值的模式;

关系预测方法P提出PathSim,athPredict等方法;

图数据中分类、聚类与排序融合的模式识别方法.

)美国东北大学的B》一3arabasi教授在《burst书中则指出阵发性是使人类行为90%以上可以被

15]预测的关键因素[.

Kleinberg教授通过分散方法等随机图算法发现大

9]

规模网络的小世界网络规律,如六度分割理论等[.卡耐基梅隆大学的M2007年,cGlohon等通过对博

发现博客中的时序行为是非均匀且客数据的分析,

10]

突发的,具有自相似的特性[麻省理工学.2009年,

院的Eale等通过对移动互联网数据的分析推断出g

11]好友网络结构及幂律性质[相关典型研究参见.

数据的网络化效应

即网络信息空间的数据互动效应,指一条网络是网络数据数据所引起的其他数据的形成或变化,之间的相互影响结果.主要研究成果:

)美国卡尔顿学院的L1ibenowell和康奈尔-N大学的Kleinberg的研究表明越相似节点之间形成

[16]

)关联关系的可能性越大(2008.

图2.

数据的复杂模式发现

指如何从数据中挖掘有价值的数据模式,是数据处理的一个主要问题.主要研究成果:

[0,12]

研究了针对不同领域大1)McGlohon等1

规模图数据的模式挖掘(直径、出度/入度分布、等模

;式)并采用图结构的时序分析:打破了传统对pow-

即图的直径随时间并没有增大,erlower图的认识, 

反而在缩小;在图的产生和生长方面,提出基于图数通过K据的自相似性,roneckerProduct产生的图 序列符合多种统计特性.

)美国普渡大学的Fond和Neville的研究区2

分了不同机制对社交关系的影响,通过随机测试区

[17]

)分社交影响和同质效应(2010.

)斯坦福大学的L3eskovec博士通过对等借贷

发现数据中系统的数据研究网络借贷的竞标机制,

[18]

内容需要下载文档才能查看

)带有群羊效应(2011.

3]

图2 大数据复杂性研究的若干关键研究进展[

现有数据复杂规律分析研究观察  面对大数据,

到了复杂数据背后的统计显著性规律,但依旧对反映网络数据在结构聚集、传播阵发等复杂特性方面的度量不足,对网络大数据的行为模式和群体演化规律缺乏有效的表达和计算,难以有效刻画数据空阵发性等特点.间内影响力与信息扩散的交互性、3.1.2 研究思路

主要考虑如何提出面向网络数据界的结构规则

性度量与网络模式表达,摆脱现有方法在大数据处理面临的时空挑战.当前主要的途径有:搜索方法(计算每条传播路径的可能性,即时间换空间)和判,定方法(记录每条信息的传播路径,即空间换时间)但这两种方法存在精确计算不可行、近似计算难以基于结构规则性的识别方保证效率与精度的问题;

法:依靠结构化计算,寻找数据空间的新度量,在时

19]

间和空间上一致性约简[.

第1期何 非等:大数据及其科学问题与方法的探讨

数据计算的复杂性3.2 科学问题二:

研究网络大数据的计算复杂性问题,阐明大数据科研的新型计算范式.主要涉及大数据表示、数据流计算及其特点(一次存取、有限存储、快速响应、内非停机计算等)存计算、.

其中,数据流数据具有三个特点:一,数据的到——快速,达—短时间内可能有大量的输入数据进行处理.因此,对数据流的处理应该尽可能简单;二,数——广域,数据属性的取值范围非常大,无据的范围—

法在内存或者硬盘中完整存储.因此,通常只能在数据到达的时候存取数据一次;三,数据到达的时——持续,间—意味着数据量可能是无限的.而且,对因此,对数数据进行处理的结果不会是最终的结果.

据流的查询结果往往是持续的.由于数据流计算需要更多的硬件支持,暂时不在此讨论.3.2.1 研究现状

针对大数据的计算复杂性,主要有对大数据进行简约、局部代替全局和优化处理等研究途径,在图3中列举了相关主要研究工作.

大数据简约

在大数据按需简约方面,一些学者尝试使用统一方面,相计的方法和复杂网络的方法来进行研究.

关数据简约的方法多数集中在对样本属性的简约其目的是在保持分类能力不变的情况下,删除其上,

中不重要的和冗余的属性,同时提取出重要的属性信息.例如,2008年墨西哥国立理工大学的Cervan-提出基于支持向量机tes等人使用最小封闭球聚类,

20]

;的数据简约方法[2010年山西大学的Qian等人提出一种基于模糊集的数据简约方法来进行特征提

21]

但这类基于统计的方法在处理网络大数据时取[.

法,它能够在海量互联网数据中自动寻找出文字间的语义主题,克服了传统信息检索中文档相似度计算方法的缺点,使得对数据的计算模式符合背后的语义联系,而非表面的词语重复,使对应计算模式从高维的词空间降维到有限的主题空间.

大数据局部化

除了基于复杂网络方法发现系统整体的一些统计特性外,研究人员也开始在中观和微观层面来发社区和重要节点等有用信息,从而达到简现骨干网、

化网络拓扑的目的.例如,由于对于模块化的全局最优化问题被证明是NP难问题,2004年新墨西哥大学的Clauset等人提出了基于贪心算法的社区划分

22]

,通过选择局部最优值来确定网络中的社算法[

区;2007年北京邮电大学Du等人通过抽取网络社区核心成员,以接近度定义核心成员间的权重,将生

23]

;成的最小代价树作为骨干网来计算处理[由于真

实网络的动态演化特性,2008年亚利桑那州立大学的Tang等人提出了基于密度的方法和启发式规

24]

则[选择最合适的社区数目.但这类研究至今尚未

有系统化的成果.

局部代替全局的计算模式:相关代表之一为用用以证To-K排序学习框架来对大数据进行排序,p

25]明局部样本学习能否有效的实现全局预测[.

大数据优化

针对网络大数据的计算优化的研究,目前集中在机器学习、参数估计和近似优化算法等方面,形成的一系列成果为大数据高效计算提供了理论支持.Wan2011年,g等针对大规模网络文本数据的

提出了在线学习算法,为大数据下的非参主题建模,

26]

斯坦福大数模型的高效估计奠定基础[.2011年,

其时效性难以保证.

主题减约方法是对文字隐含主题进行建模的方学的Mahoney教授提出了随机算法实现快速

矩阵近似分解,并给出了近似值和真实值差

内容需要下载文档才能查看

3]

图3 大数据的新型计算范式的若干关键研究进展[

版权声明:此文档由查字典文档网用户提供,如用于商业用途请与作者联系,查字典文档网保持最终解释权!

下载文档

热门试卷

2016年四川省内江市中考化学试卷
广西钦州市高新区2017届高三11月月考政治试卷
浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
广西钦州市钦州港区2017届高三11月月考政治试卷
广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
广西钦州市高新区2016-2017学年高二11月月考政治试卷
广西钦州市高新区2016-2017学年高一11月月考政治试卷
山东省滨州市三校2017届第一学期阶段测试初三英语试题
四川省成都七中2017届高三一诊模拟考试文科综合试卷
2017届普通高等学校招生全国统一考试模拟试题(附答案)
重庆市永川中学高2017级上期12月月考语文试题
江西宜春三中2017届高三第一学期第二次月考文科综合试题
内蒙古赤峰二中2017届高三上学期第三次月考英语试题
2017年六年级(上)数学期末考试卷
2017人教版小学英语三年级上期末笔试题
江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
四川省简阳市阳安中学2016年12月高二月考英语试卷
四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
安徽省滁州中学2016—2017学年度第一学期12月月考​高三英语试卷
山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷

网友关注

坚持理论与实践相结合推进我军军事文化繁荣发展——关于发展先进军事文化的对话(可编辑)
公路军事运输指挥决策理论与方法研究
07级军事理论总复习题
军事理论复习参考资料
【精品】军事理论复习资料_百度文库37
军事理论,第二章,1、2节,军事思想概述
福州大学军事理论题目2
适应未来高技术局部战争的坦克装甲车辆技术发展特点
2010级军事理论考试复习题目 (转自中大武装部)
06专武干部军事理论测试大纲及体能测试标准
广州城建学院12级军事理论 单元测试-信息化战争
《军事理论教程》课程说明
军事装备运输性工程的理论、方法及其应用研究
经济学视角解读军事技术与军事理论的博弈发展
2002年军事法学研究述评
军事理论PPT课件 军事思想概述(古代)
2014年江西公务员考试-军事理论知识考试试题(四)
浅谈把握定位坚持改革努力提高军事理论课的教学质量
军事理论试题(超级题库)
军事理论总复习题_3
军事理论考试题
军事理论论文Doc1
从叙利亚看局势
2013级学生军事理论试题答案
2014福州大学军事理论套题六
中国军事飞行理论亟待建立
军事理论教程(南大出版社)重点与页码全对照
军事理论最后作业
军事理论超全复习题(考试必过)
“三位一体”体系下的高校军事理论课的课程建设探析——以“全国高校预征工作先进集体”广东石油化工学院为研究对象(可编辑)

网友关注视频

【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,广东省
《小学数学二年级下册》第二单元测试题讲解
沪教版牛津小学英语(深圳用) 四年级下册 Unit 2
青岛版教材五年级下册第四单元(走进军营——方向与位置)用数对确定位置(一等奖)
8 随形想象_第一课时(二等奖)(沪教版二年级上册)_T3786594
冀教版小学数学二年级下册第二周第2课时《我们的测量》宝丰街小学庞志荣.mp4
冀教版小学数学二年级下册第二单元《余数和除数的关系》
苏科版数学七年级下册7.2《探索平行线的性质》
3.2 数学二年级下册第二单元 表内除法(一)整理和复习 李菲菲
第五单元 民族艺术的瑰宝_16. 形形色色的民族乐器_第一课时(岭南版六年级上册)_T1406126
精品·同步课程 历史 八年级 上册 第15集 近代科学技术与思想文化
苏科版数学八年级下册9.2《中心对称和中心对称图形》
北师大版数学四年级下册第三单元第四节街心广场
苏科版数学 八年级下册 第八章第二节 可能性的大小
冀教版小学数学二年级下册第二单元《有余数除法的简单应用》
沪教版八年级下次数学练习册21.4(2)无理方程P19
【部编】人教版语文七年级下册《老山界》优质课教学视频+PPT课件+教案,安徽省
化学九年级下册全册同步 人教版 第22集 酸和碱的中和反应(一)
第五单元 民族艺术的瑰宝_15. 多姿多彩的民族服饰_第二课时(市一等奖)(岭南版六年级上册)_T129830
【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,天津市
人教版历史八年级下册第一课《中华人民共和国成立》
沪教版牛津小学英语(深圳用) 五年级下册 Unit 10
苏科版八年级数学下册7.2《统计图的选用》
化学九年级下册全册同步 人教版 第18集 常见的酸和碱(二)
外研版英语三起5年级下册(14版)Module3 Unit1
二年级下册数学第二课
【获奖】科粤版初三九年级化学下册第七章7.3浓稀的表示
沪教版牛津小学英语(深圳用) 五年级下册 Unit 7
二次函数求实际问题中的最值_第一课时(特等奖)(冀教版九年级下册)_T144339
【部编】人教版语文七年级下册《老山界》优质课教学视频+PPT课件+教案,安徽省