预测与决策讲稿(第六周)
上传者:吕令保|上传时间:2015-04-15|密次下载
预测与决策讲稿(第六周)
大数据是一种新的话语权威,它改变了我们的生活,塑造着一个新社会新文化。无论你我乐于接受与否,大数据这个精灵一旦跳出魔瓶,就关不回去了。 《大数据:改变我们生活、工作和思想的一场革命》 [英]维克托·迈尔-索恩伯格 [英]肯尼思·库克耶著
Houghton Mifflin Harcourt 2013年出版 现在这个世界是媒体的游戏场,有一种游戏唤作“年度词”提名。2012年获提名的一个词叫“大数据”(Big Data),拿着一条响当当的理由:大数据将彻底改观人类文化!(Big Data: A Revolution That Will Transform How We Live, Work, and Think) 大数据意味着海量的数据,“海”得远远超出了常规数据管理工具和系统的处理能力,乃是数码互联网技术一个最新动态。网络早已俘获了我们:从手机短信、刷卡吃饭、缴费、购物,到人肉搜索、QQ聊天、微博围观,日常生活当中哪一样便利甚至习惯,没有一步一个脚印,留下我们的电子行踪?这一切,都是有用的信息,时时被网络服务商、销售方和相关政府监管部门记录在案。为了利用这个巨量的数据集,人们在统计学和决策学等研究的基础上,模拟大脑思维和学习模式,创造出专门的分析工具,编制成算法软件。借助计算机的强大信息处理能力,对大规模数据做细致的梳理归纳。这样,在仿佛随机无序的庞大数据集里,发现人的行为的内在模式,建立事物间的相关性;进而甄别、推断并给出预测,支持决策和行动计划;并通过学习与再学习程序,求得结果的不断优化。可以说,大数据所到之处,一切思路和方法全要更新。 大数据新在以“量”取胜,靠的是前人难以想象的数据量,以及超级的信息分析处理的能量。我们知道,人做事离不开信息分析。小到出门应否带伞,大至卫星如何成功进入轨道,无论个人集体、有意无意。而信息分析能否有所发现、预测正确与否、决策是好是坏,这个“质”的问题往往取决于“量”。一般说,信息量越大、分析工具越精,预测跟决策的品质就越好,行动就越是近于成功。 因此,大数据魅力四射,让各行各业趋之若鹜也就不奇怪了。通过大数据,药学家可以更便捷地测定药物的交叉反应;气象学家可以更准确地发布预报;商家能及时解读看似杂乱无章的消费者行为,诱导购买;犯罪学家创建了算法犯罪学,用来预防并惩治犯罪,等等。 大数据的预测和决策精度可以达到百分之八十五以上。换言之,它使得成功的预测不再是随机、难以把握的任务,而是建立在科学方法和巨量数据基础上,具有极高的连贯性和可预期性。大数据成了信息时代的预测权威。我们接受它的结论,遵循它的指导,几乎是下意识的。因为大数据无孔不入、无时不在,能量超凡,让人自愧弗如。人类受自身生理器官和认知能力的局限,只能收集处理极其有限的信息。几千年来,人类一直致力于信息工具的改进与革新,如印刷术、图书馆、档案馆等,不断突破自身和材料、技术条件的限制,拓展信息知识的利用。但这些进步并没有改变预测决策的常态:信息缺失,寓意模糊,分析工具的处理能力不高。预测往往不甚可靠,每每失误、丧失机会而浑然不知。直到数码互联网技术的发明,天地才豁然开朗。现在我们可以一刻不停地四处收集信息,记录下信息源的一举一动、社会生活和自然现象的分分秒秒。这样一来,收获积累的数据量以天文级数激增,仅2012年就高达3ZB(10的21次方),预计2020年将突破40ZB。人工智能和决策研究领域开发了种种分析方法和理论,加上计算机动辄每秒上亿次的处理能力,算法如虎添翼。于是大数据时代的一个特点,便是人们不愿意再容忍信息短缺,或是靠个人的经验智慧来预测、做决断。决策者不仅要求数据说话,而且期待由巨量的动态中的数据来说话。这将成为决策的基本要求。难怪有分析家大胆宣布:大数据预示着“理论”的终结。我想,这是因为我们的天性喜欢“量”决定“质”,觉得大数据是实时实地的记录,因而真实可靠;它的分析工具来自集体的经验和智慧,富于专业理性;而由计算机来执行,就近乎零差错了。大数据带着我们梦寐以求的品质,让人不得不信服,难以抗拒。 然而,大数据并非如我们想象的那么完美;毕竟,它是人类而非神的创造。正如哥伦比亚大学媒体创新研究所的汉森(Mark Hansen)所长指出:数据承袭了人类的所有缺陷。使用大数据如稍不当心,那些缺陷便会带来失误。让我们考察一下大数据的几个要件,就不难理解了。比如数据,总是已经发生或存在
的人和事的记录,其语义依赖特定语境。脱离语境的数据,语义便稳定不了,会产生歧义,并不因为数据的量大或质高,就能摆脱语境的影响。算法呢,无非是基于经验知识和逻辑的数学程式,包含了许多假设,表述我们对事物的一种理解和因果推论。付诸现实世界,就难免有片面性,以致得出偏颇、幼稚、盲目的结论。而数据分析虽是由计算机执行完成,可以控制精确度,但电脑还不能如人脑那样,灵活而恰当地处理超出已知、语境不同的事态。可见,大数据即使十分完美,也只是说明过去或现在,不直接呈现将来。它具有超能的“量”,但逃不脱人的局限。大数据的职责是预测和决策支持,是处理未来跟未知。当未来与往昔情形相似时,大数据一般能有效发挥作用。但如果不尽相似或迥异,大数据就未必比人高明了;很可能比人错得更厉害,因为它大,会成倍地放大人的缺陷。不幸的是,未来常常不同于往昔,充满了偶然与突变。大数据就没法当灵丹妙药了;过度的信赖,有可能被误导。谷歌公司就犯过这错误,令今年预测美国流感暴发的大数据计划受了重挫。 流感暴发预测,一般由国家卫生部门来做;在美国,便是联邦政府的疾病控制预防中心(CDC)负责。CDC积累了丰富的经验,向医院采集各类检验数据,一般需花两个星期做出预测报告。谷歌公司对数据向来敏感,注意到流感季节,许多人上网检索与流感相关的信息,遂有意开发这一数据富矿。构想是:人群所在地+谷歌搜索器中收录的与流感相关的检索词+搜索发生的时间+“非常聪明”的算式=美国流感患者人数和暴发时间。不是吗,既简单又经济! 于是,谷歌2008年研发出一组分析算法,对流感检索关键词,发生频率、地域和时间分布等展开大数据分析。仅用一天时间,就拿出了流感暴发预测,发表在《自然》杂志,声称准确率高达百分之九十七。《纽约时报》马上头版报道,盛赞谷歌预测是比CDC昂贵的监测系统更及时、更经济的选择。社会反响热烈,因为如果谷歌的方法可以推广到别的疾病防治,将大大简化程序,降低成本,提高效率。谷歌乘胜追击,于2012年年底预测,圣诞节前后美国将出现流感高峰,会有百分之十一的人口患上流感。然而出乎意料,CDC的实地统计数据表明,流感高峰时患者人数只是人口的百分之六,谷歌错得离谱,把数字报高了近一倍。原来,谷歌的数据集和算法出了问题。试想,流感季节来临,媒体密集报道,人们谈论一多,网上便成倍放大。加上谷歌预测本身的影响,流感信息的传播就比流感病毒快得多。公众的注意力被牵动了,不管有没有感冒症状,是否得了流感,大家都上谷歌搜索一把。所谓“好奇关注型检索”多如牛毛,淹没了真实的病患检索,形成巨大“杂音”。这样得来的数据集,用于预测,语境失控,语义便扭曲了。而谷歌忽视了语境语义,盲目地把往昔当作未来,把特定数据误作普遍相关,导致预测的重大失误。实际上,这不是谷歌的流感预测第一次犯错;之前,2009年猪流感暴发,因为病症和发病季节等语境因素不同于普通流感,预测结果也不理想。所以,大数据的使用和解读必须慎之又慎(参阅《自然》杂志,卷457,2009,页1012-1014;卷494,2013,页156)。 谷歌的失误也表明,对大数据保持谨慎之不易。因为大数据可以,并且常常提供高准确度的预测,能满足人类对超级能力的渴求。这使得我们很难抵御它的诱惑,一旦放松警惕,一些基本原则就会动摇,尤其在伦理道德方面。众多迹象表明,这已经影响到了我们的社会生活。美国运输安全局(TSA)实施的“风险安全计划”,便是有代表性的一例。 TSA负责全国的机场安检。“九一一”以来,工作量骤增,责任特别重。TSA雇用了约六万五千名职工,每天安检一百八十万乘客、五百万件行李。为了最有效 地防范恐怖活动,专家提出采用“画像法”(profiling),重点排查具有某些行为和背景特征的乘客。但舆论普遍认为,画像法有种族和宗教歧视之嫌,有违美国人尊崇的基本人权,可能违宪。所以,尽管TSA经费紧张,反恐任务艰巨,画像法一直未能系统使用。但一年多以前,TSA启动风险安全系统,开发了名为“风险管理分析工具”(Risk Management Analysis Tool)的大数据计划。该计划利用多年积累的大量经验性数据,模拟恐怖分子行为,找出机场安检的薄弱环节,改革安检程序。对照大数据勾画的恐怖分子的“画像特征”,TSA强调,百分之九十九的乘客不是恐怖分子。故应集中有限的人力物力,
防范实质性的恐怖威胁,亦即瞄准剩下的那百分之一。因此决定把乘客分成几等,例如“认识并可以信任”、“不认识”、“可疑”、“可能对空运造成危害”等类型,区别对待,实行不同的安检程序,重点检查人数不多的某几类乘客,而为“认识并可以信任”者提供安检快道。也就是说,基于大数据,美国政府公开替画像法安检正了名。 这一次,主流媒体没有批评。以多数人的利益和经济效益观之,这新政策好处是明显的:既能将有限的资源用在刀口上,保障空运安全,又简化了大多数乘客的安检,是个双赢的局面。但是,画像法背后的伦理取向,似乎背离了美国宪法的平等保护原则,因而是对人权价值的一种修正。换一角度,则是大数据以无限趋近准确的预测为允诺,化身科学,以“量”为“质”,使得一些新的政策和价值变得合理,甚至合法化了。同时,那些被大数据挑战的政策、价值,就显得不正确或不合时宜。然而,人类社会的正义原则和伦理道德,不都是概率或效益衡量的结果。为了社会公平,法律的规定可以向弱者倾斜,而不强调经济效率。有了大数据,要说服我们自己和他人,忽略高准度的预测而放弃可见的效益,继续坚持一些基本原则,就变得比过去更困难了。这是我们在大数据时代回避不了的一个挑战。 同理,大数据也加剧了保护个人隐私的难度。这是因为大数据与资本结合,营造了所谓“监察经济”(surveillance economy)。入侵性的数据采集、挖掘跟打包销售,已经成为今天的政治与经济活动的基本手段。面对大数据,我们毫无隐私可言,只能指望政客和商家自觉一点,对法律稍存敬意。可是法律实在帮不了太多,看看大选和TSA就知道了。这方面,中国一点也不落后。例如,据“新浪科技”报道,阿里巴巴公司的负责人不久前宣布,“数据挖掘”是企业的三块主要业务之一,准备“分享”海量数据的价值:假如我们有一个数据预报台,就像为企业装上一个GPS和雷达,你们出海将更有把握。这个“GPS和雷达”是什么呢?就是消费者的个人信息的商品化,来自“七剑平台”(阿里巴巴国外、阿里巴巴国内、一淘、淘宝、天猫、聚划算、云计算,业内称“七剑”)每一个用户的一举一动;光是淘宝网,就有过亿的日访问量。这些数据,归类分析了,可以做成形形色色的商品,待价而沽,与任何愿意购买的人“分享”。当然,这并非阿里巴巴的发明,而是当下商家的普遍做法。试想,一个人网络生活的每一细节(例如查看有关艾滋病的信息,或者只是不当心点击了艾滋病药物的链接),都记下来,交由高端分析算法处理;转眼间,他就被“科学”地归类定义(如艾滋病患者或家属),被推断具有某种行为的倾向。所有这些,都可以做成商品,进入流通,个人空间和社会的 边界就彻底模糊了。随之而来的便是,作为“患者”或“家属”,他求职开始遇到莫名其妙的麻烦,购买商务医疗保险的申请被拒绝,别人看他的目光变得暧昧……世界变了,变得陌生,难以理解。而对于整个社会,我们发现,原来不是问题的东西成了问题:个人信息到底属于谁?怎么用?谁说了算?我们的法律就不得不重新定义信息的属性、所有权和使用权。而个人隐私是否值得尊重、何为尊重、如何尊重,答案也不再是简单明了的了。 大数据是一种新的话语权威,它改变了我们的生活,塑造着一个新社会新文化。无论你我乐于接受与否,大数据这个精灵一旦跳出魔瓶,就关不回去了。我们唯一的选择,是想办法把它用好、用对,避免误用、滥用。
下载文档
热门试卷
- 2016年四川省内江市中考化学试卷
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
- 山东省滨州市三校2017届第一学期阶段测试初三英语试题
- 四川省成都七中2017届高三一诊模拟考试文科综合试卷
- 2017届普通高等学校招生全国统一考试模拟试题(附答案)
- 重庆市永川中学高2017级上期12月月考语文试题
- 江西宜春三中2017届高三第一学期第二次月考文科综合试题
- 内蒙古赤峰二中2017届高三上学期第三次月考英语试题
- 2017年六年级(上)数学期末考试卷
- 2017人教版小学英语三年级上期末笔试题
- 江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
- 重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
- 江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
- 江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
- 山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
- 【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
- 四川省简阳市阳安中学2016年12月高二月考英语试卷
- 四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
- 安徽省滁州中学2016—2017学年度第一学期12月月考高三英语试卷
- 山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
- 福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
- 甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷
网友关注
- 西部城市低碳经济发展问题分析
- 招聘海报文案
- 为了打假还是为了大价
- 西方发达国家低碳产业集群发展经验及借鉴意义
- 广州市政府投资建设项目 代建制管理试行办法
- 西汉前期区域分工特点探析
- 财政部令61号
- 中华人民共和国劳动合同法实施条例
- 诈骗宣传
- 西部城市化与经济协调发展时空分析
- 西北部地区制度变迁与经济增长的灰色关联分析
- 西部经济发展中的生态文化及其深层建构
- 戴瑞珠宝官网与实体店
- 西部地区城镇化发展的多维度思考
- 《新闻研究导刊》期刊官网征稿
- 西部县乡公共财政体制的创新与发展
- 通路快建招商外包介绍
- 卧虎藏龙影评
- 西部大开发中甘肃如何进行商事制度创新
- 伊藤的售后与维护
- 西部民族地区公共服务财政支出的现状及问题探析
- 社区深入开展普法 助推平安社区建设
- 西藏体育产业发展战略探讨
- 许昌媛
- 西方发达国家治理失业的理论实践及启示
- 肯德基与麦当劳
- 西方家族企业治理研究现状述评
- 西部民营经济发展中的政府行为探讨
- 西部“三农”问题与和谐社会的构建
- 西尔斯百货成功的启示
网友关注视频
- 沪教版八年级下次数学练习册21.4(2)无理方程P19
- 七年级英语下册 上海牛津版 Unit9
- 人教版历史八年级下册第一课《中华人民共和国成立》
- 冀教版英语四年级下册第二课
- 外研版八年级英语下学期 Module3
- 冀教版小学数学二年级下册第二单元《有余数除法的整理与复习》
- 30.3 由不共线三点的坐标确定二次函数_第一课时(市一等奖)(冀教版九年级下册)_T144342
- 冀教版小学数学二年级下册第二单元《有余数除法的简单应用》
- 外研版英语七年级下册module3 unit2第二课时
- 冀教版小学数学二年级下册1
- 每天日常投篮练习第一天森哥打卡上脚 Nike PG 2 如何调整运球跳投手感?
- 第4章 幂函数、指数函数和对数函数(下)_六 指数方程和对数方程_4.7 简单的指数方程_第一课时(沪教版高一下册)_T1566237
- 外研版英语七年级下册module3 unit2第一课时
- 沪教版八年级下册数学练习册20.4(2)一次函数的应用2P8
- 【部编】人教版语文七年级下册《过松源晨炊漆公店(其五)》优质课教学视频+PPT课件+教案,辽宁省
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 4
- 二年级下册数学第二课
- 沪教版八年级下册数学练习册一次函数复习题B组(P11)
- 8.对剪花样_第一课时(二等奖)(冀美版二年级上册)_T515402
- 沪教版牛津小学英语(深圳用) 五年级下册 Unit 12
- 三年级英语单词记忆下册(沪教版)第一二单元复习
- 3.2 数学二年级下册第二单元 表内除法(一)整理和复习 李菲菲
- 沪教版八年级下册数学练习册21.3(3)分式方程P17
- 第五单元 民族艺术的瑰宝_16. 形形色色的民族乐器_第一课时(岭南版六年级上册)_T3751175
- 《空中课堂》二年级下册 数学第一单元第1课时
- 外研版英语三起5年级下册(14版)Module3 Unit2
- 【部编】人教版语文七年级下册《老山界》优质课教学视频+PPT课件+教案,安徽省
- 青岛版教材五年级下册第四单元(走进军营——方向与位置)用数对确定位置(一等奖)
- 19 爱护鸟类_第一课时(二等奖)(桂美版二年级下册)_T502436
- 第五单元 民族艺术的瑰宝_15. 多姿多彩的民族服饰_第二课时(市一等奖)(岭南版六年级上册)_T129830
精品推荐
- 2016-2017学年高一语文人教版必修一+模块学业水平检测试题(含答案)
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
分类导航
- 互联网
- 电脑基础知识
- 计算机软件及应用
- 计算机硬件及网络
- 计算机应用/办公自动化
- .NET
- 数据结构与算法
- Java
- SEO
- C/C++资料
- linux/Unix相关
- 手机开发
- UML理论/建模
- 并行计算/云计算
- 嵌入式开发
- windows相关
- 软件工程
- 管理信息系统
- 开发文档
- 图形图像
- 网络与通信
- 网络信息安全
- 电子支付
- Labview
- matlab
- 网络资源
- Python
- Delphi/Perl
- 评测
- Flash/Flex
- CSS/Script
- 计算机原理
- PHP资料
- 数据挖掘与模式识别
- Web服务
- 数据库
- Visual Basic
- 电子商务
- 服务器
- 搜索引擎优化
- 存储
- 架构
- 行业软件
- 人工智能
- 计算机辅助设计
- 多媒体
- 软件测试
- 计算机硬件与维护
- 网站策划/UE
- 网页设计/UI
- 网吧管理