教育资源为主的文档平台

当前位置: 查字典文档网> 所有文档分类> 论文> 其他论文> 档案用户数据分析引擎建设研究

档案用户数据分析引擎建设研究

上传者:网友
|
翻新时间:2015-08-17

档案用户数据分析引擎建设研究

摘要:本文提出了一个档案用户数据分析引擎的总体框架模型。在此基础上,探讨了实现与部署该模型应进行的主要工作。集中对档案用户数据分析引擎的实现技术选择以及典型功能的实现方案进行了论述,并对档案用户数据分析引擎的优化问题及其配套制度建设进行了探讨。

关键词:档案用户;分析引擎;协同过滤;档案模型;推荐系统

本文从分析用户数据来提升档案服务的目的出发,立足于档案馆实践需求和实际数据建设能力,提出一个档案用户数据分析引擎架构模型方案。该方案的核心思想是,通过建立档案馆对用户数据的分析机制,指导和促进自身服务的提升。

1档案用户数据分析引擎模型

本文所称的档案用户数据,是指用户在利用档案过程中所形成的反映档案利用行为、利用主体及客体特征的数据。要实现通过关注档案用户数据促进档案服务的提升,就要建立对这部分数据进行分析、知识抽取以及采取相应行动的机制,这就是档案用户数据分析引擎。该分析引擎的意义在于,使得档案部门可以利用对用户行为数据分析的技术手段,将原本的“数据废气”[1]变废为宝,为档案部门的服务提升和管理进步提供了现实支持。

为此,我们提出一个档案用户数据分析引擎模型,如图1所示:

图1档案用户数据分析引擎模型

该引擎总体上分为五个层次:存储层、知识提取层、知识表示层、行为层和反馈层。其中存储层主要负责实施对档案用户数据收集、存储和向上层调用控制。该层次中的档案用户数据收集模块负责对档案用户特征、档案利用行为、用户对档案评价等数据的收集,数据整理清洗模块负责规整收集到的数据、消除数据噪声等。随后将收集到的数据存储至档案用户数据库中。隐私保护和密级保护规则模块,负责防止数据向上层调用时违反隐私和保密规则。

用户满意度是对分析引擎效能的最终极评价指标,用户的反馈意见是引擎优化的根本依据。因此本引擎在设计上设置了反馈层,用以收集档案用户对于引擎驱动的档案服务提升的满意度信息,根据用户实际满意度来调整和完善分析引擎的架构与技术方案。

2档案用户数据分析引擎的实施与部署

以上我们所提出的分析引擎,从概念模型的角度阐释了引擎总体架构和所包含的功能。下面,我们结合当前档案馆的实际,探讨一下对该引擎进行实施和部署应采取的几方面工作措施:

2.3结合自身情况实现分析引擎的具体功能。所提出的档案用户数据分析引擎所具有的实际功能包含很多种,每种功能面对档案部门的实际环境也会具有不同的表现形式。因此,档案部门可根据自身所面对的用户群体与档案资源状况,应用自身所选择的引擎实现技术,实现符合自身服务需要的分析引擎功能。例如,可以根据自身所面对用户的身份特征信息,开展对档案数据资源的个性化推荐;建立对档案用户属性的多维分析资源库;开发对档案数据资源的辅助检索系统,应对用户检索多样化的应用环境;为了防止档案资源流失,通过异常检测分析潜在的不守信用用户并进行预警;通过趋势变动及预估来感知用户对档案需求或反馈意见的变化趋势等。从总体讲,这些具体功能的根本目的,就是为了将用户数据驱动服务提升与管理进步的宗旨落到实处。

2.4建立与完善分析引擎的配套制度。对于档案部门来说,信息技术要与配套制度相结合,才能实现档案服务与管理的真正进步。用户数据分析引擎在档案馆部署运行的过程中,档案部门要制定有效的管理制度和使用规范,确保其发挥良好的作用。例如,应研究建立档案数据个性化推荐系统使用规则、用户数据收集实施办法、用户数据安全性责任规范、用户意见反馈收集实施办法等。通过这一系列的工作制度和纪律规范,明确用户数据分析引擎运行过程中档案工作人员的任务职责,以制度的形式确保分析引擎的良好运行以及对档案部门进步的促进作用。

3档案用户数据分析引擎实现技术选择的探讨

协同过滤技术[3]的基本原理是基于最近邻居的评分数据对目标用户产生推荐。协同过滤技术的核心是用户―评分矩阵,用来表示用户对每个项目的评价。基本的推荐步骤是用户评价、最近邻查找、推荐结果生成。

项目的向量建模技术主要思想是,将目标项目提取为特征向量,用于匹配计算等场景。这项技术的个性化程度较高,但其难点在于对推荐项目(如文档)特征的提取,如文献[4]中介绍了对于文本的特征提取公式等。而对于那些难以提取特征、准确表达成向量形式的推荐项目(如音像档案等)则较难应用。

考虑到目前我国档案馆的现实数据分析需求、技术力量以及馆藏资源特点,在此我们提出主要选择协同过滤技术作为用户分析引擎的实现技术,并辅以向量建模技术以提高分析效果。

基于本节的分析,以下我们阐述几种分析引擎典型功能的技术实现方案。

4档案用户数据分析引擎若干典型功能技术方案

4.1档案数据资源个性化推荐。当前用户对档案资源的需求主要属于因办理某事务而对档案资料的刚性需求。所以在实际应用场景中,用户的档案需求往往在档案类别上有共性、在具体文件上有个性,因此,我们提出如下的推荐方案:

①对档案用户进行建模,采用向量形式描述用户属性集合。将档案文件按照所属全宗类别进行建模,每一类别作为协同过滤矩阵中的一个项目。

②根据档案利用数据,建立“用户属性-档案文件类别”二值观测值矩阵,其中以0、1数值的形式记录具有某属性的用户利用过某类档案文件的情况。

③当目标用户在档案利用中输入自身属性信息,分析引擎的推荐引擎模块即根据其属性信息在用户向量模型空间中计算查找最相似用户,然后检索这些最相似用户在“用户属性-档案文件类别”矩阵中利用过什么类别的档案文件。

④将检索到的文件类别(并集)与目标用户自身属性相结合,在档案系统数据库中检索到具体的档案数据文件推荐给用户。

该方案实际上是对经典协同过滤技术的一种变形,主要是将其“用户-项目”矩阵变为“用户属性-档案文件类别”矩阵,并结合用户属性向量实施推荐。对于目标用户的最近邻查找是在用户属性向量模型空间中完成的,而推荐结果的生成则划分为两步:一是在矩阵中直接读取最近邻用户的档案文件类别,二是结合目标用户自身属性检索具体档案文件。这种策略大大缓解了传统协同过滤的稀疏性与冷启动问题。更为重要的是,其更加适用于档案领域的实际场景。

4.2档案利用关联分析。档案利用关联分析的目的是要揭示用户属性(如身份信息、利用目的等)与所利用档案类别集合之间的关系。这种分析得出的结果主要有两个方面的重要用途:一是为档案馆识别用户、安排与优化档案资源提供决策依据;二是为实现上述的档案数据资源个性化提供建模支持。 基于4.1节中所提出的协同过滤矩阵,建立利用分析模型。重点是根据档案馆实际情况分别建立档案用户模型与档案资源类别模型。其中用户模型的建模目的是将档案用户映射为不同的特征向量。例如,在档案资源个性化推荐中,使得目标用户能通过模型映射找到与其特征相似近邻用户;而对于档案项目的建模,目标是使资源模型可以准确刻画档案数据文件从属于何种类别,该类别的划分有助于揭示此类文件的共性,且有助于其与用户属性结合后准确地直接检索到用户所需的具体文件。

具体的建模策略实际可视为一个分类模型(classificationmodel)问题,即将“用户属性-档案文件类别”二值观测值矩阵中的每一行视为一个独特状态。档案馆通过分析总结档案利用数据与馆藏档案类别,首先归纳得出若干不同的利用状态(矩阵行),然后利用分类模型技术,将档案用户身份属性信息映射到各自唯一对应的档案利用状态(也就是分类决策树的叶节点)。如图2所示:

图2用户利用档案类别分析模型

所建立的分类决策树模型,每个叶节点应对应“用户属性-档案文件类别”矩阵中的一行,决策树中的每个非叶节点代表一个应当体现在用户向量模型中的用户属性项目。从而以此指导建立档案用户向量模型。而之所以不将该决策树直接用于推荐引擎,是因为决策树模型往往存在误差,且直接在树上查询至叶节点也往往存在效率上的问题。因此,以协同过滤技术实现推荐服务可具有更好的容错性和运行效率。

在建立分类模型过程中,可以应用诸如C4.5等[5]分类模型技术,通过信息增益率来确定用户属性项目的价值(即属性选择度量),这对于完善档案用户向量模型是一种直接而有效的方法。而建立分类模型需要训练集(trainingset)与检验集(testset)。对此可以将档案馆人员分析得出的用户属性-利用档案文件类别数据集,分为训练集与检验集两部分,前者建立决策树,后者进行模型的验证和完善。而且,这个过程在实践中可以通过新得出的数据定期进行,以完善和优化所建立的分类模型。

4.3档案未命中检索词分析。用户检索档案数据所使用的关键词,体现出用户对档案资源的实际需求以及自身表达特点。若是用户在档案信息系统中经过一系列尝试后未检索到所需的档案文件,那么,档案馆应该定期对这些“未命中检索关键词”进行分析(通过操作日志等),找出检索未命中的原因。该原因一般可归结为三类:资源不存在、检索词笔误、资源命名不匹配。在经过认真分析确定原因后,档案馆应分别采取如下的处理措施:对于资源不存在,应在对检索词统计汇总后,研究加强今后的档案资源建设,调整所需档案收集的项目,以使馆藏档案资源的扩充向用户实际需求方向发展;对于检索词笔误,可将用户输入有误的检索词作为“规则”与其应该命中的文件建立链接,今后系统再遇到该错误时,即可将正确的文件推送到用户,增强档案检索系统的容错性;对于资源命名不匹配问题,也可按照该方式,将用户所用检索词与应命中文件链接,增强档案检索系统的适应性。在此提出的技术策略,实际上是通过倒排文件的思想,来提升档案信息系统检索的智能化水平。

5档案用户数据分析引擎的优化及制度建设

任何成功的制度设计,都应具备有效的自我完善机制。因此,我们提出的档案用户数据分析引擎设置了反馈层,用以收集分析引擎运行后用户对档案服务的满意度和反馈意见等信息。以此为依据,对分析引擎的功能、实现机制、技术方案等做出优化调整。

对于档案数据分析引擎的配套制度建设,目前我们应该重点关注两点:一是有效收集档案用户数据的问题,二是对系统中档案用户隐私保护问题。

对于有效收集档案用户数据的问题,档案用户数据的主要内容包括对档案利用行为的数据、档案用户自身属性的数据、所利用档案具有属性的数据三个主要的部分。对于它们的收集要本着准确、及时、全面的原则,因为它们是整个档案用户数据分析引擎运行的基石。对于档案利用行为数据,在数字化档案馆条件下,可基于档案信息系统自动完成。档案部门也可对以往档案利用登记数据进行汇总,获得更为全面的利用规律。对于档案具有属性的数据,应基于档案元数据来获得,这就要求档案部门今后要更加重视档案元数据的收集、存储和利用。

对于档案用户自身属性的数据,相关研究中[6]亦称为用户人口统计信息(DemographicInformation)等。对于其的收集,档案部门首先是调查搞清:哪些信息项目对于分析引擎的功能是需要的,要收集加以考虑,而哪些信息项目不重要,不可盲目收集。另外还要注意哪些是用户“最不愿意填写”的信息项目,这些项目用户要么就不会提供、要么即使填写也是不真实的信息,从而影响引擎的分析功能正常发挥。对此,档案馆要充分地向用户宣传与沟通,积极促进用户提供自身真实有效的属性信息。 例如,4.2节中所提出的分类模型,其在建模过程中就会逐步筛选出对于分析有意义的用户属性项目,因此在实践中应对用户的这些属性加以重点收集、确保其正确和真实,这就意味着档案部门要通过有效的策略鼓励用户提供这些信息项目的真实信息。

对于分析引擎中用户隐私保护问题,当前相关研究中[7]提出了一系列的用户隐私保护措施,如收集主体的合法性、隐私管理者的保密及忠实义务、贯彻落实相关的法律规定等,在分析引擎实际运行中可以参照这些措施对用户的信息实施保护。这实际与有效收集用户属性信息问题是相辅相成的,只有用户的信息受到良好的保护、进行正确的利用,才能促使用户更加顺畅地提供自身属性数据供分析引擎正常运行,从而形成档案用户、档案部门与分析引擎之间的良性互动。

6总结

本文重点关注了如何通过对用户数据的分析来驱动档案服务提升的问题。提出了档案用户数据分析引擎的模型架构,并基于协同过滤和向量建模等技术提出了若干具体的功能实现策略。在设计和部署数字化以及智慧档案馆的信息系统时,可将本文提出的策略作为设计要求和实现说明,将对用户数据的感知及分析功能融入档案系统中加以实现。

下载文档

版权声明:此文档由查字典文档网用户提供,如用于商业用途请与作者联系,查字典文档网保持最终解释权!

网友最新关注

大家来赏荷
电脑
同在一片蓝天下
迷人的彩虹桥
反对战争
“铸剑为犁”雕像之感想
莲文化
莲文化探秘
出淤泥而不染
今夜星光灿烂
同在一片蓝天下的感想
人人都献出一份爱
我与电脑
我做桥梁设计师
即将绝版的三峡
城市规划的历史人文困境
重庆解放碑中心购物广场规划建设述评
洁净手术部主体建筑设计前期准备工作探讨
“绿色建筑”——可持续发展观念的确立
楼地面渗漏原因浅析及控制
滴灌系统应用八大错误概念
住宅区的水景设计
园林植物与建筑小品的配置
南京主城近期公共停车设施布局规划方法
建筑与时代
巩义市对文化公园进行概念性城市设计
四大软肋制约兰州建筑沙盘模型市场
设计突破 建筑创新
现代园林材料的应用与发展
提炼四合院基本形式 京城四合院有了修缮样本
《妈妈的账单》 知识点精析
《妈妈的账单》随堂练习 巩固篇
《她是我的朋友》随堂练习 巩固篇
《她是我的朋友》随堂练习 提高篇
《她是我的朋友》 考点练兵1
《她是我的朋友》 重点问题探究
《妈妈的账单》 教案讲义2
《她是我的朋友》 整体阅读感知
《妈妈的账单》 教案讲义1
《妈妈的账单》 相关介绍
《她是我的朋友》 考点练兵2
《她是我的朋友》 相关介绍
《妈妈的账单》随堂练习 提高篇
《她是我的朋友》 趣闻故事
《她是我的朋友》 范文习作