翻新时间:2023-08-10
地方研究文献数据库主题检索初探
地方研究文献数据库主题检索初探 地方研究文献数据库主题检索初探 地方文献论文 更新:2006-4-8 阅读: 地方研究文献数据库主题检索初探
一、地方研究文献数据库的数据源
地方研究文献数据库是中文文献信息资源数字化的重要组成部分。地方研究文献是指本地与外地出版的某一地域或区域的内容的文献,建立地方研究文献数据库是为了使用户全面了解某一地域或区域的社会生活、经济、文化等信息,便于用户进行地方研究。
地方研究文献数据库的数据源主要是:
3.政策性文献和法令法规例如,地方性党政会议及文件,领导人讲话、文章等,地方法令法规也可在此范畴内。这是发展地方经济的重要政策法令依据,是重要文献类型,一般全文收入。
4.新闻媒介的消息报导随着地方报刊的种数与版面激增,中央和地方新闻媒介大量报导各地的各类消息,例如《广州日报》设立珠江三角洲的专版,《南方日报》设立广州的专版。此类信息内容广泛,时间性强,及时报导要闻以及地方不同阶段的热门话题。
二、地方研究文献的主题
地方研究文献的主题与文献的类型、文献的内容、数据库收录范围及库容量等均有密切关系。
地方研究文献的类型多样,信息量大,文献的主题包含历代社会的内容,更多的是反映当代社会生活的各方面,与学科(或专业性)文献以及新闻信息相比较,其主题范围更广泛,而且年代更久远。另一特点,不同地区不同时期社会生活中的热点有异,文献内容即论述、报导的问题有较强时效性,有的信息的生命力也有时间限制。例如,香港新机场建设和运营之初,引起社会极大关注,一个月内香港出版的报章杂志报导有关新机场的消息与评论数百条,现在这方面的报导就很少。
地方研究文献数据库既有书目数据库(数据形式为书目、索引、文摘),也有全文数据库,而且全文数据库和多媒体技术发展很快,文献信息资源数字化技术的发展,使数据库建库方式,同一数据库中数据的形式等均发生变化。地方研究文献数据库应比较全面地反映该地区社会的发展,包括历代政治、经济、文化教育、科学技术,自然现象、历史事件、地理及名胜古迹、风土人情以及机构、人物等。数据形式包括二次文献、全文以及图像(包括地图等)、音像。用户可按需要查阅、下载或打印数据库中某一主题的全部文献。建库方式的变化,既可从某一文献部门自建库,也可联合建库,甚至跨地区、跨国合作建库。
文献资源数字化建设,文献数据库建库技术的发展,以及用户文献检索的需求的变化,对检索语言、文献主题的处理技术以及MARC格式等提出了更高的要求。海量文献、建库速度与质量的提高,要求录入和主题处理技术有较大的突破。目前汉字录入和扫描技术的进步,录入速度大大加快。但主题标引已成为建库的“瓶颈”,加上主题表编制与管理技术的滞后,直接影响建库的速度和质量,难于满足文献检索的需要。为此,张琪玉、侯汉清、张涵等国内著名专家和同行都在探讨解决的办法,提出了一系列建议,例如大量编制自然语言词表;设计分类表——叙词表转换系统,实现网络环境下情报检索语言兼容互换;利用主题表开发研制自动标引检索系统,实现自动标引等。这些建议都是有益的探索,对于地方研究文献数据库的建库技术的改进和提高有重要参考价值。
笔者从事地方研究文献数据库建库工作多年,结合建库实践提出一点不成熟的看法。
三、地方研究文献主题处理技术的改进措施
文献主题的处理技术可分为两部分:一是主题标引工作;二是词表的编制与管理。
1.主题标引工作
目前的文献主题标引工作人为因素太多。首先是标引规则的限制,几乎每个文献数据库都制订主题标引规则,内容包括:选用的信息和标引的内容范围;标引深度(标引多少主题词,主题词的汉字数目限制等);标引词的选择,主题标引方式(自由标引还是选用主题表);对文献主题采用整体标引或分析标引;标引词的著录方式;不同类型或题材、体裁文献的标引规则;人名、地名、时间因素等有关规定……为了保证同一主题标引一致性,规则的制订尽量详细具体。这样一来,标引人员工作时受到很大制约,需熟记标引规则并按此处理文献主题。标引是为了检索,然而如果表达文献内容远远超过标引规则的规定(例如规定15个主题词),不但造成标引的困难,而且主题或标引词选取不当将影响文献的检索利用。
其次是标引人员对文献内容理解及主题分析等方面的限制,标引规则要求标引人员主题分析和给标引词等均应考虑用户的检索需要和检索习惯。事实上没有一个标引人员能够全面了解用户的检索兴趣和要求,更无法预计将来用户的检索兴趣和要求。例如文献中标引人员可能认为某一内容不是中心内容,论述或研究的主要问题不进行标引,可是这部分内容对于某些用户却十分重要,在历史研究或历史人物研究等方面,往往根据文献中的不显眼的线索(几句话或一张照片)溯根寻源,得出意想不到的收获。
第三是主题的描述,由于主题表的使用和标引规则(特别是组配规则等)的制订,描述主题的词语与文献使用的语言、检索者使用的词语往往不一致,在同义词和复合概念的表达方面尤为突出。当前文献量激增,文献主题及用词变化较大,增加了标引工作的难度,影响主题标引的速度和准确程度。
因此,主题标引工作的改进势在必行。对于地方研究文献数据库来源,全文检索本身可自动抽词,二次文献库也可采用自动(或半自动)抽词与词表调控相结合的方式,标引时不硬性规定主题或主题词数量,而是视文献中具有检索意义的内容。所谓词表调控,主要是语义控制和分词的人工干预。
2.词表的编制与管理
检索词和标引词的一致,同义词的规范,以及主题的扩检功能是文献数据库检索效率的重要保证。从这个角度考虑,词表对于地方研究文献数据库仍是十分重要的。然而目前词表的编制和管理技术已远远满足不了建库的要求,必须进行改进。
①改变词表内容滞后于文献主题发展的状况
主题词的增删调整可应用统计方法加上人工干预。首先应统计主题词的使用频率,同时考虑时间因素,因为每一地区都有时效性很强的社会现象或信息,有的信息生命力很弱,主题标引用词的时效性也相应很低。
②词表管理技术主要是语义控制,例如全称与简称、外来语与中译名、标点符号的使用、同义词和上下位概念的处理等。词表管理应有专人负责。笔者对港澳研究主题词表的编制过程中,特别对同义词和英汉对照的处理进行大量工作,由于港澳方言特殊化,语词规范显得特别重要。
③词表结构的改进,词表中相当部分的主题词比较稳定,这部分词应作为第一层次(第一级)的词,不需经常调整,对于有一定规模的数据库,第一层次的词比较容易确定,应作为规范化词语,第二层次(第二级)的词是有可能调整的词,词表管理人员应及时对这一层次的词进行技术处理,例如与第一层次的词作同义词对应,或上下位属的显示等。
地方研究文献数据库的建设,词表(包括标引技术)、检索软件和索引是三个重要因素,其中文献主题的处理技术对文献检索影响尤为突出。许多技术问题尚待改进。
〔出处〕 一代宗师——纪念刘国钧先生百年诞辰学术论文集
下载文档
网友最新关注
- To Be A Happy Kid如何做个快乐的孩子
- 北京植物园
- 一张母亲节贺卡
- Relationships between teachers and students
- 你长大以后要做什么
- The Music Within(心灵深处的音乐)
- My Teacher
- 我爱我的故乡
- movies and Books
- A Model Student
- 第一次去麦当劳
- Don’t use plastic bags(不要使用塑料袋)
- My Little Dog
- 少壮不努力,老大徒伤悲
- Talking about Having Sports
- 新医院财务制度
- 突发公共卫生事件报告制度
- 公司销售管理制度
- 班级管理制度
- 员工加班管理制度
- 小学教学评价制度
- 理学会财务管理制度
- 医院接诊全流程管理制度
- 库房管理制度
- 酒店客房管理制度
- 医院院内感染管理制度
- 安全技术防范工程质量管理制度
- 公司消防安全管理制度
- 幼儿园安全管理情况月报告制度
- 学生会联部规章制度
- 计算机病毒与反病毒技术研究
- 略谈养老保险档案管理
- 办公室装修从细节注意开始
- 电梯安装工程基础知识
- 全终端计算机通信网络可靠性模型及算法研究
- 对商业养老年金发展动力探究
- 基于声卡的数据采集及波形发生器设计
- 螺旋钻灌注桩工程技术交底
- 社会保险优化管制举措
- 探索NTFS
- 钢结构设计、施工常见小问题
- 土建基本知识(基本要点归纳)
- 2011年市政施工员年终总结
- CATV光缆设计
- 土木工程专业实习报告
- 《把铁路修到拉萨去》随堂练习 巩固篇
- 《把铁路修到拉萨去》考点练兵 积累篇
- 《把铁路修到拉萨去》重点字词梳理
- 《把铁路修到拉萨去》 重点字词意思
- 《把铁路修到拉萨去》考点练兵 文章阅读
- 《把铁路修到拉萨去》同步作文之范文习作
- 《把铁路修到拉萨去》重难点分析
- 《把铁路修到拉萨去》整体阅读感知
- 《把铁路修到拉萨去》趣闻故事
- 《把铁路修到拉萨去》重点语句探究
- 《把铁路修到拉萨去》文学常识
- 《把铁路修到拉萨去》同步作文之训练素材
- 《冬阳·童年·骆驼队》老师语录
- 《把铁路修到拉萨去》美文欣赏
- 《把铁路修到拉萨去》同步作文之写作指导