人文社科领域科学数据使用特征分析

上传者：网友
|

翻新时间：2022-10-09

收藏到账号

全屏

人文社科领域科学数据使用特征分析

摘要对《中国社会科学》期刊的论文进行内容分析，探讨我国部分人文社会科学学科在科学数据使用上的特征。重点分析研究者获取实证数据的主要来源，所要分析的数据类型，处理数据的常用方法和工具，以及数据分析完成后的表现形式，并分析一些空泛概念的名词在人文社科论文中的使用情况。根据数据分析的结果，为图书馆提供科学数据服务给出建议。

关键词人文社会科学科学数据使用特征

1 引言

在大数据时代，以科学数据为主要学术资源的数据密集型科学正改变着当前的科学研究模式。人文社会科学领域的研究者已经开始关注科学数据的作用和价值，定量研究也越来越得到重视。在一些数据科学的国际会议上，人文社科的数据管理也成为研究者讨论的重点之一。

各种翔实、可靠的数据为以各种社会对象为研究主体的人文社会科学研究提供支撑，推动了社会调查方法、计量学方法、可视化方法等研究方法的应用和发展。中国管理科学与工程学会理事长李京文院士在2013年管理科学与工程学会年会暨第十一届中国管理科学与工程论坛上指出，必须不断研究大数据的形态变化规律，利用大数据来研究、认识和预测客观世界及人类自身的发展变化趋势。同时，科学数据也影响着传统人文社会科学研究方法的转型与创新。复杂的经济统计模型、大规模的社会调查、丰富的科研数据处理和分析工具等，都为人文社会科学研究的创新提供了条件。科学数据的使用使得人文社会科学的“科学性”显著增强。

虽然科学数据推动了人文社会科学的新发展，但是也有学者认为科学数据并未与人文科学结合起来，比如一些学者在从事人文研究时，常使用“绝大多数”等空泛概念的名词。在数据密集型研究模式的背景下，人文社科领域的研究者对科学数据的使用习惯是怎样的呢？哪些人文社科学科的研究者更擅长利用数据？他们获取数据的来源、处理数据的类型和方法以及数据表现形式如何？研究者是不是由于缺乏对科学数据的使用而增加了“绝大多数”等空泛概念名词的使用呢？

本文围绕以上问题，对《中国社会科学》期刊的全文论文进行内容分析，探讨我国部分人文社会科学学科在科学数据使用上的特征。重点分析研究者获取实证数据的主要来源，所要分析的数据类型，处理数据的常用方法，以及数据分析完成后的表现形式。另外，针对学者提出“绝大多数”等空泛概念的名词在人文社科学科中使用的问题，本文将分析研究者在这些名词使用等方面的习惯。最后，根据人文社科研究者在科学数据使用上的特点，为图书馆提供科学数据服务给出建议。

2研究方法

本文采用文献调查法采集论文资料，用内容分析方法统计论文中所用到的数据、中文数词，分析其中的问题。人文社科数据主要指调查数据、网络公开数据、政府统计数据和指标等，本文研究的数据对象除以上这些外，还包括实验数据、文献数据和图片数据。文中讨论的实证研究数据是指狭义实证研究所需要分析的数据。狭义实证研究是指仅依靠统计分析法的研究。另外，本文把“绝大多数”、“差不多”、“若干”、“大量”、“无数”、“少量”等词语定义为模糊数词。

3数据分析

3.1 总体概况

3.2 实证数据情况分析

本节主要对社会学、管理学、法学、经济学、语言学和历史学这六个有实证数据的学科进行分析，分别调查其使用数据的类型、来源、处理方法及其表现形式。这里，语言学和历史学的实证数据由于是小样本（样本数小于5），因而需辩证看待这两个学科的数据。

（1）数据类型

从使用数据的类型上看，这六个学科使用的数据基本上是数值型数据，经济学还使用了部分图片数据（表1）。

（2）数据来源

本文根据数据来源把实证数据分为一手数据和二手数据，其中一手数据是指研究者通过访谈、直接观察、间接观察等方式首次亲自收集并经过加工处理的数据，二手数据是指来源于他人调查和科学实验的数据。本文中，把一手数据分为调查数据、实验数据和文献资料数据；二手数据分为政府公开数据（如全国普查数据、各类统计年鉴）和数据管理机构（如中国社会科学调查中心ISSS等）的数据。

（3）处理方法

本文把数据处理方法分为初级方法、中级方法和高级方法。初级方法是指平均数、频数、方差、标准差等描述性统计方法；中级方法是指回归分析、参数估计、假设检验、相关分析等统计方法；高级方法则是指模型计算等高等数学方法。

从数据处理方法上看，这六个学科的大部分论文都使用了描述性统计方法之类的初级方法，社会学比较注重对回归分析、相关分析、假设检验等中级方法的运用，而经济学则更擅长运用高等数学方法（图3）。

（4）表现形式

本文把数据的表现形式分为统计表、统计图和特定软件绘制的图形这三类。

从数据的表现形式来看，比较常用的是统计表形式，折线图、柱状图和散点图之类的统计图在管理学、社会学和法学中的应用也比较广泛。除此之外，经济学和语言学还有一些利用特定软件绘制的图形（图4）。

3.3模糊数词使用情况分析

本节分析部分人文社科的论文使用“绝大多数”、“差不多”、“若干”、“大量”、“无数”、“少量”、“很多”和“很少”这八个模糊数词的习惯，以及这些模糊数词在部分人文社科学科论文中的使用情况。

首先统计以上这八个模糊数词在一些人文社科学科论文中使用的比例（图5）。笔者发现社会学、经济学和文学这三个学科使用到以上八个模糊数词的论文比例最高。相对来说，哲学的论文中出现这八个模糊数词的比例稍微小些。

随后统计这八个模糊数词的总使用次数及其篇均使用次数（图7）。笔者发现，“大量”这个词在论文中的总使用次数最多，而且篇均使用次数也最高（达3.14），这说明人文社科的研究者普遍喜欢使用这个词，使用范围也比较广。其次是“很多”这个词，研究者也比较喜欢使用。而“若干”这个词，虽然总使用次数不算很大，但其篇均使用次数却很高，这说明该词的使用范围比较集中。同样的现象也发生在“绝大多数”这个词上。最后讨论一下“差不多”这个词。虽然，胡适先生提出中国人是“差不多先生”，凡事马马虎虎，不求精确，但是这个词在人文社科领域的学术论文中却很少使用，其总使用次数和篇均使用次数都是这八个词中最低的。

这八个模糊数词在部分人社科论文中使用分布情况见表3。表3中“一”表示该词未在该学科中使用，“√”表示该词在该学科中有使用，“★”表示该词不但在该学科中使用，而且其使用的频率更高，即每一列的三个“★”分别代表使用该词的论文比例最高的前三个学科。从表3可以看出，管理学的论文对模糊数词的使用频率较高，有“差不多”、“若干”、“大量”等六个数词在其学科论文中高频率使用，其次是社会学。相比之下，哲学和语言学的论文对模糊数词的使用频率相对低一点。

4结果讨论

本节依据以上数据分析我国部分人文社会科学学科的学者在科学数据使用上的特点，为图书馆今后开展科学数据服务给出针对性的建议。

4.1人文社科学科对数据的使用主要由研究对象决定

相比之下，马克思主义、哲学和文学这些学科是依靠思维逻辑的研究学科，主要是对传统文献资料的探讨，很少讨论实证或经验现象，因而对实证数据的使用就不是很多，偶尔会引用一些数据，数据来源也只是依靠文献。这些学科的研究方法仍较为传统，主要以文献为主，对数据使用的需求不是很迫切。

科学数据服务作为图书馆的一项创新服务，首先应该明确服务的对象。诸如以上这些人文社科学科，如果图书馆对其全面铺开科学数据服务，那可能效果就并不是很理想，但如果图书馆首先对社会学和经济学的研究者提供科学数据服务，为他们提供数据获取、处理、共享方面的服务，则可能会取得事半功倍的效果。因而，笔者建议，针对人文社科的科学数据管理服务，首先可以把社会学和经济学的研究者作为主要服务对象，把政治学的研究者作为潜在服务对象，在服务得到一定认可后，逐步向其他学科展开。对于主要服务对象，图书馆可以提供常规的检索、收集、存储、分析等数据情报服务和数据技术服务；而对于潜在服务对象，则可先向研究者提供科学数据在该学科中创新应用的情报信息，待研究者对科学数据服务需求提高后，再提供常规数据服务。

4.2人文社科学科对实证数据的处理以初级方法为主

在人文社科类论文的实证研究中，为了让读者了解数据和研究对象的特征，进而更好地了解统计分析结果，研究者根据不同的研究目的和研究对象会选取不同的数据处理方法。人文社科的研究者对数据处理采用的方法以描述性统计等初级方法为主，初级方法在法学、社会学、管理学等学科的实证数据研究中占了较大比例（图3）。相对而言，一些实证研究比较多的学科在数据处理方法上则更为多样。比如社会学和经济学，这两个学科的研究者除了掌握描述性统计等初级方法外，对回归分析、参数估计、假设检验、相关分析等一些中级方法也运用自如，而经济学的研究者使用高等数学方法进行模型计算的能力更为突出，数据的表现形式也多种多样，除了常用的统计图表外，还有由各种特定软件绘制的图形，这些都显示出他们优异的数据素养。

人文社科研究者在数据处理方法上的使用，一方面由论文的研究目的和对象决定，另一方面也由研究者的数据素养决定。对于前者，可能超出了图书馆的服务范围，但要改善研究者的数据素养，图书馆还是可以有所作为的。笔者建议图书馆为研究者提供有针对性的数据处理方面的开放课程等信息，帮助研究者掌握更多关于数据处理的知识。除此之外，也可为研究者提供本学科在数据应用上创新研究的情报信息，让他们了解本学科最新的数据处理技术，并提供相应的数据分析工具，促进定量研究的深入。同时，图书馆也可以与数学、统计学等院系合作，为研究者提供数据处理方面的专业讲座，一方面增强对研究者数据素养的教育，另一方面也可为研究者跨学科合作提供平台。

4.3模糊数词的使用与研究对象和传统文化有关

模糊数词的使用在人文社科领域比较常见，并且各学科在使用上并没有体现出明显的差异。诸如在社会学和经济学这些数据使用比较广泛的学科里，研究者并没有因为使用了数据而减少对模糊数词的使用，反而模糊数词在这两个学科中的使用要比其他学科更多（图5），而且各年模糊数词的篇均使用次数也较稳定，没有很大波动（图6）。因而，模糊数词的使用并不能说明科学数据没有与人文科学的发展结合起来，这主要还是与研究者的研究对象和受传统文化影响下的用语习惯有关。

比如“大量”这个词，该词使用总量和篇均使用量在这八个模糊数词中都是最高的，说明人文社科的研究者普遍习惯使用该词。然而进一步分析显示，该词在经济学中的使用频率最高。一方面，经济学论文中存在的各种数量关系需要用“大量”这个词来表述，另一方面，由于这个词所代表的数量本身较难考证，再加上力求精确的数据精神缺乏和大概而言的用词习惯，使得研究者摒弃了数据化表达而使用了这些模糊概念的词语。

模糊数词在人文社科领域的使用还是比较广泛的，这与其研究对象有一定联系，有些数量关系难以考证，无法精确量化。除此之外，研究者在传统文化影响下的用词习惯也是模糊数词使用广泛的重要因素之一。笔者建议图书馆在为人文社科学者提供科学数据服务时，要考虑到不同学科研究对象的影响，既要提倡数据文化，又要遵循人文精神。平时要注重收集有学术价值的科学数据，并为研究者提供方便查询的数据平台。与此同时，也可以根据研究者的需求，帮助他们收集和统计相关研究所需要的特定数据，以尽量减少模糊数词的使用。但作为科学数据服务的提供方，图书馆也应尊重原有的人文社科研究方法，使科学数据作为一种补充材料，与现有的人文社科研究结合，相得益彰。

5 结语

随着大数据时代的到来，大数据分析方法为人文社会科学研究提供了新的研究空间和研究可能。人文社会科学领域也会有越来越多的研究者使用科学数据，同时也引起更多图书馆员关注并研究人文社会科学领域的科学数据管理问题。高校图书馆应抓住这一契机，根据研究者不同的数据需求和使用特征，为他们提供更多、更有效的科学数据服务。

当然，本文的研究也有一定的局限性。由于《中国社会科学》是一份综合性期刊，一些跨学科论文给学科分类带来了一些困难，不可避免地存在一定偏失。另外，虽然综合性期刊为研究的广度提供了有利条件，但同时也给研究的深度带来困难，无法更详细、深入地探讨。因而，笔者后续将会对某一学科进行深入研究，以更好揭示其数据使用特征。