- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 4期 闽 霄等:文献汁量数据准备之数据采集与清洗——以中国水产科学研究院巾文期刊论文分析为例 37
院 (以下简称 中国水科院)9个研究所和院部共计 10 年数据为例 ,基于文献检索和科研管理统计获得的数
个单位的中文期刊论文 ,围绕数据采集和数据清洗两 据量如表 1,可见实际数据量大于每个单独统计来源的
个关键问题 ,进行数据准备]作研究,其 中,数据采 数据量。
集指通过数据库检索和科研管理统计两个渠道 ,采集
表 1 2007年黄海水产研究所论文量
基础数据。数据清洗包括数据的合并去重 ,作者、关
键词 、机构 、被引数量 、发文时间等字段的规范化 。
希望为国内外同行进行文献计量分析提供思路和方法
的借鉴。
2 数据清洗
1 数据采集 数据清洗的原理是根据 回溯思想 ,通过分析 “脏
数据采集是指选择与文献计量分析指标配套数据 数据”产生的原因和存在形式 ,利用现有的技术手段
的过程。正确 、完整、可靠的数据是计量工作的前提。 和方法检测 “脏数据”,制定数据清洗的方法、规则和
GIGO理论指出, “无论系统的能力有多强 ,如果输入 策略并加以实施,将 “脏数据”转化为 “干净数据”。实践
数据是错误的.输 出结果必然也是错误 的嘲。”基于文 中,多将来 自不同数据源的数据转换成统一的格式 ,
献计量法开展科研评价 ,评价层级越低对数据的全面 补充遗漏记录 ,去除错误或重复记录,提高数据质量
性要求越高 ,数据量越少对统计结果 的影响越大 。 以满足分析的需求。实践表明,数据清洗约占文献计
Mood认为在团体评价层面.99%的数据量是必需的[司。 量工作量的80%~90%问。数据清洗方式以人工和计算
为进行机构科研评价 ,对采集数据的全面性要求更高。 机辅助人工为主,人工清洗结果精确得当但工作量大 、
数据采集主要有 4种方法 :一是从数据商处直接 效率低 ,目前通行的办法是计算机辅助人工处理阴。近
获取后台数据:二是通过程序构造URL识别HTML标 年来市场上已有数据清洗软件商品和专门的ETL工具 ,
签 自动下载:三是通过文献检索 ;四是科研管理统计 但这些软件多适用于特定数据库的文献格式、对 中文
数据 。前两种方法适合快速的获取大量数据 ,它们或 文本的支持性较差且有些还需支付高额的使用费。笔
需要与数据库商进行协商 。或依赖较高的编程能力 。 者借鉴前人研究的基础 ,结合实际工作,提出一些 自
文献检索方法最简便也应用最广,但 由于机构名称不 己的做法。
规范或检索策略不合理 .容易带来漏检或误检 。科研 2.1数据去重
管理统计数据则多缺乏可供计量分析的字段 。因此 , 将来源为 “中国知网”和 “维普资讯”的数据进
将文献检索与科研管理统计两类数据作为基础数据可 行合并 ,首先去除二者共 同收录的文献。由于不同数
以最大程度地保证数据的全面性和客观性。 据库数据格式不统一 ,不能通过相同题名的字符完全
由于各数据库收录期刊的范围存在差异 ,对单一 匹配进行数据查重,如 :同一篇论文 ,在不同数据库
数据库检索容易导致数据不全面。因此 ,选取 中国知 中收录时存在如下问题 :标点符号 (括号、引号、破
网 “中国学术期刊的网络出版总库”和维普资讯 “中 折号等)全半角不统一且无规则 ;专有英文名称等大
文科技期刊数据库”同时作为数据来源库 。检索策略 小写字母不统一:题 目中混入空格等无意义字符:系
为:机构 = “中国水产科学研究院or黄海水产研究所 列文章的序号将阿拉伯数字与大写数字混用 :生僻字
or东海水产研究所 or南海水产研究所
文档评论(0)