会议文献开放资源采集与服务系统的元数据抽取.docVIP

下载本文档

3
0
约 5页
2015-08-11 发布于河南
举报
版权申诉

会议文献开放资源采集与服务系统的元数据抽取.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

会议文献开放资源采集与服务系统的元数据抽取.doc

会议文献开放资源采集与服务系统的元数据抽取 Metadata Extraction for the Acquisition and Service System of Open Conference Literatures 摘要：在会议文献开放资源采集与服务系统中实现了自动抽取+人工校对的元数据抽取流程，并设计了一个自动抽取器。针对会议文献开放资源本身的特点，该自动抽取器集成了多个基础抽取模板，并易于构建针对某个会议文献集的处理模板，能实现对多种格式的文献进行自动抽取，具有较高的准确度。关键词：开放获取；会议文献；元数据抽取 Abstract: We realize a metadata extraction workflow of automatical extraction and manual proofreading in the acquisition and service system of open conference literatures and design an automatic extractor. In terms of features of open conference literatures, the automatic extractor integrates with a number of basic extraction templates, and is easy to build a process template for literatures of a certain conference, it also can automatically extract literatures that have a variety of formats with high accuracy. Keywords: open access; conference literature; metadata extraction 1 概述随着网络的迅速发展、学术交流模式的改变，网络上出现了大量可供用户免费使用的网络会议开放资源，例如：开放期刊、机构仓储、会议录、科技报告、科学新闻、学术博客和研究社区等。会议文献开放资源采集与服务系统（以下简称采集服务系统）则实现了对会议文献开放资源的采集、标引、组织、保存和服务[1]。目前采集服务系统已经采集了2000多个会议的开放会议论文。每个会议都有数量不等、文档格式和排版格式都不尽相同的会议论文需要进行元数据抽取，所涉及的文档格式包括PDF、PPT、DOC、PS和HTML等，其中绝大多数为PDF格式的会议论文。目前国内外在如何快速、准确地从不同格式的文献中抽取元数据进行了大量的研究。文献[2]利用正则表达式规则对论文数据信息进行自动抽取，文献[3]描述了通过构造半结构化信息抽取器从HTML页面中提取信息的方法，文献[4]利用机器学习模型从Office类型文档中自动抽取元数据信息。在PDF文献抽取方面。文献[5]通过样本学习生成抽取规则，利用抽取规则从PDF文档集中抽取出有用数据，文献[6]采用基于规则的匹配方法和基于格式的定位方法抽取PDF科技论文中的元数据信息。本文将首先介绍采集服务系统中的元数据抽取流程，然后描述元数据自动抽取器的设计与实现。 2 采集服务系统的元数据抽取 2.1 介绍在采集服务系统中，各类开放资源首先需要进行采集、分析和审核等处理操作，然后才能够被提交到用户平台。其中，资源采集具体实现了对包括用户推荐资源在内的各类开放资源的抓取和存储，资源分析则实现了对已采集资源的元数据抽取和标引，资源审核是对已分析资源是否满足资源审核质量控制体系要求进行判断。采集服务系统中的用户平台则对通过上述处理的开放资源进行集成和发布。采集服务器系统中的开放资源处理流程见图1。图1 采集服务系统中的开放资源处理流程 2.2 元数据抽取流程采集服务系统的元数据抽取基本要求是：从开放文献资源中抽取出能够描述资源本身的信息，例如标题、作者（包括姓名、机构、地址和email）、关键词、摘要、资助情况等信息。由于采集服务系统中的开放文献资源来源较广，要实现所有资源的准确自动抽取难度较大，而系统又需要得到质量较高的元数据。因此在采集服务系统中，采用了自动抽取+人工校对的元数据抽取流程，详细的处理流程为： 1）系统将采集到的某个会议不同格式的资源结果集保存到本地存储设备上。 2）资源建设人员对结果集中的资源进行清洗，主要操作是对整本的文献集进行自动拆分，更改某些资源的名称或者删除不需要的资源。 3）选择PDF抽取模板，通过自动抽取器，分别对PDF和DOC格式的文献进行自动抽取。 4）系统找出对可能会出错的抽取结果，并提示资源建设人员对这些资源进行人