- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《申报》全文数据库的自动标引-信息系统工程
《申报》全文数据库的自动标引 马金林 (北方民族大学图书馆 宁夏银川 750021 ) [摘要] 本文介绍了《申报》标引的要求,分析了《申报》标引的特点,并探讨了实现《申 报》自动标引系统的基本策略。 [关键词] 申报 标引 索引 《申报》全文数据库的建设对开发和利用《申报》资源具有十分重要的意义。如何利用 自动标引来更好地提高其全文数字化的质量,是我们必须解决的问题。 1 《申报》标引概述 综合全文检索与索引的特点,参考目前使用最多的两个报纸数据库世界各国报纸全文库 (Access World News )和中国重要报纸全文数据库(Chinese Core Newspaper Database )的 功能设置、索引编排、检索功能,制定了《申报》全文数字化的索引编制原则[1] 。 基于该原则,需要根据数据库中存储文章的不同设置不同的索引项。索引项目分为两类: 一类是关于报纸版面相关的信息,这类信息很容易获得,在建库的时候就可以完成,如报纸 日期、刊号、版次、版名、专题名等。另一类是文章的内容信息,这类信息需要进行提取与 加工,内容信息是标引的主要工作,也是本文主要探讨的内容。 自动标引为机标项,主要标引索引项中的内容特征项,如主题、分类、事件、人名、地 名、机构、战役等重要项目,在建库完成后由专用程序对全文进行处理后进行标引而生成。 其他索引项目均为非机标项,主要标引索引项中的外部特征,如标题、报纸日期、版面、作 者、专题名、体裁、头条标识、头版标识、图表标识、广告标识等项目,在建库时完成。 2 《申报》标引的特点 由于《申报》出版年代较早,与现有的图书、期刊、报纸有很大的区别,故而在实际标 引过程中就会遇到很多问题。 繁简转换:由于《申报》为民国时期的报纸,其全文多为繁体字,是否对其进行繁简转 换是一个不好解决的问题。有些研究者需要繁体的原文,以尊重原著,而有些研究者需要简 体的原文,以方便阅读,这一问题在阅读原文时还好解决,但在标引时会给标引带来很大麻 烦。故而需要权衡之后确定是否进行繁简转换。 文言文与白话文:《申报》多采用文言文写作,其出版的《民报》两日刊是中国最早的 白话文报纸。现有的切词和分词工具都是基于当前的普通话的,对于民国时期的语言的切词 和分词工具根本没有,需要根据当时语言的特点设计专用的工具。 词典设置:由于《申报》是1872 年到1949 年的报纸,距今已有百年历史,当时的很多 词汇目前已经不再使用,很多事件、机构、人物等都已成为历史,目前找不出一个适合的字 典来匹配。再者,由于其文章短小精干、言简意赅,按照目前常用的基于词频提取关键词的 方法不可行。故而需要事先确定词典,这一过程将会成为整个标引的瓶颈。 3 自动标引系统 3.1 抽词词表的建立 主题词表选用《中国分类主题词表》作为主题词和分类项的主要标引词表,该词表以分 类标引为依据的分类法和以主题标引为依据的主题法融为一体,并使双方原有的局限性得到 互补。 事件、机构、人物、地名等需要专门建表。由于《申报》所刊载的文章涉及的都是较早 年代,其事件、人物、机构、地名现在已经很少使用,也没有现成的工具记录这些,故而需 要根据《申报》建立这些词表,以供自动标引时使用。这一工作的工作量非常巨大,需要事 先从整本《申报》中进行提取。 3.2 抽词方法的选择 综合目前应用的主要抽词方法和《申报》全文的特点[2],采用统计分析法作为系统的抽 词方法。统计分析法自动标引实质是词典分词、词频统计、位置加权三者结合选定标引词的 方法,是目前应用最多的标引方法。词频统计法以词汇在文献中出现的频次来确定其对于文 献主题的贡献大小,通过预先设定的阈值筛去出现频率较低的词,将频率较高的词作为标引 词。由于《申报》文章只存在标题和全文,不像论文类文献,故而无需调整加权值来处理不 同标引项,只需要设置好标题和全文的固定权值即可,较其他应用来说,这一方面简单许多。 3.3 标引过程 在建立好词表后,即可开始标引过程。 首先,读入文章全文,进行字符内码的检测与转换等预处理工作。 其次,将文章进行切分,把语句切分成由词组成的集合,删除无意义的连词、介词、助 词、感叹词和部分动词等。 随后,根据文本词语切分结果,以词语在文本中出现的频次、位置及词的词性等因素为 依据,确定可表达文档中心内容的词作为该文档的
您可能关注的文档
最近下载
- pep人教版四年级英语上册专项训练补全对话.docx VIP
- 2025至2030生物制药发酵罐行业细分市场及应用领域与趋势展望研究报告.docx VIP
- 建筑管理职业生涯人物访谈报告.pdf VIP
- 2025-2026年国家和地方BIM政策导向出台汇总.docx VIP
- 国家电网有限公司营销现场作业安全工作规程(试行).docx VIP
- 实 践 设计一个研学旅行方案课件 2025-2026学年度沪科版物理八年级上册.pptx VIP
- 中日汉字简繁新旧体对照表v1 5发布版.pdf VIP
- 阿思丹ASDAN(china)袋鼠数学竞赛2022年试题(中文版本).docx VIP
- 2024秋新沪科版物理八年级上册课件 第二章 声的世界 实践 举办“创意与炫酷”音乐会 .pptx VIP
- 武将合集军政mod组合基础推荐版以及问题答疑V2.9.docx VIP
有哪些信誉好的足球投注网站
文档评论(0)