基于《中国分类主题词表》的WWW科技信息资源自动标引设计方案.pdfVIP

基于《中国分类主题词表》的WWW科技信息资源自动标引设计方案.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于《中国分类主题词表》的www科技信息资源 自动标引设计方案 肖 明(北京师范大学信息技术与管理学系) 一、引 言 Internet已经成为当今世界上最大的信息资源库,并且成了全球最主要的信息传播渠道, 其中以WwW的发展最为迅速。同时,Imernet又是开放型的全球性分布式网络,其资源分布 非常分散,网上信息资源也没有统一的管理和结构,这样就给网上信息资源有哪些信誉好的足球投注网站带来极大不 便。目前,大多数Internet用户在面对爆炸性增长趋势的网上信息资源时普遍感到不知所措。 因此,如何行之有效地对Internet上的各类信息资源进行合理的组织和标引(即对其进行分 类、主题、摘要等处理),已经成为世界范围内正在关注和亟待解决的热点问题之一。 本文主要探讨如何利用《中国分类主题词表》对Internet上现有的www科技信息资源 进行有效的自动分类和主题标引,并将自动标引结果保存到数据库中,以方便用户按分类或者 主题途径对这些信息资源进行快速查询,或者在Internet上按分类或者主题途径进行发布,从 而有效地提高网上信息资源的利用率和共享程度。 本文提出的www科技信息资源(主要是网页,阻下简称为网页)自动标引方案(包括自 动分类和自动主题标引)的总体设计思想概述如下:以《中图法》中的类名、《中国分类主题词 表》和《汉语主题词表》中的主题词作为主干词汇,辅以相关工具书及专科语料库中的语词作为 补充词汇,建立类目短语主题词库和切分词典库;同时采用适量的非用词.建立停用词词库:以 网页的全文信息作为自动标引的信息获取对象。 自动标引的主要步骤包括:首先,对网页格式进行自动检测与转换,包括将BIG5码格式 转换成GB码格式.将HTML等文件格式转换成TXT纯文本格式;然后,利用计算机对文献 进行主题分析,先输入能够表征文献主题内容的信息,再通过采用。正向扫描,一宇先行,半字 推进”的分词方式以及最长匹配自动分词算法,从输人的信息内容中自动抽取能够反映文献主 题信息特征的关键词。接着,采取某种自动分类算法,将已经抽取的能够表征文献主题的各种 关键词进行组配并且归人到《中图法》的适当类目当中,同时给出相应的主题词和关键词。最 后,将自动标引结果保存到标引结果数据库中。 我们设计的www科技信息资源自动标引系统共包括5个子系统:①格式自动转换于系 统;②自动分词子系统;③自动标引子系统;④人工审核子系统;⑤数据库维护子系统。系统的 组成框图如下页图l所示。 下面,我们就从网页格式的自动检测与转换、数据库的创建与维护、关键词的自动抽取、自 动标引等四个方面对WWW科技信息资源自动标引系统进行具体分析和探讨。 104 数据库维护子系统 图1 www科技信息资潭自动标目j系统的组成示意图 二、网页格式的自动检测与转换 1.撅述 的信息资源进行自动标引,首先需要考虑的事’隋就是要设法将不同格式文件转换成适于自动 标引的纯文本格式。尽管菝们能够从因特网上下载各种工具软件用来进行格式转抉.但本文 主要探讨的是如何通过编程实现网页格式的自动转换。 对于wWW中文网页来说,还需要考虑中文内码的转换问题,香港和台湾建立的一些中 文站点(包括中国太陆的部分中文站点)的www阿页是BIG5码格式的,而对于广大的中国 大陆用户来说,最便于读取的则是GB码格式的各类文件。为了解决中国大陆和港台地区之 间因汉字编码、字符集的不同而造成的信息交流障碍、海内外不少热心人士已经研制并提供了 若干简单易用的汉字编码转换工具,可用于BIG5码与GB码之间的格式转换,使用也很简便。 不过,为了更好地实现自动标引,本文将讨论如何通过编程实现BIG5码与GB码的自动检测 与转换问题。 2.主要设计思想 (1)BIG5码的自动检测与转换 编程实现BIG5码的自动检测与转换的主要设计思想是:在打开某个网页时,先利用特定 函数对网页中全部字符的ASCII码进行分析和统计。如果按照某种算法确认打开的网页是 BIG5码格式,则调用BIG5码与CB码自动转换的控件,将网页格式自动转换成GB码格式。 (2)将HTML格式自动转换成TXT格式

文档评论(0)

花千骨 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档