网络专题知识组织知识元自动抽取系统的设计与实现.docxVIP

网络专题知识组织知识元自动抽取系统的设计与实现.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
应用实践网络专题知识组织知识元自动抽取系统的设计与实现谈春梅 颜世伟(南京邮电大学图书馆 南京210003)刘子牧(多伦多大学计算机系 多伦多M5SI3)【摘要】采用Viualsudi.NET开发平台,使用C#程序设计语言以及XML知识描述和数据存储,对网络专题知识组织和知识元自动抽取系统进行开发设计。对该系统的文本信息预处理、快速汉字结合自增长分词、词频全文精确统计等重要功能的设计与实现进行了深入研究。【关键词】知识标引 知识元自动抽取 文本信息处理 自增长分词 快速算法【分类号】G250.74DesgnandRealzatonofKnowldgeElmentAutmatcExtactonSysemofNetorkSpecilSubjctKnowldgeOrganiatonTanChunmeiYanShiei(LirrofNanjngUnieriyofPossandTelcommuniatonsNanjng210003,Chia)LiZiu(ComputrDeparmentUnieriyofTornt,TorntM5SI3,Canada)【AbsractWihviualsudi.NETdevelpmentpltor,C#prgrmdesgnlnguageXMLknowldgedesrptonanddatsorgeknowldgeelmentautmatcextactonssemofnetorsecilsbjctknowldgeoraniatonhasbeendesgnedanddevelped.ThedesgnanddevelpmentofmaifnctonsschastxtifratonprteatentfsslicrasngworsgmenttonofconnectonpatersofChiescharctr,accurtsatsisoffltxtofworfequencyetoftessemhavebeenrsarhed.【KeywordsKnowldgeidex Knowldgeelmentautmatcextacton Textifratonprcesig Selicrasngworsgmentton Fasalortm  当前,世界范围内的知识经济热潮的兴起进一步加强了图书馆对于网络知识组织研究的关注。笔者借助于图书馆计算机网络平台,进行网络专题知识组织系统的开发设计。  网络专题知识组织由异构网络专题信息资源检索与筛选系统(网络专题信息资源是指以通信与信息处理技术和计算机应用技术为重点学科,选择权威性强、质量高的网络数据库期刊论文、引文、会议论文、以及互联网在  收稿日期:2007-10-08  收修改稿日期:2007-12-18  本文系江苏省哲学社会科学基金项目“面向创新的网络专题知识组织与个性化服务范式及其理论研究”(项目编号:07XWC011)的研究成果之一。 2 现代图书情报技术Astoiiieoiritwaeezi wbay,ivsttiinumet,vstooAt,】tstooafmoaiaeciita,eoiriytwkpaueeziioiouiuenomierm,atefneideaiinnesetitcuedrhytec】eneoirinominfneideaitgih6总第162期 2008年 第3期线科技论文和电子论坛等)、异种网页元数据XML采集与编目系统、网络专题知识标引系统、网络专题知识库智能化构建系统、网络专题知识库管理维护与数据存储系统、网络专题知识库应用系统等6大功能模块组成。其中网络专题知识标引系统包括知识元自动抽取、知识点挖掘即知识元自动链接两个子系统。本文着重介绍该子系统的主要功能模块和主要开发技术及其重要功能的设计与实现。1 系统主要功能模块和主要开发技术  知识元自动抽取子系统是网络专题知识标引系统的重要组成部分。系统的主要功能是将检索和筛选后的网络文本信息自动、快速、准确地抽取出知识标引词,即知识元。系统功能结构模型如图1所示。首先需要把检索和筛选后的网络文本信息包括PDF、HTML、Wor等转换成纯文本信息。然后将转换后的纯文本信息采用有哪些信誉好的足球投注网站删除法进行预处理,即建立符号列表文档punctaton.tt在此文档中存放标点符号、运算符号以及其他特殊符号等,在纯文本信息中有哪些信誉好的足球投注网站与符号列表中相对应的符号,用空格代替,经过预处理后的文本信息成为只含有空格的字符集。对字符集进行快速汉字结合自增长分词,将分词词条添加到词典列表中。经过后续处理,包括过滤、统计加权计算等操作,从而完成知识元的自动提取。图1 系统功能结构模型  根据系统功能要求,将系统分成网络专题文本信息预处理、快速汉字结合自增长分词、词频全文精确统计和加权处理等模块分别进行应用程序的设计。这些功能模块已能基

文档评论(0)

smdh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档