- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
INTERNET网上信息分类、标引及检索
WEB全文信息检索技术 李灿 (华南理工大学图书馆 510641) 摘要:本文探索了在INTERNET网上实现全文检索的技术。计论了从网上信息的标引、分类等预处理到组织信息检索的过程,并就智能检索技术的发展进行了阐述。 关键词:信息检索 因特网 全文检索 前言 Internet网是目前全球最大的、最有影响力的信息网络,它将政府、学校、图书馆、商务场所、研究机构和其它组织中的局域网(LAN)集成为一个单一的、庞大的、跨越全球的通讯网络。越来越多的人们利用这一网络与世界各地的人进行交流。如何利用Internet网获取有价值的信息,已成为科研人员必备的一项基本技能。 因特网是一个开放型的巨大的信息资源库,拥有上千万台以上的主机和过亿的用户;并且由于因特网信息蕴含的无限丰富,信息组织、表达的直观、生动以及信息服务的方便性和多样性,愈来愈多的信息有哪些信誉好的足球投注网站者被其独特的魅力所吸引。而在近几年,因特网用户的数量更是成倍地增长。可见,因特网检索已成为实际上最普及、最受关注、最常涉及的信息检索领域。 概述 网上的信息具有数量大、形式多、内容广、专业性不强等特点,给情报搜集、分类、检索等工作带来了新的问题和挑战。如何充分利用因特网上的信息资源正成为情报科学研究者所关注的热点。全文信息检索就是概据Internet信息的特点而发展起来的一种检索方式。它主要指研究对整个文档信息的表示,存储、组织和访问,即根据用户的查询要求,从信息数据库中检索出相关信息资料。 全文检索的中心环节是文件内容表达、信息查询的获得以及相关信息的匹配。一个好的全文信息检索系统不仅要求将输出信息进行相关性排列,还应该能够根据用户的意图、兴趣和特点自适应和智能化地调整匹配机制,获得用户满意的检索输出。 要实现全文检索,首先必须对WEB信息进行预处理。 WEB信息的预处理 信息预处理的主要功能是过滤文件系统信息,为文件系统的表达提供一种满意的索引输出。其基本目的是为了获取最优的索引记录,使用户能很容易地检索到所需信息。 (1)格式过滤:信息预处理应该能够过滤不同格式的文档,以及图片、声音、视频等信息。这使得有哪些信誉好的足球投注网站引擎不仅能够检索文字,而且能够检索原始格式文件的所有信息。 (2)语词切分:语词是信息表达的最小单位,而汉语不同于西方语言,其句子的语词间没有分隔符因此需要进行语词切分。常用的语词切分方法有按词典进行最大词组匹配、逆向最大词组匹配、最佳匹配法,联想-回溯法、全自动词典切词等。近年来,又出现了基于神经元网络的和专家系统的分词方法和基于统计和频度分析的分词方法。 (3)词法分析:汉语语词切分中存在切分歧异,如句子“网球拍卖完了”,可以切分为“网球/拍卖完了”,也可以切分为“网球拍/卖完了”。因此需要利用各种上下文知识解决语词切分歧异。此外,还需要对语词进行词法分析,识别出各个语词的词干,以便根据词干建立信息索引。对于英语语词,建立索引之前首先要去除一些停顿词(如常见的功能词“a”,“the”,“it”等)和词根(如“ing”,“ed”,“ly”等)。 (4)词性标注和短语识别:在切分的基础上,利用基于规则和统计的方法进行词性标注。在此基础上,还要利用各种语法规则,识别出重要的短语结构。 (5)自动标引:从网页文档中提取出一组能最大程度上概括其内容特征、可作为用户检索入口的关键性信息,用该组信息对文文件进行标引,使用户可以通过输入关键信息检索到该文文件的简要信息,如标题、摘要、时间、作者和URL等,进一步点击可查询到该文档. (6)自动分类:建立并维护一套完整的分类目录体系,根据文文件的信息特征,计算出与其相关程度最大的一个或多个分类,将文档划归到这些分类中去,使用户可以通过浏览分类体系直接查询到该文档. . 四、检索 检索包括文件信息表达和查询信息表达以及相关信息预测过程。 (1)信息表达:信息的表达有多种方式,如布尔表达、矢量空间表达、自然语言表达等,每种表达方式由应用系统服务者提出并由整个应用系统的目的和需求所决定,并对应于相应的存储模式和检索算法,信息查询和组织的效率,也就是速度和存储的空间在很大程度上决定了检索服务系统的性能。 (2)查询分析:用户端的查询信息首先要进行分析处理,提取出查询项索引、逻辑表达式或其它查询特征描述。和文件信息索引不同的是:查询索引处理是及时地提交处理形成索引,而文件信息索引是由有哪些信誉好的足球投注网站引擎按某种策略进行远程数据的有哪些信誉好的足球投注网站和获取预先生成的本地索引。查询索引和文件索引采取同样的表达方式,因此能够采取相似性估计算法检索出相关文件。 (3)查询扩展:近年来,为了提高信息检索的性能,将应用领域知识和索引、相关性、估计、查询表达相结合实现查询扩展,即查询索引还包括不在用户查询中出现的查询词部分。典型的知识库查询扩展应用如图1所示,知识库中存储的知识为原始查询增添了相关词
您可能关注的文档
- CC1310 中国AMR 参考设计 - 德州仪器.PDF
- Certi-Vex Penseal 244 渗透密封剂 - 无锡格威国际贸易有限公司.DOC
- CAP1400 示范电站项目工程现场进展 - 国核示范电站有限责任公司.PDF
- ATK-IK型智能多回转电动执行机构.PDF
- CFU 在海上油田水处理中的技术创新和应用 - 工业水处理.PDF
- CD转换器的使用方法 - Eclipse.PDF
- CFD 控制装置操作说明书错误代码表.PDF
- BP-西北大学20110530.PPT
- CINRADSA天线系统漏油故障分析 - 易迪拓培训.PDF
- CM-300及CM-358端子定义与接线方法.DOC
- IIC总线数据传输格式.PPT
- ISAPEC 中知识自动获取的设计与实现 - 环境科学学报.PDF
- JLSYQ-3三杯绝缘油介电强度测试仪 - 扬州金力电气有限公司.DOC
- John Keats 在莎莉花园深处Down by the Sally gardens, my love and.PPT
- ImageEyes 使用手册.PDF
- Introduction to Astrometry 位置天文学入门 - 国立天文台.PPT
- INO型海底重力仪 - 劳雷LAUREL.PDF
- JS-V06 型灯泵浦脉冲激光电源用户操作使用说明书 - 武汉九申光电.PDF
- JKSZ-1型油品自动酸值测定仪.DOC
- KJ004可控硅移项触发电路适用于单相、三相全控桥式供电装置中,作.DOC
最近下载
- 《陀螺》课文原文及练习题.doc VIP
- 骨质疏松骨折的治疗策略暨老年髋部骨折绿色通道建设课件.pptx
- 力士乐A6VM变量马达6系列样本资料和特性.pdf VIP
- 《鲁迅的生平》课件.ppt VIP
- 美国次贷危机复盘与启示.docx VIP
- 光学测试与测量软件:Phasics二次开发_(7).光学测试数据可视化与报告生成.docx VIP
- 大型工程建设全过程项目管理(126页).pptx VIP
- 单位工作收入证明范文.docx VIP
- 环卫保洁项目服务质量保证措施.docx VIP
- 光学测试与测量软件:Phasics二次开发_(6).Phasics软件在不同光学测试场景的应用实例.docx VIP
有哪些信誉好的足球投注网站
文档评论(0)