- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
毕业设计文献综述 计算机科学与技术 基于关键词的网页检索和排序 摘 要:随着Internet的发展,整个网络正在不断累积成一个前所未有的超级大型数据库。面对如此海量存储的信息空间,快速获取所需的信息已成为信息时代最基本的问题。网页检索系统作为Internet上必不可少的信息资源检索工具,几乎每个网络用户都在使用它来寻找自己需要的信息。网页检索系统可以为用户进行网络导航,帮助用户在数以亿计的网络信息中快速查找所需的站点或网页,筛选出符合用户需求的有用信息。它是各类网络信息处理工具中比较稳定而最具效率的部分。网页检索系统是引领我们在浩瀚的网络信息资源中寻找真正所需的重要工具。 关键词:网页检索系统;中文分词;相关度计算,网页排序 一、网页检索研究的历史和现状 目前国际上的网页检索主要分成以下几类: (1)基于目录的网页检索 基于目录的网页检索将收集到的信息分配到不同的类别中,典型的基于目录的网页检索有两大问题: 分类是按分类者或分类软件的分析而定,不一定与用户的意见一致。 如果你查找的信息没有对应的分类项,则无法进行检索。 (2)基于机器人的网页检索 基于机器人的网页检索从一组已知的文档出发,通过文档的超文本连接确定新的检索点,然后用索引机器人周游这些新的线索点,标引这些检索点上的新文档,将这些新文档,加入到索引数据库。以后网页检索系统可以用这个索引数据库去回答用户的提问,检索方法有深度优先和广度优先两种,广度优先算法先标引新服务器上的新文档,然后标引已知的服务器上的新文档,即找到尽量多的服务器,它保证一个服务器上至少有一片文档加入索引数据库。它能降低服务器被访问的频度,缺点是不能深入文档。深度优先的算法能较好地发掘文档结构,如相互参照的链接结构,而且相对比较稳定,缺点是有可能进入无限循环。数据检索方法有基于全文和基于标题两类。基于机器人的网页检索的缺点是不安全及产生大量的网络负载和网络服务器负载。 (3)基于关键词的网页检索 基于关键词的网页检索从一组客户输入的关键词出发,检索WWW上的包含此关键字的文档并传送这些文档,在提交给客户前,网页检索系统会对所有检索的的文档进行排序,新一代的基于关键词的网页检索会根据访问用户的相关信息给用户提供个性化的服务,这也正是我们所希望达到的目标。 (4)元网页检索 元网页检索将用户的查找要求递交给其他的网页检索系统,它的注意力在改进用户界面及用不同的方法过滤它从其他网页检索系统接收到的相关文档,包括消除重复信息。元网页检索系统设计简单,但网络的负载太大。 (5)分布式网页检索 分布式检索系统按区域、主题或其他标砖创建分布式索引服务器,索引服务器之间相互可以交换中间信息,且相互可以被重新定向,如果一个检索服务器没有满足查询请求的信息,它可以将查询请求发送到具有相应信息的检索服务器,由于分布式网页检索系统将索引数据库划到几个分布的数据库,每个数据库变得小一些,但所有网页检索系统覆盖的范围变大,且很少有信息重复,而作为分布式系统特征之一的可扩充新也是分布式网页检索系统的优点之一,然后分布式网页检索系统需要多个索引数据库协同工作,实现交困难,目前尚没有真正的、使用的分布式网页检索系统。 二、网页检索的发展和趋势 元网页检索系统是共享多个独立的外部网页检索系统信息库为用户提供信息服务的系统。它的工作原理比一般的网页检索系统要简单,但在检索效果上比一般网页检索系统要优越。元网页检索系统不仅极大地扩充了传统网页检索系统的检索范围,实现真正意义上遍历整个Web,并且它的智能化程度较高,尤其是Agent技术的应用,独立外部网页检索系统的每一组成部分以及众多独立的外部网页检索系统的组合都是采用基于Agent的智能化代理。严格说来,元网页检索系统不是真正的网页检索系统,只能算作一种用户代理。它自己不进行WWW的遍历,本身不需要检索和标引网页,所以也没有自己的索引数据库。当用户查询一个关键词时,它把查询请求转换为外部网页检索系统的命令格式,分别向外部网页检索系统提交,由外部网页检索系统来同时完成查询要求,然后整合外部网页检索系统返回的结果,去除重复的查询结果,统一格式,按照一定的算法重新进行结果排序,最后把结果统一返回到用户查询接口。 一个优良的元网页检索系统并不是机械地使用各个独立的外部网页检索系统来工作。它在发送机制,包括外部网页检索系统的强度上都是有针对性地为提高网页检索系统的检索功能而设计的。 在发送机制上,用户可以设定资源来源(外部网页检索系统)、检索范围、排序策略等,也就意味着用户在查询上更具有主动性。如果用户没有对外部网页检索系统加以限定,那在元网页检索系统的查询代理模块中,需要外部引擎之间达到优化组合,从而提高网页检索系统检索的广度和精度。有实验表明,一般同时采用不超过5个网页检索系统的
您可能关注的文档
- 2-咪唑甲烷衍生物的合成【开题报告】.doc
- 6000吨聚甲醛改性车间的设计【开题报告】.doc
- CuI晶体的生长与表征【开题报告】.doc
- Nd-Fe-B纳米双相组织的XRD表征【开题报告】.doc
- Nd-Fe-B稀土合金烧结组织矫顽力研究【开题报告】.doc
- PIMNT单晶生长用多晶料的固相合成【开题报告】.doc
- X射线荧光光谱分析法在矿石检测中的应用【开题报告】.doc
- 吡唑乙酰胺配体的合成与表征【开题报告】.doc
- 变形温度对铸造热变形钕铁硼永磁材料磁织构的影响【开题报告】.doc
- 丙烯三羧酸铜(II)配合物的合成与结构表征【开题报告】.doc
- 基于计算机网络的信号误差处理演示系统研制的技术基础与必要性【文献综述】.doc
- 基于离散运算的自适应鲁棒数字图像水印算法研究【文献综述】.doc
- 基于粒子动画的动漫游戏场景情绪表现方法研究【文献综述】.doc
- 基于免疫遗传的机器人路径规划【文献综述】.doc
- 基于嵌入式系统的网站设计【文献综述】.doc
- 基于热蒸发方法的硫系薄膜制备与光学性能研究【文献综述】.doc
- 基于人工生命模型的虚拟植物生长动画初探【文献综述】.doc
- 基于双树轮廓波的图像降噪研究【文献综述】.doc
- 基于特征点匹配的多视点图像颜色校正方法研究【文献综述】.doc
- 基于颜色变化曲线的多视点视频颜色校正方法研究【文献综述】.doc
有哪些信誉好的足球投注网站
文档评论(0)