- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
有哪些信誉好的足球投注网站引擎的工作原理大致可以分为三个阶段:爬行和抓取、预处理、
排名
一、爬行和抓取
有哪些信誉好的足球投注网站引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机
器人(bot)。有哪些信誉好的足球投注网站引擎蜘蛛访问网站页面时类似于普通用户使用的浏
览器,蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛
程序把收到的代码存入原始页面数据库。为了提高爬行和抓取速度,
有哪些信誉好的足球投注网站引擎都是使用多个蜘蛛并发分布爬行。蜘蛛访问任何一个网站时
都会先访问网站根目录下的robots.txt文件,吐过robots.txt文件禁止
有哪些信誉好的足球投注网站引擎抓取某些文件或者目录,蜘蛛将遵守协议,不抓取被禁止的
网址。所以robots.txt文件对一个网站来说是至关重要的。
为了抓取网上尽量多的页面,搜素引擎蜘蛛会跟踪页面上的链接,从
一个页面爬行到下一个页面,就好像蜘蛛在蜘蛛网上爬行一样,这就
是搜素引擎蜘蛛名称的由来。
最简单的爬行遍历策略分为两种:深度优先、广度优先
深度优先:蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其
他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。
广度优先:蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一
直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层
页面上发现的链接爬向第三层页面。
通常这两种爬行策略时混合使用的。
吸引蜘蛛的方法:◆提高网站和页面的权重,◆提高页面更新度,◆
高质量的导入链接,◆与首页点击距离近
为了避免重复爬行和抓取网址,有哪些信誉好的足球投注网站引擎会建立一个地址库,记录已
经被发现还没有抓取的页面和已经被抓取的页面。地址库来源:◆人
工录入的种子网站,◆蜘蛛从抓取页面获得的地址库中没有的网址,
◆站长通过有哪些信誉好的足球投注网站引擎网页提交表格提交进来的网址
蜘蛛爬行的时候也会进行简单的复制内容检测,如果遇到权重很低的
网站上大量转载或抄袭内容时,很可能不再继续爬行,这也是很多权
重低的网站页面更新的很多很快但却没有被收录的原因之一。
二、预处理
●提取文字:有哪些信誉好的足球投注网站引擎预处理首先要做的就是从HTNL文件中去除标
签、程序,提取出可以用于排名处理的网页文字内容(还包括META
标签中的文字、图片替代文字、FLASH文件替代文字、链接锚点文字
等)。
●中文分词:这一步在中文有哪些信誉好的足球投注网站引擎中才会用到。中文分词一般分为
两类:字典匹配、基于统计。
字典匹配:将待分析的一段汉字与一个事先造好的词典中的词条进行
匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者
说切分出一个单词。
基于统计:分析大量文字样本,计算出字与字相邻出现的统计概率,
几个字相邻出现越多,就越可能形成一个单词。
●去停止词:有哪些信誉好的足球投注网站引擎在索引页面之前会去掉一些停止词,如:“的”、
“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、
“以”、“却”之类的副词或介词。
●消除噪声:有哪些信誉好的足球投注网站引擎需要识别并消除噪声,排名时不使用噪声内容,
基本方法是根据HTML标签对页面分块,区分出页头、正文、页脚、
广告等区域,在网站上大量重复出现的区块往往属于噪声,对页面消
噪后剩下的才是页面的主体内容。
●去重:同一篇文章经常重复出现在不同网站及同一个网站的不同网
址上,有哪些信誉好的足球投注网站引擎并不喜欢则好重啊个重复性的内容,有哪些信誉好的足球投注网站引擎希望只
返回相容文章的一篇,所以在惊醒索引前还需要识别和删除重复内容,
这个过程就成为“去重”。
●正向索引:有哪些信誉好的足球投注网站引擎索引程序将页面及关键字形成词表结构存储进
索引库,每个文件都对应一个文件ID,文件内容被表示为一串关键词
的组合。实际上在有哪些信誉好的足球投注网站引擎索引库中,关键词也已经转换成为关键词
ID,这样的数据结构就称为正向索引。
●倒排索引:有哪些信誉好的足球投注网站引擎将正向索引数据库重新构造为倒排索引,把文
件对应到关键词的映射转换为关键词到文件的映射。
●链接关系计算:主要体现就是Google的PR值,搜狗的SR值等
●特殊文件处理:有哪些信誉好的足球投注网站引擎有时也会抓取除HTML文件以外的文件,
如:PDF、Word、WPS、XLS、PPT、TXT文件等
三、排名
●有哪些信誉好的足球投注网站词处理:★中文分词,★去停止词,★指令处理(及分词后的
关键词逻辑关系,通常是“与”逻辑),★拼写错误矫正,★整合搜
索触发(某些有哪些信誉好的足球投注网站词回触发整合有哪些信誉好的足球投注网站,如明星姓名经常会触发图片和
视频内容)。
●文件匹配:有哪些信誉好的足球投注网站词经过处理后,有哪些信誉好的足球投注网站引擎得到的是以词为基础的关
键词集合,文件匹配阶段就是找出含有所有关键词的文件。
您可能关注的文档
最近下载
- 2024年13起典型火灾案例及消防安全知识专题培训.pptx
- 2024届高考语文复习:+深度分析材料内涵,扣住情境任务写作+课件22张.pptx VIP
- GBT1037-2021 塑料薄膜与薄片水蒸气透过性能测定 杯式增重与减重法.pdf
- 建筑机电工程抗震支架设计规范GB50981-2014.pdf
- SH∕T 3022-2019 石油化工设备和管道涂料防腐蚀设计标准.pdf
- 初中数学知识点(苏教版).doc VIP
- 浅谈我国个人所得税改革对工薪阶层的影响.docx
- 物资采购领域廉洁风险防控建设重要性及对策建议思考.docx
- “三级”安全教育培训记录.docx
- 2021年全国新高考I卷语文试题.doc VIP
文档评论(0)