(用C开发蜘蛛程序.docVIP

下载本文档

6
0
约1.58万字
约 17页
2017-01-31 发布于北京
举报
版权申诉

(用C开发蜘蛛程序.doc

1、本文档共17页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(用C开发蜘蛛程序

用C#2.0实现网络蜘蛛(WebSpider) 2008-05-14 09:00作者：银河使者出处：天极网责任编辑：dizzarz 　　摘要：本文讨论了如何使用C#2.0实现抓取网络资源的网络蜘蛛。使用这个程序，可以通过一个入口网址(如)来扫描整个互联网的网址，并将这些扫描到的网址所指向的网络资源下载到本地。然后可以利用其他的分析工具对这些网络资源做进一步地分析，如提取关键词、分类索引等。也可以将这些网络资源作为数据源来实现象Google一样的有哪些信誉好的足球投注网站引擎。　　关键词：C#2.0，Html，网络蜘蛛, 键树，正则表达式　　一、引言　　在最近几年，以Google为首的有哪些信誉好的足球投注网站引擎越来越引起人们的关注。由于在Google出现之前，很多提供有哪些信誉好的足球投注网站服务的公司都是使用人工从网络上搜集信息，并将这些信息分类汇总后作为有哪些信誉好的足球投注网站引擎的数据源。如yahoo公司一开始就是通过数千人不停地从网上搜集供查询的信息。这样做虽然信息的分类会很人性化，也比较准确，但是随着互联网信息爆炸式地增长，通过人工的方式来搜集信息已经不可能满足网民对信息的需求了。然而，这一切随着Google的出现而得到了彻底改变。Google一反常规的做法，通过程序7*24地从网上不停地获取网络资源，然后通过一些智能算法分析这些被下载到本地的网络资源，最后将这些分析后的数据进行索引后就形成了一套完整的基本上不需要人工干预的有哪些信誉好的足球投注网站引擎。使用这种模式的有哪些信誉好的足球投注网站引擎甚至可以在几天之内就可获取Internet中的所有信息，同时也节省了大量的资金和时间成本。而这种有哪些信誉好的足球投注网站引擎最重要的组成部分之一就是为有哪些信誉好的足球投注网站引擎提供数据源的网络蜘蛛。也就是说，实现网络蜘蛛是实现有哪些信誉好的足球投注网站引擎的第一步，也是最重要的一步。　　二、网络蜘蛛的基本实现思想和实现步骤　　网络蜘蛛的主要作用是从Internet上不停地下载网络资源。它的基本实现思想就是通过一个或多个入口网址来获取更多的URL，然后通过对这些URL所指向的网络资源下载并分析后，再获得这些网络资源中包含的URL，以此类推，直到再没有可下的URL为止。下面是用程序实现网络蜘蛛的具体步骤。　　1. 指定一个(或多个)入口网址，并将这个网址加入到下载队列中(这时下载队列中只有一个或多个入口网址)。　　2. 负责下载网络资源的线程从下载队列中取得一个或多个URL，并将这些URL所指向的网络资源下载到本地(在下载之前，一般应该判断一下这个URL是否已经被下载过，如果被下载过，则忽略这个URL)。如果下载队列中没有URL，并且所有的下载线程都处于休眠状态，说明已经下载完了由入口网址所引出的所有网络资源。这时网络蜘蛛会提示下载完成，并停止下载。　　3. 分析这些下载到本地的未分析过的网络资源(一般为html代码)，并获得其中的URL(如标签中href属性的值)。　　4. 将第3步获得的URL加入到下载队列中。并重新执行第2步。　　三、实现数据的输入输出　　从实现网络蜘蛛的步骤中我们可以看出，下载队列的读、写URL的操作一直贯穿于整个系统中。虽然这个下载队列可以用.Queue类实现，但是各位读者要清楚地知道，在互联网上的URL可不是几十个、几百个这么少。而是以千万计的。这么多的URL显然不能保存在内存中的Queue对象中。因此，我们需要将它保存在容量更大的存储空间中，这就是硬盘。　　本文采用了一个普通的文本文件来保存需要下载和分析的URL(这个文本文件也就是下载队列)。存储格式是每一行为一个URL。既然将URL都保存在了文本文件中，就需要对这个文本文件进行读写。因此，在本节实现了一个用于操作这个文本文件的FileIO类。　　在实现FileIO类之前，先来说一下要如何操作这个文本文件。既然要将这个文件作为队列使用，那么就需要对这个文件进行追加行和从文件开始部分读取数据操作。让我们首先来实现向文件中追加行操作。实现代码如下：　　向文件中追加行的实现代码　　 //?这两个变量为类全局变量　　private?FileStream?fsw; 　　private?StreamWriter?sw; 　　//?创建用于向文件中追加行的文件流和StreamWriter对象　　public?void?OpenWriteFile(string?file) 　　{ 　　if?(!File.Exists(file))?//?如果文件不存在，先创建这个文件　　File.Create(file).Close(); 　　//?以追加模式打开这个文件　　fsw?=?new?FileStream(file,?FileMode.Append?,FileAccess.Write,?FileShare.ReadWrite); 　　//?根据创建的FileStream对象来创建Strea