11月数据采集1+x中级习题含参考答案.docxVIP

11月数据采集1+x中级习题含参考答案.docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

11月数据采集1+x中级习题含参考答案

一、单选题(共20题,每题1分,共20分)

1.试题:哪个匹配禁止输入含有~的字符?

选项A.都可以

选项B.[^~\x22]+

选项C.[^~22]+

选项D.[^~x22]

正确答案:B

说明:选项A中使用的是中文字符“、”,这在正则表达式的字符类定义中是不符合规范的写法,通常字符类中使用的是英文半角字符。选项C中“[^~x22]”这种写法是错误的,正确的写法应该是“[^~\x22]”,少了转义符。选项B中“[^~\x22]”表示匹配除了“~”和双引号(十六进制表示为\x22)之外的任意字符,能够禁止输入含有“~”的字符,所以答案是B。

2.试题:scrapy框架的运行流程中,()组件是scrapy框架的核心组件

选项A.Spiders

选项B.DownLoader

选项C.ScrapyEngine

选项D.Scheduler

正确答案:C

说明:ScrapyEngine是scrapy框架的核心组件,它负责控制数据流在各个组件之间的流动,并根据配置和调度器的安排执行相应的操作,如启动爬虫、分配请求到下载器、处理下载器返回的响应等,协调各个组件协同工作以完成整个爬取任务。

3.试题:以下描述不正确是()

选项A.$(#intro)获取id=intro的元素

选项B.$(this)是获取当前的HTML元素

选项C.$(.intro)是获取所有class=intro的元素

选项D.以上都不对

正确答案:D

说明:逐一分析各选项。选项A,$(.intro)确实是获取所有class=intro的元素,该描述正确;选项B,$(#intro)确实是获取id=intro的元素,该描述正确;选项C,$(this)在特定情况下可以获取当前的HTML元素,该描述正确。所以以上选项描述均正确,答案选D。

4.试题:与Windows相比Linux在哪个方面相对应用较少?()

选项A.集群

选项B.嵌入式系统

选项C.桌面

选项D.服务器

正确答案:C

说明:在桌面应用方面,Windows拥有庞大的用户基础和丰富的软件生态,Linux的桌面应用相对较少。而在嵌入式系统、服务器、集群等领域,Linux都有广泛且重要的应用。

5.试题:操作系统中,系统管理员常用的二进制命令文件,一般放置在()目录下。

选项A./usr/sbin

选项B./boot

选项C./sbin

选项D./root

正确答案:C

说明:系统管理员常用的二进制命令文件一般放置在/sbin目录下。/sbin目录主要存放一些系统管理相关的二进制可执行文件,这些文件通常只有root用户才能执行,用于系统维护、管理等操作。/root是root用户的家目录;/usr/sbin主要存放一些系统管理员使用的系统级命令,但和/sbin还是有区别的;/boot目录主要存放与系统启动相关的文件,如内核文件等。

6.试题:以下哪种爬虫又称为主题网络爬虫,是指选择性的爬行那些与预先定义好的主题相关页面的网络爬虫

选项A.通用网络爬虫

选项B.聚焦网络爬虫

选项C.增量式网络爬虫

选项D.深层页面爬虫

正确答案:B

说明:聚焦网络爬虫又称为主题网络爬虫,它会按照预先定义好的主题,有选择性地爬行相关页面。通用网络爬虫是广泛地抓取各种网页;深层页面爬虫主要关注深度层次的页面;增量式网络爬虫是针对已抓取页面的更新进行增量抓取。所以正确答案是B。

7.试题:Android系统是基于Linux操作系统开发的手机系统,因此在进行刷机、删除系统自带软件时需要获得管理员账户()的权限

选项A.admin

选项B.liveuser

选项C.root

选项D.administrator

正确答案:C

8.试题:关于数据采集特点,描述正确的是()

选项A.数据采集以自动化采集手段为主要方式

选项B.主要进行抽样采集方式

选项C.采集的数据内容相对单一

选项D.只采集基本数据

正确答案:A

说明:数据采集方式多样,并非主要进行抽样采集,A选项错误;采集的数据内容丰富多样,不是相对单一,B选项错误;数据采集如今以自动化采集手段为主要方式,C选项正确;采集的数据包括基本数据和其他各类相关数据等,不是只采集基本数据,D选项错误。

9.试题:关于网络数据采集,描述正确的是()

选项A.网页抓取过程中,会抓取所有满足条件的URL

选项B.以上都正确

选项C.可通过网络爬虫技术从公开网站或API获取数据信息

选项D.爬取的数据经适当处理后进行存储

正确答案:B

10.试题:在计算机网络中,能将异种网络互连起来,实现不同网络协议相互转换的网络互连设备是()。

选项A.中继器

选项B.交换机

选项C.网关

选项D.路由器

正确答案:D

11.试题:取出html页面中所有的src属性,xpa

文档评论(0)

百知星球 + 关注
实名认证
文档贡献者

精心梳理知识,畅快分享所得

1亿VIP精品文档

相关文档