网络舆情概论(第2版) 课件 第6、7章 网络舆情的监测技术、 网络舆情的监测与收集.pptx

网络舆情概论(第2版) 课件 第6、7章 网络舆情的监测技术、 网络舆情的监测与收集.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络舆情的监测技术 第6章 本章要点 了解舆情监测是大数据技术的典型应用,通过海量信息采集、智能语义分析、自然语言处理、数据挖掘,以及机器学习等技术,实现用户的网络舆情监测和新闻专题追踪等信息需求,它是进行分析并形成简报、报告、图表等结果的前提技术保障。 第1节 网络舆情监测数据采集 网络爬虫:又被称为网页蜘蛛、网络机器人,在FOAF社区中间,更经常的称为网页追逐者,是一种按照一定的规则自动地抓取互联网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 网络爬虫类型:批量型爬虫、增量型爬虫、垂直型网络爬虫 (1)批量型爬虫(batch crawler)。批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标以后,即停止抓取过程,其明显的特征就是受限。批量型爬虫是目前数据采集系统中最简单的爬虫系统。 (2)增量型爬虫(incraemental crawler)。增量型爬虫会保持持续不断的抓取,对于已经抓取过的网页会按照一定策略定期更新,这种类型一般应用于有哪些信誉好的足球投注网站引擎的网站或程序。 (3)垂直型网络爬虫(focused crawler)。垂直型爬虫只关注特定主题或特定行业的网页,其最大的挑战就是如何识别网页的内容是否属于指定行业或主题。一般只有垂直行业分析才会需要此类型的爬虫。 第1节 网络舆情监测数据采集 在实际的数据采集系统中,往往是在爬虫阶段进行网页去重操作。当爬虫新抓取到网页时,需要和已经建立到索引内的网页进行重复判断,如果判断是近似重复的内容,则将其加入到网页索引中。 所谓近似重复网页发现,就是通过技术手段快速全面地发现这些重复信息的手段。具体的技术五花八门,各具特色,但经过归纳总结发现,任何典型的去重算法基本都是由特征抽取、文章指纹生成和相似性计算三步构成。 能够快速处理海量数据是数据采集系统对去重算法的内在要求,所以算法设计之初必须要兼顾准确性和高效性。常用去重算法有Shingling算法、I-Match算法、SimHash算法和SpotSig算法等。 第1节 网络舆情监测数据采集 主从式分布爬虫(master-slave) 主从式分布爬虫是分布式技术中最传统也是最常见的一种形式,它指不同的服务器承担着不同的角色,其中有一台专门的master服务器来维护待抓取的URL(universal resource locator,统一资源定位符)队列,它负责每次将REL分发到不同的slave服务器,而slave服务器则负责实际的网页下载工作。Master服务器除了维护待抓取URL队列以及分发URL之外,还要负责调节各个slave服务器的负载情况,以免某些slave服务器过于清闲或者劳累。在这种模式下,master往往容易成为系统瓶颈。 对等式分布爬虫(peer to peer) 在对等式爬虫体系中,服务器之间不存在分工差异,每台服务器都承担着一样的功能,各自负责一部分URL的抓取工作。由于没有URL服务器存在,如何分工就成为了主要问题。目前最常用的一种解决方案就是采用一致性哈希(consisting hash)来确定服务器的任务分工。对等式分布爬虫不存在系统瓶颈问题,有很好的兼容性和扩展性。 第1节 网络舆情监测数据采集 面对海量的数据抓取任务,只有采取分布式架构才有可能在较短时间周期内完成一轮抓取工作。常见的分布式架构有两种:主从式分布爬虫和对等式分布爬虫。 分布式技术 第1节 网络舆情监测数据采集 数据采集常用方法 第1节 网络舆情监测数据采集 数据采集常用方法 第1节 网络舆情监测数据采集 数据采集常用方法 第1节 网络舆情监测数据采集 数据采集常用方法 第1节 网络舆情监测数据采集 数据采集常用方法 第1节 网络舆情监测数据采集 数据采集常用方法 第2节 舆情数据的API接入技术 网页更新策略: 历史参考策略 用户体验策略 聚类抽样策略 聚类抽样策略 以上两种更新策略主要是参考了网页的历史信息。但存储大量历史信息对有哪些信誉好的足球投注网站引擎来说是一种负担,另外如果收录的是新网页则是没有历史信息可以参考的,那怎么办? 聚类抽样策略是指:根据网页所展现出来的一些属性,来将很多相似网页进行归类,同一类别的网页具有相同的更新频率,并通过对各类别的网页采样的方式来确定更新周期。 第3节 网络舆情监测数据分析 第3节 网络舆情监测数据分析 按照全文检索理论建立起来的用于提供全文检索服务的软件系统,通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。 全文检索系统的核心则具有建立索引、处理查询返回结果、增加索引、优化索引结构等功能。 全文检索技术 指的是一个从非结构化文本信息中获取用户感兴趣

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档