- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
电子科技大学 计算机学院 综合课程设计 报告
摘 要本系统以一个大规模网络爬虫程序所获取的网络评论数据为基础,使用了词向量,用户画像等技术,构建了一个基于影评的推荐系统。主要的工作分为两部分,首先是研究分析了豆瓣电影网站是如何防御网络爬虫程序已经应对策略,其次根据网络爬虫程序获取的大量数据构建了一个推荐系统。关键词:大规模爬虫,用户画像,推荐系统目录摘要I目录II第一章绪论11.1 背景与意义11.2 本系统的总体设计构思11.3 本文的主要贡献与创新1第二章大规模数据获取22.1 网络爬虫程序的原理22.2网络爬虫程序的设计方案22.3豆瓣电影网站爬虫可行性分析32.3.1 豆瓣电影网站页面分析32.3.2 豆瓣电影网站反爬虫策略分析32.3.3 豆瓣电影网站爬虫策略的设计42.4网络爬虫性能优化42.5 本章小结5第三章影评分析推荐系统63.1 推荐系统综述63.1.1 推荐系统的概念和定义63.1.2 推荐系统的形式化定义73.2 推荐系统用户模型设计73.2.1 文本分析简介73.2.2 文本分析操作83.3 推荐系统推荐对象模型设计83.3.1 评分机制建模83.3.2 影片分类特征建模93.4 推荐系统算法93.4.1 协同过滤算法93.4.2 基于项目的协同过滤算法93.5 推荐系统推荐关键算法部分103.5.1 距离定义部分103.5.2 近邻查找部分113.5.3 评分向量的构建12第四章课程设计总结与展望134.1 总结134.2 后续工作展望13致谢14参考文献15第一章 绪 论1.1背景与意义随着中国移动互联网的迅速发展,网民数量也在大规模增长,用户在社交与电商网站上的活跃程度日趋增加。随着用户群体的增加,用户在网络上留下的行为数据呈现指数级增长。面对庞大的用户群体以及如此大量的行为数据,如何从中快速、准确、有效的获取到有价值的数据,分析出用户的行为习惯以及偏好,在大规模内容的场景下,为用户提供精准的推荐服务,是现在大数据研究领域的一个热点和重点。网络爬虫是大规模数据获取的必要程序。由于网络上数据的高潜在商业价值,商业公司均会对其进行必威体育官网网址,即使能够直接获取的数据也会给出层层限制。在互联网发展的二十余年里,网络爬虫程序设计和网站反爬虫程序设计共同进步发展。如何有效的进行大规模网络数据爬取,同样是在工程领域的一个热点和重点。1.2本系统的总体设计构思首先通过设计一个高性能网络爬虫,对部分数据进行爬取。在数据集上进行清洗,选择一些高质量的活跃用户,设计算法,提取特征,进行回测,调整特征的选择。之后再在大规模数据集上进行运算。1.3 本系统的主要贡献与创新本论文以大规模爬虫获取实时豆瓣电影数据为基础,实现了用户画像系统与推荐系统,根据历史数据得到的用户群体行为分析报告,并根据用户行为以及评论数据实现了智能化的电影推荐。第二章 大规模数据获取在大规模互联网社群站点中,由于网站运营策略以及一些涉及到潜在商业价值的考虑,运营公司通常会设置一些特殊的访问流量识别措施阻止外界使用程序大规模获取数据。对于网络爬虫程序设计者来说,必须要识别并且进行一定的特殊设计,才能高效的大规模并行获取数据。2.1 网络爬虫程序的原理网络爬虫程序,也叫网络蜘蛛,在工程界通用简称“爬虫”,是一种可以自动实现模拟真实用户对网络资源访问并进行数据记录的程序。爬虫程序一般会选择记录目标站点的索引数据,以及所关注的主要内容的完整记录。2.2网络爬虫程序的设计方案网络爬虫的形式多种多样,从早期的C、C++设计,到现在主流的Python、Java设计都有其辉煌的历史。早期网络站点大部分内容、形式单一,静态网页居多,网络中富文本内容较少,计算机资源较少。使用C、C++编写的程序占用资源小,运行速度快,进行网络通讯的方式灵活,加之语言本身使用广泛,受到大量爬虫程序员的青睐。随着全球互联网产业、互联网基础设施的高速发展,谷歌、百度等有哪些信誉好的足球投注网站引擎的崛起,互联网上的资源爆炸性增长,基于各种目的,越来越多的程序员开始设计自己的网络爬虫程序。此时C、C++语言的一些缺点显现出来,集中在编码的不通用,设计繁琐,缺乏高度抽象的类库等。加之大规模数据存储平台的出现,C、C++爬虫程序日渐减少。爬虫程序主要的任务在于:访问网络资源,解析返回结果,对资源进行合理存储。由于高度抽象以及简洁的语法,Python以及Java等一下代的更加工程化的语言被大家所青睐。网络爬虫的开发极具灵活性,由于现代前端技术的成熟,爬虫程序所获取的内容可能随时变化,无法使用传统的软件工程方法进行设计开发,通常的做法是迭代式的对网络站点进行交替的探测、开发。网络爬虫的主要模块功能比较固定,遇到的异常情况繁杂,需要有完善的异常处理机制。在对大规模数据设计的爬虫中尤其重要。Python在网络爬虫类程序的开发效率上有着无可比拟的先天优势,在文本分析、异常处理
您可能关注的文档
- 计算机组成原理(A卷)3组.doc
- 计算机组成原理2013试题A.doc
- 计算机组成原理第七章 第3讲 磁盘存储设备的技术发展.ppt
- 计算机组成原理_尹辉_第九、十章作业.docx
- 计算机组成原理课程综述类论文—.doc
- 计算机组成原理课件-3-信息编码与数据表示.pdf
- 计算机组成原理课程设计(复杂模型机设计).pdf
- 计算机组成原理课程设计(微程序设计).docx
- 计算机网络--加密-解密二-Vijinia.doc
- 计算机网络原理实验任务.pptx
- PV 1452-2020(EN)机油直喷式涡轮柴油机适用性试验.pdf
- PV 1452-2020(DE)发动机油测试直喷涡轮柴油发动机的适用性.pdf
- PV 1454-2022(DE)变速箱油测试轴轴承轴承温度变化适配器.pdf
- PV 1456-2022(DE)变速箱油效率影响测试.pdf
- 北京市2021-2025年高考地理试题分类汇编:区域发展(解析版).pdf
- 高中历史有效复习策略.docx
- 安徽省阜阳市临泉县某中学2024-2025学年七年级上学期期中数学试卷(含答案).pdf
- 安徽省合肥市包河区2023-2024学年七年级下学期期末地理试卷.pdf
- PV 1221-2017(DE)薄硬质层层厚度测定.pdf
- 安徽省宿州市萧县2023-2024学年七年级下学期期末地理试题(含解析).pdf
有哪些信誉好的足球投注网站
文档评论(0)