所选题目通用论坛正文提取-泰迪杯.PDFVIP

下载本文档

34
0
约1.34万字
约 25页
2018-03-16 发布于天津
举报
版权申诉

所选题目通用论坛正文提取-泰迪杯.PDF

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

所选题目通用论坛正文提取-泰迪杯

“泰迪杯”全国数据挖掘挑战赛论文报告所选题目：通用论坛正文提取综合评定成绩：评委评语：评委签名：第1 页，共25 页 “泰迪杯”全国数据挖掘挑战赛论文报告通用论坛正文提取摘要：在当今的大数据时代里，当前每六个月互联网中产生的数据总量就会翻一番。借助网络爬虫技术提取数据资料至关重要。并且网页论坛的结构各种各样，能够对于多样论坛有一个通用提取算法，则是可以快速获取的数据的有利条件之一。本文完成了对主题帖标题，作者，发帖时间和主题帖正文的提取，以及回帖楼层，作者，回帖时间和回帖正文的提取。经过一个月的程序调试，最终得到了得到了较为完整的爬虫内容，特别是在处理噪声内容方面，达到了较好的结果。本文第一章简单介绍本题背景并说明文章应解决的问题；第二章说明本次网页爬虫流程；第三章主要针对本爬虫算法中的网络技术进行简要分析；在第四章中详细地介绍了本次爬虫的具体算法。在4.1 节中主要解决的是主题帖内容的获取，包括主题帖标题、作者、发帖时间以及主题帖正文，其中设计特征词库，设计噪声词库，在提取时间时应用了时间正则和特征提取算法，在提取作者时应用了标签特征法、URL 相似度验证法和噪声过滤法，之后判断网页结构，提取正文等。在4.2 节中主要解决的是回帖内容的获取，包括回帖作者、回帖时间以及回帖正文，其中设计了定位楼层的算法，根据定位楼层的算法，不仅可以得知每个回帖具体的楼层信息，也可以智能获取每个回帖标签的共同特征。应用这些特征，可以对主题帖爬取内容进行修正，同时为爬取相同的论坛的文本提取奠定了基础。第五章的内容主要是针对真实网站进行数据提取的展示，将对三个网站进行文本提取。之后第六章的内容是对本次算法的补充以及实验数据分析。本文所涉及爬虫算法较为完整地得到了论坛数据且去掉了足够多的噪声数据，其中时间同步回溯算法均是拿到题目之后一次次尝试所得到的，并且对于一些小细节的处理足够精致，最后的源程序也说明了本次算法得到了较为成功的提取算法。关键词：Beautifulsoup 正则表达式网页结构作者URL 特征法噪声过滤第2 页，共25 页 “泰迪杯”全国数据挖掘挑战赛论文报告目录 1. 挖掘目标 4 2. 全文脉络图 5 3. 爬虫技术简介 6 3.1. 爬虫简介 6 3.2. 正则表达式介绍 6 4. 具体步骤 7 4.1. 解题思路 7 4.2. 提取主题帖 9 4.3. 提取回帖 16 5. 效果展示19 5.1. 哇哈体育论坛爬虫结果 19 5.2. 新浪论坛爬虫结果 21 5.3. 天涯论坛爬虫结果 24 6. 参考文献25 第3 页，共25 页 “泰迪杯”全国数据挖掘挑战赛论文报告 1. 挖掘目标在当今的大数据时代里，伴随着互联网和移动互联网的高速发展，人们产生的数据总量呈现急剧增长的趋势,当前大约每六个月互联网中产生的数据总量就会翻一番。互联网产生的海量数据中蕴含着大量的信息，已成为政府和企业的一个