- 1、本文档共75页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于url及上下文的并行分块处理主题爬虫研究-计算机应用技术专业论文
指导小组成员名单张世永教授钟亦平教授吴承荣副教授吴杰副教授录顧1A BSTRA CT2第一章引言31.1研究目的与意义31.2 研究背景41.3 国内外研究现状51.3.1基丁■关键词的上题爬虫51.3.2基丁页内祚的爬虫71.3.3 基丁涟按特征的fe题爬虫91.3.4基丁?其他好认的主题爬虫121.3.5 主题孤岛W 题131.3.6 隧迠技术14第二章HADOOP分布式平台与NUTCI1概述152.1Hadoop分布式平台152.1.1总休架构152.1.2MapReduce分布式计算162.1.3 HDFS分布式文件系统182.2 Nutch丌源有哪些信誉好的足球投注网站引擎212.2.1 爬虫投块222.2.2WW1-机制22第三章基于URL及上下文并行分块处理的主题爬虫243.1 系统架构与流程243.2 主题描述词概括与扩展263.3 基于URL及上下文的分块处理主题相关度分析273.丄1 从r分块的JH r处押28:}.:i.2 LRL jI.卜义的分机293.4 孤岛问题的解决35第四章基于URL及上下文的并行分块处理主题爬虫实现3824.1初始化模块384.2 待抓取列表生成模块404.3 页面爬行模块424.4 主题相关度分析模块454.5 待爬行URL列表更新模块484.6 存储数据结构49第五章性能分析与比较515.1试验环境515.1.1 软件硬件环境515.1.2 试验、「台搭让515.1.3 实验数据535.2 系统测试545.2.1性能测试545.2.2 nj?调参数设H57第六章总结与展望666.1本文工作总结666.2未来工作展望67猶71攻读硕士期间发表的论文72K 门-人学烛|:学位论文摘要木论文结合了实体分祈、网络结构分析、隧道技术于一体并加以兑法上的改进,提出了基于URL及上下文并行分块处理的主题爬虫算法。本算法对主题进行了实体分析,根据知网的义元关系,将主题描述词进行扩展,作为主题相关度分析兑法的输入。主题相关度分析算法将页而分成多个含有唯一链接的数据块,在网络结构与文本内容两个方面并行分析每个输入数据块中的链接,根据链接本身结构与父页而的相符度而得出网络结构相关的评分,根据数据块中主题描述词的词频与位置信息得出该链接在文木内容方而的评分。通过可调参数a调整两个因素在总分屮的重要程度,得出此链接的主题相关度总评分。若总分大于设定阈值,则判定此数据块中的链接是与主题相关的。本主题爬虫在主题相关性分析中加入了改进的逐级过滤隧道技术。从一?定隧道层数范_,以设定的评分阈值过滤小于此隧道阈值的链接,挑选出真正的前沿性链接,避免无关网页的抓取,使爬虫在适当的性能保证下提高召回率。实验结果充分验证了木论文提出的丛于URL及上下文的并行分块处现主题爬虫足个巧灵活性、^准确度、适用于敁大爬行层数为4-6的小型主题爬虫。关键字:主题爬虫,链接分析,本体描述,并行处理1y i」.人屮她I?学位[仓义A bstractCombiningthe ontologyanalysis,networktopologyanalysis,andtunnelingtechnologyforalgorithm improve,Iproposeparallelblockprocessingfocusedcrawlerbased on URL and context.T hisalgorithmexpandsthetopickeywordsbased onHownetastheinputofthematicrelevance.Thethemecorrelationanalysisalgorithmdividesthepageintom ultipledatablockcontainingonelink,andparallellyanalizesthe link in each blockinthe aspects ofnetwork structure and textcontext.Network-topologyscoreisderivedaccordingtothesimilarityofthelinkstructureanditsparentlinkstructure. Contextscoreofthelinkiscalculateddepending on thefrequencyand locationinformationoftopickeywordsinthecontextaroundthislink.Thetotalscoreisderivedbytheadjustableparameteratobalancetheeffectoftwofactors.Thelinkisjudgedtoberelatedtot
您可能关注的文档
- 智能pid算法在矿山充填自动控制中的研究与应用-计算机软件与理论专业论文.docx
- 中国保险资产配置决策流程与优化-金融学专业论文.docx
- 网络防御中的联动防御技术分析-计算机应用技术专业论文.docx
- 新的金融环境下的信托监管问题研究-金融学专业论文.docx
- 聚醚砜(pes)中空纤维膜的制备及共混改性研究-高分子化学与物理专业论文.docx
- 运用静息态-fmri技术探讨血管性认知功能障碍患者的脑功能改变-影像医学与核医学专业论文.docx
- 玉米行粒相关蛋白(zmstkr)互作蛋白的筛选与验证-作物遗传育种专业论文.docx
- 小型水平轴风力机风轮数值模拟及实验研究-水利水电工程专业论文.docx
- 载重汽车车架有限元研究及优化-载运工具运用工程专业论文.docx
- 微型厢式汽车后扰流板对气动特性影响的数值模拟研究-车辆工程专业论文.docx
最近下载
- 2024年高空作业考试题库附答案5套(完整版).DOC
- 印刷类原辅料进料检验标准.pdf
- 部编人教版四年级上册《道德与法治》全册教学反思.pdf VIP
- 江苏省南通市2023-2024学年高一上学期语文期中考试试卷(含答案).pdf VIP
- 国家开放大学《中国近现代史纲要》社会实践报告.docx VIP
- 领读经典-现代文学(1)(山东大学)中国大学MOOC慕课 章节测验期末考试答案.docx
- 《幼儿挑食、偏食行为的原因分析及对策》开题报告(含提纲)5800字.doc
- 2022年贵州省高职(专科)分类招生中职生文化综合考试试卷(语数英、含答案).pdf
- 小学语文优秀教学案例.docx VIP
- 冬季血压早达标远离心脑血管疾病-高血压慢性病培训讲座课件PPT.pptx
文档评论(0)