中国人民大学web信息检索-5_网页预处理.pptVIP

中国人民大学web信息检索-5_网页预处理.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中国人民大学web信息检索-5_网页预处理

网页的预处理 网页的分类 页面分析 中文处理 网页分类 Hub网页 (Hub pages) 提供向导的网页,如新浪主页,特征是链接集合 主题网页(authority page) 通过文字具体说明一件或多件实物,如具体的新闻报道 图片、视频网页 是含图片或视频的主题网页,但文字特别少。 页面处理 传统网页分类将整个网页看作一个原子单元进行整体处理,但是由于网页中一些“噪声”信息的存在,不仅增加了处理的复杂度,还影响了网页自动分类的效果,因而需要对网页进行预处理。 近年微软亚洲研究院提出block based IR. 一般主题网页的结构 标题(关键词和概括) 正文 相关链接 导航信息 广告 装饰,Flash 版权,制作者信息等 网页的主题提取和分词 发现主题文本 分词处理 * 网页分块方法(1) 基于位置关系的分块法 利用网页页面的布局进行分块,将一个网页分成上、下、左、右和中间5个部分,再根据这5个部分的特征进行分类; 实际的网页结构要复杂得多,这种基于网页布局的方法并不能适用于所有的网页; 这种方法切分的网页粒度比较粗,有可能破坏网页本身的内在特征,难以充分包括真个网页的语义特征。 网页分块方法(2) 基于文档对象模型(DOM)的分块法 找出网页HTML文档里的特定标签,利用标签项将HTML文档表示成一个DOM树的结构; 特定标签包括heading、table、paragraph和list等; 在许多情况下,文档对象模型不是用来表示网页内容结构的,所以利用它不能够准确地对网页中各分块的语义信息进行辨别。 DOM trees BODY bgcolor=WHITE TABLE width=800 height=200 … /TABLE IMG src=image.gif width=800 TABLE bgcolor=RED … /TABLE /BODY bc=red bc=white IMG TABLE BODY root width=800 height=200 TABLE width=800 Presentation Style bc=red bc=white IMG TABLE BODY root width=800 height=200 TABLE width=800 BODY, {bc=white} (TABLE,{width=800}), (IMG,{}), (TABLE, {bc=red}) Compressed Structure Tree TABLE TABLE width=800 bc=red bc=white BODY root d2 bc=red TABLE TABLE bc=white BODY root d1 SPAN width=800 bc=red TABLE BODY SPAN bc=white CST: Width=800 TABLE {(TABLE,{width=800}), (SPAN,{}), (TABLE, {bc=red}), (TABLE,{width=800}), (TABLE, {bc=red})} {BODY, {bc=white}} root 2 2 2 1 网页分块方法(3) 基于视觉特征网页分块法(VIPS) 利用字体、颜色、大小等网页版面特征,根据一定的语义关联,将整个网页表示成一棵HTML DOM树; 利用横竖线条将DOM树节点所对应的分块在网页中分隔开来,构成网页的标准分块; 每个节点通过一致度(DOC)来衡量它与其它节点的语义相关性,从而将相关的分块聚集在一起; 利用预先设定的一致度(PDOC)作为阈值控制分割粒度,当所有网页的DOC都不小于PDOC时,网页分割就可以停止了。 分词技术的广泛应用:信息检索、人机交互、信息提取、文本挖掘等。是相似度计算的基础。 目前对分词的研究,大都集中于通用的分词算法,以提高分词准确率为目的。 目前的分词算法中,一些切分精度比较高的算法,切分的速度都比较慢;而一些切分速度快的算法,因为抛弃了一些繁琐的语言处理,所以切分精度都不高。 速度:每秒几十k~几M 切分正确率:80%~98% 中文分词简介和困难 中文分词(Chinese Word Segmentation):将一个汉字序列切分成一个一个单独的词。比如将“组合成分子时”切分成“组合/成/分子/时”。 困难 分词规范:词的概念和不同应用的切分要求 分词算法:歧义消除和未登录词识别 分词规范方面的困难 汉语中词的界定(基于词典) “教育局长”:“教育/局长”?“教育局/长”?“教育/局/长” ? 核心词表如何收词? 词的变形结构问题:“看/没/看见” ,“相不相信” 不同应用对词的切分规

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档