- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于结构与内容的网页主题信息提取研究作者吴鹏飞孟祥增刘俊晓马凤娟主要内容前言相关研究工作系统分层流程图映射表网页结构分析网页内容分析实验结果总结山东师范大学传播学院宣讲吴鹏飞邮箱前言导航区交互区主题标签区主题文本区噪音区相关研究工作网页结构分析网页标记树法页面显示实体坐标位置法基于映射表的网页结构内容分析法提取层识别层分割层解析层顺序读文件映射表结构聚类网页区域解析器区域特征提取启发式规则区域识别语义区域内容量化滤除噪音网页主题信息网页主题信息提取分层流程图文档映射表主要是对头部和主体部分中文本
基于结构与内容的网页主题信息提取研究 作者:吴鹏飞,孟祥增,刘俊晓,马凤娟 主要内容 前言 相关研究工作 系统分层流程图 映射表 网页结构分析 网页内容分析 实验结果 总结 * * 2006-7-21 山东师范大学传播学院 宣讲:吴鹏飞 邮箱:wupengfei_2000@163.com 前言 导航区 交互区 主题标签区 主题文本区 噪音区 相关研究工作—网页结构分析 * DOM网页标记树法 * 页面显示实体坐标位置法 * 基于映射表的网页结构内容分析法 提取层 识别层 分割层 解析层 顺序读文件 映射表 结构聚类 网页区域 解析器 区域特征提取 启发式规则 区域识别 语义区域 内容量化 滤除噪音 网页主题信息 网页主题信息提取分层流程图 HTML文档映射表主要是对头部和主体部分中文本条映射,即 头部映射、文本条内容映射、文本条属性(视觉、结构、语义)映 射。对HTML文档提取关键信息从而生成关于HTML文档的内容属 性映射表,即:f(Di ,i∈n)→Ti ,i∈n,其中Di为HTML文档集 ,Ti为对应的每个文档的内容属性映射表。 HTML网页映射表 表1 HTML网页映射表 Tab.1 Mapping table of HTML page 类型 字段名称 描述 头 ? 部 Title 网页标题 Keywords 关键词 Description 网页内容描述 ? 文 本 条 属 性 TextAtrributeId 属性标识号 TextStructure 文本条结构 TextIsAHref 有无超级链接 TextCharCount 文本条内字符的个数 TextCharFontType 文本条内字体的类型 文 本 条 内 容 TextContentId 文本条内容标识号与属性标识号一致 TextContent 文本条内容 TextAHref 文本条超级链接 HTML网页映射表 网页结构分析—结构生成 网页结构生成方法及表示形式 * 基于栈的网页结构生成方法 * 语义字符串分级表示 如A23123,其中A表示主体BODY中第一个表格TABLE,如果网页中还有其他同层次表格分别记为B,C,D等,2、3分别为第一个表格的内嵌行标记TR、单元格标记TD;1表示第一个表格A的嵌套表格,2、3分别为嵌套表格行标记、单元格标记。 ``` 网页结构分析—区域分割 ID 网页结构 网页内容 8 首页 9 关于我们 10 荣誉证书 11 产品展示 21 C23123123123 产品列表 22 C23123123123 摩托罗拉 23 C23123123123 诺基 24 C23123123123 索爱 51 C23123123123123 产品名称:三星SGH-W219 52 C23123123123123 产品型号:三星SGH-W219 53 C23123123123123 产地: 54 C23123123123123 付款方式:3860元 网页区域特征 根据网页的区域结构布局特征,设页面P=(A1,A2…An),其中网页区域Ai=(TextItemi1,TextItemi2 …TextItemij),TextItemij=(TextAbttributeMap,TextContentMap),TextAbttributeMap为文本条的结构、视觉和语义属性映射,TextContentMap为文本条内容映射。 在一个网页内,每个区域可以用5个变量来表达其语义特征: CountRatio:区域内有链接与无链接文本条内字符总个数的比值 LinkAvgCount:有链接文本条内字符的平均个数(均值) FormalDegree:字符的方差(方差) AvgCountDiff:无链接与有链接文本条内字符平均个数的差值 CharMaxCount:区域内文本条字符的最大个数。 启发式规则 IF CountRatio2 AND LinkAvgCount=6 AND FormalDegree=2 THEN Ai为导航区 ELSE IF CountRatio0.5 OR(0.5=CountRatio=2 AND CharMaxCount=15 AND AvgCountDiff=5) THEN Ai为
文档评论(0)