基于文本密度的藏文网页正文提取方法.docxVIP

下载本文档

4
0
约2.41千字
约 4页
2019-03-27 发布于贵州
举报
版权申诉

基于文本密度的藏文网页正文提取方法.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于文本密度的藏文网页正文提取方法

基于文本密度的藏文网页正文提取方法　　摘要：互联网的发展带动了另一种形式的信息传播，人们越来越多地依赖于电子产品，Web网页也随之变为了最大的信息源，利用好这些资源便涉及信息提取。为了从Web网页中获取关键藏文信息，文章提出了基于文本密度的藏文网页正文提取方法，利用半结构化的HTML网页中正文内容的连续性特点，结合正则表达式过滤HTML标签。此方法针对主题型网页，类似新闻类网页中的正文提取具有较高的准确率。　　关键词：藏文信息；藏文网页正文提取； HTML； Web网页　　中图分类号：TP391 文献标志码：A 文章编号：1006--46-02　　Abstract： The development of the Internet has led to another form of information dissemination， people are increasingly relying on electronic products， Web also become the largest source of information， and the use of these resources will involve the extraction of information. In order to obtain the key Tibetan information from the Web， this paper proposes a method to extract the Web text based on text density， which uses the continuity characteristics of semi-structured text content in HTML pages and the regular expression. This method has higher accuracy for text extraction in theme pages and similar news pages.　　Key words： Tibetan information； Tibetan Web content extraction； HTML； Web　　0 引言　　随着互联网的迅速发展，计算机应用技术在藏族地区的不断普及应用，出现了大量的藏文网页，为广大藏族群众提供了极其丰富的藏文信息资源。目前有哪些信誉好的足球投注网站引擎能帮助人们快速地有哪些信誉好的足球投注网站到想要的信息，但每个网页除了正文内容外还掺杂了很多用户不需要的信息。如网页中的导航链接、广告链接、版权信息和相关主题阅读推荐链接等。这些信息在网页中出现，影响了用户对主题内容的浏览。按照现在的发展情况，藏文网页的数量呈现上升趋势，用户的数量也在逐年增加。　　因此，从大量噪音信息的网页中将正文信息准确、完整地提取出来，显得尤为重要。Web信息提取是将Web作为信息源的一类信息提取，就是从半结构化的Web文档中抽取数据。国内外在这方面关注的时间比较早，研究提出的方法也很多，技术已趋于成熟。目前藏文网页正文提取研究较少，西藏大学提出了一种基于标签分段的藏文网页正文提取[1]，利用HTML标记用途分析提到的此方法对标签的依赖性高，加之HTML语言的规范性不是很好，网页设计人员的语言风格也不尽相同，如遇未使用标记的网页很难实现有效提取。有些论文中提到了关于网页除噪[2]的问题，但是没有进一步研究与之结合及提出行之有效的藏文网页正文提取。本文提出的方法意在避免复杂的算法，利用简单可行的方法将其实现。　　1 基于文本密度的藏文网页提取　　藏文网页大部分都是以国内外新闻、藏族文化历史、藏族风土人情、藏文论坛等为主要内容。由于大量的藏文网页中多数是以文字内容为主体，本文针对此类主题型网页进行分析，实现基于文本密度的正文提取算法。互联网上藏文网页常用的标记语言主要包含HTML和XML等格式，其中HTML语言是大部分网页的基础。由于HTML存储的网页信息资源是半结构化，用户使用和提取信息无法直接操作，因此，需要对其结构进行分析。　　正文内容的结构特征　　一个网页的正文内容具有很好的连续性，结构都非常相似，在HTML格式中正文出现在标签中，如图1所示。通过对大量的主题型网页进行分析，我们发现正文内容的连续性和集中性的特点普遍的存在。HTML标签使用上也存在着很多的共性，例如对于篇幅较长、文字?^多的内容，利用　　标签将其段落分明。鉴于此，在标签中找到文本密集的连续段落就能准确获取正文内容。　　正文提取　　按照HTML语言的规范，标签通常都成对出现，基于这个规范，将每对标签内容作为基本处理单位，存储于字符数组lines以便分析。