基于包装器的Web信息抽取算法实现【文献综述】.docVIP

下载本文档

13
0
约3.69千字
约 4页
2019-03-29 发布于浙江
举报
版权申诉

基于包装器的Web信息抽取算法实现【文献综述】.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

毕业设计文献综述计算机科学与技术基于包装器的Web信息抽取算法实现摘要：对基于包装器的Web信息抽取技术进行了描述，阐述了Web信息抽取算法的意义，并介绍了Web抽取算法的实现原理和研究现状，最后提出了自己对Web信息抽取算法袖的研究方法。关键词：信息抽取；包装器；抽取规则：一、研究基于包装器的Web信息抽取算法的意义当今社会随着互联网的迅速发展，互联网上流通的信息也在爆炸性地增长，并正在成为我们工作和生活中不可或缺的一员。然而，由于WWW是一个虚拟的开放环境，任何人和任何团体都可以在其上发表文章或言论。为帮助互联网用户有效地发布与接受信息，众多的互联网有哪些信誉好的足球投注网站引擎不断出现，向广大用户提供基本的信息检索服务，怎样快速有效经济地检索到某个主题的所有相关信息，就成了一个十分热门的课题。Web信息抽取技术就是有效解决如何准确的从Web页面中抽取所需要内容的一项技术[1]。二、Web信息抽取算法的研究现状 1.Web信息抽取算法的基本原理经过几十年的发展，主流的信息抽取技术一般可以分为基于自然语言理解，基于机器学习，基于Ontology和基于网页结构分析等方法[2]。（1）基于自然语言理解的方法自然语言的理解在传统的信息抽取问题中已经得到了广泛的研究，采用过滤，词性和词汇主义标识来建立短语和语句元素间的关联，通过给定的例子学习抽取规则。这些规则通过语法上的约束来定位元素。（2）基于包装器的方法包装器归纳方式的信息抽取根据事先由用户标记的样本实例，应用机器学习归纳算法，生成基于分隔符的抽取规则。其中分隔符实质是对感兴趣语义项上下文的描述，即根据语义项的左右边界来定位语义项。包装器归纳方式和基于自然语言理解方式的不同之处仅仅在于它使用语义项的上下文来定位信息并没有用到语言的语法约束，而是使用可以明确描绘所要数据块结构的特征格式[3]。（3）基于Ontology的方法前面所介绍的方法都依赖利用一个文档中数据的表示特征结构，来后成抽取规则或模式。然而，抽取也可以直接依赖数据本身的描述信息来完成，而对网页结构的依赖较少。而基于Ontology方法事先需由领域知识专家采用人工方式编写某一应用领域的Ontology，包括对象的模式，常值和关键字等信息，其中常值和关键字提供了语义项的描述信息。通过解析这个Ontology，系统能识别和抽取输入文档或页面的表示数据，并自动生成一个数据库[4~5]。（4）基于网页结构分析的方法这种技术依赖于HTML文档的内部结构特征一完成数据抽取。在开始抽取之前通过解析器将WEB文档解析成一棵语法树，半自动或自动的生成抽取规则，并应用到语法树上完成信息抽取操作[6~7]。 2.国内研究现状目前国内外研究较多的信息抽取技术基本上都是从网页上抽取具有固定格式或者信息组织分布相同的信息，如会议论文信息，商品信息，图书信息。这些研究的目的不是为了提取网页中的正文内容，而是为了把网页中的无结构化数据或半结构化，不规整的数据转换成结构化规整的数据。通常人们使用抽取页面正文部分信息的技术，如果网页正文信息抽取这种技术集成到文摘系统中，就可以方便的摘取网页的摘要；如果集成到文本分类系统中，就可以自动对网页分类聚类，这样就扩大了原有技术的适用范围。所以研究网页内容抽取技术对于自然语言技术的适用范围扩展到网页处理有着很大的意义。由于起步较晚以及中文信息处理的特殊性，中文信息抽取的水平与国外显得比较落后，主要的研究工作集中在中文命名实体识别上。20世纪90年代初期开始，国内外一些学者对中文通用命名实体识别进行了一些研究。如：清华大学的孙茂松是国内最早做中文人名识别的，主要采用统计的方法计算姓氏和人名用字概率。山西大学的刘开瑛做过人名，地名等实体的识别，他采用还是有统计为主的方法。复旦大学的吴立德对中文人名，组织机构名识别进行过研究采用了基于统计的方法，或者是基于规则的方法，或者是统计和规则相结合的方法，均取得了不错的效果[8]。但是国内在信息抽取模板自动获取方面的研究国内还是很少，但同时这又是信息抽取研究方面急待解决的一个问题[9]。三、Web信息抽取算法的研究方法； 1 网页的解析首先要对网页进行预处理，因为网页中含有大量垃圾代码和不必要的广告信息及冗余的脚本代码。然后对经过预处理的网页提取其中的正文信息。经过这样处理后，原网页就变为了可以被包装器所识别的格式。这部分工能预期使用HTMLparser来实现。 2 抽取规则的产生包装器就是一个根据用户提供的URL地址，返回给用户需要的信息的系统。包装器的抽取规则主要根据页面的结构决定。如下例：一个表结构的有关产品信息的HTML文档如下：