- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于子树广度的Web信息抽取-甘肃科技文献共享平台.PDF
第35 卷 第3 期 计 算 机 工 程 2009 年2 月 Vol.35 No.3 Computer Engineering February 2009 ·软件技术与数据库· 文章编号:1000—3428(2009)03—0089—02 文献标识码:A 中图分类号:TP393 基于子树广度的Web 信息抽取 王 权,施韶亭 (甘肃省科学技术情报研究所,兰州 730000) 摘 要:提出一种新的网页信息抽取方法,基于子树的广度可不加区分地对不同科技文献网站的页面信息进行自动抽取。对大量科技文献 网站进行信息抽取实验,已应用到甘肃省科技文献共享平台。实验结果证明,该方法能不依赖科技文献网页的来源而自动地抽取相关信息, 并能保证较高的数据抽取回召率和查准率。 关键词:子树广度;信息抽取;跨库检索 Web Information Extraction Based on Sub-tree Breadth WANG Quan, SHI Shao-ting (Institute of Science Technology Information of Gansu, Lanzhou 730000) 【Abstract 】This paper proposes a new method which can extract the useful information from the different document sites automatically based on the breadth of a sub-tree. Experimental evaluation on a large of Web pages from different document Web sites has done and this method has been applied to the platform of gansu science technology document sharing successfully. Experimental result shows this method automatically extracts the information ignoring where Web sites the pages come from and has high accuracy in terms of recall and precision . 【Key words 】sub-tree breadth; information extraction; cross-search 对不同数据源的检索信息进行提取是跨库检索系统的一 种关键技术。文献[1]基于XML 提出一系列交互机制和启发 式算法生成信息抽取规则;文献[2]定义断言说明文件,文件 中包含抽取数据的命令和步骤;文献[3]基于属性文法生成具 有容错机制的解析器对源文件进行解析抽取;文献[4]基于逻 辑的声明语言Elog 进行HTML 到XML 的翻译和解析。在遇 到异构性多数据源时,上述抽取方法均是针对某个信息源单 独进行提取,没有建立一个较高级别的统一抽象。本文提出 一种新的基于子树广度的网页信息抽取方法,能不区分科技 图2 VIP 网页组织形式 文献网页来源而自动正确地抽取相关重要内容,当网页更新 本文提出的方法不用生成抽取模板,而是通过查看科技 时也能自动正确地抽取信息。 文献网站每页显示的题录数并将此数存储在数据库,再使用 1 基于子树广度的信息抽取 HTML Tidy[5]将这些网页的HTML 格式清理转换成 XML 文 同一个科技文献网站采取相同的模板生成,
您可能关注的文档
- 基于HL7的电子病历交换模型的研究-Read.doc
- 基于IDA的钢管混凝土空间组合架连续梁桥抗震易损性я析-世界地震工程.PDF
- 基于J2EE的Oracle数据库连接研究与实现-中国科技论文在线.PDF
- 基于Kriging方法的三维地质可视化系统构建-华南地震.PDF
- 基于LDC的图像过渡区提取与分割-激光与红外.PDF
- 基于LMS和Fast-Kurtogram的滚动轴承早期故障诊断-噪声与振动控制.PDF
- 基于MATLAB的仿壁虎机器人天花板粘附运动仿真-OpenRepositoryof.PDF
- 基于Mel子带参数化特征的自动鸟鸣识别Automated-计算机应用.PDF
- 基于Memetic算法的车间动态调度策略研究-中国机械工程.PDF
- 基于ODMGJava绑定的面向对象数据库存储管理①-计算机系统应用.PDF
最近下载
- 清真保证体系培训.ppt VIP
- 2023年中外电影史论题库答案完成版.doc VIP
- (高清版)B-T 15596-2021 塑料 在玻璃过滤后太阳辐射、自然气候或实验室辐射源暴露后颜色和性能变化的测定.pdf VIP
- 学校食堂从业人员管理培训记录(40篇).doc VIP
- 《苏格兰的风》阅读练习及答案.doc VIP
- 调色师:达芬奇视频剪辑调色从入门到精通(上篇,共上中下3篇).pptx VIP
- 2025 银行公开招聘工作人员简章.pdf VIP
- 初中满分优秀作文五篇(写成长、写人生、写逐梦、写逆风、写母爱).docx VIP
- 《GBT 11345-2023 焊缝无损检测 超声检测 技术、检测等级和评定》专题研究报告.pptx VIP
- 6-特种设备安全附件、安全保护装置、测量调控装置及有关附属仪器仪表定期校验、检修及记录制度.doc VIP
有哪些信誉好的足球投注网站
文档评论(0)