- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
联图知识采集系统
元数据采集系统 功能介绍 成都联图科技有限责任公司 系统简介 联图元数据采集系统,主要应用于本地计算机、局域网、互联网的信息采集抓取,尤其针对图书馆信息资源建设方面,设计开发了大量针对性强的工具,是图书馆信息建设不可多得的好帮手 系统采用先进的网络爬虫技术(WEB Crawler)和多媒体信息感知技术(Information Perception),可高效率、智能化搜集、采集网络信息资源 本机资源抓取 系统以悬浮半透明采集图标方式运行,用户可以将本地硬盘上的文本、pdf、音视频、flash等文件拖拽至悬浮图标,系统会自动弹出数据录入界面并识别文件的相关信息进行智能录入 同时系统支持将OFFICE文档等各种文档中的文本内容拖拽至悬浮图标,进行文本摘录 系统可以对采集到的资源进行动态的片段截取,如音视频片段截取、图片切图等,实现精确抓取 网页信息感知 采集系统采用先进的信息感知技术(Information Perception),在浏览网页时,系统可以自动感知到鼠标停留位置的网页信息,比如图片、flash、视频、pdf等,并提示用户是否采集此资源 信息感知功能同样可以感知到鼠标停留位置的重要元数据标签,从而可以感知到网页的重要文本元数据信息并及时采集。 智能化信息抓取 智能化信息抓取主要应用于对特定网站信息的批量抓取 所见即所得的数据样式设置 支持开放式数据库结构设计 可实现自动模拟翻页 可实现深度抓取子页面信息 支持多任务多线程同步运行 支持任务定时运行机制 智能化信息抓取 所见即所得的数据样式设置 系统可以自动对鼠标停留位置的网页标签进行识别并且高亮显示,实现快速定位网页中所需的元数据信息位置,并快速与数据库对应元数据字段绑定 智能化信息抓取 支持开放式数据库结构设计 当用户进行多任务采集不同网络资源时,系统允许用户为每个任务定制不同的数据库结构,用于存储不同的元数据信息 智能化信息抓取 可实现自动模拟翻页 对于检索性输出网页等信息量大的网页页面,系统可以自动模拟翻页动作,以抓取输出结果的全部信息内容 智能化信息抓取 可实现深度抓取子页面信息 对于带有子链接的页面,系统支持多层子页面深度抓取功能,抓取该条数据的所有信息资源。 智能化信息抓取 支持多任务多线程同步运行 系统采用多线程设计,可以支持多任务同时进行采集,充分利用网络带宽和计算机性能,达到最高效的信息抓取 智能化信息抓取 支持任务定时运行机制 对于频繁更新的网站板块,系统支持多任务定时运行机制,可以设置每个任务开始采集的时间,以及定期采集的时间间隔。 * * *
文档评论(0)