数据采集与数据预处理.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据采集与数据预处理.doc

数据采集和数据预处理 3.2.1 数据采集 数据采集功能主要用于实现对DSM分析研究中所需的电力供需、相关政策法规等原始数据、信息的多种途径采集。数据采集为使用者提供定时数据采集、随机采集、终端主动上报数据等多种数据采集模式,支持手工输入、电子表格自动导入等多种导入方式,且能够对所采集的数据进行维护,包括添加、修改、删除等,并能进行自动定期备份。在需求侧管理专业化采集中,` 采集的数据根据结构特点,可以分为结构化数据和非结构化数据,其中,结构化数据包括生产报表、经营报表等具有关系特征的数据;非结构化数据,主要包括互联网网页( HTML) 、格式文档( Word、PDF)、文本文件(Text)等文字性资料。这些数据目前可以通过关系数据库和专用的数据挖掘软件进行挖掘采集。特别是非结构化数据,如DSM相关的经济动态、政策法规、行业动态、企业动态等信息对DSM分析研究十分重要,综合运用定点采集、元有哪些信誉好的足球投注网站、主题有哪些信誉好的足球投注网站等有哪些信誉好的足球投注网站技术,对互联网和企业内网等数据源中符合要求的信息资料进行搜集,保证有价值信息发现和提供的及时性和有效性。DSM信息数据采集系统中数据采集类型如图2所示。在数据采集模块中,针对不同的数据源, 设计针对性的采集模块,分别进行采集工作,主要有网络信息采集模块、关系数据库信息采集模块、文件系统资源采集模块和其他信息源数据的采集模块。 (1)网络信息采集模块。网络信息采集模块的主要功能是实时监控和采集目标网站的内容,对采集到的信息进行过滤和自动分类处理,对目标网站的信息进行实时监控,并把必威体育精装版的网页及时采集到本地,形成目标站点网页的全部信息集合,完整记录每个网页的详细信息,包括网页名称、大小、日期、标题、文字内容及网页中的图片和表格信息等。 (2)关系数据库采集模块。该模块可以实现有哪些信誉好的足球投注网站引擎数据库与关系型数据库( 包括Oracle、Sybase、DB2、SQL Server、MySQL等) 之间的数据迁移、数据共享以及两者之间的双向数据迁移。可按照预设任务进行自动化的信息采集处理。 ( 3) 文件系统资源采集模块。该模块可以实现对文件系统中各种文件资源(包括网页、XML文件、电子邮件、Office文件、PDF文件、图片、音视频多媒体文件、图表、公文、研究报告等)进行批量处理和信息抽取。 ( 4) 其他信息源数据的采集。根据数据源接入方式,利用相应的采集工具进行信息获取、过滤等。 3.2.2 数据预处理 数据预处理的本质属于数据的“深度采集”,是信息数据的智能分析处理。利用网页内容分析、自动分类、自动聚类、自动排重、自动摘要/主题词抽取等智能化处理技术,对采集到的海量数据信息进行挖掘整合,最终按照统一规范的组织形式存储到DSM数据仓库,供图1 系统体系结构分析研究使用。数据预处理的工作质量很大程度上决定最终服务数据的质量,是DSM类项目( 如,DSM项目全过程管理、有序用电方案评价等)深度分析的重要基础。在数据智能分析处理中,主要包括:1)自动分类,用于对采集内容的自动分类;2)自动摘要,用于对采集内容的自动摘要;3)自动排重,用于对采集内容的重复性判定。 ************************************** 电力数据采集与传输是电力系统分析和处理的一个重要环节。从采集被测点的各种信息,如母线电压,线路电压、电流、有功、无功,变压器的分接头位置,线路上的断路器、隔离开关及其它设备状态、报警、总有功功率、事件顺序等,对电力系统运行管理具有重要作用[ 1]。 ********************************** 电力信息的数据采集与集成 电力作为传统[业,其下属分系统众多,因而数据的种类也相当繁杂。数据类型包括工程 数据、设备运行数据、电网调度实时数据、物料数据、用户数据、等等。我们在物理网络整 合的基础上,下一步进行数据集成了。电力数据集成主要解决两个方面的问题,一是解决数 据分散性问题,另外一个是解决数据结构异构不匹配的问题。 由于电力系统涵盖地域广泛,发电、输电、用电的信息系统都分散在不同区域,从组织管 理来看,省电力公司与下属电力企业地域分散性也非常高,电力数据信息的分布也散步在不 同地方。为了这个问题,建立数据集成平台,逐渐引入网络存储、建立数据集中存储中心, 把企业现有的大量的数据库进行物理合并;整合到一起的数据可被多台服务器存取。数据整 合从逻辑上讲是在服务器集中和物理整合、网路互连之后进行的。数据整合可以通过更集中 的方式管理和控制数据,从而创造更大的规模效应。 另一方面,电力系统由于其分系统功能特异,数据的存储方式各不相同,有实时海量的系 统实时监控数据,有用于系统管理的管理数据,还有来自于外部互连的众多信息,同时由于 系统建设的遗留问题,拥有众多不同种类的

文档评论(0)

dmz158 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档