- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大规模异构的政府统计报表信息抽取与集成融合研究 摘要:政府统计数据作为国家的“战略金矿”,充分挖掘其内在价值,使之更好地服务于政府及公众,已成为当前智慧政务和新型智库发展中大数据系统建设的必然要求。但政府统计报表的半结构化和大规模异构特点,使得统计数据之间无法直接关联及聚合,影响了统计数据资源的深度挖掘与开发。鉴于此,本文针对已有研究的不足,在分析政府统计报表语义构成要素的基础上,结合其信息抽取与集成融合的应用目标,将处理任务分解为表格语义结构解析、表头语义关系识别、数值信息抽取表示、指标术语消冗转换及不一致统计数据消歧等五个逻辑过程,并定义了各过程的作用与主要任务,且研究构建了面向该任务的总体技术框架及其处理流程。大规模真实数据集上的应用结果表明,本研究方法能够较为有效地实现异构型政府统计报表的抽取与集成融合,具备较好的实际价值,同时也为其他基于半结构化表格的大数据建设与应用研究提供参考借鉴。 1 引言政府统计数据作为反映社会经济现象的权威数据资料,是国家的“战略金矿”我国统计数据由国家与各级行政区域下的相关政府部门进行收集和调查,以月报和年报等形式汇总,通过政府门户网站、政府数据开放平台和统计出版物等权威载体发布。其中,统计年鉴(资料)类出版物是全面、系统、连续地记录国民经济和社会发展各方面统计数据的核心载体。虽然原始统计数据均依照一定的表式填报,但各部门在公开发布时,一般会结合数据特点按统计主题进行报表汇总,由于汇总的内容和格式并无统一管理规定,造成目前已有的统计报表在内容结构上“千差万别”。以CNKI收录的2299种共24636册统计年鉴(资料)的近600万张统计报表为例,不同的报表内容结构就已超过了100万个政府统计报表的这种异构特点,使其由一个个的“结构化数据”集聚成了大规模的“半结构化数据”,数据之间无法直接关联和聚合,给统计数据资源的规范管理、深度挖掘与广泛利用带来了很大困难。如何有效地对大规模统计报表进行信息抽取、变换融合及结构化表示,以实现异构数据集成,是当前经济社会发展大数据及政务大数据基础资源建设的现实需求,也是进一步解决政府各部门数据孤岛问题和提升政府数据共享质量的重要基石。鉴于此,本文对政府统计报表的数据特点、信息抽取与集成融合的过程及任务进行分析,研究构建其技术框架与处理流程,并基于大规模真实数据集分析该套方法的应用和效果。2 相关研究数据集成是通过抽取各种异构数据,在进行转换和加载后,提供统一结构格式的数据表示和存储管理数据集成的研究始于多数据库集成,主要面向关系型数据库系统中存储的数据对象,已开发形成了一批代表性的集成工具,如Informatica系列政府统计报表是一种表格型文档数据。区别于关系型数据库中结构化的数据表,一般将样式不固定、数据排列混杂以及行或列表头具有层级嵌套等语义关系的表格称为半结构化表格,如实验对比分析表、技术参数表、业务调查表及业绩报表等。政府统计报表也是一类典型的半结构化表格相比于自由文本,半结构化表格虽然有一定的结构,但各类结构间的差别较大,不同领域类型的半结构化表格在构成要素及内部语义关系上表现出明显差异。此外,根据信息抽取与集成的任务特点也常采用特定的计算分析策略。已有研究成果中,并未见以大规模政府统计报表为数据集成对象的研究,也鲜见对大规模异构表格中表头层级嵌套等复杂语义关系的理解与处理研究;并且,抽取结果的“属性-值”序列表示形式,如何有效地变换融合与加载后实现数据集成等,也都是需从理论与实践应用角度重点研究的内容。3 政府统计报表的语义构成分析政府统计报表是反映统计资料的一类特殊数值表格,以简洁、清晰的风格体现所统计主题的完整内容,基本样式如图1所示。在政府统计报表中,统计数据的数值意义由表格各要素共同组成,包括标题、表前注释区、表体(行表头、列表头、数值区和upper-left-cell即ULC单元等)以及表尾注释区等。各要素所表达的功能如下。(1)标题。作为表格统计主题的名称,标题常包含对表格统计地域范围、统计时间区间、统计调查对象、统计范畴指标及表序表次等主要成分的描述,如“8-28 2017年北京市汽车制造业企业新产品开发及生产情况(一)”。其中,一些特殊情况下标题仅描述了单个成分,如“北京市”或“新产品开发及生产情况”等,相关成分则在表格其他要素中描述。(2)表前注释区。用于对表格标题的补充说明或标题内容的全局注释,包括统计调查对象或统计指标的分项标注,以及统计口径、量纲单位和统计时间等信息的全局说明,如“本表是2017年全国人口变动情况抽样调查样本数据,抽样比为0.824‰”、“本表绝对数按当年价格计算,指数按不变价格计算”与“单位:万人、万元、%”等。(3)表体。表体是表格的“正文”,表
您可能关注的文档
- 基于互联网+大赛的大学生创新创业教育模式探索.docx
- 基于机器学习LSTM网络的SO.docx
- 基于机器学习算法的石油钻速研究.docx
- 基于技能大赛的工业分析技术专业实训教学改革——以榆林职业技术学院为例.docx
- 基于交叉学科实践的药学专业创新人才培养新模式——以药物化学生物学第二课堂实践为例.docx
- 基于教师日常行为视角的大学城孤岛化研究——以济南长清大学城为例.docx
- 基于卷积神经网络和迁移学习的电动泵故障诊断方法研究.docx
- 基于决策树的SM4分组密码工作模式识别.docx
- 基于科研平台六好理念研究生创新能力的培养实践.docx
- 基于劳动教育培养新时代邮政人才的研究与实践.docx
有哪些信誉好的足球投注网站
文档评论(0)