- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
利用进行数据清洗
利用Solr进行数据清洗目录利用Solr进行数据清洗11.数据清洗概念12.发展现状13.基本原理24.范例24.1 场景24.2实现流程图34.3 测试结果35.参考资料51.数据清洗概念随着信息处理技术的不断发展,各行各业已建立了很多计算机信息系统,积累了大量的数据。为了使数据能够有效地支持组织的日常运作和决策,要求数据可靠无误,能够准确地反映现实世界的状况。数据是信息的基础,好的数据质量是各种数据分析如OLAP、数据挖掘等有效应用的基本条件。人们常常抱怨“数据丰富,信息贫乏”,究其原因,一是缺乏有效的数据分析技术,二是数据质量不高,如数据输入错误、不同来源数据引起的不同表示方法,数据间的不一致等,导致现有的数据中存在这样或那样的脏数据。它们主要表现为:拼写问题、打印错误、不合法值、空值、不一致值、简写、同一实体的多种表示、不遵循引用完整性等。数据清洗(Data Cleaning,Data Cleansing或者Data Scrubbing)的目的是检测数据中存在的错误和不一致,剔除或者改正它们,以提高数据的质量数据清洗主要在数据仓库、数据库知识发现(也称数据挖掘)和总体数据质量管理这3个领域研究较多。在数据仓库研究和应用领域,数据清洗处理是构建数据仓库的第一步,由于数据量巨大,不可能进行人工处理,因此自动化数据清洗受到工商业界的广泛关注。2.发展现状主要集中在以下4个方面。(1)检测并消除数据异常采用统计方法来检测数值型属性,计算字段值的均值和标准差,考虑每个字段的置信区间来识别异常字段和记录。将数据挖掘方法引入数据清理,如聚类方法用于检测异常记录、模型方法发现不符合现有模式的异常记录、关联规则方法发现数据集中不符合具有高置信度和支持度规则的异常数据。(2)检测并消除近似重复记录即对重复记录进行清洗。消除数据集中的近似重复记录问题是目前数据清洗领域中研究最多的内容。为了从数据集中消除重复记录,首要的问题就是如何判断两条记录是否近似重复。(3)数据的集成在数据仓库应用中,数据清洗首先必须考虑数据集成,主要是将数据源中的结构和数据映射到目标结构与域中。在这方面已经开展了大量的研究工作。(4)特定领域的数据清洗不少数据清洗方案和算法都是针对特定应用问题的,只适用于较小的范围。通用的、与应用领域无关的算法和方案较少。3.基本原理数据清洗的原理为:利用有关技术,如统计方法、数据挖掘方法、模式规则方法等将脏数据转换为满足数据质量要求的数据。数据清洗按照实现方式与范围,可分为以下4种。(1)手工实现通过人工检查,只要投入足够的人力、物力与财力,也能发现所有错误,但效率低下。在大数据量的情况下,手工操作几乎是不可能的。(2)编写专门的应用程序这种方法能解决某个特定的问题,但不够灵活,特别是在清洗过程需要反复进行(一般来说,数据清洗一遍就达到要求的很少)时,导致程序复杂,清洗过程变化时,工作量大。而且这种方法也没有充分利用目前数据库提供的强大数据处理能力。(3)解决某类特定应用域的问题如根据概率统计学原理查找数值异常的记录,对姓名、地址、邮政编码等进行清洗,这是目前研究较多的领域,也是应用最成功的一类。(4)与特定应用领域无关的数据清洗这一部分的研究主要集中在清洗重复记录上。在以上4种实现方法中,后两种具有某种通用性及其较大的实用性,引起了越来越多的关注。但是不管哪种方法,都由3个阶段组成:数据分析、定义;有哪些信誉好的足球投注网站、识别错误记录;修正错误。4.范例4.1 场景在生产中需要把两个厂家的数据进行关联,但出现了同一个实体的命名不一致的问题。例如:从A厂家获得了景点数据,从B厂家获得了旅游团行程数据(其中包含参观景点的名称),这两个不同数据源的景点名称出现了命名不一致的现象,如下表:序号A厂家景点数据B厂家旅游团数据1龙庆峡旅游区北京龙庆峡2黑龙潭旅游区北京密云黑龙潭3居庸关长城十三陵居庸关长城景区4圣莲山旅游度假区北京圣莲山=5司马台长城景区司马台长城6元大都城垣遗址公园北京市朝阳区元大都城垣遗址公园7红螺寺北京红螺寺圣泉景区实现目标是:规定A厂家的景点名称是标准,需要把B厂家旅游团数据中景点名称全部更换成A厂家景点名称。本文推荐一种自动化的数据清洗方法。4.2实现流程图Solr有哪些信誉好的足球投注网站引擎会将景点名称的脏数据,进行词法分析、语法分析和语言处理,最终在景点标准名称库中找出同一个实体的标准名称。4.3 测试结果下文格式说明:“不标准的景点名称=标准的景点名称”北京市慕田峪长城=慕田峪长城:7文化部恭王府=恭王府:3延庆县八达岭=八达岭滑雪俱乐部:137北京市颐和园=颐和园:4北京奥林匹克公园=北京奥林匹克水上公园:47故宫博物院=故宫博物院:1北京利达海洋生物馆=北京海洋馆:16北京市植物园=北京市植物园:27北京汽车博物馆=北京汽车博物馆:181北京市
您可能关注的文档
- 初三module讲义.doc
- 初一荔湾区统考.doc
- 初三历史学情分析.doc
- 初三上module讲义.doc
- 初三化学北京朝阳区2014.doc
- 初三历史教学备忘录.doc
- 初三家教培优文档.doc
- 基站塔桅-机房简要介绍.ppt
- 初三总复习专项练习一.doc
- 初三所有方程式.doc
- 健康与美容选题.pdf
- 游戏玩法细则说明.pdf
- sigma-n5655共aldrich安全数据表.pdf
- 成果综合文案.pdf
- 详解说明访问raz leclr.pdf
- 资料案例aoi chibougamau cymt青色.pdf
- 考虑以下线性回归一般公式review panel data modelsReview数据模型.pdf
- 节课-题目分析题型.pdf
- ge石油天然气全球服务涡轮机械操作-场活动ehs wi offshore safety eng ver0.pdf
- 课程笔记初学者s39 unagi road trip 22汉字2 kana audio b s3l9 jpod101.pdf
最近下载
- 幼师急救知识培训.pptx VIP
- 第一课 情感表达(1)课件(25页PPT).pptx VIP
- 保护校验标准化作业指导书——RCS-922短引线保护校验标准化作业指导书.pdf VIP
- 电磁感应双棒问题.doc VIP
- (正式版)D-L∕T 5496-2015 220kV~500kV户内变电站设计规程.docx VIP
- 环境影响评价报告公示福建蓝海黑石长泰环评报告环评报告.doc
- 2024北京银行金融人工智能应用平台建设与实践.pdf
- 旅游景点智慧导览系统开发与应用方案.doc VIP
- 工会规章规章制度总汇编.docx VIP
- (高清版) 1075-2023 光伏发电站工程项目用地控制指标.pdf VIP
文档评论(0)