《Python数据分析》ch04 数据分析库Pandas.pptxVIP

《Python数据分析》ch04 数据分析库Pandas.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

Python数据分析数据分析库Pandas第四章计算机专业·任务驱动应用型教材

01Pandas数据结构

Pandas数据结构01一维数组SeriesSeries是一种类似于一维数组的对象,由一组数据(NumPy中的数据类型)及一组与之相关的数据标签(索引)组成。创建Series在Pandas中,Series函数用来创建一维数组对象Series。它的使用格式如下:

Pandas数据结构01创建Series对象后,可以通过设置Series属性达到修改Series的目的。Series常用属性如表4-1所示。

Pandas数据结构01Series常用函数Series集成了ndarray和dict的优点,可以使用ndarray或dict的所有索引操作和函数。Series常用函数如表4-2所示。

Pandas数据结构01二维数组DataFrameDataFrame是一个表格型的数据结构,含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引又有列索引,可以看作由Series组成的字典(使用同一个索引)。DataFrame中的数据是以一个或多个二维块存放的,而不是列表、字典或别的一维数据结构。

Pandas数据结构01DataFrame生成在Pandas中,DataFrame函数用来创建二维数组对象DataFrame。它的使用格式如下:参数说明如下。data:一组数据(ndarray、Series、map、list、dict等类型)。DataFrame生成最常用的一种方法是直接输入一个由等长列表或NumPy数组组成的字典。index:索引值,或者可以称为行标签。columns:列标签,默认为0,1,2,…,n。dtype:数据类型。copy:复制数据,默认为False。

Pandas数据结构01DataFrame属性通过DataFrame属性可以查看定义的数据。DataFrame常用属性如表4-3所示。

02导入数据

导入数据02读取Excel文件openpyxl模块库是一个读/写Excel2010文档的Python库,能够同时读取和修改Excel文档。执行其他与Excel相关的项目(包括读或写Excel),需要安装、加载该模块库。安装openpyxl模块库后,要想在程序中使用该模块库,还需要加以导入。在Pandas中,使用readexcel函数读取Excel自带的xls或xlsx文件中的数据。该函数的使用格式如下。

导入数据02

导入数据02

导入数据02写入Excel文件在Pandas中,从文件中读取的数据以DataFrame或Series格式保存在内存中,toexcel函数可以将数据保存为xls或xlsx文件。该函数的使用格式如下:

导入数据02

03数据处理

数据处理03数据清洗数据清洗是对一些没有用的数据进行处理的过程。在数据分析工作中,很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况。如果要使数据分析更加准确,就需要对这些没有用的数据进行处理。

数据处理03数据缺失在数据输入过程中,很容易出现数据遗漏现象,Pandas对象的所有描述性统计默认都不包括缺失数据。因此,在数值数据中,Pandas使用浮点值NaN(NotaNumber)表示缺失数据。这样可以很明显地发现缺失数据,方便修改。

数据处理01重复数据unique函数用于获取Series中的唯一值数组,删除重复数据。数据格式化数据格式化可以增强数据的可读性,如统一数据的小数点位数、添加千位分隔符。还可以实现特定的功能,如转换为百分比数据,百分比数据主要用于成绩分数等统计计算。

数据处理03数据转换当获得数据时,首先需要确定的是正确类型的数据,Pandas扩展了NumPy的类型系统,用dtype属性显示元素的数据类型。Pandas主要有以下几种数据类型。字符串类型:object。整数类型:int64、int32、int16、int8。无符号整数:uint64、uint32、uint16、uint8。浮点数类型:float64、float32。日期和时间类型:datetime64[ns]、datetime64[ns,tz]、timedelta[ns]。布尔类型:bool。

数据处理03当利用Pandas进行数据处理的时候,经常会遇到数据类型的问题,一般需要通过数据类型的转化,只有这样才能进行后续的数据操作。表4-6中列出了关于数据转换的函数。

数据处理03数据合并在实际处理数据的过程中,经常会遇到将多个表连接起来进行数据的处理和分析的情况,Pandas中也提供了几种方法来实现数据合并功能。merge函数基于两个DataFrame的共同列进行合并。该函数的使用格式如下:

04数据统计

数据统计0

文档评论(0)

扬州牧 + 关注
实名认证
文档贡献者

资料收集自互联网,若有侵权请联系删除,谢谢~

版权声明书
用户编号:8036120077000004

1亿VIP精品文档

相关文档