Python数据分析与应用_从数据获取到可视化)(第2版)课件 第10章 实战演练——租房数据统计分析.pptxVIP

Python数据分析与应用_从数据获取到可视化)(第2版)课件 第10章 实战演练——租房数据统计分析.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第10章实战演练——租房数据统计分析

《Python数据分析与应用:从数据获取到可视化(第2版)》

掌握数据类型的转换方式,能够根据需要转换数据的类型

掌握Matplotlib的基本使用,能够绘制柱形图、折线图和饼图

掌握重复值的检测与处理方式,能够检测与删除重复值

掌握Pandas读写功能,能够熟练地从文件中读取数据

学习目标/Target

随着中国经济的快速发展,北京市的资源和就业机会吸引了很多外

来人口,使北京市逐渐成为中国人口密集的城市之一。本章将以北京市某年的租房数据为例,运用前面章节所学知识完整呈现数据处

理、分析及可视化的过程。

章节概述/Summary

+

333

01数据收集

02数据处理

03数据分析与展现

目录/Contents

L山

10.1

数据收集

333

10.1数据收集

目前网络上有很多的租房平台,比如自如、

爱屋吉屋、房天下、链家等,其中链家是目前市场占有率最高的公司,给用户提供了可靠的房源信息。

M32f

A

B

C

D

E

1

区域

小区名称

户型

面积(m²)

价格(元/月)

2

东城

万国城MOMA

1室0厅

59.11平米

10000

3

东城

北官厅胡同2号院

3室0厅

56.92平米

6000

4

东城

和平里三区

1室1厅

40.57平米

6900

5

东城

菊儿胡同

2室1厅

57.09平米

8000

6

东城

交道口北二条35号院

1室1厅

42.67平米

5500

7

东城

西营房

2室1厅

54.48平米

7200

8

东城

地坛北门

1室1厅

33.76平米

6000

9

东城

安外东河沿

1室1厅

37.62平米

5600

10

东城

清水苑

1室1厅

45.61平米

6200

11

东城

李村东里

2室1厅

57.35平米

5700

12

东城

幸福北里

2室1厅

51.15平米

6500

13

东城

保利蔷薇

2室1厅

97.11

平米

10000

14

东城

东板桥西巷

2室1厅

52.86平米

5800

15

东城

本家润园三期

2室1厅

63.09平米

7800

芒皇严先

页业

大链家

北京租房数据4

就绪

画回凹100%+

4

链家官网上并没有提供平谷、怀柔、密云、延庆

等偏远地区的租房数据,所以本案例的分析不会

涉及到这四个区。

我们采集了链家网站发布的租房信息,

并将数据保存在lianjia_houses.cSv文件中。

数据来源

10.1数据收集

使用read_csv()函数从lianjia_houses.Csv文件读取房源数据。

读取房源数据

10.1数据收集

使用info()方法查看file_data对象的摘要信息。

file_data.info()

查看摘要信息

10.1数据收集

L山

10.2

数据处理

333

尽管租房数据整体是比较规整的,但或多或

少会存在一些问题,不能直接用做数据分析。为此,在进行分析前我们需要对租房数据进行一系列的检测与处理,提高数据的质量。

10.2.1重复值检测与处理

如果希望知道租房数据中是否存在重复值,则可以通过duplicated()方法检测。使

用duplicated()方法对租房数据进行检测,只要有重复值,就会把它所在行的值映射为True。

dup_value=file_data.duplicated()

file_data[dup_value==True]

检测重复值

10.2.1重复值检测与处理

file_data

=file_data.drop_duplicates(ignore_index=True)

file_data

使用drop_duplicates()方法删除租房数据中的重复值,并重置行索引。

删除重复值

10.2.1重复值检测与处理

在这套租房数据中,“面积(m²)”一列的数据里

面有中文字符“平米”,不能直接参与计算。为了方便后续对“面积(m²)”一列的数据进行数学运算,我们需要将“面积(m²)”一列数据的类型转换为数字类型。

10.2.2数据类型转换

转换面积列数据的类型

获取“面积(m²)”一列的数据,将这列数据末尾的中文字符“平米”去掉,并通过

astype()方法将去掉后的数据转换为float64类型。

new_arr=np.array([])

area_data=file_data[面积(m²)].val

文档评论(0)

chenfang888 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档