- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第3章数据处理包Pandas滚动计算、时间元素提取映射与离散化分组统计
滚动计算第3章滚动计算,也称为移动计算,给定一个数据序列,按指定的前移长度进行统计计算,比如求和、平均值、最大值、最小值、中位数、方差、标准差等。这里前移长度的计算,包含自身,如果待计算的数据序列小于指定的前移长度,则无法计算,用空值“nan”来表示。简单调用形式为:S.rolling(N).统计函数,其中S表示序列,N表示指定的前移长度importpandasaspdlist_data=[10,4,3,8,15,26,17,80,12,5]series_data=pd.Series(list_data)rolling_sum=series_data.rolling(5).sum()rolling_mean=series_data.rolling(5).mean()rolling_max=series_data.rolling(5).max()rolling_min=series_data.rolling(5).min()rolling_median=series_data.rolling(5).median()rolling_var=series_data.rolling(5).var()
时间元素提取第3章对时间格式的序列数据,提取包括年份、月份、周数、日期、小时、分钟、秒、星期几等时间元素。importpandasaspddata=pd.read_excel(dat.xlsx)这里“刷卡时间”数据格式为字符串
时间元素提取第3章对时间格式的序列数据,提取包括年份、月份、周数、日期、小时、分钟、秒、星期几等时间元素。importpandasaspddata=pd.read_excel(dat.xlsx)data[刷卡时间]=pd.to_datetime(data.iloc[:,1],format=%Y-%m-%d%H:%M:%S.%)这里“刷卡时间”数据格式为时间格式
时间元素提取第3章data[year]=data[刷卡时间].dt.yeardata[month]=data[刷卡时间].dt.monthdata[day]=data[刷卡时间].dt.daydata[hour]=data[刷卡时间].dt.hourdata[minute]=data[刷卡时间].dt.minutedata[second]=data[刷卡时间].dt.seconddata[week]=data[刷卡时间].dt.isocalendar().weekdata[weekday]=data[刷卡时间].dt.weekday将字符串类型的时间序列转化为时间戳类型。时间元素提取形式式为:“时间戳类型序列.dt.时间元素”,返回的结果依然是序列
映射第3章序列中的映射方法,简单的调用形式为:序列.map(映射参数),其中映射参数一般为字典类型,格式如:{原值1:映射值1,原值2:映射值2,...}。dict_map={进站:1,出站:0}data[刷卡类型]=data[刷卡类型].map(dict_map)
离散化第3章data1=data.iloc[data[刷卡类型].values==1,[0,5,6]]#取刷卡类型、hour、minute列data1_hour=data1.groupby(hour)[刷卡类型].sum()#按hour分组,对刷卡类型列求和
离散化第3章bins=[0,100,500,1000]dt1=pd.cut(data1_hour,bins)dt2=pd.cut(data1_hour,bins,labels=[0,1,2])dt_cut=pd.DataFrame({c1:data1_hour.values,c2:dt1.values,c3:dt2.values})dt_cut.index=data1_hour.index数据分割,即离散化,可以使用pandas库中的cut函数来实现,其简单调用形式为:pd.cut(S,bins)或pd.cut(S,bins,labels),其中S为数据序列,bins为分割区间列表,labels为分割区间的类别表示列表
分组统计第3章姓名日期消费类型消费额张明2018-01旅游200张明2018-01餐饮300张明2018-01服装300张明2018-02旅游100张明2018-02餐饮250张明2018-02服装250李红2018-01旅游50李红2018-01餐饮200李红2018-01服装400李红2018-02旅游100李红2018-02餐饮250李红2018-02服装500王周2018-01旅游500王周2018-01餐饮200王周2018-01服装100王周2018-
您可能关注的文档
- Python金融数据分析与挖掘(微课版) 课件 1-1. Python基本数据类型与基本数据结构.pptx
- Python金融数据分析与挖掘(微课版) 课件 1-2. Python公有方法.pptx
- Python金融数据分析与挖掘(微课版) 课件 1-3. Python基本数据结构方法.pptx
- Python金融数据分析与挖掘(微课版) 课件 2-1. 数组创建与操作.pptx
- Python金融数据分析与挖掘(微课版) 课件 2-2. 矩阵与线性代数运算.pptx
- Python金融数据分析与挖掘(微课版) 课件 3-1.序列.pptx
- Python金融数据分析与挖掘(微课版) 课件 3-2.数据框.pptx
- Python金融数据分析与挖掘(微课版) 课件 3-3.外部文件读取.pptx
- Python金融数据分析与挖掘(微课版) 课件 3-4.常用函数.pptx
- Python金融数据分析与挖掘(微课版) 课件 -4. Python条件语句、循环语句与函数.pptx
- 巴克莱-中国婴儿配方奶粉报告:成长的烦恼(全球食品行业)(202003).pdf
- 2024中国金融科技行业企业首席洞察报告.pdf
- BBI&雷报:2023中国动漫出海前瞻报告.pdf
- OneSight:2023Q2 BrandOS TOP100出海品牌社媒影响力榜单.pdf
- DPI+核医学产业中的人工智能:2023年第一季度景观概述(EN).pdf
- AI可信度分析报告.pdf
- CMAC-2024中国制药企业医学信息职能白皮书.pdf
- 2025空间美学设计趋势白皮书.pdf
- Product Ident GmbH:2024出海有方白皮书--跨境有方 简化合规 一键入海.pdf
- 2024智能教育发展蓝皮书-生成式人工智能教育应用(精华版).pdf
最近下载
- FPWINPro(第10章_利用指令列表编写程序).pdf VIP
- 《GB 30978-2014饮水机能效限定值及能效等级》(2025版)深度解析.pptx
- 2023年急性ST段抬高型心肌梗死诊断和治疗指南(2023年0326222214).docx
- 杭州西湖区小升初考试题.doc VIP
- ALC墙板安装合同协议书7篇.docx VIP
- 青岛版《科学》五制四年级上册第一单元《动物王国》1《蚂蚁》教学设计.pdf VIP
- NB∕T 11326-2023 煤层穿层钻孔水力冲孔技术规范.pdf
- 教学课件:高压电工培训.ppt VIP
- FPWINPro(第6章_由PLC上载程序).pdf VIP
- 银川平原地下水循环及其可更新能力评价的同位素证据-资源科学.PDF VIP
文档评论(0)