首页 编程教程正文

数据分析学习记录贴(持续更新。。。)2019/8/2

piaodoo 编程教程 2020-02-22 22:06:32 883 0 python教程

本文来源吾爱破解论坛

本帖最后由 袅袅系秋风 于 2019-8-2 14:45 编辑

使用工具:anaconda
2019.8.2

[Python] 纯文本查看 复制代码

#去除重复数据
df1=DataFrame({'age':[26,35,18,35,35],'name':['Ben','John','Jerry','John','John']})
print(df1)
df1.duplicated()
df1.duplicated('name')
df1.duplicated('age')
df1.drop_duplicates()

1.png (26.82 KB, 下载次数: 0)

下载附件  保存到相册

2019-8-2 14:25 上传


[Python] 纯文本查看 复制代码
#缺失值处理
from pandas import read_excel
df=read_excel(r'C:\Users\fyz\Desktop\0814171成绩统计表.xlsx',skiprows=[1])
print(df)df.isnull()#判断是否缺失值
df.dropna()#删除值为空的行
df.fillna('?')#使用?填充缺失值
df.fillna(method='pad')#用前一个数据值替代NaN
df.fillna(method='bfill')#用后一个数据值替代NaN
df.fillna(df.mean())#使用均值填补数据
df.fillna(df.mean()['认知实习':'大学计算机基础'])#使用列的均值为某列空值填补数据
df.fillna({'认知实习':100,'大学计算机基础':99})#为不同的列填补不同的数据
df1['name'].str.strip()#清楚字符型数据左右指定字符
df1['name'].str.strip('n')
df1['name'].str.rstrip('n')#删除右边字符


#数据抽取
1、字段抽取
[Python] 纯文本查看 复制代码
df=read_excel('E:\Python\《基于Python的大数据分析基础及实战》064992【配套资源】\数据及相关的资料\i_nuc.xls',sheetname='Sheet4')
df['电话']=df['电话'].astype(str)#转化类型
df['电话']

电话.png (45.38 KB, 下载次数: 0)

下载附件  保存到相册

2019-8-2 14:13 上传


[Python] 纯文本查看 复制代码
bands=df['电话'].str.slice(0,3)抽取手机号码前3位,判断号码运营商
bands

bands.png (17.98 KB, 下载次数: 0)

下载附件  保存到相册

2019-8-2 14:13 上传


[Python] 纯文本查看 复制代码
areas=df['电话'].str.slice(3,7)抽取手机号码中间四位,判断号码区域
areas

areas.png (16.51 KB, 下载次数: 0)

下载附件  保存到相册

2019-8-2 14:13 上传


[Python] 纯文本查看 复制代码
tell=df['电话'].str.slice(7,11)#抽取手机号码后四位
tell

tell.png (18.4 KB, 下载次数: 0)

下载附件  保存到相册

2019-8-2 14:13 上传


2、字段拆分


[Python] 纯文本查看 复制代码
df=read_excel('E:\Python\《基于Python的大数据分析基础及实战》064992【配套资源】\数据及相关的资料\i_nuc.xls',sheetname='Sheet4')
df['IP'].str.strip()#ip先转为str,再删除首位空格
newDF=df['IP'].str.split('.',1,True)#按第一个.分成两列,1表示新增的列数
newDF
newDF.columns=['IP1','IP2-4']#给第1、2列增加列名称
newDF


3、重置索引

[Python] 纯文本查看 复制代码
from pandas import Series
from pandas import DataFrame
df=DataFrame({'age':[26,85,64,85,85],'name':['Ben','John','Jerry','John','John']})
df1=df.set_index('name')#以name列为新的索引
df1
df1.ix['John']#使用ix函数对John用户信息进行提取


4、记录抽取















版权声明:

本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。

有关影视版权:本站只供百度云网盘资源,版权均属于影片公司所有,请在下载后24小时删除,切勿用于商业用途。本站所有资源信息均从互联网搜索而来,本站不对显示的内容承担责任,如您认为本站页面信息侵犯了您的权益,请附上版权证明邮件告知【754403226@qq.com】,在收到邮件后72小时内删除。本文链接:https://www.piaodoo.com/7544.html

搜索