pandas 实操函数使用合集

可视化

1.https://blog.csdn.net/u013317445/article/details/88175366
2.pd.options.display.max_rows = 10 #缩略显示10行df
3.

import seaborn as sns
sns.relplot(x="len_day", y='DAU',hue='country1',kind='line',col='server_id',row='country1',data=server,ci=None, aspect=1, height=3)
plt.show() #线图

4.plt.xticks(rotation=45)#倾斜45度

常用函数

1.apply运用

import numpy as np
import pandas as pd
df=pd.DataFrame(np.random.randn(4,3),columns=list('bde'),index=['utah','ohio','texas','oregon'])
print(df)
"""b         d         e
utah   -0.667969  1.974801  0.738890
ohio   -0.896774 -0.790914  0.474183
texas   0.043476  0.890176 -0.662676
oregon  0.701109 -2.238288 -0.154442
"""#将函数应用到由各列或行形成的一维数组上。DataFrame的apply方法可以实现此功能
f=lambda x:x.max()-x.min()
#默认情况下会以列为单位，分别对列应用函数
t1=df.apply(f)
print(t1)
t2=df.apply(f,axis=1)
print(t2)"""
b    1.597883
d    4.213089
e    1.401566
dtype: float64
utah      2.642770
ohio      1.370957
texas     1.552852
oregon    2.939397
dtype: float64
"""#除标量外，传递给apply的函数还可以返回由多个值组成的Series
def f(x):return pd.Series([x.min(),x.max()],index=['min','max'])
t3=df.apply(f)
#从运行的结果可以看出，按列调用的顺序，调用函数运行的结果在右边依次追加
print(t3)"""b         d         e
min -0.896774 -2.238288 -0.662676
max  0.701109  1.974801  0.738890
"""#元素级的python函数，将函数应用到每一个元素
#将DataFrame中的各个浮点值保留两位小数
f=lambda x: '%.2f'%x
t3=df.applymap(f)
print(t3)
"""b      d      e
utah    -0.67   1.97   0.74
ohio    -0.90  -0.79   0.47
texas    0.04   0.89  -0.66
oregon   0.70  -2.24  -0.15
"""#注意，之所以这里用map,是因为Series有一个元素级函数的map方法。而dataframe只有applymap。
t4=df['e'].map(f)
print(t4)"""
utah     0.74
ohio     0.47
texas   -0.66
oregon  -0.15
"""

2.lambda x, y: x*y；函数输入是x和y，输出是它们的积x*y
map(lambda x: x ** 2, [1, 2, 3, 4, 5]) #会根据提供的函数对指定序列做映射。使用 lambda 匿名函数
结果：[1, 4, 9, 16, 25]

3.c = df.groupby(['A'])['D'].mean() #以A分组，算D的平均值 sum() max() min()

4.eval()将字符串转换为字典形式，不是用dict函数，而是用eval函数
5.df.apply(f,axis=1) #f代表一个函数可以是匿名或者非匿名的 axis=1行 axis=0列

6. pd.pivot_table(df,index=[u'主客场'],columns=[u'对手'],values=[u'得分'],
7. aggfunc=[np.sum],fill_value=0,margins=1)#pandas中的透视表 与 groupby很相似
#fill_value填充空值,margins=True进行汇总
#aggfunc参数可以设置我们对数据聚合时进行的函数操作
#Index就是层次字段，要通过透视表获取什么信息就按照相应的顺序设置字段
#Values可以对需要的计算数据进行筛选
#Columns类似Index可以设置列层次字段，它不是一个必要参数，作为一种分割数据的可选方式。

7.a15=pd.read_csv(r'D:\km_data\数据分析\aoz\CN分析\aoz_uid.txt',sep='\t') #打开TXT文件

#==========================================================

df处理

1.c = df.groupby(['A'])['D'].mean() #以A分组，算D的平均值 sum() max() min()
2.df.drop_duplicates() #去重 unique() #去重
3.df.fillna(0)空值替换为0
4.pd.concat([df1,df2,df3],axis=0，join='outer') #axis=0默认为0沿着列拼接 1为沿着行的索引拼接
#join：{‘inner’，‘outer’}，默认为“outer”。如何处理其他轴上的索引。outer为联合和inner为交集。

5.datafram连接

s1 = pd.Series([0,1,2],index = ['a','b','c'])s2 = pd.Series([2,3,4],index = ['c','f','e'])s3 = pd.Series([4,5,6],index = ['c','f','g'])

#=========================================

pd.concat([s1,s2,s3]) #默认并集、纵向连接

pd.#===============================================

concat([s1,s2,s3],ignore_index = True)#生成纵轴上的并集，索引会自动生成新的一列

#=====================================================

pd.concat([s1,s2,s3],axis = 1,join = 'inner')#纵向取交集,注意该方法对对象表中有重复索引时失效

#========================================================

pd.concat([s1,s2,s3],axis = 1,join = 'outer')#横向索引取并集，纵向索引取交集,注意该方法对对象表中有重复索引时失效

6. pd.DataFrame.from_dict(data, orient='index',columns=['A', 'B', 'C', 'D'])
#把data字典转化为 dataframe

pandas 合并多个DataFrame

1.pd.merge(aoz_tota3,aoz_tota4,left_on='server_id',right_on='server_id',how='left') #左右匹配表 left_index=True how=left/right/outer

pandas 更改DataFrame的行名或列名

#==========================================================

.常见字符串函数使用

string.count(str, beg=0, end=len(string))

返回 str 在 string 里面出现的次数，如果 beg 或者 end 指定则返回指定范围内 str 出现的次数

string.split(str="", num=string.count(str))

以str为分隔符切片 string，如果 num有指定值，则仅分隔num个子字符串

string.replace(str1, str2, num=string.count(str1))

把 string 中的 str1 替换成 str2,如果 num 指定，则替换不超过 num 次.

strip(' ')

去除字符串两端指定元素

#=====================================================

拆分字符串+行转列

cc = pd.concat({ k: pd.DataFrame.from_dict(eval(v), 'index') for k, v in dict(aoz_battle['power_lose']).items() },axis=0).reset_index()

items()列出aoz_battle[‘power_lose’]的键/值
from_dict把字段的键/值分为两列记录
k始终记录原始表中的默认索引(会有重复)
concat合并后重置索引

map()

会根据提供的函数对指定序列做映射 function :函数 iterable:一个或多个序列

stack()  df['xxx'].stack()

使用stack函数，将行索引转变成列索引

reset_index  df.reset_index()

可以还原索引，重新变为默认的整型索引 level控制了具体要还原的那个等级的索引 drop为False则索引列会被还原为普通列，否则会丢失

eval (xxx)

将字符串转换为字典形式，不是用dict函数，而是用eval函数
（有些列看似是字典样式实则记录为字符串形式这种解析为字典时会把所有字符串(看似字典)算为值然后单独加一个键）
#======================================================

汇总datafram时常用函数

1.a16['user_id']=pd.to_numeric(a16['user_id'], errors='coerce') #转换列的数据格式

2.diff(1)#一阶差分

3.np.unique取唯一值

4.df.describe() 总数/平均数/方差…

5.pd.cut(df,[切片点...10,20,30],labels=[分组标记显示为...])#左开右闭

6..reset_index()重置索引

7.p['xx_1'] = p["xx"].shift(1) #上面得到的就是xx字段向下移动一行的结果，和之前相比向下移动一行，你可以设置为任意行，也可是向上向下

8.df.query() #df.query("age==24").query('hight==174') / df.query('weight1 > weight2') 用来写筛选数据测的条件

9.df.apply(f,axis=1) #f代表一个函数可以是匿名或者非匿名的 axis=1行 axis=0列


#pandas中的透视表 与 groupby很相似11.`df.sort_index(axis=1,ascending=False)` #安行排序 默认True 降序

12.import statsmodels.api as sm
sm.OLS(endog=df[x], exog=df[x1,x2,x3]).fit().summary()


#显著性P值 回归分析 全部打印出来 回归拟合的数据13.`a16['user_id']=pd.to_numeric(a16['user_id'], errors='coerce')` #转换列的数据格式