1.读取文件操作

读取文件

data = pd.read_csv(’./data/stock_day.csv’)

删除一些列，让数据更简单些，再去做后面的操作

data = data.drop([“ma5”,“ma10”,“ma20”,“v_ma5”,“v_ma10”,“v_ma20”], axis=1)

2.索引操作

2.1 直接使用行索引的方式(先行后列)

#直接使用行列索引名字的方式（先列后行）
data['open']['2018-02-27']
23.53

#不支持的操作
#错误
data['2018-02-27']['open']
#错误
data[:1, :2]

1.2 结合loc或者iloc使用索引
获取从’2018-02-27’:‘2018-02-22’，'open’的结果

# 使用loc:只能指定行列索引的名字
data.loc['2018-02-27':'2018-02-22', 'open']2018-02-27    23.53
2018-02-26    22.80
2018-02-23    22.88
Name: open, dtype: float64

# 使用iloc可以通过索引的下标去获取
# 获取前100天数据的'open'列的结果
data.iloc[0:100, 0:2].head()open    high    close    low
2018-02-27    23.53    25.88    24.16    23.53
2018-02-26    22.80    23.78    23.53    22.80
2018-02-23    22.88    23.37    22.82    22.71

1.3 使用ix组合索引

ix:混合索引与切片，在ｐａｎｄａｓ　1.0中已经删除这个ａｐｉ了(先行后列)

可以支持名称和数值索引

Warning:Starting in 0.20.0, the .ix indexer is deprecated, in favor of the more strict .iloc and .loc indexers.获取行第1天到第4天，['open', 'close', 'high', 'low']这个四个指标的结果# 使用ix进行下表和名称组合做引
data.ix[0:4, ['open', 'close', 'high', 'low']]# 推荐使用loc和iloc来获取的方式
data.loc[data.index[0:4], ['open', 'close', 'high', 'low']]
data.iloc[0:4, data.columns.get_indexer(['open', 'close', 'high', 'low'])]open    close    high    low
2018-02-27    23.53    24.16    25.88    23.53
2018-02-26    22.80    23.53    23.78    22.80
2018-02-23    22.88    22.82    23.37    22.71
2018-02-22    22.25    22.28    22.76    22.02

用loc和iloc代替写法

# data.ix[0:3,'open':'low']

# 根据名称拿编号
data.columns.get_indexer(['open','close'])data.iloc[0:3,data.columns.get_indexer(['open','close'])]
# data.columns.get_indexer(['open'])　　方法的【】内是列表，需要将要查询的列逐个写进去，不能切片# 根据下标拿名称
data.columns[0:4]data.loc['2018-02-26':'2018-02-22',data.columns[0:4]]

2 赋值操作

如果赋的为单一值的话，就会将整列都赋为单一值，若想修改一列中不同的值，则需要赋上和原列同样长度的列表
用列表或者ｓｅｒｉｅｓ都可赋值,data[‘low’]取出来是ｓｅｒｉｅｓ，data[‘low’].values取出来是列表（ｓｅｒｉｅｓ的方法）
data[‘close’] = data[‘low’]
data[‘close’] = data[‘low’].values

加粗样式对DataFrame当中的close列进行重新赋值为1

# 直接修改原来的值
data['close'] = 1
# 或者
data.close = 1

#与上面一种方法的区别是，'ｄａｔａ.新列＝ｘ’是无法添加新列的，但’data[新列]＝新值’可以

3 排序

排序有两种形式，一种对于索引进行排序，一种对于内容进行排序

3.1DataFrame按值进行排序

使用df.sort_values(by=, ascending=)
by指定按哪一列，ａｓｃｅｎｄｉｎｇ指定升降序，默认是Ｔｒｕｅ升序
单个键或者多个键进行排序,默认升序
ascending=False:降序
ascending=True:升序

# 按照涨跌幅大小进行排序 , 使用ascending指定按照大小排序
data = data.sort_values(by='p_change', ascending=False).head()open    high    close    low        volume price_change p_change turnover
2015-08-28    15.40    16.46    16.46    15.00    117827.60    1.50    10.03    4.03
2015-05-21    27.50    28.22    28.22    26.50    121190.11    2.57    10.02    4.15
2016-12-22    18.50    20.42    20.42    18.45    150470.83    1.86    10.02    3.77
2015-08-04    16.20    17.35    17.35    15.80    94292.63    1.58    10.02    3.23
2016-07-07    18.66    18.66    18.66    18.41    48756.55    1.70    10.02    1.67# 按照过个键进行排序
data = data.sort_values(by=['open', 'high'])open    high    close    low        volume price_change p_change turnover
2015-06-15    34.99    34.99    31.69    31.69    199369.53    -3.52    -10.00    6.82
2015-06-12    34.69    35.98    35.21    34.01    159825.88    0.82    2.38    5.47
2015-06-10    34.10    36.35    33.85    32.23    269033.12    0.51    1.53    9.21
2017-11-01    33.85    34.34    33.83    33.10    232325.30    -0.61    -1.77    5.81
2015-06-11    33.17    34.98    34.39    32.51    173075.73    0.54    1.59    5.92

3.1DataFrame按索引进行排序
使用df.sort_index给索引进行排序
默认是按升序Ｔｒｕｅ来排的
这个股票的日期索引原来是从大到小，现在重新排序，从小到大

# 对索引进行排序
data.sort_index()open    high    close    low    volume    price_change    p_change    turnover
2015-03-02    12.25    12.67    12.52    12.20    96291.73    0.32    2.62    3.30
2015-03-03    12.52    13.06    12.70    12.52    139071.61    0.18    1.44    4.76
2015-03-04    12.80    12.92    12.90    12.61    67075.44    0.20    1.57    2.30
2015-03-05    12.88    13.45    13.16    12.87    93180.39    0.26    2.02    3.19
2015-03-06    13.17    14.48    14.28    13.13    179831.72    1.12    8.51    6.16

3.3 Series按值排序

使用series.sort_values(ascending=True)进行排序
series排序时，只有一列，不需要参数

data['p_change'].sort_values(ascending=True).head()2015-09-01   -10.03
2015-09-14   -10.02
2016-01-11   -10.02
2015-07-15   -10.02
2015-08-26   -10.01
Name: p_change, dtype: float64

3.3 Series按索引排序
使用series.sort_index()进行排序
与df一致

# 对索引进行排序
data['p_change'].sort_index().head()2015-03-02    2.62
2015-03-03    1.44
2015-03-04    1.57
2015-03-05    2.02
2015-03-06    8.51
Name: p_change, dtype: float64

4.算数运算

stock为数据，open为数据内的列索引

# 加法运算:DataFrame所有数据都加+2# stock + 2
# stock['open'] + 2
# stock.add(2)
stock.open.add(2).head()# 减法运算
# stock.open - 2
stock.open.sub(2).head()# 乘法运算
# stock * 2
# stock.open.mul(2)# 除法运算
# stock.open / 2
stock.open.div(2).head()

5.逻辑运算

5.1 逻辑运算符号<、 >、|、 &

# 1.判断涨跌幅是否大于2
stock.p_change > 2# 2.获取涨跌幅大于2的股票信息(过滤)
stock[stock.p_change > 2]# 完成一个多条件判断，筛选p_change > 2 并且open > 15
stock[(stock.p_change>2) & (stock.open > 15)]# 筛选p_change > 10 或者 open > 20
stock[(stock.p_change>10) | (stock.open > 20)]

5.2 逻辑运算函数

query(expr)
expr:查询字符串
通过query使得刚才的过程更加方便简单

data.query("p_change > 2 & turnover > 15")

isin(values)
例如判断’turnover’是否为4.19, 2.39
判断某个字段是否在某个区间内
返回True或False

# 可以指定值进行一个判断，从而进行筛选操作
data[data['turnover'].isin([4.19, 2.39])]

5.3 统计运算

3.1 describe()

综合分析: 能够直接得出很多统计结果,count, mean, std, min, max 等

计算平均值mean、标准差std、最大值max、最小值min、非空数据的个数count、中位数:50%、1/4位数：25%、3/4位数：75%

# 计算平均值、标准差、最大值、最小值
data.describe()
describe结果

info（）判断是否有缺失值，并判断每一列的数据类型

stock.info()

3.2 统计函数

Numpy当中已经详细介绍，在这里我们演示min(最小值), max(最大值), mean(平均值), median(中位数), var(方差), std(标准差),mode(众数)结果,

对于单个函数去进行统计的时候，坐标轴还是按照这些默认为“columns” (axis=0, default)，如果要对行“index” 需要指定(axis=1)

max()、min()

# 使用统计函数：0 代表列求结果， 1 代表行求统计结果
data.max(0)open                   34.99
high                   36.35
close                  35.21
low                    34.01
volume             501915.41
price_change            3.03
p_change               10.03
turnover               12.56
my_price_change         3.41
dtype: float64

std()、var()

# 方差
data.var(0)open               1.545255e+01
high               1.662665e+01
close              1.554572e+01
low                1.437902e+01
volume             5.458124e+09
price_change       8.072595e-01
p_change           1.664394e+01
turnover           4.323800e+00
my_price_change    6.409037e-01
dtype: float64

# 标准差
data.std(0)open                   3.930973
high                   4.077578
close                  3.942806
low                    3.791968
volume             73879.119354
price_change           0.898476
p_change               4.079698
turnover               2.079375
my_price_change        0.800565
dtype: float64

median()：中位数中位数为将数据从小到大排列，在最中间的那个数为中位数。如果没有中间数，取中间两个数的平均值。

df = pd.DataFrame({'COL1' : [2,3,4,5,4,2],'COL2' : [0,1,2,3,4,2]})df.median()COL1    3.5
COL2    2.0
dtype: float64

idxmax()、idxmin()

# 求出最大值的位置
data.idxmax(axis=0)open               2015-06-15
high               2015-06-10
close              2015-06-12
low                2015-06-12
volume             2017-10-26
price_change       2015-06-09
p_change           2015-08-28
turnover           2017-10-26
my_price_change    2015-07-10
dtype: object

# 求出最小值的位置
data.idxmin(axis=0)open               2015-03-02
high               2015-03-02
close              2015-09-02
low                2015-03-02
volume             2016-07-06
price_change       2015-06-15
p_change           2015-09-01
turnover           2016-07-06
my_price_change    2015-06-15
dtype: object

5.4 累计统计函数

那么这些累计统计函数怎么用？

cumsum1

以上这些函数可以对series和dataframe操作

这里我们按照时间的从前往后来进行累计

排序

# 排序之后，进行累计求和
data = data.sort_index()

对p_change进行求和

stock_rise = data['p_change']
# plot方法集成了前面直方图、条形图、饼图、折线图
stock_rise.cumsum()2015-03-02      2.62
2015-03-03      4.06
2015-03-04      5.63
2015-03-05      7.65
2015-03-06     16.16
2015-03-09     16.37
2015-03-10     18.75
2015-03-11     16.36
2015-03-12     15.03
2015-03-13     17.58
2015-03-16     20.34
2015-03-17     22.42
2015-03-18     23.28
2015-03-19     23.74
2015-03-20     23.48
2015-03-23     23.74

那么如何让这个连续求和的结果更好的显示呢？

如果要使用plot函数，需要导入matplotlib.

import matplotlib.pyplot as plt
# plot显示图形
stock_rise.cumsum().plot()
# 需要调用show，才能显示出结果
plt.show()
关于plot，稍后会介绍API的选择

5.5 自定义运算

apply(func, axis=0)
func:自定义函数
axis=0:默认是列，axis=1为行进行运算
定义一个对列，最大值-最小值的函数

遍历所有列，每次传入自定义函数为一列数据

data[['open', 'close']].apply(lambda x: x.max() - x.min(), axis=0)open     22.74
close    22.85
dtype: float64

def func(values):return values.max()-values.min()
stock.apply(func=func,axis=0)# 或者用匿名函数
stock.apply(func=lambda x : x.max()-x.min())# 把axis指定为1，遍历所有行，每次传入自定义函数为一行数据
stock.apply(func=lambda x : x.max()-x.min(),axis=1)# 在Series中的apply函数，遍历出来的是各个数,而不是列表，所以对每个数进行操作的函数是可以的
stock.p_change.apply(func=lambda x : x+2)

pandas画图

1 pandas.DataFrame.plot

DataFrame.plot(x=None, y=None, kind=‘line’)

x : 横轴(可选) 列名或列名的数值索引, 默认为None, 行索引
y : 纵轴(可选) 列名或列名的数值索引或其列表, 默认所有的数据列
kind : str(可选)
‘line’ : line plot (default) 折线图
‘bar’ : vertical bar plot 垂直方向柱状图
‘barh’ : horizontal bar plot 水平方向柱状图
关于“barh”的解释：
http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.barh.html
‘hist’ : histogram 直方图
‘pie’ : pie plot 饼状图
‘scatter’ : scatter plot 散点图
更多参数细节：https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.plot.html?highlight=plot#pandas.DataFrame.plot

2 pandas.Series.plot

更多参数细节：https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.plot.html?highlight=plot#pandas.Series.plot

文件的读取和存储

1 CSV

1.1 read_csv

pandas.read_csv(filepath_or_buffer, sep =’,’ )
filepath_or_buffer: 文件路径
usecols: 指定读取的列名，列表形式

读取之前的股票的数据

# 读取文件,并且指定只获取'open', 'close'指标
data = pd.read_csv("./data/stock_day.csv", usecols=['open', 'close'])open    high    close
2018-02-27    23.53    25.88    24.16
2018-02-26    22.80    23.78    23.53
2018-02-23    22.88    23.37    22.82
2018-02-22    22.25    22.76    22.28
2018-02-14    21.49    21.99    21.92

1.2 to_csv

DataFrame.to_csv(path_or_buf=None, sep=’, ’, columns=None, header=True, index=True, mode=‘w’, encoding=None)
path_or_buf : 文件路径
sep : 数据分割符, 默认 ‘,’
columns : 列序列
mode: 写入模式, ‘w’：重写, ‘a’ 追加
index: 是否写入行索引
header :boolean or list of string, default True, 是否写入列索引值

1.3 案例

保存'open'列的数据
# 选取10行数据保存,便于观察数据
data[:10].to_csv("./data/test.csv", columns=['open'])
读取，查看结果
pd.read_csv("./data/test.csv")Unnamed: 0    open
0    2018-02-27    23.53
1    2018-02-26    22.80
2    2018-02-23    22.88
3    2018-02-22    22.25
4    2018-02-14    21.49
5    2018-02-13    21.40
6    2018-02-12    20.70
7    2018-02-09    21.20
8    2018-02-08    21.79
9    2018-02-07    22.69

会发现将索引存入到文件当中，变成单独的一列数据。如果需要删除，可以指定index参数,删除原来的文件，重新保存一次。

# index:存储不会讲索引值变成一列数据
data[:10].to_csv("./data/test.csv", columns=['open'], index=False)

2 HDF5

2.1 read_hdf与to_hdf

HDF5文件的读取和存储需要指定一个键，值为要存储的DataFrame

pandas.read_hdf(path_or_buf，key =None，** kwargs)

从h5文件当中读取数据

     path_or_buffer:文件路径key:读取的键return:Theselected object

DataFrame.to_hdf(path_or_buf, key, \kwargs)

2.2 案例

读取文件

day_eps_ttm = pd.read_hdf("./data/stock_data/day/day_eps_ttm.h5")

如果读取的时候出现以下错误

需要安装安装tables模块避免不能读取HDF5文件

pip install tables
存储文件
day_eps_ttm.to_hdf("./data/test.h5", key=“day_eps_ttm”)
再次读取的时候, 需要指定键的名字

new_eps = pd.read_hdf("./data/test.h5", key=“day_eps_ttm”)
3 JSON
JSON是我们常用的一种数据交换格式，前面在前后端的交互经常用到，也会在存储的时候选择这种格式。所以我们需要知道Pandas如何进行读取和存储JSON格式。

3.1 read_json

pandas.read_json(path_or_buf=None, orient=None, typ=‘frame’, lines=False)

     将JSON格式准换成默认的Pandas DataFrame格式orient : string,Indication of expected JSON string format.'split' : dict like {index -> [index], columns -> [columns], data -> [values]}split 将索引总结到索引，列名到列名，数据到数据。将三部分都分开了'records' : list like [{column -> value}, ... , {column -> value}]records 以columns：values的形式输出'index' : dict like {index -> {column -> value}}index 以index：{columns：values}...的形式输出'columns' : dict like {column -> {index -> value}},默认该格式colums 以columns:{index:values}的形式输出'values' : just the values arrayvalues 直接输出值lines : boolean, default False按照每行读取json对象typ : default ‘frame’， 指定转换成的对象类型series或者dataframe

3.2 read_josn 案例

数据介绍

这里使用一个新闻标题讽刺数据集，格式为json。is_sarcastic：1讽刺的，否则为0；headline：新闻报道的标题；article_link：链接到原始新闻文章。存储格式为：

{“article_link”: “https://www.huffingtonpost.com/entry/versace-black-code_us_5861fbefe4b0de3a08f600d5”, “headline”: “former versace store clerk sues over secret ‘black code’ for minority shoppers”, “is_sarcastic”: 0}
{“article_link”: “https://www.huffingtonpost.com/entry/roseanne-revival-review_us_5ab3a497e4b054d118e04365”, “headline”: “the ‘roseanne’ revival catches up to our thorny political mood, for better and worse”, “is_sarcastic”: 0}
读取
orient指定存储的json格式，lines指定按照行去变成一个样本

json_read = pd.read_json("./data/Sarcasm_Headlines_Dataset.json", orient=“records”, lines=True)
结果为：

3.3 to_json

DataFrame.to_json(path_or_buf=None, orient=None, lines=False)
将Pandas 对象存储为json格式
path_or_buf=None：文件地址
orient:存储的json形式，{‘split’,’records’,’index’,’columns’,’values’}
lines:一个对象存储为一行

Pandas的基本操作以及画图相关推荐

python 用pandas读取excel并画图
用pandas读取excel并画图展示初学python,啥都不懂.刚好有个数据想分析一下,便搜索了如何使用python处理Excel并展示,短短的一段代码浪费了很多时间,直接贴代码吧: python ...
python中的pandas的两种基本使用_Python：Pandas的基本操作和使用
Pandas整体内容概要本文整体介绍 Pands的数据结构 Pands的读取与保存数据的基本操作:数据的查看.检查.选择.删减.填充数据的处理:合并.聚合.分组.filter.sort.grou ...
Pandas索引基本操作
公众号:尤而小屋作者:Peter 编辑:Peter 大家好,我是Peter~ 本文主要是记录Pandas中单层索引的一些基本操作. 10种索引下面简单回顾下之前学习创建的10种索引: pd.Ind ...
【Python学习系列二十一】pandas库基本操作
pandas很强大,操作参考官网:http://pandas.pydata.org/pandas-docs/stable/ 也有一份10分钟入门的材料:http://pandas.pydata.org ...
【Pandas】数据分析工具Pandas的基本操作和可视化工具Matplotlib
1.Pandas简介 pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的 ...
pandas的DataFrame数据画图matplotlab曲线如何改变时间刻度【间隔时间】并格式化日期显示总结
date_format = mpl_dates.DateFormatter("%Y-%m-%d") # 设置日期格式化显示规则 df_ax.xaxis.set_major_form ...
networkx —— 基本操作及画图
这几天在用networkx,官方文档是这个,很全也很详细,这里简单记录一些简单的用法和使用过程中的菜鸡看法. 这篇主要记一下networkx基本图创建和如何画图. 环境 Python 3.6.3 ne ...
python炒股模块_Python数据分析-numpy模块、pandas模块.基本操作、股票案例
索引操作和列表同理 arr = np.random.randint(0,100,size=(5,6)) arr array([[14, 89, 71, 96, 1, 94], [30, 98, 10, ...
Python OpenCV _1基本操作（画图，循环播放图像，鼠标事件，读取中文路径中的图片）
此系列源码在我的GitHub里:https://github.com/yeyujujishou19/Python-OpenCV 一,OpenCV的结构 A)根据功能和需求的不同,OpenCV中的函数接 ...

Pandas的基本操作以及画图

1.读取文件操作

读取文件

删除一些列，让数据更简单些，再去做后面的操作

2.索引操作

2.1 直接使用行索引的方式(先行后列)

1.3 使用ix组合索引

ix:混合索引与切片，在ｐａｎｄａｓ　1.0中已经删除这个ａｐｉ了(先行后列)

可以支持名称和数值索引

2 赋值操作

3 排序

4.算数运算

5.逻辑运算

5.1 逻辑运算符号<、 >、|、 &

5.2 逻辑运算函数

5.3 统计运算

3.1 describe()

info（）判断是否有缺失值，并判断每一列的数据类型

3.2 统计函数

5.4 累计统计函数

5.5 自定义运算

遍历所有列，每次传入自定义函数为一列数据

pandas画图

1 pandas.DataFrame.plot

2 pandas.Series.plot

文件的读取和存储

1 CSV

1.1 read_csv

1.2 to_csv

1.3 案例

2 HDF5

2.1 read_hdf与to_hdf

2.2 案例

3.1 read_json

3.2 read_josn 案例

3.3 to_json

Pandas的基本操作以及画图相关推荐

最新文章

热门文章

Pandas的基本操作以及画图

1.读取文件操作

读取文件

删除一些列，让数据更简单些，再去做后面的操作

2.索引操作

2.1 直接使用行索引的方式(先行后列)

1.3 使用ix组合索引

ix:混合索引与切片，在ｐａｎｄａｓ 1.0中已经删除这个ａｐｉ了(先行后列)

可以支持名称和数值索引

2 赋值操作

3 排序

4.算数运算

5.逻辑运算

5.1 逻辑运算符号<、 >、|、 &

5.2 逻辑运算函数

5.3 统计运算

3.1 describe()

info（） 判断是否有缺失值，并判断每一列的数据类型

3.2 统计函数

5.4 累计统计函数

5.5 自定义运算

遍历所有列，每次传入自定义函数为一列数据

pandas画图

1 pandas.DataFrame.plot

2 pandas.Series.plot

文件的读取和存储

1 CSV

1.1 read_csv

1.2 to_csv

1.3 案例

2 HDF5

2.1 read_hdf与to_hdf

2.2 案例

3.1 read_json

3.2 read_josn 案例

3.3 to_json

Pandas的基本操作以及画图相关推荐

最新文章

热门文章

ix:混合索引与切片，在ｐａｎｄａｓ　1.0中已经删除这个ａｐｉ了(先行后列)

info（）判断是否有缺失值，并判断每一列的数据类型