第十课因子数据处理之去极值

概述
因子 Panel 结构分析
- 截面数据
- 序列数据
因子去极值
分位数去极值
- 中位数
- 四分位数
- 百分位数
- 原理
- 分析
- 代码实现
中位数绝对偏差去极值
- 计算方法
- 代码实现
正态分布去极值
- 代码实现
总结

概述

在我们构建策略之前首先要对得到的数据进行预处理. 去极值就是排除一些极端值的干扰. 如图:

因子 Panel 结构分析

Pandas 当中面板数据结构是三维的结构. 由截面数据和序列数据组成.

代码:

get_price("000001.XSHE", start_date="2020-01-01", end_date="2020-01-06")

输出结果:

price = get_price(["000024.XSHE","000001.XSHE","000002.XSHE"], start_date="2015-04-01",end_date="2015-04-12")
price

输出结果:

截面数据

截面数据: 在同一时间, 不同统计单位相同统计指标组成的数据列.

# 获取个别财务数据
q = query(fundamentals.income_statement.revenue,fundamentals.income_statement.cost_of_goods_sold
).filter(fundamentals.stockcode.in_(["000024.XSHE","000001.XSHE"])
)fund = get_fundamentals(q, entry_date="2020-01-03")# 换成截面
fund.iloc[:,0,:]

输出结果:

# 获取所有财务数据
q = query(fundamentals.income_statement.revenue,fundamentals.income_statement.cost_of_goods_sold
)fund = get_fundamentals(q, entry_date="2020-01-03")# 换成截面
fund.iloc[:,0,:]

输出结果:

序列数据

序列数据: 在不同时间点上收集到的数据. 这类数据反映了某一事物, 现象等随时间变的化状态或程度.

注: 多因子分析使用的是截面数据而不是序列数据.

因子去极值

首先我们需要明白, 去极值不是删除 “异常数据”, 而是将这些数据 “拉回” 到正常的值.

去极值分为三种方法:

分位数去极值
中位数绝对偏差去极值
正态分布去极值

分位数去极值

首先我们来了解几个概念:

中位数
四分位数
百分位数

中位数

中位数是指将数据按大小顺序排列起来, 形成一个数列. 中位数就是居于数列中间位置的那个数. 中位数用 Me (Median 简写) 表示.

从上图我们可以看出中位数相较于平均数受极大值 / 极小值的影响较小. 所以我们选择中位数而不是平均数.

四分位数

四分位数即把所有数值由小到大排列并分成四等分. 处于三个分割点位置的数值就是四分位数.

第一四分位数 (Q1), 又称 “较小四分位数”, 等于该样本中所有数值由小到大排列后第 25% 的数字
第二四分位数 (Q2), 又称 “中位数”, 等于该样本中所有的数值由小到大排序后第 50% 的数字
第三四分位数 (Q3), 又称 “较大四分位数”, 等于该样本中所有的数值由小到大排序后第 75% 的数字

百分位数

百分位数即数据所处位置为整体的某个 % 位数. 关于百分位数有两种称呼, quantile 和 percentile.

原理

分位数去极值的原理是将指定分位数区间以外的极值用分位点的值替换掉.

分析

获取指定某个日期或者区间段的 pe_ratio 截面数据
分位数去极值
去极值结果与极值前结果比较

代码实现

函数:

import numpy as np# 求出两个分位数的点的值
def quantile(factor, up, down):"""分位数去极值"""up_scale = np.percentile(factor, up)down_scale = np.percentile(factor, down)factor = np.where(factor > up_scale, up_scale, factor)factor = np.where(factor < down_scale, down_scale, factor)return factor

代码:

# 筛选条件
q = query(fundamentals.eod_derivative_indicator.pe_ratio
)# 获取数据
fund = get_fundamentals(q, entry_date="20200102").iloc[:, 0, :]# 上下 2.5% 处理
fund["pe_ratio_fixed"] = quantile(fund["pe_ratio"], 97.5, 2.5)# 画图
plt.figure(figsize=(15, 10))
plt.bar(fund.index[:500],fund['pe_ratio'][:500])
plt.bar(fund.index[:500],fund['pe_ratio_fixed'][:500])
plt.xticks(fund.index[:501:50])
plt.title("pe_ratio vs pe_ratio_fixed")
plt.show()

输出结果:

中位数绝对偏差去极值

绝对偏差法 (MAD: Median Absolute Deviation) 是一种先需计算所有因子与中位数之间的距离综合来检测离群值的方法.

计算方法

找出因子的中位数 median
得到每个因子值与中位数的绝对偏差 |x - median|
得到绝对偏差值的中位数, MAD, median(|x - median|)
计算 MAD_e = 1.4826*MAD. 然后确定参数 n, 做出调整

去极值判断:

注: 通常把偏移中位数三倍设为 MAD_e. 如果样本满足正态分布且足够大, 我们可以证明超过上下限的值为异常值.

代码实现

函数:

def mad(factor):"""3倍中位数去极值"""# 求出因子值的中位数median = np.median(factor)# 求出因子值与中位数的差值, 进行绝对值mad = np.median(abs(factor - median))# 定义几倍的中位数上下限high = median + (3 * 1.4826 * mad)low = median - (3 * 1.4826 * mad)# 替换上下限factor = np.where(factor > high, high, factor)factor = np.where(factor < low, low, factor)return factor

代码:

# 筛选条件
q = query(fundamentals.eod_derivative_indicator.pe_ratio
)
# 获取数据
fund = get_fundamentals(q, entry_date="20200102").iloc[:, 0, :]# 中位数绝对偏差法
fund["pe_ratio_fixed"] = mad(fund["pe_ratio"])# 画图
plt.figure(figsize=(15, 10))
plt.bar(fund.index[:500],fund['pe_ratio'][:500], color="green")
plt.bar(fund.index[:500],fund['pe_ratio_fixed'][:500])
plt.xticks(fund.index[:501:50])
plt.title("pe_ratio vs pe_ratio_fixed")
plt.show()

输出结果:

正态分布去极值

正态分布 (Normal Distribution):

1σ: 68.27% 的数据落在一个标准差之内
2σ: 95.45% 的数据落在两个标准差之内
3σ: 99.73% 的数据落在三个标准差之内
4σ: 99.99% 的数据落在四个标准差之内

代码实现

def three_sigma(factor):"""3 sigma 去极值"""# 求出因子数据的平均数和标准差mean = factor.mean()std = factor.std()# 左右的数据加减 3 个标准差high = mean + (3 * std)low = mean - (3 * std)# 替换极值数据factor = np.where(factor > high, high, factor)factor = np.where(factor <low, low, factor)return factor

# 筛选条件
q = query(fundamentals.eod_derivative_indicator.pe_ratio
)
# 获取数据
fund = get_fundamentals(q, entry_date="20200102").iloc[:, 0, :]# 3 sigma 去极值
fund["pe_ratio_fixed"] = three_sigma(fund["pe_ratio"])# 画图
plt.figure(figsize=(15, 10))
plt.bar(fund.index[:500],fund['pe_ratio'][:500], color="orange")
plt.bar(fund.index[:500],fund['pe_ratio_fixed'][:500], color= "red")
plt.xticks(fund.index[:501:50])
plt.title("pe_ratio vs pe_ratio_fixed")
plt.show()

输出结果:

总结

在做去极值的时候最好不要用正态分布去极值法, 推荐使用分位数和中位数绝对偏差去极值.

量化交易第十课因子数据处理之去极值相关推荐

量化交易第十一课因子数据处理之标准化
第十一课因子数据处理之标准化概述标准化方法一方法二概述数据标准化主要是应对特征向量中数据很分散的情况, 防止小数据被大数据 (绝对值) 吞并的情况. 另外, 数据标准化也有加速训练, 防 ...
量化交易第十二课因子数据处理之市值中性化
第十二课因子数据处理之市值中性化概述市值影响怎么去除市值影响回归法简介流程分析代码实现概述众所周知, 行业和市值是两个十分显著对因子有影响力的因素. 在进行截面回归判断每个单因子的 ...
量化交易实战第九课多因子相关性分析
量化交易实战第九课多因子相关性分析概述研报分析结果代码实现导包总资产回报率 IC 资本回报率 IC 计算相关性概述相关性 (Correlation) 在统计中是与独立性 (Indep ...
量化交易实战第一课策略入门
量化交易实战第一课策略入门概述要求指标市净率股票市值代码实现概述不管是技术分析还是基本面分析, 我们在进行投资的时候会选择某些表现好的股票来作为一个股票池. 从中进行交易的判断 ( ...
量化交易实战第二课金融时间序列分析 Part 1
量化交易实战第一课金融时间序列分析 Part 1 概述平台获取股票数据需求函数 index_components - 获取指数成分股列表 get_price - 合约历史数据代码统计分 ...
股票量化交易策略：多因子筛选练习
一.多因子筛选阶段介绍 1. 筛选阶段的任务基本面数据因子(特征)如此之多,那么如何去找到对应的对股票收益率比较好的.并且能在未来一段时间给我们的选股收益率提供帮助. 2.挖掘因子的过程我们可以大 ...
量化交易聚宽多因子策略（市值, ROE）
量化交易聚宽多因子策略(市值, ROE) # 导入函数库 from jqdata import *# 初始化函数,设定基准等等 def initialize(context):# 设定沪深300作 ...
Python量化交易05——基于多因子选择和选股策略(随机森林，LGBM)
参考书目:深入浅出Python量化交易实战在机器学习里面的X叫做特征变量,在统计学里面叫做协变量也叫自变量,在量化投资里面则叫做因子,所谓多因子就是有很多的特征变量. 本次带来的就是多因子模型,并且 ...
量化交易初级阶段——简单多因子策略实现指数增强
多因子策略是量化交易之中最为常见的策略之一,相当于技术指标之中的均线,只要是学量化都会学到多因子策略. 多因子的总体思路很像高考.现在高考也是刚刚结束,也祝愿各位考生金榜题名!我就按照高考的思路简单说 ...

量化交易第十课因子数据处理之去极值

第十课因子数据处理之去极值

概述

因子 Panel 结构分析

截面数据

序列数据

因子去极值

分位数去极值

中位数

四分位数

百分位数

原理

分析

代码实现

中位数绝对偏差去极值

计算方法

代码实现

正态分布去极值

代码实现

总结

量化交易第十课因子数据处理之去极值相关推荐

最新文章

热门文章

量化交易 第十课 因子数据处理之去极值

第十课 因子数据处理之去极值

概述

因子 Panel 结构分析

截面数据

序列数据

因子去极值

分位数去极值

中位数

四分位数

百分位数

原理

分析

代码实现

中位数绝对偏差去极值

计算方法

代码实现

正态分布去极值

代码实现

总结

量化交易 第十课 因子数据处理之去极值相关推荐

最新文章

热门文章

量化交易第十课因子数据处理之去极值

第十课因子数据处理之去极值

量化交易第十课因子数据处理之去极值相关推荐