# 来源:NumPy Cookbook 2e Ch10

加载示例数据集

from __future__ import print_function
from sklearn import datasets# datasets.load_? 用于加载不同的数据集
print filter(lambda s: s.startswith('load_'), dir(datasets))
'''
['load_boston', 'load_breast_cancer', 'load_diabetes', 'load_digits', 'load_files', 'load_iris', 'load_lfw_pairs', 'load_lfw_people', 'load_linnerud', 'load_mlcomp', 'load_sample_image', 'load_sample_images', 'load_svmlight_file', 'load_svmlight_files']
'''# 这里加载波士顿房价数据集
# 波士顿房价数据集是连续模型
boston_prices = datasets.load_boston() # 对于离散型数据集来说,data 是属性,target 是标签
# 对于连续型数据集来说,data 是自变量,target 是因变量
# data 是二维数组,行为记录,列为属性/自变量
print("Data shape", boston_prices.data.shape)
# Data shape (506, 13) print("Data max=%s min=%s" % (boston_prices.data.max(), boston_prices. data.min()))
# Data max=711.0 min=0.0 # target 是标签/因变量的一维数组
print("Target shape", boston_prices.target.shape)
# Target shape (506,)print("Target max=%s min=%s" % (boston_prices.target.max(), boston_ prices.target.min()))
# Target max=50.0 min=5.0

道琼斯股票聚类

# 2011 到 2012
start = datetime.datetime(2011, 01, 01)
end = datetime.datetime(2012, 01, 01)# 这里是股票代码
symbols = ["AA", "AXP", "BA", "BAC", "CAT","CSCO", "CVX", "DD", "DIS", "GE", "HD","HPQ", "IBM", "INTC", "JNJ", "JPM","KO", "MCD", "MMM", "MRK", "MSFT", "PFE","PG", "T", "TRV", "UTX", "VZ", "WMT", "XOM"]# 下载每只股票 2011 ~ 2012 的所有数据
quotes = []
for symbol in symbols:try:quotes.append(finance.quotes_historical_yahoo(symbol, start, end, asobject=True))except urllib2.HTTPError as e:print(symbol, e)# 每只股票只取收盘价
close = np.array([q.close for q in quotes]).astype(np.float)
print(close.shape)
# (29, 252)# 计算每只股票的对数收益
logreturns = np.diff(np.log(close))
print(logreturns.shape)
# (29, 251)# 计算对数收益的平方和
logreturns_norms = np.sum(logreturns ** 2, axis=1)
# np.dot(logreturns, logreturns.T) 的矩阵
# 每项是 logret[i] · logret[j]
# logreturns_norms[:, np.newaxis]
# 每项是 sqsum[i]
# logreturns_norms[np. newaxis, :]
# 每项是 sqsum[j]
# S 的每一项就是 logret[i] 和 logret[j] 的欧氏距离
S = - logreturns_norms[:, np.newaxis] - logreturns_norms[np. newaxis, :] + 2 * np.dot(logreturns, logreturns.T)# 使用 AP 算法进行聚类
# AffinityPropagation 用于创建聚类器
# 向 fit 传入距离矩阵可以对其聚类
# 用于聚类的属性是每个向量到其它向量的距离
aff_pro = sklearn.cluster.AffinityPropagation().fit(S)
# labels_ 获取聚类结果
labels = aff_pro.labels_
# 打印每只股票的类别
for symbol, label in zip(symbols, labels):print('%s in Cluster %d' % (symbol, label))
'''
AA in Cluster 0
AXP in Cluster 6
BA in Cluster 6
BAC in Cluster 1
CAT in Cluster 6
CSCO in Cluster 2
CVX in Cluster 7
DD in Cluster 6
DIS in Cluster 6
GE in Cluster 6
HD in Cluster 5
HPQ in Cluster 3
IBM in Cluster 5
INTC in Cluster 6
JNJ in Cluster 5
JPM in Cluster 4
KO in Cluster 5
MCD in Cluster 5
MMM in Cluster 6
MRK in Cluster 5
MSFT in Cluster 5
PFE in Cluster 7
PG in Cluster 5
T in Cluster 5
TRV in Cluster 5
UTX in Cluster 6
VZ in Cluster 5
WMT in Cluster 5
XOM in Cluster 7

使用 statsmodels 执行正态性测试

from __future__ import print_function
import datetime
import numpy as np
from matplotlib import finance
from statsmodels.stats.adnorm import normal_ad# 下载 2011 到 2012 的收盘价数据
start = datetime.datetime(2011, 01, 01)
end = datetime.datetime(2012, 01, 01)
quotes = finance.quotes_historical_yahoo('AAPL', start, end, asobject=True)
close = np.array(quotes.close).astype(np.float)
print(close.shape)
# (252,) # 对对数收益执行正态性测试
# 也就是是否满足正态分布
# normal_ad 使用 Anderson-Darling 测试
# 请见 http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test
print(normal_ad(np.diff(np.log(close))))
# (0.57103805516803163, 0.13725944999430437)
# p-value,也就是概率为 0.13

角点检测


from skimage.feature import corner_peaks
from skimage.color import rgb2gray# 加载示例图片(亭子那张)
dataset = load_sample_images()
img = dataset.images[0] # 将 RGB 图像转成灰度
gray_img = rgb2gray(img) # 使用 Harris 角点检测器
# http://en.wikipedia.org/wiki/Corner_detection
harris_coords = corner_peaks(corner_harris(gray_img))
# harris_coords 第一列是 y,第二列是 x
y, x = np.transpose(harris_coords)
plt.axis('off')
# 绘制图像和角点
plt.imshow(img)
plt.plot(x, y, 'ro')
plt.show()

边界检测

from sklearn.datasets import load_sample_images
import matplotlib.pyplot as plt
import skimage.feature# 加载示例图片(亭子那张)
dataset = load_sample_images()
img = dataset.images[0] # 使用 Canny 过滤器检测边界
# 基于高斯分布的标准差
# http://en.wikipedia.org/wiki/Edge_detection
edges = skimage.feature.canny(img[..., 0]) # 绘制图像
plt.axis('off')
plt.imshow(edges)
plt.show()

NumPy Cookbook 带注释源码 十、Scikit 中的乐趣相关推荐

  1. NumPy Cookbook 带注释源码 十一、NumPy 的底牌

    # 来源:NumPy Cookbook 2e Ch11np.random.seed(44) a = np.random.random_integers(-4, 4, 7) print(a) # [ 0 ...

  2. NumPy Cookbook 带注释源码 二、NumPy 高级索引和数组概念

    调整图像尺寸 # 这个代码用于调整图像尺寸 # 来源:NumPy Cookbook 2e Ch2.3import scipy.misc import matplotlib.pyplot as plt ...

  3. NumPy Cookbook 带注释源码 六、NumPy 特殊数组与通用函数

    # 来源:NumPy Cookbook 2e ch6 创建通用函数 from __future__ import print_function import numpy as np# 我们需要定义对单 ...

  4. NumPy Cookbook 带注释源码 五、NumPy 音频和图像处理

    # 来源:NumPy Cookbook 2e Ch5 将图像加载进内存 import numpy as np import matplotlib.pyplot as plt# 首先生成一个 512x5 ...

  5. NumPy Cookbook 带注释源码 四、连接 NumPy 与 剩余世界

    # 来源:NumPy Cookbook 2e Ch4 使用缓冲区协议 # 协议在 Python 中相当于接口 # 是一种约束 import numpy as np import Image # fro ...

  6. NumPy Cookbook 带注释源码 三、掌握 NumPy 常用函数

    斐波那契数的第 n 项 # 来源:NumPy Cookbook 2e Ch3.1import numpy as np# 斐波那契数列的每个新项都由之前的两项相加而成 # 以 1 和 2 开始,前 10 ...

  7. NumPy Essentials 带注释源码 四、NumPy 核心和模块

    # 来源:NumPy Essentials ch4 步长 # 步长是每个维度相邻两个元素的偏移差值 import numpy as npx = np.arange(8, dtype = np.int8 ...

  8. NumPy Essentials 带注释源码 三、NumPy 数组使用

    版权声明:License CC BY-NC-SA 4.0 https://blog.csdn.net/wizardforcel/article/details/73252085 # 来源:NumPy ...

  9. NumPy Essentials 带注释源码 六、NumPy 中的傅里叶分析

    # 来源:NumPy Essentials ch6 绘图函数 import matplotlib.pyplot as plt import numpy as np def show(ori_func, ...

最新文章

  1. jqurey操作select 语法解释
  2. php 现货 结算算法,PHP算法逻辑:如何计算购买量?
  3. jmeter响应数据Unicode编码转换为汉字
  4. Python两数之和,并返回下标
  5. 1000亿,行业巨头纷纷押宝的数据中心
  6. 微信小程序封装的Promise工具类 ES6语法
  7. C语言程序设计--输入与输出
  8. 重磅来袭 | 移动云城市峰会分论坛暨移动云TeaTalk青岛站 即将开启
  9. mysql怎么显示结果窗口_mysql8中窗口函数
  10. NHibernate的关键点精要
  11. PWDX查找程序执行路径
  12. 原创:使用脚本获取本机IP地址
  13. 签到新旧版本更替问题
  14. 二进制空间权重矩阵_空间计量:空间权重矩阵的构建
  15. 如何把Netflix数据集转换成Movielens格式?
  16. fbx格式转gif_FBX文件打开工具
  17. 【深度优先搜索】复原IP地址
  18. 软件工程,java开发网上购物系统,数据流图DFD图,用例图
  19. 中科院阿里云联合发布11比特云接入超导量子计算服务
  20. 七牛云存储之文件上传(Android)

热门文章

  1. server sql 无法从long转为int_MySQL中,21个写SQL的好习惯(修正版)
  2. sparkstreaming监听hdfs目录如何终止_HDFS—HA高可用详解
  3. 7002.ubuntu18.04将软件图标固定到工具栏
  4. unity三维向量变化为角度_三维旋转
  5. phoneinfo界面翻译_phone info +下载-三星验机神器phone info samsung下载v3.6.4 安卓版-西西软件下载...
  6. ubuntu10.04下 简单配置samba
  7. 工业相机选型_工业相机与镜头的选型方法
  8. vba把json转数组中_JavaScript 中的“黑话”
  9. 力扣1281.整数的各位积和之差
  10. 在mac上安装python版的hanlp/JPype1