作者:求知鸟

来源:知乎

开门见山。

这篇文章,教大家用Python实现常用的假设检验!服从什么分布,就用什么区间估计方式,也就就用什么检验!比如:两个样本方差比服从F分布,区间估计就采用F分布计算临界值(从而得出置信区间),最终采用F检验。建设检验的基本步骤:前言假设检验用到的Python工具包Statsmodels是Python中,用于实现统计建模和计量经济学的工具包,主要包括描述统计、统计模型估计和统计推断

Scipy是一个数学、科学和工程计算Python工具包,主要包括统计,优化,整合,线性代数等等与科学计算有关的包导入数据from sklearn.datasets import load_irisimport numpy as np#导入IRIS数据集iris = load_iris()iris=pd.DataFrame(iris.data,columns=['sepal_length','sepal_width','petal_legth','petal_width'])print(iris)一个总体均值的z检验np.mean(iris['petal_legth'])'''原假设:鸢尾花花瓣平均长度是4.2备择假设:鸢尾花花瓣平均长度不是4.2'''import statsmodels.stats.weightstatsz, pval = statsmodels.stats.weightstats.ztest(iris['petal_legth'], value=4.2)print(z,pval)'''P=0.002 <5%, 拒绝原假设,接受备则假设。'''一个总体均值的t检验import scipy.statst, pval = scipy.stats.ttest_1samp(iris['petal_legth'], popmean=4.0)print(t, pval)'''P=0.0959 > 5%, 接受原假设,即花瓣长度为4.0。'''

模拟双样本t检验#取两个样本iris_1 = iris[iris.petal_legth >= 2]iris_2 = iris[iris.petal_legth < 2]print(np.mean(iris_1['petal_legth']))print(np.mean(iris_2['petal_legth']))'''H0: 两种鸢尾花花瓣长度一样H1: 两种鸢尾花花瓣长度不一样'''import scipy.statst, pval = scipy.stats.ttest_ind(iris_1['petal_legth'],iris_2['petal_legth'])print(t,pval)'''p<0.05,拒绝H0,认为两种鸢尾花花瓣长度不一样'''练习数据字段说明:gender:性别,1为男性,2为女性

Temperature:体温

HeartRate:心率

共130行,3列

用到的数据链接:pan.baidu.com/s/1t4SKF6本周需要解决的几个小问题:1. 人体体温的总体均值是否为98.6华氏度?2. 人体的温度是否服从正态分布?3. 人体体温中存在的异常数据是哪些?4. 男女体温是否存在明显差异?5. 体温与心率间的相关性(强?弱?中等?)

1.1 探索数据import numpy as npimport pandas as pdfrom scipy import statsdata = pd.read_csv("C:\\Users\\baihua\\Desktop\\test.csv")print(data.head())sample_size = data.size #130*3out:Temperature Gender HeartRate0 96.3 1 701 96.7 1 712 96.9 1 743 97.0 1 804 97.1 1 73print(data.describe())out:Temperature Gender HeartRatecount 130.000000 130.000000 130.000000mean 98.249231 1.500000 73.761538std 0.733183 0.501934 7.062077min 96.300000 1.000000 57.00000025% 97.800000 1.000000 69.00000050% 98.300000 1.500000 74.00000075% 98.700000 2.000000 79.000000max 100.800000 2.000000 89.000000人体体温均值是98.249231

1.2 人体的温度是否服从正态分布?'''人体的温度是否服从正态分布?先画出分布的直方图,然后使用scipy.stat.kstest函数进行判断。'''%matplotlib inlineimport seaborn as snssns.distplot(data['Temperature'], color='b', bins=10, kde=True)stats.kstest(data['Temperature'], 'norm')out:KstestResult(statistic=1.0, pvalue=0.0)'''p<0.05,不符合正态分布'''判断是否服从t分布'''判断是否服从t分布:'''np.random.seed(1)ks = stats.t.fit(data['Temperature'])df = ks[0]loc = ks[1]scale = ks[2]t_estm = stats.t.rvs(df=df, loc=loc, scale=scale, size=sample_size)stats.ks_2samp(data['Temperature'], t_estm)'''pvalue=0.4321464176976891 <0.05,认为体温服从t分布'''判断是否服从卡方分布'''判断是否服从卡方分布:'''np.random.seed(1)chi_square = stats.chi2.fit(data['Temperature'])df = chi_square[0]loc = chi_square[1]scale = chi_square[2]chi_estm = stats.chi2.rvs(df=df, loc=loc, scale=scale, size=sample_size)stats.ks_2samp(data['Temperature'], chi_estm)'''pvalue=0.3956146564478842>0.05,认为体温服从卡方分布'''绘制卡方分布直方图'''绘制卡方分布图'''from matplotlib import pyplot as pltplt.figure()data['Temperature'].plot(kind = 'kde')chi2_distribution = stats.chi2(chi_square[0], chi_square[1],chi_square[2])x = np.linspace(chi2_distribution.ppf(0.01), chi2_distribution.ppf(0.99), 100)plt.plot(x, chi2_distribution.pdf(x), c='orange')plt.xlabel('Human temperature')plt.title('temperature on chi_square', size=20)plt.legend(['test_data', 'chi_square'])

1.3 人体体温中存在的异常数据是哪些?'''已知体温数据服从卡方分布的情况下,可以直接使用Python计算出P=0.025和P=0.925时(该函数使用单侧概率值)的分布值,在分布值两侧的数据属于小概率,认为是异常值。'''lower1=chi2_distribution.ppf(0.025)lower2=chi2_distribution.ppf(0.925)t=data['Temperature']print(t[tlower2])out:0 96.31 96.765 96.466 96.767 96.8Name: Temperature, dtype: float6463 99.464 99.5126 99.4127 99.9128 100.0129 100.8Name: Temperature, dtype: float64

1.4 男女体温差异是否显著'''此题是一道两个总体均值之差的假设检验问题,因为是否存在差别并不涉及方向,所以是双侧检验。建立原假设和备择假设如下:H0:u1-u2 =0 没有显著差H1:u1-u2 != 0 有显著差别'''data.groupby(['Gender']).size() #样本量65male_df = data.loc[data['Gender'] == 1]female_df = data.loc[data['Gender'] == 2]'''使用Python自带的函数,P用的双侧累计概率'''import scipy.statst, pval = scipy.stats.ttest_ind(male_df['Temperature'],female_df['Temperature'])print(t,pval)if pval > 0.05:print('不能拒绝原假设,男女体温无明显差异。')else:print('拒绝原假设,男女体温存在明显差异。')out:-2.2854345381654984 0.02393188312240236拒绝原假设,男女体温存在明显差异。

1.5 体温与心率间的相关性(强?弱?中等?)'''体温与心率间的相关性(强?弱?中等?)'''heartrate_s = data['HeartRate']temperature_s = data['Temperature']from matplotlib import pyplot as pltplt.scatter(heartrate_s, temperature_s)stat, p = stats.pearsonr(heartrate_s, temperature_s)print('stat=%.3f, p=%.3f' % (stat, p))print(stats.pearsonr(heartrate_s, temperature_s))'''相关系数为0.004,可以认为二者之间没有相关性'''------end------推荐阅读

华为鸿蒙手机终于要来了!App生态已解决,网友:炸了!

为了搭建鉴黄平台!不得已写代码爬取了某 Hub 资源

高中生写LOL外挂1年狂赚500万,落网前刚买百万保时捷...

Python已经世界第一了,听说你还不会?

中国程序员最容易发音错误的单词

前同事通过接私活年入60W,他常用19个私活平台汇总!推荐我的微信号

来围观我的朋友圈,每天都有更新,坑位有限,速速扫码添加

备注:开发方向_昵称_城市,另送你Python学习全套大礼包,

python 假设检验 区间估计_用 Python 实现常用的假设检验相关推荐

  1. python 时间序列预测_使用Python进行动手时间序列预测

    python 时间序列预测 Time series analysis is the endeavor of extracting meaningful summary and statistical ...

  2. python 概率分布模型_使用python的概率模型进行公司估值

    python 概率分布模型 Note from Towards Data Science's editors: While we allow independent authors to publis ...

  3. python 网页编程_通过Python编程检索网页

    python 网页编程 The internet and the World Wide Web (WWW), is probably the most prominent source of info ...

  4. python高斯求和_利用Python进行数据分析(3)- 列表、元组、字典、集合

    本文主要是对Python的数据结构进行了一个总结,常见的数据结构包含:列表list.元组tuple.字典dict和集合set. image 索引 左边0开始,右边-1开始 通过index()函数查看索 ...

  5. python 免费空间_用python做大数据

    不学Python迟早会被淘汰?Python真有这么好的前景? 最近几年Python编程语言在国内引起不小的轰动,有超越Java之势,本来在美国这个编程语言就是最火的,应用的非常非常的广泛,而Pytho ...

  6. python希腊字母字符串_#10 Python字符串

    前言 通过上一节可知,Python6个序列的内置类型中,最常见的是列表和元组,但在Python中,最常用的数据类型却不是列表和元组,而是字符串.要想深入了解字符串,必须先掌握字符编码问题.因此本篇博文 ...

  7. python 创意项目_针对python开发人员的10个很棒的python项目创意

    python 创意项目 The joy of coding Python should be in seeing short, concise, readable classes that expre ...

  8. python queue 调试_学Python不是盲目的,是有做过功课认真去了解的

    有多少伙伴是因为一句'人生苦短,我用Python'萌生想法学Python的!我跟大家更新过很多Python学习教程普及过多次的Python相关知识,不过大家还是还得计划一下Python学习路线!Pyt ...

  9. python集群_使用Python集群文档

    python集群 Natural Language Processing has made huge advancements in the last years. Currently, variou ...

最新文章

  1. 11g RMAN Restore archivelog用法
  2. 基于linux的集群系统LVS
  3. HTML学习笔记:iframe框架演示
  4. python-socket2
  5. (转)美国:2016-2045新科技趋势报告
  6. DS18B20温度传感器
  7. 使用遇到的问题_喷淋塔使用过程中遇到的问题以及解决方法
  8. office转换为还原度高的html,使用Aspose把office文件转换为Html文件及生成文件浏览乱码的解决...
  9. 面试 innodb底层原理
  10. python 拉丁超立方抽样
  11. 如何远程管理天翼云RDS数据库
  12. 元气骑士双人异地公网联机工具(仅支持双人、JAVA实现)
  13. 使用Dir函数遍历文件和目录
  14. 单片机人体感应灯c语言,红外人体感应灯单片机方案
  15. C++中volatile变量测试
  16. Micro:bit 入门介绍
  17. 聚观早报 | 东方甄选与顺丰、京东合作;拼多多跨境电商平台上线
  18. 浪潮信息的ai服务器有何不同,浪潮信息AI服务器NF5468M6、NF5468A5成ISC20大会焦点...
  19. 单片机学习笔记————51单片机实现带数码管显示的象棋比赛专用计时器
  20. 2021批量查备案域名工具

热门文章

  1. 服务器内存32g与64g性能区别,手机同一款,为什么32G和64G,差别大,同样都是运行内存4G的,但是64G却被叫做高配版?...
  2. mysql 32k 限制_ORA-22828 输入样式或替换参数超过了32k大小限制
  3. sentry 接入 source map
  4. 华为手机摄影入门到精通pdf_手机摄影入门及摄影基础
  5. java项目部署_Java Web 项目的部署步骤
  6. 微信输入法上线!再也不怕隐私被盗
  7. iphone真机调试 Xcode Could ont lauch XXX process launch failed:security
  8. matlab 制作A*B棋盘格
  9. 计算机网路基础(IP地址、TCP/IP协议、三握四挥)
  10. 求职陷阱:Lazarus组织以日本瑞穗銀行等招聘信息为诱饵的攻击活动分析