一些疫情数据分析的思路,文末提供最新数据与代码
点击上方『早起python』关注早起
和我一起,成为更好的自己
前言
最近有一些读者后台咨询如何针对疫情数据做一些分析,甚至还有做毕业论文的关于如何获得最新的疫情数据,在之前的文章已经详细介绍了5种方法,此处便不再赘述。今天给大家简单分享一些自己的和其他人关于疫情数据分析的几个思路,感兴趣的读者可以从文末下载最新数据进行分析。
探索性分析
首先拿到数据可以做一些描述性分析,值得关注的是将疫情数据分为湖北地区和非湖北地区地区来对比分析,比如从确诊和新增数据来对疫情的趋势进行综合分析(之前文章也对全球疫情绘制了动态趋势图)
其次从一些资料中可以发现“正在接受医学观察”这个指标非常值得关注。那么可以基于该指标与其他指标进行综合分析
传染病模型
用疫情数据去拟合SIR模型(易感-感染-恢复)是绝大多数数据分析爱好者的思路,在历史文章我们也尝试去使用SIR模型去做一些分析,虽然能够成功拟合出模型
上图是2月初做的预测,显示新增感染人数会在60天左右开始下降,但是由于国内及时采取了一系列的管制比如大规模的检疫、严格的交通管制和对疑似病例的监控,这些都会导致模型不够准确,事实上大约半个月前新增病例就已经趋于平缓了,并且可以发现一些病例的病毒潜伏期很长,因此如果使用传染病模型可以考虑尝试SEIR模型(易感-暴露-感染-恢复)
对比分析
可以搜集2003年非典相关数据与疫情数据来对比分析两次疫情的流行特征、流行趋势等,或者对经济走向做一个预测也是不错的思路。其次由于国内疫情已经趋于稳定,所以可以使用国内疫情相关数据对全球/疫情严重的国家的发展趋势做一个预测,这些数据的获取并不困难,尤其是可以建立模型分析政府干预下的疫情变化趋势,我已经整理好数据,感兴趣的读者可以从文末获取数据并研究。
回归分析
提取一些重要的影响因素建立回归模型也是一些研究人员所感兴趣的,比如有学者以数据驱动,通过收集实验室确诊的9病例和死亡人数,并将其分为三个组:武汉市,湖北省其他城市以及中国大陆其他省份。应用简单的线性回归模型来对病死率进行估计。或者建立感染率/治愈时长与年龄段/性别等因素的多元回归模型,但是有一个难点是样本不太好采集,因为大部分地区卫健委并不公布此类数据,有兴趣的读者可以尝试。
其他想法
除了在第一节所说的“正在接受医学观察”这个指标非常值得关注,还有一些指标关注,比如我们提过之所以我们建立的SIR模型需要被修正就是政府采取了一系列的管制措施,比如停运火车,封闭社区等,那么是否可以从这个角度去量化研究这些措施对疫情发展的影响,但是如何采集相关数据却是一个难题。
最后想要说一句,给出分析思路其实是件有点心虚的事情,毕竟有太多优秀的科研人员在研究,自己的经验与方法也有一定的局限性,因为最近有一些读者在咨询相关问题,诚惶诚恐写了一点,仅供参考。
参考资料
Early estimation of the case fatality rate of COVID-19 in mainland China: a data-driven analysis http://atm.amegroups.com/post/view/early-estimation-of-the-case-fatality-rate-of-covid-19-in-mainland-china-a-data-driven-analysis
Transmission and epidemiological characteristics of Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2) infected Pneumonia (COVID-19): preliminary evidence obtained in comparison with 2003-SARS: https://www.medrxiv.org/content/10.1101/2020.01.30.20019836v4
我已经将目前搜集的有关疫情的最新数据与部分代码上传,有兴趣的读者可以后台回复【最新数据】获取最新疫情数据进行分析(包含爬虫、kaggl发布的数据集、钻石公主号邮轮相关数据等。部分数据为手工整理。如您发现任何谬误,请及时指正)
都看到这里了,只要一元即可和我互动~
一些疫情数据分析的思路,文末提供最新数据与代码相关推荐
- 【深度学习】Swin-Unet图像分割网络解析(文末提供剪枝仓库)
[深度学习]Swin-Unet图像分割网络解析(文末提供剪枝仓库) 文章目录 1 概述 2 Swin-Unet架构 3 bottleneck理解 4 具体结构4.1 Swin Transformer ...
- 电商运营必须懂的数据分析技巧(文末送教程+规则)
又到一年一度开学季,呜呜呜!!! 喂喂喂,小编跑题了. nonono,我指对于电商同学们的接下来的10月11月12月,中秋节.国庆节.双十一.双十二电商开学大考!(希望不要上演电商史诗灾难片_(:з」 ...
- 【转】怎样成为优秀的软件模型设计者(文末提供下载)
我们期待自己成为一个优秀的软件模型设计者,但是,要怎样做,又从哪里开始呢? 将下列原则应用到你的软件工程中,你会获得立杆见影的成果. 1. 人远比技术重要 你开发软件是为了供别人使用,没有人使用的软件 ...
- 盘一盘2020年上半年的微博热搜词条(文末提供获取热搜词条方法)
6月10日晚上,我正在冲浪,突然收到一条推送: 于是热搜停在了6月10日下午15点整: 杨幂.彭昱畅.明道或成最大赢家,(可能)花一天的钱买了七倍的量. 于是在热搜恢复之前,我去挖了一下历史热搜词条, ...
- 我国民用高分辨率光学传输型立体测图卫星-资源三号简介(文末附带示例数据)
我国民用高分辨率光学传输型立体测图卫星-资源三号简介 目前资源三号由资源三号01星和资源三号02星组成: 资源三号01星(ZY3-01)是我国首颗民用高分辨率光学传输型立体测图卫星,于2012年1月9 ...
- POJ 1087 -- A Plug for UNIX(最大流,建图)(文末有极限数据)
题目链接 Description You are in charge of setting up the press room for the inaugural meeting of the Uni ...
- Flink 中文社区网站 “Flink Learning” 全新上线!文末附最新 Flink 大厂招聘信息~...
Apache Flink 是业界公认的性能优异的大数据计算引擎之一.近年来,随着越来越多学习和使用 Flink 的小伙伴加入,Flink 社区不断壮大. 然而,尽管我们有完善的 Flink 教学体系以 ...
- 在中国,年收入20W是什么水平?答案扎心了(文末附最新招聘)
最近关于"年薪20万算什么水平?"冲上了热搜.对此,许多网友纷纷表示自己的看法,有的认为这个收入属于中高收入人群了. 因为按照最近某招聘网站发布的<中国企业招聘薪酬报告> ...
- RM: 基于页面结构化数据生成报表,一键导出图片,生成定制图表 文末有效果图 , 开放部分代码
背景 开发这个工具是因为一句抱怨 故事是这样的,我们公司是一个非常重视员工健康的公司,一年前老董说让HR(后面改为ZT)督促员工多多运动,可持续地位公司创造价值.并拿出了一部预算来奖励那些积极运动的人 ...
最新文章
- 有人说:穷学IT富搞金融!程序员究竟是不是一帮苦孩子在做?
- 剑指offer:字符流中第一个不重复的字符
- HDU2568 前进【水题】
- 机器运算知识点计算机组成原理,计算机组成原理考研知识点非常全
- 《高可用MySQL》2 – 单机版MySQL主从配置
- ubuntu新建python代码文件_[Vim]新建python文件自动添加python header
- .NET Pet Shop 4.0案例研究预览篇
- SAP中负数的表示增强 负号从数字后更改到数字前面
- Android 隐藏底部三个虚拟按键
- 锐捷亮相GITC:请互联网企业为我点个赞!
- python中字典的常用操作命令及注意事项
- React Native官方DEMO
- 数据结构之基于Java的链接栈实现
- TinyURL生成器
- 为何要弃 Java、Swift 于不顾,而选择 Python?
- 一个html代码太多,如何为一个部分呈现多次的一个html代码
- Codeforces Gym 100187E E. Two Labyrinths bfs
- 蚁群算法原理及其实现(python)
- MDKA5D3x-EK开发板I2C扩展ADC_ADS1110,cortex a5 linux3.6.9,Device Tree(DTB,FTD)
- 献给还在加班的你:摸鱼一时爽,一直摸鱼一直爽~
热门文章
- 仿 Chrome DevTools 的在线JSON美化工具
- KeilC51_v960a版20200626((含汉字补丁,STC15说明书,stc-isp-15xx-v6.87H)
- python画菊花_python webdriver 常用元素操作
- MVP模式理解与使用
- 吐槽 依赖倒置原则/DIP
- golang注释和文档说明及go doc/godoc说明
- linux 查看绑定网卡命令,nmcli命令使用以及网卡绑定bond
- 【python】pandas的append函数报错、不能使用
- 微信小程序Error
- 基于Qt的实时温度传输系统