理论上来说是可以的。

实际操作中,由于天气系统是一个全球性的体系,会有很多挑战。比如说数据的搜集和处理、数据传输交互、超大变量的综合考虑。

这几天天气热,正好关注到相关的话题,把整理出来的资料做一些分享。

每天搜集3TB数据用于天气预报

气象观测数据是开展各项气象业务的基础。上世纪90年代及之前,中国气象资料大部分局限于地面及高空观测。当时,2000多个地面站以小时为单位收集气象信息;120多个高空站每天观测最多不超过4次。从数据量上看不算太多,即便考虑到卫星和雷达资料,其总体日增量也局限在GB量级。

目前,全国共有2000多个地面站、120多个高空探测站、6颗在轨卫星、5万多个自动监测站、600多个农业监测站、300多个雷达站等,逐日逐小时甚至到逐分钟扫描着中国出现的各种各样的大气数据。

据中国气象局2015年公布的消息,气象部门需要永久保存的数据目前约有4PB~5PB,年增量约1PB。每年的气象数据已接近PB量级(1000GB=1TB,1000TB=1PB,约合每天3TB)。这也呈现出大数据规律的体现,观测信息量越大,所蕴藏的真实信息越多,就更能做好预报。


*气象卫星示意图

不可避免的信息延迟影响预测的及时性

一般来说,地面、高空、雷达观测数据的采集和传输过程较快,从数据采集到可视化向预报员展示,通常几分钟时间就可以完成。相对而言,静止气象卫星观测的时间稍长,中国的风云卫星一般需要20多分钟才能完成全球扫描,大概半小时后,预报员才能在电脑上看到卫星云图。

由气象观测站观测到的数据信息会首先在各省的气象台进行汇总,然后通过“质量控制”的环节,去掉或订正某些由于观测设备故障造成的错误数据,质量控制过程同样也是由计算机程序自动实现的。完成初步的质量控制后,各省就利用FTP文件传输的方式,将该省该时刻全部观测站点全部物理量数据打包为一个大文件,上传到位于北京的国家气象信息中心的通信台。

世界其他国家的观测数据的采集和传输也基本大同小异。除此以外,国与国之间也要进行实况数据的交换,而且必须是无偿交换。


*中山国家气象观测站

除了实况数据之外,天气预报中还需要用到一种模拟数据。模式数据可以说更简单也可以说更复杂。简单的是,这类数据仅由各类计算机的程序运算生成,属于预测未来的“一般将来时数据”;说它复杂则是因为计算量非常庞大,运用到的计算公式也异常复杂,为了更真实地模拟全球大气的走向,运算出的数据量十分惊人的,对应的传输交流速度也最慢。以上午08时起报的欧洲中心模式系统为例,首先计算未来3小时(上午11时)的所有物理量,打包为1个GRIB文件并向其他国家传输,然后再计算未来6小时的数据,打包传输,直到最后完成10天后上午08时的预报数据计算并传输,每个预报时效的GRIB文件大概100多兆,计算一个预报时效大概需要几分钟时间,模式系统启动也需要很长时间,这样北京收到欧洲中心在早08时起报的第1个GRIB文件大概要到下午1时45分,完成最后一个240小时预报时效GRIB文件的接收要到下午3时。

这样,如果要做早08时到下午3时的天气预报,只能使用前1个起报时刻的模式数据,比如前一天晚20时的模式数据。*GRIB 码是与计算机无关的压缩的二进制编码,主要用来表示数值天气预报的产品资料。


*中国天河二号,世界上运行速度最快的超级计算机之一,能够快速计算、处理天气预报的相关数据

基于上万个变量的发展趋势预测全球影响天气的成千上万个变量时刻都在不停地变化,而传统的模型没有办法将所有的因素考虑在内。

因此,传统模型总需要一些基本的假设,一旦这些假设的初始条件有误,那么整个分析预测也会谬之千里。以EarthRisk为代表的一些新兴技术公司已经尝试开始利用大数据对未来天气情况作出预报。EarthRisk采用的预测模型项源自加州大学斯克利普斯海洋研究所,该模型不同于以往的数值预报模式,可基于 820 亿次计算以及 60 年的气象历史数据来识别天气模式,然后将这些模式与当前的气候条件进行比较,再运用预测性分析进行天气预测,其预测时间更长、预测准度更高,最长可提前 40 天生成冷热天气概率,远远超过传统主观观测模型一星期左右的准度。


*气象要素追踪的可视化效果图

从天气预报看大数据未来的发展挑战

天气预报作为最常见、和日常生活联系最紧密、最具有代表性的全球化大数据应用,它所面临的挑战也极有可能是大数据未来发展将面对的瓶颈。小智在这里进行一下大胆的总结:

1、 数据源。数据量、信息量越大,所蕴藏的真实信息越多,就更能做好对应的应用。

2、 数据存储和计算能力。已有不少项目需要完成日均TB级别的数据计算、存储任务(以全球最大的社交网络Facebook为例,早在2012年,每天需要处理的数据量就达到500TB),未来随着VR等新兴应用的不断涌现,数据量还将呈现指数级增长。

3、 信息时延。据华为最新资料透露,目前大流量信息面对的时延主要来自四个方面。第一,光速限制。光的理论速度每秒30万公里,实际在光纤中的速度是每秒20万公里,从中国传到美国也需要50毫秒。第二,物理时延。现在的传输方式是IP转发,就会产生线路时延,电容也是会产生时延的。第三,网络时延。网络时延的根本原因是因为拥塞造成的,拥塞又不可能完全避免。当全世界普及VR等应用的时候,拥塞就更厉害,而且拥塞还具有随机性。第四,存储带来的时延。(小智再额外补充一个:计算带来的时延。如果数据传送前需要进行初步的分析处理,就需要面临数据计算带来的时延)

4、 人工智能。在天气预测中,影响天气变化的因素成千上万个,而且每一个变量都在时刻不停的变化。人工智能需要对他们进行全面的考虑,才有可能进一步地提高准确率。涉及到的变量越多,对人工智能的要求就越高。

如何用机器学习进行天气预报?相关推荐

  1. 用python+sklearn(机器学习)实现天气预报数据 数据

    用python+sklearn机器学习实现天气预报 数据 项目地址 系列教程 勘误表 0.前言 1.爬虫 a.确认要被爬取的网页网址 b.爬虫部分 c.网页内容匹配取出部分 d.写入csv文件格式化 ...

  2. CCAI 2017 | 德国DFKI科技总监Hans Uszkoreit:如何用机器学习和知识图谱来实现商业智能化? 原2017.07.25AI科技大本营 文/CSDN大琦 7 月22 - 2

    CCAI 2017 | 德国DFKI科技总监Hans Uszkoreit:如何用机器学习和知识图谱来实现商业智能化? 原2017.07.25AI科技大本营 文/CSDN大琦 7 月22 - 23 日, ...

  3. 用python+sklearn(机器学习)实现天气预报数据 模型和使用

    用python+sklearn机器学习实现天气预报 模型和使用 项目地址 系列教程 0.前言 1.建立模型 a.准备 引入所需要的头文件 选择模型 选择评估方法 获取数据集 b.建立模型 c.获取模型 ...

  4. 吴恩达等ML大神对话:如何用机器学习应对气候变化 | NeurIPS 2019

    2019-12-17 12:05:38 十三 发自 凹非寺  量子位 编译 | 公众号 QbitAI 机器学习该如何加入应对气候变化这场硬仗? 在今年的NeurIPS会议上,机器学习大神们聚集在一起, ...

  5. 吴恩达、Jeff Dean、Bengio对话:如何用机器学习应对气候变化 | NeurIPS 2019

    十三 发自 凹非寺  量子位 编译 | 公众号 QbitAI 机器学习该如何加入应对气候变化这场硬仗? 在今年的NeurIPS会议上,机器学习大神们聚集在一起,讨论了人工智能如何应对气候变化对地球生命 ...

  6. 我是如何用机器学习技术帮助 HR 省时间的

    引言 假设简历库中有 10000 份名为 "软件工程师" 的简历. 一位 HR 在搜索 "Android 工程师" 时仅关注名称为 "Android ...

  7. 搞日租房的Airbnb,如何用机器学习对接上百万的房东和租客?

    本文来自AI新媒体量子位(QbitAI) 用Airbnb找房,是不是经常觉得"这个房子正合朕意"? 除了照骗拍得好之外,机器学习也功不可没. Airbnb的工程副总裁Mike Cu ...

  8. 如何用机器学习识别猫叫和狗叫声?

    在一些应用项目开发的过程中,有时需要用到语音检测的功能,即识别敲门声.门铃声.汽车喇叭声等功能,对于中小开发者来说,单独开发构建该能力,不免耗时耗力,而华为机器学习服务中的声音识别服务SDK,只需简单 ...

  9. 入坑就对了!如何用机器学习甄别真假美猴王?

    引言 文章开篇,给大家分享个对机器学习有意思的解释: - 孙悟空(Real data):我是孙悟空. - 如来(D net):你是真的. - 六耳猕猴(G net):我是孙悟空. - 如来:你是假的. ...

最新文章

  1. 开发环境wamp3.06 + Zend studio 12 调试配置
  2. Lucene的评分(score)机制的简单解释
  3. 苹果加入AOM联盟 AV1获全主流生态平台支持
  4. 关于异或的一些东西和应用
  5. linux setsockopt函数
  6. 第 7 节:前端面试指南 — 微信小程序篇(附面试题答案)
  7. Python 多版本共存问题
  8. python连接不上数据库_绕不过去的Python连接MySQL数据库
  9. nemesis什么车_马力2100匹《Trion Nemesis》谜样超跑诞生中?
  10. PHP中for循环设计无穷循环,PHP中for循环语句的几种“变态”用法
  11. gsettings set org.gnome.desktop.interface scaling-factor 2无效果
  12. 探秘小程序(3):登录
  13. 【转】联普多WAN口路由器是否可以设置叠加带宽
  14. HTML Purifier --非常好用的XSS过滤器
  15. 木鱼cms系统审计小结
  16. 扩展:收藏网上胖友的面试题
  17. Vue列表渲染v-for ... of ... 与 v-for ... in ...区别
  18. 有效运用 Color mask 和开发 Automation material - PART 1
  19. OriginPro2021安装注意事项(详细)
  20. Ansible 实战案例--Ansible Ad-Hoc 组件详解

热门文章

  1. Dual Display分析---设备树
  2. 《五子棋大师》iOS版隐私政策
  3. Splart-Allmaras湍流模型及MATLAB编程~
  4. 前端工程师是做什么的?
  5. 数字云栖,与您共享极致计算与创新进化的科技盛宴
  6. 2021.12.28activiti
  7. ❤️数据可视化❤️:基于Echarts + GeoJson实现的地图视觉映射散点(气泡)组件【14】 - 江苏省
  8. 做虾皮跨境电商的注意事项——扬帆牧哲
  9. 调度:确定性模型中的符号
  10. mysql去重复查询 性能_MySQL中distinct语句去查询重复记录及相关的性能讨论