◆ ◆ ◆

导读:本讲座为清华大学数据科学研究院执行副院长韩亦舜于2016年7月14日在首届中国大数据应用大会上所做的题为《大数据革命与新经济分析》的演讲。

◆ ◆ ◆

我们研究经济的时候,一定会放眼世界看更大的版图,因为今天的中国已经是世界第二大经济体了。看这张图的时候大家想一想,如果没有互联网,我们不可能及时地看到这个世界。80年代,电话开始进入了普通中国家庭。但是数量还是很少,通讯基本还是靠书信。现在信息发展非常快,这就要求我们思考:当我们放眼世界的时候,以什么样的思想和工具观察这个世界?

这些大数据的发展历程大家已经耳熟能详了。大数据分析未来的发展趋势是:数据将应用于社会化的分析,工具会越来越灵活;越来越多的人借助可视化方法来表现数据魅力,可视化做好以后数据会有美感方面的创新。数据的搜集将不但来自特定机构的数据,也来自老百姓的无私奉献。我们知道,每个人在网上随便一个动作都能留下很多痕迹,特别是当有些机制会让民众以很自然的方式参与公共数据的采集,这会减少政府维护基础设施的成本,也让市民有很好的参与感。大数据叠加上互联网、云计算,会带来新机遇。

今天我希望讲一讲大数据和经济分析的关系,过去我们有宏观经济、微观经济,今后经济研究领域会越来越注重用数据说话,数据会给我们呈现什么东西呢?

关于大数据只重视相关性不重视因果性,这个说法有片面性。数据表明海盗数量减少和全球气候变暖高度相关,可这有什么用?我们不能把全球气温抬高来遏制海盗数量。人类现在的思维水平更多地可能还是愿意找一些因果关系才能重复使用,包括结构化和非结构化,目前很多科学家做的努力都是把非结构化的数据结构化或半结构化,就是因为目前我们的认知水平多数还是用结构化的方式处理更有效和更习惯。

我们尝试用大数据处理手段做行业分析,开发出一些行业指数。这些数据一定不是交易数据的全部,但是经过持续采集、连续分析,当它作为一个行业指数来说还是有比较好的参考价值的。这里面我们着重做了一些行业相关的指数。今天我说的数据主要来自银联刷卡数据,它有一定的代表性。当然第一,大家知道外国的卡不归它管;第二,现金交易不归它管,第三方支付也拿不到数据,所以采集到的数据仍然不是全面数据。但即便不是全面数据也可以呈现出一些比较有趣的现象。


这是房地产数据,虽然和传统统计方式不太一样,它确实呈现出与国家统计局公布的数据拟合度很高的情形。而且,我们的实时性很强,这些数据对于一些想提前知道经济状况,想提前对经济进行预测的金融机构还是有很大价值的。

这是一个高端酒店的行业数据,这是以2011年的数据做基准,黄色的曲线可以看出它的起伏。灰色的竖道是环比增长情况。

这里面有三个数,一个是餐饮指数增长增速,一个是酒店增速,和各省GDP的增速。里面可以看到全部是深红色的地方是西藏这个地方,酒店指数这块——青海、新疆发展很快,包括贵州、广西也都发展得比较快。在整个沿海地区呈现出相对发展较慢的情况,但是那边的经济并不是想象的那么差,只不过它的餐饮业酒店业饱和度比较高,所以就没有呈现出那么好的增长趋势。

这张图说明了什么?刚才介绍了几本书,其中讲到了区域相关性,我们有几个大的经济区域,它们之间存在着什么样的经济关系,我们也用手上的数据进行分析,呈现出类似一些情况。

前不久我们做了一个大数据交流会,和韩国的学者一起交流。我们利用跨境交易数据做了统计,2013年—2015年跨境交易金额数据香港第一,澳门第二,韩国从2014年的第三掉到2015年的第五,2015年日本从后面又赶上来了,这是不是背后有可以解释或者暂时不能解释的原因?另外是交易笔数,香港第一,到2015年韩国第二,日本第三,这说明什么呢?说明在韩国买的都是小件东西,所以交易笔数多但是金额不多,在日本买的都是大件东西,交易笔数相对少一点,但是交易总额多一些。这就是我想说的,有的时候当你利用手上一部分数据,分析它会发现一些比较奇特的现象。

这个是日韩跨境消费数据,主要集中在珠宝百货与美容行业,韩国珠宝类的交易几乎不太多,特别突出的是韩国行业的美容,这个和大家的认知差不多,很多人去韩国购买深度或者浅层的美容服务,但是在那儿买珠宝的很少。我们展示这个数据并和韩国学者交流,他们承认他们的珠宝类产业不够发达,据说和他们国家的珠宝加工水平不高有关,这些数据是不是反过来指出规划产业的时候在这些略有不足的地方存在发展空间,这对他们也有指导意义。

这是中日韩消费经济呈现区域引力效应图,竖向是在几地的消费,横向是三个月后又在这些地方消费。红色的框是三个月出现在香港消费,三个月又出现在香港消费的比较多,泰国只有百分之七点多,法国百分之八点几,瑞士只有百分之四,美国有百分之二十多,其中是什么原因不敢轻易下结论。这里面有几个蓝框,讲区域引力效应,香港和澳门框的比例相对高一些,日本和韩国的框整体又是在百分之十几以上,另外就是法国和瑞士,前面讲的几本书,其中有一本讲到了区域经济引力,相邻地区或者风格相近的地方因为对彼此的风格很认同,所以愿意再去。如果我们对这种问题一探究竟会很有趣,比如为什么去过香港以后去澳门就多一些,这些都可以做一些深入探讨。

原文发布时间为:2016-08-07

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

清华韩亦舜:大数据革命与新经济分析相关推荐

  1. 因为站在船头,所以难以沉默——专访数据院执行副院长韩亦舜【第一届数据故事计划】...

    [第一届数据故事计划] "数据故事计划"旨在收集各类有关大数据的故事然后进行比赛及相关的宣传和推广.包括同学们接触大数据.使用大数据.最终取得成果的过程,主要内容为大数据在各类行业 ...

  2. 韩亦舜:客户数据隐私问题初探(附PPT)

    韩亦舜:大家上午好.老实讲,看了一下演讲嘉宾的构成和他们要讲的题目,把我放在第一个讲还真有点儿压力,因为隐私这个问题在中国有些模糊,我第一个讲可能让大家的思想受到束缚.当然,可能也说明咱们联盟对数据隐 ...

  3. 清华校友总会AI大数据专委会(筹)第一次理事会顺利召开

    2018年12月11日上午清华校友总会AI大数据专委会(筹)第一次理事会在清华大学顺利召开,校友总会副秘书长崔剑.专委会会长张钹院士.执行会长韩亦舜老师.副会长潘迪学长.秘书长王霞等,专委会顾问委员代 ...

  4. 图灵奖得主Judea Pearl:从“大数据革命”到“因果革命”

    整理 | 智源社区,龚鹤扬&高亦斌 2020年6月21日,在第二届北京智源大会开幕式及全体会议上,图灵奖得主.贝叶斯网络奠基人Judea Pearl 做了名为<The New Scien ...

  5. 图灵奖得主Judea Pearl 智源大会演讲:从“大数据革命”到“因果革命”

    整理:智源社区 龚鹤扬  高亦斌 2020年6月21日,在第二届北京智源大会开幕式及全体会议上,图灵奖得主.贝叶斯网络奠基人Judea Pearl 做了名为<The New Science of ...

  6. 大数据 清华 覃征_2021年清华(清华大学)大数据工程考研难度解析、考研经验分享...

    [盛世清北] 2021年清华考研备考已经开始,由于很多学生苦于在清华考研备考过程中,不知道如何查找资料,如何把握重点,甚至不确定如何准确设定备考计划,对此,盛世清北整理了清华各专业等一些列专业考研干货 ...

  7. Hadoop掀起大数据革命 三巨头齐发力

    开源的数据处理平台凭借其低成本.高扩展性和灵活性的优势已经赢得了多数网络巨头的认可.现在Hadoop将进入更多企业.IBM将在明年推出内置NoSQL技术的DB2旗舰级数据库管理系统.上个月Oracle ...

  8. 金融大数据革命-eXtremeDB金融数据库-列数据库

    金融大数据革命-eXtremeDB金融数据库 -基于矢量的统计函数的流水操作实现内存分析 简介 对于当今自动化资本市场的底层软件来说,其关键任务是管理与交易和报价相关的市场数据,其中包括用于算法交易. ...

  9. 广东未来科技荣膺2021粤港澳大湾区新经济企业100强

    本网讯(刘娜)1月12日,由深圳市企业联合会.前海深港总部企业服务平台.深圳湾国际创新联盟主办,深圳市前海香港商会.中国银行深圳市分行.广东省低碳企业协会联合主办的第七届深圳湾(前海)国际创投大会暨2 ...

  10. 计算机系男生横幅,清华男生节横幅大盘点

    原标题:清华男生节横幅大盘点 男生节横幅大盘点 又是一年男生节, 双十一前夕, 园子里的主干道就已经被各色横幅占领, 在呼呼的妖风中, 上下翻飞, 争奇斗艳, 让人眼花缭乱. 放眼望去, 清华的仙女们 ...

最新文章

  1. 数据结构之B树与B+树
  2. 为支持两个语言版本,我基于谷歌翻译API写了一款自动翻译的 webpack 插件
  3. C++中std::tr1::function和bind 组件的使用
  4. dj打碟怎么学_学DJ要不要去培训学校?
  5. 营销获客场景下的工具类产品规划
  6. 每次请求刷新token的时间
  7. BZOJ 1295: [SCOI2009]最长距离 spfa
  8. Mac电脑壁纸 Mac动态壁纸 小镇冬日夜景动态壁纸
  9. 第五章 搭建开发板的测试环境
  10. C语言的全局变量和局部变量的作用域
  11. Keras入门——(1)全连接神经网络FCN
  12. 最优秀的数据可视化案例欣赏
  13. 用 Python 爬取网易严选妹子内衣信息,探究妹纸们的偏好
  14. 评副高考计算机英语能加分吗,19类人员评副高以下职称时不用再考外语
  15. R语言中插补缺失值的R包simputation
  16. 模拟前端ADC芯片LH001-91,用于开发心电、脑电医疗设备
  17. 大话西游手游服务器合服信息查询,大话西游手游2021年6月合区查询 6月最新合区列表...
  18. 如何保护前端JS代码?前端js代码加密
  19. ubuntu18.04安装vim
  20. SQL:查找或删除重复行

热门文章

  1. tif文件怎样转换成jpg?值得收藏的三种方法!
  2. HAL库中断与DMA的串口通信大师
  3. 2009年在线营销趋势
  4. Nginx反向代理实现前后端分离
  5. IIS 6.0的详解
  6. 洛谷 P2051 [AHOI2009]中国象棋【dp】
  7. 解决方案:Please use urllib or similar directly.
  8. 傲慢与偏见电影_生存偏见与产品开发
  9. Markdown公式用法大全
  10. 决策树基础知识与理论