随着2018年国务院机构改革方案中省级和省级以下国地税机构合并要求的落地,各省级税务局成立了税收大数据和风险管理局,省级大数据平台应用建设变得比以往任何时候都紧迫。大数据平台能做什么?税务人员需要的数据平台是什么样的?省级税务大数据平台如何建设?这些问题是每个计划建设大数据平台的单位都需要认真思考的,本文结合自身建设需要,就省级大数据平台建设做了一些探讨。

一、大数据平台的建设是全局战略性项目

  大数据平台建设项目一般都规模大、周期长、涉及部门多,成效体现慢。同时建成后,数据运维、模型改进、应用深入等方面还需要持续投入。

  因此大数据平台建设项目的风险很大,这风险来自方方面面,既有技术、方案层面的风险,也有制度、人为方面的风险,还有可能受政策变化、机构改革等影响。

  领导的决心,特别是一把手的决心是大数据平台建设项目成功的关键。启动大数据平台建设的决策需要慎重,但一旦决定启动项目建设,就需要站在全局战略角度给项目持续的支持。只有领导的积极推动,才能在建设过程中,充分解放思想、突破部门壁垒,使大数据平台在优化工作流程、提高征管效能上发挥战略性作用,通过数据的深入应用让税收工作面貌焕然一新。

二、深入理解大数据平台的含义和它能解决的问题有助于我们摆正对大数据平台的期望

  大数据按照麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

  为了让大数据能存得下、算得动,近年来发展了一系列大数据技术,如:MPP数据库、Hadoop生态系统、流式计算引擎等。这些技术在特定场景及限定条件下解决了大数据的计算问题,但额外需付出存储空间、计算能力、使用便捷性上的代价。

  大数据平台一般都会综合采用多种大数据技术,这些技术只是解决大数据量下的加工处理问题,至于如何加工提炼出有价值数据,进而指导实际工作,仅靠大数据平台提供的基础功能是不够的,需要经验积累、领域建模、数据挖掘、应用探索,这些远远超出了简单平台构建的范畴。当下流行的一种观念认为大数据无所不能,有了大数据平台,就囊括一切数据,能给出想要的任何结果,实际远远没有那么简单。

三、准确把握省级及以下税务部门真实需要才能构建实用好用的大数据平台

  建设省级税务大数据平台,需要深入研究省级及以下税务部门的数据需求,这里的需求包括显式的需求,也包括平台建设的各种约束。分析需求时还要将需求和大数据平台的实现结合起来考虑,要协调处理好以下几大矛盾。

  (一)总局、省局关注点和基层业务人员数据需要不一致的矛盾

  总局、省局数据需求多偏向统计分析决策型需求,基层业务人员更多关心企业个体、具体明细的数据。汇总的统计分析数据允许存在一定程度的数据误差,不影响最终结果的有效性;企业的关键数据须力争百分百准确,即使一户数据有问题,对企业来说都是不能接受的。大数据平台需要在统一体系架构下协调这两类需求,满足各级部门的需要。

  (二)大数据平台建设与风险管理的目标手段不一致的矛盾

  目前各省成立了税收大数据和风险管理局,将大数据与风险放在一个部门进行管理,但实际上两者的管理目标和手段是有区别的。大数据平台中采集加工各类数据,不仅包括风险管理关心的问题企业的数据,但更多的包含的是正常企业的数据。大数据平台需要关注正常企业的相关数据,提炼有价值信息,为管理决策服务。而风险管理着重于识别问题企业,查找相关风险点。如何协调两者目标手段,让大数据平台建设与风险管理相互协同,是每个省局均要面临的课题。

  (三)局方需求和大数据平台基础工具提供能力间差异的矛盾

  税务人员希望能很方便的获得所需的数据,简单易用是对平台的基本要求。同时获得的数据应该是成品数据,已经按照使用者习惯加工处理后的数据,直接可以用于决策、管理、服务。此外希望平台能满足管理人员、分析人员、操作人员、技术人员等各类人员的使用需求,而且能兼容小白和专家的差异性需要,成为初学者的拐棍,辅助他们入门,专家的利器,帮助他们提高工作效率。

  目前的大数据平台使用门槛比较高,不通过专门学习很难上手。此外通过平台简单得出的数据价值不高,缺乏加工整理提炼,离我们税务人员的理想需要还有很大的距离。

  省级税务部门建设大数据平台必然要努力协调各相关建设方,在充分发挥大数据基础工具能力的基础上,平衡现实手段和理想目标的差异,或者改造基础工具,或者通过合理规划、精巧设计、成体系的应用开发,使大数据平台功能尽可能贴近我们真正的需要。

  (四)税务政策业务每年都会发生变化、核心软件月度定期性升级与大数据平台稳定性要求间的矛盾

  税务业务受政策影响很大,基本每年都会发生几项重大业务变化,此外核心软件每月会例行升级,这些都会对大数据平台的数据来源、处理规则等造成影响。为了能处理大量数据,大数据平台会采用分布式存储与计算、批处理预加工等多种手段,这些都需要基于现有的业务和软件基础上进行定制开发。从大数据平台建设角度希望税收业务和软件稳定,但实际税收业务和软件发生变化是常态,处理不好,会造成大数据平台每月周期性的数据不准或者无法使用,省级大数据平台建设必须要试图调和这两者的矛盾。近年来逐步发展成熟的NoSQL数据库、对象存储、数据服务及数据中台的概念、敏捷开发的理念以及传统的面向对象设计中的多态性等,都对化解这对矛盾有所帮助,可以综合使用上述技术,建立一套整体有效的应对机制,通过快速有效的响应变化来将业务软件的变化对大数据平台的影响减到最小。

  (五)大数据平台建设时解决了当前系统中的数据统一存储利用问题,但未来新的自建系统又会产生新的数据孤岛,造成数据整合工作永远没有尽头

  数据整合工作是数据分析利用工作的基础,这块工作占据了大数据平台前期工作量中的很大比例,但这块工作并不产生多少实际价值。数据平台建设之初数据整合工作是必不可少的,但大数据平台建成后还要一直不断的重复,同时还要跟踪被数据整合了的原应用的变化升级影响,而且随着时间推移要跟踪的应用越来越多……陷入这样的数据整合的泥潭不能自拔想想都会是一件非常令人沮丧的事。

  省级税务部门应该在建设大数据平台之初就认识到此问题,通过统筹设计配合制度规范,破解产生数据的应用只管应用建设不管数据,数据平台反而要投入大量资源深入理解应用逻辑数据处理跟踪应用变化的矛盾。可约定后续新建的应用系统有义务提炼本系统中的有价值的数据,通过与大数据平台约定的数据接口提交数据平台,并负责数据质量、数值一致性;大数据平台负责维护接口稳定,确保提交的数据能被统一存储加工使用。通过应用系统和数据平台分工合作各司其职,彻底解决新增数据孤岛问题。

  (六)数据应用的多样性和大数据平台资源有限间的矛盾

  大数据平台上的应用涉及税务系统的方方面面,并且随着平台使用在广度、深度两个方面不断扩展。但省级建设大数据平台的可用的资源有限,如何协调有限的资源和无限扩展的需求间的矛盾,是必然会面对的一个现实问题。

  一个可行的务实的应对方案是构建以大数据平台为基础的开放的数据应用生态体系。大数据平台建设的主要精力放在核心的数据存储、加工、提炼以及公共的基础服务上,通过构建数据中台,对之上的数据应用提供支持。第三方厂商只要遵循一定规范,就可以基于大数据平台框架和数据的支持进行开发,从而满足未来税务系统层出不穷的各类应用需求。

  (七)大数据平台对使用者的要求和税务人员现有水平间的矛盾

  大数据平台很多技术是最近几年才发展起来的,即使在IT业内人才也很缺乏,税务系统内更少,而且大数据平台要配合使用多种产品技术,只了解一两种产品技术是不够的。大数据平台的特点决定了它的部署使用成本(软硬件投资)比较大,一般人接触机会少,大数据人才成长速度慢。

  同时近年来税务应用统一采用oracle+weblogic架构,税务系统内部积累了一批熟悉oracle数据库和weblogic应用开发的人,转到大数据平台后,新的架构不熟悉,原有的积累用不上,短期内会面临信息化能力的倒退。

  如何协调好大数据平台对使用者要求高而现有税务人员技术积累几乎为零间的矛盾,将决定了能否真正掌握大数据技术并快速发挥大数据能力。除了加强大数据技术、理念、方法的培训,充分利用外部合作公司的技术力量外,还可以从以下几个方面努力:一是将大数据平台较难理解使用的一些功能通过服务方式进行封装提供使用,同时发布示范应用给使用者做范本,降低税务人员使用门槛。二是重视在Oracle上的经验积累的继承重用,在规划设计时倾向在与Oracle有较高相似性的PostgreSQL、Greenplum、HybridDB for PostgreSQL等平台上创建数据集市和作为供税务人员使用的大数据平台计算成果的存放处。

  (八)集中统一平台建设和发挥基层积极性创造性间的矛盾

  大数据平台系统复杂投资大,仅在总局、省局两级集中统一建设。基层市县局税务人员人数众多,最贴近具体税收业务,是很多管理创新的需求来源和应用成效体现地。如何在统一建设的基础上保留市县局一定的数据自主权,处理好统一建设与基层创新间的矛盾,是大数据平台上线后市县两级能否继续保持创新动力、大数据平台能否长期保持活力的关键。

  首先需要发挥大数据平台的云存储能力,让大数据平台能向市县局自建系统提供数据存储能力,其次通过数据服务、订阅服务等向市县级自建系统提供大数据平台能力输出。各地自建系统只需保存大数据平台没有的数据、实现大数据平台不提供的功能,最终实现与大数据平台的良性互补互为促进。

四、建设要充分利用总局大数据云平台的资源

  2017年起国家税务总局向各省逐步开放了总局大数据云平台的部分功能,省级大数据平台建设要充分利用好总局大数据云平台。借助总局的大数据云平台,可以零成本获得学习使用环境,加快大数据人才的培养和大数据分析能力的提高;同时各省工作中所需省外数据也可以通过总局大数据平台的渠道获取。

  结合总局的大数据云平台思考建设省级大数据平台,要处理好以下几个问题:

  一是处理好本地个性化数据的存储、加工、统一应用问题。个性化数据包括省、市、县各级税务部门产生、收集、关心的数据。采用总局的大数据云平台和本地数据平台相结合的方式实现,可以兼顾方案所需的安全、便捷等要求,本地平台根据数据规模可以选择传统数据库或者大数据平台。

  二是方案设计时要充分考虑总局平台的性能、并发、网络带宽等问题。总局的大数据云平台理论上完全可以用于构建分析类时效性要求不高的应用,但对时效性高、与生产业务结合紧密的应用,在本地数据集市中实现更合适。

  三是规划时要充分考虑系统设计的简洁性、功能扩展的方便性。方案内要允许方便的调整增加应用,要有一定的数据应用的主导权。

五、打造开放的数据应用新生态,实现共建共赢

  互联网近年来发展的一个特点是非常重视生态系统的建设,开放良好的生态系统能吸引多方参与,各司其职,各有专攻,才能做大做强。

  省级大数据平台建设,应以大数据平台为核心,设计建立数据应用的各种机制、服务、框架,努力打造开放的数据应用生态体系,发挥省、市、县各级税务人员的数据应用的积极性,满足各类人员的不同需要,吸引更多的应用开发商基于大数据平台进行开发,实现大数据平台共建共赢的新局面。如能实现,大数据平台必将越用越好。

参考文献

  1. 阿里巴巴数据技术及产品部.大数据之路--阿里巴巴大数据实践[M]:电子工业出版社,2017
  2. Tom Plunkett.Oracle大数据解决方案[M].许向东,译:清华大学出版社,2015
  3. 哈佛商业评论.重思大数据[M]:中信出版社,2017
  4. 谢波峰.面向大数据的税务管理应用模式及政策建议[J].国际税收,2017,4

(银河,milkywaycn@qq.com,2018年底完稿,当前应用场景情况随时间会发生变化,仅供参考)

省级税务大数据平台应用建设的分析与思考相关推荐

  1. 精益开发——税务大数据平台建设效能提升的倍增器

    2020年阿里巴巴的研发效能峰会上,阿里资深技术专家何勉做了"ALPD--阿里创新能力背后的精益产品开发体系"的分享,它是阿里正在实践和持续打造的产品开发方法,目的是帮助组织提升精 ...

  2. 大数据平台安全建设方案分享

    随着国家提出大数据促进经济社会转型发展的战略思路,大数据平台建设目前已经是政务信息化建设中的焦点内容,各省级政府依托强大的信息化体系率先做出尝试.大数据平台业务系统搭建之初,作为整个平台稳定.持续运行 ...

  3. 有赞大数据平台安全建设实践

    一.概述 在大数据平台建设初期,安全也许并不是被重点关注的一环.大数据平台的定位主要是服务数据开发人员,提高数据开发效率,提供便捷的开发流程,有效支持数仓建设.大数据平台的用户都是公司内部人员.数据本 ...

  4. 大数据平台的建设思考——数据汇聚

    大数据平台的建设思考(一) 常规大数据建设.数据中心建设,会经过以下阶段:数据汇聚.清洗整合.融合.数据融合,数据输出给各个大数据应用使用. 将整个数据流比作炒一道美味的菜肴,那么对应关系: - 买菜 ...

  5. Hadoop大数据平台开发与案例分析

    关于举办"Hadoop大数据平台开发与案例分析 "高级工程师 一.课程介绍 1. 需求理解 Hadoop 设计之初的目标就定位于高可靠性.高可拓展性.高容错性和高效性,正是这些设计 ...

  6. 7万字省级智慧农业大数据平台项目规划建设方案

    本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除. 部分资料内容: 1.1 建设原则 结合本项目的实际应用和发展要求,在进行农业大数据平台方案设计过程中,应始终坚持以下原则: 1) 可扩 ...

  7. 案例|政务大数据平台数据安全建设实践

    <关于加强数字政府建设的指导意见>.<全国一体化政务大数据体系建设指南>,对全面开创数字政府建设新局面作出部署,保障数据安全,提升数字政府基础设施的支撑能力,也明确成为数字政府 ...

  8. 医疗大数据平台的建设思考

    当下,数据对于医院的重要性不言而喻.深入的数据挖掘和应用,无论对临床.科研.管理,还是对患者服务.药物研究,都能起到推动作用.而在另一方面,各医院的系统和数据大都是碎片化的,信息资源基本都躺在数据库中 ...

  9. hadloop大数据平台论文_大数据平台建设探讨

    2019.03 1 概述 大数据平台通过统一的 大数据库实现全省业务信息 的集中 , 该库数据来源于全省各个业务系统和基础数据 库等应用数据 . 位置数据 . 搜索数据等结构化数据 . 半 结构化数据 ...

  10. 海关大数据平台建设与应用场景思考

    张涵诚:海关大数据平台建设与应用场景思考 文/张涵诚 海关十三五规划明确指出,要运用大数据技术提升海关管理智能化水平.要数据科学赋能海关,提高智能化水平的提高就一定离不开平台建设,也离不开大数据各种算 ...

最新文章

  1. 响应式布局设备分界点
  2. python编程中的if __name__ == 'main': 的作用和原理
  3. java 模型 数据库_数据库表与java域模型之间的mapping和自动生成(基于mybatis)
  4. html能插入背景的行级元素,Html元素类型:块级元素、行内元素(内联元素)和行内块级元素...
  5. 诗与远方:无题(八十八)
  6. Linux内存错误系统重启,linux服务器硬件报错,系统异常重启检测-MCElog
  7. jQuery基础知识--选择器与效果
  8. -bash: wget 未找到命令的解决办法
  9. 数据结构导论(第一章概论)
  10. HTML期末大作业~海贼王动漫的HTML网页制作(共五页有五种风格)
  11. p2p网络中的节点发现之UDP
  12. 大自然的印钞机农夫山泉是如何干过一群互联网与电商大佬的
  13. Java url链接生成二维码
  14. win7-32位系统SqlServer2014版本下载与安装
  15. 蓝屏 0x00000001 问题怎么解决?
  16. Python+OpenCV视频的读取与处理;截取部分图像数据; 边界填充
  17. 动手学习深度学习——2.3 线性代数
  18. 多目标优化-NSGAII算法
  19. hangfire mysql_Hangfire 后台日志 The underlying provider failed on Open 错误
  20. win8系统如何修改锁屏界面壁纸

热门文章

  1. 浩辰cad2019破解补丁|浩辰cad2019无限试用破解补丁下载(附浩辰cad2019激活工具/无需激活码)
  2. ubuntu安装百度输入法
  3. 最新wxid转扫一扫添加好友
  4. 天虹办公系统kk服务器,客户齐点赞,蓝凌KK 7.0大幅提升工作效率
  5. 解决RuntimeException: Parcel android.os.Parcel@*: Unmarshalling unknown type code * at offset * 异常
  6. 超分辨率技术AI人工智能老照片修复自动人像脑补照片高清重建人脸模糊图片变清晰软件
  7. 覆盖网络(Overlay Network)
  8. 怎么设置邮箱自动回复?如何设置自动回复功能?
  9. 路由器安全——破解wifi密码,同时中间人攻击
  10. 微信小程序语音搜索功能