数据仓库技术经过了十几年的发展,在理论与工程实践上都取得了显著的成果。国际上许多重要的学术会议,如超大型数据库国际会议(VLDB)、数据工程国际会议(Data Engineering)等,都有大量专门
研究数据仓库(Data Warehousing)、联机分析处理(On-Line Analytical Processing)、数据挖掘(Data Mining)的论文,各大数据库厂商纷纷推出相应产品支持数据仓库,比如NCR、SAS、Oracle、IBM、Informix、Sybase等都提出了相应的数据仓库解决方案。

随着信息技术的飞速发展,企业内部产生了越来越多的数据,但这些数据并没有产生应有的信息,困此,我们常常可以看到企业“数据爆炸、知识贫乏”的窘迫局面。如何有效地整合与充分利用信息资源,成为企业提高核心竞争力的关键。此外,数据仓库的设计与实现,在不同的行业存在着极大的差别,企业在设计过程中应该注意哪些细节问题?

本期“方案评析”专题中所选的几篇文章,以电信、银行、医疗行业为实例,在实际操作的基础上,分析了企业经营分析与决策支持系统的建设应用,分析了建设数据仓库及基于数据仓库的商业智能系统应具备的基本条件,从确定主题、数据准备、建立模型、评估和解释模型、运用和巩固模型等方面,对数据仓库的设计方法,以及解决关键环节问题的技巧进行了深入剖析,具有较高的实用价值。

大型企业数据仓库系统的建设是一项复杂的系统工程,在设计中会遇到各种各样的技术问题。本文以电信行业数据创库设计为例,提供数据仓库设计过程中的六个关键环节,从技术上给读者提供参考。[@more@]环节一:异种数据源集成

企业在经营分析与决策支持系统的建设时,必须将遗留系统(Legacy System)进行高效全面的集成。由于遗留系统是在企业发展的不同时期建设的,往往缺乏全局规划,所以拥有不同的操作系统、不同的数据库、不同的网络通信机制等,形成了所谓的“信息孤岛”。

系统中采用异种数据源企业应用集成接口,来实现对异种数据源的透明访问,包括数据源元数据访问及业务操作数据访问。数据源分为在线数据源和离线数据源,在线数据源是指允许在线抽取的业务数据源,如营业数据; 离线数据源是指不允许直接在线抽取的数据源,如计费样单数据就是采用以脱机文件数据格式及FTP方式集成进系统。

对数据源实现元数据级的管理,数据源的连接类型(ODBC、OLEDB、JDBC、Native)、连接字符串,以及数据结构信息都以元数据的形式存储于元数据库中,通过控制台对其进行业务语义定义,使用户对整个企业的信息系统有了全面的掌握。

环节二:ODS层的设计

操作数据存储ODS(Operation Data Storage)是一个集成了来自不同数据库数据的环境。其目的是为终端用户提供一致的企业数据集成视图。它可以帮助用户轻松应对跨多个商业功能的操作挑战,是面向主题的、集成的、近实时的数据存储。

设计ODS层的目的在于改善了对关键操作数据库的存取,用户能获得收益、客户等主题的企业级完整视图,有利于更好地通观全局。近实时的数据存储提供了查询与服务能力,并以更高的性能生成操作报告。设计ODS的核心是实现焦点主题全局试图应用,如企业的客户管理系统,可以建立以客户为中心的ODS客户主题视图,向上层提供高效的服务。而对于话费结算则采取了从综合结算系统中直接抽取到数据仓库的方式,抽取周期为结算周期,能完全满足决策分析的时间窗要求。

环节三:ETL过程的设计

数据抽取、转换和加载,是数据仓库实现过程中,数据由数据源系统向数据仓库加载的主要方法,整个数据处理过程如下:

数据抽取 从数据源系统抽取数据仓库系统所需的数据,数据抽取采用统一的接口,可以从数据库抽取数据,也可以从文件抽取。对于不同数据平台、源数据形式、性能要求的业务系统,以及不同数据量的源数据,可能采用的接口方式不同,为保证抽取效率,减少对生产运营的影响,对于大数据量的抽取,采取“数据分割、缩短抽取周期”的原则,对于直接的数据库抽取,采取协商接口表的方式,保障生产系统数据库的安全。

数据转换 数据转换是指对抽取的源数据根据数据仓库系统模型的要求,进行数据的转换、清洗、拆分、汇总等,保证来自不同系统、不同格式的数据和信息模型具有一致性和完整性,并按要求装入数据仓库。

数据加载 数据加载是将转换后的数据加载到数据仓库中,可以采用数据加载工具,也可以采用API编程进行数据加载。数据加载策略包括加载周期和数据追加策略,对于电信企业级应用,采用对ETL工具DataStage进行功能封装,向上提供监控与调度接口的方式。数据加载周期要综合考虑经营分析需求和系统加载的代价,对不同业务系统的数据采用不同的加载周期,但必须保持同一时间业务数据的完整性和一致性。

环节四:仓库模型设计

由于经营分析需求的不断变化,数据仓库中数据的存储必须采用主题分域的方式,及尽可能小的业务单元进行数据的组织和存储,以满足数据仓库的灵活性。此外,任何一个信息系统都具有整体性、结构性、层次性、相对性、可变性,数据仓库的目标逻辑结构的设计要体现这些特征。

例如,某电信运营商的业务可以按照不同的主题域分为八类:客户、账务、资源、服务、客服、营销、服务使用、结算。客户主题包含与客户相关的基本信息,如客户的自然属性(姓名、年龄、职业等)、分类信息(现有客户、潜在客户、大客户等)、重要属性信息(信用度、忠诚度、消费层次等)。账务主题中包含了与客户相关的费用信息,如明细账单、综合账单、账本、账户、付费记录、销账流水等;资源主题中包含网络资源和服务资源信息及占用情况;服务主题包含产品、套餐、资费与优惠规则等的信息;客服主题包含与客户服务相关的部门信息、流程信息、分类信息等; 营销主题包含销售机会、营销渠道、促销活动等相关信息;服务使用主题描述客户购买和使用电信服务产品的信息,包括用户、服务使用记录、清单等;结算主题包含结算清单、结算明细账单、合作服务方等信息。对于主题的建模采用星型结构,以事实表或概要表加相关维表构成。

环节五:元数据管理

元数据(Metadata)是关于数据、操纵数据的进程,以及应用程序的结构、意义的描述信息,其主要目标是提供数据资源的全面指南。元数据是描述数据仓库内数据结构和建立方法的数据,可将其按用途分为两类:技术元数据(Technical Metadata)、业务元数据(Business Metadata)和内联映射元数据(Inter-Mapping Metadata)。

技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库的数据,主要包括数据仓库结构的描述(各个主题的定义,星型模式或雪花型模式的描述定义等)、ODS层的企业数据模型描述(以描述关系表及其关联关系为形式)、对数据稽核规则的定义、数据集市定义描述与装载描述(包括Cube的维度、层次、度量以及相应事实表、概要表的抽取规则)。另外,安全认证数据也作为元数据的一个重要部分进行管理。

业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够理解数据仓库中的数据。业务元数据包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据来源;系统所提供的分析方法及公式、报表信息。

内联映射元数据(Inter-Mapping Metadata)实现技术元数据与业务元数据的层间映射,使得信息系统的概念模型与物理模型相互独立,使企业的概念、业务模型重组,以及物理模型的变化相互透明。

内联映射元数据从技术上为业务需求驱动、企业数据驱动的双驱动建设模型提供了重要保证,使信息系统的建设具有更高的灵活性与适应性(基于元模型数据仓库建模的过程如图1所示)。

环节六:专题数据挖掘

电信企业在长期信息化建设过程中积累了大量业务运营数据和业务管理数据,一般的企业数据量已超过TB级。市场的激烈竞争和管理的复杂性,决定了企业需要对客户关系、市场营销、产品工程、投资分析等方面的历史数据进行提取与分析,将数据转化为有用的信息。数据挖掘一般用于在海量数据集中发现间接、隐藏、新颖的规律,数据挖掘技术的优势在于,通过对数据集进行有限步骤的采集、整理、分析、推理、比较等分析手段,来揭露埋藏数据内部的有用信息。数据挖掘常用的算法包括:关联规则、聚类检测、决策树、神经网络、遗传算法、支持向量机等,在SAS、IM8等数据挖掘工具中支持的算法包括决策树、聚类分析、神经网络、回归分析等。

以电信经营数据分类与预测分析数据挖掘专题为例,分类包括客户分类、网元分类等; 预测包括客户发展分析与预测、业务量发展分析与预测、客户流失分析与预测、营销管理与销售机会分析与预测、市场竞争分析与预测、大客户分析与预测等。

采用回归分析业务量进行预测(如图2所示),以2003年7月1日到29日的通话次数历史数据,预测2003年7月30日的通话次数 ,结果为: 2003年7月30日的预测通话次数为31715.84323,2003年7月30日的实际通话次数为30926; 取得了较好的预测准确率。

通过上述实例中的实施,用户形成了一套有自己特色的,涵盖企业客户、产品、账务等主题的数据模型,建立了企业级的数据仓库,并进行数据模型和数据仓库的运行验证,产生报表的速度、质量、数据分析结论都基本上达到数据仓库应有的效能,为企业的经营分析与决策提供了科学的依据。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/640706/viewspace-1018459/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/640706/viewspace-1018459/

电信数据仓库设计的六个关键环节相关推荐

  1. 数据中心设计的六个关键考虑因素

    无论是什么样规模的企业,提供云计算服务的云计算供应商或希望将数据保留在内部部署数据中心的企业,良好的设计对于创建和维护高效的数据中心都很重要. 企业对基础设施的投资是昂贵的,因此任何组织都应该寻求从其 ...

  2. 移动电信数据仓库设计六环节

    环节一:异种数据源集成 企业在经营分析与决策支持系统的建设时,必须将遗留系统(Legacy System)进行高效全面的集成.由于遗留系统是在企业发展的不同时期建设的,往往缺乏全局规划,所以拥有不同的 ...

  3. ETL学习心得:探求数据仓库关键环节ETL的本质【转】

    ETL学习心得:探求数据仓库关键环节ETL的本质 做数据仓库系统,ETL是关键的一环.说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具.回忆 一下工作这么些年来,处理数据迁移.转换的工作倒还 ...

  4. 文献笔记01-全国计算机等级考试报名系统关键环节设计

    一.基本信息 标题:全国计算机等级考试报名系统关键环节设计 时间:2009 出版源:中国知网 领域分类:计算机应用与软件 二.研究背景 问题定义:人工报名需要花费大量人力物力,为了解决以上问题,可以采 ...

  5. 基于 Python 的电信领域电信领域设计与实现-毕业设计程序

    一.课题内容及研究意义 随着互联网的发展,上网人数越来越多,电信业务也随之增加.,然而就出现客服难以应付如此庞大的业务咨询量,电信领域自动问答软件就很好的解决了这个问题.在这样一个大数据时代,人们对于 ...

  6. 数据分析实战:数据分析的5大关键环节

    大数据及移动互联网时代,每一个使用移动终端的人无时无刻不在生产数据,而作为互联网服务提供的产品来说,也在持续不断的积累数据.数据如同人工智能一样,往往能表现出更为客观.理性的一面,数据可以让人更加直观 ...

  7. 数据分析5大关键环节

               数据分析流程主要分为五个关键环节:明确数据分析目的.明确数据源及数据口径.数据处理.数据分析.输出. 一.明确数据分析目的 任何一件事在做之前都是有目的性的,数据分析也是如此,在 ...

  8. 计算机课教案评语,信息技术教学的关键环节之三:教学评价

    信息技术教学的关键环节之三:教学评价 北大附中 李冬梅 课堂教学是一个环环相扣的系统.精心的教学设计,充满激情的讲解,细致入微的课堂指导,是实现教学目标.激发学习动机不可缺少的教学环节.然而,如果没有 ...

  9. 全国大学生电子设计竞赛(六)--常用整流技术

    整流电路详解 1 基本整流电路 1.1 基本整流电路 1.2 半波整流电路 1.3 半波整流电路 1.4 桥式整流滤波电路 2 高功率因数整流技术 2.1 APFC的控制方式 1.峰值电流控制 2.滞 ...

最新文章

  1. Vsphere 回收未消使用的磁盘空间
  2. Linux:-bash: ***: command not found
  3. Jquery加载默认值
  4. 使用BeetleX构建基础的SSL网络通讯
  5. ubuntu emacs的安装
  6. 中文问题-Mobile-UrlEncode
  7. bzoj 4052: [Cerc2013]Magical GCD
  8. MAC安装中文输入法Rime
  9. 计算机自动关机原理,电脑自动关机什么原因 电脑自动关机是怎么回事
  10. 使用Foxmail管理hotmail邮箱时,只能接收邮件而无法发送邮件的就解决办法
  11. 获取少女资源.html,AI少女资源一般在哪获取比较好?AI少女全地图资源获取地址一览...
  12. J - 山峰和山谷 Ridges and Valleys
  13. AEJoy —— 表达式之闪烁光标的打字机效果(二)【JS】
  14. 国产软件不背黑锅,4款强大又实用的电脑软件,用了舍不得卸载
  15. 字母频率统计 c语言,C语言统计字母使用频率
  16. 创造与魔法游戏最新的服务器,创造与魔法MOD服务器
  17. 09-赵志勇机器学习-k-means
  18. 谷歌AI发展史:“量子霸权”将人类推进计算的火箭时代!
  19. 选股器用计算机测试利润,净利润断层和口袋支点一键选股 原创: 田间棋子 像欧奈尔一样思索 今天 一。很多朋友询问净利润断层和口袋支点如何选取,其实我是阅读业绩报告对超预期进行... - 雪球...
  20. 解决IBM Security AppScan扫描出现检测到RC4密码套件问题

热门文章

  1. MATLAB 求逆矩阵并用分数表示
  2. Linux - 第16节 - 网络基础(应用层二)
  3. html是一种用于创建网页的标准标记语言,html标记是什么
  4. 请求https,X509证书信任管理器类,避免导证书
  5. 酞菁铁(FePc)分子催化剂
  6. 车牌区域提取(定位)综述及各种算法的优缺点
  7. CSS中设置表格TD宽度的问题
  8. 阿里达摩盘:如何运用“人货场”方法构建标签体系?
  9. golang 中 strings 包的 Replace 用法介绍
  10. django和数据库交互,在微信小程序端把数据库的信息修改为用户输入的信息