在上一个因特网飙升的年代,1995 年前后,「Content is King」喊得震天嘎响。当此之时,获得与累积数据、产生信息与整理成知识并不容易,企业间比较的是有没有建置一些标竿系统,以量取胜。

10 年后的今天,因特网热再临,大型系统遍布,数据充斥,要深入分析与善用资料,如 Google、Amazon、Wal-Mart 等,才能称王。

由量转质

时至今日,技术、方法与商业模式都营造了大量累积的数据,巨量的信息让人们的注意力变成稀有资源。各中大型企业不再缺乏什么系统,例如 ERP、CRM、SCM、EIP…都已经建置完成,而今需要整合各系统以发挥综效,让有意义的信息与知识适时且直观地呈现。这令数据仓储(Data Warehouse)、商业智慧(Business Intelligence)变成流行的名词[1]。但在台湾若要说清楚意涵与架构方法,却又因为缺乏深入浅出的中文书籍而难有普遍共识。

数据仓储系统其背后代表着多项的技术整合,就笔者的经验,其技术困难点如下:

l           撷取资料:正确地整合各种数据来源,例如 ERP 是 Oracle、网站与制造数据放在 MS SQL Server、各地分公司以 .csv 格式传递相关数据进总公司…等等,这些资料都要汇整到数据仓储中,以提供广泛的分析基础。
而数据转换需要经过挑选、清洗、汇总、丰富等过程,并符合弹性、安全、自动化、高效率等基本需求。

l           储存数据:就数据应用面的不同,切割大量数据的存放,规划出操作型数据商店、数据超市与数据仓储等应用。求取数据超市/数据仓储与交易数据库的平衡,毕竟前者以星状模型为设计基础,而后者强调三阶正规化。务求正确、有效地处理超大量数据。

l           分析资料:笔者粗略地将使用者的分析需求分成四类:临时性的查询(ad-hoc query)、静态报表,多维度在线分析、数据采矿预测等。由于我们一般 IT 人员对于生产良率、客户需求、公司营运…等分析的敏感度不够,又对多维度分析语言、数据采矿等技术不熟,要掌握分析重点,满足以上四类需求确实不易。

l           呈现分析结果:呈现结果的方式也非一致格式,例如一般使用者日常所需的生产、营运分析、异常警示等静态报表。给分析师与经理使用的动态分析和预测。搭配企业管理理论,如平衡计分卡、6个标准差等,给高阶管理人员检视的仪表板。由于对各种人对计算机操作的熟悉度不同,对信息呈现的要求迥异,很难用一套技术满足所有需求。

l           教育训练、维护与安全:数据仓储与 BI 系统的观念新、牵涉面广、使用人数多,数据博杂。在推广、建置与维护上,需要谨慎考虑。

最后,整体系统设计与实做,还会因日渐高涨的及时性需求(也就是来源的交易数据有修改,在分析报表中可以立刻看到变化),而增加成本与困难度。

在此介绍一本不错的入门书, 李卓翰 博士所著:资料仓储理论与实务,学贯营销出版。此书仅介绍数据仓储系统的建置观念,对于整个系统的组成元素,例如:数据转换(Extract Transform Load)、数据库定位(操作型数据商店(Operational Data Store)、数据超市(Data Mart)与数据仓储)、多维在线分析(Multi Dimension Online Analysis Process)、数据采矿(Data Mining)等提供清楚的定义说明。

全书并未辅之以软硬件产品介绍,纯粹的概念剖析,让人容易理解整个商业智能系统架构的环节。在建置庞大的数据仓储流程时,脑海中先有完整的架构图。

可惜本书中未以专章探讨前端呈现分析结果之应用程序特征,就笔者所接触的分析系统建置,这是很让人头大的一环。分析的结果要直观清楚,还要让使用者容易深入、联想、整合与引用分析结果。这种界面往往对 IT 技术人员而言,是另一个领域的艺术

另一方面,使用者又往往要求分析报表的呈现须依循老系统的样式。但新技术的特点与旧系统大不相同,勉强为之,不但发挥不出新平台的优点,还让开发者用牛刀杀鸡,满头大汗地呈现支离破碎的结果。

企业文化与商业智慧导入

任何信息系统的成功,产品与技术虽很重要,但真正关键因素却在成员素质与企业文化。数据仓储系统不若交易系统可以明显地看到投资报酬率,因此更需要上位者眼光宏观,并能够察纳雅言,不停地吸收新知。而中阶经理人要能务实地订定阶段、步骤与方法,确实执行。

同时,分析系统的团队成员须加入对领域知识(Domain Know-how)熟悉之人才,而不是找当下没事做的人。部分公司对分析系统的态度还是以”有比较好(nice to have)”的心态在建置,因此加入的人往往不是该领域知识的菁英,而是较空闲的人。

分析的需求往往是由上而下,且需要横向的数据整合才能建立广泛而深入的系统。团队成员要有高阶经理人加入,整合往往引发政治与资源的角力,因此更需要上位者的远见与支持。

本书在第 1-4 节「常见对数据仓储系统的误解」,以及第十三章「常碰到的非技术性问题」,表列了数据仓储系统失败的潜在因素,或许在你规划系统时,可以先考虑此类企业政治与文化的因素,而非单纯的技术问题。

就企业文化而言,若重视产品定位、市场营销,以服务客户为宗旨,时时改善现况,强调研发创新,要求决策质量。则人人在精益求精的过程中,将会发现手边可供参考的信息不足,因而企盼正确有效的知识随手可得。随着信息化的普及与精进,整合与分析的需求将会越来越殷切。

数据仓储建置是持续的流程

一般建置信息系统时,其模式固定,目标明确,技术单一,大家较有经验规划软件生命周期的进度。而数据仓储的建置并非如此,参照前文所列的困难,如汇整数据的来源多样,累绩、运算的需求各异,数据量大而驳杂,呈现分析的方式需直观方便,整体系统还需时时依照营运重点更改分析模型…。

为了提供妥适的分析以因应公司营运的各种需求,数据仓储系统需具备动态增减数据来源、分析模式、呈现方式的能力,因而在数据仓储系统雏型建立完毕后,后续上线维护时,依然会需要技术人员参与投入。

普遍而言,我们各产业的 IT 部门对于数据仓储尚处在摸索阶段。因此,公司需要愿意引入新观念、技术与产品,投资教育训练,培养人才,始能够让分析系统落地生根,开花结果。

阅读建议

本书些许目录与页眉章节名称的编排有误,第十四章的数据仓储建置实例稍嫌简化,怕会误导读者考虑不周。但瑕不掩瑜,就想要了解何谓数据仓储与商业智能的管理阶层和 IT 技术人员而言,仍是一本不错的入门书。书中的概念介绍可以让你在选择技术,购买产品时有所依循,且在系统分析设计时,有重点轮廓。

在阅读本书时,除了照作者所拟定的章节顺序外,以及先熟悉第一章的概论外,依笔者个人的经验,若想了解数据仓储系统主要组成元素,或按软件产品分类,可先阅读第二章的数据仓储、第七章的数据转换、第九章的在线分析、第十一章的数据采矿与第十二章的工具。作者未专章强调的前端使用者接口,但它们依然是需要实体采购建置的,或许你可以比较参照市面上的相关产品,以补充书中的不足。

而第三章的技术团队、第四章的项目步骤、第五章的需求分析是一般项目开发与管理的范畴,你还需要佐以软件工程的进一步理论。而第六章的数据模式、第八章的中继资料与第十三章的非技术问题则是商业智能系统较其它系统需要深思的部份。

相关阅读

本书在附录 E 与附录 F 已详列了衍生阅读与研究的相关图书和网站。由于本书未谈论实做的产品技术,笔者就微软 SQL Server 2005 在此方面的相关资源稍做介绍:

l           SQL Server 2005 资料采矿圣经 尹相志着 学贯营销出版。尹顾问有多年数据仓储与数据采矿的经验,也是在台湾最先导入 SQL Server 2005 资料仓储的人。在本书中,有详细解释 SQL Server 2005 所提供的数据采矿模型之原理与使用方式。

l           MSDN Forum( http://forums.microsoft.com/MSDN/default.aspx?ForumGroupID=19&SiteID=1)此讨论区内分门别类地提供 SQL Server 各项问题的解答,或许你的疑问,可以透过关键词在此找到答案。

l           DB World 网站(http://www.dbworld.com.tw):在该网站上,有许多关于 SQL Server 2005 数据库管理、开发以及数据转换工具 SSIS 的文章。

结论

商业智能系统的最终目标是整合全公司、上下游供应链,乃至于各种市场分析的资料,让每个人各取所需,不同层级的员工在做决策时,参考不同面向的数据。但不管是经费或效益评估,皆不可能一开始就以全面整合为目标,因此架构工程师需要能看到主架构的远景,订立系统进程,分阶段引入不同的团队、数据、产品与技术。主事者在不同阶段都能够提供具说服力的投资报酬率,分析系统才得以成长茁壮。


[1] 「商业智能」涵盖的面向较「资料仓储」为大,毕竟公司营运所依凭的,不仅是格式化存放的数据。但笔者在本文所介绍的书籍着重在数据仓储,因此文中皆以数据仓储泛指大量数据为基础的分析系统。

书评--资料仓储理论与实务相关推荐

  1. [渝粤教育] 西南科技大学 国际贸易理论与实务 在线考试复习资料2021版(2)

    国际贸易理论与实务--在线考试复习资料2021版 一.单选题 1.根据货币数量理论,国内货币供给增加50%将导致(    )  A.国内价格水平提高50% B.国内价格水平提高幅度大于50% C.国内 ...

  2. [渝粤教育] 西南科技大学 国际贸易理论与实务 在线考试复习资料2021版

    国际贸易理论与实务--在线考试复习资料2021版 一.单选题 1.根据货币数量理论,国内货币供给增加50%将导致(    )  A.国内价格水平提高50% B.国内价格水平提高幅度大于50% C.国内 ...

  3. exfat 分配单元大小_知到金融理论与实务第一单元章节测试答案

    知到金融理论与实务第一单元章节测试答案 更多相关问题 根据图4-18所示顺序阀结构原理图,试问: 1) 如将调压弹簧腔的外泄油口安装成内部回油形式,即L口与p2口相 对于企业取得的无形资产,应当自可供 ...

  4. 国家开放大学2021春1069中央银行理论与实务题目

    教育 教育 试卷代号: 1069 2021年春季学期期末统一考试 中央银行理论与实务 试题 2021年7月 一.单项选择题(在下列各题的备选答案中选择一个正确的,并将其序号字母填入题中的括号里.每小题 ...

  5. 金融理论与实务【0466】

    金融理论与实务[0466] 一.阐述货币政策工具的含义及构成 二.阐述货币市场的含义.特征及构成 三.分析通货紧缩的成因及其治理措施 四.阐述商业银行含义.特征与类型 五.阐述汇率制度的含义及构成

  6. 保险经纪人考试试题2002-保险经纪理论与实务部分

    2002年保险经纪人考试试题<保险经纪理论与实务> 一.单选题 (共100题,每小题0·5分,共50分.每题的备选答案中,只有一个是正确的,多选.不选或错选均得0分) 1.不同内容的保险经 ...

  7. 【渝粤题库】国家开放大学2021春1069中央银行理论与实务答案

    教育 教育 试卷代号:1069 2021年春季学期期末统一考试 中央银行理论与实务 试题答案及评分标准 (供参考) 2021年7月 一.单项选择题(在下列各题的备选答案中选择一个正确的,并将其序号字母 ...

  8. 2022年高级经济师考试经济理论与实务练习题及答案

    1.我国经济体制改革的目标是(C ) A.建立市场经济体制 B.建立社会主义计划经济体制 C.建立社会主义市场经济体制 D.建立计划经济体制 2.经济体制和经济制度的关系是(D) A.经济制度将随着经 ...

  9. 【渝粤教育】电大中专跨境电子商务理论与实务 (19)作业 题库

    1.亚马逊的运营模式是M2C模式:平台招商.该说法( ) A.错误 B.正确 错误 正确答案:左边查询 学生答案:未作答 2.B2C跨境电商或平台的代表企业有敦煌网.阿里巴巴国际站.该说法( ) A. ...

最新文章

  1. 基于Springboot实现仿百度网盘开发
  2. python selenium --调用js
  3. BZOJ2244 [SDOI2011]拦截导弹 【cdq分治 + 树状数组】
  4. UVA11324-- The Largest Clique(SCC+DP)
  5. 剧本翻译之SHUFFLE 6月24日
  6. 初识Mysql(part5)--我需要知道的11条Mysql语句之过滤
  7. [转]Django REST framework 简介与中文教程
  8. webStrorm js文件里 怎么去掉参数的下划线
  9. 转:Nginx 性能优化有这篇就够了!
  10. Spring 切面 注解模式-练习Demo
  11. android 打包成多个so,Android Studio打包.so库到apk中实例详解
  12. r语言 生成等差序列_使用序列模型生成自然语言
  13. 强化学习平台安装 Mujoco、mujoco-py、gym、baseline
  14. 艾宾浩斯记忆表格excel_【日常福利】NAWL-最重要、最高频的学术词汇表【Anki+Excel资源免费送】...
  15. el table 固定表头和首行_bootstrap table 固定 表头 冻结 窗格 固定首行 冻结首行 fixed 对齐 分享...
  16. 跨境电商Google广告投放详细教程
  17. 数据库课程设计-----------学生选课管理系统的设计
  18. AStar(A*)算法
  19. bailianoj 4124海贼王之伟大航路
  20. 【敏捷开发每日一贴】DoD“完成”的定义

热门文章

  1. 【Android】开发”打地鼠“小游戏
  2. 编写通讯录(文件版)
  3. java编写salary函数_编写一个Java程序,在程序中包含一个Employee类,Employee类包含name、age、salary三个成员变量...
  4. 厦门理工计算机网络期末,厦门理工学院计算机网络上机实验报告03
  5. 为什么Xcode在Mac上这么大?以及减少占用空间的办法
  6. 安全企业如360如何做无线安全(I)
  7. 国家战略性新兴产业规划:促进大数据产业健康快速发展
  8. IDEA查看源码返回上一级源码位置快捷键
  9. 怎样用PS把照片处理成水彩画效果
  10. 浅谈水下声速剖面及声线追踪算法