TPC-DS是一套决策支持系统测试基准,主要针对零售行业。提供99个SQL查询(SQL99或2003),分析数据量大,测试数据与实际商业数据高度相似,同时具有各种业务模型(分析报告型,数据挖掘型等等)。国内目前相关的翻译文章较少。本文尝试对官网的TPC BENCHMARK DS Standard Specification(下称“原文”)进行翻译。翻译主要参照的是2017年发布的2.6.0版本。

由于原文一共137页,本文在翻译的时候会进行一定的压缩,突出较为关键的信息。本文章节名称,序号,小标题等均严格按照原文翻译排序。

3 数据库填充及标度

本节定义了数据库的填充及如何定义标度

3.1 标度模型

3.1.1 基于dsdgen生成的原始数据的大致尺寸,TPC-DS基准定义了一组离散标度点(“标度因子”)。实际字节计数可能会因个别硬件和软件平台而异。

3.1.2 TPC-DS的标度因子是:1TB,3TB,10TB,30TB,以及100TB。1TB=2^40个字节。进行有效性能测试的测试数据库目前最大为100TB,TPC之后可能会超越这一限制。

3.1.3 每个定义的标度因子都有一个相关的SF值,这是一个无单位的数量,大致相当于数据仓库中存在的数据的千兆字节数。标度因子及SF值的关系如3-1表所示:

3.1.4 提供的标度因子都可以选择使用,没提供的都不能用。

3.1.5 不同数据量下的计算难度不同,因此使用不同的标度因子,其结果之间无法进行比较。

3.2 测试数据库标度

3.2.1 测试数据库是用于进行数据库的负载测试和性能测试的数据库(见第7.4节)。

3.2.2 每个标度因子和测试数据库中的每个表的行数见3-2表中的数据库行数。

3.2.3 行的大小是估算出来的,并且可能会因为数据库不同导致基准间的行信息不同,该数据仅仅作为实现基准的一种参考。

3.3 资格数据库标度

3.3.1 资格数据库(qualification database)是用于查询验证测试的数据库(见第7.3节)。

3.3.2 在性能测试中,针对资格数据库和测试数据库的验证查询,测试出的性能应该一致。因此,资格数据库在几乎每个方面(大小除外)必须与测试数据库相同,包括但不限于:

a) 列定义

b) 数据生成和加载的方法(不是平行程度)

c) 统计聚集方法

d) 数据可访问性的实现

e) 分区类型(不是分区程度)

f) 复制

g) 表的类型(如果表的类型可以选择的话)

h) EADS(比如索引)

3.3.3 资格数据库与测试数据库在每个方面都要相同,除非两者差别与标度的差异直接相关。例如,如果测试数据库使用水平分区(见2.5.3.7),则资格数据库也必须采用水平分区,尽管每种情况下分区数可能不同。同时,资格数据库可以被配置为CPU,存储器和磁盘的子集。如果资格数据库与测试数据库配置不同,则必须将差异标注出来。

3.3.4 资格数据库必须使用dsdgen以及1GB的标度因子。

3.3.5 资格数据库的行数在第3.2节中定义。

3.4 数据库填充与dsdgen

3.4.1 测试数据库和资格数据库必须使用TPC-DS数据生成器dsdgen生成的数据填充,并且dsdgen的主版本号和次版本号必须与TPC-DS规范的版本号相匹配。dsdgen的源代码可以下载(参见附录F)。

3.4.2 dsdgen生成的数据旨在符合表3-2和5-2的要求,如果表与dsdgen生成的数据不同,则以表3-2和5-2为准。

3.4.3 供应商可以修改初始数据库填充部分以及数据维护部分的dsdgen代码,但是结果数据必须符合以下要求:

a) 各列内容必须与dsdgen生成的列一致。

b) 各列数据格式必须与dsdgen生成的列的数据格式一致。

c) 为标度因子生成的行数,必须与表3-2和5-2中指定的行数相同。

如果使用了dsdgen修改后的版本,必须将修改后的源代码全部公开。此外,审核员必须验证所公开的修改后的源代码与基准执行中使用的数据生成程序相匹配。

3.4.4 如果修改仅限于源代码的一部分,则供应商可能只会公开修改源代码。

3.5 数据验证

在数据库初始加载之后,以及任何性能测试之前,要对测试数据库的数据内容的正确性进行验证。使用dsdgen的“-validate”和“-vcount”选项生成验证数据集。“-vcount”的最小值为50,为大多数表生成50行验证数据。但是,“returns”事实表,平均每个表只有5行,其维度表的总行数也少于50行。验证数据集必须全部出现在测试数据库中。

TPC-DS标准规范(3)相关推荐

  1. 欢迎参加2022年第一次《城市大脑建设标准规范》专家研讨会

    来源:世界数字大脑标准研究组 2018年以来,城市大脑正成为智慧城市和智能产业的新热点,有近500个城市提出城市大脑的建设规划,数千家大中型科技企业进入城市大脑的建设领域.如何理清城市大脑的概念和定义 ...

  2. 简要说明建设城市大脑三条关键标准规范

    作者:刘锋   前言:简要的说,城市大脑不是一个城市级AI信息系统,也不是城市内部的信息化建设,而是互联网结构从网状模型向大脑模型进化时,与城市建设结合的产物,因此建设城市大脑需要拥有三个特征或关键标 ...

  3. 安防行业标准规范大全

    国际性的ONVIF.PSIA.HDCCTV标准,国内的联网监控标准GBT28181标准,以及一些地方规范的制定,为安防行业迎接网络化.高清化.数字化的健康发展奠定了基础.那么,这些标准各有什么优点呢? ...

  4. 当前的三种构件标准规范

    当前主流构件标准规范包括OMG的CORBA.Sun的J2EE和Microsoft DNA 2000. 1. OMG的CORBA CORBA分布计算技术是OMG组织基于众多开放系统平台厂商提交的分布对象 ...

  5. 信息系统项目管理师-知识产权、项目收尾、标准规范核心知识点思维脑图

    场景 信息系统知识产权.项目收尾.标准规范有关的核心知识整理. 实现 知识产权 收尾管理 软件工程国家标准 注: 博客: https://blog.csdn.net/badao_liumang_qiz ...

  6. 关于标准规范的一些想法

    笔者最近接了一个总集项目,需要整理一套标准规范,涉及总体标准(标准编写规则).元数据标准.数据字典标准.数据接口标准.开发标准等.想着公司也接过许多总集项目,应该有一些成型的标准规范.但联系这个项目的 ...

  7. 智能化家庭弱电布线标准规范

    智能化家庭弱电布线标准规范 一.一般AV布线需要注意的问题: 1.分量线可以用三根普通视频线加上音频线,一般在8-10米内信号传输地衰减可以不计: 2. 音响线和AV线(三股,视频+L/R音频)线的结 ...

  8. php psr2规范,php标准规范详解

    本文主要和大家分享php标准规范详解,希望能帮助到大家. psr0:自动加载标准已经被 psr4 替代,可以了解下 1. 强制:完全限定命名空间和类的格式:\\(\)* 2. 强制:每个命名空间必须有 ...

  9. 2016年4月11日作业(法律法规、标准规范、职业道德)

    一.法律法规和标准规范 1.中国标准划分为哪四个层次?要求最低的是哪个?P498 答:<×××标准化法>将标准划分为4个层次,既国家标准.行业标准.地方标准和企业标准.国家标准的要求最低. ...

  10. mysql中对象标识符的命名规则,标准规范数据库命名规范.doc

    标准规范数据库命名规范 数据库命名规范 概述 基本原则 以大小写敏感编写SQL语句. 尽量使用Unicode 数据类型. 优先使用连接代替子查询或嵌套查询. 尽量使用参数化SQL查询代替语句拼接SQL ...

最新文章

  1. Filemanager 的使用
  2. 文巾解题 627. 变更性别
  3. c语言兔子繁殖问题分析和递归方程,经典的兔子生兔子问题(C#递归解法)
  4. tomcat端口被占用-----windows下如何查询某个端口被哪个进程占用以及如何杀死进程
  5. jquery 过滤html代码,jquery – 如何使指令使用过滤的HTML属性?
  6. 关于如何清除某个特定网站的缓存---基于Chrome浏览器
  7. 用oracle的java存储过程实现BLOB字段的字符串读取
  8. linux关于管道通信,球热心人帮忙 关于linux环境下管道通信
  9. 使用Idea合并svn分支到主干上
  10. H266VVC电子书开放下载啦
  11. 到底买苹果XS还是XR_苹果x苹果xr苹果xs的区别
  12. MLX90614系列 ——红外温度计
  13. C#自动换ip功能或者ip代理功能要这么实现
  14. 当Linux配置zh_CN.UTF-8 ,中文还是显示乱码解决办法
  15. P2791 幼儿园篮球题
  16. 有两种人,看似“缺心眼”,实际“聪明绝顶”,堪称“大智若愚”
  17. 秀!学妹看见都惊呆的 Python 小项目!【界面应用项目及游戏开发】
  18. Python+matplotlib实现填充螺旋实例
  19. vue2实践揭秘pdf_Vue2实践揭秘
  20. SIP软交换相关介绍

热门文章

  1. 脚手架创建项目vue2.0
  2. 解决svn: E160028: Commit failed (details follow): svn is out of date问题
  3. 小雨伞[拉钩] 面试
  4. wine for linux android,技术|如何在 Android 上借助 Wine 来运行 Windows Apps
  5. 近8万条谜语灯谜大全ACCESS数据库
  6. 功能测试学习笔记【资料来源:B站黑马测试】
  7. 微博咆哮体[Chrome Extension]
  8. C#表达式求值算法(干货)
  9. edu cf #138 Div.2(A~D)
  10. 运筹说 第23期|对偶理论与灵敏度分析—对偶问题的基本性质