在 SQL 中,基数(cardinality)的定义为一个数据列中独一无二数据的数量。

高基数(High-Cardinality)的定义为在一个数据列中的数据基本上不重复,或者说重复率非常低。

例如我们常见的识别号,邮件地址,用户名等都可以被认为是高基数数据。 例如我们常定义的 USERS 数据表中的 USER_ID 字段,这个字段中的数据通常被定义为 1 到 n。

每一次一个新的用户被作为记录插入到 USERS 表中,一个新的记录将会被创建, 字段 USER_ID 将会使用一个新的数据来标识这个被插入的数据。

因为 USER_ID 中插入的数据是独一无二的,因此这个字段的数据技术就可以被考虑认为是 高基数(High-Cardinality) 数据。

https://www.ossez.com/t/topic/13610

高基数数据特性是什么意思相关推荐

  1. 平均数编码:针对高基数定性特征(类别特征)的数据预处理/特征工程

    https://zhuanlan.zhihu.com/p/26308272 (在另一篇文章中,我正在汇总所有已知的数据挖掘特征工程技巧:[持续更新]机器学习特征工程实用技巧大全 - 知乎专栏.) 前言 ...

  2. 高光谱图像pca降维_高光谱图像的数据特性之探讨

    图像是获取信息以及探知世界的重要媒介.近年来,传感科技与成像技术实现了跨越式发展,促使图像获取在质与量上均获得了显著提升.在多样化成像手段中,光谱成像技术是成像科技的重要组成部分,是人类借助光这一能量 ...

  3. 时序数据库永远的难关 — 时间线膨胀(高基数 Cardinality)问题的解决方案

    简介: 本文主要讨论 influxdb 在遇到写入的数据出现高基数 Cardinality 问题时,一些可行的解决方案. 作者 | 徐建伟 (竹影) 前序 随着移动端发展走向饱和,现在整个 IT 行业 ...

  4. 论各类BI工具的“大数据”特性!

    市面上的BI工具形形色色,功能性能包装得十分亮丽,但实际应用中我们往往更关注的是朴实的技术特性和解决方案.对于大数据,未来的应用趋势不可抵挡,很多企业也正存在大数据分析处理展现的需求,以下我们列举市面 ...

  5. 高端数据中心交换机散热系统大比拼

    高端数据中心交换机散热系统大比拼 来源:武汉众联恒兴科技有限公司  发布时间:2014-07-04 14:13:04   高 端交换机是数据中心网络的重要组成部分,承担着数据中心数据转发与传输的重要功 ...

  6. 如何写出高性能代码(二)巧用数据特性

    导语 同一份逻辑,不同人的实现的代码性能会出现数量级的差异: 同一份代码,你可能微调几个字符或者某行代码的顺序,就会有数倍的性能提升:同一份代码,也可能在不同处理器上运行也会有几倍的性能差异:十倍程序 ...

  7. [论文翻译][2004][567]Higher-order latent trait models for cognitive diagnosis(HO-DINA 高阶潜在特性认知诊断模型)

    Higher-order latent trait models for cognitive diagnosis 下载论文 摘要 1. 引言 2. 模型说明 2.1 试题响应向量的条件分布 2.1.1 ...

  8. 高通量数据中批次效应的鉴定和处理(六)- 直接校正表达矩阵

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析  ...

  9. 高通量数据中批次效应的鉴定和处理(五)- 预测并校正可能存在的混杂因素...

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析  ...

最新文章

  1. java假死_分析java进程假死
  2. Boost:宏BOOST_TEST_GT的使用实例
  3. 在Java EE 6中将Bean验证与JAX-RS集成
  4. 利用反射对dao层进行重写
  5. doc文件转换html,HTML+CSS入门 如何使用POI将doc文件转换为HTML
  6. jQuery版三级联动案例
  7. linux c++编译问题和虚拟机网络通信
  8. Eclipse中Maven的设定
  9. AngularJS 开发辅助工具
  10. 小白高速变大神,零基础菜鸟应该怎么学编程
  11. 项目Beta冲刺(团队)总结
  12. Cholesky分解
  13. 7440 GT540
  14. GUI输出中文为乱码解决方式
  15. Linaro ABE(高级构建环境)构建GNU交叉工具链
  16. 双绞线为什么要绞起来
  17. 教程篇(6.4) 03. 设备注册 ❀ FortiManager ❀ Fortinet 网络安全专家 NSE 5
  18. DedeCMS织梦教程:菜鸟级基础问题解决方法大汇总
  19. D2 日报 2019年5月20日
  20. javascript 小球碰撞反弹

热门文章

  1. Vue项目:路由跳转时中文传参被URL编码,怎么解决?用js封装Base64编码解码加密解密
  2. 2014年全国硕士研究生入学统一考试管理类专业学位联考逻辑试题——纯享题目版
  3. 上计算机专业的梦想与目标,坚定升学目标,放飞大学梦想 ——计算机专业部召开强化班战前动员会...
  4. 图片速览 GroupViT: Semantic Segmentation Emerges from Text Supervision
  5. 从OVF矢量场文件中获取磁斯格明子的位置和半径的粗略方法(trace skyrmion)
  6. 1071 (15分)
  7. 每个程序员必须掌握的英语单词(摘录于黑马程序员文案)
  8. 阿里云服务器ECS 第一篇:FTP文件服务器搭建
  9. 如何找到自己的特长和爱好?
  10. IDEA实用插件之RestfulToolkitX——Restful接口调试