“数据分析需要懂数据库的知识吗?”

李老头最近经常听到这样的问题,很多新人都觉得如果自己只做业务,不走技术线,是不是就可以不用学习数据库了?是不是面试的时候就不需要准备了?

毕竟很多新人刚进公司,一看到数据库里各种表的复杂链接方式,就开始犯起头疼了,更有甚者连SQL与数据库的区别都不知道,数据仓库这些概念就更不用提了。

然而,让很多人失望的是,数据库知识是我在面试新人时最常问的问题,没有之一。

数据分析需要懂数据库吗?

对数据库的了解程度,要看你定位在数据分析的哪一种层次,我见过一些数据分析人员不懂数据库,都是基于 Excel 的文件源做数据分析,他们更擅长业务

但是,他们通常情况下必须依赖于 IT 部门的支持,需要 IT 部门提供一些基本的分析数据。凭借对业务的理解,对业务数据的理解也一样可以做好数据分析工作。

也有一类数据分析人员,本身就是从数据库、商业智能BI的角色转向纯粹的数据分析人员,通过对业务的理解加上数据处理的技能和知识在分析领域也可以做的很好。

他们的一大优点就是在很大程度上不需要过度依赖IT部门,给他们一定的权限就可以自己动手直接面对统一的数据源做数据分析,有时一条SQL就是数据分析的一个环节。

所以,作为数据分析人员,个人觉得技多不压身,多一种获取不同数据渠道的本领,自然是有好处的。

什么是数据库?

首先在了解数据库之前,我们要先了解一下数据是怎么储存的?

我们都知道,当我们的祖先还在荒野中茹毛饮血的时候,就学会了利用结绳记事来进行数据储存,这些被打上结的绳子就是“数据”,虽然这种数据很难保存、很难提取。

后来祖先利用甲骨、竹简、纸张来储存文字数据,近代发明了录音机、摄像机储存音频数据,虽然数据载体一直在变化,但是数据存储的方式并没有发生很大的变化,都属于传统存储方式。

直到信息时代的到来,数据存储的方式才发生了重大变革并朝着两分方向发展:文件与数据库。

1、文件相当于把数据存放在Excel当中,形成读写文件后进行存储,然后通过python等工具对文件数据进行筛选、处理、提取;

2、数据库则是把数据按照其结构将其储存在计算机中,形成一个具有大数据量的数据集合,相当于存放文件的文件柜。

利用数据库存储数据是目前最为流行的方式,因为数据库拥有持久化存储、读写速度也很高,更关键的是数据库可以极大程度保证数据的有效性,而不像是Excel等文件极易容易产生修改错误。

数据库分类?

按照早期的数据库理论,比较流行的数据库模型有三种,分别为层次式数据库、网状数据库和关系型数据库。而在当今的互联网企业中,最常用的数据库模式主要有两种,即关系型数据库非关系型数据库

关系型数据库模型是把复杂的数据结构归结为简单的二元关系(即二维表格形式)。在关系型数据库中,对数据的操作几乎全部建立在一个或多个关系表格上,通过这些关联的表格分类、合并、连接或选取等运算来实现数据的管理。

关系型通俗的理解是,数据作为二维数组存在,你可以理解为图书馆的图书排列。

书架、楼层你可以理解为关系型的数据结构,书作为数据存在,而所有图书馆管理员就是数据库的进程,用于不同的工作。有人救火(数据修复、备份),有人整理书架、书籍(数据整理、归档),而用户进程就是指的来到图书馆的顾客,他们看书、移动书籍,而管理员就会对着维护。

关系型数据库诞生距今已有40多年了,从理论产生到发展到实现产品,例如:常见的MySQLOracle,oracle在数据库领域里上升到了霸主地位,形成每年高达数百亿美元的庞大产业市场,而MySQL也是不容忽视的数据库,以至于被Oracle重金收购了。

非关系型数据库也被称为NoSQL数据库,本意是“Not Only SQL”,作为传统数据库的一个有效补充。NoSQL数据库在特定的场景下可以发挥难以想象的高效率和高性能。

因为随着web2.0网站的兴起,海量数据对关系型数据库存储的容量要求高,单机无法满足需求,很多时候需要用集群来解决问题,关系型数据库就显得力不从心了。

非关系型数据库因而诞生,实际上非关系型数据库就是针对特定场景,以高性能和使用便利为目的功能特异化的数据库产品,比如Google的BigTable与Amazon的Dynamo。

SQL与数据库的关系

这个时候很多人就会把sql与数据库的概念搞混了,很多新人就以为Sql就是用来存储数据的数据库,还有的以为sql是数据库的一种。

为了方便大家理解,我给大家打个比方:

如果数据就是一张张的表格,我们就可以按照不同的表格关系放在不同的文件夹里,这个文件夹就相当于数据库的基础构成要素——数据表

而当我们的文件夹也非常繁多复杂的时候,我们就可以将文件夹按照不同的构成分类储存在文件柜中,每个文件柜中可能有非常多的分类用来存放不同的文件夹,这个文件柜就相当于数据库

而当我们想要从文件柜中找到某份文件的时候,我们需要按照一定的规则去寻找,比如说“合同文件放在第三层第四排的架子上”,这种查找规则的实施就需要数据库管理系统(DBMS)来实现,相当于一名文件管理员,帮助我们管理数据库中的数据。

最常见的数据库管理系统包括SqlServer、MySql、Oracle等。

而我们如果想要对文件管理员下达指令,就需要一种沟通语言,这种沟通语言就是SQL,所以SQL就是一种结构化的查询语言,用来操作数据库管理系统。

他们之间的关系可以这样表示:

这样大家应该不会再把SQL当做数据库了吧?

一文讲透数据库,以后别说你不懂数据库相关推荐

  1. 10自带sftp服务器_一文讲透FTP和SFTP的区别

    阅读本文约需要10分钟,您可以先关注我们或收藏本文,避免下次无法找到. FTP和SFTP都是文件传输协议,我们知道FTP使用的是20和21端口,SFTP使用的是22端口.另外,SFTP前面的S应该是S ...

  2. js打印线程id_一文讲透“进程,线程和协程”

    一文讲透"进程,线程和协程" 本文从操作系统原理出发结合代码实践讲解了以下内容: 什么是进程,线程和协程? 它们之间的关系是什么? 为什么说Python中的多线程是伪多线程? 不同 ...

  3. 双线macd指标参数最佳设置_一文讲透双线MACD指标及其实战运用

    原标题:一文讲透双线MACD指标及其实战运用 船长的舍得交易体系技术理论模型中,我们要用到两大指标,分别是均线系统和双线MACD指标. 很多小伙伴都喜欢用双线MACD这个指标,但是90%的人都不知道其 ...

  4. 【敏捷开发】一文讲透敏捷管理中的DoR、DoD与AC

    文章目录 一.需求侧:DoR 案例: DoR是什么? 如何建立DoR的标准? DoR样例 1.需求 2.交互 3.架构 二.研发侧:DoD DoD是什么? 如何建立DoD的标准? DoD样例 三.用户 ...

  5. 一文讲透『大神修炼心法』!35岁让自己过的越来越好!

    Cocos 的老铁,如果你这几天没有被麒麟子给卷到?那说明你还没有真正进入 Cocos 圈子里来.为什么这么说呢?看下面. 3月1号 23:57 | 2800+字 麒麟子全方位解读 Cocos Cyb ...

  6. 【hadoop】一文讲透hdfs的delegation token

    1.概述 转载并且补充:一文讲透hdfs的delegation token 最近我也在研究这个,学习一下. 1.1 起因 我最近在做FLink kerberos认证.我在flink配置文件中配置正确的 ...

  7. 一文讲透植物内生菌研究怎么做 | 微生物专题

    内容导览 1. 隐秘而强大的植物内生菌 2. 难以区分的植物内生菌 3. 更好的植物内生细菌测序方法 3.1 LNA-16S测序鉴定内生细菌原理 3.2 LNA-16S测序鉴定内生细菌占比高达99% ...

  8. cstring只获取到第一个数_一文讲透 Dubbo 负载均衡之最小活跃数算法

    (给ImportNew加星标,提高Java技能) 作者:why技术(本文来自作者投稿) 本文是对于Dubbo负载均衡策略之一的最小活跃数算法的详细分析.文中所示源码,没有特别标注的地方均为2.6.0版 ...

  9. 一文讲透推荐系统提供web服务的2种方式

    作者丨gongyouliu 编辑丨zandy 来源 | 大数据与人工智能(ID: ai-big-data) 推荐系统是一种信息过滤技术,通过从用户行为中挖掘用户兴趣偏好,为用户提供个性化的信息,减少用 ...

最新文章

  1. 如何才能加深对Linux概念架构的理解
  2. 为什么我们不愿意读论文,原来都是作者害的
  3. 自定义变量 配置文件_「系统架构」Nginx调优之变量的使用(3)
  4. c语言提取颜色,C语言颜色转换宏
  5. ORA-14400: inserted partition key does not map to any partition
  6. fifa15服务器位置,《FIFA 15》全系统教程图文攻略
  7. Javascript基础之-原型(prototype)
  8. 获取会话名称时错误 5_5种可重复的数据科学工具
  9. 仿百度文库实现文档在线预览
  10. STM32 使用SPI读写FLASH(W25Q64型号)
  11. 新旧身份证合法性验证及相互转换算法(一):关于中国居民身份证的常识
  12. 流程图怎么画?绘制一个流程图的简单操作方法
  13. Windows杀死Tomcat进程
  14. python耗时方法_Python中统计函数运行耗时的方法
  15. 污水处理成本高怎么办?智能网关+云平台提供你完美解决方案
  16. 几何画板常见问题解决方案
  17. 计算机存在其他连接设备错误,USB设备连接电脑失败怎么办
  18. 【无标题】 二手车汽车资质认证 二手车汽车资质认证
  19. 跨考考研:从第二学士学位到西北工业大学电子信息专硕拟录取
  20. LeetCode刷题——36.有效的数独

热门文章

  1. Properties集合
  2. SQL Server中的筛选后的统计信息和CE模型变化
  3. aws rds监控慢sql_在AWS RDS SQL Server上的SSAS中部署表格数据库
  4. 开源原生JavaScript插件-CJPCD(省市区联动)
  5. 安装php-amqplib(RabbitMQ的phpAPI)
  6. 进位和借位问题的研究
  7. 目前最小的替换模板了,只有十几行代码
  8. Java中四种遍历Map对象的方法
  9. drf 频率组件 META字典详情
  10. 代码精进之路读后感(三)