谁说菜鸟不会数据分析(工具篇)----- 学习笔记1(Access SQL基本用法)
1、数据库(database)
数据库是按照数据结构来组织、存储和管理数据的仓库。利用数据库中的各种对象,记录、处理和分析各种数据。
常用数据库:oracle,SQL Server,MySQL,Access等关系型数据库
NoSQL技术的分布式数据库:Hbase,MongoDB,Redis等
(1)Access数据库
优点:操作界面友好,易操作;查询处理可直接生成相应的SQL语句
不足:数据库过大时(Access数据库文件百兆以上),性能变差。
记录数据过多时(记录达到千万条以上),性能变差。
Access数据库中每个数据库文件上限为2GB
(2)SQL:(structured query language)结构化查询语言
一种通用的关系型数据库操作语言。让数据库按我们的意思实现查询操作的语言。
业内人士常说的数据挖掘:是通过对历史数据进行建模预测,生成一定的规则,然后数据库工程师将生成的规则编写成相应的SQL语句,并编写成数据库的存储过程,可定期执行它们得到数据模型结果。
处理大数据的Hadoop,所使用的Hive语言(HQL),与SQL 语言基本一致,部分语句的编写或功能存在差异。
注意事项:
在SQL 语句中,英文字母大写或小写均可;每个SQL语句的关键字用空格符合分隔;字段或参数之间用逗号分隔
SQL语句中如参数为字符型,需要单引号,数值型不用单引号;SQL语句结束时,在语句结尾处添加分号;
SQL语句中如表名、字段中出现空格、‘/’,'\'等特殊字符时,需用方括号[],将含有特殊字符的表名字段名括起来;
‘*’代表选定表格中的所有字段,并按照其在数据库中的固定顺序来排序;
在函数参数或条件查询中,若参数或查询条件为日期和时间类型数据,需在数据值两端加井字符号‘#’,表示数据类型为日期型;
SQL语句中使用的逗号,分号,单引号,括号等符号均为英文状态下输入的符号;
尽量避免在数据库中进行全表扫描。在where语句中尽量避免‘!=’,‘<>’,‘OR’等或对字段进行函数操作,否则进行全表扫描。
(3)索引和主键
索引相当于对指定的列进行排序,就好比是一本书的目录,通过它可以快速查询到结果,无需全表扫描,加快数据库查询速度。
主键是确定数据中每一条记录的唯一标识,本质是索引,一个特殊索引。主键所在列每一记录都是唯一的,在同一表里只能有一个主键。
两者区别:
i: 主键用于标识数据库记录的唯一性,不允许记录重复,且键值不能为空。主键是一个特殊的索引,主键=索引,索引不一定等于主键。
ii: 索引可提高查询速度,通过它可快速查询到结果,无需全表扫描
iii: 使用主键,数据库会自动创建主索引,也可在非主键上创建索引,提高查询速度。
iiii: 数据表中只允许有一个主键,但可有多个索引。
在Access数据库中,主键不是必须的,但为每个表设置一个主键,可提高查询速度。
(4)Access数据库数据导入方法
直接导入法:Access数据库中的表与数据源脱离了联系,对数据的更改不会影响源文本数据文件
建立链接法:链接表显示源文本文件中的数据,但它实际上并不将数据存储在数据库中,对源文本文件进行的任何更改都将自动反映到链接表中,即数据会随数据源的变化而自动更新。
(5)数据合并
在函数参数或条件查询中,若参数或查询条件为日期和时间类型,需要在数据值两端加上井字符号,以表示数据类型为日期型。
(6)数据分组:数值分组、日期/时间分组
数值分组函数 | 优点 | 缺点 |
iif | 可进行不等距分组 |
语句冗长,极易出错 最多可进行13层嵌套 |
choose | 分组可达254个 | 只能进行等距分组 |
switch | 可进行不等距分组 | 条件表达式最多达到14个 |
partition |
分组不限 语句简单、清晰明了 |
只能进行等距分组 |
日期/时间格式参数 | 说明 |
: | 时间分隔符 |
/ | 日期分隔符 |
d | 根据需要以一位或两位数字表示一个月中的第几天(1~31) |
dddd | 星期的全称(Sunday~Saturday) |
w | 一周中的第几天(1~7) |
ww | 一周中的第几周(1~53) |
m | 根据需要以一位或两位数字表示一年中的月份(1~12) |
mmmm | 月份的全称(January~December) |
q | 一年中的第几季(1~4) |
y | 一年中的第几天(1~366) |
yyyy | 完整的年份(0100~9999) |
h | 根据需要以一位或两位数字表示小时(0~23) |
n | 根据需要一位或两位数字表示分钟(0~59) |
s | 根据需要用一位或两位数字表示秒(0~59) |
(7)重复数据
group by / disdinct
(8)数据分析:简单统计、分组统计、交叉统计
谁说菜鸟不会数据分析(工具篇)----- 学习笔记1(Access SQL基本用法)相关推荐
- 谁说菜鸟不会数据分析python篇下载_谁说菜鸟不会数据分析(工具篇) 张文霖 中文PDF影印版[36.4MB]...
谁说菜鸟不会数据分析(工具篇)张文霖 中文PDF影印版[36.4MB] 作者: 张文霖 等 图书分类: 软件 资源格式: PDF 版本: 影印版 出版社: 电子工业出版社 书号: 9787121204 ...
- 读书笔记:《谁说菜鸟不会数据分析-入门篇》第1-4章
读书笔记:<谁说菜鸟不会数据分析-入门篇> 第一章:数据分析是神马 数据分析分类: 1.数据分析分类: 描述性数据分析:常见方法:对比分析法.平均分析法.交叉分析法 探索性数据分析–发现数 ...
- 《谁说菜鸟不会数据分析——入门篇》读书笔记
刘夏璐,狄松. 谁说菜鸟不会数据分析(入门篇)[M]. 电子工业出版社, 2013 文章目录 第一章 数据分析那些事 何谓数据分析 数据分析的作用 1.1 数据分析六部曲 1.1.1 明确分析的目的和 ...
- 谁说菜鸟不会数据分析python下载_刻意练习9:《谁说菜鸟不会数据分析python篇》第3章编程基础总计46页学习笔记...
学习计划MyPlan9 主题:<谁说菜鸟不会数据分析python篇>第3章节 编程基础,总计46页. 时间:7.15-7.21 周内完成 各位星友们,在这个星球里每个人都要逼迫自己学习未知 ...
- 读书笔记——《谁说菜鸟不会数据分析—Python篇》
最近刚读完一本新书,关注的公众号作者出的"谁说菜鸟不会数据分析-Python篇",话说现在很多微信公众号大牛都在出书,这貌似是一个趋势.. 说说这本书吧,我之前看过一些网文,对于数 ...
- Kafka入门篇学习笔记整理
Kafka入门篇学习笔记整理 Kafka是什么 Kafka的特性 应用场景 Kafka的安装 单机版部署 集群部署环境准备 Kafka 2.x集群部署 Kafka 3.x集群部署 监听器和内外网络 K ...
- 数据分析之pandas学习笔记(六)(层次化索引、重塑、轴向旋转、行列变换、合并表数据)
数据分析之Pandas学习笔记(六)(层次化索引.重塑.轴向旋转.行列变换.合并表数据) level层次化索引 unstack()与stack()进行重塑,即:行列索引变换 swaplevel()交换 ...
- 元数据管理工具Atlas学习笔记之集成
文章目录 背景 环境 Atlas安装 solr Atlas Atlas启动 启动Hadoop.ZooKeeper.HBase.Kafka.Hive和MySQL Hadoop 启动ZooKeeper 启 ...
- Java基础篇 学习笔记
List item Java基础篇 学习笔记 java基础篇 第1章 计算机.程序和java概述 学习笔记 1.1什么是计算机 简单来说:计算机就是 ' 存储 ' 和 ' 处理 ' 数据的电子设备. ...
- 鸟叔linux私房菜基础篇简体,鸟叔的Linux私房菜基础篇-学习笔记(一)
鸟叔的Linux私房菜基础篇-学习笔记(一) 开机进入命令行模式: ctrl+alt+[F1-F6]的任意键进入命令行编辑界面 ctrl+alt+F7进入图形界面模式 开始下达指令 [dmtsai@s ...
最新文章
- 折半查找python实现
- 70条WB, IHC常见实验问题解决方案汇总
- 大气的压力竟然能吊起相扑力士!?
- 【Python基础入门系列】第06天:Python 模块和包
- 百度编辑器UEditor源码模式下过滤div/style等html标签
- 创建单IP的×××网络
- php session失效
- mysql 5.7 主主配置文件_MySQL 5.7主主备份配置
- 家用电冰箱3C认证检测标准
- next主题美化——背景图片、页面透明化、阴影、圆角、动画
- 两个音轨合并_怎么合并音频文件 两个音频合并成一个
- 菜鸟的LEETCODE的MYSQL做题总结2
- 基于Halcon学习的新能源车牌识别【三】
- 用C语言画一个Q版奥特曼
- 【单片机】【数码管】数码管显示
- keras 实现GAN(生成对抗网络)
- BIM土建插件墙齐梁板操作,实现墙、柱的顶部、底部对齐
- python中调用π的值_python如何调用math函数库求π值
- Zemax学习笔记(12)- 扫描系统实例
- 你是真的“C”——宏与函数的英雄本色