数据分析的数据的导入和导出

  • 前言
  • 一、导入数据
    • 1.1导入Excel表格数据
    • 1.2、导入CSV格式数据
    • 1.3、导入JSON格式数据
    • 1.5导入(爬取)网络数据
  • 二、输出数据
    • 2.1CSV格式数据输出
    • 2.2 xlsx格式数据输出
    • 2.3导入到多个sheet页中
  • 总结

前言

数据分析中数据的导入和导出是非常重要的步骤之一,因为它决定了我们能否顺利地进行数据分析和处理。


一、导入数据

1.1导入Excel表格数据

Excel文件有两种格式,分别为xls格式和xlsx格式。这两种格式的文件都可以用Python的Pandas模块的readexcel方法导入。read_excel方法返回的结果是DataFrame, DataFrame的一列对应着Excel的一列。

  1. sheet_name参数:该参数用于指定导入Excel文件中的哪一个sheet,如果不填写这个参数,则默认导入第一个sheet。
  2. index_col参数:该参数用于指定表格的哪一列作为DataFrame的行索引,从0开始计数。
  3. nrows参数:该参数可以控制导入的行数,该参数在导入文件体积较大时比较有用。
  4. skipfooter参数:该参数可以在导入数据时,跳过表格底部的若干行。
  5. header参数:当使用Pandas的read_excel方法导入Excel文件时,默认表格的第一行为字段名。如果表格的第一段不是字段名,则需要使用该参数设置字段名。
  6. usecols参数:该参数可以控制导入Excel表格中的哪些列。
  7. names参数:该参数可以对导入数据的列名进行重命名。

nrows 导入前5行数据



usecols 控制输入第一列和第三列

1.2、导入CSV格式数据

CSV是一种用分隔符分割的文件格式。由于Excel文件在存放巨量数据时会占用极大空间,且导入时也存在占用极大内存的缺点,因此,巨量数据常采用CSV格式。
在Python中,导入CSV格式数据通过调用pandas模块的read_csv方法实现。read_csv方法的参数非常多,这里只对常用的参数进行介绍。
read_csv方法中的sep参数表示要导入的csv文件的分隔符,默认值是半角逗号。encoding参数用来指定CSV文件的编码,常用的有utf-8和gbk。
如下这个题目 假如encoding 是utf-8 的话就是乱码

usecols控制输出第一列和第三列

列名重命名

1.3、导入JSON格式数据

JSON是一种轻量级的数据交换格式,容易阅读,也容易被机器扫描,在互联网应用中很常见。有时候从后台系统里导出来的数据就是JSON格式。
JSON文件实际存储的时一个JSON对象或者一个JSON数组。JSON对象是由多个键值对组成的,类似于Python的字典; JSON数组由多个JSON对象组成,类似于Python列表。


pandas导入JSON数据
用Pandas模块的read_json方法导入JSON数据,其中的参数为JSON文件

pandas导入txt文件
当需要导入存在于txt文件中的数据时,可以使用pandas模块中的read_table方法。它的参数和用法与read_csv方法类似。

1.5导入(爬取)网络数据

在Python的数据分析中,除了可以导入文件和数据库中的数据,还有一类非常重要的数据就是网络数据。网络中每天都会产生大量数据,这些数据具有实时性、种类丰富的特点,因此对于数据分析而言是十分重要的一类数据来源。
关键技术:爬取网络表格类数据, pandas库read_html()方法。
read_html方法用于导入带有table标签的网页表格数据。使用该方法前,首先要确定网页表格是否为table标签。具体方法为,鼠标右键单击网页中的表格,在弹出的菜单中选择"查看元素”,查看代码中是否含有表格标签
<table> </table>的字样,确定后才可以使用read_html方法。read_html方法常用参数说明如下:
io:字符串,文件路径,也可以是URL链接。网址不接受https,可以尝试去掉https中的s后爬取。
header:指定列标题所在的行。
index_col:指定行标题对应的列。
【例】爬取A股公司营业收入排行榜。
中商情报网是专业的产业情报分享云平台,主要提供研究报告、行业分析、市场调研等数据。在本案例中,通过爬取中商情报网中A股公司营业收入排行榜表格获取相应的金融数据,数据网址为https://s.askci.com/stock/a/。

二、输出数据

2.1CSV格式数据输出

【例】导入sales.csv文件中的前10行数据,并将其导出为sales_new.csv文件。
关键技术: pandas库的to_csv方法。
在该例中,首先通过pandas库的read_csv方法导入sales.csv文件的前10行数据,然后使用pandas库的to_csv方法将导入的数据输出为sales_new.csv文件。
对于pandas库的to_csv方法,有下列参数说明:
path_or_buf:要保存的路径及文件名。
sep:分割符,默认为","。
columns:指定要输出的列,用列名,列表表示,默认值为None。
header:是否输出列名,默认值为True。
index:是否输出索引,默认值为True。
encoding:编码方式,默认值为“utf-8”。

2.2 xlsx格式数据输出

【例】对于上一小节中的问题,如销售文件格式为sales.xlsx文件,这种情况下该如何处理?
关键技术: DataFrame对象的to_excel方法
与上例相似,该例首先利用Pandas库的read_excel方法读入sales.xlsx文件,然后使用to_excel方法导出新文件。

对于Pandas库中的to_excel()方法,有下列参数说明:
sheet_name:字符串,默认值为"Sheet1",指包含DataFrame数据的表的名称。
np_rep:字符串,默认值为 ‘’。指缺失数据的表示方式。
columes:序列,可选参数,要编辑的列。
header:布尔型或字符串列表,默认值为True。如果给定字符串列表,则表示它是列名称的别名。
index:布尔型,默认值为True,行名(索引)。
index_label:字符串或序列,默认值为None。如果文件数据使用多索引,则需使用序列。
encoding:指定Excel文件的编码方式,默认值为None。

2.3导入到多个sheet页中

【例】将sales.xlsx文件中的前十行数据,导出到sales_new.xlsx文件中名为df1的sheet页中,将sales.xlsx文件中的后五行数据导出到sales_new.xlsx文件中名为df2的sheet页中。
关键技术: Pandas库中的ExcelWriter方法。
解决该问题,首先在sales_new.xlsx文件中建立名为df1和df2的sheet页,然后使用pd.ExcelWriter方法打开sales_new.xlsx文件,再使用to_excel方法将数据导入到指定的sheet页中。


总结

数据分析中数据的导入和导出非常重要,需要考虑到数据质量、结构、格式和效率等方面,以确保数据的准确性和可用性。数据的导入和导出方式多种多样,选择适合的方式和工具,可以帮助我们高效地进行数据分析。

python数据分析——数据分析的数据的导入和导出相关推荐

  1. R 数据的导入和导出

    2019独角兽企业重金招聘Python工程师标准>>> R 数据的导入和导出 这是从R中导入或导出数据的一个指导手册. 本文档的当前版本为0.01 β.该文档译自 R-2.6.1 文 ...

  2. 1.数据的导入与导出

    数据的导入与导出 更多MATLAB数据分析视频请点击,或者在网易云课堂上搜索<MATLAB数据分析与统计> http://study.163.com/course/courseMain.h ...

  3. 基于Metronic的Bootstrap开发框架经验总结(7)--数据的导入、导出及附件的查看处理...

    在很多系统模块里面,我们可能都需要进行一定的数据交换处理,也就是数据的导入或者导出操作,这样的批量处理能给系统用户更好的操作体验,也提高了用户录入数据的效率.我在较早时期的EasyUI的Web框架上, ...

  4. MySQL基础day03_数据的导入、导出-MySQL 5.6

    MySQL基础day03_数据的导入.导出-MySQL 5.6 注:把数据按照一定格式存放到文件里才能进行数据的导入. 1,数据导入的条件 把文件里的内容保存到数据的表里: 把数据按照一定格式存放文件 ...

  5. (转)基于Metronic的Bootstrap开发框架经验总结(7)--数据的导入、导出及附件的查看处理...

    http://www.cnblogs.com/wuhuacong/p/4777720.html 在很多系统模块里面,我们可能都需要进行一定的数据交换处理,也就是数据的导入或者导出操作,这样的批量处理能 ...

  6. oracle导入失败后怎样删除已导入数据,Oracle数据的导入、导出、插入、更新及删除总结...

    Oracle数据的导入.导出.插入.更新及删除总结 今天主要介绍一下使用Oracle的IDE:PL\SQL Developer进行数据的导入及导出操做方法. web 1. 数据导出 数据的导出比较简单 ...

  7. matlab将图片导入工作区,matlab数据的导入和导出,以matlab工作区workspace为source和destination...

    MATLAB支持工作区的保存.用户可以将工作区或工作区中的变量以文件的形式保存,以备在需要时再次导入. 保存工作区可以通过菜单进行,也可以通过命令窗口进行. 数据导出 1. 保存整个工作区 选择Fil ...

  8. Hadoop之Hive数据的导入与导出(DML)

    上一张章节我们已经讲完了数据库和表的增删改查,感兴趣的小伙伴可以点这里: Hadoop之Hive数据库和表的增删改查(DDL). 本章节将要学习对数据操作的DML,主要包括数据的导入和导出,清除. 目 ...

  9. matlab数据的导入和导出

    数据的导入和导出 从文本文件中导入数据 part1, 使用importdata函数读取格式较为简单的文本文件 part2, 使用fopen 函数读取格式较为复杂的文本文件 part3, 使用fopen ...

  10. SqlServer2012语句之实例之用SQL语句对表中数据进行操作及数据的导入和导出

    --5月7日   SQL Server实验内容 --一.用SQL语句对表中数据进行操作 --1.根据系部表.班级表.学生表.教师表已有数据(如果没有数据,请使用管理平台或者SQL语句先为以上表添加数据 ...

最新文章

  1. 【Qt】QWidget对样式表设置边框无效的解决方法
  2. R语言ggplot2地理信息可视化(上)
  3. c语言图形库怎样画一条弧线,自己写的一个图形库,有点问题.来请教大家了
  4. nodejs-stream部分
  5. exit(0)什么意思php,php – 文件中的exit(1)导致脚本状态码为0
  6. Ubuntu16.04 Docker 安装
  7. linux 限制单个ip流量,centos 的單ip流量控制-CentOS下利用iptables限速及限制每IP連接數...
  8. java比赛题目_【蓝桥杯2016第七届比赛题目】JAVA A组
  9. 95-846-820-源码-网络-Flink 网络传输优化技术
  10. TCPMP-interface相关文件函数解析-Mediainfo.c
  11. git 配置 diff 、 merge 工具: kdiff3
  12. 家庭组网:Vlan单线复用,故障检测以及五种“软路由”加mesh组网方案
  13. 留着以后慢慢做的计算几何(题表)
  14. Android对应的版本号
  15. 灰色预测模型MATLAB代码及使用
  16. [51nod1299]监狱逃离
  17. Python爬虫实战之爬取QQ音乐数据!QQ音乐限制太多了!
  18. Windows mobile PPC,利用tmail.exe发送短信、彩信、邮件
  19. fmodex.dll丢失怎么办?fmodex.dll下载
  20. Jmeter接口测试实例讲解

热门文章

  1. vue项目 使用webpack 配置别名alias
  2. vue中央事件总线解决第一次进去之后不能监听,出来在进去就能触发监听
  3. 虚拟机安装Windows 8开发者预览版完全攻略
  4. 实现MyBatis Mapper XML文件增量动态刷新,自动加载,热加载,热部署
  5. Google C++项目命名约定
  6. S7-1200 中提供了被称为Compact PID 的回路控制功能
  7. Qt三方库开发技术:log4Qt介绍、编译和使用
  8. java通讯课程实验 - 简单的售票厅
  9. 2017-2018-1 201553334 实验四 外设驱动程序设计
  10. Unity整体性能优化篇 第(三)节:渲染优化 (GPU)