当csv文件特别大时,pandas读取整个文件非常的耗时,比如我这边有文件大小为5.77G

!wc -l x.csv

行数2390492也非常多;
用pandas加载x.csv,花了将近2分钟。 为了加快速度,将使用python 包datatable

import datatable as dt
%%time
train_data_datatable = dt.fread('x.csv')
CPU times: user 27.6 s, sys: 3.31 s, total: 30.9 s
Wall time: 8.04 s

将数据convert 到pandas dataframe格式

%%timetrain_data = train_data_datatable.to_pandas()
CPU times: user 7.04 s, sys: 3.37 s, total: 10.4 s
Wall time: 5.24 s

现在,我们在不到17秒的时间内加载了x.csv。

参考:

  1. https://www.kaggle.com/carlmcbrideellis/jane-street-eda-of-day-0-and-feature-importance
  2. https://www.kaggle.com/rohanrao/tutorial-on-reading-large-datasets

【pandas】读取大型文件技巧相关推荐

  1. python pandas读取文件内容_python pandas读取大型文件

    数据处理:pandas处理大型csv文件,使用pandas分块处理大文件 1. 读取限定列 一个 csv文件中,有很多列,而我们只关心其中的某些列是,如果把每行数据都读取出来,在提取信息,显然会增加I ...

  2. pandas读取csv文件的前几行数据(nrows参数)、pandas读取csv文件的中间几行数据(skiprows=range(a,b))

    pandas读取csv文件的前几行数据(nrows参数).pandas读取csv文件的中间几行数据(skiprows=range(a,b)) 目录 pandas读取csv文件的前几行数据.pandas ...

  3. pandas读取csv文件发生编码(encoding)错误:获取文件编码格式之后再读取文件

    pandas读取csv文件发生编码(encoding)错误:获取文件编码格式之后再读取文件 目录

  4. pandas读取大文件(chunksize)并通过sqlalchemy写入MySQL数据库

    pandas读取大文件(chunksize)并通过sqlalchemy写入MySQL数据库 在pandas中读取表类文件的时候有一个参数chunksize,只要指定了这个参数的数值,那么得到的结果就不 ...

  5. python读取csv文件并修改指定内容-pandas读取CSV文件时查看修改各列的数据类型格式...

    下面给大家介绍下pandas读取CSV文件时查看修改各列的数据类型格式,具体内容如下所述: 我们在调bug的时候会经常查看.修改pandas列数据的数据类型,今天就总结一下: 1.查看: Numpy和 ...

  6. 学python看什么书好1002无标题-如何使用pandas读取txt文件中指定的列(有无标题)

    最近在倒腾一个txt文件,因为文件太大,所以给切割成了好几个小的文件,只有第一个文件有标题,从第二个开始就没有标题了. 我的需求是取出指定的列的数据,踩了些坑给研究出来了. import pandas ...

  7. python按列读取txt文件_如何使用pandas读取txt文件中指定的列(有无标题)

    最近在倒腾一个txt文件,因为文件太大,所以给切割成了好几个小的文件,只有第一个文件有标题,从第二个开始就没有标题了. 我的需求是取出指定的列的数据,踩了些坑给研究出来了. import pandas ...

  8. Python+Pandas读取Excel文件分析关系最好的两个演员

    董老师又双叒叕送书啦,6本<Python程序设计基础与应用(第2版)> 推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国 ...

  9. Python+pandas读取Excel文件统计最受欢迎的前3位演员

    推荐教材:<Python程序设计基础与应用>(ISBN:9787111606178),董付国,机械工业出版社,2018.8出版,2021.3第11次印刷 图书详情: 配套资源: 用书教师可 ...

  10. Python使用pandas读取Excel文件数据和预处理小案例

    假设有Excel文件data.xlsx,其中内容为 现在需要将这个Excel文件中的数据读入pandas,并且在后续的处理中不关心ID列,还需要把sex列的female替换为1,把sex列的male替 ...

最新文章

  1. Kafka史上最详细原理总结 ----看完绝对不后悔
  2. 【视觉SLAM14讲】ch3课后题答案
  3. 玩转spring boot——结合阿里云持续交付
  4. Exchange20132016删除默认邮箱数据库及移动数据库路径
  5. oracle数据库从关闭到启动,Oracle数据库的启动和关闭详细过程
  6. 车道线检测(opencv)
  7. Win7访问局域网内共享文件夹
  8. centos minimal 安装无法自定义分区
  9. 链表之判断一个链表是否为回文结构(三)
  10. java 秒杀多线程_秒杀多线程系列 - 随笔分类 - Joyfulmath - 博客园
  11. HTTP基本认证(Basic Authentication)的JAVA示例
  12. CCTF部分赛题分析
  13. C++的decltype
  14. 计算机专业投什么期刊比较快,计算机领域审稿周期快的期刊有什么
  15. lintcode 168. 吹气球 动态规划
  16. html中dfn标签,怎么时用html dfn标签
  17. linux中mv、cp、rm分别是什么意思
  18. ln的c语言表达式,c程序中语句中如何表示ln函数?
  19. OS App体验设计
  20. 趣味算法:国王和100个囚犯

热门文章

  1. cdoj 邱老师看电影
  2. 物联网操作系统再思考-共享心跳中心机制(SHBC)
  3. 《htmlxhtml权威指南》部分标签语义学习
  4. PAT1018 Public Bike Management【dfs】【最短路】
  5. 【Spring 核心】装配Bean(一) 自动化装配
  6. POJ 3669 简单BFS
  7. [AHOI2006]Editor文本编辑器Splay Pascal
  8. 阿里云的背后故事(希望别被关了)
  9. Windows Phone开发之路(6) XAML基础(下)
  10. 预训练模型的下一步?突破Impossible Triangle