【pandas】读取大型文件技巧
当csv文件特别大时,pandas读取整个文件非常的耗时,比如我这边有文件大小为5.77G
!wc -l x.csv
行数2390492也非常多;
用pandas加载x.csv,花了将近2分钟。 为了加快速度,将使用python 包datatable
import datatable as dt
%%time
train_data_datatable = dt.fread('x.csv')
CPU times: user 27.6 s, sys: 3.31 s, total: 30.9 s
Wall time: 8.04 s
将数据convert 到pandas dataframe格式
%%timetrain_data = train_data_datatable.to_pandas()
CPU times: user 7.04 s, sys: 3.37 s, total: 10.4 s
Wall time: 5.24 s
现在,我们在不到17秒的时间内加载了x.csv。
参考:
- https://www.kaggle.com/carlmcbrideellis/jane-street-eda-of-day-0-and-feature-importance
- https://www.kaggle.com/rohanrao/tutorial-on-reading-large-datasets
【pandas】读取大型文件技巧相关推荐
- python pandas读取文件内容_python pandas读取大型文件
数据处理:pandas处理大型csv文件,使用pandas分块处理大文件 1. 读取限定列 一个 csv文件中,有很多列,而我们只关心其中的某些列是,如果把每行数据都读取出来,在提取信息,显然会增加I ...
- pandas读取csv文件的前几行数据(nrows参数)、pandas读取csv文件的中间几行数据(skiprows=range(a,b))
pandas读取csv文件的前几行数据(nrows参数).pandas读取csv文件的中间几行数据(skiprows=range(a,b)) 目录 pandas读取csv文件的前几行数据.pandas ...
- pandas读取csv文件发生编码(encoding)错误:获取文件编码格式之后再读取文件
pandas读取csv文件发生编码(encoding)错误:获取文件编码格式之后再读取文件 目录
- pandas读取大文件(chunksize)并通过sqlalchemy写入MySQL数据库
pandas读取大文件(chunksize)并通过sqlalchemy写入MySQL数据库 在pandas中读取表类文件的时候有一个参数chunksize,只要指定了这个参数的数值,那么得到的结果就不 ...
- python读取csv文件并修改指定内容-pandas读取CSV文件时查看修改各列的数据类型格式...
下面给大家介绍下pandas读取CSV文件时查看修改各列的数据类型格式,具体内容如下所述: 我们在调bug的时候会经常查看.修改pandas列数据的数据类型,今天就总结一下: 1.查看: Numpy和 ...
- 学python看什么书好1002无标题-如何使用pandas读取txt文件中指定的列(有无标题)
最近在倒腾一个txt文件,因为文件太大,所以给切割成了好几个小的文件,只有第一个文件有标题,从第二个开始就没有标题了. 我的需求是取出指定的列的数据,踩了些坑给研究出来了. import pandas ...
- python按列读取txt文件_如何使用pandas读取txt文件中指定的列(有无标题)
最近在倒腾一个txt文件,因为文件太大,所以给切割成了好几个小的文件,只有第一个文件有标题,从第二个开始就没有标题了. 我的需求是取出指定的列的数据,踩了些坑给研究出来了. import pandas ...
- Python+Pandas读取Excel文件分析关系最好的两个演员
董老师又双叒叕送书啦,6本<Python程序设计基础与应用(第2版)> 推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国 ...
- Python+pandas读取Excel文件统计最受欢迎的前3位演员
推荐教材:<Python程序设计基础与应用>(ISBN:9787111606178),董付国,机械工业出版社,2018.8出版,2021.3第11次印刷 图书详情: 配套资源: 用书教师可 ...
- Python使用pandas读取Excel文件数据和预处理小案例
假设有Excel文件data.xlsx,其中内容为 现在需要将这个Excel文件中的数据读入pandas,并且在后续的处理中不关心ID列,还需要把sex列的female替换为1,把sex列的male替 ...
最新文章
- Kafka史上最详细原理总结 ----看完绝对不后悔
- 【视觉SLAM14讲】ch3课后题答案
- 玩转spring boot——结合阿里云持续交付
- Exchange20132016删除默认邮箱数据库及移动数据库路径
- oracle数据库从关闭到启动,Oracle数据库的启动和关闭详细过程
- 车道线检测(opencv)
- Win7访问局域网内共享文件夹
- centos minimal 安装无法自定义分区
- 链表之判断一个链表是否为回文结构(三)
- java 秒杀多线程_秒杀多线程系列 - 随笔分类 - Joyfulmath - 博客园
- HTTP基本认证(Basic Authentication)的JAVA示例
- CCTF部分赛题分析
- C++的decltype
- 计算机专业投什么期刊比较快,计算机领域审稿周期快的期刊有什么
- lintcode 168. 吹气球 动态规划
- html中dfn标签,怎么时用html dfn标签
- linux中mv、cp、rm分别是什么意思
- ln的c语言表达式,c程序中语句中如何表示ln函数?
- OS App体验设计
- 趣味算法:国王和100个囚犯