linux分片切割CSV文件
linux分片切割CSV文件
目录
前言
一、操作步骤
1.linux分片切割CSV文件
2.重命名CSV
前言
最近做项目,在向SAS工具里面导入CSV数据,由于CSV文件过大(超过2G),SAS系统资源不够,出现卡死,现记录解决方法。
一、操作步骤
1.linux分片切割CSV文件
第一种:按文件大小分割(不推荐)
split -a 2 -d -b 1k test.csv test
-a 2 后缀是2位
-d 后缀是数字
-b 1k 每个文件最大1kb
test.csv 需要分割的文件名称
test 分割后的文件前缀
这种分割方式有一个弊端,有可能分割后的子文件,边界数据(两个子文件首尾部分)因为是按1kb分割,出现一行数据被分离了,有数据损失,不推荐。
第二种:按行数分割(推荐)
split -a 2 -d -l 10 test.csv test
-a 2 后缀是2位
-d 后缀是数字
-l 10 每10行一个文件
test.csv 需要分割的文件名称
test 分割后的文件前缀
可先按文件大小分割(比如1G,按实际最大系统资源分配),观察下子文件平均一个大概多少行,再用这个行数重新分割文件
2.重命名CSV
目前分割后的子文件不是CSV后缀的,需要重命名
for i in *; do mv $i $i".csv"; done
参考文章:
https://www.cnblogs.com/andong2015/p/11008778.html
https://blog.csdn.net/argansos/article/details/6885949
linux分片切割CSV文件相关推荐
- linux shell 读取csv文件内容,在Shell脚本中读取CSV文件,直到没有标题的行结束
我有一个名为'readfile.csv'的文件,其中包含以下内容. Name Id VAl Number IP James,007,$500,111-111-111,111-000-000 Bond, ...
- csv linux java,java 执行Linux 命令合并.csv文件
哈喽,大家好,我是咸鱼张,今天工作中遇到了点问题,记录一下,希望能给需要的人提供帮助. 我先说下我们的需求哈,我这个业务流程是,通过sql,获取到数据,再生成.csv文件下载下来,让人高兴的是我们平台 ...
- linux awk获取csv文件关键字所在列
获取A7_p关键字所在列 pnum=`cat outlet.csv| grep 'A1_U'| awk -F "," '{;for(i=1;i<=NF;i++)if($i ~ ...
- linux中split分割文件打开方式,Linux系统下使用split命令分割大文件 (转载)
[小蜗牛闲情之作 ] 我想给一个朋友传一个大视频,有几百M,尝试多种传输办法失败后,最后想到的是把视频切开一片片"邮递"过去给他,让它自己组装起来吧. [root@pps publ ...
- linux 输出数据到csv,Linux-从外壳输出CSV文件
嗨,我有这种格式的输入文件. [Header A] key1 value1 key2 value2 [Header B] header1 header2 header3 // separated by ...
- oracle创建用户saler,Linux环境下sqlldr一个csv文件
本来是练习三思的书里一个sqlldr的小示例,就是把excel文件另存为csv后通过sqlldr加载到Oracle数据库中.其目的本来是为了演示一下csv文件的sqlldr以及csv文件中的字符串中存 ...
- Python将csv文件以某列为条件分类切割
背景 项目中有一个数据文件数量庞大,一个文件中按照年月日分成几十万条数据,想试试能不能用python把它简单切割一下,按照日期分类切成小的csv文件. 于是在网上找了很多资料,结合自己的一些修改,整理 ...
- Python pandas在读取csv文件时(linux与windows之间传输),数据行数不一致的问题
背景 最近在处理用户评论数据时,从Linux服务器上面用pandas导出的csv文件,下载到自己的Windows电脑,再用本地pandas读取时发现数据行数不一致的情况,比如在Linux服务器上面数据 ...
- 使用win中excel打开linux下.csv文件乱码问题
使用win中excel打开linux下.csv文件乱码问题 1.问题原因 不同系统的字符集编码不一样 windows使用的是gbk格式 linux使用的是utf8格式 检查文件编码格式 file 文件 ...
- linux用分割的csv文件读取,在Linux中将制表符分隔的文件转换为CSV的最快方法
在Linux中将制表符分隔的文件转换为CSV的最快方法 我有一个制表符分隔的文件,其中包含超过2亿行. 在Linux中将其转换为CSV文件的最快方法是什么? 该文件的确包含多行标题信息,我需要将其删除 ...
最新文章
- 【AAAI2022】GearNet:弱监督领域自适应的逐步对偶学习
- hdu 3622 二分+2-sat
- Python倒排索引函数
- PopUpWindow使用详解(二)——进阶及答疑
- python3源码剖析_T-SNE源码剖析(python版)
- 在.NET Core程序中设置全局异常处理
- 真实版“删库跑路”?程序员蓄意破坏线上生产环境!
- 你的手机浏览器不支持webgle_中国联通回应“逐渐关闭2G、3G网络”:系用户手机不支持...
- Axure PR9的安装与激活
- 3dmax:3dmax的软件面板简介、软件配置优化、设计流程、设计经验、六种建模方法
- Eclipse安装SVN检出项目插件Subclipse失败过程记录
- 半挂式洒水车的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
- 西安理工大学计算机科学与工程学院官网,罗靖-西安理工大学计算机科学与工程学院...
- Flask03_路由传参
- vue axios请求成功却进入catch的原因分析
- SAP ABAP(增强技术) BADI自己的一些了解,以及用法
- 用python实现祝福弹窗_python实现弹窗祝福效果
- Microbiome杂志和主编介绍
- EventBus如何使用及一些常见场景
- 12V电路电源设计:挑战和降低EMI的技巧
热门文章
- Android Notification 详解--设置闹铃、振动、灯光
- Aliyun ECS服务器搭建
- html制作课程表格 网页制作,HTML制作一个课程表,html代码表格课程表
- 7-10 1.3.1 混合牛奶 (80分)
- 不同的两类程序员惊人差距,实在不忍直视...
- python空气质量_现在,哪个城市的空气最好闻?空气质量指数分布图——Python实例...
- 【已解决】 E45: ‘readonly‘ option is set (add ! to override)
- 江西理工大学matlab考试,江西理工大学matlab测试编程题汇总.pdf
- oracle EVENT事件
- python把爬虫内容导出为excel_python制作爬虫并将抓取结果保存到excel中