linux分片切割CSV文件

目录

前言

一、操作步骤

1.linux分片切割CSV文件

2.重命名CSV


前言

最近做项目,在向SAS工具里面导入CSV数据,由于CSV文件过大(超过2G),SAS系统资源不够,出现卡死,现记录解决方法。

一、操作步骤

1.linux分片切割CSV文件

第一种:按文件大小分割(不推荐)

split -a 2 -d -b 1k test.csv test
-a 2  后缀是2位
-d  后缀是数字
-b 1k 每个文件最大1kb
test.csv  需要分割的文件名称
test      分割后的文件前缀

这种分割方式有一个弊端,有可能分割后的子文件,边界数据(两个子文件首尾部分)因为是按1kb分割,出现一行数据被分离了,有数据损失,不推荐。

第二种:按行数分割(推荐)

split -a 2 -d -l 10 test.csv test
-a 2  后缀是2位
-d  后缀是数字
-l 10 每10行一个文件
test.csv  需要分割的文件名称
test      分割后的文件前缀

可先按文件大小分割(比如1G,按实际最大系统资源分配),观察下子文件平均一个大概多少行,再用这个行数重新分割文件

2.重命名CSV

目前分割后的子文件不是CSV后缀的,需要重命名

 for i in *; do mv $i $i".csv"; done

参考文章:

https://www.cnblogs.com/andong2015/p/11008778.html

https://blog.csdn.net/argansos/article/details/6885949

linux分片切割CSV文件相关推荐

  1. linux shell 读取csv文件内容,在Shell脚本中读取CSV文件,直到没有标题的行结束

    我有一个名为'readfile.csv'的文件,其中包含以下内容. Name Id VAl Number IP James,007,$500,111-111-111,111-000-000 Bond, ...

  2. csv linux java,java 执行Linux 命令合并.csv文件

    哈喽,大家好,我是咸鱼张,今天工作中遇到了点问题,记录一下,希望能给需要的人提供帮助. 我先说下我们的需求哈,我这个业务流程是,通过sql,获取到数据,再生成.csv文件下载下来,让人高兴的是我们平台 ...

  3. linux awk获取csv文件关键字所在列

    获取A7_p关键字所在列 pnum=`cat outlet.csv| grep 'A1_U'| awk -F "," '{;for(i=1;i<=NF;i++)if($i ~ ...

  4. linux中split分割文件打开方式,Linux系统下使用split命令分割大文件 (转载)

    [小蜗牛闲情之作 ] 我想给一个朋友传一个大视频,有几百M,尝试多种传输办法失败后,最后想到的是把视频切开一片片"邮递"过去给他,让它自己组装起来吧. [root@pps publ ...

  5. linux 输出数据到csv,Linux-从外壳输出CSV文件

    嗨,我有这种格式的输入文件. [Header A] key1 value1 key2 value2 [Header B] header1 header2 header3 // separated by ...

  6. oracle创建用户saler,Linux环境下sqlldr一个csv文件

    本来是练习三思的书里一个sqlldr的小示例,就是把excel文件另存为csv后通过sqlldr加载到Oracle数据库中.其目的本来是为了演示一下csv文件的sqlldr以及csv文件中的字符串中存 ...

  7. Python将csv文件以某列为条件分类切割

    背景 项目中有一个数据文件数量庞大,一个文件中按照年月日分成几十万条数据,想试试能不能用python把它简单切割一下,按照日期分类切成小的csv文件. 于是在网上找了很多资料,结合自己的一些修改,整理 ...

  8. Python pandas在读取csv文件时(linux与windows之间传输),数据行数不一致的问题

    背景 最近在处理用户评论数据时,从Linux服务器上面用pandas导出的csv文件,下载到自己的Windows电脑,再用本地pandas读取时发现数据行数不一致的情况,比如在Linux服务器上面数据 ...

  9. 使用win中excel打开linux下.csv文件乱码问题

    使用win中excel打开linux下.csv文件乱码问题 1.问题原因 不同系统的字符集编码不一样 windows使用的是gbk格式 linux使用的是utf8格式 检查文件编码格式 file 文件 ...

  10. linux用分割的csv文件读取,在Linux中将制表符分隔的文件转换为CSV的最快方法

    在Linux中将制表符分隔的文件转换为CSV的最快方法 我有一个制表符分隔的文件,其中包含超过2亿行. 在Linux中将其转换为CSV文件的最快方法是什么? 该文件的确包含多行标题信息,我需要将其删除 ...

最新文章

  1. 【AAAI2022】GearNet:弱监督领域自适应的逐步对偶学习
  2. hdu 3622 二分+2-sat
  3. Python倒排索引函数
  4. PopUpWindow使用详解(二)——进阶及答疑
  5. python3源码剖析_T-SNE源码剖析(python版)
  6. 在.NET Core程序中设置全局异常处理
  7. 真实版“删库跑路”?程序员蓄意破坏线上生产环境!
  8. 你的手机浏览器不支持webgle_中国联通回应“逐渐关闭2G、3G网络”:系用户手机不支持...
  9. Axure PR9的安装与激活
  10. 3dmax:3dmax的软件面板简介、软件配置优化、设计流程、设计经验、六种建模方法
  11. Eclipse安装SVN检出项目插件Subclipse失败过程记录
  12. 半挂式洒水车的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  13. 西安理工大学计算机科学与工程学院官网,罗靖-西安理工大学计算机科学与工程学院...
  14. Flask03_路由传参
  15. vue axios请求成功却进入catch的原因分析
  16. SAP ABAP(增强技术) BADI自己的一些了解,以及用法
  17. 用python实现祝福弹窗_python实现弹窗祝福效果
  18. Microbiome杂志和主编介绍
  19. EventBus如何使用及一些常见场景
  20. 12V电路电源设计:挑战和降低EMI的技巧

热门文章

  1. Android Notification 详解--设置闹铃、振动、灯光
  2. Aliyun ECS服务器搭建
  3. html制作课程表格 网页制作,HTML制作一个课程表,html代码表格课程表
  4. 7-10 1.3.1 混合牛奶 (80分)
  5. 不同的两类程序员惊人差距,实在不忍直视...
  6. python空气质量_现在,哪个城市的空气最好闻?空气质量指数分布图——Python实例...
  7. 【已解决】 E45: ‘readonly‘ option is set (add ! to override)
  8. 江西理工大学matlab考试,江西理工大学matlab测试编程题汇总.pdf
  9. oracle EVENT事件
  10. python把爬虫内容导出为excel_python制作爬虫并将抓取结果保存到excel中