linux 文件取交集、并集
(1)两个文件的交集,并集
前提条件:每个文件中不得有重复行
1. 取出两个文件的并集(重复的行只保留一份)
cat file1 file2 | sort | uniq > file3
2. 取出两个文件的交集(只留下同时存在于两个文件中的文件)
cat file1 file2 | sort | uniq -d > file3
3. 删除交集,留下其他的行
cat file1 file2 | sort | uniq -u > file3
(2)两个文件合并
一个文件在上,一个文件在下
cat file1 file2 > file3
一个文件在左,一个文件在右
paste file1 file2 > file3
(3)一个文件去掉重复的行
sort file |uniq
注意:重复的多行记为一行,也就是说这些重复的行还在,只是全部省略为一行!
sort file |uniq –u
上面的命令可以把重复的行全部去掉,也就是文件中的非重复行!
linux 文件取交集、并集相关推荐
- linux文件取交集、差集、并集
# 交集 sort a.txt | uniq > aa.txt sort b.txt | uniq > bb.txt cat aa.txt bb.txt | sort | uniq -d ...
- Linux中uniq去重以及对两个文件取交集,并集,差集
uniq 前言 很多时候我们需要对数据去重,不管是少量数据还是大量数据,写代码进行去重终究没有使用系统功能直接操作文件方便,所以本文就介绍了一些关于uniq的使用方法 uniq单独使用 uniq配合s ...
- linux两个文件取交集、并集、差集
如何得到两个文件的交集.并集和差集? 交集:两个文件中都出现的行 并集:两个文件中的所有行加起来,去掉重复 差集:在一个文件中存在,而在另一个文件中不存在. 比如以下两个文件: a.txt aaa b ...
- Python-两个列表取交集、并集、差集(编写了一个两个文件取交集的小工具)
最近突然有个需求(取两个文件数据的交集),数据量非常大(2000多万行的数据),最开始的思路是先取一个文件所有的数据,保存成一个列表,然后判断是否在另一个文件中,花了十几分钟写出来后,一运行,差点崩溃 ...
- linux下 取文件的交集 并集 差集
交集 sort a.txt b.txt | uniq -d 并集 sort a.txt b.txt | uniq 差集 sort a.txt b.txt b.txt | uniq -u sort b. ...
- 集合去重,取交集并集差值
最好的方式是用set集合做并集,CollectionUtils封装,union底部用hashmap取值存入hashSet中,去重 // 两个集合合并成并去重 public void mergeSet( ...
- pandas对dataframe的两列取交集并集
输入:一个dataFrame,其中的两列是集合. 输出:对两列合并成新的一列,内容为两列的交集. 举个例子 我想得到的结果为 代码如下: pd.Series([set.intersection(*z) ...
- ORAClE 两个表取交集,并集,差集
这是我盗的 selct A.* from A UNION ALL/UNION/Intersect/MINUS select B.* from B; UNION ALL ---------------- ...
- linux求两个文件的交集,并集,差集
对单个文件去重,对两个文件取交集,取并集,取差集都用cat命令 对file去重 cat data1.txt | sort | uniq uniq只能对相邻的重复行去重,所以要先排序 删除两个文件的交集 ...
最新文章
- 基于椭圆拟合的环岛识别方法
- FPGA跨时钟域设计的一点总结
- 【Python】青少年蓝桥杯_每日一题_3.19_约分
- 要开始另一个linux操作系统的尝试了,说说我以前的ubuntu吧
- [Python图像处理] 十三.基于灰度三维图的图像顶帽运算和黑帽运算
- 常见的Content-Type类型
- synchronized和ReentrantLock区别,用新的lock有什么好处?举例说说
- 学python电脑硬件_Python实现的读取电脑硬件信息功能示例
- 68.x的平方根(力扣leetcode) 博主可答疑该问题
- 《DOOM启世录(纪念版) 》此书出了纪念版,好像内容没变
- javascript prototype 学习笔记
- 【软件工程基础】数独生成器以及解答器
- ASP.NET商贸进销存管理系统源码(带数据库文档)源码免费分享
- 基于云开发的成语答题小程序
- verilog 四舍五入_IEEE 754 round-to-nearest-even Verilog代码
- dva model数据管理
- Tensor是神马?为什么还会Flow?
- 失业日记 10月3日
- 在后台删除新闻时,需要删除服务器上的文件夹
- VIM快速文档整理技巧