Spark中对dataframe内重复列求和
前言
在处理dataframe中的字段名是,发现有些字段名在处理后是重复,于是新定义了策略,对这些相同列名的字段进行求和合并
summing the duplicated columns
代码实现
#Hanle Duplicates
from operator import add
from functools import reduce
import collections
original_columns = [...]
columns_after_cleanup=[...]
counter=collections.Counter(columns_after_cleanup)
counter_dict=dict(counter)
new_list=[columns_after_cleanup[i]+'_' +str(i) +'adbce' for i in range(len(columns_after_cleanup))]
for i in range(len(columns_after_cleanup)):df=df.withColumnRenamed(original_columns[i], new_list[i])for k in counter_dict.keys():if counter_dict[k] >1:col_list1=[ c for x in new_list if c.startswith(k)]df=df.withColumnRenamed(k, reduce(add, [F.col(x) for x in col_list1])).drop(*col_list1)
col_list2=df.columns
col_list2=[re.sub('_\d+adbed', '', col) for col in col_list2]
for i in range(len(col_list2)):df=df.withColumnRenamed(col_list2[i], col_list3[i])
Spark中对dataframe内重复列求和相关推荐
- pandas中关于DataFrame去掉重复行和NaN行
1.去掉重复行 使用pandas自带的drop_duplicates方法: norepeat_df = df.drop_duplicates(subset=['A_ID', 'B_ID'], keep ...
- pandas中关于DataFrame行,列显示不完全的解决方案
1.问题背景 在使用DataFrame的过程中,由于行列数量太多,print打印出来会显示不完全.如图: 2.解决方案 #显示所有列 pd.set_option('display.max_column ...
- python pandas中关于DataFrame行,列显示不完全(省略)的解决办法
引用 添加代码即可: #显示所有列 pd.set_option('display.max_columns', None) #显示所有行 pd.set_option('display.max_rows' ...
- Spark中RDD与DataFrame与DataSet的区别与联系
1.概述 这是一个面试题 在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似传统数据库中的二维表格 DataFrame与RDD的主要区别在于,前者带有schema元数据信息,既 ...
- 使用Spark中DataFrame的语法与SQL操作,对人类数据进行处理,比较学历与离婚率的关系
简介 整理Kaggle上的人类信息数据 Machine-Learning-Databases,这个数据集已经有二十多年的历史,虽然历史久远,但是格式明确,是比较好的入门数据集. 通过Spark中的Da ...
- Spark中RDD、DataFrame和DataSet的区别与联系
一.RDD.DataFrame和DataSet的定义 在开始Spark RDD与DataFrame与Dataset之间的比较之前,先让我们看一下Spark中的RDD,DataFrame和Dataset ...
- PySpark:DataFrame及其常用列操作
Spark版本:V3.2.1 1. DataFrame 虽然RDD是Spark最基本的抽象,但RDD的计算函数对Spark而言是不透明的.也就是说Spark并不知道你要在计算函数里干什么.无论你是要做 ...
- Spark RDD与DataFrame
1. DataFrame概念 DataFrame的前身是SchemaRDD,从Spark 1.3.0开始SchemaRDD更名为DataFrame.与SchemaRDD的主要区别是:DataFrame ...
- Spark RDD、DataFrame原理及操作详解
RDD是什么? RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用. RDD内部可以 ...
最新文章
- linux命令行 正则,在Linux命令行中使用正则表达式
- h264 裸流打包成mp4 注意事项
- 使用selenium爬取某东的手机商品信息
- 使用SWAGGER和ASP.NET CORE设置可选路由参数
- linux 文件列添加字段,如何在linux中加入所需列的文件?
- html2canvas截图地图和看到的不一样_认知高度不同的人,看到的世界是不一样的...
- 基于SkyEye的GPU仿真——解决嵌入式仿真难题
- 阀门的开关方向_一字阀门开关方向怎么辨认
- Java中实体类名称后缀VO,DTO的含义
- 基于Opencv实现的简易汉字识别
- pdf转换成word转换器免费版
- 硅烷PEG硅烷,Silane-PEG-Silane
- mysql免安装版linux_Linux下配置免安装版的MySQL
- 智慧楼宇篇 6 —— 室内定位技术(五) - 室内定位技术总结
- 谷歌翻译软件-大家都在下载的谷歌翻译软件
- Glove与Attention机制资料的整理
- 营销策划书(2007)
- Power BI 可视化:KPI 指标在卡片图中的突出显示
- 爱视图灵-深度学习推理盒(JETSON TX2)
- 看雪学院-Android安全