Spark中对dataframe内重复列求和

前言

在处理dataframe中的字段名是，发现有些字段名在处理后是重复，于是新定义了策略，对这些相同列名的字段进行求和合并
summing the duplicated columns

代码实现

#Hanle Duplicates
from operator import add
from functools import reduce
import collections
original_columns = [...]
columns_after_cleanup=[...]
counter=collections.Counter(columns_after_cleanup)
counter_dict=dict(counter)
new_list=[columns_after_cleanup[i]+'_' +str(i) +'adbce' for i in range(len(columns_after_cleanup))]
for i in range(len(columns_after_cleanup)):df=df.withColumnRenamed(original_columns[i], new_list[i])for k in counter_dict.keys():if counter_dict[k] >1:col_list1=[ c for x in new_list if c.startswith(k)]df=df.withColumnRenamed(k, reduce(add, [F.col(x) for x in col_list1])).drop(*col_list1)
col_list2=df.columns
col_list2=[re.sub('_\d+adbed', '', col) for col in col_list2]
for i in range(len(col_list2)):df=df.withColumnRenamed(col_list2[i], col_list3[i])

Spark中对dataframe内重复列求和相关推荐

pandas中关于DataFrame去掉重复行和NaN行
1.去掉重复行使用pandas自带的drop_duplicates方法: norepeat_df = df.drop_duplicates(subset=['A_ID', 'B_ID'], keep ...
pandas中关于DataFrame行，列显示不完全的解决方案
1.问题背景在使用DataFrame的过程中,由于行列数量太多,print打印出来会显示不完全.如图: 2.解决方案 #显示所有列 pd.set_option('display.max_column ...
python pandas中关于DataFrame行，列显示不完全（省略）的解决办法
引用添加代码即可: #显示所有列 pd.set_option('display.max_columns', None) #显示所有行 pd.set_option('display.max_rows' ...
Spark中RDD与DataFrame与DataSet的区别与联系
1.概述这是一个面试题在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似传统数据库中的二维表格 DataFrame与RDD的主要区别在于,前者带有schema元数据信息,既 ...
使用Spark中DataFrame的语法与SQL操作，对人类数据进行处理，比较学历与离婚率的关系
简介整理Kaggle上的人类信息数据 Machine-Learning-Databases,这个数据集已经有二十多年的历史,虽然历史久远,但是格式明确,是比较好的入门数据集. 通过Spark中的Da ...
Spark中RDD、DataFrame和DataSet的区别与联系
一.RDD.DataFrame和DataSet的定义在开始Spark RDD与DataFrame与Dataset之间的比较之前,先让我们看一下Spark中的RDD,DataFrame和Dataset ...
PySpark:DataFrame及其常用列操作
Spark版本:V3.2.1 1. DataFrame 虽然RDD是Spark最基本的抽象,但RDD的计算函数对Spark而言是不透明的.也就是说Spark并不知道你要在计算函数里干什么.无论你是要做 ...
Spark RDD与DataFrame
1. DataFrame概念 DataFrame的前身是SchemaRDD,从Spark 1.3.0开始SchemaRDD更名为DataFrame.与SchemaRDD的主要区别是:DataFrame ...
Spark RDD、DataFrame原理及操作详解
RDD是什么? RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用. RDD内部可以 ...

Spark中对dataframe内重复列求和

前言

代码实现

Spark中对dataframe内重复列求和相关推荐

最新文章

热门文章