前言

在处理dataframe中的字段名是,发现有些字段名在处理后是重复,于是新定义了策略,对这些相同列名的字段进行求和合并
summing the duplicated columns

代码实现

#Hanle Duplicates
from operator import add
from functools import reduce
import collections
original_columns = [...]
columns_after_cleanup=[...]
counter=collections.Counter(columns_after_cleanup)
counter_dict=dict(counter)
new_list=[columns_after_cleanup[i]+'_' +str(i) +'adbce' for i in range(len(columns_after_cleanup))]
for i in range(len(columns_after_cleanup)):df=df.withColumnRenamed(original_columns[i], new_list[i])for k in counter_dict.keys():if counter_dict[k] >1:col_list1=[ c for x in new_list if c.startswith(k)]df=df.withColumnRenamed(k, reduce(add, [F.col(x) for x in col_list1])).drop(*col_list1)
col_list2=df.columns
col_list2=[re.sub('_\d+adbed', '', col) for col in col_list2]
for i in range(len(col_list2)):df=df.withColumnRenamed(col_list2[i], col_list3[i])

Spark中对dataframe内重复列求和相关推荐

  1. pandas中关于DataFrame去掉重复行和NaN行

    1.去掉重复行 使用pandas自带的drop_duplicates方法: norepeat_df = df.drop_duplicates(subset=['A_ID', 'B_ID'], keep ...

  2. pandas中关于DataFrame行,列显示不完全的解决方案

    1.问题背景 在使用DataFrame的过程中,由于行列数量太多,print打印出来会显示不完全.如图: 2.解决方案 #显示所有列 pd.set_option('display.max_column ...

  3. python pandas中关于DataFrame行,列显示不完全(省略)的解决办法

    引用 添加代码即可: #显示所有列 pd.set_option('display.max_columns', None) #显示所有行 pd.set_option('display.max_rows' ...

  4. Spark中RDD与DataFrame与DataSet的区别与联系

    1.概述 这是一个面试题 在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似传统数据库中的二维表格 DataFrame与RDD的主要区别在于,前者带有schema元数据信息,既 ...

  5. 使用Spark中DataFrame的语法与SQL操作,对人类数据进行处理,比较学历与离婚率的关系

    简介 整理Kaggle上的人类信息数据 Machine-Learning-Databases,这个数据集已经有二十多年的历史,虽然历史久远,但是格式明确,是比较好的入门数据集. 通过Spark中的Da ...

  6. Spark中RDD、DataFrame和DataSet的区别与联系

    一.RDD.DataFrame和DataSet的定义 在开始Spark RDD与DataFrame与Dataset之间的比较之前,先让我们看一下Spark中的RDD,DataFrame和Dataset ...

  7. PySpark:DataFrame及其常用列操作

    Spark版本:V3.2.1 1. DataFrame 虽然RDD是Spark最基本的抽象,但RDD的计算函数对Spark而言是不透明的.也就是说Spark并不知道你要在计算函数里干什么.无论你是要做 ...

  8. Spark RDD与DataFrame

    1. DataFrame概念 DataFrame的前身是SchemaRDD,从Spark 1.3.0开始SchemaRDD更名为DataFrame.与SchemaRDD的主要区别是:DataFrame ...

  9. Spark RDD、DataFrame原理及操作详解

    RDD是什么? RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用. RDD内部可以 ...

最新文章

  1. linux命令行 正则,在Linux命令行中使用正则表达式
  2. h264 裸流打包成mp4 注意事项
  3. 使用selenium爬取某东的手机商品信息
  4. 使用SWAGGER和ASP.NET CORE设置可选路由参数
  5. linux 文件列添加字段,如何在linux中加入所需列的文件?
  6. html2canvas截图地图和看到的不一样_认知高度不同的人,看到的世界是不一样的...
  7. 基于SkyEye的GPU仿真——解决嵌入式仿真难题
  8. 阀门的开关方向_一字阀门开关方向怎么辨认
  9. Java中实体类名称后缀VO,DTO的含义
  10. 基于Opencv实现的简易汉字识别
  11. pdf转换成word转换器免费版
  12. 硅烷PEG硅烷,Silane-PEG-Silane
  13. mysql免安装版linux_Linux下配置免安装版的MySQL
  14. 智慧楼宇篇 6 —— 室内定位技术(五) - 室内定位技术总结
  15. 谷歌翻译软件-大家都在下载的谷歌翻译软件
  16. Glove与Attention机制资料的整理
  17. 营销策划书(2007)
  18. Power BI 可视化:KPI 指标在卡片图中的突出显示
  19. 爱视图灵-深度学习推理盒(JETSON TX2)
  20. 看雪学院-Android安全

热门文章

  1. matlab 结构体数据(MWStructArray)读取到C#
  2. 人脸识别算法实验:facenet人脸识别率测试
  3. Ubuntu16.04 Jupyter安装
  4. eclipse的搜索快捷键
  5. bms系统服务器,bms类服务器
  6. React Native中TouchableHighlight和TouchableOpacity无法获取焦点问题的解决
  7. 如何判断点P是否在三角形ABC内?
  8. Android-第十一节网络请求第三方框架-xutils3
  9. 全球及中国基因检测市场投资规模状况与应用前景规划报告2022年
  10. 亚马逊测评自养号应该要怎么做?经验技术分享