DataFrame列转json以及json转DataFrame列

spark structed stream接入kafka时,获取到的value字段一般情况下是json的字符串类型,
一般情况下处理的时候需要转成DataFrame列的形式来处理,等处理结束后,再把经过转换后的
列转成json字符串的形式写到kafka中

json字符串转成DataFrame列的代码如下:

data = [("1", '''{"f1": "value1", "f2": "value2"}'''), ("2", '''{"f1": "value12"}''')]
df = spark.createDataFrame(data, ("key", "jstring"))
df.show(10, False)dfparse = df.select(df.key, get_json_object(df.jstring, '$.f1').alias("c0"), get_json_object(df.jstring, '$.f2').alias("c1") )
dfparse.show(10, False)


DataFrame列转成json字符串的代码如下:

finalDF = dfparse.withColumn("jsonCol", to_json(struct("key","c0","c1")))
finalDF.show(10, False)

DataFrame列转json以及json转DataFrame列相关推荐

  1. python转json的函数_pandas.DataFrame.to_json按行转json的方法

    最近需要将csv文件转成dataframe并以json的形式展示到前台,故需要用到dataframe的to_json方法 to_json方法默认以列名为键,列内容为值,形成{col1:[v11,v21 ...

  2. python pandas dataframe 转json_python-将嵌套的json转换为pandas dataframe

    时间: 2019-10-27 07:33:05 标签: pandas python 我正在尝试将嵌套的json数组转换为 pandas dataframe . 列表格式的数据如下所示: [{u'ana ...

  3. R语言把dataframe数据转化为tibble格式、查看每个数据列的缺失值个数、使用数据列的均值对数据列的缺失值进行填充

    R语言把dataframe数据转化为tibble格式.查看每个数据列的缺失值个数.使用数据列的均值对数据列的缺失值进行填充 目录

  4. pandas使用方括号[]或者loc函数、基于列名称或者列名称列表索引dataframe中的单个数据列或者多个数据列(accessing columns of a dataframe)

    pandas使用方括号[]或者loc函数.基于列名称或者列名称列表索引dataframe中的单个数据列或者多个数据列(accessing columns of a dataframe using co ...

  5. pandas基于dataframe特定数据列的指定阈值将原dataframe分割成两个dataframe(split dataframe based on column value threshold

    pandas基于dataframe特定数据列的指定阈值将原dataframe分割成两个子dataframe(split dataframe based on column value threshol ...

  6. pandas使用idxmax函数获取dataframe每个数据行中最大值对应的列名称(column label of max value in each row in dataframe)

    pandas使用idxmax函数获取dataframe每个数据行中最大值对应的列名称(column label of max value in each row in dataframe) 目录

  7. pandas使用idxmin函数获取dataframe每个数据行中最小值对应的列名称(column label of min value in each row in dataframe)

    pandas使用idxmin函数获取dataframe每个数据行中最小值对应的列名称(column label of min value in each row in dataframe) 目录

  8. pandas使用iloc函数基于dataframe数据列的索引抽取单列或者多列数据、其中多列索引需要嵌入在列表方括号[]中、或使用:符号形成起始和终止范围索引

    pandas使用iloc函数基于dataframe数据列的索引抽取单列或者多列数据.其中多列索引需要嵌入在列表方括号[]中.或使用:符号形成起始和终止范围索引 目录

  9. pandas使用query函数基于dataframe字符串数据列中字符串的长度筛选dataframe的数据行(specific column string length)

    pandas使用query函数基于dataframe字符串数据列中字符串的长度筛选dataframe的数据行(select dataframe rows based on specific colum ...

最新文章

  1. RxJava 和 RxAndroid 二(操作符的使用)
  2. 第五章 云原生与容器技术
  3. 关于CoordinatorLayout的用法——复杂交互的克星
  4. 耶鲁大学计算机科学录取,耶鲁大学计算机科学研究生Offer及录取要求
  5. mysql连网安装和断网安装的区别_linux连网和jdk环境配置以及mysql安装
  6. Turtlebot2 环境配置
  7. windows 安装 pip工具
  8. MySQL 千万级 数据库或大表优化
  9. hdu3336 Count the string
  10. java 上传图片 生成缩略图_上传图片同时生成缩略图
  11. 网络原理TCP/UDP
  12. 权力的游戏凛冬将至手游辅助升级脚本工具 新手操作指南
  13. 深度学习网络结构图绘制工具及方法
  14. 沁路墨彦文集:《闭关与梦的思索》
  15. WIN8.1下Prolific USB-to-Serial Comm Port驱动黄色感叹号问题
  16. jmeter正则表达式提取器的用法和正则
  17. [Halcon资料] 学习资料链接
  18. 写了个真三改键盘工具
  19. 博弈论的诡计(读书摘要)
  20. 20191025搜狐播放器安装之后的配置

热门文章

  1. 华为主导 5G 入网之争?
  2. 开发者硬核福利!极光可信数据云来了
  3. 谁说互联网行业发展走到了尽头?
  4. 物联网的未来不止于 5G!
  5. python groupby填充缺失值_熊猫中的Groupby,用[]填充缺失的组
  6. Struts结合梅花雪实现动态生成树
  7. mysql 内置存储过程_mysql 内置存储过程
  8. public 返回一数组_数组:滑动窗口拯救了你
  9. 三菱M80操作介绍_共享屋:三菱M70 PLC 转M80操作步骤
  10. linux 树状目录代码,Linux tree - 以树状图列出目录的内容