pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换
# -*- coding: utf-8 -*-
import pandas as pd
from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
from pyspark import SparkContext#初始化数据#初始化pandas DataFrame
df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['row1', 'row2'], columns=['c1', 'c2', 'c3'])#打印数据
print( df)#初始化spark DataFrame
sc = SparkContext()
if __name__ == "__main__":spark = SparkSession\.builder\.appName("testDataFrame")\.getOrCreate()sentenceData = spark.createDataFrame([(0.0, "I like Spark"),(1.0, "Pandas is useful"),(2.0, "They are coded by Python ")
], ["label", "sentence"])#显示数据
sentenceData.select("label").show()#spark.DataFrame 转换成 pandas.DataFrame
sqlContest = SQLContext(sc)
spark_df = sqlContest.createDataFrame(df)#显示数据
spark_df.select("c1").show()# pandas.DataFrame 转换成 spark.DataFrame
pandas_df = sentenceData.toPandas()#打印数据
print (pandas_df)
原文
pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换相关推荐
- python dataframe dropna_python pandas DataFrame.dropna用法及代碼示例
刪除缺失的值. 看到用戶指南詳細了解哪些值被認為缺失,以及如何處理缺失的數據. 參數: axis:{0 或 'index', 1 或 'columns'}, 默認為 0確定是否刪除包含缺失值的行或列. ...
- list、numpy.ndarray 和 pandas.dataframe的相互转换、torch.tensor和numpy.ndarray的相互转换
1.list 转 numpy.ndarray: np.array() 2.numpy.ndarray 转 pandas.Dataframe: pandas.DataFrame() 3.pandas ...
- 如何优雅的实现pandas DataFrame 和spark dataFrame 相互转换
如何优雅的实现pandas DataFrame 和spark dataFrame 相互转换 #!/usr/bin/env python3 # -*- coding: utf-8 -*- "& ...
- 在Pandas DataFrame中重塑数据
目录 介绍 透视Pandas DataFrame 在Pandas DataFrame中对数据进行分组 总结 使用我们的数据集后,我们将快速查看可以使用流行的Python库从数据集轻松创建的可视化,然后 ...
- pandas.DataFrame——pd数据框的简单认识、存csv文件
接着前天的豆瓣书单信息爬取,这一篇文章看一下利用pandas完成对数据的存储. 回想一下我们当时在最后得到了六个列表:img_urls, titles, ratings, authors, detai ...
- Pandas DataFrame索引和列属性
Pandas DataFrame index and columns attributes allow us to get the rows and columns label values. Pan ...
- 前锋python百度云_关于python:使用索引在pandas DataFrame中设置特定单元格的值
我创建了一个熊猫数据框架 df = DataFrame(index=['A','B','C'], columns=['x','y']) 得到了这个 x y A NaN NaN B NaN ...
- pyspark操作 rdd dataframe,pyspark.sql.functions详解 行列变换
官网文档可以参考:https://spark.apache.org/docs/latest/api/python/index.html dataframe读写 生成以逗号分隔的数据 stringCSV ...
- python print rdd_spark: RDD与DataFrame之间的相互转换方法
DataFrame是一个组织成命名列的数据集.它在概念上等同于关系数据库中的表或R/Python中的数据框架,但其经过了优化.DataFrames可以从各种各样的源构建,例如:结构化数据文件,Hive ...
最新文章
- SpringMVC整合fastdfs-client-java实现web文件上传下载
- 什么是优秀管理者的第一课?【如何搞垮一个企业】
- 在Redhat安装部署Apache+MySQL+PHP(LAMP)
- .NET分布式缓存Memcached测试体验
- bootstrap 按钮样式单选效果_【自学C#】I 书 101 单选按钮
- 使用swipecard实现卡片视图左右滑动监听以及点击监听
- (六)使用ResNet50迁移学习进行COVID-19诊断:从头开始构建深度学习网络
- LeetCode60:Permutation Sequence
- 庖丁解牛!深入剖析React Native下一代架构重构
- linux 中间代码反编译,[原创]反编译原理(2)-中间表示
- vim插件command-t安装
- Linux 2.6内核启动传递命令行的过程分析
- 设计模式读书笔记之结构型模式
- IPVS之Bypass转发模式
- CANopen高级协议详解
- PMP项目管理是什么?
- RK3399平台开发系列讲解(高速设备驱动篇)6.45、蓝牙系统架构
- 2022年武汉江岸区助企惠企政策汇总,附奖励补贴标准及申报条件
- FleaPHP 开发指南 - 3. 应用程序入口
- scp拷贝文件报错-bash: scp: command not found
热门文章
- KubeCon + CloudNativeCon北美2018年会议透明度报告:一项破纪录的CNCF活动
- uva140 Bandwidth
- 【FTP】java FTPClient 文件上传内容为空,文件大小为0
- 【源资讯 第24期】有人总想搞大新闻:“Windows 11”爆猛料;微信放出“小程序码”...
- 【面试系列】之一:关于Cmd和Amd
- 中科院NLPIR中文分词java版
- 微信企业号OAuth2.0授权-Java
- zabbix企业应用之bind dns监控(转)
- [转]文件浏览直接显示[兼容IE,FireFox]
- 802.1X的wpa认证流程-------4-way handshake过程分析