序言

MARSIPM项目后期要在Azure平台上搭算法系统,终归要把之前所有用pandas做数据处理的代码全部重构成PySpark,作为小白从前辈的口中得知PySpark“世界上最烂的语言”后决定笨鸟先飞,既然早晚要承受痛苦,那还是提早做点准备罢,反正答辩完也没什么直接压力了,权当学些新东西了。今天就先把安装指南记录一下,因为PySpark的安装涉及到系统环境的修改,而现在我必须在有公司加密系统的系统备份上使用,以后从公司离开回到之前正常的系统备份后可能还需要重新配置PySpark,留个记录免得到时候不知道怎么改。

预想可能会在这篇博客持续更新一些PySpark的学习内容,到这个岁数总归是技多不压身,多学一点总是没坏处。近期可能会更新一些其他感兴趣的方面的博客,毕竟很久没有做些好玩的事情了,假如时间充裕的话。

PySpark安装指南(WIN10)

首先简单介绍一下PySparkPySpark是基于python语言对Spark数据处理框架的封装,涉及对DataLake, DataBase, DataFrame等多种形式数据的处理,内部还封装了一些统计机器学习,统计分析等模块。相比于传统的pandas数据处理包,PySpark不仅在内容上更加丰富,更重要的是PySpark在处理逻辑上更加优化,使用分布式处理使得在运行上占据更少的内存,提升算法效率。

PySpark的安装教程似乎没有其他人写得那么复杂,需要配置HADOOPJDKSCALA等系统环境,这些一般都是在服务器上部署所需要的,如果只是在PC机上做入门性质的学习,并不需要这么繁琐。

因为笔者之前有Java编程开发的经历,JDK环境是现成的(Java 9.0.4)。从之后PySpark的使用来看,应该只有JDK环境是必须的,其他两个并不必须。关于JDK环境搭建的方法是比较简单的,可以很容易地找到教程。在此不多作赘述,谨以博主renlianggee的相关博客JDK的环境变量配置作为援引。

配置好JDK环境后下载PySpark安装包即可,在pypi官网https://pypi.org/project/pyspark/可以找到setuptar包下载,截至至本文发布,PySpark最新版为2.4.5,下载后解压如下图所示

【项目总结】NewStart——PySpark学习笔记相关推荐

  1. vue项目打包与配置-学习笔记

    文章目录 vue项目打包与配置-学习笔记 前端打包 打包的代码如何运行 打包指定不同的环境变量(开发,测试) 打包手动配置文件 打包压缩,大文件处理 gzip进一步压缩 打包app 打包部署模式 vu ...

  2. Pyspark学习笔记1——配置环境并计算pi测试

    Pyspark学习笔记(一) 环境搭建 在linux的CentOS 7.3中,首先要配置好JDK和python. 1.JDK和Python3配置 Jdk的下载地址,注意需要先点击同意条款的按钮.htt ...

  3. maven 一个简单项目 —— maven权威指南学习笔记(三)

    目标: 对构建生命周期 (build  lifecycle),Maven仓库 (repositories),依赖管理 (dependency management)和项目对象模型 (Project O ...

  4. react项目搭建(基础学习笔记)

    react项目搭建(基础学习) 安装 局部安装 1.npm init -y或yarn init -y初始化项目 2.全局安装creact-react-app.使用npm install -D crea ...

  5. Pyspark学习笔记小总

    pyspark官方文档: https://spark.apache.org/docs/latest/api/python/index.html pyspark案例教程: https://sparkby ...

  6. 电商项目尚品汇学习笔记

    本文参考其他文章自己整理补充的,要阅读原文请查看:尚品汇项目笔记_爱哭的毛毛虫的博客-CSDN博客_尚品汇项目 1.vue文件目录 public文件夹:静态资源,webpack进行打包的时候会原封不动 ...

  7. Unity 项目 - Ruby‘s Adventure 学习笔记

    Ruby's Adventure 初识 Unity 主角 Ruby 的创建 Ruby 的移动控制 使用 TileMap 创建世界地形 调色板的工具与快捷键 丰富游戏世界 Unity 中的物理系统 道具 ...

  8. pyspark学习笔记,欢迎朋友们留言交流探讨!

    直接上代码: 粘贴格式很乱,可以直接点击我的印象笔记: https://app.yinxiang.com/shard/s60/nl/11100943/831e454b-b206-4b3f-93fb-0 ...

  9. pyspark学习笔记(1)_安装和简单逻辑回归分类示例

    一.安装 我是Windows系统,使用的是anaconda.如其他系统环境可直接度娘怎么安装,教程很多哟(^U^) 安装方法: 1.下载Spark. 在Apache Spark官网下载Spark,直接 ...

最新文章

  1. 程序猿惯用口头禅,你被击中了吗?
  2. malloc free
  3. 跨域失败 过滤器_Spring Boot 跨域过滤器(过滤器跨域问题)
  4. setInterval(callback(),time)
  5. Weak Pair HDU - 5877 树状数组+离散化+DFS遍历
  6. HDU 2089 不要62(数位DP)
  7. java.library.path在哪?
  8. ueditor接入秀米编辑器
  9. Element UI 之 Tabs 栏下拉菜单的实现
  10. java棋盘最短路径障碍物_(Eucledian最短路径)检测平面中障碍物的角落
  11. MapReduce之幺半群
  12. 针对m3u8视频加密的一些尝试
  13. Redis【11】-Redis发布订阅
  14. 应用服务Application Services
  15. Ubuntu 20.04安装百度拼音输入法
  16. python 网络接口 开发_Python自动化学习笔记(八)——接口开发、发送网络请求、发送邮件、写日志...
  17. Py3+Django 获取Foursquare的Check-in History
  18. 转云风的博客——无欲则刚
  19. 计算机照片怎么处理器,摄影干货:用于修图的电脑应该如何配置之“处理器”篇...
  20. 逻辑回归预测贷款用户是否会逾期

热门文章

  1. 赣州市光华职业学校计算机部,2019年赣州市中职学校技能竞赛正式开赛
  2. Android手机App安全漏洞
  3. mysql 多租户_动态路由数据源(多租户)解决方案
  4. rust核电站要什么卡_召唤与合成升级需要什么卡 卡片资源使用攻略
  5. Ubuntu连接不上网络
  6. Java 简单实现计算器
  7. Yolo系列__Yolov1简介
  8. 最小二乘法求解一元线性回归
  9. IBM MQ通道常用知识列举(一)
  10. 34个案例,110页中小企业“链式”数字化转型典型案例集