大数据课程K14——Spark的数据挖掘案例
文章作者邮箱:yugongshiye@sina.cn 地址:广东惠州
▲ 本章节目的
⚪ 掌握Spark的案例——预测商品需求量;
⚪ 掌握Spark的案例——预测谋杀率;
一、案例1——预测商品需求量
1. 说明
某种商品的需求量(y,吨)、价格(x1,元/千克)和消费者收入(x2,元)观测值如下表所示。
y=β1X1+β2X2+β0
y |
x1 |
x2 |
100 |
5 |
1000 |
75 |
7 |
600 |
80 |
6 |
1200 |
70 |
6 |
500 |
50 |
8 |
30 |
65 |
7 |
400 |
90 |
5 |
1300 |
100 |
4 |
1100 |
110 |
3 |
1300 |
60 |
9 |
300 |
为了能够通过Mllib建模,我们首先需要对数据格式进行一定的处理,比如如下所示:
100|5 1000
75|7 600
80|6 1200
70|6 500
50|8 30
65|7 400
90|5 1300
100|4 1100
110|3 1300
60|9 300
X1=10 X2=400 Y=?
2. 代码示例:
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.ml.regression.LinearRegressionModel.LinearRegressionModelReader
import org.apache.spark.ml.regression.LinearRegressionSummary
import org.apache.spark.ml.regression.LinearRegressionTrainingSummary
import org.apache.spark.mllib.regression.LinearRegressionWithSGD
import org.apache.spark.mllib.regression.LinearRegressionModel
import org.apache.spark.ml.regression.LinearRegressionModel
import org.apache.spark.sql.SQLContext
import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.regression.LinearRegression
object Driver {
def main(args: Array[String]): Unit = {
val conf=new SparkConf().setMaster("local").setAppName("lr")
val sc=new SparkContext(conf)
val sqc=new SQLContext(sc)
val data=sc.textFile("d://ml/lritem.txt")
//--将数据转成 tuple格式,是为了后期转成SparkSql的DataFrame
val parseData=data.map { x =>
val parts=x.split("\\|")
val features=parts(1).split(" ")
(parts(0).toDouble,features(0).toDouble,features(1).toDouble)
}
//--转成DF
val df=sqc.createDataFrame(parseData)
//--定义各列字段名字
val dfData=df.toDF("Y","X1","X2")
//--定义featur
大数据课程K14——Spark的数据挖掘案例相关推荐
- 大数据课程综合实验案例:网站用户行为分析
大数据课程综合实验案例 1 案例简介 1.1 案例目的 1.2 适用对象 1.3 时间安排 1.4 预备知识 1.5 硬件要求 1.6 软件工具 1.7 数据集 1.8 案例任务 1.9 实验步骤 2 ...
- 大数据课程——Spark SQL
大数据课程--Spark SQL 实验内容以及要求 现有一份汽车销售记录(文件名:Cars.csv),销售记录包括时间.地点.邮政编码.车辆类型等信息,每条记录信息包含39项数据项.按步骤完成如下 ...
- 大数据课程设计(一)二手房数据挖掘可视化
大数据课程设计(一)二手房数据挖掘可视化 selenium爬虫.pyecharts可视化.HTML+CSS+Echarts大屏.配套论文.配套教程视频. 项目要求: 项目包含: 该压缩包含视频讲解和项 ...
- 大数据课程培训大纲及详细说明(全)
一.大数据处理技术-基于Hadoop/Yarn的实战(含Spark.Storm和Docker应用介绍 ) 本课程从大数据技术以及Hadoop/Yarn实战的角度,结合理论和实践,全方位地介绍Hadoo ...
- 成都大数据Hadoop与Spark技术培训班
成都大数据Hadoop与Spark技术培训班 中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师.开 ...
- python大数据课程培训大纲
一.大数据处理技术-基于Hadoop/Yarn的实战(含Spark.Storm和Docker应用介绍 ) 本课程从大数据技术以及Hadoop/Yarn实战的角度,结合理论和实践,全方位地介绍Hadoo ...
- 大数据实时处理-基于Spark的大数据实时处理及应用技术培训
随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据 的时代.大 数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫 ...
- 大数据课程体系-学习笔记概要
目录 目录 大数据课程体系 简介 学习阶段不定时更新 大数据课程体系 简介 作为一名物联网工程专业的学生,对于大数据有着不同寻常的热情,在有了一定的Android基础和J2EE基础后,希望学习更多的数 ...
- 不错的大数据课程体系(感谢某机构,希望不属于侵权)
2019独角兽企业重金招聘Python工程师标准>>> 阶段一.大数据.云计算 - Hadoop大数据开发技术 课程一.大数据运维之Linux基础 本部分是基础课程,帮大家进入大数据 ...
- 打包带走极客时间大数据课程的正确姿势
"如何持续学习大数据 ,实现高效进阶?" 经常有读者让我推荐学习资源,非常开心大家能一直保持学习的习惯.其实不仅仅是大数据工程师需要学习大数据,每个软件工程师都应该学习一些大数据知 ...
最新文章
- 如何获得Oracle系统性能统计? Oracle大型数据库系统在AIXUNIX上的实战详解 集中讨论 14...
- 文本文件如何在其他地方打开
- JDK动态代理实现原理--转载
- c语言解析json数据
- fastJson去掉指定字段
- python自动补全库_这个库厉害了,自动补全Python代码,节省50%敲码时间
- mysql存储ip地址_MySQL怎样存储IP地址
- linux怎样判断线程是否暂停_怎样寻找合适的创业项目?如何判断一个创业项目是否靠谱?...
- neo4j入门(一)概述
- vb与php通讯加密,在VB.NET中加密和在PHP中解密
- c语言头文件和函数库,C语言的头文件和库文件(函数库)
- STC12LE5612AD芯片使用心得(一)芯片介绍
- 如何用linux系统进行远程控制windows服务器
- eslint 如何关闭检查变量名规范或者大小写检查
- 视频产生的本质及色彩空间:RGB 和 YUV
- Canvas 画五角星
- Android 软件开发时用到的一些有用软件列表
- 软件设计师考试重点知识点梳理
- 辩证唯物主义 历史唯物主义 第一章绪论 一 唯物主义和唯心主义
- 使用RENREN-GENERATOR时遇到循环错误问题 Relying upon circular references is discouraged and they are prohibited
热门文章
- mybatis-02
- metasploit centos环境搭建并验证
- 不“破”阿里终不还,“寒潮”之下Java程序员的凌云壮志
- LWN:内核5.4版本合并窗口——第二部分
- 如何使用Matlab实现你的量化易略
- 空闲后再次连接时间长mysql_Mysql空闲连接超时自动断开问题记录
- 用这种方法讲解“三次握手,四次挥手”,我还是头一次见
- 商业周刊:甲骨文赶超SAP长路漫漫[转]
- 天干 地支 司天 在泉 五运六气
- 深圳氢能展|2023中国(深圳)国际氢能与燃料电池技术展览会