大数据课程K14——Spark的数据挖掘案例

2024-06-11 07:31:09

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州

▲ 本章节目的

⚪ 掌握Spark的案例——预测商品需求量；

⚪ 掌握Spark的案例——预测谋杀率；

一、案例1——预测商品需求量

1. 说明

某种商品的需求量（y，吨）、价格（x1，元／千克）和消费者收入（x2，元）观测值如下表所示。

y=β1X1+β2X2+β0

y	x1	x2
100	5	1000
75	7	600
80	6	1200
70	6	500
50	8	30
65	7	400
90	5	1300
100	4	1100
110	3	1300
60	9	300

为了能够通过Mllib建模，我们首先需要对数据格式进行一定的处理，比如如下所示：

100|5 1000

75|7 600

80|6 1200

70|6 500

50|8 30

65|7 400

90|5 1300

100|4 1100

110|3 1300

60|9 300

X1=10 X2=400 Y=?

2. 代码示例：

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.mllib.regression.LabeledPoint

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.ml.regression.LinearRegressionModel.LinearRegressionModelReader

import org.apache.spark.ml.regression.LinearRegressionSummary

import org.apache.spark.ml.regression.LinearRegressionTrainingSummary

import org.apache.spark.mllib.regression.LinearRegressionWithSGD

import org.apache.spark.mllib.regression.LinearRegressionModel

import org.apache.spark.ml.regression.LinearRegressionModel

import org.apache.spark.sql.SQLContext

import org.apache.spark.ml.feature.VectorAssembler

import org.apache.spark.ml.regression.LinearRegression

object Driver {

def main(args: Array[String]): Unit = {

val conf=new SparkConf().setMaster("local").setAppName("lr")

val sc=new SparkContext(conf)

val sqc=new SQLContext(sc)

val data=sc.textFile("d://ml/lritem.txt")

//--将数据转成 tuple格式,是为了后期转成SparkSql的DataFrame

val parseData=data.map { x =>

val parts=x.split("\\|")

val features=parts(1).split(" ")

(parts(0).toDouble,features(0).toDouble,features(1).toDouble)

}

//--转成DF

val df=sqc.createDataFrame(parseData)

//--定义各列字段名字

val dfData=df.toDF("Y","X1","X2")

//--定义featur

大数据课程K14——Spark的数据挖掘案例相关推荐

大数据课程综合实验案例：网站用户行为分析
大数据课程综合实验案例 1 案例简介 1.1 案例目的 1.2 适用对象 1.3 时间安排 1.4 预备知识 1.5 硬件要求 1.6 软件工具 1.7 数据集 1.8 案例任务 1.9 实验步骤 2 ...
大数据课程——Spark SQL
大数据课程--Spark SQL 实验内容以及要求现有一份汽车销售记录(文件名:Cars.csv),销售记录包括时间.地点.邮政编码.车辆类型等信息,每条记录信息包含39项数据项.按步骤完成如下 ...
大数据课程设计（一）二手房数据挖掘可视化
大数据课程设计(一)二手房数据挖掘可视化 selenium爬虫.pyecharts可视化.HTML+CSS+Echarts大屏.配套论文.配套教程视频. 项目要求: 项目包含: 该压缩包含视频讲解和项 ...
大数据课程培训大纲及详细说明（全）
一.大数据处理技术-基于Hadoop/Yarn的实战(含Spark.Storm和Docker应用介绍 ) 本课程从大数据技术以及Hadoop/Yarn实战的角度,结合理论和实践,全方位地介绍Hadoo ...
成都大数据Hadoop与Spark技术培训班
成都大数据Hadoop与Spark技术培训班中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师.开 ...
python大数据课程培训大纲
一.大数据处理技术-基于Hadoop/Yarn的实战(含Spark.Storm和Docker应用介绍 ) 本课程从大数据技术以及Hadoop/Yarn实战的角度,结合理论和实践,全方位地介绍Hadoo ...
大数据实时处理-基于Spark的大数据实时处理及应用技术培训
随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫 ...
大数据课程体系-学习笔记概要
目录目录大数据课程体系简介学习阶段不定时更新大数据课程体系简介作为一名物联网工程专业的学生,对于大数据有着不同寻常的热情,在有了一定的Android基础和J2EE基础后,希望学习更多的数 ...
不错的大数据课程体系（感谢某机构，希望不属于侵权）
2019独角兽企业重金招聘Python工程师标准>>> 阶段一.大数据.云计算 - Hadoop大数据开发技术课程一.大数据运维之Linux基础本部分是基础课程,帮大家进入大数据 ...
打包带走极客时间大数据课程的正确姿势
"如何持续学习大数据 ,实现高效进阶?" 经常有读者让我推荐学习资源,非常开心大家能一直保持学习的习惯.其实不仅仅是大数据工程师需要学习大数据,每个软件工程师都应该学习一些大数据知 ...

最新文章

热门文章