本篇教程探讨了大数据技术之Spark mllib 逻辑回归,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。

逻辑回归

逻辑回归其实是一个分类算法而不是回归算法。通常是利用已知的自变量来预测一个离散型因变量的值(像二进制值0/1,是/否,真/假)。简单来说,它就是通过拟合一个逻辑函数(logit fuction)来预测一个事件发生的概率。所以它预测的是一个概率值,自然,它的输出值应该在0到1之间。

假设你的一个朋友让你回答一道题。可能的结果只有两种:你答对了或没有答对。为了研究你最擅长的题目领域,你做了各种领域的题目。那么这个研究的结果可能是这样的:如果是一道十年级的三角函数题,你有70%的可能性能解出它。但如果是一道五年级的历史题,你会的概率可能只有30%。逻辑回归就是给你这样的概率结果。

Logistic回归简单分析

优点:计算代价不高,易于理解和实现

缺点:容易欠拟合,分类精度可能不高

适用数据类型:数值型和标称型数据

package com.immooc.sparkimport org.apache.spark.mllib.classification.{LogisticRegressionModel, LogisticRegressionWithLBFGS}import org.apache.spark.mllib.evaluation.MulticlassMetricsimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.util.MLUtilsimport org.apache.spark.{SparkConf, SparkContext}object logistic_regression {  def main(args: Array[String]): Unit = {    val conf = new SparkConf().setAppName("LogisticRegressionWithLBFGSExample").setMaster("local[2]")    val sc = new SparkContext(conf)    // $example on$    // Load training data in LIBSVM format.    val data = MLUtils.loadLibSVMFile(sc, "file:///Users/walle/Documents/D3/sparkmlib/wa.txt")    // Split data into training (60%) and test (40%).    val splits = data.randomSplit(Array(0.6, 0.4), seed = 11L)    val training = splits(0).cache()    val test = splits(1)    // Run training algorithm to build the model    val model = new LogisticRegressionWithLBFGS()      .setNumClasses(10)      .run(training)    // Compute raw scores on the test set.    val predictionAndLabels = test.map { case LabeledPoint(label, features) =>      val prediction = model.predict(features)      (prediction, label)    }    val print_predict = predictionAndLabels.take(20)    println("prediction" + "\t" + "label")    for (i

0 1:59 2:2 3:43.4 4:2 5:10 1:36 2:1 3:57.2 4:1 5:10 1:61 2:2 3:190 4:2 5:11 1:58 2:3 3:128 4:4 5:31 1:55 2:3 3:80 4:3 5:40 1:61 2:1 3:94 4:4 5:20 1:38 2:1 3:76 4:1 5:10 1:42 2:1 3:240 4:3 5:20 1:50 2:1 3:74 4:1 5:10 1:58 2:2 3:68.6 4:2 5:20 1:68 2:3 3:132.8 4:4 5:21 1:25 2:2 3:94.6 4:4 5:30 1:52 2:1 3:56 4:1 5:10 1:31 2:1 3:47.8 4:2 5:11 1:36 2:3 3:31.6 4:3 5:10 1:42 2:1 3:66.2 4:2 5:11 1:14 2:3 3:138.6 4:3 5:30 1:32 2:1 3:114 4:2 5:30 1:35 2:1 3:40.2 4:2 5:11 1:70 2:3 3:177.2 4:4 5:31 1:65 2:2 3:51.6 4:4 5:40 1:45 2:2 3:124 4:2 5:41 1:68 2:3 3:127.2 4:3 5:30 1:31 2:2 3:124.8 4:2 5:3

输出

prediction label0.0 0.00.0 1.00.0 0.00.0 0.01.0 1.00.0 0.01.0 1.00.0 0.00.0 1.00.0 0.00.0 1.00.0 0.00.0Accuracy = 0.75

本文由职坐标整理发布,学习更多的大数据技术相关知识,请关注职坐标大技术云计算大技术技术频道!

mllib逻辑回归 spark_大数据技术之Spark mllib 逻辑回归相关推荐

  1. 大数据技术之Spark(一)——Spark概述

    大数据技术之Spark(一)--Spark概述 文章目录 前言 一.Spark基础 1.1 Spark是什么 1.2 Spark VS Hadoop 1.3 Spark优势及特点 1.3.1 优秀的数 ...

  2. 大数据技术之Spark Streaming概述

    前言 数据处理延迟的长短 实时数据处理:毫秒级别 离线数据处理:小时 or 天 数据处理的方式 流式(streaming)数据处理 批量(batch)数据处理 spark Streaming也是基于s ...

  3. 大数据技术,Spark核心技术之运行原理

    在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位. Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势.无论是性能,还是方案的统一 ...

  4. 05_大数据技术之Spark内核解析(1.1)

    1. Spark 内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制.Spark任务调度机制.Spark内存管理机制.Spark核心功能的运行原理等,熟练掌握Spa ...

  5. 大数据技术之Spark(三) SparkStreaming

    文章目录 第1章 SparkStreaming 概述 1.1 Spark Streaming 是什么? 1.2 为什么要学习Spark Streaming(特点) 1.3 Spark Streamin ...

  6. 编写一个脚本判断某个用户是否处在活动模式_大数据技术之Spark内核解析(二)Spark 部署模式...

    Spark支持3种集群管理器(Cluster Manager),分别为: 1. Standalone:独立模式,Spark原生的简单集群管理器,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他 ...

  7. python消费kafka逻辑处理导致cpu升高_大数据技术之一次KAFKA消费者异常引起的思考...

    本篇教程探讨了大数据技术之一次KAFKA消费者异常引起的思考,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入. 问题描述: 线上出现一台服务器特别慢,于是关闭了服务器上的kafka ...

  8. 《大数据》杂志——大数据技术发展的十个前沿方向(中)

    大数据技术发展的十个前沿方向(中) 吴甘沙 英特尔中国研究院 doi:10.11959/j.issn.2096-0271.2015034 Ten Fronties for Big Data Techn ...

  9. 大数据技术系列(1)

    大数据技术概述   转载于:https://younger.blog.csdn.net/article/details/127632128?spm=1001.2014.3001.5502 仅仅作为个人 ...

最新文章

  1. oracle 11g完全安装教程(CentOS)
  2. Windows核心编程 第八章 用户方式中线程的同步(下)
  3. OSError: [Errno 22] Invalid argument:**
  4. 特斯拉一次把电池容量翻了5倍,新车2秒破百,续航超800公里,公司股价却跌了...
  5. java调试报告_java实验一报告
  6. 后端分页神器,mybatis pagehelper 在SSM与springboot项目中的使用
  7. java.lang.UnsupportedClassVersionError : Unsupported major.minor version 52.0
  8. MFC API 设置Excel单元格格式
  9. Python基础学习之正则表达式(完整版)
  10. MAML代码及理论的深度学习 PyTorch二阶导数计算
  11. 鸿蒙手机如何录屏,两种方式教你如何在微信时录制屏幕视频。
  12. python大驼峰_匈牙利法、大小驼峰法(两种编程命名规则)
  13. windows10自动修复无法开机
  14. PHP开发手机自动拨号软件
  15. 华为 CE系列交换机配置radius认证
  16. 极大化思想/悬线法题集
  17. JAVA学习笔记—JAVA SE(四)JAVA核心库类(下)
  18. Java的时代依然还在,合格的Java工程师成为紧缺人才
  19. mc正版中国服务器,OurCraft Minecraft 服务器
  20. 华清远见星创客:未来智造者

热门文章

  1. 2017职称计算机303,2017职称计算机考试WPS_Office检测练习及答案3
  2. 深圳2019四年java工资_涨了!2019年深圳工资指导价出炉!这些职业月薪高......
  3. ppt提示内存或系统资源不足_苹果iPhone手机内存不足怎么办?手机内存不足怎么处理?苹果手机提示内存不足怎么办?...
  4. 品质qc工程图_产品QC工程图
  5. AI教程:线条花制作方法
  6. redis java zset_Redis从入门到放弃系列(五) ZSet
  7. linux下的那个男人,由英文转换中文的man手册方法!
  8. matlab根据行列标题索引表格数据
  9. 电子商务中:B2C、B2B、C2B、C2C、O2O、P2P
  10. OpenStack Icehouse私有云实战部署