1 ,可以采用的技术 :选哪种方式都行,我们都用用

  1. RDD
  2. DataFrame
  3. DataFrame + RDD
  4. DataSet

2 ,需求 :

  1. 某电影 : 男性不同年龄观看者人数
  2. 某电影 : 女性不同年龄观看者人数
  3. 所有电影 : 评分最高的 topN
  4. 最流行电影 : 观看人数最多 topN
  5. 最流行电影 : 男生观看人数最多 topN
  6. 最流行电影 : 女生观看人数最多 topN
  7. 微信用户最喜欢的电影 : topN
  8. 淘宝用户最喜欢的电影 : topN
  9. 二次排序

3 ,电影评级 : 项目历史

  1. 发起者 : 美国明尼苏达大学
  2. 目的 : 学术研究
  3. 数据在哪里 :
    https://grouplens.org/datasets/movielens/
  4. 这个网站中有很多种数据,大小不等,我们选择适合我们的数据,开发使用

4 ,我们使用哪个数据 : 中等规模的数据量

1 ,spark 电影点评项目 : 简介,项目历史 ,元数据下载 ,电影数据集网站 ( 非常好的网站 )相关推荐

  1. Spark商业案例与性能调优实战100课》第3课:商业案例之通过RDD分析大数据电影点评系各种类型的最喜爱电影TopN及性能优化技巧

    Spark商业案例与性能调优实战100课>第3课:商业案例之通过RDD分析大数据电影点评系各种类型的最喜爱电影TopN及性能优化技 源代码 package com.dt.spark.coresi ...

  2. python下载电影视频_python爬虫:抓取下载电影文件,合并ts文件为完整视频

    目标网站:https://www.88ys.cc/vod-play-id-58547-src-1-num-1.html 反贪风暴4 对电影进行分析 我们发现,电影是按片段一点点加载出来的,我们分别抓取 ...

  3. 基于MUI的电影新闻的webapp项目开发

    写在前面:之前,本人在自学webapp的过程中,一直没有找到一份比较完整的开发步骤文档,都是一些零零散散的文档,走了很多弯路,也耽误了很多的时间,其中尝试了多种框架,感觉MUI这种H5+的模式是比较适 ...

  4. 数据货币交易所项目——(1)项目简介

    文章目录 1.项目简介 1.1.项目特色 2.技术选型 2.1.后台技术 2.2.前端技术 2.2.1.后台管理系统 2.2.2 前台系统 2.2.3 移动全栈 3.了解SpringCloud体系 4 ...

  5. spark dataframe和dataSet用电影点评数据实战

    RDD 优点: 编译时类型安全  编译时就能检查出类型错误 面向对象的编程风格  直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销  无论是集群间的通信, 还是IO操作都需要对对象的 ...

  6. h2o.ai源码解析(1)—项目简介

    h2o.ai项目简介 参考h2o.ai官网中给出的项目定位是"open source platform for AI".相较于当前市面上的机器学习平台,h2o.ai的优势在于: - ...

  7. 基于Spark实现电影点评系统用户行为分析—RDD篇(一)

    文章目录 1.项目背景 2.数据描述 3.代码实现 1.项目背景 电影推荐系统(MovieLens)是美国明尼苏达大学(Minnesota)计算机科学与工程学院的GroupLens项目组创办的,是一个 ...

  8. Python+Django+Mysql实现在线电影推荐系统 基于用户、项目的协同过滤推荐在线电影系统 代码实现 源代码下载

    Python+Django+Mysql实现在线电影推荐系统(基于用户.项目的协同过滤推荐算法) 一.项目简介 1.开发工具和实现技术 pycharm2020professional版本,python3 ...

  9. Day01 数据仓库项目简介

    Day01 数据仓库项目简介 文章目录 Day01 数据仓库项目简介 一.项目简介及需求 1. 数据仓库概念 2. 项目需求以及架构设计 二.技术选型.框架选型.集群规模等 1. 项目技术如何选型? ...

最新文章

  1. 一网打尽当下NoSQL类型、适用场景及使用公司
  2. 2021 CSDN年度回忆录
  3. 马斯克Neuralink联合创始人宣布离职,此前尚未推出上市产品
  4. 北京普源示波器常见问题
  5. Python之深入解析优秀的时间格式转换工具Delorean
  6. 音视频技术开发周刊 | 150
  7. 从FM推演各深度学习CTR预估模型
  8. Android官方开发文档Training系列课程中文版:管理Activity的生命周期之暂停和恢复Activity
  9. 容器编排技术 -- Kubernetes StatefulSets
  10. Activiti 学习笔记记录(2016-8-31)
  11. python程序打包_python之程序打包
  12. 想要做音乐玩音乐,有这一个软件就够了!
  13. 用TreeWalk提高网速及其在vista中的安装方法
  14. 【为什么电脑插上HDMI线之后,电脑没有了声音解决方案】
  15. 黑马程序员Node.js全套入门教程的学习笔记
  16. 百度云重置服务器密码,单台或多台腾讯云服务器 CVM 重置实例密码教程
  17. Y7000p的自带锁屏壁纸位置
  18. hive:函数:日期比较函数:获取当前日期 + date_add + date_sub函数获取前几天或后几天的日期
  19. 用我们的奋斗和梦想扬起青春的船帆
  20. Linux系统的简易命令(三)

热门文章

  1. 商汤科技、星宸科技、大华、帷幄匠心、联影医疗、深信服、亿联网络等2021校招面试总结
  2. 哈工大软件构造实验2
  3. nginx视频在线播服务器,Windows环境上用jwplayer+Nginx搭建视频点播服务器
  4. 2022-09-11-cloud-init
  5. 线程同步的注解:@ThreadSafe、@Immutable、@NotThreadSafe、@GuardedBy
  6. 面试文员计算机水平考题,文员面试的考题主要有那些?
  7. 大数据晋级之路(5)Hadoop,Spark,Storm综合比较
  8. 在Power BI中对Error值进行替换
  9. smartctl获取raid卡下intel ssd寿命
  10. 尼尧的面试日记:面试记录(四)