大数据Hadoop/Spark生态圈技术在公司中的运用
1.1 分布式集群存储、分布式集群运算、安全高效稳定灵活(技术部门需要)
一句话概括:一台电脑存不过来的数据多台一块来存,一台电脑算得慢的数据多台同时来算,存储安全、计算高效、运行稳定、开发灵活。(针对海量数据存储与分析的需求)
1.2 日志点击流系统(可研发产品)
通过搜集公司现有系统中的用户行为日志(包括搜索日志、浏览日志、交易日志)及用户信息(IP、手机型号、屏幕尺寸等),作为网站运营的眼睛,分析网站来访者的各项指标。
适用产品(门户网站、电商系统、社交系统)
模块介绍 |
描述 |
用户基本信息分析模块 |
包括但不限于新增用户,活跃用户,总用户,访问时长分析等 |
浏览器信息分析模块 |
以用户客户端类型、客户端屏幕尺寸的维度分析各项浏览指标 |
地域信息分析模块 |
主要分析各个不同省份的用户情况,包括访问数量、活跃数量等 |
用户浏览深度分析模块 |
主要分析用户的访问页面的深度,跳出率,访问偏好等 |
外链数据分析模块 |
分析各个不同外链端带来的用户访问量数据、统计访问来源 |
交易分析模块 |
订单的相关情况(若系统包含线上交易模块) |
事件分析模块 |
统计用户的鼠标点击数据、页面屏幕坐标点击或手机触摸位置等 |
数据来源
字段描述 |
描述 |
用户IP地址 |
根据IP查询访客的归属地 |
用户访问时间 |
根据访问时间统计访问时长 |
用户客户端型号 |
访客的手机型号 |
用户客户端分辨率 |
访客的手机尺寸 |
访问跳转地址 |
访客的访问地址 |
访问来源地址 |
访客的来源网站 |
场景案例
1.3 “物品”推荐系统(可研发产品)
在物品和用户之间自动建立信息的桥梁,旨在于帮助用户发现他们感兴趣的信息,也能将信息推送给对它们感兴趣的用户。
图 1 给出了推荐引擎的工作原理图,这里先将推荐引擎看作黑盒,它接受的输入是推荐的数据源,一般情况下,推荐引擎所需要的数据源包括:
要推荐物品的元数据,例如主题,形式,价格等;
系统用户的基本信息,例如性别,年龄,收入等
用户对物品的偏好,根据物品业务属性的不同,可能包括游客对物品的评分,用户关注物品的记录,用户的曾经消费过的物品等记录。
基于人口统计学的推荐机制
从图中可以很清楚的看到,首先,系统对每个用户都有一个用户 Profile 的建模,其中包括用户的基本信息,例如用户的年龄,性别等等;然后,系统会根据用户的 Profile 计算用户的相似度,可以看到用户 A 的 Profile 和用户 C 一样,那么系统会认为用户 A 和 C 是相似用户,在推荐引擎中,可以称他们是“邻居”;最后,基于“邻居”用户群的喜好推荐给当前用户一些物品,图中将用户 A 喜欢的物品 A 推荐给用户 C。
基于物品内容的推荐机制
从例图中电影推荐系统,首先需要对电影的元数据有一个建模,这里只简单的描述了一下电影的类型;然后通过电影的元数据发现电影间的相似度,因为类型都是“爱情,浪漫”电影 A 和 C 被认为是相似的电影(当然,只根据类型是不够的,要得到更好的推荐,我们还可以考虑电影的导演,演员等等);最后实现推荐,对于用户 A,他喜欢看电影 A,那么系统就可以给他推荐类似的电影 C。
基于用户的协同过滤推荐机制
基于物品的协同过滤推荐机制
适用产品(门户网站文章推荐,商盟、小猪CMS系统商品推荐)
1.4 公司业务系统(架构升级)
(数据随时间推移而量大,运算程序随需求增加而增多,实时并发量高)
1.5 舆情监测系统(接口接入)
1.定向感知用户关心的信息,用户只需设置关键词,即可实现对全互联网的信息进行监测、将关键字相关的信息进行自然语言分析处理。
(使用网络爬虫工具、百度AI自然语言分析接口等)
2.定向爬取各省市县旅游政务咨询网站的信息(包括文章、评论、商品信息等),
将文章存储后做数据挖掘分析。
1.6 景区游客大屏系统(产品研发)
景区门口针对游客的大屏数据看板
景区门口,给游客展示的大屏数据看板,包括景区实时人均消费、交通、停车、客流、为游客的游览和消费提供数据参考。
按日展示人均消费,游客景区内消费指导价
大数据Hadoop/Spark生态圈技术在公司中的运用相关推荐
- 成都大数据Hadoop与Spark技术培训班
成都大数据Hadoop与Spark技术培训班 中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师.开 ...
- 大数据Hadoop生态圈介绍
大数据Hadoop生态圈-组件介绍 Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠.高效.可伸缩等特点. Hadoop的核心组件是HDFS.MapReduce.随着处理任务不同,各种 ...
- 大数据hadoop,spark数据分析之 基于大数据平台的运营商在线服务系统设计
今天向大家介绍一个帮助往届学生完成的毕业设计项目,大数据hadoop,spark数据分析之 基于大数据平台的运营商在线服务系统设计. 基于大数据平台的运营商在线服务系统设计 随着通信行业的业务拓展以及 ...
- 涵盖从java入门到深入架构,Linux、云计算、分布式、大数据Hadoop、ios、Android、互联网技术应有尽有
[涵盖从java入门到深入架构,Linux.云计算.分布式.大数据Hadoop.ios.Android.互联网技术应有尽有] 1.javascript视频教程 链接: http://pan.baidu ...
- 大数据Hadoop之——Spark SQL+Spark Streaming
文章目录 一.Spark SQL概述 二.SparkSQL版本 1)SparkSQL的演变之路 2)shark与SparkSQL对比 3)SparkSession 三.RDD.DataFrames和D ...
- 大数据hadoop和spark怎么选择?
Hadoop框架的主要模块包括如下: Hadoop Common Hadoop分布式文件系统(HDFS) Hadoop YARN Hadoop MapReduce 虽然上述四个模块构成了Hadoop的 ...
- Hadoop数据工程师_大数据Hadoop技术好学吗
在大数据技术体系当中,Hadoop无疑是占据着非常重要的位置.从2005年Hadoop项目诞生开始,到如今发展到相对成熟稳定的阶段,Hadoop技术在大数据处理当中的重要性无疑是值得关注的,很多企业也 ...
- 大数据+Hadoop集群学习
文章目录 1.课前资料 2.课程整体介绍 3.大数据介绍 什么是大数据? 为什么要学习大数据? 大数据相关技术 海量数据存储 海量数据清洗 海量数据处理 4.集群环境准备 4.1准备虚拟机 4.2修改 ...
- 2021年大数据Hadoop(三十):Hadoop3.x的介绍
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Hadoop3.x的介绍 介绍 Hadoop 3.0新特性 ...
最新文章
- Android SurfaceView 的应用
- linux命令查看几位,Linux每周几个命令(一)--查找篇
- 程序员的一个好习惯,你有几个?
- np.stack()函数详解 ==>堆叠 【类似于torch.stack()】
- epic打开一直闪_教你用意派Epub360做酷炫的快闪H5!(附快闪H5模板)
- 虚拟机virtualBox
- vmware中nat模式上网
- 英语语法总结--动词的时态
- 员工股权激励方案设计
- 宝塔面板搭建方维直播图文教程
- bilibili视频格式m4s批量转换为mp3,mp4
- 【论文精读】2016-CVPR-Learning temporal regularity in video sequences
- 坚持写博客以来的感受和改变
- 认真学习数据结构之B/B+/B*树
- CSC7715 同步整流
- 贝叶斯分类的原理及流程
- 索尼的hlg是什么_索尼HLG的使用方法
- 百度AI攻略:植物识别
- IPCamera监控软件如何支持joystick遥控手柄控制云台
- USB Mass Storage协议