大数据Hadoop/Spark生态圈技术在公司中的运用

1.1 分布式集群存储、分布式集群运算、安全高效稳定灵活（技术部门需要）

一句话概括：一台电脑存不过来的数据多台一块来存，一台电脑算得慢的数据多台同时来算，存储安全、计算高效、运行稳定、开发灵活。（针对海量数据存储与分析的需求）

1.2 日志点击流系统（可研发产品）

通过搜集公司现有系统中的用户行为日志（包括搜索日志、浏览日志、交易日志）及用户信息（IP、手机型号、屏幕尺寸等）,作为网站运营的眼睛,分析网站来访者的各项指标。

适用产品（门户网站、电商系统、社交系统）

模块介绍	描述
用户基本信息分析模块	包括但不限于新增用户，活跃用户，总用户，访问时长分析等
浏览器信息分析模块	以用户客户端类型、客户端屏幕尺寸的维度分析各项浏览指标
地域信息分析模块	主要分析各个不同省份的用户情况，包括访问数量、活跃数量等
用户浏览深度分析模块	主要分析用户的访问页面的深度，跳出率，访问偏好等
外链数据分析模块	分析各个不同外链端带来的用户访问量数据、统计访问来源
交易分析模块	订单的相关情况（若系统包含线上交易模块）
事件分析模块	统计用户的鼠标点击数据、页面屏幕坐标点击或手机触摸位置等

数据来源

字段描述	描述
用户IP地址	根据IP查询访客的归属地
用户访问时间	根据访问时间统计访问时长
用户客户端型号	访客的手机型号
用户客户端分辨率	访客的手机尺寸
访问跳转地址	访客的访问地址
访问来源地址	访客的来源网站

场景案例

1.3 “物品”推荐系统（可研发产品）

在物品和用户之间自动建立信息的桥梁，旨在于帮助用户发现他们感兴趣的信息，也能将信息推送给对它们感兴趣的用户。

图 1 给出了推荐引擎的工作原理图，这里先将推荐引擎看作黑盒，它接受的输入是推荐的数据源，一般情况下，推荐引擎所需要的数据源包括：

要推荐物品的元数据，例如主题，形式，价格等；

系统用户的基本信息，例如性别，年龄，收入等

用户对物品的偏好，根据物品业务属性的不同，可能包括游客对物品的评分，用户关注物品的记录，用户的曾经消费过的物品等记录。

基于人口统计学的推荐机制

从图中可以很清楚的看到，首先，系统对每个用户都有一个用户 Profile 的建模，其中包括用户的基本信息，例如用户的年龄，性别等等；然后，系统会根据用户的 Profile 计算用户的相似度，可以看到用户 A 的 Profile 和用户 C 一样，那么系统会认为用户 A 和 C 是相似用户，在推荐引擎中，可以称他们是“邻居”；最后，基于“邻居”用户群的喜好推荐给当前用户一些物品，图中将用户 A 喜欢的物品 A 推荐给用户 C。

基于物品内容的推荐机制

从例图中电影推荐系统，首先需要对电影的元数据有一个建模，这里只简单的描述了一下电影的类型；然后通过电影的元数据发现电影间的相似度，因为类型都是“爱情，浪漫”电影 A 和 C 被认为是相似的电影（当然，只根据类型是不够的，要得到更好的推荐，我们还可以考虑电影的导演，演员等等）；最后实现推荐，对于用户 A，他喜欢看电影 A，那么系统就可以给他推荐类似的电影 C。

基于用户的协同过滤推荐机制

基于物品的协同过滤推荐机制

适用产品（门户网站文章推荐，商盟、小猪CMS系统商品推荐）

1.4 公司业务系统（架构升级）

（数据随时间推移而量大，运算程序随需求增加而增多，实时并发量高）

1.5 舆情监测系统（接口接入）

1.定向感知用户关心的信息，用户只需设置关键词，即可实现对全互联网的信息进行监测、将关键字相关的信息进行自然语言分析处理。

（使用网络爬虫工具、百度AI自然语言分析接口等）

2.定向爬取各省市县旅游政务咨询网站的信息（包括文章、评论、商品信息等），

将文章存储后做数据挖掘分析。

1.6 景区游客大屏系统（产品研发）

景区门口针对游客的大屏数据看板

景区门口，给游客展示的大屏数据看板，包括景区实时人均消费、交通、停车、客流、为游客的游览和消费提供数据参考。

按日展示人均消费，游客景区内消费指导价