3年以前,一个统计分析领域的专家曾经告诉笔者,GOOGLE和百度,在技术上足够做到分析你是一个男人还是一个女的,当时听起来感觉几乎不可能的事情。

  07年在搜索引擎研究领域出现过一张并不是很清晰的Google和百度的鼠标点击热图(如下),图的出处未知,让笔者很是惊讶,从图中可以看出Google和百度用户行为的显著区别,也可以看出在这两个搜索引擎中排名网站的流量分配的大概情况。甚至,笔者联想到如果统计了用户鼠标行为的轨迹分析,足够分析访问百度和Google用户群体的人口统计学方面的信息,比如:访客的性别、年纪等等。笔者所在的公司一直致力于数据挖掘课题的研究,深知如果一定程度上对用户鼠标行为进行分析的话,只要找到准确的算法,是可以很明显的分辨出男性和女性在浏览同一个网页时所表现出的不同的习惯特征。这是所有基于数据行为做识别的人的共识。
[img]http://www.admin5.com/upimg/userup/35480/354P0F01010P00002b9.gif[/img]
百度和GOOGLE在互联网上,具备绝对的优势,他们甚至可以统计和分析用户的鼠标行为特点(如上图)。对于普通的站长,很明显,这些前沿的统计数据几乎无法从传统统计器中获得,捕捉到用户在某网页上的点击事件也许并不是一个很难的事情,但是如果是要获得用户的鼠标点击热区以及鼠标在页面上滑动的轨迹,就不是件容易的事情了,尤其是对用户鼠标滑动轨迹的分析,这个更不是一般的统计系统可以做到的,这些滑动轨迹几乎是一个天文数据,分析这些需要极其强大的计算能力,并非国内一个个人统计系统计算能力可以达到的。

  目前国内的统计市场,新的入伙人有百度、雅虎,还有一个一直在中国统计器市场名不见声响的GOOGLE,这些巨无霸也都试图瓜分这个市场,他们的意图很明显,建立一个服务于自己的体系,同时利用庞大的个人站点获取大量的用户行为特征。传统的个人网站统计,目前也是三分天下。但是笔者无意中看到的一张图,让笔者不得不再次审视这个似乎已经各自为政,三分天下的统计领域。

  下图是笔者无意中获得的一张用户行为分析图,竟然是国内某家并不知名的小个人站点上的数据,笔者在这个小小的美女图片站上发现了一行陌生的统计代码,这个代码的链接很明显的反应出另一个似乎也是统计类的站点,但是很郁闷的是,笔者顺着这个链接,并没有找到这个站点的任何资料,似乎这个站点刻意的隐藏了自己。出于本身的职业习惯,后来笔者找到了这个小站站长的QQ,后来在和这个美女图片的个人站长交流中才知道,中国科学院下面的一个庞大的技术团队正在试图将他们手上的数据分析技术平民化,他们测试使用的域名正是这行统计代码中的域名。后来,征得该站长的同意,笔者将一些该站数据截图显示如下:

  访客性别分布、访客年纪分布、访客人均收入分析、访客鼠标热区图:

[img]http://www.admin5.com/upimg/userup/35480/354P0F01010P00003617.gif[/img]
[img]http://www.admin5.com/upimg/userup/35480/354P0F01010P00001T6.gif[/img]
 从以上资料笔者看到,鼠标行为分析———统计器的另一场革命正在悄然地开始。似乎中科院计算所的小伙子们在鼠标轨迹分析上有了不小的突破,但是不清楚他们原始的统计数据来自何方。茫茫的互联网,可能某个屏幕后面深藏着一双双智慧的眼睛,他们正在孕育着新的革命。

  在这个个人站长的介绍下,后来笔者联系上了中科院计算所里一位负责该项目的小伙子。在QQ上和他谈到统计,他提到了一些新的概念,让我这个一直从事于互联网统计分析的所谓“行家”汗颜。他把传统的统计,归为第一代统计。在他看来,第一代统计器只是实现了对简单数据的统计,比如:统计PV、IP等,最多再统计到了一些URL的点击次数等,但这些统计仅仅只是局限在一个数据的层面上。在飞跃发展的互联网的今天,一个数据层面上的统计器,对站长分析站点时,提供的帮助是极其有限的。一个单一的PV、IP数据,一个简单的关键词列表,在这些数据罗列的背后,实际上其中缺少了相当重要的概念,那就是这些统计的URL背后人的概念。目前所有的统计器似乎都没有认识到这一点,任何网站上任何一次点击的诞生,都是由人的行为决定。一谈到这些,这位中科院年轻的小伙子就有止不住的话往外倒。生怕笔者不明白还特意给举了例子,比如:我的网站有1000人访问,这个人群到底具备什么样子的特征?他们到底点击了我网站的那些位置?其中是男性多,还是女性多,他们的年纪分布是怎样的?和地域到底有什么样的关系?还有,他们共同的行为特征是什么?这些在他看来,都是具备非常大的价值的,这些信息比传统的PV、IP数字更加让人看清楚访问网站的人群是什么样子。最后,谈话快结束的时候,这位小伙子还透漏给笔者,他们现在对于用户人口统计学方面的信息已经基本成熟,接下来他们要挑战的是用户心理学方面的统计。在他们看来,人类的所有行为都离不开心理,换句话说,人类的行为只是心理的一个外在表现。只有真正分析出了用户的心理行为才能更有效的掌握用户行为,这才是统计器发展的最终境界。

  当笔者看完这段文字之后,完完全全被震撼住了,甚至差点忘了给一个回复,脑海里止不住地在想象这将是怎样可怕的统计器,而这群敢想敢做、年轻又富有朝气的中科院的小伙子又将是怎样的一个团队,他们拥有着超人类般的创造力。如果有机会的话,笔者真希望能和他们当面谈谈关于统计器的过去和未来。

  最后,笔者衷心希望中科院研发的这款统计器能早日开放,为流量分析市场注入新的活力,为广大的站长朋友们提供一个全新的统计服务。

数据之美 百度GOOGLE统计的秘密相关推荐

  1. 百度云api android,帮助文档首页/百度移动统计API/百度移动统计 Android版SDK - 百度开放云平台...

    百度移动统计SDK 一.简介 百度移动统计SDK(Android)是百度官方推出的移动统计SDK在Android平台上的版本(以下简称SDK).SDK的发行版本(完整下载包为android.zip)中 ...

  2. 数学之美 系列一 -- 统计语言模型

    数学之美 系列一 -- 统计语言模型 Posted on 2009-09-11 14:54 小y 阅读(576) 评论(0) 编辑 收藏  发表者: 吴军, Google 研究员 前言 也许大家不相信 ...

  3. baidu+app+per+android,百度移动统计|移动应用APP统计|android统计分析|iOS统计分析

    SDK快速接入(Objective C)#内附接入视频# SDK快速接入(Objective C)#内附接入视频# iOS SDK快速接入视频 1. 下载SDK 2.创建一个新的XCode iOS开发 ...

  4. 《Excel 数据之美--科学图表与商业图表的绘制》

    作者介绍     张杰 , 纺织专业的程序猿: 热爱数据可视化的数字图像科研狗: 理工科背景的文艺逗逼青年: 学术研究方向为颜色测量与分析,喜欢研究和对比R.Python.Tableau.D3.js. ...

  5. 【阅读】数据之美,一本书学会可视化设计

    这里把<数据之美,一本书学会可视化设计>的摘抄分享下吧,图示上有不清晰的地方还请包容. 你真的理解数据了吗? 对原始数据了解得越多,打造的基础就越坚实,也就越可能制作成令人信服的数据图表. ...

  6. 【数据可视化】数据之美---揭密优雅的数据解决方案背后的故事

    有时抛弃一些数据会使可视化效果更美丽. 在寻找设备方面,第一,如果要为数据可视化寻找设备,那么要找遍每个地方.有很多令人兴奋的传感技术被开发出来但却从来未被使用过.如果你准备启动一个可视化项目,首先在 ...

  7. 数据之美(五):美不胜收的数据图(上)

    这是<数据之美>系列的第五篇,本文搜集了更多令人叹为观止的数据图(Infographics),展示了那些原本枯燥的数据,在转换为可视化图表之后令人目不暇接的美丽.数据之美系列的前四篇请参阅 ...

  8. 百度android sdk聚合,SDK接入 · 百度移动统计Android SDK使用手册

    可视化圈选SDK接入 SDK简介 百度移动统计无埋点SDK是在现有的手动埋点SDK上的一个功能升级.结合了所有手动埋点的优势,同时避免了手动埋点的繁琐过程.实现了一行代码接入,配合WEB端圈选,完成页 ...

  9. 数据之美(九):50个精美绝伦的 Infographics(下)

    Infographics 是数据,信息,知识的视觉阐述.按 Rick Mans 的说法,Infographics 是所有图形设计中最具挑战性的工作,你需要漫长的数据收集过程,而将这些数据转换为令人过目 ...

最新文章

  1. 在Android上实现HttpServer
  2. boost::geometry::wkt用法的测试程序
  3. 容器学习 之 安装docker(二)
  4. SAP UI5 应用开发教程之三十九 - SAP UI5 应用出现白屏的一些常见错误和分析方法分享试读版
  5. Angular开发遇到的一个错误消息 - Expected linebreak to be LF(和本地文件的换行设置有关)
  6. 【技巧】Chrome应用技巧
  7. Jetson AGX Xavier配置cuDNN流程
  8. Android 开发总结大全
  9. glMatrixMode()函数
  10. 网易云计算机系统有限公司,网易云音乐官方电脑版
  11. java 数独 gui,GitHub - fagen/sudoku: 数独终局生成器和GUI
  12. python训练模型一直循环怎么办_用pycharm编写程序进行模型训练时总是有memory error错误,如何解决?...
  13. 敏捷史话(一):用一半的时间做两倍的事——Scrum之父Jeff Sutherland的传奇人生
  14. 淘宝CDN架构全解析
  15. python函数由什么组成_python的函数
  16. FP7195大功率零压差全程无频闪调光DC-DC恒流芯片(兼容调光器:PWM调光,无极调光,0/1-10V调光)
  17. 【OpenCV-Python】5.OpenCV的图形用户界面窗口控制
  18. Python 网络爬虫:Selenium 好买基金网
  19. 计算机网络——DNS域名解析服务器原理
  20. Motoman机器人离线编程——Motocom32开发简介

热门文章

  1. 现代控制系统第十二版 中文pdf_推荐一款好用的在线翻译PDF的软件!
  2. 海尔 T68D笔记本 [待续]
  3. 四、Java NIO Selector
  4. 如何将数据分析的时效性提升 30 倍?
  5. linux rwx 权限
  6. ERA5 积雪 降雪 区别_漠河降雪量已达入秋最大级别 气象专家提醒出门注意安全防范_热点...
  7. MSP430FE427IPMR超低功耗微控制器
  8. Android 读取string.xml到EXCEL表格
  9. ceph iscsi
  10. MinGW安装与环境变量配置和Sublime Text 3搭建C++编译环境