一、引言

随着电子商务不断发展,越来越多的商家进入了网购市场,特别是淘宝这平台,网上购物给人们带来的方便越来越突出,越来越多的人成为网购的忠实粉丝。网络商家得到的客户信息也随之增加,客户信息对于企业来说是最为重要的价值,它对客户消费行为的把握,影响企业的经营行为。如何才能吸引客户、保留客户呢?应用数据挖掘技术,能够有效的帮助企业管理客户,提供市场决策信息。

二、  基本概念

什么是数据挖掘呢?简单地说,数据挖掘是从大量的数据中,提取出或“挖掘”潜在的、有价值的知识、模型或规则的过程。对于淘宝卖家而言,数据挖掘有助于发现业务的趋势,预测未知的结果。这种意义上,数据挖掘就是财富。

三、数据挖掘在淘宝CRM中的应用。

数据挖据按期功能来划分,主要有关联、分类和预测、聚类等,本文主要讨论预测这个功能。一般来说,这类问题可以用回归分析统计技术建模,许多问题可以用线性回归解救额,并且更多的可以对变量进行变换,使得非线性问题可以转化为线性的来加以处理。

一元线性回归分析

在线性回归中,最简单的模型就是一元线性回归。设随机变量Y依赖于自变量x,做n次独立实验,得n对观测值(x1,y1),(x2,y2),…..(xn,yn)。称这n对观测值为容量为n的一个字样,若把这n个观测值作为n个子样点描在平面直角坐标系中,得到试验的散点图。散点图可以帮助我们直观地分析变量之间的大致关系。当点大致的分布在一条直线周围的时候,我们可以推测x,y之间大致有线性关系。由于试验过程会存在一定误差,故这些点与直线有一定的偏离,为此我们可以建立起总体模型:        Yi = β0 + β1 xi + εi,i=1,2,…,n。其中,εi 是“噪声”变量,是均值为0,标准差为σ 的正态分布随机变量。设b0 和b1 是对β0 和β1 的估计,由统计学知识不难得出,在xi 处对Y 的回归估计为:  Y = b0 + b1 xi,误差为    e = Y –yi。

1.      最小二乘法估计

根据最小二乘法可知,最好的回归直线是选择b0 和b1 使得总的误差(残差平方和SSR)最小:SSR =Σ i = 1 n e2i =Σ i = 1 n ( ) yi -y ̂ i 2。为使SSR取最小值,分别求SSR对b0及b1的偏导数,并让它们等于0,不难求得

3.线性回归算法的改进

public class LRForcast {

static double Rstand = 0.878;// 根据相关系数检验法对回归方程进行检测,取检验水平a=0.05下的临界值R=0.878

static boolean RelationCheck(double[] sale, int length) {

/**

* 用相关系数检验法,判断i和sale[i]之间是否存在线性相关关系

*/

double averagex, sumsale = 0, averagey, LXX = 0, LXY = 0,LYY = 0, R;

averagex = (length - 1) / 2;

for (int i = 0; i < length; i++) {

sumsale += sale[i];

}

averagey = sumsale / length;

for (int i = 0; i < length; i++) {

LXX += (i - averagex) * (i - averagex);

LXY += (i - averagex) * (sale[i] - averagey);

LYY += (sale[i] - averagey) * (sale[i] -averagey);

}

R = LXY / Math.sqrt(LXX * LYY);

if (Math.abs(R) > Rstand)

return true;

else

return false;

}

static double[] oneLRF(double[] sale, int length) {

/*

* 传入长度为length的数组sale,代表连续的有序的length天,sale[i]的销售数据,

* 返回的数据是采用线性回归分析预测的线性回归直线的y=b[1]x+b[0]的两个参数b[1],b[0]

*

* 假设sale传入的是近sale.length天的销售额,即sale代表第一到第sale.length天的数据,

* 那么这个函数返回的是满足sale[i]与i之间的回归方程的系数sale这个数组应该满足严格有序。比如sale表示的销售额,

* 一定是sale[0]表示第一天的销售额,sale[1]第二天,sale[2]第三天,以此类推。

*/

double averagex, sumsale = 0, averagey, LXX = 0, LXY = 0;

double[] b = new double[2];

averagex = (length - 1) * length / 2;

for (int i = 0; i < length; i++) {

sumsale += sale[i];

}

averagey = sumsale / length;

for (int i = 0; i < length; i++) {

LXX += (i - averagex) * (i - averagex);

LXY += (i - averagex) * (sale[i] - averagey);

}

b[1] = LXY / LXX;

b[0] = averagey - b[1] * averagex;

return b;

}

static double LRF(double[] sale, int forecastDay) {

/*传入数组sale,代表sale天的销售数据,返回的是之后forecastDay的预测的销售数据,

* 这个销售数据是采用改进的一元线性回归分析得到的。

*

* 假设sale传入的是近sale.length天的销售额,即sale代表第一到第sale.length天的数据,

* 则forcastDay表示的是之后要要现在开始之后forcastDay的销售额。

* sale这个数组应该满足严格有序。比如sale表示的销售额,一定是sale[0]表示第一天的销售额,

* sale[1]第二天,sale[2]第三天,以此类推。

*/

double[] salecopy = new double[sale.length];

double[] b=new double[2];

int t=0,j=0,k=0,i;

double temp,valuesum=0;

salecopy = sale;

for ( i = 1; i <= forecastDay; i++) {

t=0;

j=sale.length%i;

while(j<=sale.length){

for(k=0;k<i;k++){

salecopy[t]+=sale[j];

j++;

}

t++;

}

if(RelationCheck(sale,t)){

b=oneLRF(salecopy,t);

temp=0;

for(k=0;k<forecastDay/i;k++){

temp+=b[1]*(k+t)+b[0];

}

temp+= ((double)forecastDay/i-(k-1))*(b[1]*(k+t)+b[0]);

valuesum+=temp;

}

}

return valuesum/forecastDay;

}

}

数据挖掘在淘宝CRM中的应用相关推荐

  1. 在matlab中怎么录制音频_怎么录制淘宝页面中的视频?简单方法,轻松搞定

    原标题:怎么录制淘宝页面中的视频?简单方法,轻松搞定 怎么录制淘宝页面中的视频?当前足不出户,大家就可以在很多的电商平台购买到自己心仪的商品.这其中商机也就产生了,如果不太想上班,或者说想要自己当老板 ...

  2. php提取淘宝URL中ID的代码

    php提取淘宝URL中ID的代码 一段可以提取淘宝URL中ID的PHP代码. 例如: <?php $taobao = 'taobao.com'; $tmall = 'tmall.com'; $g ...

  3. 『优势特征知识蒸馏』在淘宝推荐中的应用

    作者 | Chilia 方向 | 哥伦比亚大学研究生 搜索推荐方向 整理 | NewBeeNLP 今天分享阿里的一篇将「目标蒸馏-logits方法」应用到推荐系统领域的论文, 其提出的蒸馏技术是工业界 ...

  4. 淘宝url中的spm编码是怎么生成的呢?

    淘宝url中的spm编码是怎么生成的?生成使用了什么技术?是怎么回事呢 越详细越好. 下面是SPM淘宝说明: SPM是淘宝社区电商业务(xTao)为外部合作伙伴(外站)提供的一套跟踪引导成交效果数据的 ...

  5. 求一个手机淘宝直播中抢购的脚本,急

    要求,手机淘宝直播中不管上架什么东西,我都是第一个购买成功的! 天灵灵地灵灵,太上老君急急如律令,大神来>o<

  6. 淘宝UWP中的100个为什么

    从淘宝UWP第一版发布到现在,已经有十个月了,期间收到了用户各种各样的反馈,感谢这些用户的反馈,指导我们不断的修正.完善应用.但是也有一部分需求或建议,由于资源或技术的限制,目前确实无法做到,只能对广 ...

  7. 数据挖掘技术在商业银行CRM中的应用理论与模型研究

    数据挖掘技术在商业银行CRM中的应用理论与模型研究 MG0915055 马文虎 (工程管理学院 信息管理工程) 摘  要:随着金融市场竞争的加剧和消费者的需求日趋个性化,建立高效的CRM系统,可以使银 ...

  8. 深度语义模型以及在淘宝搜索中的应用

    https://www.toutiao.com/a6685574319969403404/ 传统的搜索文本相关性模型,如BM25通常计算Query与Doc文本term匹配程度.由于Query与Doc之 ...

  9. 淘宝搜索中基于embedding的召回

    对于电商平台而言,商品搜索服务已经是人们日常购物中重中之重的服务了,商品的召回决定了搜索系统的质量.商品搜索需要从一个巨大的语料库中找到最相关的商品,同时还要保证个性化.目前很多论文都在探讨基于emb ...

  10. LVS在淘宝环境中的应用

    目录 1. LVS-简介 2. LVS-问题 3. LVS-fullnat 4. LVS-synproxy 5. LVS-cluster 6. LVS-performance 7. LVS-todo ...

最新文章

  1. 一个ASP.NET中使用的MessageBox类
  2. 环境图配置不存在pbr_小米11再曝光,硬件参数不存在短板,完全最高旗舰配置...
  3. Access数据库OleDbHelper
  4. 关于格雷码的规律、转换
  5. Python之woe:woe库的简介、安装、使用方法之详细攻略
  6. 贵州大学开题报告计算机,贵州大学毕业论文开题报告.docx
  7. 三点弯曲弹性模量怎么计算公式_怎么计算弯管的尺寸和弯管的张力
  8. 计算机u打字,win7电脑打字打不出来怎么办
  9. js 短信验证码 6位数字
  10. HDFS NameNode重启优化
  11. MATLAB基本用法介绍
  12. C/C++—— int main(int argc,char* argv[])讲解
  13. C语言中Uint8_t数据类型
  14. numpy.random 模块- 随机数
  15. bootstraptable不显示数据_单片机显示原理
  16. ANSYS APDL入门教程
  17. 计算机新建里没有word,电脑鼠标右键没有新建Word选项怎么办?
  18. 两台计算机怎样共享一台打印机共享文件夹,二台不同系统电脑怎么样共享一台打印机...
  19. 认识卷积神经网络(卷积层和池化层)
  20. php 文件图片上传

热门文章

  1. 快递柜智能柜C语言程序,智能快递柜的设计与实现_李浩然.pdf
  2. 2018-2019-2 20189221 《网络攻防技术》第八周作业
  3. windows服务器硬盘怎么扩容,windows2016 扩容硬盘
  4. [POI2012] 约会 Rendezvous
  5. 公有云服务器租赁协议,云服务器
  6. iOS -显示隐藏文件
  7. html短期总结(至表单)
  8. 我的世界空岛生存服务器制作,我的世界Wishing服务器-RPG丨空岛丨生存丨[1.12.2-1.16.1]...
  9. CSDN博客专家申请成功
  10. 网店营销成为运营商营销的重要平台