PLS系列003 单因变量线性PLS
单因变量线性偏最小二乘法
- 1 单因变量线性PLS
- 1.1 计算推导
- 1.2 辅助分析技术
- Reference
1 单因变量线性PLS
1.1 计算推导
由于在多因变量线性偏最小二乘法中,我们已经讨论了计算推导,在此,我们将但因变量进行简化计算推导过程:
①样本数据XXX与YYY标准化预处理
②记t1{{t}_{1}}t1是XXX的第1个成分有t1=Xw1{{t}_{1}}=X{{w}_{1}}t1=Xw1,其中w1{{w}_{1}}w1是XXX的第1个轴(单位列向量即∥w1∥=1\left\| {{w}_{1}} \right\|\text{=}1∥w1∥=1)。
u1{{u}_{1}}u1是YYY的第1个成分有u1=Yv1{{u}_{1}}=Y{{v}_{1}}u1=Yv1,其中v1{{v}_{1}}v1是XXX的第1个轴(单位列向量即∥v1∥=1\left\| {{v}_{1}} \right\|\text{=}1∥v1∥=1)。
t1{{t}_{1}}t1、u1{{u}_{1}}u1为列向量,行数为nnn,即正好是样本集合数。
w1{{w}_{1}}w1为列向量,行数为ppp,即正好是自变量个数
v1{{v}_{1}}v1为列向量,行数为qqq,即正好是因变量个数
由于YYY只是1个变量,故v1{{v}_{1}}v1是1个标量。∥v1∥=1⇒v1=1\left\| {{v}_{1}} \right\|\text{=}1\Rightarrow {{v}_{1}}=1∥v1∥=1⇒v1=1,即:u1=Y{{u}_{1}}=Yu1=Y
t1{{t}_{1}}t1和u1{{u}_{1}}u1满足(1)中两个条件则有:
变异信息最大:Var(t1)→max,Var(u1)→maxVar({{t}_{1}})\to \max ,Var({{u}_{1}})\to \maxVar(t1)→max,Var(u1)→max
相关程度最大:r(t1,u1)→maxr({{t}_{1}},{{u}_{1}})\to \maxr(t1,u1)→max 相关程度最大,r(t1,u1)r({{t}_{1}},{{u}_{1}})r(t1,u1)指的就是线性相关了
综合可得协方差最大:Cov(t1,u1)=r(t1,u1)Var(t1)Var(u1)→maxCov({{t}_{1}},{{u}_{1}})=r({{t}_{1}},{{u}_{1}})\sqrt{Var({{t}_{1}})Var({{u}_{1}})}\to \maxCov(t1,u1)=r(t1,u1)Var(t1)Var(u1)→max
由于1n<Xw1,Yv1>=Cov(t1,u1)\frac{1}{n}<X{{w}_{1}},Y{{v}_{1}}>=Cov({{t}_{1}},{{u}_{1}})n1<Xw1,Yv1>=Cov(t1,u1)且nnn为常数,则:
max<Xw1,Yv1>=(Xw1)TYv1=w1TXTYv1s.t{w1Tw1=∥w1∥2=1v1Tv1=∥v1∥2=1\begin{aligned} & \max <X{{w}_{1}},Y{{v}_{1}}>={{(X{{w}_{1}})}^{T}}Y{{v}_{1}}=w_{_{1}}^{T}{{X}^{T}}Y{{v}_{1}} \\ & s.t\left\{ \begin{matrix} w_{_{1}}^{T}{{w}_{1}}={{\left\| {{w}_{1}} \right\|}^{2}}=1 \\ v_{_{1}}^{T}{{v}_{1}}={{\left\| {{v}_{1}} \right\|}^{2}}=1 \\ \end{matrix} \right. \\ \end{aligned} max<Xw1,Yv1>=(Xw1)TYv1=w1TXTYv1s.t{w1Tw1=∥w1∥2=1v1Tv1=∥v1∥2=1
根据拉格朗日算法有:
f=w1TXTYv1−λ(w1Tw1−1)−μ(v1Tv1−1)f=w_{_{1}}^{T}{{X}^{T}}Y{{v}_{1}}-\lambda (w_{_{1}}^{T}{{w}_{1}}-1)-\mu (v_{_{1}}^{T}{{v}_{1}}-1) f=w1TXTYv1−λ(w1Tw1−1)−μ(v1Tv1−1)
对fff分别求关于w1,v1,λ,μ{{w}_{1}},{{v}_{1}},\lambda ,\muw1,v1,λ,μ的偏导且置0(求),有:
{∂f∂w1=XTYv1−2λw1=0∂f∂v1=YTXw1−2μv1=0∂f∂λ=−(w1Tw1−1)=0∂f∂μ=−(v1Tv1−1)=0\left\{ \begin{matrix} \frac{\partial f}{\partial {{w}_{1}}}={{X}^{T}}Y{{v}_{1}}-2\lambda {{w}_{1}}=0 \\ \frac{\partial f}{\partial {{v}_{1}}}={{Y}^{T}}X{{w}_{1}}-2\mu {{v}_{1}}=0 \\ \frac{\partial f}{\partial \lambda }=-(w_{_{1}}^{T}{{w}_{1}}-1)=0\ \ \ \ \\ \frac{\partial f}{\partial \mu }=-(v_{_{1}}^{T}{{v}_{1}}-1)=0\ \ \ \ \ \\ \end{matrix} \right. ⎩⎪⎪⎪⎨⎪⎪⎪⎧∂w1∂f=XTYv1−2λw1=0∂v1∂f=YTXw1−2μv1=0∂λ∂f=−(w1Tw1−1)=0 ∂μ∂f=−(v1Tv1−1)=0
由上式可推出:
2λ=2μ=w1TXTYv1=(Xw1)TYv1=<Xw1,Yv1>2\lambda =2\mu =w_{_{1}}^{T}{{X}^{T}}Y{{v}_{1}}={{(X{{w}_{1}})}^{T}}Y{{v}_{1}}\text{=}<X{{w}_{1}},Y{{v}_{1}}> 2λ=2μ=w1TXTYv1=(Xw1)TYv1=<Xw1,Yv1>
记
θ1=2λ=2μ=w1TXTYv1{{\theta }_{1}}=2\lambda =2\mu =w_{_{1}}^{T}{{X}^{T}}Y{{v}_{1}} θ1=2λ=2μ=w1TXTYv1
则θ1{{\theta }_{1}}θ1是优化问题的目标函数且使是θ1{{\theta }_{1}}θ1达到最大必须有有:
{XTYv1=θ1w1YTXw1=θ1v1\left\{ \begin{aligned} & {{X}^{T}}Y{{v}_{1}}={{\theta }_{1}}{{w}_{1}} \\ & {{Y}^{T}}X{{w}_{1}}\text{=}{{\theta }_{1}}{{v}_{1}} \\ \end{aligned} \right. {XTYv1=θ1w1YTXw1=θ1v1
将上面组合式结合得:
XTY(1θ1YTXw1)=θ1w1⇒XTYYTXw1=θ12w1{{X}^{T}}Y(\frac{1}{{{\theta }_{1}}}{{Y}^{T}}X{{w}_{1}})={{\theta }_{1}}{{w}_{1}}\Rightarrow {{X}^{T}}Y{{Y}^{T}}X{{w}_{1}}=\theta _{_{1}}^{2}{{w}_{1}} XTY(θ11YTXw1)=θ1w1⇒XTYYTXw1=θ12w1
同理可得:
YTXXTYv1=θ12v1{{Y}^{T}}X{{X}^{T}}Y{{v}_{1}}=\theta _{_{1}}^{2}{{v}_{1}} YTXXTYv1=θ12v1
由
v1=1⇒YTXXTY=θ12⇒θ12=∥XTY∥2⇒θ1=∥XTY∥{{v}_{1}}=1\Rightarrow {{Y}^{T}}X{{X}^{T}}Y=\theta _{_{1}}^{2}\Rightarrow \theta _{_{1}}^{2}\text{=}{{\left\| {{X}^{T}}Y \right\|}^{2}}\Rightarrow {{\theta }_{1}}\text{=}\left\| {{X}^{T}}Y \right\| v1=1⇒YTXXTY=θ12⇒θ12=∥∥XTY∥∥2⇒θ1=∥∥XTY∥∥
.根据联合式(1)我们可以得到:
w1=1θ1XTYv1=1θ1XTY{{w}_{1}}=\frac{1}{{{\theta }_{1}}}{{X}^{T}}Y{{v}_{1}}=\frac{1}{{{\theta }_{1}}}{{X}^{T}}Y w1=θ11XTYv1=θ11XTY
结合上面两个表达式,我们可以推出:
w1=1θ1XTY=XTY∥XTY∥{{w}_{1}}=\frac{1}{{{\theta }_{1}}}{{X}^{T}}Y=\frac{{{X}^{T}}Y}{\left\| {{X}^{T}}Y \right\|} w1=θ11XTY=∥XTY∥XTY
由于XXX、YYY是标准化矩阵,有:
XTY=(x1,x2,⋯,xp)TY=(x1,x2,⋯,xp)Ty=(x1Tx2T⋮xpT)y=(x1Tyx2Ty⋮xpTy)=(r(x1,y)r(x2,y)⋮r(xp,y))\begin{aligned} & {{X}^{T}}Y={{({{x}_{1}},{{x}_{2}},\cdots ,{{x}_{p}})}^{T}}Y={{({{x}_{1}},{{x}_{2}},\cdots ,{{x}_{p}})}^{T}}y \\ & \ \ \ \ \ \ \ =\left( \begin{matrix} x_{1}^{T} \\ x_{2}^{T} \\ \vdots \\ x_{p}^{T} \\ \end{matrix} \right)y=\left( \begin{matrix} x_{1}^{T}y \\ x_{2}^{T}y \\ \vdots \\ x_{p}^{T}y \\ \end{matrix} \right)=\left( \begin{matrix} r({{x}_{1}},y) \\ r({{x}_{2}},y) \\ \vdots \\ r({{x}_{p}},y) \\ \end{matrix} \right) \\ \end{aligned} XTY=(x1,x2,⋯,xp)TY=(x1,x2,⋯,xp)Ty =⎝⎜⎜⎜⎛x1Tx2T⋮xpT⎠⎟⎟⎟⎞y=⎝⎜⎜⎜⎛x1Tyx2Ty⋮xpTy⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛r(x1,y)r(x2,y)⋮r(xp,y)⎠⎟⎟⎟⎞
进一步,有:
w1=XTY∥XTY∥=1∑i=1pr2(xi,y)(r(x1,y)r(x2,y)⋮r(xp,y)){{w}_{1}}=\frac{{{X}^{T}}Y}{\left\| {{X}^{T}}Y \right\|}=\frac{1}{\sqrt{\sum\limits_{i=1}^{p}{{{r}^{2}}({{x}_{i}},y)}}}\left( \begin{matrix} r({{x}_{1}},y) \\ r({{x}_{2}},y) \\ \vdots \\ r({{x}_{p}},y) \\ \end{matrix} \right) w1=∥XTY∥XTY=i=1∑pr2(xi,y)1⎝⎜⎜⎜⎛r(x1,y)r(x2,y)⋮r(xp,y)⎠⎟⎟⎟⎞
t1=Xw1=1∑i=1pr2(xi,y)X(r(x1,y)r(x2,y)⋮r(xp,y))=1∑i=1pr2(xi,y)(x1r(x1,y)+x2r(x2,y)+⋯+xpr(xp,y)){{t}_{1}}=X{{w}_{1}}=\frac{1}{\sqrt{\sum\limits_{i=1}^{p}{{{r}^{2}}({{x}_{i}},y)}}}X\left( \begin{matrix} r({{x}_{1}},y) \\ r({{x}_{2}},y) \\ \vdots \\ r({{x}_{p}},y) \\ \end{matrix} \right)=\frac{1}{\sqrt{\sum\limits_{i=1}^{p}{{{r}^{2}}({{x}_{i}},y)}}}({{x}_{1}}r({{x}_{1}},y)+{{x}_{2}}r({{x}_{2}},y)+\cdots +{{x}_{p}}r({{x}_{p}},y)) t1=Xw1=i=1∑pr2(xi,y)1X⎝⎜⎜⎜⎛r(x1,y)r(x2,y)⋮r(xp,y)⎠⎟⎟⎟⎞=i=1∑pr2(xi,y)1(x1r(x1,y)+x2r(x2,y)+⋯+xpr(xp,y))
在t1{{t}_{1}}t1中,关于xi{{x}_{i}}xi的线性组合系数是:
r(xi,y)∑i=1pr2(xi,y)\frac{r({{x}_{i}},y)}{\sqrt{\sum\limits_{i=1}^{p}{{{r}^{2}}({{x}_{i}},y)}}} i=1∑pr2(xi,y)r(xi,y)
在t1{{t}_{1}}t1中,关于xi{{x}_{i}}xi的线性组合系数中,若xi{{x}_{i}}xi与yyy的相关程度越强,则在t1{{t}_{1}}t1成分中的组合系数越大。
而此时目标函数的优化值:θ1=∥XTY∥=∑i=1pr2(xi,y){{\theta }_{1}}\text{=}\left\| {{X}^{T}}Y \right\|\text{=}\sqrt{\sum\limits_{i=1}^{p}{{{r}^{2}}({{x}_{i}},y)}}θ1=∥∥XTY∥∥=i=1∑pr2(xi,y)
这里和多因变量不同在于不用求特征向量了,因为特征向量就是1,而特征值可以直接求出来
我们通过求得w1{{w}_{1}}w1和v1=1{{v}_{1}}\text{=}1v1=1之后即可得到第1成分:
{t1=Xw1u1=Yv1=Y\left\{ \begin{aligned} & {{t}_{1}}=X{{w}_{1}} \\ & {{u}_{1}}=Y{{v}_{1}}\text{=}Y \\ \end{aligned} \right. {t1=Xw1u1=Yv1=Y
由(1)式我们可以进一步推导出:
θ1=<t1,u1>=w1TXTYv1=w1TXTY{{\theta }_{1}}\text{=}<{{t}_{1}},{{u}_{1}}>=w_{1}^{T}{{X}^{T}}Y{{v}_{1}}=w_{1}^{T}{{X}^{T}}Y θ1=<t1,u1>=w1TXTYv1=w1TXTY
然后分别进行XXX、YYY对t1{{t}_{1}}t1的回归(这里YYY对t1{{t}_{1}}t1的回归):
{X=t1p1T+X1Y=t1r1T+Y1\left\{ \begin{aligned} & X={{t}_{1}}p_{1}^{T}+{{X}_{1}} \\ & Y={{t}_{1}}r_{1}^{T}+{{Y}_{1}} \\ \end{aligned} \right. {X=t1p1T+X1Y=t1r1T+Y1
其中,回归系数向量:
{p1=XTt1∥t1∥2r1=YTt1∥t1∥2\left\{ \begin{aligned} & {{p}_{1}}=\frac{{{X}^{T}}{{t}_{1}}}{{{\left\| {{t}_{1}} \right\|}^{2}}} \\ & {{r}_{1}}=\frac{{{Y}^{T}}{{t}_{1}}}{{{\left\| {{t}_{1}} \right\|}^{2}}} \\ \end{aligned} \right. ⎩⎪⎪⎪⎨⎪⎪⎪⎧p1=∥t1∥2XTt1r1=∥t1∥2YTt1
另外,X1{{X}_{1}}X1、Y1{{Y}_{1}}Y1则为XXX、YYY的残差信息矩阵。(回归系数向量可利用PLS回归性质推导?)
③用残差信息矩阵X1{{X}_{1}}X1、Y1{{Y}_{1}}Y1取代XXX、YYY,用同样的方法重复第②步,得到:
w2=X1TY1∥X1TY1∥=1∑i=1pr2(xi,y)(r(x1,y)r(x2,y)⋮r(xp,y)){{w}_{2}}=\frac{{{X}_{1}}^{T}{{Y}_{1}}}{\left\| {{X}_{1}}^{T}{{Y}_{1}} \right\|}=\frac{1}{\sqrt{\sum\limits_{i=1}^{p}{{{r}^{2}}({{x}_{i}},y)}}}\left( \begin{matrix} r({{x}_{1}},y) \\ r({{x}_{2}},y) \\ \vdots \\ r({{x}_{p}},y) \\ \end{matrix} \right) w2=∥∥X1TY1∥∥X1TY1=i=1∑pr2(xi,y)1⎝⎜⎜⎜⎛r(x1,y)r(x2,y)⋮r(xp,y)⎠⎟⎟⎟⎞
这里注意xi(i=1,2,⋯,p){{x}_{i}}(i=1,2,\cdots ,p)xi(i=1,2,⋯,p)是指X1{{X}_{1}}X1中的列向量,而yyy是指Y1{{Y}_{1}}Y1中的列向量。
求第2个成分t2{{t}_{2}}t2、u2{{u}_{2}}u2和第2个轴w2{{w}_{2}}w2、v2=1{{v}_{2}}\text{=1}v2=1,即:
{t2=X1w2u2=Y1v2=Y1\left\{ \begin{aligned} & {{t}_{2}}={{X}_{1}}{{w}_{2}} \\ & {{u}_{2}}={{Y}_{1}}{{v}_{2}}\text{=}{{Y}_{1}} \\ \end{aligned} \right. {t2=X1w2u2=Y1v2=Y1
θ2=<t2,u2>=w2TX1TY1v2=w2TX1TY1{{\theta }_{2}}=<{{t}_{2}},{{u}_{2}}>=w_{2}^{T}X_{1}^{T}{{Y}_{1}}{{v}_{2}}=w_{2}^{T}X_{1}^{T}{{Y}_{1}} θ2=<t2,u2>=w2TX1TY1v2=w2TX1TY1
得到回归方程:
{X1=t2p2T+X2Y1=t2r2T+Y2\left\{ \begin{aligned} & {{X}_{1}}={{t}_{2}}p_{2}^{T}+{{X}_{2}} \\ & {{Y}_{1}}={{t}_{2}}r_{2}^{T}+{{Y}_{2}} \\ \end{aligned} \right. {X1=t2p2T+X2Y1=t2r2T+Y2
其中,回归系数向量:
{p2=X1Tt2∥t2∥2r2=Y1Tt2∥t2∥2\left\{ \begin{aligned} & {{p}_{2}}=\frac{X_{1}^{T}{{t}_{2}}}{{{\left\| {{t}_{2}} \right\|}^{2}}} \\ & {{r}_{2}}=\frac{{{Y}_{1}}^{T}{{t}_{2}}}{{{\left\| {{t}_{2}} \right\|}^{2}}} \\ \end{aligned} \right. ⎩⎪⎪⎪⎨⎪⎪⎪⎧p2=∥t2∥2X1Tt2r2=∥t2∥2Y1Tt2
④如此利用剩下的残差信息矩阵不断迭代计算,我们假设XXX的秩为mmm(即可以有A个成分):
{X=t1p1T+t2p2T+⋯+tmpmTY=t1r1T+t2r2T+⋯+tmrmT+Ym\left\{ \begin{aligned} & X={{t}_{1}}p_{1}^{T}+{{t}_{2}}p_{2}^{T}+\cdots +{{t}_{m}}p_{m}^{T} \\ & Y={{t}_{1}}r_{1}^{T}+{{t}_{2}}r_{2}^{T}+\cdots +{{t}_{m}}r_{m}^{T}\text{+}{{Y}_{m}} \\ \end{aligned} \right. {X=t1p1T+t2p2T+⋯+tmpmTY=t1r1T+t2r2T+⋯+tmrmT+Ym
而t1,t2,⋯,tm{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{m}}t1,t2,⋯,tm可表示成X= { x1,x2,⋯,xp } X\text{= }\!\!\{\!\!\text{ }{{x}_{1}},{{x}_{2}},\cdots ,{{x}_{p}}\text{ }\!\!\}\!\!\text{ }X= { x1,x2,⋯,xp } 的线性组合
其中Ym{{Y}_{m}}Ym为第mmm个残差矩阵
由于wh∗=∏k=1h−1(E−wkpkT)wh&th=Xwh∗w_{h}^{*}=\prod\limits_{k=1}^{h-1}{(E-{{w}_{k}}p_{k}^{T})}{{w}_{h}}\ \And \ \ {{t}_{h}}=Xw_{h}^{*}wh∗=k=1∏h−1(E−wkpkT)wh & th=Xwh∗ (在多因变量线性偏最小二乘法性质中)则有:
Y=t1r1T+t2r2T+⋯+tmrmT+Ym=(Xw1∗)r1T+(Xw2∗)r2T+⋯+(Xwm∗)rmT+Ym=X(∑i=1mwi∗riT)+Ym\begin{aligned} & Y={{t}_{1}}r_{1}^{T}+{{t}_{2}}r_{2}^{T}+\cdots +{{t}_{m}}r_{m}^{T}+{{Y}_{m}} \\ & \ \ \ =(Xw_{1}^{*})r_{1}^{T}+(Xw_{2}^{*})r_{2}^{T}+\cdots +(Xw_{m}^{*})r_{m}^{T}+{{Y}_{m}} \\ & \ \ =X\left( \sum\limits_{i=1}^{m}{w_{i}^{*}r_{i}^{T}} \right)+{{Y}_{m}} \\ \end{aligned} Y=t1r1T+t2r2T+⋯+tmrmT+Ym =(Xw1∗)r1T+(Xw2∗)r2T+⋯+(Xwm∗)rmT+Ym =X(i=1∑mwi∗riT)+Ym
令B=∑i=1mwiriTB=\sum\limits_{i=1}^{m}{{{w}_{i}}r_{i}^{T}}B=i=1∑mwiriT即为PLS回归方程的回归系数向量,有:
Y=XB+FmY=XB\text{+}{{F}_{m}} Y=XB+Fm
1.2 辅助分析技术
①与典型相关分析对应的分析技术
ⅰ.精度分析
在PLS计算推导中,在XXX提取的自变量成分th{{t}_{h}}th不仅要尽可能多的携带XXX中的变异信息,而且要尽可能与YYY相关程度达到最大来解释YYY的信息。我们模仿典型相关分析中的精度分析,为了测量th{{t}_{h}}th对XXX和YYY的解释能力,定义th{{t}_{h}}th的各种解释能力,有:
th{{t}_{h}}th对某自变量xi{{x}_{i}}xi的解释能力:
Rd(xi;th)=r2(xi;th)Rd({{x}_{i}};{{t}_{h}})={{r}^{2}}({{x}_{i}};{{t}_{h}}) Rd(xi;th)=r2(xi;th)
th{{t}_{h}}th对XXX的解释能力:
Rd(X;th)=1p∑i=1pRd(xi;th)=1p∑i=1pr2(xi,th)Rd(X;{{t}_{h}})=\frac{1}{p}\sum\limits_{i=1}^{p}{Rd({{x}_{i}};{{t}_{h}})}=\frac{1}{p}\sum\limits_{i=1}^{p}{{{r}^{2}}({{x}_{i}},{{t}_{h}})} Rd(X;th)=p1i=1∑pRd(xi;th)=p1i=1∑pr2(xi,th)
t1,t2,⋯,th{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{h}}t1,t2,⋯,th对XXX的累计解释能力:
Rd(X;t1,t2,⋯,th)=∑h=1mRd(X;th)=1p∑h=1m∑i=1pr2(xi,th)Rd(X;{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{h}})=\sum\limits_{h=1}^{m}{Rd(X;{{t}_{h}})}=\frac{1}{p}\sum\limits_{h=1}^{m}{\sum\limits_{i=1}^{p}{{{r}^{2}}({{x}_{i}},{{t}_{h}})}} Rd(X;t1,t2,⋯,th)=h=1∑mRd(X;th)=p1h=1∑mi=1∑pr2(xi,th)
th{{t}_{h}}th对某因变量yj{{y}_{j}}yj的解释能力:
Rd(yj;th)=r2(yj;th)Rd({{y}_{j}};{{t}_{h}})={{r}^{2}}({{y}_{j}};{{t}_{h}}) Rd(yj;th)=r2(yj;th)
th{{t}_{h}}th对YYY的解释能力:
Rd(Y;th)=1q∑j=1qRd(yj;th)=1q∑j=1qr2(yj,th)Rd(Y;{{t}_{h}})=\frac{1}{q}\sum\limits_{j=1}^{q}{Rd({{y}_{j}};{{t}_{h}})}=\frac{1}{q}\sum\limits_{j=1}^{q}{{{r}^{2}}({{y}_{j}},{{t}_{h}})} Rd(Y;th)=q1j=1∑qRd(yj;th)=q1j=1∑qr2(yj,th)
t1,t2,⋯,th{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{h}}t1,t2,⋯,th对YYY的累计解释能力:
Rd(Y;t1,t2,⋯,th)=∑h=1mRd(Y;th)=1q∑h=1m∑j=1qr2(yj,th)Rd(Y;{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{h}})=\sum\limits_{h=1}^{m}{Rd(Y;{{t}_{h}})}=\frac{1}{q}\sum\limits_{h=1}^{m}{\sum\limits_{j=1}^{q}{{{r}^{2}}({{y}_{j}},{{t}_{h}})}} Rd(Y;t1,t2,⋯,th)=h=1∑mRd(Y;th)=q1h=1∑mj=1∑qr2(yj,th)
ⅱ.测量自变量xi{{x}_{i}}xi对因变量集合YYY的解释能力
xi{{x}_{i}}xi在解释YYY时作用的重要性,我们可以通过变量投影重要性指标(VIPiVI{{P}_{i}}VIPi)来测量(Variable Importance in Projection),有:
VIPi=pRd(Y;t1,t2,⋯,th)∑h=1mRd(Y;th)whi2VI{{P}_{i}}=\sqrt{\frac{p}{Rd(Y;{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{h}})}\sum\limits_{h=1}^{m}{Rd(Y;{{t}_{h}})w_{hi}^{2}}} VIPi=Rd(Y;t1,t2,⋯,th)ph=1∑mRd(Y;th)whi2
这里Y可看成单个因变量,也可看成因变量集合。
其中whi{{w}_{hi}}whi是轴wh{{w}_{h}}wh第iii个分量(就是一个标量,其有ppp个分量,wh{{w}_{h}}wh是一个列向量,行数ppp),由于针对xi{{x}_{i}}xi,在th=Xh−1wh{{t}_{h}}={{X}_{h-1}}{{w}_{h}}th=Xh−1wh中,wh{{w}_{h}}wh的第iii个分量(标量)对应解释Xh−1{{X}_{h-1}}Xh−1中的xi{{x}_{i}}xi,则VIPiVI{{P}_{i}}VIPi对应于xi{{x}_{i}}xi对YYY的解释时起到的作用程度,有:
∑i=1pwhi2=whTwh=1\sum\limits_{i=1}^{p}{w_{hi}^{2}}=w_{h}^{T}{{w}_{h}}=1 i=1∑pwhi2=whTwh=1
上面可以如此解释:xi{{x}_{i}}xi对YYY的解释是通过th{{t}_{h}}th来实现的,则若Rd(Y;th)Rd(Y;{{t}_{h}})Rd(Y;th)值很大即th{{t}_{h}}th对YYY的解释能力很强,由于xi{{x}_{i}}xi在构造th{{t}_{h}}th起到非常重要作用,则xi{{x}_{i}}xi对YYY的解释能力就被视为很大。另外,xi{{x}_{i}}xi是通过wh{{w}_{h}}wh来构造th{{t}_{h}}th的,当whi{{w}_{hi}}whi取很大值时,则xi{{x}_{i}}xi对YYY的解释能力就被视为很大,有:
VIPi2=p∑h=1mRd(Y;th)whi2Rd(Y;t1,t2,⋯,th)VIP_{i}^{2}=\frac{p\sum\limits_{h=1}^{m}{Rd(Y;{{t}_{h}})w_{hi}^{2}}}{Rd(Y;{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{h}})} VIPi2=Rd(Y;t1,t2,⋯,th)ph=1∑mRd(Y;th)whi2
通过上面分析,当Rd(Y;th)Rd(Y;{{t}_{h}})Rd(Y;th)很大时,则有whi2w_{hi}^{2}whi2很大,进一步有VIPi2VIP_{i}^{2}VIPi2很大。
∑ipVIPi2=∑ipp∑h=1mRd(Y;th)whi2Rd(Y;t1,t2,⋯,th)=p∑h=1mRd(Y;th)∑ipwhi2Rd(Y;t1,t2,⋯,th)=p\sum\limits_{i}^{p}{VIP_{i}^{2}}=\sum\limits_{i}^{p}{\frac{p\sum\limits_{h=1}^{m}{Rd(Y;{{t}_{h}})w_{hi}^{2}}}{Rd(Y;{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{h}})}}=\frac{p\sum\limits_{h=1}^{m}{Rd(Y;{{t}_{h}})\sum\limits_{i}^{p}{w_{hi}^{2}}}}{Rd(Y;{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{h}})}=p i∑pVIPi2=i∑pRd(Y;t1,t2,⋯,th)ph=1∑mRd(Y;th)whi2=Rd(Y;t1,t2,⋯,th)ph=1∑mRd(Y;th)i∑pwhi2=p
从上面分析我们可以知道,若针对所有的xi{{x}_{i}}xi与之对应的VIPi(i=1,2,⋯,p)VI{{P}_{i}}(i=1,2,\cdots ,p)VIPi(i=1,2,⋯,p)均相等即在解释YYY时的作用相同,则所有的VIPiVI{{P}_{i}}VIPi均为1,否则对于VIPi>1VI{{P}_{i}}>1VIPi>1的xi{{x}_{i}}xi在解释YYY时起到更加重要的作用。上面我们定义了VIPiVI{{P}_{i}}VIPi指标,均定性的能够分析出哪些自变量的起到的作用更大。
②与主成分分析对应的分析技术
ⅰ.特异点分析
我们可以模仿主成分分析定义第iii个样本点对地hhh成分th{{t}_{h}}th的贡献率Thi2T_{hi}^{2}Thi2以此来发现样本点集合中的特异点,有:
Thi2=thi2(n−1)sh2T_{hi}^{2}=\frac{t_{hi}^{2}}{(n-1)s_{h}^{2}} Thi2=(n−1)sh2thi2
其中:thi{{t}_{hi}}thi是列向量th{{t}_{h}}th(行数nnn)Xscores的第iii个样本点对应的值,sh2s_{h}^{2}sh2是成分TH{{T}_{H}}TH的方差。
则样本点III对成分T1,T2……TM{{T}_{1}},{{T}_{2}}……{{T}_{M}}T1,T2……TM的累计贡献率:
Ti2=1n−1∑h=1mthi2sh2T_{i}^{2}=\frac{1}{n-1}\sum\limits_{h=1}^{m}{\frac{t_{hi}^{2}}{s_{h}^{2}}} Ti2=n−11h=1∑msh2thi2
我们模仿主成分分析,由于一个样本点如果对成分构成贡献很大,则其存在会使分析造成比较大的误差,所以一个样本点对成分构成的贡献不可以很大,在SIMCA-P软件中利用特雷西等人证明的统计量:
n2(n−m)m(n2−1)Ti2∼F(m,n−m)\frac{{{n}^{2}}(n-m)}{m({{n}^{2}}-1)}T_{i}^{2}\sim F(m,n-m) m(n2−1)n2(n−m)Ti2∼F(m,n−m)
根据FFF统计量检验,当Ti2≥m(n2−1)n2(n−m)F0.05(m,n−m)T_{i}^{2}\ge \frac{m({{n}^{2}}-1)}{{{n}^{2}}(n-m)}{{F}_{0.05}}(m,n-m)Ti2≥n2(n−m)m(n2−1)F0.05(m,n−m)我们认为在9595%95的检验水平上,样本点iii对成分t1,t2,⋯,tm{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{m}}t1,t2,⋯,tm的贡献过大,我们称之为样本点III为一个特异点。
我们一般如果选择M=2M=2M=2即PLS回归中只采用了2个主成分或者(X)=2(X)=2(X)=2,此时有:
Ti2=1n−1(t1i2s12+t2i2s22)≥2(n2−1)n2(n−2)F0.05(2,n−2)T_{i}^{2}\text{=}\frac{1}{n-1}\left( \frac{t_{1i}^{2}}{s_{1}^{2}}+\frac{t_{2i}^{2}}{s_{2}^{2}} \right)\ge \frac{2({{n}^{2}}-1)}{{{n}^{2}}(n-2)}{{F}_{0.05}}(2,n-2) Ti2=n−11(s12t1i2+s22t2i2)≥n2(n−2)2(n2−1)F0.05(2,n−2)
最后我们得到:
t1i2s12+t2i2s22≥2(n2−1)(n−1)n2(n−2)F0.05(2,n−2)\frac{t_{1i}^{2}}{s_{1}^{2}}+\frac{t_{2i}^{2}}{s_{2}^{2}}\ge \frac{2({{n}^{2}}-1)(n-1)}{{{n}^{2}}(n-2)}{{F}_{0.05}}(2,n-2) s12t1i2+s22t2i2≥n2(n−2)2(n2−1)(n−1)F0.05(2,n−2)
令c=2(n2−1)(n−1)n2(n−2)F0.05(2,n−2)c=\frac{2({{n}^{2}}-1)(n-1)}{{{n}^{2}}(n-2)}{{F}_{0.05}}(2,n-2)c=n2(n−2)2(n2−1)(n−1)F0.05(2,n−2),有:
t1i2s12+t2i2s22=c\frac{t_{1i}^{2}}{s_{1}^{2}}+\frac{t_{2i}^{2}}{s_{2}^{2}}\text{=}c s12t1i2+s22t2i2=c
判断提取多个主成分是否在椭圆内外关系可通过:
t1I2s12+t2I2s22+⋯tmi2sm2\frac{t_{1I}^{2}}{s_{1}^{2}}+\frac{t_{2I}^{2}}{s_{2}^{2}}+\cdots \frac{t_{mi}^{2}}{s_{m}^{2}} s12t1I2+s22t2I2+⋯sm2tmi2
和
m(n2−1)(n−1)n2(n−m)F0.05(m,n−m)\frac{m({{n}^{2}}-1)(n-1)}{{{n}^{2}}(n-m)}{{F}_{0.05}}(m,n-m) n2(n−m)m(n2−1)(n−1)F0.05(m,n−m)
计算方法:
m(n2−1)(n−1)n2(n−m)f0.05(m,n−m)=(n2−1)(n−1)n2⋅mn−m⋅f0.05(m,n−m)\frac{m({{n}^{2}}-1)(n-1)}{{{n}^{2}}(n-m)}{{f}_{0.05}}(m,n-m)\text{=}\frac{({{n}^{2}}-1)(n-1)}{{{n}^{2}}}\centerdot \frac{m}{n-m}\centerdot {{f}_{0.05}}(m,n-m) n2(n−m)m(n2−1)(n−1)f0.05(m,n−m)=n2(n2−1)(n−1)⋅n−mm⋅f0.05(m,n−m)
MATLAB计算式:
(n-1)* (n^2-1)/( n^2) * j*finv(0.95,j , n-j)/(n-j) j从1开始
三维:
t1i2s12+t2i2s22+t3i2s32=c⇔t1i2(s1c)2+t2i2(s2c)2+t3i2(s3c)2=1\frac{t_{1i}^{2}}{s_{1}^{2}}+\frac{t_{2i}^{2}}{s_{2}^{2}}+\frac{t_{3i}^{2}}{s_{3}^{2}}\text{=}c\Leftrightarrow \frac{t_{1i}^{2}}{{{\left( {{s}_{1}}\sqrt{c} \right)}^{2}}}+\frac{t_{2i}^{2}}{{{\left( {{s}_{2}}\sqrt{c} \right)}^{2}}}+\frac{t_{3i}^{2}}{{{\left( {{s}_{3}}\sqrt{c} \right)}^{2}}}\text{=1} s12t1i2+s22t2i2+s32t3i2=c⇔(s1c)2t1i2+(s2c)2t2i2+(s3c)2t3i2=1
上式是一个椭圆,所以,我们以t1i{{t}_{1i}}t1i和t2i{{t}_{2i}}t2i作为坐标轴,在t1/t2{{t}_{1}}/{{t}_{2}}t1/t2平面图上,可以得到这个t2{{t}^{2}}t2椭圆图,若所有样本点都落在这个椭圆内部,则认为所有样本点分布是均匀的,否则落在外部,则称这些点为特异点,即这个样本点远离所有样本集合的平均水平。
ⅱ.PLS后的数据质量分析
我们通过主成分分析可以知道,在PLS回归中有以下同样情况产生:由于特异点的存在或者仍然有一些样本点在PLS模型分析中得不到很好地表示,对于此类样本点,就无法根据PLS回归的表现来判断其特征,对于这类样本点分析必须十分小心。
由于在PLS模型分析中去除了一部分原始信息(m<(A)m<(A)m<(A))而使得一些样本点在yj{{y}_{j}}yj上的拟合值与原始值差异比较大。
由PLS模型计算推导我们可以知道,当提取了mmm个成分t1,t2,⋯,tm{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{m}}t1,t2,⋯,tm后,有:
{X^=t1p1T+t2p2T+⋯+tmpmTY^=t1r1T+t2r2T+⋯+tmrmT+Ym\left\{ \begin{aligned} & \hat{X}={{t}_{1}}p_{1}^{T}+{{t}_{2}}p_{2}^{T}+\cdots +{{t}_{m}}p_{m}^{T} \\ & \hat{Y}={{t}_{1}}r_{1}^{T}+{{t}_{2}}r_{2}^{T}+\cdots +{{t}_{m}}r_{m}^{T}\text{+}{{Y}_{m}} \\ \end{aligned} \right. {X^=t1p1T+t2p2T+⋯+tmpmTY^=t1r1T+t2r2T+⋯+tmrmT+Ym
我们定义样本点
i(i=1,2,⋯,n)i(i=1,2,\cdots ,n)i(i=1,2,⋯,n)在XXX空间与PLS模型的距离DModXi(si)DMod{{X}_{i}}({{s}_{i}})DModXi(si):
si=DModXi=∑j=1peij2p−m⋅nn−m−1{{s}_{i}}=DMod{{X}_{i}}=\sqrt{\frac{\sum\limits_{j=1}^{p}{e_{ij}^{2}}}{p-m}}\cdot \sqrt{\frac{n}{n-m-1}} si=DModXi=p−mj=1∑peij2⋅n−m−1n
其中eij2=(xij−x^ij)2e_{ij}^{2}={{({{x}_{ij}}-{{\hat{x}}_{ij}})}^{2}}eij2=(xij−x^ij)2,x^ij{{\hat{x}}_{ij}}x^ij是重构矩阵X^\hat{X}X^中样本点iii在变量xj{{x}_{j}}xj上的取值。
从上式我们可以知道,参入PLS模型的成分个数越多(mmm越大),si{{s}_{i}}si就越小即数据重构的误差就越小。可是,有时候mmm过大,PLS模型的预测能力反而会降低,这和多元回归分析中一样,使用成分个数过多即使用变量个数过多,模型拟合效果看起来非常完美,但是模型却不能够识别系统信息与噪声,有时候如果我们把噪声加在了模型中,那这样的拟合效果反而更差。
为此我们模型多元回归分析,定义一个调整复测定系数Rˉ2{{\bar{R}}^{2}}Rˉ2,则由此我们我们这里定义模型距离的概念。
所有样本点重构的平均质量:SX2=1n∑i=1nsi2S_{X}^{2}\text{=}\frac{1}{n}\sum\limits_{i=1}^{n}{s_{i}^{2}}SX2=n1i=1∑nsi2,进一步所有样本点的重构平均距离SX{{S}_{X}}SX:
SX=1n∑i=1n∑j=1peij2p−m⋅nn−m−1=∑i=1n∑j=1peij2(p−m)(n−m−1){{S}_{X}}=\sqrt{\frac{1}{n}\sum\limits_{i=1}^{n}{\frac{\sum\limits_{j=1}^{p}{e_{ij}^{2}}}{p-m}\cdot \frac{n}{n-m-1}}}\text{=}\sqrt{\frac{\sum\limits_{i=1}^{n}{\sum\limits_{j=1}^{p}{e_{ij}^{2}}}}{(p-m)(n-m-1)}} SX=n1i=1∑np−mj=1∑peij2⋅n−m−1n=(p−m)(n−m−1)i=1∑nj=1∑peij2
则根据上面的si{{s}_{i}}si和SX{{S}_{X}}SX我们可以推出样本点iii的标准化模型距离:
(DModX,N)i=siSX=DModXiSX{{(DModX,N)}_{i}}=\frac{{{s}_{i}}}{{{S}_{X}}}=\frac{DMod{{X}_{i}}}{{{S}_{X}}} (DModX,N)i=SXsi=SXDModXi
上式表明同所有样本点的重构平均质量相比,样本点iii是否偏大。
同理我们可以得到:
样本点
i(i=1,2,⋯,n)i(i=1,2,\cdots ,n)i(i=1,2,⋯,n)在YYY空间与PLS模型的距离DModYiDMod{{Y}_{i}}DModYi:
DModYi=∑k=1qfik2q−m⋅nn−m−1DMod{{Y}_{i}}=\sqrt{\frac{\sum\limits_{k=1}^{q}{f_{ik}^{2}}}{q-m}}\cdot \sqrt{\frac{n}{n-m-1}} DModYi=q−mk=1∑qfik2⋅n−m−1n
其中,fij2=(yik−y^ik)2f_{ij}^{2}={{({{y}_{ik}}-{{\hat{y}}_{ik}})}^{2}}fij2=(yik−y^ik)2,y^ik{{\hat{y}}_{ik}}y^ik是重构矩阵Y^\hat{Y}Y^中样本点iii在变量yj{{y}_{j}}yj上的取值。
所有样本点重构的平均质量:
SX2=1n∑i=1nsi2S_{X}^{2}\text{=}\frac{1}{n}\sum\limits_{i=1}^{n}{s_{i}^{2}} SX2=n1i=1∑nsi2
进一步所有样本点的重构平均距离
SX{{S}_{X}}SX:
SY=1n∑i=1n∑k=1qfik2q−m⋅nn−m−1=∑i=1n∑k=1qeik2(q−m)(n−m−1){{S}_{Y}}=\sqrt{\frac{1}{n}\sum\limits_{i=1}^{n}{\frac{\sum\limits_{k=1}^{q}{f_{ik}^{2}}}{q-m}\cdot \frac{n}{n-m-1}}}\text{=}\sqrt{\frac{\sum\limits_{i=1}^{n}{\sum\limits_{k=1}^{q}{e_{ik}^{2}}}}{(q-m)(n-m-1)}} SY=n1i=1∑nq−mk=1∑qfik2⋅n−m−1n=(q−m)(n−m−1)i=1∑nk=1∑qeik2
则根据上面的si{{s}_{i}}si和SX{{S}_{X}}SX我们可以推出样本点iii的标准化模型距离:
(DModY,N)i=DModYiSY{{(DModY,N)}_{i}}=\frac{DMod{{Y}_{i}}}{{{S}_{Y}}} (DModY,N)i=SYDModYi
上式表明同所有样本点的重构平均质量相比,样本点iii是否偏大,若偏大,则说明数据重构质量不理想即PLS模型不好或者说mmm的取值不理想即成分个数选取不适当。
Reference
王惠文.偏最小二乘方法原理及其应用
郭建校. 改进的高维非线性PLS回归方法及应用研究[D]. 天津大学, 2010.
PLS系列003 单因变量线性PLS相关推荐
- PLS系列002 多因变量线性PLS
多因变量线性偏最小二乘法 1 多因变量线性PLS 1.1 算法设计思想 1.2 计算推导 1.3 PLS性质 1.4 交叉性检验 Reference 1 多因变量线性PLS 在多元线性回归模型中,若一 ...
- PLS系列004 多因变量非线性PLS
多因变量非线性PLS 1 多因变量非线性PLS[不是拟线性方法] 1.1 计算推导 1.2 简化算法 1.3 性质 Reference 1 多因变量非线性PLS[不是拟线性方法] 1.1 计算推导 在 ...
- SpringBoot 2.0 系列003 -- 自定义Parent
为什么80%的码农都做不了架构师?>>> SpringBoot 2.0 系列003 --自定义Parent 默认我们使用SpringBoot的方式是通过SB的parent项目的 ...
- Java零基础系列003——变量
Java零基础系列003--变量 //变量(variable):程序中最基本的存储单元,包括变量名.类型.作用域 //变量应该先声明,只有声明后系统才会为其分配相应长度的存储空间,变量实质上就是存储单 ...
- WebOffice开发系列05-菜单控制
WebOffice开发系列05-菜单控制 由于控件升级 现在控制菜单有两种方式: 新接口: 屏蔽菜单 1.<2003屏蔽所有的菜单,除了参数的4个菜单. 2.<2007 功能区隐藏.当 p ...
- 基于TI TMS320F2837x系列的单/双核32位浮点MCU控制器+ Xilinx Spartan-6低功耗FPGA核心板
由创龙自主研发的SOM-TL2837xF核心板,大小仅有72mm*44mm.采用沉金无铅工艺的8层板设计,专业的PCB Layout保证信号完整性的同时,经过严格的质量控制,非常适用于高速数据采集与处 ...
- Python解决控制问题系列之二:线性连续系统最优控制问题
Python解决控制问题系列之二:线性连续系统最优控制问题 文章目录 Python解决控制问题系列之二:线性连续系统最优控制问题 1. 前言 2. 线性系统问题描述 3. Python 编程 3.1 ...
- 腾讯四个项目入选“科创中国”系列榜单 其中TDSQL入选先导技术榜
2月24日记者获悉,由中国科协指导主办的2021年度"科创中国"系列榜单正式发布,腾讯云企业级分布式数据库TDSQL入选2021年度"科创中国"先导技术榜,TD ...
- PLS系列001 数据预处理
偏最小二乘法中的数据预处理 1 数据预处理 1.1 均值|方差|协方差|相关系数 1.2 数据标准化 Reference 1 数据预处理 1.1 均值|方差|协方差|相关系数 矩阵数据表X=(x1,x ...
最新文章
- python中opencv中inrange用法_python-opencv中的cv2.inRange函数
- 我的日常工具——gdb篇
- hdu 3788 字符串
- mrc20温控f1什么意思_精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?
- Redis安装教程【Windows]
- 华为终端云服务赋能“智能座舱”,打造出行场景的“超级终端”
- c#二次开发明华URF-R330读写器读写问题解决方案
- 云学算法之Ackerman阿克曼函数的python实现
- 【文档+视频】Verdi基础教程
- 网站做SEO优化的5个理由
- win10开始菜单没有反应
- php直播源码平台开发过程中使用第三方sdk
- 对接飞鹅接口一直提示未注册
- ossec是干什么的?
- 关于跨境电商货源——扬帆牧哲
- 搜索引擎基础及核心思想
- 面向对象设计的六大原则
- 2030肢解中国-美国全球战略与中国危机(戴旭)
- 高校计算机基础教学改革探讨
- Winform打包工具SetupFactory 9 的使用
热门文章
- 2013时尚答卷吸金女王吴莫愁打牌代言超王菲
- 惯性测量单元 (IMU)、全球定位进行建模系统(GPS)和惯性导航系统(INS)建模
- html5图标用什么格式转换,.ico格式图标制作转换教程及DIY桌面图标的方法
- 数字形态学-QRS波中的R波检测
- 按键使蜂鸣器发出报警声
- 制作linux启动镜像内核,Linux使用mkisofs制作启动镜像
- 关于双频/多频腔体滤波器的相关paper汇总
- python里find是什么函数_解释python中.find( )函数的作用?
- 2021地理信息技术与应用技能大赛比赛试题
- 南文公关:后网红时代如何抓住企业营销核心