今天做的事情主要有四:一是继续阅读Low-Rank方面的文章,二是针对对齐的那篇文章进行了进一步的思考,三是写口碑比赛的代码,四是读《菊与刀》。

Low-Rank文章

今天继续了昨天的读论文过程。读到利用Low Rank结构进行Subspace clustering的文章,虽然有很多地方不能理解,但是大体熟悉了整个步骤,明白了这个方法可以用来做什么用。

这种方法首先得到原信号的“关联矩阵”,再对关联矩阵(affinity matrix)应用谱聚类(spectral clustering)的算法例如(NCut),最终得到属于每个子空间的samples。我之前熟悉的唯一聚类方法是K-Means,这种新方法的很多做法都让我觉得不理解,如果想要完全理解,可能还需要去阅读之前许多类似的Subspace clustering相关文章。这里,我只重点看它是如何应用Low-Rank方法的,而忽略了文章的其他部分。

假设 X0=U0Σ0VT0 X_0=U_0\Sigma_0 V_0^T是一组“纯”的信号(来自几个不同子空间,并且没有Outlier或噪声),那么 V0VT0 V_0V_0^T应该具有“分块对角”的特性,即只有当第 i i个信号和第jj个信号来自同一子空间时,该矩阵的 i,j i,j元素不为0。所以之前的方法直接对输入信号 X X进行SVD,用VXVTXV_XV_X^T进行子空间聚类。当然这种方法对噪声和Outlier敏感。因此如下假设:

X=X0+E0

X=X_0+E_0
随后文章做了3个程度的假设,由特殊到一般地描绘了噪声的程度,不详细说。
那么哪里用到了Low-Rank呢?文中又做了如下的处理:

min(Z,E)rank(Z)+λ||E||ls.t.X=AZ+E

\min_{(Z,E)} \mathrm{rank}(Z)+\lambda ||E||_l \quad s.t. \quad X=AZ+E

这里 A A是“字典”。为什么要求解这个问题?后面文章证明了这个问题的解Z∗=U∗Σ∗V∗TZ^*=U^*\Sigma^* V^{*T}中的 U∗ U^*与上面的 V0VT0 V_0V_0^T矩阵有关。这个问题文中把它转化为 ||⋅||∗+||⋅||2,1 ||\cdot||_*+||\cdot||_{2,1},之后用ALM进行了求解。

虽然不太懂整个文章的过程(因为没有看具体证明),但是Low-Rank的使用和求解还是与之前看的几篇文章大同小异。重点还是对具体问题的建模,即如何把问题转换为Low-Rank可解决的问题。

对齐问题的新思路

因为涉及到可能要写在论文中的内容,不能发表在博客中。

竞赛

今天所做的事情是在整理好的数据基础上,把预测的大体框架写出来。我总结一下目前数据处理这一步有以下几个问题:
1. 缺失值的处理
2. 数据波动大的问题

缺失值包括在训练数据中的缺失以及预测数据中的缺失。例如在时间序列的模型lag=7的模型中,开始预测日期(11月1日)前7天的数据缺失属于后者,其他属于前者。这两者的区别是前者可以忽略,但后者必须想办法处理。

数据波动大,这包含了一周之中每天的客流量差异,以及随机噪声的成分。我目前的处理是用hp滤波器过滤掉不平滑的部分,得到较为平滑的数据。这样做应该不会影响到数据的seasonal特性。

在特征选取,我目前是用最简单的时间序列的思路,使用前几天数据加上dayofweek形成特征,训练RF模型。RF模型也暂时没有cross validation来进行调参。

这样做的结果用眼睛看上去好像还不错。虽然我知道这很不靠谱。前7天作为特征的话,几乎只能学习到一些短期变化趋势,而这个竞赛更重要的应该是稍长期的变化趋势更为重要。根据这个思路后面的时间再慢慢调整模型和特征。

读书

《菊与刀》读到三分之二的位置了。在看昨天的《银魂》的时候,我开始去考虑这部作品,它的国内观众和国外观众看待它的不同。之前我总觉得,动漫中的有些反面角色被奇迹般的洗白,但是在洗白之前他所做的事情让我感觉不可饶恕。就算是最终发现他是出自好的目的,也不能在内心去接受。比如《银魂》中的高杉、《火影》中的团藏和鼬。日本人会在义理的基础上,把复仇看作是正当的行为,即使复仇违背了法律,伤害他人的感情。恩、义理,在他们的心中才是最占主导的,而不是我们崇尚的正义、仁义或是个人感情。所以鼬为了忠而杀全家,仍然能得到理解和赞许。了解了这些以后,我在看动漫时又是全新的角度了。

《曾国藩家书》昨天晚上我看到了让自己感悟最深的一封。作者在文中提到节劳、节欲、节饮食的保身之道,以及有志、有识、有恒的目标,我觉得也是我自己勉励自己的关键问题。有识要看天分和运气,而有志和有恒都可以通过个人努力做到。我每天记日记做记录就是希望自己能够有恒。每隔一段时间写心情,也是要有恒。每周坚持锻炼,也是要有恒。作者提到慎交友,“在一些没见识的人中间,会被他们嘲笑,会成为他们的同类”,也让我深有同感。我经历过身边都是损友的时光,确实很影响自身的进步和感情。以后的经历中,一定要仔细选择身边的人。

2017.2.16 日课相关推荐

  1. 2017.2.18 日课

    比较空虚的一天,只能写个比较空虚的摘要. 今天上午快10点才到实验室.抄了几页面经笔记以后就觉得不想动了,开始思考以前的事情,越想越不是滋味,觉得很委屈.中午觉也没睡好. 下午去医院打第四针狂犬疫苗. ...

  2. 2017.2.14 日课

    今天一天做了两件事,上午写天池的口碑预测竞赛,下午读low-rank方面的论文,来寻找dual-camera结构图像对齐的思路.闲书方面,读完了<对冲基金到底是什么>. 天池口碑竞赛 在这 ...

  3. 2017.2.19 日课

    今天读了一整天的<福尔摩斯>.读完了<血字的研究>和<四签名>.晚上写周报写了两小时,不胜其烦. 福尔摩斯系列从小就如雷贯耳,今天才第一次拜读.Kindle从早晨几 ...

  4. 2017.2.15 日课

    今天做了这么几件事:读lucas-kanade 20 years on这篇论文,对着IAT的代码理解整个算法的框架.略读了Hyperspectral image restoration using L ...

  5. 2017.2.17 日课

    昨天的日记拖到今天才写.昨天凌晨因为腹痛疼醒,一整天昏昏沉沉的,中午睡醒以后更是很不舒服.上午做了两道编程题,下午又零碎做了几道,之后给老师汇报和交流想法,温习面经抄了些笔记. 昨天的内容拖到今天才写 ...

  6. 最新手机号段归属地数据库(2017年4月16日版)免费下载

    2017年4月16日版   360569条记录 最新 手机号段数据库 号码归属地数据库  移动号段 联通号段 电信号段 14号段 170号段(虚拟运营商)    权威  全面  准确  规范 字段包括 ...

  7. 武汉数字工程研究所计算机软件分数,武汉数字工程研究所2017考研成绩查询时间:2月16日...

    2017考研复试调剂群 460216643 一.成绩公布 湖北省2017年全国硕士研究生招生考试成绩由各招生单位公布,湖北省教育考试院于2017年2月16日在官网上公布统考科目成绩. 武汉数字工程研究 ...

  8. 【2017 数据技术嘉年华】9月16日成都站盛大举办!

    简 介 第七届"数据技术嘉年华 - 成都站"将于2017年9月16日隆重举行,这是由中国最大的 Oracle 用户组 ACOUG 倡导并组织的国际化高端数据技术盛会,届时将有行业顶 ...

  9. 一周第一次课(10月16日)安装linux

    学习之初: 学习课程的目的什么  (提升自己拿高薪) 学习完课程做什么职位(系统运维) 学习完课程在哪个城市发展(郑州) 1给自己设定目标: 何时学完:(10月16日到2月16日) 何时跳槽 第一份薪 ...

最新文章

  1. 使用Chrome扩展金山词霸取词划意
  2. 借助液态金属传感器和AI,这次机械手可能真的找到感觉了
  3. C语音和易语言实现内存补丁
  4. 思科网络CCNA的学习笔记-关于IP和子网的计算
  5. HDU 6029(思维)
  6. 大数据小白系列——HDFS(1)
  7. 【PL/SQL】PL/SQL介绍
  8. mysql多租户视频_数据库实现多租户支持的思路
  9. 软件工程需求分析方法
  10. 奥维kml文件制作工具_如何将平面控制点导入Google Earth、奥维互动地图及手机奥维互动地图APP里面?...
  11. Frame-Relay基础及配置学习笔记
  12. FFT+NNT 深入学习记录 秦皇岛camp 乒乓球
  13. mysql unknown option_在cmd下输入mysql: [ERROR] unknown option '-- '.是什么意思啊,求解
  14. 光盘如何重装系统教程
  15. (新 ※必看)解决VMware由于卸载不干净导致安装出现“用户在命令行上发出了 EULAS_AGREED=1,表示不接受许可协议。”
  16. nfs服务器随机读写性能,linux nfs 读写性能
  17. 非容器化Jenkins连接Kubernetes
  18. 【产品经理】身为产品经理的你,该如何持续改进产品?
  19. Swin-Transformer图像分类
  20. 免费的手游联运系统可以使用吗?

热门文章

  1. PPT文档幻灯片如何添加背景
  2. 小说作者推荐:去看鲸鱼吧合集
  3. JVM类加载、加载机制、加载器
  4. 分享|教育信息化2.0:教育大数据解决方案(附PDF)
  5. 蓝桥杯题目练习 提升篇 [蓝桥杯2019初赛]迷宫
  6. element-UI中NavMenu导航菜单默认打开问题
  7. 国外物联网平台(1):亚马逊AWS IoT
  8. git解决冲突的方法
  9. JAVA字符串常量和变量
  10. 重入锁 ReentrantLock