2018个人总结

Author:louwill

目录

  • 写在前面

  • 年初的flag

  • 不是特别充实的一年

  • 当前的技术栈

  • 当下环境的思考

  • 结语

写在前面

这是一篇统计毕业生的年度总结,仅从一名普通数据从业者的角度阐述一年多来学习、工作经验总结、自我认知与成长、对数据科学和人工智能未来发展思考以及2019新的进击计划。一年多的职场锻炼,深知当下的自己微不足道,对标一些优秀的朋友是全方位的落后,写这篇文章的初衷,一来是延续去年年末对自己的阶段性经验总结、二来是对过去一年给予我帮助的各位老师、同学、同事和朋友们表示感谢,此外,若是对一些和我有类似背景或者学习数据刚入门的朋友能够有所启示和帮助的话,那就善莫大焉了。

 

年初的flag

去年此时,还是一个入职不过两个多月的萌新,技术上菜鸡一枚(虽然现在也还是很菜),业务上也经常两眼一抹黑,那时我这样写道:

所以2018年,在个人学习上我想着三件主要的事,第一就是夯实和钻研机器学习算法,这一块有平时的工作和kaggle、天池算法大赛进行驱动,是必须实现的任务。第二个核心任务就是精通Python,这也是有日常工作为导向,将Python作为全栈式的编程语言来学习和应用,而不是仅仅作为数据分析语言。第三个就是恶补计算机方面的技术,包括linux、数据结构、web前端以及等等其他方面的内容,这方面不给自己定明确的目标,以实际工作和个人自主学习为导向进行学习。

 年初的flag

这是去年过完年初七回到学校的时候发的一条朋友圈,现在看起来仍然鸡血满满,豪情万丈。然而年初立的这些个flag,现在来看,几乎没有一条是完全完成的。这一年虽然对机器学习有了本质上的理解,但远远还做不到通透明澈,数学上(凸优化)也欠了一些债,到现在也没还清。比赛简单的做了几个,但投入的精力有限,也并不是很擅长与一干大佬比千分位、万分位上的特征工程,所以成绩并不突出。这一年Python能力虽然有了长足的进步,但要说精通可真是大言不惭了,之前入门时觉得Python比R语言还要简单,等到自己技术观逐渐走向成熟时再来看,这样的想法简直是 too youngtoo simple。年少无知,总想着精通这个精通那个,更多时候是被生活的焦虑蒙蔽了理性。和R一样,Python也是一门学习曲线极为陡峭的语言,要想在没有C++的前提下精通Python,我猜怎么也是个手撸过数万行代码、Python官方文档手到擒来、流畅的Python读过好几遍的狼灭吧。至于第三条,Linux水平我到现在还是个弟弟,vim练到第二层就止步不前了,更不要说深入了解了、数据结构与算法这一年是断断续续学了几回,到现在仍然是很菜的水平、Web前端就不说了,仅有爬虫阶段分析网页的水平。

自己立的flag自己来解读,完成不了只能来年接着立,要求可以定的高一点,努力追赶就是了。

 

不是特别充实的一年

2018年总体来说是值得好好总结的一年,研究生毕业、正式工作满一年以及成功开拓了一点小副业,这些都是值得说道的事情。在完成了一篇极为玄乎的毕业论文之后3月份正式从学校毕业:

毕业设计

当初无知者无畏,凭着学了点贝叶斯统计就敢写这样的题目。下半年看了一段时间的概率图模型之后再回过头来看自己的毕业设计,大小毛病能挑出一箩筐。这里也必须感谢导师在读研期间给了我极大的自由度,让我一直在应用概率统计方面自主发挥,虽然没什么学术成果,但好歹数理功底一直都在。

 和导师、女朋友的毕业合影

客观的讲,第一年的工作对我这样的应届生而言还是太友好了,一方面暗自庆幸,庆幸每天下班之余还有足够的时间和精力供自己学习、读paper以及练习代码,但另一方面,工作上的一种相对强度不高的节奏、实际项目历练不够又使我非常担忧,担忧这种状态下成长的不够快。具体工作上,实际做出的东西也极为有限,上半年做了很多数据处理方面的工作,下半年则是更多的做了一些模型、图像算法之类的工作,生产环境下的实际项目锻炼并不充分。所以我在标题了用了不是特别充实的一年作为工作上的总结。当然,缺点和不足说在前头,一年来的工作依然收获满满,部门领导关照有加、对我们在个人发展方向上给了极大的自由度,也得以让我在实际工作中找到自己真正的兴趣所在。

 小组presentation

七月份的时候,应天善智能勇哥的邀请,在天善了做了一场机器学习的免费直播课,承蒙勇哥看重,让我有机会将自己在数据分析和机器学习上的学习经验分享给大家,也因此认识了更多的圈内朋友。

天善直播主题

九月份又在勇哥的支持下在天善推出了自己的第一门机器学习课程,虽然销量很一般,但却给了我很多动力,将来要是企业混不下去了专心讲讲课也是不错的选择。当然,开课本身就是一个对知识进行系统化总结归纳、对理论进行实验验证这样的一个过程,你需要认真准备课件、反复试验好代码、合理安排好知识章节、控制好措辞和形成好讲课风格,这些要素叠加在一起就会使得你对一门课和一个知识体系有着深刻的理解。

 天善机器学习课程

2018继续给我以正面影响的还有狗熊会,跟狗熊会各位老师有了更进一步的合作,上半年有幸参与了雪宁老师的R语言教材的编写,写作过程收获到了很多,在此感谢当初一直督促我的雪宁老师。

 R语言教材序言

另外在狗熊会水妈老师的鼓励下,在狗熊会公众号持续发表了20篇(还差最后一篇)的深度学习系列文章,虽然个人水平有限,但“熊大”王汉生老师一直说文章阅读量很可观,读者反馈很好,就权当是对我的鼓励吧。十月份去了北京狗熊会总部,有幸现场体会到狗熊会团队有趣的数据科学教学方式,和狗熊会各位老师有了深入的交流,在此一并表示感谢。另外下半年有幸参与王老师主持的深度学习教材的撰写,和王老师、政委老师一起完成了书稿的前四章,王老师对于学术一丝不苟和精益求精的态度让我学到了很多,希望书稿后面能在狗熊会团队的加持下早日面见读者。

狗熊会深度学习系列推文

 和熊大王汉生老师

2018年,继续作为数据圈内大佬邓凯哥创立的爱数圈内的R语言组组长持续带了五期R组(目前第七期)的圈友学习,虽然效果一般,但也因此结识了更多的数据爱好者,其中不乏一些优秀的朋友,今年计划除了投入更多的带组精力之外,也计划和凯哥以及圈内的讲师团一起贡献出更为优秀的课程作品。2018年还需要感谢的是华东师范大学统计系的汤银才老师,感谢汤老师一直以来对我的看重和鼓励,汤老师渊博、和蔼、以及极度关照后辈在我心中一直是做学问做老师的典范。

当前的技术栈

终于要正经一点的聊技术了,当然对于一名数据从业者而言,这里的技术当并非是开发方向的纯技术,对于数据分析和数据挖掘方向而言,数理水平在整个技术栈上要占很大的比例。2018年个人技术上值得总结的有三点,第一就是Python完全取代了R,本身是统计方向,又不是计算机科班,在校期间接触和使用最多的自然就是R语言,R轻巧、强大、对于统计的支持是全方位的,但内存管理、并行计算和package质量参差不齐等缺点都限制了它在工业界的发展,所以我们现在看到大多数数据岗位招聘要求掌握的编程语言是Python。这里并不是说R的坏话,因为我本身就是一个R user,R一直有着强大的社区力量,我也打心底祝愿R语言的未来越来越好。

但Python就尽善尽美了吗?显然不是,现在Python各种火热和强势、媒体宣传以及培训班等等一定程度上造成了行业的虚假繁荣,同样的情况对于人工智能也适用。现在想靠报个培训班、会跑几个py程序就找到一份数据相关工作没那么容易了,大量非计算机专业的毕业生转行做算法也一定程度上对这个行业造成了供大于求的局面(参看今年今日头条算法岗的秋招情况)。Python的高度集成和封装的特点一定程度上弱化了用户的编程能力,尤其是对于拿Python来做像机器学习这样非开发的活的时候,就是调各种API的过程。这里不是说Python不重要,它反而很重要,大家都在用,你不用,很显然无法做技术对接。我的观点在于,在Python门槛越来越低的情况下,你是否要考虑到新学一门语言的情况。比如说你是数学专业出来做了计算机视觉,虽然Python一定程度上可以对付部分工作,但要想深入cv这个方向,C++你总得学吧,更何况Python的底层就是C呢。

第二就是强化了机器学习研究,对深度学习全方位的入了门。今年除了工作上做的一些模型之外,还做了天池和kaggle的几个比赛来练手,当然也没有投入特别多的精力去做特征工程,对机器学习本质有了一定的认识。目前看来,在应用上机器学习模型主要就是集成的树模型和神经网络。传统的单模型在大数据场景下的表征能力很难比得过集成学习,虽然说没有免费的午餐定理和奥卡姆剃刀原理告诉我们同等情况下模型越简单越好,但选择一个机器学习模型的考量是多方位的,单一的衡量方法肯定不行。神经网络已经被证明对于图像、声音和文本这些非结构化的数据具备极强的表征能力,所以在数据量可观的情况下,目前机器学习的模型应用上我觉得就刚刚两个方面:结构化数据上集成树模型(GBDT、XGBoost、lightGBM等),图像、声音、文本等非结构化数据就上深度学习。

今年下半年也因为工作上的方向变化得以开始全方位、系统的学习深度学习。从6月份开始到12月底(中间有短时间间断),系统的把Andrew NG的deeplearningai五门课、cs231n计算机视觉、cs224d自然语言处理以及Goodfellow的深度学习(花书)全部过了一遍,配套代码demo最后写了60篇深度学习笔记,其间也配着精读、泛读了相关经典论文40多篇,60篇笔记发在公众号上也有着相对可观的阅读量,这应该是今年自我学习上最大的成就了。详细内容戳这里

深度学习笔记60讲部分截图

第三个有点虚,就是了解了计算机各个领域的知识体系和发展方向。虽然是数据从业人员,但得益于部门领导的“全方位发展”方针,一年下来对于前段、后端、开发、数据库、BI、运维、测试等领域都有了一些了解,至少长了足够的见识。

 部分技术栈(局部)

后来逛知乎看到了安全公司知道创宇给出的研发技能表,深深感到计算机知识系统的无穷无尽,对于个人而言只能做到精钻一两个方向的基础上尽可能的扩大知识面。

知道创宇对于熟练和完成的定义

所以总结而言,目前个人在技术上还是菜鸡一枚:2019年强化个人在Python、数据结构与算法、机器学习、深度学习、Linux和数据库六个大方面的学习和实践,将其作为核心能力和核心竞争力来锤炼。开始学习C++,争取不只靠Python混口饭吃。

当下环境的思考

第一个要谈的是互联网寒冬。去年下半年一直到现在,大家似乎都在经历着所谓的互联网寒冬。6月份以来开始的P2P暴雷、高校应届毕业生创历史新高、中美贸易战、头条知乎美团等大厂纷纷爆出裁员和缩招的新闻,一时间互联网圈子似乎人心惶惶,各种担心丢饭碗。但是理性来看,尤其是咱们人工智能和数据科学行业,这两年的热度和高薪使得大量相关专业和非相关专业的毕业生涌入,势必会造成这种供大于求的局面,一来二去,企业自然要淘汰那些不够优秀的员工。作为企业的一个螺丝钉,无论是否真的有互联网寒冬,咱们能做的就是不断提升自己的技术水平、业务能力和学习能力。在知乎上看到的某位大佬说哪有什么互联网寒冬,技术强大、业务能力强的人永远没有寒冬,技术不行和学习能力差的人每年都是寒冬,深以为然。

第二个是关于整个数据行业以及人工智能的行业思考。大家都知道机器学习、深度学习现在很热,这也导致大家挤破头往里扎,网上也有很多关于人工智能还能火多久的疑问。个人一点的小看法:目前工业界机器学习和深度学习理论算法已趋于成熟,想跟何恺明一样在算法上一直搞大新闻就不要想了。在算法成熟的情况下,大数据+强算力的发展模式已经逐渐形成。未来AI发展的好的行业一定是那些本身数据量充足、业务场景明确、数据商业价值清晰的行业。至于弱人工智能何时发展成强人工智能那就不是我们要操心的了。

结语

东拉西扯说了这么多,有些地方还有些语无伦次,大家勉强凑合着看吧,并不是很有成就感的一年,但一定是有进步的一年。2019继续打造自己的知识体系,重点形成理论到工程再到自我经验总结的闭环,整合微信公众号、知乎创作者中心、印象笔记和GitHub的联动框架,积累、沉淀和总结。

先给大家拜个早年,与诸位一起奋进。


一个数据科学从业者的学习历程

长按二维码.关注机器学习实验室

一个统计数据人的职业生涯第一年相关推荐

  1. 推荐 | 一个统计硕士的深度学习算法工程师的成长之路

    公众号推荐 推荐人/文文 俗话说,一个人走得快,但一群人可以走的远.在数据科学和机器学习的道路上,相信每个人都不是闭门造车的人.技术学习除了在个人努力外,交流和分享也是很重要的一部分. 今天给大家推荐 ...

  2. oracle stalestats_深入理解oracle优化器统计数据(Optimizer Statistics)

    理解oracle优化器统计数据 首先来介绍oracle数据库使用基于规则优化器(RBO)来决定如何执行一个sql语句.基于规则优化器顾名思义,它是遵循一组规则来判断一个sql语句的执行计划.这组规则是 ...

  3. 数据人故事——【五花肉】7年数据产品的职业成长之路

    作者/五花肉 前网易出口大数据产品经理一枚 负责过数据采集.bi系统.ab测试.画像平台等应用层平台搭建 酷爱健身.钟爱咖啡.喜爱摩托.热爱生活 各位小伙伴们大家好,很高兴可以通过<一个数据人的 ...

  4. 计算机控制系统的品质指标,浅谈统计数据质量控制方法

    摘 要:统计数据质量的好坏,是许多工作和许多统计工作环节质量的综合反映,牵涉到统计工作的所有部门和人员.统计数据质量控制的原则应当是以预防为主的数据质量控制. 关键词:统计数据 质量控制 1.统计数据 ...

  5. excel 统计数据

    #读excel import xlrd from xlutils.copy import copy bookData = xlrd.open_workbook('20230103.xlsx') #co ...

  6. 数据结构与算法学习篇给你一个文件里面包含全国人民(14亿)的年龄数据(0~200),现在要你统计每一个年龄有多少人?

    给你一个文件里面包含全国人民(14亿)的年龄数据(0~180),现在要你统计每一个年龄有多少人? 限制: 给定机器为 单台+1CPU+1G内存.不得使用现成的容器,比如map等. 假设每个年龄数据为2 ...

  7. 干货 | 如何做一个有职业规划的数据人

    本文转载自公众号"秦路"(tracykanc),已获得授权. 随着近几年数据分析行业的大热,大量的新生代与职场人才都想要投身这一行业,却对职业发展前景迷茫.本文就作者互联网工作经历 ...

  8. 从Apache的日志文件收集和提供统计数据(一个Python插件架构的简单实现)

    从Apache的日志文件收集和提供统计数据 这一章我们将介绍基于插件程序的架构和实现.作为例子,我们将构建一个分析Apache服务器log文件的框架.这一次我们不再使用单片机的方式来创建,而是改为采用 ...

  9. 用一维数组统计五个人的成绩中的最大值最小值平均值_昨天为了整理这份教程,我放弃了参加一个几亿人的大项目。...

    昨天为了整理这份教程,我放弃了参加一个几亿人的大项目. 有人说Python吊打Excel,作为一个有着7年Excel的数据分析师,我表示不服. 看完我这个回答我相信你不用再看别人的回答了! 昨天猫双1 ...

最新文章

  1. Android组件系列----BroadcastReceiver广播接收器
  2. 【大数据】Zookeeper学习笔记
  3. 【计算理论】图灵机 ( 非确定性图灵机 与 计算树 | 非确定性 | 非确定性图灵机 与 确定性图灵机 相互模仿 | 非确定性图灵机 -> 确定性图灵机 )
  4. php用什么做缓存文件格式,怎么用php语言来做文件缓存
  5. 分库、分表、分区的区别,傻傻分不清?
  6. Spring和MyBatis的整合
  7. Java SE 11:推动Java向前发展
  8. ccs安装多版本编译器离线_大数据分析:学习工具JDK,在线安装指南
  9. 如何优雅地进行接口管理?(大厂内部分享)
  10. dispatch js实现_js实现对象自定义事件,触发,on监听事件的方式
  11. 设计模式:抽象工厂模式,结合类图秒懂!
  12. 心理学中的效应简单解读(r12笔记第24天)
  13. 求有限区间内素数个数
  14. 电脑系统32位和64位有哪些区别
  15. espanso-跨平台文本扩展工具
  16. 计算机课程布置作业,计算机基础课程作业布置与批改方式-计算机基础课程有哪些.pdf...
  17. Win10 64位系统安装Microsoft Visual Studio和Intel Fortran(非正式名称)
  18. 红蓝对抗——蓝队手册
  19. 《你当像鸟飞往你的山》笔记
  20. 关于语音识别技术的初探

热门文章

  1. Ubuntu设置桌面背景
  2. linux硬件性能,Linux运维知识:Linux下的硬件性能测试工具汇总
  3. drupal安装教程mysql_drupal简单安装和插件安装
  4. 如何去掉IFrame里面页面周围的空白
  5. P7901 「PMOI-0」潇湘の雨
  6. 简单介绍进销存管理系统的核心功能有哪些
  7. 人工智能 java 坦克机器人系列: 强化学习_Java坦克机器人系列强化学习
  8. BGS本地局域网视频系统源码
  9. NOIP2015游记【OI,再见
  10. 【渝粤教育】电大中专电子商务网站建设与维护 (15)作业 题库