来源:图灵 TOPIA

作者:Mohammad Shahebaz 编译:刘静

本文作者 Shahebaz,毕业于 JNTUH 大学电子与通信工程学院。他最近在 Kaggle 比赛中获得了 4 枚银牌和 1 枚金牌奖牌,并且拥有 31 枚讨论金牌,他现在是其所在国家(印度)最年轻(21 岁)的 Kaggle X2 Master。

他表示,介绍进入数据科学领域所需技能的文章有很多,分享成功经验和意见的访谈也不少。但很少能找到文章具体介绍他们是如何开始自己的数据科学之旅的。所以,近期他在 Medium 上撰文分享了自己的成长经验。他表示,刚开始的时候,自己也是个菜鸟,对很多知识并不是很擅长;并且,数学也从来不是自己最喜欢的科目。然而,今天他却很热爱这个领域。。。以下是文章具体内容:少有人走的路
我是最近才开始参加比赛的,并且在过去的 9 个月中,在各种比赛中赢得了一堆奖牌。这听起来是不是挺神奇的?我曾经特别害怕参加 Kaggle 比赛,因为 - 觉得它们很难!那么,这一切是从什么时候开始改变的呢?2017 年,作为 Oppia.org 的会员和活跃撰稿人,为了更好地工作,我开始学习Python 2.7。后来我学会了所谓的 “过时” 的 Python2.7 版本,但是又不得不重新学习 Python 3。我几乎无法创建列表或 add/join 字符串,那时我也只是一名新手程序员。我在开源贡献期间学习了编程,使用 git 进行软件版本控制,以及意识到了良好结构和文档化代码的重要性。有一天,我正在搜索 Python 2.7 还能做什么的时候,浏览了一下互联网并登陆了 Kaggle。著名的 Kaggle 声明(statement)正盯着我,读完问题声明后,我惊奇地盯着屏幕。

“在这次挑战中,我们要求您完成对哪些人可能存活的分析”


当我读到这个。我感觉到了像追星族般的惊奇。预测幸存的人?这是什么样的黑魔法?我甚至立刻检查了 Kaggle 网站的真实性,第二个惊奇的时刻就是我意识到 -

数据科学听起来像是 21 世纪非常真实的科幻技术!

就像一部科幻电影突然在我的现实生活中出现,它的概念对我来说完全陌生。我决定让自己进入这个领域。而对数据科学学习的热情一直在我身上保持。(老实说,即使今天也没有任何消减)我是如何学习的?推荐资源?
选择的悖论 —— 越多越少如今,网上有很多课程。通过谷歌搜索 - “如何成为数据科学家” ,你就会得到许多结果,也就很容易陷入选择的悖论。这种感觉就像在餐馆里从琳琅满目的选择中选择一道美味的开胃菜。就本文的范围而言,我将列出我最喜欢的几本书。Python 推荐如果您使用 Python 编写代码并且您的技能处于中间水平,则本书应该放在您的书架上。《Python 的数据结构和算法》由 Michael T. Goodrich,Roberto Tamassia,Michael H. Goldwasser 撰写。《Python 中的数据结构和算法》
本书深入探讨了 Python 中的 OOP,数据结构和算法的概念。我喜欢本章每一节的练习。在制作需要优化和格式化编码的车库项目时,我仍然将其用于日常参考。着手机器学习基础知识结束 Python 基础知识之后。我买了几本关于机器学习的书,我推荐这本书;《用 Python 学习机器学习》
《用 Python 学习机器学习》,作者是 Andreas C. Müllerand Sarah Guido它涉及机器学习的基础知识,由 scikit-learn 的创始人自己编写,它是一本完整的初学者入门书。读这本书让我非常熟悉 scikit-learn,我最终还在官方的 scikit-learn 存储库中推了几个 PR。但是,如果您熟悉数据科学并已进入任何机器学习竞赛的前 20%,您会发现上述的书挺无聊的。但是,如果你仔细阅读,肯定有一些方便的技巧和方法可以帮助你在比赛中获得优势。另一本比 MOOC 更值得推荐的书是《Introduction to Statistical Learning with Applications in R》如果我是一名面试官,我会找一个在理论和实践中理解 ISLR 的人。《ISLR》这本书是关于 R 语言的。但是,我仍然十分推荐它。通常在研究背景下,对于想要深入挖掘并达到统计核心的人来说,《统计学习的要素》是非常推荐的一本书。ISLR 和 ESL 这两本书都是可以免费下载的。因此,您不必破费,就可以获得免费的机器学习知识。《统计学习的要素》人们经常问我 - 你学习机器学习的 MOOC 是什么?答案是 None。我发现在线课程没有效果。至少,我注册的那些没有效果。有以下几个原因:

  • 与书籍相比,在视频中很难找到概念参考;

  • 书籍会深入足够的细节。

这并不意味着我讨厌 MOOC。事实上,我计划在今年完成一些工作。我建议你把基础打牢,而不是专注于观看只针对单一课程的视频内容。阅读书籍和资源肯定扩展了我对某些概念的认识,我现在可以从不同的角度来解释这些概念。初学者的生活
我经常在 LinkedIn 上收到想要从事数据科学的人发来的信息。但痛苦的现实是,根据你之前所做的,学习曲线并不陡峭。我会让你从我的经历中走出来。这是我当时的问题:1、如何开始使用数据科学?2、我完成了一堆算法。接下来做什么?3、如何找到工作并搞定数据科学面试?4、做 Kaggle 值得吗?比赛会有所作为吗?
我非常渴望得到这些问题的答案!
现在,我已经通过了系统的学习,可以用一句话回答你:事情没那么简单,这很复杂。部分原因是术语 — 数据分析师、数据科学家和 ML 工程师是三个不同的头衔。这份工作的性质因公司而异。数据分析师有时只能执行 SQL 查询,或者构建模型或进行业务分析。有时他们也会成为项目经理。数据科学家有时制作基本模型,其他角色需要博士学位。研究工作和很少的其他工作需要在大型系统上进行模型调优和部署。ML Engineer 是融合了数据科学知识的软件工程专业知识问题是……

您的梦想数据科学工作没有固定的职位描述。

许多公司仍在搞清楚 “究竟什么属于数据科学,应该关注哪些问题”。在这种情况下,你的学习必须是连续的,而不是受 MOOC 课程时间限制的,这一点变得非常重要。追随你的激情,解决问题。比如从你的 Android 手机上收集数据,汇总推文研究你最喜欢的演员的粉丝,在《复仇者联盟 3: 无限战争》中应用奇怪的机器学习案例等等。我的图像说明项目想象力是无限的,ML 也有无限的可能性。现在让我们来探索成为一名更好的数据科学家的能力技能。数据科学爱好者的目标清单
该列表适用于数据科学家角色,但是如果您申请领域特定的角色,则可能需要更多的技能。1. 掌握统计和概率:比较容易,这项技能数据科学领域的面包和黄油。我强烈推荐面包优先的方法,除非你是写研究论文或在学术界的角色。在现实世界中,虽然在编写代码时不会经常使用 stats 知识。但是,掌握好 stas 知识不仅能让你成为更好的数据科学家,还能帮助你做出关键决定。2. 参与数据科学竞赛:主要是学习不一定非要赢比赛。我明白在比赛中获胜并且赢得奖金听起来有利可图。我花了 100 多场比赛才进入我的第一个 50 强排行榜。没有人从第一天开始就是赢家。比赛将帮助您在竞争激烈的世界中回顾自己的成长。3. 你的项目是你自己最好的代言人:使您的 GitHub 配置文件保持活跃并完成至少 2-3 个项目,包括文档的最终实现。虽然比赛是应用你的技能的一种方式,但是对他们的反对声很大。比赛并不是现实世界数据科学任务的同义词。他们就像在一家五星级餐厅品尝现成的拼盘。从头开始贡献或处理项目将使您在实际数据科学任务中获得经验,这些任务才被认为是最重要的。数据科学 & 其他
如果你正在寻找一个职位,如果职位描述要求你全能:既要求你是数据科学家又要有 8-10 年 “spark” 经验。

赶紧跑吧!(Spark 是 2011 年推出的!)

有很多公司只是因为媒体炒作或者人云亦云的趋势而想要去推动数据科学。有时候,他们需要的只是.groupby (),而不是机器学习。未来的工作角色将会大不相同。作为一名数据科学家,请确定您想要进入的领域。目标是你在那个领域的项目和竞赛。招聘人员更倾向于雇佣已经从事过公司目前正在从事的工作的人。

假设你要去一家餐厅吃海德拉巴 Biryani。你会喜欢一个刚刚在 YouTube 上看过菜谱的新厨师,还是喜欢一家专门制作正宗海德拉巴 Biryani 的餐厅?公司也是如此。他们想要的是一个有经验的人。

例如:我经常坚持参加金融领域和 NLP 的竞赛。这是我几个月前接受采访时最大的优势。我可以问更多与领域相关的问题,了解公司目前正在进行哪些项目,以及我认为自己适合哪些领域。毕竟,比工作更重要的是,可以在你最喜欢的项目度过每个星期一上午。写在最后
我遇到了这样一个奇妙的场景,实际上是一个极端的场景。想象一下,如果 Tensorflow 消失了会怎样?您意识到您不再是数据科学家和 ML 工程师了!这个想象很有趣但也合法。未来可能会有一些新的工具和数据科学库。曾经 XGBoost 是商业机密算法,现在它完全开源。明天,其他一些工具将改变数据游戏。AutoML 已经在引领下一代数据科学解决方案。我亲自从 H2O.ai 中找到无人驾驶 AI !
当重复性任务自动化时,业界总会出现问题。让自己了解并学习核心技能,而不是少数库的语法。探索:

  • GAN

  • 强化学习

  • 机器学习可解释性

你需要让自己时刻保持学习和成长。打个比方,如果您自己不进行.transform () 和.fit () 改进,那么您将成为一个 under fit 分类器~

CDA 课程咨询丨史老师

联系电话:18080942131扫描二维码

2年自学,21岁最年轻Kaggle大师之路 (附推荐资源、书籍)相关推荐

  1. 如何自学Python?这本技术大咖推荐Python书籍,就是你的第一选择

    在人工智能的风口,Python越来越火,同时学习Python的小伙伴也越来越多,今天为你们推荐一本Python自学必备的书籍--<流畅地Python>. 为什么推荐这本书呢? 一.口碑优秀 ...

  2. 我的数据科学成长之路:从菜鸟到最年轻Kaggle X2 大师

    作者 | Mohammad Shahebaz 来源 | 图灵TOPIA 本文作者Shahebaz,毕业于JNTUH大学电子与通信工程学院.他最近在Kaggle比赛中获得了4枚银牌和1枚金牌奖牌,并且拥 ...

  3. 用3年时间破解学界200多年难题,年仅21岁的天才竟因谈了一场恋爱挂掉了.........

    全世界只有3.14 % 的人关注了 爆炸吧知识 俗话说,英雄难过美人关,即便是智商超群的数学天才也毫不例外. 破得了百年的世界难题,却解不开一个小小的爱情谜团...... 没错,这位为情所困的数学天才 ...

  4. 《流浪地球 2》 Deepfake 小试牛刀,45+ 吴京「被」年轻,变身 21 岁小鲜肉

    内容一览:在春节档科幻电影「流浪地球 2」中,主演吴京.刘德华.沙溢等人饰演的角色,跨越 14 年之久,视效团队正是借助 Deepfake de-aging 技术,呈现出了演员不同年龄段的容貌. 关键 ...

  5. 《流浪地球2》Deepfake小试牛刀,45+吴京「被」年轻,变身21岁小鲜肉

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送 转载自HyperAI超神经 作者:三羊.Trisha 「流浪地球 2」上映 8 天,总票 ...

  6. 后浪优秀!21 岁小伙兼职程序员养家,大三存款达 6 位数

    整理 | 王晓曼 出品 | 程序人生 (ID:coder _life) 4月22日,话题#小伙怒学编程大三存款六位数#冲上微博热搜.江苏常州,21岁的小伙臧家河靠编程实现了人生"逆袭&quo ...

  7. 21岁被人“封神”,曾一分钟黑了阿里巴巴后台系统!

    这个被誉为"阿里神"的吴瀚清是马云公司旗下一个最特别的存在,1985年出生的他自从进入公司以来任何一个人都会恭恭敬敬的称呼他一声"道哥",在去年2017年这位年 ...

  8. 清华2020计算机系张晨,清华公布2020特奖候选人名单!平均21岁,还有一姚班大神...

    原标题:清华公布2020特奖候选人名单!平均21岁,还有一姚班大神 来源:清华大学 编辑:梦佳.卫民 [新智元导读]一年一度的大型神仙打架现场即将开幕.作为清华在校生的最高荣誉,2020清华本科生特奖 ...

  9. 被3名院士保举,他21岁破格任985高校教授!

    在应试教育之下的学生,按照成绩被分为了"学神"."学霸"."学渣"等,刘路曾经就是位于"学渣"这个行列的. 他不仅没有从 ...

最新文章

  1. Nat. Mach. Intel. | 突变后蛋白蛋白结合力的拓扑网络树预测模型
  2. 罗念梓(帮别人名字作诗)
  3. ListView 异步更新出现问题的解决(Handler)
  4. 系统管理员易犯错误及解决方法汇总
  5. etc目录名字的意思---挖Linux中的古老缩略语
  6. CentOS下的Mysql的安装和使用
  7. 八皇后问题c语言循环,八皇后问题的12组解
  8. 服务器的数据库 mysql 开放远程连接
  9. Maven 中央仓库及阿里云仓库地址
  10. Python+matplotlib绘制多门课程学生成绩分布饼状图
  11. mac系统安装python(2.7)requests库
  12. php如何实现自动加载mp3,如何简单的实现php自动加载
  13. 百度硬盘搜索使用指南
  14. linux教程 课件ppt,Linux操作系统实用教程全集 教学课件 中文PPT版
  15. CamScanner扫描全能王视频教程-Array老师-专题视频课程
  16. Python批量爬取某图片网站图片
  17. 地铁信号tts是什么服务器,机场地铁公共广播
  18. 我的原创IT著作再次被中科院图书馆、国图等国家级学术机构收藏!
  19. Unity 通过代码修改材质球属性
  20. [从头读历史] 第295节 神之物语 结语:为什么会有希腊神话

热门文章

  1. 什么是SSL卸载?如何工作
  2. Caused by: java.lang.ClassNotFoundException: net.sf.ezmorph.Morpher
  3. 2020Java个人学习计划+书籍
  4. 网络ghost_Ghost入门设计师指南
  5. matlab三相半波整流实验报告,三相半波可控整流电路实验报告.docx
  6. 信捷plc485通信上位机_【新阁教育】穷学上位机系列——搭建STEP7仿真环境
  7. Java开发环境简介及下载
  8. 数字式竞赛抢答器(基于Quartus的原理图设计)FPGA
  9. 【Nmap使用详解】黑客渗透工具Nmap下载安装/实战使用,保姆级Namp教程
  10. 去除百度地图的兴趣点和文字