杨超越微数据

苹果 | GOOGLE | 现货 | 其他 (APPLE | GOOGLE | SPOTIFY | OTHERS)

Editor’s note: The Towards Data Science podcast’s “Climbing the Data Science Ladder” series is hosted by Jeremie Harris. Jeremie helps run a data science mentorship startup called SharpestMinds. You can listen to the podcast below:

编者按:迈向数据科学播客的“攀登数据科学阶梯”系列由杰里米·哈里斯(Jeremie Harris)主持。 杰里米(Jeremie)帮助运营一家名为 SharpestMinds 的数据科学指导创业公司 您可以收听以下播客:

Data science is about much more than jupyter notebooks, because data science problems are about more than machine learning.

数据科学的意义远不止Jupyter笔记本,因为数据科学的问题不仅仅是机器学习。

What data should I collect? How good does my model need to be to be “good enough” to solve my problem? What form should my project take for it to be useful? Should it be a dashboard, a live app, or something else entirely? How do I deploy it? How do I make sure something awful and unexpected doesn’t happen when it’s deployed in production?

我应该收集什么数据? 要使我的模型“足够好”才能解决我的问题,需要多好? 我的项目应该采用什么形式才能发挥作用? 它应该是仪表板,实时应用程序还是完全其他的东西? 如何部署? 我如何确保在生产中部署某些可怕和意外的事件时不会发生?

None of these questions can be answered by importing sklearn and pandas and hacking away in a jupyter notebook. Data science problems take a unique combination of business savvy and software engineering know-how, and that’s why Emmanuel Ameisen wrote a book called Building Machine Learning Powered Applications: Going from Idea to Product. Emmanuel is a machine learning engineer at Stripe, and formerly worked as Head of AI at Insight Data Science, where he oversaw the development of dozens of machine learning products.

通过导入sklearnpandas并在jupyter笔记本中偷窃,这些问题都无法回答。 数据科学问题将业务知识和软件工程知识独特地结合在一起,这就是Emmanuel Ameisen写一本名为《 构建机器学习支持的应用程序:从构思到产品》的原因 Emmanuel是Stripe的机器学习工程师,之前曾在Insight Data Science担任AI主管,在那里他负责了数十种机器学习产品的开发。

Our conversation was focused on the missing links in most online data science education: business instinct, data exploration, model evaluation and deployment. Here were some of my favourite take-homes:

我们的讨论重点是大多数在线数据科学教育中缺少的链接:业务本能,数据探索,模型评估和部署。 以下是一些我最喜欢的地方:

  • Data exploration is a critical step in the data science lifecycle, but its value is really hard to quantify. How would you know if someone failed to find interesting insights in a dataset because there weren’t any insights to be found, or because they’re not skilled enough for the job? Companies tend to bias towards assessing employees based on aspects of job performance that are easy to measure, and that bias means that data exploration is often de-prioritized. A good way around this is for companies or teams to carve out time explicitly for open-ended exploration tasks, so that data scientists don’t shy away from doing them when they’re needed.数据探索是数据科学生命周期中的关键步骤,但其价值确实很难量化。 您怎么知道是否有人因为找不到任何见解,或者因为他们不够熟练而无法在数据集中找到有趣的见解? 公司倾向于根据易于衡量的工作绩效来评估员工,这意味着数据探索通常被低优先级。 解决此问题的一种好方法是,公司或团队明确地花时间进行开放式探索任务,以使数据科学家在需要它们时不会回避。
  • One aspect of productionization that’s often undervalued by new data scientists and machine learning engineers is the importance of model robustness. What happens if someone tries to generate an socially unacceptable output from your model? What if your model encounters an input that it can’t predict with high confidence? Sometimes, adding a layer of rules that prevents models from producing outputs when a compromising or questionable user input is provided can be mission-critical.新数据科学家和机器学习工程师经常低估生产化的一个方面是模型稳健性的重要性。 如果有人试图从您的模型中产生社会上无法接受的结果,会发生什么? 如果您的模型遇到无法以高置信度预测的输入怎么办? 有时,添加一层规则以防止模型在提供折衷或有问题的用户输入时无法产生输出可能是关键任务。
  • Many people make the mistake of thinking about model optimization in a “top-down” manner. If their first model doesn’t work, they decide to use another (usually more complicated) model, rather than investigating the kinds of errors their model is making and trying to engineer features or design heuristics that might help tackle those errors. That’s a problem because most data science problems can only be solved by carefully examining the decision surface of a faulty model, and escalating model complexity rather than resorting to feature engineering on a simpler model tends to make this task harder and not easier.许多人错误地以“自上而下”的方式考虑模型优化。 如果他们的第一个模型不起作用,他们决定使用另一个(通常更复杂)的模型,而不是调查模型正在犯的错误种类,而是尝试设计可能有助于解决这些错误的功能或启发式方法。 这是一个问题,因为大多数数据科学问题只能通过仔细检查故障模型的决策面来解决,并且提高模型的复杂性而不是诉诸于简单模型上的特征工程往往会使这项任务变得更加艰巨而不容易。

You can also follow Emmanuel on Twitter here to keep up with his work, and me here.

您也可以在Twitter上关注Emmanuel,以跟上他的工作,而我也可以在这里 。

翻译自: https://towardsdatascience.com/beyond-the-jupyter-notebook-how-to-build-data-science-products-50d942fc25d8

杨超越微数据


http://www.taodudu.cc/news/show-8192289.html

相关文章:

  • 计算机写给未来自己的一段话,写给未来女儿的一段话
  • 学会四种方法,开导恋爱分手的孩子不再难
  • 女儿,谈恋爱时请带上钱包
  • 大学时代的恋爱,是如何走到最后的?
  • 我们恋爱吧
  • 儿童编程几岁学比较好
  • Scratch(五十二):儿童节收礼物
  • 赢得浮生半日闲,内卷时代,我们需要怎样的智能科技?
  • 像鱼一样快乐的生活!
  • 生活如水险,人生应像鱼
  • Java面向对象系列[v1.0.1][String类相关用法]
  • Python cv2 (二) 图像的灰度化 二值化 直方图 mask|均衡
  • python opencv --cv2.absdiff比较两图片差异
  • R语言plot或ggplot2图片标题/图例上调用其他值
  • (二)Pyside2 + QtDesigner 图片插入
  • 华为田奇:行人再识别的挑战和最新进展
  • 田奇:行人再识别的挑战和最新进展(转)
  • CVPR 2022 | CNN自监督预训练新SOTA!上交/Mila/字节联合提出HCSC:具有层级结构的图像表征自学习新框架...
  • CVPR 2022 | CNN自监督预训练新SOTA
  • 51单片机双机串口通信proteus仿真设计(仿真+源码)
  • 基于Qt的多客户端TCP通信设计(含源码)
  • 基于STM32F4的CAN总线多节点通信设计
  • 基于FPGA的网口通信设计(完结)
  • labview两台电脑tcp通信_labview进行tcp通信设计简要教程
  • 揭秘通信协议设计的奥妙,作为面试官我都看蒙了
  • 通信协议应如何设计才好?自定义进制帮你忙
  • python 多任务:进程,线程相关知识点
  • 流失的日子
  • 在自己身上找寻阿Q的元素-《读书修身》课程报告
  • 以感恩为主题的演讲稿

杨超越微数据_超越jupyter笔记本如何构建数据科学产品相关推荐

  1. Java_Hive自定义函数_UDF函数清洗数据_清洗出全国的省份数据

    Java_Hive_UDF函数清洗数据_清洗出全国的省份数据 最近用Hadoop搞数据清洗,需要根据原始的地区数据清洗出对应的省份数据,当然我这里主要清洗的是内陆地区的数据,原始数据中不包含港澳台地区 ...

  2. 杨超越微数据_超越微服务技术

    杨超越微数据 再次荣幸地出席在伦敦举行的年度muCon 2015微服务会议(在崭新的Skillsmatter CodeNode会场). 根据我今年早些时候发表的演讲的反馈,我介绍了我的"微服 ...

  3. python笔记本函数参数_将jupyter笔记本转换为python脚本的最佳实践

    Life saver: as you're writing your notebooks, incrementally refactor your code into functions, writi ...

  4. 机器学习 处理不平衡数据_在机器学习中处理不平衡数据

    机器学习 处理不平衡数据 As an ML engineer or data scientist, sometimes you inevitably find yourself in a situat ...

  5. osg加载osgb数据_铁路工程三维协同大数据云平台研究与开发

    铁路工程三维协同大数据云平台是基于3DGIS空间信息平台.BIM云平台.GIM云平台.在线监测云平台及增强现实云平台的多平台融合技术 现代铁路工程建设更加注重BIM.物联网等新技术,构建全生命周期一体 ...

  6. 提取数据_基于众包的可视化图表数据提取

    Crowdsourcing-based Data Extraction from Visualization Charts 作者 Chengliang Chai† Guoliang Li† Ju Fa ...

  7. cesium 3dtiles 加载本地数据_记一次Cesium地形数据生成过程

    问题描述 有一小块带高程值的点状数据,需要根据该数据生成Cesium支持的3dtiles数据,在Cesium中显示.经过一周多时间的摸索,终于能够在Cesium中加载成功.现将数据处理流程做个记录,以 ...

  8. python使用elasticsearch维护数据_使用Python对ElasticSearch获取数据及操作

    #!/usr/bin/env python#-*- coding: utf-8 -*- """@Time : 2018/7/4 @Author : LiuXueWen @ ...

  9. mysql如何防止插入重复数据_如何防止MySQL重复插入数据,这篇文章会告诉你

    在MySQL进行数据插入操作时,总是会考虑是否会插入重复数据,之前的操作都是先根据主键或者唯一约束条件进行查询,有就进行更新没有就进行插入.代码反复效率低下. 新建表格 CREATETABLE`per ...

  10. oracle中join另一个表后会查询不出一些数据_面试必备 | 8个Hive数据仓工具面试题锦集!...

    是新朋友吗?记得先点蓝字关注我哦- 今日课程菜单 Java全栈开发 | Web前端+H5 大数据开发 | 数据分析  人工智能+Python | 人工智能+物联网 进入数据时代,大数据技术成为互联网发 ...

最新文章

  1. Shell中的/dev/null 21 与 21 /dev/null 与/dev/null 的区别
  2. windows下用eclipse配置c++开发环境
  3. STL:transform
  4. excel中如何对矩阵得对角线进行求和_如何利用图卷积网络进行图形深度学习(第2部分)...
  5. maven3.6.3 配置环境变量_JDK1.8简单配置环境变量---两步曲
  6. 高中同窗被叫“码子”的!如今转行软件测试,不止是年轻,还有拼搏的勇气
  7. Angular 自定义loading组件
  8. dir函数python_Python dir()函数
  9. python ftp timeout_Python ftp client 处理含有中文的文件名详解
  10. SylixOS allwinner h6 链接脚本
  11. Eclipse查看hadoop源代码出现Source not found,是因为没有添加.zip
  12. idea代码格式化代码
  13. 一句话说明白IRQL
  14. Definer 预言机攻击事件分析
  15. excel如何在选定区域内跳过空值自动编号
  16. Unity中的数学基础——矩阵
  17. 你不得不知道的上架app
  18. 关于职业能力倾向测试d类的软件,职业能力倾向测验D类及综合应用能力D类题型及分值...
  19. Chapter 9 Measurement Bias
  20. STM32 芯片引脚的顺序说明

热门文章

  1. Hexo博客搭建、fluid主题美化
  2. 最伟大的计算机程序员是如何诞生的?—解读高德纳
  3. 机器学习--(一)机器学习基础
  4. 同事悄悄告诉我,飞书通知还能这样玩
  5. Error response from daemon: Get “https://registry-1.docker.io/v2/“: net/ttp: request canceled while
  6. 山东春季高考计算机网络技术重点,山东省春季高考网络技术知识点大全.docx
  7. 【unity小技巧】Unity2D TileMap+柏林噪声生成随机地图(附源码)
  8. 【雕爷学编程】MicroPython手册之 ESP32-CAM 物联网图像数据采集应用
  9. workbook需要引入的包_java批量导入导出文件的实例分享(兼容xls,xlsx)
  10. [Camera Drv]MT6589平台如何通过adb动态调试sub sensor的register - MTK物联网在线解答 - 技术论坛