说明

数据是抽象的,数据处理的工艺也是抽象的,我觉得需要有一些可见的模型进行类比才好记忆和思考。我一直把数据处理和实体制造进行类比,也可能是我过去做过一些制造业的管理咨询有关系,我觉得很自然。

本篇就着一个小bug来探讨一个更具体的思维模型(不是数学模型或计算机模型)。

内容

1 制程(Schema)

在过去,我一直把数据处理想象成一条流水线。工艺的变化也就是一个产品的制造过程变化,有时候是小改动,有时候是大改动。与实体制造不同,现在数据的制造可以无损的重复千万次,很多时候计算机也就在千万次的计算、比较然后迭代找到可行解。

整体上,目前已经构造了分布式网络,来进行大量的存储和计算。当然离完成还有很多工作,但是从数据库上、优化算法上都已经ready,目前只是随着时间去逼近。

制程在整体的抽象模型上是偏上层的,现在碰到很多问题还是底层的居多。

2 过程(Procedure)

某个制程是由若干个过程组合在一起形成

这次的主题其实是关于过程的,如何将一个过程变得更加可靠和简单。

虽然数据的结构可以有很多种,实际上在接口间传递数据时也是采用字典的方式。但是我们可以认为传过来的原始数据是一个“包”,过程的第一步是将这个包打开,然后取出对应的要处理的材料。处理之后也无非再打一个包。打包和解包的规范是一个标准,例如这些包可以都是一个扁平字典:

  • 1 data: 数据,通常是列表形态
  • 2 msg: 消息字符串

建模杂谈系列159 数据“板材“模型相关推荐

  1. 建模杂谈系列100 数据工厂

    说明 我觉得这个概念可以把很多之前讲的概念串起来.概念是非常重要的(<反脆弱>有提到),找到合适的概念来表达思想可以更好的帮助思考和分析. 内容 数据工厂包含了两方面的解释: 1 从业务上 ...

  2. 建模杂谈系列62- knime模型实例1- 流失预测 Churn Prediction

    说明 KNIME是一个开源的机器学习平台,有兴趣可以自己查一下怎么用,这里几篇都是关于其中的示例介绍. 内容 1 获取数据 原始程序读取了两个文件并拼接在一起 根据节点里的信息找到文件位置,拿出来 从 ...

  3. 建模杂谈系列226 流程与对象

    说明 鲁迅说:我家门前门前有两棵树,一棵是枣树,另一棵也是枣树. 从编程语言的角度,可以分为两大类(面向过程或面向对象),可以参考这篇文章 文章的内容其实不多,我贴一下: 对于两者的比较,文章这么说: ...

  4. 建模杂谈系列225 小结与反思

    说明 一个项目结束了,趁这两三天在休息,把本次的收获和教训都盘点一下,然后再开始一个更刺激的项目. 短暂的停顿,是为了把过去一段时间辛苦的成果固化一下,把那些很容易消散的宝贵知识和经验可以给未来做决策 ...

  5. 【杂谈】关于数据和模型,初学者极容易忽视的两个问题!

    说起深度学习与CNN,想必大家很熟悉:说起计算机视觉中的目标检测等各个方向,相比大家平时也接触过不少东西了:不过有两个小的方向,虽然相关的论文.项目.甚至研究方法都不多,却是做研究与实际项目落地中非常 ...

  6. 建模杂谈系列142 关于MVD的思考

    说明 概念的创建是重要的 现实中,数据的获取和处理(ETL)是很麻烦的事,以下是一些关于数据处理的思考. 内容 MVD(MultiVerse Data) 多元宇宙数据 借用了<奇异博士>里 ...

  7. 建模杂谈系列102 信息安全一二

    说明 现在考虑信息安全还偏早,并且纯技术的信息安全也并不可靠,本文简单梳理一下如何从大的层面确保信息安全. 内容 1 从数据存储上 1.1 AB类 首先,一些数据/算法永远不会存在公网机上.可部署在公 ...

  8. 建模杂谈系列61- 行业分类的逻辑

    说明 假设只从公司的名称上,能不能对行业分类? 理论上应该是可行的,但是就行业分类背后的逻辑来说,我觉得还是不太统一.本篇探讨一下行业分类的内在逻辑. 内容 1 为什么要行业 为什么有行业? 因为有社 ...

  9. 建模杂谈系列81 项目元数据实践3

    说明 这个实践接着前面的总结,结合可用的时间,进行一定的升级. 内容 1 背景 在跑批时,由于目标库的空间不足,导致大约40%的结果没有存入.并且我发现,由于没有做交付的确认(向目标库查询),程序默认 ...

最新文章

  1. ZIP 也能边下载边解压?流式解压技术揭秘!
  2. Storm【实践系列-如何写一个爬虫】 - ParserBolt
  3. 微带线特性阻抗计算公式_利用HFSS计算微带线的特性阻抗
  4. Liferay 用PortletSession 实现不同Liferay之间通讯
  5. viterbi算法_序列比对(十四)——viterbi算法和后验解码的比较
  6. saltstack的状态文件
  7. 贪吃蛇程序不要白不要,一个赞就够了
  8. matlab是以什么运算为基础,matlab基础练习题及答案讲解
  9. python数据挖掘课程】二十一.朴素贝叶斯分类器详解及中文文本舆情分析
  10. 服务器上把计算机放桌面,远程服务器这么显示在电脑桌面
  11. php+打开图片二进制文件,php接收二进制文件转换成图片
  12. kaggle比赛:房价预测(基于MXNet框架)
  13. 操作系统课程设计之二级文件系统演示
  14. 太乙超级计算机,从“启明”到“太乙”,南科大的超算发展之路
  15. 工程师视角的手游SDK
  16. bootstrap 动态横向时间轴_简洁的横向水平时间轴特效
  17. python作业_python小作业
  18. Keras之Conv2D
  19. android个人理财通项目_基于Android个人理财系统设计与实现.doc
  20. ks值和auc值的关系

热门文章

  1. imp-00003: 遇到 oracle 错误 604,imp ORA-00604: 递归错误
  2. 微信向下滑动怎么传参服务器,微信小程序 - 传参的几种方式
  3. 南昌大学计算机学硕推免生,南昌大学学霸班揭秘:25人全部保研到名牌大学,他们是这样学习的!...
  4. FX3U PLC控制器资料,2路RS232、1路RS485、1路CAN通讯
  5. EmotioNet_
  6. 基于贝叶斯分类器进行sklearn乳腺癌数据集的分类
  7. Win10安装.net3.5 出现错误代码0x800f0922 解决方法
  8. 《数据结构》树和二叉树代码整理(C语言实现)
  9. mysql数据库批量插数死锁_MySQL 死锁套路:一次诡异的批量插入死锁问题分析
  10. Mysql连接查询详解