舆情系统数据采集的成本评估方法
数据采集系统的压力测试和成本评估一直是一个老大难问题,主要是系统复杂且庞大以后,精细计算是基本没可能了,估算的形式也会导致大家都只对表面情况的理解。我这里整理一套自己评估用的框架,供参考。
采集成本分为:
1,硬件,比如云服务器,物理机,机房,包括电费、宽带费和物理设备费用等。
2,人力,开发成本不算,只算运维成本。
报价时销售经常会简化为采集1个网站多少钱,采集1个栏目多少钱,采集1个媒体账号多少钱,每条信息多少钱等。
然而实际的技术成本核算可能是这样的:
机房建设xxx万元,硬件寿命x年,每年带宽x万元,每年运营维护费用xxx万元,计算出每年的固定费用。
按最大秒级任务分发压测,每秒能采集的数据量(不考虑失败损耗等影响因素),测算每年最大的采集量,计算出每条数据采集的费用。
以此类推,测算不同采集频率的基础成本。
采集频率规范可以参考:1、5、15、30、60秒,30、60分钟,4、6、8、12、24、48、72小时。因为从总的需求来说,不同行业对采集频率的需求不一样,但是一般72小时后可以把采集频率设置为默认,也就是正常排队。
第一级成本评估就变成了按照什么频率采集的成本。
第二级成本评估是按照列表页评估,采集时的入口是网站——列表页,并没有栏目的概念,栏目也只是列表,或者多个列表的组合,所以评估一个网站的采集成本,就把系统内已经收录的该域名下的所有列表页都统计一下就可以粗略估算出来了。
第三级的成本评估是按照特殊网站,比如需要账号模拟登陆的、需要切换IP的,需要验证码识别的等等,计算附加费用,比如ip代理费用、打码平台费用等。每次登录或者每次切换ip最大可以采集多少条数据,这样就仍然可以计算出每条数据采集的基础成本,但是要考虑到根据采集频率不同,附加费用可能是指数级增加的。
所以内部成本评估体系就变成了围绕类型、范围、频率三要素:
采集类型(网站、微博、视频等)——采集范围(列表页或账号数量)——采集频率(上述的各种频率范围)
面对销售提供的客户想要的采集需求,就可以以此评估。由于有损耗问题,根据采用的技术不同,以上计算方法导致的损耗会差别很大,我的经验是一般实际情况比理想情况要打8折,所以实际成本要网上多报,也就是理想成本除以0.8,具体情况根据自身技术架构来判断。
至于成本是否这么计算有价值,这个也根据具体项目来看,如果采集的都是通用的新闻网站,那么数据复用价值高,采集的边际成本低,如果是客户特殊需求,这部分就可以计算一下做评估了。
所以实际上是技术人员自己心里可以有个底,采集频率的提升会导致多大的成本提高,别随便让研发把采集频率往高了设置。
很久没写文章了,现在把这些经验逐步分享出来。
想交流的,记得加群。
极客兔子:正式成立舆情行业交流微信群
舆情系统数据采集的成本评估方法相关推荐
- 互联网舆情系统的架构实践
"数据猿年度重磅活动预告:2020年度金猿策划活动(金猿榜单发布+金猿奖杯颁发)即将推出,尽情咨询期待! 大数据产业创新服务媒体 --聚焦数据 · 改变商业 编者按 现代社会是一个信息驱动的 ...
- 百分点大数据技术团队:互联网舆情系统的架构实践
现代社会是一个信息驱动的社会,每天都有大量的信息产生. 据统计,互联网上每天有数十亿条媒体文章产生,在线信息检索超过500亿次. 伴随着互联网技术的发展和新媒体创新应用,人们越来越倾向于通过微博.微信 ...
- 开源免费的舆情系统的架构
思通舆情 的功能: 舆情监测:通过全文搜索.来源搜索.热搜监测等多重功能实现对全网文本.图片.视频舆情实时发现; 舆情预警:根据用户设置预警条件,判别舆情信息,并第一时间通过多渠道告知用户; 舆情分析 ...
- 评价网络舆情系统的eCIA方法---灵玖网络舆情
灵玖软件:www.lingjoin.com 很多企业纷纷看到了网络舆情监测的巨大需求以及潜在利益,大肆炒作.笔者从2000年在科学院开始涉足网络舆情的研究与实际监测系统的研发,前前后后接触到了众多的研 ...
- 网络舆情系统的四大要素-张华平博士
灵玖软件:www.lingjoin.com 随着互联网的蓬勃发展,网络媒体具有巨大的引导舆论.影响受众的影响力,网上形成的舆论热点不断,频繁地成为值得深思的社会现象.如:三鹿奶粉事件.南京市江宁区房产 ...
- StoneDT开源舆情系统大数据技术栈介绍
我们目前开源的 舆情系统 分为3个部分,整个系统使用了多种开源技术组件和开源框架,涵盖涉及技术领域广泛,例如:分布式计算.大数据.人工智能.数据中台.数据挖掘.深度学习.java和python的大量实 ...
- 关于舆情系统的“准”
近日,和很多公司沟通交流的时候,都发现在舆情系统的准确度上被提了很多问题,也有很多撕逼的地方,于是我打算写下这篇文章,说说自己的感受,欢迎同行指正. 首先,我认为舆情系统的准确度是个不太好标准化的定义 ...
- 基于python的网络舆情系统通用框架
一.前言 网络舆情是目前各类企业和机构研究的热点内容,舆情数据种类繁多衍生出各类舆情系统.舆情系统的数据来源可以通过数据网站进行购卖,更多的可以利用网络爬虫技术进行数据爬取.舆情系统整体上应具有数据采 ...
- 清博舆情系统_什么是舆情
文章目录 1. 引言 1.1 编写目的 1.2 背景 1.3 参考资料 1.4 术语定义及说明 2. 设计概述 2.1 任务和目标 2.1.1 需求概述 2.1.2 运行环境概述 2.1.3 条件与限 ...
最新文章
- AIR for IOS开发问题小结
- 活动选择的贪心算法与动态规划
- C语言再学习 -- Xargs用法详解
- 知识图谱最新论文清单,高阶炼丹师为你逐一解读
- Teamprise Readies Java SDK for TFS
- java 子线程退出_java – 在子线程完成执行之前主线程将退出吗?
- activiti 为什么需要采用乐观锁?
- Oracle 中给表添加主键、外键
- matlab 可变参数与默认参数设置
- Java项目—在线考试系统
- golang防止MySQL注入_防止SQL注入解决方案
- 华为网络技术大赛笔记——服务器概述
- 国产操作系统Deepin安装
- 海阔凭鱼跃:记一场工业场景下的AI技术实践
- 【零基础玩转BLDC系列】基于霍尔传感器的无刷直流电机控制原理
- NOI / 1.3编程基础之算术表达式与顺序执行——12:计算球的体积
- 阿里巴巴宣布5.4亿战略投资中国万网==互联网电子商务绑定互联网基础服务为手机电子商务开拓铺路...
- 求圆外一点做圆切线的切点坐标(算法)
- 批量转换文件编码(By notepad++)
- Linux I2C总线(二)I2C设备驱动编写方法
热门文章
- Allegro Design Entry HDL创建元器件封装方法图文教程
- cmd快速进入指定目录方法
- 【张朝阳的物理课笔记】 7. 气体的内能,能量均分原理,量子物理的曙光
- 华为nova7se乐活版支持鸿蒙,华为nova7SE乐活版怎么样值得买吗?有哪些优缺点
- 用leaflet做地图数据分析与可视化
- 相空间重构matlab代码
- cnpm : 无法加载文件 C:\Users\hp\AppData\Roaming\npm\cnpm.ps1,因为在此系统上禁止运行脚本【已解决】
- 学习笔记-while循环与循环中止语句
- 要不要启用苹果wapi_M1版MacBook要不要买?李楠称苹果后续有大招
- 2021最火表情包小程序