互联网广告系统综述五系统架构

声明:

1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献

2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。

3)本人才疏学浅,整理总结的时候难免出错,还望各位前辈不吝指正,谢谢。

4)阅读本文需要互联网广告业的基础(如果没有也没关系了,没有就看看,当做跟同学们吹牛的本钱)。

5)此属于第一版本,若有错误,还需继续修正与增删。还望大家多多指点。请直接回帖,本人来想办法处理。

前面几篇博文都说了很多业务架构方面的东西,顺便说了一些用户基础信息的挖掘相关的事情。那些很多都已经被大神们说得淋漓尽致了,除了定向中说的那几个定向方法以外。

下面就开始一些跟技术相关的东西了。

1.1前言

在说了这么多技术无关的东西后,是要来点有技术性的东西了。

这系列的博文好像看起来并不能让很多人看的爽,因为没啥公式与技术相关的东西。可以想象到的是,大部分人花不了5分钟就看完了,觉得没啥含量。只是这些东西才是一个广告产品重要的东西,也是老板关心的东西,而用什么模型,什么挖掘手段,怎么去估ctr,真没有哪位老板会关心。

工程师思维不是那么有全局观的,技术也不能一头钻着。广告算法工程师需要更广阔的视野,去看到更多的可能性,更多的增长点。

这话还是很客气和空虚的,用人话来解释一下:想要赚钱,把前面那套东西搭起来,就能赚不少钱了,再让运营和销售多拉点有钱的广告主进来,那钱就赚得更多了;而用什么技术去预估ctr,用什么模型,用哪个大数据,都只是一些辅助手段,没有前面的那些工作,这些都只是镜中花、水中月。一个广告业务会因为出现了新的业务售卖形式获得业务指标大幅度的增长,但不会因为用了一个什么模型有翻天覆地的变化。再好的ctr预估、再好的模型、再大的数据,广告业务设计得很差,照样赔本。广告算法工程师拼了老命提升的一点点业务指标(点击率和收入),可能把流量换种方式售卖就达到了,而且广告主掏钱掏得爽爽的,用户也不反感,就像请第三方公司挖掘出广告主的潜在客户,直接让广告主高价来买这些流量,这样广告主满意了,用户也觉得还不错。

人话说完了,继续一些套话。广告算法工程师要注意对业务的掌控能力,看出在整个业务系统需要在哪个点发力,才能得到可观的业务指标提升,而不是一味地优化模型与特征。广阔的视野,能帮助看到业务的发力点,甚至能看到从当前业务中催生一个新业务,这样的广告算法工程师才是合格的。

这一段话也就是为了给自己前面那几篇博文加点回头率罢了,下面开始系统方面的东西了。

1.2 广告业务系统架构

为了让各位对系统有一个全面的理解,这里把整个系统的架构列出来。

一个用户过来后,这个广告请求会进入到广告投放平台。广告投放平台会读取一些索引,决定要不要进行投放,决定投放后,广告投放平台会读取广告主服务页推送过来的广告计划,做一些频次上的控制,再把剩余的广告交给线上定向模块。线上定向模块从线上存储器读取用户的profile数据,根据每个广告计划的定向条件去筛选,筛选剩下的广告计划就是适合投这个用户的广告;再对筛选剩下的广告,做一个比较粗的选取,选择其中质量较高的返回给下一个模块,这个工作由线上定向模块完成。

线上定向模块过后,剩下的是相对优质的若干个广告,开始对这若干个广告进行预估ctr,预估ctr过程中需要去线上存储器读取特征,一般还需要本地加载的一个模型。当ctr预估完成后,就进行算分排序,计算扣费,再加上一些业务策略,从而选出最合适的若干个广告,返回给广告投放平台。算法排序和计算扣费的方式在上一篇博文里面描述过,不多讲。

广告投放后,会产生日志,日志会通过日志收集系统收集到数据仓库。

广告算法工程师会从数据仓库里面获取各种投放日志,提取特征,把特征导入到线上存储器;还会根据投放日志,生成训练样本,训练模型,把模型推送到线上服务器,由线上服务器进行加载来给预估ctr使用。

技术实力强大的公司,还能进行在线学习,就是模型随着投放数据的不断产生,不断更新的,这个对工程能力要求很高。

1.3 注意点

上一节说的那个系统,很多可以由兄弟团队帮助搭建,但是,有两个点需要注意的。

第一个就是离线训练模型,这里面文章很大,大公司能用自己弄的mpi并行计算集群搞得很牛逼。然而不是每个公司都是大公司,也不是每个组都具备这样的技术实力,那就带来了问题,早期的公司如何快速实现系统的搭建?

在这个时候,工具论是个绝对可行的方法,如mahout,或者说vw。其中mahout可以有random forest,而vw有logistic regression,这两种模型在广告技术上是用得比较广泛的了,尤其是logistic regression,很多公司都在用。单机是很难达到要求的,并行计算是很重要而且要快速实现的,所以选择一个好的工具,非常重要。

第二个就是线上存储系统,离线特征的设计,如何方便存取也很重要。因为线上存储器空间有限,不可能无限扩展,有些特征如果不做区分,所占的空间将非常大。为了缩减数据体积,对特征做一些清洗,归并操作非常重要,这些也很考验数据挖掘工程师的经验。

致谢

多位同事的指点。

参考文献

[1] http://www.techinads.com/archives/41江申_Johnson的博客

文章来源:http://blog.csdn.net/mytestmy/article/details/40932057

互联网广告系统综述五系统架构相关推荐

  1. 移动互联网广告 全媒体广告平台怎么代理 利润点有多少

    从时间轴来看,互联网广告发展的五个时代:门户网站广告时代.B2B平台广告时代.搜索引擎广告时代.社交媒体广告时代.移动互联网广告时代,当下是移动互联网广告时代 全媒体广告怎么投放?有哪些优势? 1.行 ...

  2. [架构系列]互联网智能广告系统简易流程与架构

    很多朋友估计没有做过这一块,争取最简洁的语言描述清楚. 一.业务简述 从业务上看整个智能广告系统,主要分为: 1)业务端:广告主的广告后台 2)展现端:用户实际访问的页面 业务端,广告主主要有两类行为 ...

  3. 互联网智能广告系统简易流程与架构

    一.业务简述 从业务上看    整个智能广告系统,主要分为: 1)业务端:广告主的广告后台 2)展现端:用户实际访问的页面 业务端,广告主主要有两类行为: 1)广告设置行为:例如设置投放计划,设置地域 ...

  4. 互联网广告系统综述二业务背景

    互联网广告系统综述二业务背景 声明: 1)该博文是整理自网上很大牛和专家所无私奉献的资料的.具体引用的资料请看参考文献.具体的版本声明也参考原文献 2)本文仅供学术交流,非商用.所以每一部分具体的参考 ...

  5. 互联网广告综述之点击率系统

    互联网广告综述之点击率系统 声明: 1)该博文是整理自网上很大牛和专家所无私奉献的资料的.具体引用的资料请看参考文献.具体的版本声明也参考原文献 2)本文仅供学术交流,非商用.所以每一部分具体的参考资 ...

  6. 互联网广告系统综述三业务描述

    互联网广告系统综述三业务描述 声明: 1)该博文是整理自网上很大牛和专家所无私奉献的资料的.具体引用的资料请看参考文献.具体的版本声明也参考原文献 2)本文仅供学术交流,非商用.所以每一部分具体的参考 ...

  7. 互联网广告系统综述一生态圈

    目录 一.互联网广告行业生态 1.1互联网广告生态圈发展过程 1.1.1 基本情况 1.1.2 产业情况 1.1.3 工业情况 1.2互联网广告生态圈的一些解读 1.3 大数据下的互联网广告新发展 一 ...

  8. 广告系统,业务与架构细节

    很多朋友估计没有做过这一块,争取最简洁的语言描述清楚. 一.业务简述 从业务上看    整个智能广告系统,主要分为: 1)业务端:广告主的广告后台 2)展现端:用户实际访问的页面 业务端,广告主主要有 ...

  9. 广告系统简易流程与架构

    一.业务简述 从业务上看    整个智能广告系统,主要分为: 1)业务端:广告主的广告后台 2)展现端:用户实际访问的页面 业务端,广告主主要有两类行为: 1)广告设置行为:例如设置投放计划,设置地域 ...

最新文章

  1. AI大牛李飞飞最新去向, 加入Twitter 董事会
  2. android 自定义paint,Android中自定义常用的三个对象解析(Paint,Color,Canvas)
  3. 中国银屑病患者中银屑病关节炎的患病率和特征
  4. 蔚来ET5将于2022年9月开启交付 补贴前售价32.8万元起
  5. Jmeter系列之Fiddler导出Jmeter脚本
  6. Js、Jquery密码输入框的密码显示与隐藏
  7. python编写水仙花数
  8. 【深度学习技术】小样本医学影像的深度学习关键技术之深度模型的可解释性
  9. 周志华 机器学习ppt
  10. UE4中程序驱动的LookAt动画
  11. css3中-moz-、-ms-、-webkit-、-o-分别代表什么内核
  12. Flutter 底部跟随键盘并且页面跟随键盘
  13. IDEA 报错 Cannot connect to the Maven process. If the problem persists, check the jdk.
  14. Android繁星眨眼动画效果
  15. FS8205A低压20V N 沟道增强型 MOS 场效应管
  16. 【数据库视频--概况
  17. 内容营销的思维方式 阿胜说
  18. R语言使用多个数据类型不同的向量数据创建一个dataframe数据对象、使用[]操作符和列名称访问dataframe指定数据列的数据(dataframe column data)
  19. python带你制作一个gequ下载器,海量gequ免费听
  20. element form表单validateField对部分表单字段进行校验时触发多次校验

热门文章

  1. 微信小程序之仿微信漂流瓶
  2. 玩推特营销必知的基础常识上篇
  3. 我们为什么需要技术论坛?
  4. 5款比价利器 让你从此不再花冤枉钱
  5. Java 并发编程中的死锁 ( Kotlin 语言讲解)
  6. scat-批量删除预制发票
  7. 3D游戏(3)——空间与运动
  8. 博科第六代SAN交换机、QLogic与博通HBA卡全面上市
  9. 华为路由器实现不同VLAN路由---单臂路由
  10. matlab如何造带限高斯白噪声,如何用Matlab产生高斯白噪?