点击率预估概述"/>
广告拍卖机制与点击率预估概述
提起大数据与机器学习,绕不开的就是“点击率预估”问题,这是由于广告的日志信息天然具有大量有标记信息。在这里,基于以往的工作,我对点击率预估的背景与技术背景进行概述。更进一步的文章留待后续更新。
在开始之前,这里也对广告业界常用的名词例如CTR、策略、算法进行说明。
名词定义:
CTR(Click-Through-Rate):点击率
Bid:广告主对广告的竞价
Price:广告系统对广告主的扣费
策略&模型&算法:
策略:可以实现目标的方案&方法
模型:基于数据、结合已有的知识和经验来建模
算法:给定模型假设空间,基于观察数据求解模型
一、广告:互联网最重要的盈利模式之一。
2014年BAT广告收入
2014年财报 | 市值(3.18) | 14年收入 | 14年盈利 | Q4广告收入占比 |
阿里巴巴 | 2123.6亿(美元) | 525.04亿(RMB) | 234.03亿 | almost 100% |
腾讯 | 1641.95亿(美元) | 789.32亿(RMB) | 238.16亿元(RMB) | 12.52% |
百度 | 711.02亿(美元) | 490.52亿(RMB) | 131.87亿(RMB) | almost 100% |
上图是我检索到的BAT2014广告收入占比,可以看到在BAT三强中,除了大腾讯是以”游戏“为主要收入来源以外,百度与阿里巴巴主要依靠广告进行盈利,因此可以说是广告撑起我国互联网半壁江山。(果然也是如此,google,facebook也主要依靠搜索广告与社交广告进行盈利,对应着我国的百度与腾讯广点通社交广告).
我们以腾讯的广点通广告为例子,它有着大量的数据需要处理:
海量用户:8亿用户
大量广告位:QQ空间、QQ、微信、腾讯新闻客户端,QQ客户端。
海量曝光:日均曝光量过100亿
二、广告系统流程简要图
广告有着多种业务形式,我们最常见的广告有如下四种形式:
搜索:(例如百度搜索出的无底色广告)
展示(例如腾讯qzone空间右下的展示广告)
分类(例如hao123网页中嵌入的分类广告)
邮件.:(google邮箱中的展示广告)
尽管广告的业务是形式各种各样,广告系统从的系统架构可以简单的划分为如下的形式:
从流程来说:
1、用户登录网页/发出搜索
2、系统同时发出两路请求:
一路请求业务系统,或者获取具体的服务信息
一路请求广告系统,获取展示的广告列表。
3、请求广告系统中对应的流程:
a、获取用户信息。(用户商业兴趣、历史检索query等)
b、(如是搜索广告)进行query切词、转义。
c、根据根据query匹配结果或者用户信息以及上下文匹配结果召回一批广告集合setA,setA根据广告库的大小,数目从数百到数万。
d、进行广告初选,从广告集合setA中选取较少的子集setB,经过广告初选后的广告数目的大小一般在几十条左右。
e、进行广告精选,排序并选择最终展现给用户的一个或者若干个广告。
广告分为初选与精选两个流程的原因是:
当广告库较大,召回广告较多的时候,主要基于性能或者用户体验控制方面的考虑,通过初选流程使用较小的计算代价来进行广告的选择。
三、广告的拍卖策略
如上文所言,策略是可以实现目标的方案&方法。从目标上来水,广告策略的设置的目标是维护广告生态的平衡,具体一点来说就是通过业务规则维护广告生态中各个参与者的利益均衡。
一般而言,广告生态的参与者主要有以下四位:
其中,用户:关注用户体验,不期望出更多与用户无关的广告。
流量方:基于分成的考虑,需要出一定的广告,但是同时要考虑收入与用户体验的平衡。
广告主:期望有更多的广告触达更多的用户,期望每次触达可以减少计费,有可能的话,期望减少竞争对手的广告触达。
平台方:期望可以展现更多的广告,并期望每次广告展现可以收取更多的费用。
其中用户以及流量方的利益,可以通过用户体验的门槛准入控制。
而广告主之间以及广告主与平台之间的利益平衡主要靠广告的排序-计费策略来维持。
我们假设有两个广告位,有三个广告主对广告进行竞价。每次点击对广告主的价值,以及各个广告位的点击率信息如下:
在历史工业界最初采用的是GFP(generlized first price)计费机制,他的特征如下:
GFP(generlized first price):
排序:价高者得
计费:price_i = bid_i
但采用GFP的时候,广告主之间会产生动态、剧烈的博弈状态,简单的说:
当广告主有利可图的时候,也就是广告主竞争下该广告位可以赚钱的时候。(广告点击带来的收入费用大于0的时候),广告主总是倾向通过竞价获得该广告位的。
竞争提价:起始阶段,广告主A1,A2,A3在开始的阶段均会交替的提高他们的竞价来竞价获得广告位rank1,rank2,同时,随着竞价的提升,竞争到的广告位需要支付的费用(广告计费)也就越来越高,竞争广告位的广告主的利润也就越来越少,直到A1,A2广告主分别获得rank1,rank2的广告位。
广告主竞价的主要目的是为了获取广告位,但采用GFP竞价机制的时候,广告主的扣费等于广告主竞价。在不影响广告位置获取的条件下,广告主倾向调低竞价,从而减少广告扣费,提升利润。这也就是广告主的试探降价。
试探降价:但广告主A3长期无法获得广告位而退出广告位rank1,rank2的竞争的时候。广告位A2降低竞价依旧可以获取广告位rank2。因此广告主A2会试探的将价格降低下来,直到广告位rank2的出价过低吸引低价值广告主参与竞价,或者接近广告平台的reserved price(广告平台设置reserved price的主要作用,是防止广告位被贱卖,但广告位竞价的价格过低的时候,广告平台可以不出售该广告位的曝光,类似的所谓“流拍”)。类似的,当广告广告主A2调整低价格的时候,广告主A1也会试探降价。降价的过程直到广告平台提高resered price或者新广告主参与竞争为止。
广告主A1,A2竞争提价与试探降价的过程如下图:
横坐标为广告位时间序列,左纵坐标为广告主的竞价,右纵坐标为广告主的收益。
我们可以看到,GFP竞价主要有以下几点不足:
1、广告主进行频繁的调价
2、广告平台收入大幅度波动
广告主、广告平台的收益都随着调价行为有着剧烈的变化。在收入剧烈变化的广告平台上,策略实验的开展也将变得十分困难。
3、非激励兼容
广告平台期望广告主“tell truth”,广告主通过竞价告知广告平台相应的流量价值,广告平台根据流量对广告主不同的价值来进行流量分配与计费。而广告主频繁调价过程中的出价会背离流量对广告主的真实价值。
4、社会效率非最大化
广告系统一个重要的目标是实现广告平台的社会效率最大化。但广告主不“tell truth"而频繁调价的时候,广告流量可能会分配给低价值、高出价的广告主。
GFP的不足主要是由广告主频繁调价造成,为了克服GFP竞价机制的不足,VCG(VCG(Vickrey-Clarke-Groves)被提出。
VCG(VCG(Vickrey-Clarke-Groves):
排序:价高者得
计费:price_i = 其他广告主的损失。
VCG排序机制与GFP一致,不同的仅仅在与计费方式上,为了简要说明VCG中的计费方式:其他广告主的损失,我们还是以上文的竞价场景来示例。
场景:
A1的计费:
A1不参与竞价:A2+A3的社会价值:4×2 + 2×1 = 10
A1参与竞价:A2+A3的社会价值:4×1 + 2×0 = 4
A2+A3的社会价值损失: 10 -4 = 6
A1单次点击支付的费用:6 / 2 = 3 < 5
VCG排序计费机制:
1、激励兼容:鼓励“tell truth”
在VCG计费机制下,广告主可以通过竞价来获取广告位。假设广告主A2获取到广告位rank2。无论广告主A2是否降低竞价,只要广告主竞价大于A3的竞价,A2的计费都是恒定的。因此广告主没有降低竞价的利益驱动。
2、纳什均衡:解决频繁调价
简单的说,VCG排序、计费机制下,广告主的竞价博弈可以达到纳什均衡,而在纳什均衡田剑侠,广告主对流量竞价等于广告主的价值是最优策略。
3、扣费复杂:话术麻烦
现实中,广告主的消耗费用呈现着长尾分布,广告库中存在着大量的小广告主。他们并没有资源雇佣专业的人员来对广告进行运营,而VCG的扣费策略较为复杂,在中小广告主中,推广、教育起来较复杂。
GSP(广义二阶竞价)
排序:价高者得
计费:price_i = bid_(i+1)。(排序在下一位广告主的竞价)
当采用GSP计费的时候,广告平台,广告主的排序与收益分别如下:
GSP的特点如下:
1、相对VCG,计费方式的可解释性较为简单。
2、理论非完美,但是也是“激励兼容”的策略。GSP计费模式也是激励兼容的策略:他鼓励广告主“tell truth":告知广告平台单个流量的价值。
这是因为广告主降低竞价有可能获取不到流量,同时也并不能带来计费的减少;
而广告主盲目的提高竞价获取竞价,则有可能以高于利润的情况下获取流量,这是得不偿失的。
CPC计费方式下的的GSP竞价
我们讨论了广告的计费模式,并讨论广告位是如何被拍卖,计费的。
广告的竞价价格主要来自于广告主预估的流量带给广告主的价值。从计费方式来说,业界主要有以下四种:
CPM(cost per mille):广告千次曝光收费
CPD(cost per day):广告每天曝光收费
CPA(cost per action):广告每次转化收费
CPC( cost per click):广告每次点击收费
CPM,CPD 可以划分为非效果广告,广告主往往基于保持品牌影响力的目的,而不仅仅局限于通过本次曝光直接转化为销售。例如可口可乐的推广广告。
CPA,CPC 计费模式中,广告主期望通过曝光来直接完成本次转化,所以常常将这两种计费模式的广告行为划分为效果广告。其中,CPC仅仅需要监控广告是否被点击,而CPA需要监控用户点击广告、跳转到商家页面后的行为(是否购买、收藏)。因为涉及到计费以及广告主与广告平台的互信问题,跳转后的用户行为数据的上报的收集相对困难。因此目前CPC计费模式的为主流的计费模式。
在CPC的计费方式+GSP计费模式下,广告平台售卖的不再是流量,而是点击。而广告主也是为每次点击竞价。不同流量对不同广告主的价值不同,例如搜索词”nike”对nike广告主的价值显然比对奥迪广告主价值大。因此我们需要通过点击率(CTR: click through rate)预估,将合适的流量分配给对应的广告主。因此基于CPC+GSP计费模式下,广告的排序与竞价如下:
广告的排序:CTR_i x BID_i
广告的计费:CTR_(i+1) x BID_(i+1) / CTR_i
因此,点击率(CTR)预估是CPC广告拍卖中必不可少的、核心的一个环节。
更多推荐
广告拍卖机制与点击率预估概述
发布评论