首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

DSP中的基础算法和模型的详细解析:延伸讨论

DSP中的基础算法和模型的详细解析:延伸讨论

上面的篇幅研究了m6d的DSP的算法和模型,我觉得有些地方可能可以有不同的做法(不一定更优),写出来和大家探讨一下:

        1. bidding中的转化率模型
        前面的audience selection model (look-alike model)对每个campaign分别建模还有可能是因为在每个campaign训练数据充分的情况下可能取得更好的预估效果。而后面的两个转化率模型将每个campaign分别建模就一定是因为privacy的原因了,因为每个campaign的这2个模型的训练数据太少了,而且m6d用的是转化作为正样本,还不是点击作为正样本,那正例就更少了。所以m6d不得不将u替换成s来建模,将相似广告位(inventory)用同一个inventory id表示,来拼命减少特征空间,在少得可怜的数据下,牺牲bias来换取低variance从而抑制过拟合,提高模型泛化能力。
        如果没有那么高的privacy要求,是可以对所有campaign的数据一起来训练一个的统一模型的。事实上,我了解到国内大多数公司都是这么做的。再考虑到国内的广告主对点击也比较看重,所以更通常一点的建模方式是:对所有campaign建立一个CTR模型(预估点击率=点击/展现)p(click|u,i,a),这里的a指一个campaign,和一个CVR模型(转化/点击)p(conversion|u,i,a)。这样训练数据就更丰富了,也可以直接对每个用户来预估,不需要对整个segment来预估。当然,这样的一个结果是在某个广告主网站上的点击和转化数据,可能对另外一个广告主的点击和转化预估起到正向的作用。在不明显有偏向性的算法设计下,可能会使大多数广告主的预估都有一些提升(尤其是那些数据很少的小广告主)。

        2. 内部竞价机制
        m6d的算法在内部竞价时是选择bid最高的campaign。这是一种明显的贪心算法,在考虑到每个广告主有预算限制的情况下,不一定是最优的。举个例子,广告主A要的用户是对乔丹感兴趣的用户,因为他是卖乔丹的运动鞋的,但是他们是小公司,出不起太高的价来打广告;广告主B是的要的用户是对篮球感兴趣的用户。这个时候来了一个经常上新浪体育乔丹个人页面的用户,广告主A经过bidding算法后出了封顶价3块钱,广告主B很有钱,基础出价就是4块钱,bidding算法调整后比如是4.5块。那么广告主B的广告会在内部胜出。当事实上对篮球感兴趣的用户很多,广告主B完全可以在其他流量上买到足够多的展现而达到当日预算限额,而对乔丹感兴趣的用户的展现可能1天就2,3个,广告主A这次买不到,可能当日预算一点都花不出去。
        这个优化在系统进化早期可能效果不明显,当平台成熟了,量上去了,可能会有作用。
        3. 考虑外部竞争
        m6d的出价算法是基于价值的出价算法,没有考虑竞争对手出价。也就是说,我觉得这个展现值多少钱,我就出多少钱,不管其他人的出价是多少。这样有可能会出现出价严重偏离市场价的情况,就好比在北京买房子,郊区一个老破房子,你可能觉得只值2000块一平,但是市场上都已经出到20000了,不调整出价根本就买不到房子了。
        因此专门有一个技术叫Bid Landscape Forecasting, 用来预测其他竞争对手的出价情况,实际应用中它要预测的是bid与能购买到流量的一个函数关系,也就是出多少钱能买到多少流量的这么一个曲线,从而根据自己的需求来调整自己的出价。详细可以Google这篇文章《Bid Landscape Forecasting in Online Ad Exchange Marketplace》。
        M6d的算法里有一部分是账户管理员对segment打一个base price,我相信这个base price应该会考虑到市场竞争的情况。

        4. 流量预测、预算控制
        对于广告主来说,关心的是两个东西,一个是质,一个是量。质的意思是投放的广告要投在那些可能对这个广告感兴趣的人身上,量的意思是,得找到并投放足够多的这样的广告。宝洁公司对于那种每天只能覆盖1,2个人的广告campaign是不会感兴趣的,即使这2个人的转化率都是100%。
        但是因为RTB是要实时决定你是否去竞争这个展现,DSP需要对后续可能出现的展现有一个预判。打个比方来说,假设你去相亲,有多少女生会来你是不知道的,但是你总共有约会5个女朋友的机会。接下来每个女生依次和你见面,你要马上决定是否和她约会。这个时候如果你对女生的整体质量有一个估计,或者对总共有多少女生会来有一个估计,就会做出更明智的选择。
        这个其实也是Bid Landscape Forecasting的一部分,因为它是要预测bid与能购买到流量的一个函数关系。能购买的流量一方面和竞争有关,另外一部分和流量的质量和数目有关系。

        5. 点击率、转化率
        m6d是直接对转化建模的,而不是分为点击率和点击后的转化率来建模的(有一些campaign,对广告主页面的点击就被认为是转化,对这些campaign两种方式没有区别)。点击数据对于m6d来说就没有作用了。如果有很多点击数据,分开建模可能会有更好的效果,因为能把点击数据利用上了。
继承事业,薪火相传
返回列表