AI内参_151_144_数据科学家必备套路之三广告套路

你好，我是洪亮杰。

今天我和你分享的主题是数据科学家应该掌握哪些做广告产品的套路呢？讲完了搜索产品和推荐系统的套路。

今天我们继续来看数据科学家应该掌握的广告产品的一些套路。

前面我们讲过两种普遍使用的互联网广告模式，搜索广告和展示广告。

对于搜索广告而言，一个基本套路就是尽量利用现有的搜索系统来推送广告。

而对于展示广告而言，一个基本套路就是尽量利用现有的推荐系统来推送广告。

我们在介绍推荐系统时，提过，推荐系统和搜索系统的很多方面其实都有重叠。

所以做好一套搜索系统是非常有必要的。

几乎所有的广告应用其实最终也可以在搜索系统的架构上搭建。

因此，可以说，搜索系统是很多现代人工智能系统应用的一个核心技术组统。

具体来说，广告其实也和一般的文档一样，首先利用搜索引擎的索引，把这些广告都存储起来。

对于搜索广告来说，利用关键词的倒排索引，可以轻松的找到相关的广告，这和找到相关文档的原理其实是一样的。

当然我们在前面也提到过，广告的排序和普通文档有一个不一样的地方，那就是竞价。

因此，在从索引中提取广告的时候，我们必须要去思考一个问题，如何让广告竞价的赢加能够从索引中被提取出来呢？我们知道，广告的竞价常常是以点击率和出价的乘积来作为排序的依据。

这就会有一个问题，如果我们从索引中提取广告的时候，仅仅看哪些广告，从关键词的角度是相关的，而忽略了点击率和出价。

那么最后提取出来的广告，还有可能不是真正能够赢得竞价的广告，如何来对这个问题进行修正呢？一种做法是在索引里面增加点击率信息，也就是针对每一个关键词，我们不是按照文本的相关度去索引最相关的文档，而是按照点击率去索引点击率最高的一系列文档。

那么当需要针对某一个关键词提取广告的时，然后我们就直接从这个关键词所对应的索引中提取点击率最高的几个广告。

这个时候，我们再从某一个存储出价的数据库中读取这些广告的出价，并且进行竞价排序。

从这个流程我们可以看出，最终的竞价排名很可能并不是完全依赖点击率和出价的乘绩，而是在点击率先有了一定的保证下的这个成绩的要求。

这种有保障的点击率，常常被叫做质量值，用来描述这些广告的点击率高于一个设定的阈值。

接下来我们来看广告提取的另外一个重要的要求，就是需要满足广告投放的业务逻辑。

比如有一个广告的投放要求是针对男性。

现在有一个女性用户，那么我们就不应该针对这个用户显示这个广告。

而不管这个广告的点击率和出价信息是怎样的，如何实现这样的效果呢？我们依然可以利用索引在索引中，我们插入广告的各种投放条件作为被索引的对象。

然后把在这个投放条件下的各种广告作为文本，这样我们就可以提取满足任意投放条件的广告了。

针对这些投放条件的组合，例如投放条件是女性在北京，我们可以认为是在索引上进行且操作，也就是提取出同时满足两个关键词的操作。

实际上针对任意一个关键词的广告，我们都是进行了多个且操作。

例如针对可乐这个关键词，我们可能是需要提取这个关键词点击率最高的一百个广告。

如果有那么多的话，例，且这些广告的投放条件都满足女性在北京当提取出了这些广告之后，再进行竞价排名。

当然，在这样的架构下，我们就需要对索引有快速更新的能力，例如某一个广告的点击率或者投放条件都有可能发生变化。

下面我们来聊聊层次建模套路。

什么是层次建模呢？在广告的生态系统中，至少有广告商、广告推广、计划、单一广告这三个层次的实体。

提高广告投放精准度的一个核心问题，就是如何能够对这三种实体进行有效建模。

当我们对当前的广告商一无所知的时候，需要看一看过去有没有其他类似的广告商在平台投放过广告。

如果有，那么能否借鉴那些过去的数据。

当这个广告商开始投放广告以后，我们就可以积累数据，慢慢的就能够增强对这个广告商的建模能力。

类似的当我们计划推出某一个广告推广计划的时候，我们先看一看同一个广告商有没有类似的推广计划，或者看一看其他类似的广告商有没有相近的推广计划。

当某一个广告开始运告的时候，我们看一看同一个推广计划下其他广告的表现，或者是同一个广告商下其他广告的表现。

层次建模的一个重要的特点，就是利用可以利用的一切其他信息来进行建模。

经过验证。

在计算广告中，层级信息往往是最有用的特性。

最后我来介绍一下具体和泛化的套路。

这个套路其实并不是完全针对广告的。

就像我们之前所说的广告搜索和推荐之间的关系，这个套路其实也可以应用在搜索中。

前几年，谷歌的工程师发现，如果仅仅利用深度学习模型来学习抽象的特性，从而既希望模型的性能能得到提升，这种方法也许可以很好的解决计算机视觉的一些问题。

但是对于搜索广告和推荐的效果则并不好，为什么呢？这里面有什么原因呢？工程师们发现一个好的模型必须具备两种能力。

第一，能够对具体的关键词进行匹配。

比如我需要匹配可口可乐，那么任何与百事可乐相关的广告其实都是不能显示的。

这就要求模型中针对每一个具体的关键词，能够进行字与字的匹配，而不是模糊匹配。

第二，那就是具有泛化能力。

比如我们要对可口可乐在二零一八年的广告推广进行建模模型，就能够借鉴可口可乐在二零一七年的推广数据第及借鉴可口可乐公司其他推广的套据。

由此我们借鉴能力其实就是模型的泛化能力。

由此，我们可以得到一个好模型的重要套路。

一个好的模型，既要能够精确记忆某一种关键词，又要能够在广告层次上进行泛化。

今天我为你介绍了做广告产品的重要套路，一起来回顾一下要点。

第一，搜索系统是很多现代人工智能系统应用的一个核心技术组件广告系统也可以借鉴搜索系统的套路。

第二，广告生态中层次建模的套路，就是利用可以利用的一切其他信息来进行建模。

第三，一个好模型的套路，关键是模型的具体能力和泛化能力并存。

最后给你留一个思考题。

为什么在计算机视觉中对于具体匹配的要求没有那么高呢？欢迎你给我留言，和我一起讨论。