编程技术网

关注微信公众号,定时推送前沿、专业、深度的编程技术资料。

 找回密码
 立即注册

QQ登录

只需一步,快速开始

极客时间

ICDE'22「华为」MISS:多兴趣自监督学习框架用于点击率预估

connercms 深度学习 2022-5-7 16:04 4人围观

腾讯云服务器
title:MISS: Multi-Interest Self-Supervised Learning Framework for Click-Through Rate Prediction
link:
from:ICDE 2022

喜欢的小伙伴记得三连哦,感谢支持

更多内容可以关注公众号:秋枫学习笔记

1. 导读

本文针对CTR预估提出的自监督方法MISS,针对现存问题:

  • 标签稀疏(即用户-商品交互相对于特征空间高度稀疏)、
  • 标签噪声(即收集的用户-商品交互通常是嘈杂的)的风险,
  • 未充分利用领域知识(即样本之间的成对相关性)。

本文提出了一种新颖的多兴趣自我监督学习(MISS)框架,该框架通过兴趣级别的自监督信号增强了特征embedding。在两个新的基于 CNN 的多兴趣提取器的帮助下,使用两个基于CNN的兴趣提取器考虑不同兴趣表征(逐点(point)和联合(union))、兴趣依赖性(短期(short range)和长期(long range))以及兴趣相关性(商品间和商品内)。并利用对比学习增强特征的表征学习。

本文特点

  • 采用CNN挖掘相邻不同商品之间的交互和相同商品不同属性之间的影响,使用不同大小的卷积核来考虑序列中的长短期关系
  • 通过在兴趣级别上的对比学习,增强模型对噪声和稀疏数据的鲁棒性

2. 方法

本文所提方法为 即插即用的方法,可以与各种ctr模型结合,本文采用DIN作为基模型。通常采用的方法是在数据级别上进行增强,获得不同视角的样本,结合对比学习训练模型的表征能力,但是由于用户行为序列的多兴趣特性,样本级数据增强可能不可避免地引入噪声。原因是增强后的h可能来自不同的兴趣,即使它们是从相同的 x 获得的。为了解决这个问题,作者提出了一个兴趣级别的 SSL 框架,即 MISS,它以端到端的方式在兴趣级别上扩充训练数据。

2.1 MISS框架

2.1.1 多兴趣数据增广

考虑到用户行为的多兴趣特性,MISS 框架在 兴趣级别和特征级别的每个样本中都实现了 SSL。因此,不仅可以丰富每个训练样本提供的语义,还可以促进长行为序列的建模和利用。为了实现这些目标,设计了一种用于数据增强目的的新型多兴趣提取器。

为了在兴趣级别增加用户行为数据,首先应该提取每个用户的多个兴趣表征。直观的方法是利用商品类型对序列进行划分,但是这种是粗粒度的,本文采用基于 CNN 的多兴趣提取器,它将样本特征 x 转换为一组隐式兴趣表示,其中 [公式]表示从样本x中提取的第k个兴趣表征,MIE为多兴趣提取器。

[公式]

为了对兴趣语义进行细粒度的理解和利用,进一步设计了另一个基于 CNN 的特征增强组件,以在特征级别增强每个兴趣表征,表示如下,MIMFE为多兴趣多特征提取器,Ω为每个兴趣的特征表征数。

[公式]

然后,使用增广函数进行样本x的兴趣级别的增强,表达如下,其中 [公式]为样本x的一对生成视图,P为视图对的数量。

[公式]

同理对多特征多兴趣提取器提取的R也进行增广,表达如下,

[公式]

2.1.2 兴趣视图编码

对兴趣和兴趣的细粒度语义进行增广后,对上面得到的两个序列进行编码得到高维抽象表征,表达如下,其中两个编码器Enc本文直接采用简单的MLP,当然也可以尝试使用其他的编码器,如Transformer。

[公式] [公式]

2.1.3 对比损失

通过上述编码得到高级语义后,利用对比损失督促模型训练。本文使用 InfoNCE 对比损失,它试图 最大化正视图对的相似性并最小化负视图对的一致性。结果,相似的兴趣因此可以具有相似的表示(定义为对齐),并保留足够的信息来区分不同的兴趣(定义为一致性)。将前面得到的相同样本的兴趣视图对作为正样本对 [公式],来自不同样本的视图对为负样本对 [公式], [公式],infoNCE损失构建如下,其中s()为余弦相似度,τ是温度系数,

[公式]

同理可以得到特征级别的相关性,公式如下,

[公式]

2.2 多任务学习

将自监督部分作为辅助损失,结合基模型(本文是DIN)的损失,对模型进行训练,公式如下,其中 [公式]为常用的交叉熵损失函数。

[公式]

3. 多兴趣数据增广

3.1 MIE

多兴趣提取器网络 MIE(·) 旨在从用户行为序列中发现潜在兴趣。但是,由于兴趣的数量因用户而异,相同兴趣的顺序模式在不同用户和不同时间方面也是动态的。因此,本文提出了一种基于紧密度 假设的直观多兴趣提取器,即 从相同兴趣派生的用户行为更有可能在序列中位置相近

基于紧密度假设,采用 CNN 来提取隐藏的兴趣表征,它可以有效地捕获局部相关性。对序列填充(padding)后,所有 J 个序列特征共享相同的长度 L,序列表征 E 中的embedding可以重新组织为 3D 张量,如下,其中 [公式],其中K是embedding [公式]的维度。

note:这里对这个矩阵做简单解释。这里的L是说用户的交互序列的长度,即交互了多少商品,这里的J为商品的属性,比如每个商品都可以包含价格,类别等。原始序列表征为E,现在按照序列和属性类型进行排列,得到现在的矩阵C。 水平方向是相同属性的整个交互序列,垂直方向是相同商品的不同属性

[公式]

潜在的兴趣从水平方向进行卷积提取,因为水平方向(即1...L)是时间轴,从时间序列中发掘潜在兴趣。因此,卷积核表示为 [公式],总共有M个卷积核,每个卷积核的m的大小从1到M增加,当m=1时,是逐点兴趣表征,m>1时是联合(union)的兴趣表征。计算方法如下,其中o为卷积计算,得到 [公式],考虑M个卷积核,则长度为 [公式]

[公式]

MIE可以表达为下式,其中Flat()函数用于将每个兴趣表征 [公式]转换为向量 [公式]

[公式]

3.2 兴趣级别的增广

同样采用上述的近邻假设,时间线上相邻的两个兴趣表征越多,它们表示相同隐藏兴趣的可能性就越大。因此,从 [公式] 中通过相同卷积核 [公式]计算的表征中随机选择一对表征作为具有相同兴趣的两个不同视图,表达如下,其中RS()表示从Gm矩阵中随机选择两个相距h的表征,重复P次得到集合H。通过控制h的大小来控制对短期和长期兴趣的捕获。

[公式]

3.3 细粒度兴趣提取器

MIE是通过水平的卷积核挖掘同类属性下不同商品之间的交互,比如价格或类型,但是没有考虑到相同商品受不同属性之间的影响,比如日常用品可能受价格影响较大,而球鞋受价格和类型影响大等等。因此,MIMFE是在MIE的基础上再使用垂直方向的卷积核,即在J方向上。表达如下,卷积核的构造和MIE类似, [公式],同样存在N个这样的卷积核,并且n的大小从1到N增大。同理,序列长度 [公式]

[公式]

MIMFE可以表达为下式,这里外城的序列是MIE得到的Gm的集合,内存是MIMFE对每一个Gm得到了一个序列集合。

[公式]

采用类似的增广方式,公式如下,

[公式]

4. 结果

不同方法对比

是否添加MISS对比


腾讯云服务器 阿里云服务器
关注微信
^