【DSIN】深度 Session 兴趣网络

一、提出动机

这个模型依然是研究如何更好地从用户的历史行为中捕捉到用户的动态兴趣演化规律。

1.1、序列本身的特点：

其实用户点击序列有他自己本身的特点：用户过去可能有很多历史点击行为，按照用户的点击时间排好序，比如[item3,item45,item69,item21,...]，大部分情况下用户的兴趣是非常广泛且多变的，那么这一大串序列的商品中，往往出现的一个规律就是再比较短的时间间隔内的商品往往会很相似，时间间隔长了之后，商品之间就会出现很大的差别，这个是很容易理解的，一个用户再半个小时之内的浏览点击的几个商品的相似度和一个用户上午点击和晚上点击的商品的相似度很可能是不一样的。

1.2、DIEN及之前模型的缺点

但DIEN就是只关注了如何去改进网络，而忽略了用户历史行为序列本身的这种特点，直接把一大串行为序列放入GRU让它自己去学，如果一大串序列一块让GRU学习的话，往往用户的行为快速改变和突然终止的序列会有很多噪声点，不利于模型的学习。

1.3、DSIN简介

所以，DSIN就是从序列本身的特点出发，把一个用户的行为序列分成了多个会话，所谓会话，其实就是按照时间间隔把序列分段，每一段的商品列表就是一个会话，那这时候，会话里面每个商品之间的相似度就比较大了，而会话与会话之间商品相似度就可能比较小。

图片下方的数字表示单击当前项目的时间与单击第一个项目的时间之间的时间间隔（以秒为单位），我们将她的行为序列分为3个会话。每次会话的时间间隔超过30分钟时，会话将按照这一原则进行划分。用户在会话1中主要浏览裤子，在会话2中主要浏览戒指，并且在会话3中主要浏览外套。

DSIN通过利用用户的多个历史会话来对CTR预测任务中的用户顺序行为进行建模。

首先，分段是必须的，也就是用户行为序列输入到模型之前，要按照固定的时间间隔(比如30分钟)给他分开段，每一段里面的商品序列称为一个会话session，这个叫做会话划分层。
然后，就是学习商品时间的依赖关系或者序列关系，由于上面把一个整的行为序列划分成了多段，那么再这里就是每一段的商品时间的序列关系要进行学习，当然我们说可以用GRU，不过这里作者用了多头的注意力机制，这个东西是在多个角度研究一个会话里面各个商品的关联关系，进而提取用户对每个会话的兴趣。相比GRU来讲，没有啥梯度消失，并且可以并行计算，比GRU更加强大。这个叫做会话兴趣提取层。
使用双向的LSTM研究会话与会话的关系其实就是再学习用户兴趣的变化规律，不仅看从现在到未来的兴趣演化，还能学习未来到现在的变化规律，这个叫做会话交互层。
由于不同的会话兴趣对目标项的影响不同，最后我们设计了本地激活单元来聚合它们以形成最终的用户兴趣表示即会话兴趣局部激活层。

二、DSIN模型架构

在推荐系统中，用户的行为序列由多个历史会话组成。

用户在不同的会话中表现出不同的兴趣。此外，用户的会话兴趣顺序地彼此相关。

DSIN的目的是提取用户在每个会话中的会话兴趣，并捕捉会话兴趣的顺序关系。

2.1、模型概述

如图所示，DSIN在MLP之前由两部分组成。

一种是从用户特征User Profile和项目特征Item Profile转换的嵌入向量。
另一个模型对用户行为进行建模，自下而上分为四层：（1）会话划分层，将用户行为序列划分为会话;（2）会话兴趣提取层，提取用户的会话兴趣;（3）会话兴趣交互层，捕捉会话兴趣之间的顺序关系;（4）会话兴趣激活层将本地激活单元应用于用户对目标项的会话兴趣。

最后将会话兴趣激活层的输出以及用户模型和项目模型的嵌入向量送入MLP进行最终预测。