datawhalechina
diff --git a/‎docs/_images/esmm.png‎
106 KB b/‎docs/_images/esmm.png‎
106 KB
diff --git a/‎docs/_images/esmm_sample_bias.png‎
34.4 KB b/‎docs/_images/esmm_sample_bias.png‎
34.4 KB
diff --git a/‎docs/_images/xdeepfm.png‎
-211 KB b/‎docs/_images/xdeepfm.png‎
-211 KB
diff --git a/‎docs/_sources/chapter_2_ranking/1.wide_and_deep.rst.txt‎
Lines changed: 10 additions & 5 deletions b/‎docs/_sources/chapter_2_ranking/1.wide_and_deep.rst.txt‎
Lines changed: 10 additions & 5 deletions
diff --git a/‎docs/_sources/chapter_2_ranking/2.feature_crossing/1.second_order.rst.txt‎
Lines changed: 36 additions & 6 deletions b/‎docs/_sources/chapter_2_ranking/2.feature_crossing/1.second_order.rst.txt‎
Lines changed: 36 additions & 6 deletions
diff --git a/‎docs/_sources/chapter_2_ranking/2.feature_crossing/2.higher_order.rst.txt‎
Lines changed: 29 additions & 4 deletions b/‎docs/_sources/chapter_2_ranking/2.feature_crossing/2.higher_order.rst.txt‎
Lines changed: 29 additions & 4 deletions
diff --git a/‎docs/_sources/chapter_2_ranking/3.sequence.rst.txt‎
Lines changed: 17 additions & 3 deletions b/‎docs/_sources/chapter_2_ranking/3.sequence.rst.txt‎
Lines changed: 17 additions & 3 deletions
@@ -18,10 +18,15 @@
 
 这个架构的核心思想是将模型结构拆分为两个部分，分别承担不同的职责，如下图所示：
 
+.. _wide_and_deep_model_structure:
+
 .. figure:: ../img/wide_and_deep.png
+   :width: 400px
 
    Wide & Deep 模型结构图
 
+
+
 **记忆的捷径：Wide部分**
 
 Wide部分本质上是一个广义线性模型，比如逻辑回归。它的优势在于结构简单、可解释性强，并且能高效地“记忆”那些显而易见的关联规则。其数学表达形式如下：
@@ -105,9 +110,9 @@ Deep不仅是一个具体的模型，更是一种重要的设计哲学，它为
 .. parsed-literal::
     :class: output
 
-    +-------+--------+---------------+
-    |   auc |   gauc |   valid_users |
-    +=======+========+===============+
-    | 0.604 | 0.5764 |           928 |
-    +-------+--------+---------------+
+    +--------+--------+---------------+
+    |    auc |   gauc |   valid_users |
+    +========+========+===============+
+    | 0.5958 | 0.5745 |           928 |
+    +--------+--------+---------------+
 
@@ -16,10 +16,15 @@ FM: 隐向量内积与参数共享
 :cite:`rendle2010factorization`
 ，并见证了它如何作为双塔模型的雏形，通过向量匹配实现召回。在精排阶段，FM的价值得到了更核心的体现。它作为解决特征交叉自动化问题的开创性模型，其核心思想——**为每个特征学习一个低维隐向量，并用向量内积来参数化所有二阶交叉项的权重**——不仅有效解决了参数数量过多和数据稀疏性两大难题，也为这一小节后续模型奠定了方法论的基础。
 
+.. _fm_model_structure:
+
 .. figure:: ../../img/fm_model.png
+   :width: 400px
 
    FM模型结构
 
+
+
 为了捕捉特征间的交互关系，一个直接的想法是在线性模型的基础上增加所有特征的二阶组合项，即多项式模型：
 
 .. math::
@@ -72,10 +77,15 @@ FM
 :cite:`xiao2017attentional`
 在此基础上引入注意力机制，为不同的特征交叉分配权重，使模型能关注到更重要的交互。例如，在预测一位用户是否会点击一条体育新闻时，“用户年龄=18-24岁”与“新闻类别=体育”的交叉，其重要性显然要高于“用户年龄=18-24岁”与“新闻发布时间=周三”的交叉。
 
+.. _afm_model_structure:
+
 .. figure:: ../../img/afm_architecture.png
+   :width: 500px
 
    AFM模型结构
 
+
+
 AFM 的模型结构在 FM
 的基础上进行了扩展。它首先将所有成对特征的隐向量进行\ **元素积（Hadamard
 Product, 记为 :math:`\odot`\ ）**\ ，而不是像 FM
@@ -172,10 +182,15 @@ Product）作为补充，尝试从更丰富的角度来表示特征间的交互*
 的核心创新在于其“乘积层”（Product Layer），该层专门用于对特征 Embedding
 进行显式的交叉操作，其输出再送入后续的全连接网络。
 
+.. _pnn_model_structure:
+
 .. figure:: ../../img/pnn.png
+   :width: 400px
 
    PNN模型结构
 
+
+
 PNN 的乘积层会产生两部分信号，一部分是线性信号
 :math:`\mathbf{l}_z`\ ，直接来自于各特征的 Embedding 向量，定义为：
 
@@ -255,10 +270,15 @@ FiBiNET: 特征重要性与双线性交互
 :cite:`huang2019fibinet`
 模型认识到了这个问题，\ **它在进行二阶特征交叉之前，先动态地学习每个特征的重要性权重，然后再通过双线性交互来捕捉更精细的特征关系**\ 。这种设计使得模型能够有选择性地进行特征交互，从而提升二阶特征交叉的质量。
 
+.. _fibinet_architecture:
+
 .. figure:: ../../img/fibinet_architecture.png
+   :width: 500px
 
    FiBiNET架构图
 
+
+
 FiBiNET 的创新主要体现在两个核心模块上：\ **SENET
 特征重要性学习机制**\ 和\ **双线性交互层**\ 。
 
@@ -269,10 +289,15 @@ Network)** :cite:`hu2018squeeze`
 机制，用于动态学习每个特征的重要性权重。与传统方法对所有特征一视同仁不同，SENET
 能够自适应地为不同特征分配不同的权重，让模型更加关注那些对预测任务更重要的特征。
 
+.. _fibinet_senet_structure:
+
 .. figure:: ../../img/fibinet_senet.png
+   :width: 400px
 
    SENET层结构详解
 
+
+
 SENET 的工作流程包含三个关键步骤：
 
 1. **Squeeze (挤压)**: 通过全局平均池化将每个特征的 :math:`k` 维嵌入向量
@@ -326,10 +351,15 @@ DeepFM :cite:`guo2017deepfm` 是对 Wide & Deep
 组件共享同一份特征嵌入（Embedding）**\ ，这带来了两大好处：首先，模型可以同时从原始特征中学习低阶和高阶的特征交互；其次，共享
 Embedding 的方式使得模型训练更加高效。
 
+.. _deepfm_architecture:
+
 .. figure:: ../../img/deepfm_architecture.png
+   :width: 400px
 
    DeepFM模型结构
 
+
+
 DeepFM 的结构非常清晰，它由 FM 和 DNN 两个并行的组件构成，两者共享输入。
 
 -  **FM 组件**: 负责学习一阶特征和二阶特征交叉。其输出 yFM
@@ -398,16 +428,16 @@ Deep那样依赖专家的特征工程。这种设计使得DeepFM成为一个端
     +---------+--------+--------+---------------+
     | 模型    |    auc |   gauc |   valid_users |
     +=========+========+========+===============+
-    | fm      | 0.5977 | 0.5701 |           928 |
+    | fm      | 0.5909 | 0.5711 |           928 |
     +---------+--------+--------+---------------+
-    | afm     | 0.5875 | 0.5655 |           928 |
+    | afm     | 0.5821 | 0.5646 |           928 |
     +---------+--------+--------+---------------+
-    | nfm     | 0.5721 | 0.5497 |           928 |
+    | nfm     | 0.5966 | 0.5628 |           928 |
     +---------+--------+--------+---------------+
-    | pnn     | 0.5918 | 0.5733 |           928 |
+    | pnn     | 0.5967 | 0.5713 |           928 |
     +---------+--------+--------+---------------+
-    | fibinet | 0.5982 | 0.5686 |           928 |
+    | fibinet | 0.5995 | 0.5745 |           928 |
     +---------+--------+--------+---------------+
-    | deepfm  | 0.5917 | 0.5725 |           928 |
+    | deepfm  | 0.6069 | 0.5743 |           928 |
     +---------+--------+--------+---------------+
 
@@ -14,10 +14,15 @@ DCN: 残差连接的高阶交叉
 通过一个创新的Cross Network来替代Wide &
 Deep模型中的Wide部分。该网络的核心思想是在每一层都与原始的输入特征进行交叉，从而以一种显式且可控的方式，自动构建更高阶的特征交互，而无需繁琐的人工特征工程。
 
+.. _dcn_model_structure:
+
 .. figure:: ../../img/deepcross.png
+   :width: 400px
 
    DCN模型结构
 
+
+
 DCN的整体结构由并行的Cross Network和Deep
 Network两部分组成，它们共享相同的Embedding层输入。首先，模型将稀疏的类别特征转换为低维稠密的Embedding向量，并与数值型特征拼接在一起，形成统一的输入向量
 :math:`\mathbf{x}_0`\ 。
@@ -39,10 +44,15 @@ Network是DCN的核心创新。它由多个交叉层堆叠而成，其精妙之
 Network的初始输入向量，\ :math:`\mathbf{w}_l, \mathbf{b}_l \in \mathbb{R}^d`
 分别是第 :math:`l` 层的权重和偏置列向量。
 
+.. _cross_network_structure:
+
 .. figure:: ../../img/cross_network.png
+   :width: 300px
 
    Cross Network
 
+
+
 我们可以观察到，这个结构本质上是一个残差网络。每一层都在上一层输出
 :math:`\mathbf{x}_l` 的基础上，增加了一个交叉项
 :math:`\mathbf{x}_0 \mathbf{x}_l^T \mathbf{w}_l` 和一个偏置项
@@ -77,9 +87,14 @@ Interaction Network, CIN） :cite:`lian2018xdeepfm` ，以
 
 xDeepFM的整体架构同样由三部分组成：一个传统的线性部分、一个用于隐式高阶交叉的DNN，以及创新的CIN网络用于显式高阶交叉。这三部分的输出最终被结合起来进行预测。
 
+.. _xdeepfm_architecture:
+
 .. figure:: ../../img/xdeepfm.png
+   :width: 400px
+
+   xdDeepFM模型架构
+
 
-   xdeepfm模型架构
 
 CIN的设计目标是实现向量级别的显式高阶交互，同时控制网络复杂度。它的输入是一个\ :math:`m \times D`\ 的矩阵
 :math:`\mathbf{X}_0`\ ，其中 :math:`m`
@@ -159,10 +174,15 @@ AutoInt (Automatic Feature Interaction) :cite:`song2019autoint`
 架构的核心思想，\ **通过多头自注意力机制来自动、自适应地学习任意阶数的特征交互**\ 。与前面介绍的方法不同，AutoInt
 不依赖于固定的交互模式，而是让模型在训练过程中学习出最有效的特征交互组合。
 
+.. _autoint_overview:
+
 .. figure:: ../../img/autoint_overview.png
+   :width: 400px
 
    AutoInt模型原理示意图
 
+
+
 AutoInt
 的整体架构相对简洁，它将所有输入特征（无论是类别型还是数值型）都转换为相同维度的嵌入向量
 :math:`\mathbf{e}_m \in \mathbb{R}^d`\ ，其中 :math:`m` 代表第 :math:`m`
@@ -208,10 +228,15 @@ AutoInt
 :math:`\mathbf{\tilde{e}}_m^{(h)}`
 本质上就是一个通过自适应学习得到的新组合特征。
 
+.. _autoint_attention:
+
 .. figure:: ../../img/autoint_attention.png
+   :width: 350px
 
    自注意力机制示意图
 
+
+
 **多层交互与高阶特征学习**
 
 “多头”机制允许模型在不同的子空间中并行地学习不同方面的特征交互。模型将所有
@@ -273,10 +298,10 @@ AutoInt 的一个巨大优势是其可解释性，通过可视化注意力权重
     +---------+--------+--------+---------------+
     | 模型    |    auc |   gauc |   valid_users |
     +=========+========+========+===============+
-    | dcn     | 0.6078 | 0.572  |           928 |
+    | dcn     | 0.6039 | 0.5744 |           928 |
     +---------+--------+--------+---------------+
-    | xdeepfm | 0.6    | 0.574  |           928 |
+    | xdeepfm | 0.6038 | 0.5736 |           928 |
     +---------+--------+--------+---------------+
-    | autoint | 0.5919 | 0.5695 |           928 |
+    | autoint | 0.5986 | 0.5725 |           928 |
     +---------+--------+--------+---------------+
 
@@ -30,10 +30,12 @@ Ad）不同而动态变化的。**
 .. _din_architecture:
 
 .. figure:: ../img/din_architecture.png
+   :width: 800px
 
    DIN模型架构图（右）及其与基准模型（左）的对比
 
 
+
 **技术实现：注意力机制**
 
 为了实现“局部激活”这一思想，DIN在模型中引入了一个关键模块——**局部激活单元（Local
@@ -71,10 +73,12 @@ DIEN） :cite:`zhou2019deep`
 .. _dien_architecture:
 
 .. figure:: ../img/dien.png
+   :width: 800px
 
    DIEN模型架构图
 
 
+
 DIEN的核心思想是，直接对原始、显性的行为序列建模是不够的。行为只是表象，我们更应该关注行为背后那个潜在的、抽象的
 **“兴趣”状态**\ ，并对这个兴趣状态的演化过程进行建模。为此，DIEN设计了一个两阶段结构，如上图所示。
 
@@ -138,20 +142,30 @@ Gate）上融入了注意力机制。注意力得分\ :math:`a_t`\ 由\ :math:`t
 从DIN到DIEN，我们看到了模型对用户兴趣的理解从“静态相关”走向了“动态演化”。然而，它们都将用户的行为看作一条连续的序列。但现实中，用户的行为模式更多是间断性的。用户通常在\ **一个会话（Session）**
 内拥有一个明确且集中的意图，而在\ **不同会话**\ 之间，兴趣点可能发生巨大转变。
 
+.. _dsin_session_structure:
+
 .. figure:: ../img/dsin_session.png
+   :width: 350px
 
    用户行为的会话结构示例
 
+
+
 如上图所示，一个用户可能在一个会话里集中浏览各种裤子，而在下一个会话则专注于戒指。这种\ **会话内同质、会话间异质**\ 的现象非常普遍。如果直接用一个RNN模型处理这种“断层”明显的长序列，模型需要花费很大力气去学习这种兴趣的突变，效果并不理想。
 
 深度会话兴趣网络（Deep Session Interest Network, DSIN）
 :cite:`feng2019deep`
 基于这一观察，提出我们应该将“会话”作为分析用户行为的基本单元，并采用一种\ **分层**\ 的思想来建模。
 
+.. _dsin_architecture:
+
 .. figure:: ../img/dsin_architecture.png
+   :width: 400px
 
    DSIN模型架构图
 
+
+
 **DSIN的技术实现：分层建模**
 
 DSIN的架构如上图所示，其建模过程可以清晰地分为几个层次：
@@ -207,10 +221,10 @@ DSIN通过引入“会话”这一更符合用户实际行为模式的中间单
     +--------+--------+--------+---------------+
     | 模型   |    auc |   gauc |   valid_users |
     +========+========+========+===============+
-    | din    | 0.5783 | 0.5557 |           928 |
+    | din    | 0.579  | 0.5563 |           928 |
     +--------+--------+--------+---------------+
-    | dien   | 0.5719 | 0.5482 |           928 |
+    | dien   | 0.5832 | 0.5476 |           928 |
     +--------+--------+--------+---------------+
-    | dsin   | 0.4343 | 0.5342 |            99 |
+    | dsin   | 0.5527 | 0.5545 |            99 |
     +--------+--------+--------+---------------+