Skip to content

Commit 7c01041

Browse files
committed
try to enable latex eq
1 parent c033cfa commit 7c01041

File tree

11 files changed

+198
-1
lines changed

11 files changed

+198
-1
lines changed

_layouts/post.html

Lines changed: 3 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -225,4 +225,6 @@ <h5>FRIENDS</h5>
225225
}
226226
}
227227
</style>
228-
{% endif %}
228+
{% endif %}
229+
230+
<script src="https://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML" type="text/javascript"></script>
Lines changed: 85 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,85 @@
1+
---
2+
layout: post # 使用的布局
3+
title: # 标题
4+
subtitle: # 副标题
5+
date: 2022-02-07
6+
author: iStar
7+
header-img: img/ # 这篇文章标题背景图片
8+
catalog: true # 是否归档
9+
tags: # 标签
10+
- 生活
11+
---
12+
13+
# 双塔模型
14+
处理不同的属性和特征,从而得到用户和物品更细致的描述,其余和矩阵补充相似
15+
![属性处理方法](assets/2025-03-26-推荐算法双塔模型/image.png)
16+
17+
训练方式:
18+
- Pointwise:独立看待每个正负样本,做简单二元分类
19+
- 正负样本1:2或1:3
20+
- 正样本余弦相似度接近1,负样本接近-1
21+
- Pairwise:每次取一个正样本和负样本
22+
- 两个物品样本共享相同的网络参数,让正样本余弦相似度大于负样本
23+
- 设定如果$cos(a,b^+) > cos(a,b^-)+m$就没有损失
24+
- Triplet hinge loss: $L(a,b^+,b^-)=\max(0,cos(a,b^-)+m-cos(a,b^+))$
25+
- Triplet logistic loss: $L(a, b^+, b^-)=\log(1+\exp[\sigma(\cos(a,b^-)-\cos(a,b^+))])$
26+
- Listwise:每次取一个正样本,多个负样本
27+
- ![alt text](assets/2025-03-26-推荐算法双塔模型/image-1.png)
28+
29+
前期特征融合的模型不适用于召回,例如在输入神经网络前将两个向量拼接在一起,由神经网络得到用户对物品的兴趣。这样的模型一般是用于排序的,因为需要将用户向量与每个物品向量拼接并送入模型,召回无法承担将模型跑这么多次。
30+
31+
## 正负样本
32+
正样本:曝光且有点击的用户-物品二元组,需要对冷门物品过采样或对热门物品降采样,防止热门物品大多数是热门物品
33+
34+
负样本:
35+
- 没有被召回(简单负样本)
36+
- 直接从全体物品中进行抽样作为负样本
37+
- 由于样本数很多,所以未被召回的可近似于全体物品
38+
- 均匀抽样:对冷门物品不公平,负样本大多是冷门物品
39+
- 非均匀抽样:抽样概率于热门程度正相关,抽样概率正比于点击次数的0.75次方
40+
- Batch内负样本
41+
- 将同一个batch中其他正样本的物品作为负样本,但是这样相当于对热门物品以点击次数进行抽样,没有加0.75次方,解决策略是训练时使用$\cos(a,b_i)-\log p_i$,在线召回时不需要后一项
42+
- 召回了但在粗排和精排中被淘汰,没有被曝光(困难负样本)
43+
- 被曝光但是没有被用户点击
44+
- 无法应用于召回模型训练,这是用于训练排序模型的
45+
46+
## 线上召回
47+
48+
用户塔在线计算,物品塔预先计算并将向量存储在数据库中,例如Milvus、Faiss和HnswLib。
49+
如果对用户塔也预计算效果并不好,因为欸用户兴趣是动态变化的,而物品特征相对稳定。
50+
51+
## 模型更新
52+
![alt text](assets/2025-03-26-推荐算法双塔模型/image-2.png)
53+
54+
全量更新:每天凌晨用昨天全天数据训练模型,初始参数是昨天的旧模型参数,随机打乱后用数据训练1个epoch,对数据流和系统的要求较低。
55+
56+
增量更新:用户兴趣随时发生变化,实时收集线上数据,做流式处理,生成TFRecord文件。
57+
online learning,只增量更新用户embedding参数,而且更新的参数并不用于全量更新。
58+
59+
增量更新只使用短时间数据,存在较大偏差,而全量更新random shuffle了一天的数据,可以得到更优的训练结果。
60+
61+
## 自监督学习训练 物品塔
62+
63+
- Random Mask
64+
- Dropout
65+
- 互补特征
66+
- Mask一组关联特征
67+
68+
# Deep Retrieval召回
69+
70+
## Beam Search (贪心算法)
71+
72+
# 地理位置召回
73+
74+
GeoHash召回
75+
76+
同城召回
77+
78+
# 作者召回
79+
80+
81+
# 曝光过滤
82+
83+
看过某个物品,就不再把该物品曝光给用户
84+
85+
boom filter
Lines changed: 63 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,63 @@
1+
---
2+
layout: post # 使用的布局
3+
title: # 标题
4+
subtitle: # 副标题
5+
date: 2022-02-07
6+
author: iStar
7+
header-img: img/ # 这篇文章标题背景图片
8+
catalog: true # 是否归档
9+
tags: # 标签
10+
- 生活
11+
---
12+
13+
14+
# 多目标模型
15+
16+
# 训练策略和解决的问题
17+
18+
负样本降采样
19+
20+
解决样本不平衡、负样本过多的问题
21+
22+
预估值校准,由于减少了负样本,所以预估点击率大于真实点击率
23+
24+
真实点击率:$p_{true}=\frac{n_+}{n_+ + n_-}$
25+
26+
预估点击率:$p_{pred}=\frac{n_+}{n_+ + \alpha n_-}$
27+
28+
校准公式:$p_{true}=\frac{\alpha\cdot p_{pred}}{(1-p_{pred})+\alpha\cdot p_{pred}}$
29+
30+
## MMoE
31+
32+
极化问题:训练时使用dropout
33+
34+
用了MMoE并不一定带来提升
35+
36+
## 预估分数融合
37+
38+
39+
## 视频播放建模
40+
41+
视频排序依据中还有播放时长和完播率
42+
43+
完播率要根据视频长度做调整
44+
45+
## 排序模型的特征
46+
47+
- 用户画像
48+
- 物品画像
49+
- 用户统计特征
50+
- 物品统计特征
51+
- 场景特征
52+
53+
特征处理
54+
55+
对于点赞率等,存在长尾分布,为了避免过大或者过小的数影响模型计算,要进行log处理或者转化为率
56+
57+
# 粗排模型
58+
59+
牺牲准确性提高推理速度
60+
61+
三塔模型,介于前期融合和后期融合之间
62+
63+
融合后不送入大神经网络计算,直接到全连接
Lines changed: 36 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,36 @@
1+
---
2+
layout: post # 使用的布局
3+
title: # 标题
4+
subtitle: # 副标题
5+
date: 2022-02-07
6+
author: iStar
7+
header-img: img/ # 这篇文章标题背景图片
8+
catalog: true # 是否归档
9+
tags: # 标签
10+
- 生活
11+
---
12+
13+
# Factorized Machine (FM) 因式分解机
14+
15+
线性模型中只是特征的线性组合,没有特征之间的交互
16+
17+
二阶特征交叉,参数量是平方级别,为了降低参数量,使用矩阵的低秩分解,就得到FM模型,只有kd个参数
18+
19+
现在已经被淘汰
20+
21+
# DCN 深度交叉网络
22+
23+
用于代替简单的全连接网络
24+
25+
![交叉网络](assets/2025-03-27-推荐算法特征交叉/image.png)
26+
27+
![深度交叉网络](assets/2025-03-27-推荐算法特征交叉/image-1.png)
28+
29+
30+
# LHUC (PPNet)
31+
32+
只能用于精排
33+
34+
# SENet 和 Bilinear 交叉
35+
36+
SENet对特征做
Lines changed: 11 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,11 @@
1+
---
2+
layout: post # 使用的布局
3+
title: # 标题
4+
subtitle: # 副标题
5+
date: 2022-02-07
6+
author: iStar
7+
header-img: img/ # 这篇文章标题背景图片
8+
catalog: true # 是否归档
9+
tags: # 标签
10+
- 生活
11+
---
255 KB
Loading
195 KB
Loading
260 KB
Loading
261 KB
Loading
261 KB
Loading

0 commit comments

Comments
 (0)