Skip to content

Commit b79f6ae

Browse files
committed
添加教程作者外链
1 parent f8efcfe commit b79f6ae

File tree

1 file changed

+2
-2
lines changed

1 file changed

+2
-2
lines changed

docs/ch02/ch2.1/ch2.1.2/YoutubeDNN.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -240,14 +240,14 @@ $$
240240
2. 对于每块数据,基于一些筛选规则进行记录的删除,比如只用了后7天的数据, 删除了一些文章不在物料池的数据, 删除不合法的点击记录(曝光时间大于文章上传时间), 删除没有历史点击的用户,删除观看时间低于3s的视频, 删除历史点击序列太短和太长的用户记录
241241
3. 删除完之后重新保存一份新数据集,大约3个G,然后再从这里面随机采样了20000用户进行了后面实验
242242

243-
通过上面的一波操作, 我的小本子就能跑起来了,当然可能数据比较少,最终训练的YouTubeDNN效果并不是很好。详细看后面GitHub的: `点击日志数据集初步处理与采样.ipynb`
243+
通过上面的一波操作, 我的小本子就能跑起来了,当然可能数据比较少,最终训练的YouTubeDNN效果并不是很好。详细看后面GitHub的: [`点击日志数据集初步处理与采样.ipynb`](https://github.com/zhongqiangwu960812/AI-RecommenderSystem/blob/master/Dataset/点击日志数据集初步处理与采样.ipynb)
244244

245245
### 简单数据预处理
246246
这个也是写成了一个笔记本, 主要是看了下采样后的数据,序列长度分布等,由于上面做了一些规整化,这里有毛病的数据不是太多,并没有太多处理, 但是用户数据里面的年龄,性别源数据是给出了多种可能, 每个可能有概率值,我这里选出了概率最大的那个,然后简单填充了缺失。
247247

248248
最后把能用到的用户画像和文章画像统一拼接到了点击日志数据,又保存了一份。 作为YouTubeDNN模型的使用数据, 其他模型我也打算使用这份数据了。
249249

250-
详见`EDA与数据预处理.ipynb`
250+
详见[`EDA与数据预处理.ipynb`](https://github.com/zhongqiangwu960812/AI-RecommenderSystem/blob/master/Dataset/EDA与数据预处理.ipynb)
251251

252252
### YouTubeDNN召回
253253
这里就需要解释下一些代码了, 首先拿到采样的数据集,我们先划分下训练集和测试集:

0 commit comments

Comments
 (0)