File tree Expand file tree Collapse file tree 1 file changed +2
-2
lines changed
Expand file tree Collapse file tree 1 file changed +2
-2
lines changed Original file line number Diff line number Diff line change 2402402 . 对于每块数据,基于一些筛选规则进行记录的删除,比如只用了后7天的数据, 删除了一些文章不在物料池的数据, 删除不合法的点击记录(曝光时间大于文章上传时间), 删除没有历史点击的用户,删除观看时间低于3s的视频, 删除历史点击序列太短和太长的用户记录
2412413 . 删除完之后重新保存一份新数据集,大约3个G,然后再从这里面随机采样了20000用户进行了后面实验
242242
243- 通过上面的一波操作, 我的小本子就能跑起来了,当然可能数据比较少,最终训练的YouTubeDNN效果并不是很好。详细看后面GitHub的: ` 点击日志数据集初步处理与采样.ipynb `
243+ 通过上面的一波操作, 我的小本子就能跑起来了,当然可能数据比较少,最终训练的YouTubeDNN效果并不是很好。详细看后面GitHub的: [ ` 点击日志数据集初步处理与采样.ipynb ` ] ( https://github.com/zhongqiangwu960812/AI-RecommenderSystem/blob/master/Dataset/点击日志数据集初步处理与采样.ipynb )
244244
245245### 简单数据预处理
246246这个也是写成了一个笔记本, 主要是看了下采样后的数据,序列长度分布等,由于上面做了一些规整化,这里有毛病的数据不是太多,并没有太多处理, 但是用户数据里面的年龄,性别源数据是给出了多种可能, 每个可能有概率值,我这里选出了概率最大的那个,然后简单填充了缺失。
247247
248248最后把能用到的用户画像和文章画像统一拼接到了点击日志数据,又保存了一份。 作为YouTubeDNN模型的使用数据, 其他模型我也打算使用这份数据了。
249249
250- 详见` EDA与数据预处理.ipynb `
250+ 详见[ ` EDA与数据预处理.ipynb ` ] ( https://github.com/zhongqiangwu960812/AI-RecommenderSystem/blob/master/Dataset/EDA与数据预处理.ipynb )
251251
252252### YouTubeDNN召回
253253这里就需要解释下一些代码了, 首先拿到采样的数据集,我们先划分下训练集和测试集:
You can’t perform that action at this time.
0 commit comments