Skip to content

Latest commit

 

History

History
6 lines (6 loc) · 510 Bytes

README.md

File metadata and controls

6 lines (6 loc) · 510 Bytes

UserCF_Spark

基于Spark实现User的协同过滤CF

        原始数据u.data格式为(user_id,item_id,rating,timestamp),这所有的数据来源是通过943个用户对1682个items进行打分。

u.data数据被加载到hive表里面,所以spark操作的数据源为hive

计算用户相似度时,使用了向量的余弦定理cosine。

详细讲解:https://blog.csdn.net/weixin_39400271/article/details/100058486