如何修剪频率设置的数据以符合论文的描述
MovieLens数据集提供了一个包含列的表:
userid | movieid | tag | timestamp
我无法复制他们修剪用于的MovieLens数据集的方式:
标签知情协同过滤,由Zhen,Li和Young编写
在上面的4.1数据集中,它写道
“对于标记信息,我们只保留添加的标记
至少3部不同的电影。至于用户,我们只
保留那些在其中使用至少3个不同标签的用户
标记历史。对于电影,我们只保留那些电影
由至少3个不同的标签注释。“
我试图查询数据库:
select TMP.userid, count(*) as tagnum
from (select distinct T.userid as userid, T.tag as tag from tags T) AS TMP
group by TMP.userid
having tagnum >= 3;
我得到了一个标有3个不同标签的1760名用户的列表。但是,一些标签
未添加至少3部不同的电影。
任何帮助表示赞赏。
没有找到相关结果
已邀请:
1 个回复
刷遍派戳
如果您由用户查询,并将整个事物用作子查询,则应该能够检查也标记了三次的用户: