使用带有Movielens / Netflix类型数据集的SVD的基本伪代码

我正在努力弄清楚如何开始使用带有MovieLens / Netflix类型数据集的SVD进行评级预测。我非常感谢python / java中的任何简单示例,或者涉及的过程的基本伪代码。有很多论文/帖子总结了整体概念,但我不知道如何开始实现它,即使使用了许多建议的库。 据我了解,我需要转换我的初始数据集如下: 初始数据集:
    user    movie   rating
    1       43      3
    1       57      2
    2       219     4
需要转向:
user        1   2
movie   43  3   0
        57  2   0
        219 0   4
此时,我是否只需将此Matrix注入可用库提供的SVD算法中,然后(以某种方式)提取结果,或者我需要做更多的工作? 我读过的一些信息: http://www.netflixprize.com/community/viewtopic.php?id=1043 http://sifter.org/~simon/journal/20061211.html http://www.slideshare.net/NYCPredictiveAnalytics/building-a-recommendation-engine-an-example-of-a-product-recommendation-engine http://www.slideshare.net/bmabey/svd-and-the-netflix-dataset-presentation ..以及其他一些论文 一些图书馆: LingPipe(JAVA) 贾马(JAVA) Pyrsvd(蟒蛇) 任何提示都会受到赞赏,特别是在基本数据集上。 非常感谢, 奥利     
已邀请:
请参阅Apache Mahout中的SVDRecommender。您关于输入格式的问题完全取决于您正在使用的库或代码。没有一个标准。在某种程度上,是的,代码将在内部构造某种矩阵。对于Mahout,所有推荐人的输入,当作为文件提供时,是一个CSV文件,其行如
userID,itemID,rating
。     
数据集:http://www.grouplens.org/node/73 SVD:如果你不明白怎么做SVD,为什么不在
SAGE
呢? Wolfram alpha或http://www.bluebit.gr/matrix-calculator/将为您分解矩阵,或者它在Wikipedia上。     

要回复问题请先登录注册