协同过滤推荐算法weka_协同过滤的算法细分

❶ 协同过滤推荐系统的应用领域有哪些

豆瓣，amazon，淘宝，当当等网站都在用，豆瓣的猜你喜欢，音乐推荐，书籍推荐什么的都是，推荐你看看两篇文章，探索推荐引擎内部的秘密，第1 部分: 推荐引擎初探探索推荐引擎内部的秘密，第2 部分: 深入推荐引擎相关算法- 协同过滤，看完就基本了解了，http://www.ibm.com/search/csass/search/?sn=dw&lang=zh&cc=CN&en=utf&hpp=20&dws=cndw&lo=zh&q=%E6%8E%A2%E7%B4%A2%E6%8E%A8%E8%8D%90%E5%BC%95%E6%93%8E%E5%86%85%E9%83%A8%E7%9A%84%E7%A7%98%E5%AF%86

❷ 矩阵分解在协同过滤推荐算法中的应用

矩阵分解在协同过滤推荐算法中的应用
推荐系统是当下越来越热的一个研究问题，无论在学术界还是在工业界都有很多优秀的人才参与其中。近几年举办的推荐系统比赛更是一次又一次地把推荐系统的研究推向了高潮，比如几年前的Neflix百万大奖赛，KDD CUP 2011的音乐推荐比赛，去年的网络电影推荐竞赛，还有最近的阿里巴巴大数据竞赛。这些比赛对推荐系统的发展都起到了很大的推动作用，使我们有机会接触到真实的工业界数据。我们利用这些数据可以更好地学习掌握推荐系统，这些数据网上很多，大家可以到网上下载。
推荐系统在工业领域中取得了巨大的成功，尤其是在电子商务中。很多电子商务网站利用推荐系统来提高销售收入，推荐系统为Amazon网站每年带来30%的销售收入。推荐系统在不同网站上应用的方式不同，这个不是本文的重点，如果感兴趣可以阅读《推荐系统实践》（人民邮电出版社，项亮）第一章内容。下面进入主题。
为了方便介绍，假设推荐系统中有用户集合有6个用户，即U={u1,u2,u3,u4,u5,u6}，项目（物品）集合有7个项目，即V={v1,v2,v3,v4,v5,v6,v7}，用户对项目的评分结合为R，用户对项目的评分范围是[0, 5]。R具体表示如下：

推荐系统的目标就是预测出符号“？”对应位置的分值。推荐系统基于这样一个假设：用户对项目的打分越高，表明用户越喜欢。因此，预测出用户对未评分项目的评分后，根据分值大小排序，把分值高的项目推荐给用户。怎么预测这些评分呢，方法大体上可以分为基于内容的推荐、协同过滤推荐和混合推荐三类，协同过滤算法进一步划分又可分为基于基于内存的推荐（memory-based）和基于模型的推荐（model-based），本文介绍的矩阵分解算法属于基于模型的推荐。
矩阵分解算法的数学理论基础是矩阵的行列变换。在《线性代数》中，我们知道矩阵A进行行变换相当于A左乘一个矩阵，矩阵A进行列变换等价于矩阵A右乘一个矩阵，因此矩阵A可以表示为A=PEQ=PQ（E是标准阵）。
矩阵分解目标就是把用户-项目评分矩阵R分解成用户因子矩阵和项目因子矩阵乘的形式，即R=UV，这里R是n×m， n =6， m =7，U是n×k，V是k×m。直观地表示如下：

高维的用户-项目评分矩阵分解成为两个低维的用户因子矩阵和项目因子矩阵，因此矩阵分解和PCA不同，不是为了降维。用户i对项目j的评分r_ij =innerproct(u_i, v_j)，更一般的情况是r_ij =f(U_i, V_j)，这里为了介绍方便就是用u_i和v_j内积的形式。下面介绍评估低维矩阵乘积拟合评分矩阵的方法。
首先假设，用户对项目的真实评分和预测评分之间的差服从高斯分布，基于这一假设，可推导出目标函数如下：

最后得到矩阵分解的目标函数如下：

从最终得到得目标函数可以直观地理解，预测的分值就是尽量逼近真实的已知评分值。有了目标函数之后，下面就开始谈优化方法了，通常的优化方法分为两种：交叉最小二乘法（alternative least squares）和随机梯度下降法（stochastic gradient descent）。
首先介绍交叉最小二乘法，之所以交叉最小二乘法能够应用到这个目标函数主要是因为L对U和V都是凸函数。首先分别对用户因子向量和项目因子向量求偏导，令偏导等于0求驻点，具体解法如下：

上面就是用户因子向量和项目因子向量的更新公式，迭代更新公式即可找到可接受的局部最优解。迭代终止的条件下面会讲到。
接下来讲解随机梯度下降法，这个方法应用的最多。大致思想是让变量沿着目标函数负梯度的方向移动，直到移动到极小值点。直观的表示如下：

其实负梯度的负方向，当函数是凸函数时是函数值减小的方向走；当函数是凹函数时是往函数值增大的方向移动。而矩阵分解的目标函数L是凸函数，因此，通过梯度下降法我们能够得到目标函数L的极小值（理想情况是最小值）。
言归正传，通过上面的讲解，我们可以获取梯度下降算法的因子矩阵更新公式，具体如下：

（3）和（4）中的γ指的是步长，也即是学习速率，它是一个超参数，需要调参确定。对于梯度见（1）和（2）。
下面说下迭代终止的条件。迭代终止的条件有很多种，就目前我了解的主要有
1）设置一个阈值，当L函数值小于阈值时就停止迭代，不常用
2）设置一个阈值，当前后两次函数值变化绝对值小于阈值时，停止迭代
3）设置固定迭代次数
另外还有一个问题，当用户-项目评分矩阵R非常稀疏时，就会出现过拟合（overfitting）的问题，过拟合问题的解决方法就是正则化（regularization）。正则化其实就是在目标函数中加上用户因子向量和项目因子向量的二范数，当然也可以加上一范数。至于加上一范数还是二范数要看具体情况，一范数会使很多因子为0，从而减小模型大小，而二范数则不会它只能使因子接近于0，而不能使其为0，关于这个的介绍可参考论文Regression Shrinkage and Selection via the Lasso。引入正则化项后目标函数变为：

（5）中λ_1和λ_2是指正则项的权重，这两个值可以取一样，具体取值也需要根据数据集调参得到。优化方法和前面一样，只是梯度公式需要更新一下。
矩阵分解算法目前在推荐系统中应用非常广泛，对于使用RMSE作为评价指标的系统尤为明显，因为矩阵分解的目标就是使RMSE取值最小。但矩阵分解有其弱点，就是解释性差，不能很好为推荐结果做出解释。
后面会继续介绍矩阵分解算法的扩展性问题，就是如何加入隐反馈信息，加入时间信息等。

❸ 查找利用协同过滤算法为用户推荐商品的方法有哪些

协同过滤主要是以属性或兴趣相近的用户经验与建议作为提供个性化推荐的基础。回透过协同过滤，有答助于搜集具有类似偏好或属性的用户，并将其意见提供给同一集群中的用户作为参考，以满足人们通常在决策之前参考他人意见的心态。

❹ 求高手提供matlab协同过滤推荐算法的源代码，将不胜感激!!!

自己写吧，我毕论也是做推荐算法的。现在正在写基于用户的协同过滤。版已基本完工权。

Github: https://github.com/qdsclove/FinalYearProjectThesis_recommendation_system

❺ 个性化推荐算法——协同过滤

有三种：协同过滤
用户历史行为
物品相似矩阵

❻ 利用协同过滤算法为用户推荐商品的方法有哪些

协同过滤(Collaborative Filtering)的基本复概念就是制把这种推荐方式变成自动化的流程

协同过滤主要是以属性或兴趣相近的用户经验与建议作为提供个性化推荐的基础。透过协同过滤，有助于搜集具有类似偏好或属性的用户，并将其意见提供给同一集群中的用户作为参考，以满足人们通常在决策之前参考他人意见的心态。

本人认为，协同过滤技术应包括如下几方面:(1)一种比对和搜集每个用户兴趣偏好的过程;(2)它需要许多用户的信息去预测个人的兴趣偏好;(3)通过对用户之间兴趣偏好相关程度的统计去发展建议那些有相同兴趣偏好的用户。

❼ weka&数据挖掘：Weka里面有很多的算法，但是Weka并没有给出算法如何实现的，有没有相关的论文可以看看啊！

我觉得直接看源码比较容易理解，WEKA是开源的

如果你要信息增益的话看这个：

http://www.360doc.com/content/09/1010/11/79028_7055867.shtml

❽ 协同过滤的算法细分

这是最早应用协同过滤系统的设计，主要是解决Xerox公司在 Alto的研究中心资讯过载的问题。这个研究中心的员工每天会收到非常多的电子邮件却无从筛选分类，于是研究中心便发展这项实验性的邮件系统来帮助员工解决这项问题。其运作机制大致如下：
个人决定自己的感兴趣的邮件类型；个人旋即随机发出一项资讯需求，可预测的结果是会收到非常多相关的文件；从这些文件中个人选出至少三笔资料是其认为有用、会想要看的；系统便将之记录起来成为个人邮件系统内的过滤器，从此以后经过过滤的文件会最先送达信箱；以上是协同过滤最早的应用，接下来的里程碑为GroupLens。这个系统主要是应用在新闻的筛选上，帮助新闻的阅听者过滤其感兴趣的新闻内容，阅听者看过内容后给一个评比的分数，系统会将分数记录起来以备未来参考之用，假设前提是阅听者以前感兴趣的东西在未来也会有兴趣阅听，若阅听者不愿揭露自己的身分也可以匿名进行评分。和Tapestry不同之处有两点，首先，Tapestry专指一个点（如一个网站内、一个系统内）的过滤机制；GroupLens则是跨点跨系统的新闻过滤机制。再来，Tapestry不会将同一笔资料的评比总和起来；GroupLens会将同一笔资料从不同使用者得到的评比加总。
GroupLens具有以下特点：开放性：所有的新闻阅听者皆可使用，虽然系统委托Better Bit Bureau设计给分的系统，但若有不同的评分机制也适用于GroupLens。方便性：给分并不是一件困难的事情且沟通上非常方便，评分结果容易诠释。规模性：有可能发展成大规模的系统，一旦发展成大规模，储存空间与计算成本问题显得相当棘手。隐密性：如果使用者不想让别人知道他是谁，别人就不会知道。由此可以看出，现今网络各个推荐系统的雏形已然形成，在GroupLens之后还有性质相近的MovieLens，电影推荐系统；Ringo，音乐推荐系统；Video Recommender，影音推荐系统；以及Jster，笑话推荐系统等等。乃至于今日的YouTube、aNobii皆是相似性值得网络推荐平台，较不同的是经过时间推移，网络越来越发达，使用者越来越多，系统也发展得越来越严密。最著名的电子商务推荐系统应属亚马逊网络书店，顾客选择一本自己感兴趣的书籍，马上会在底下看到一行“Customer Who Bought This Item Also Bought”，亚马逊是在“对同样一本书有兴趣的读者们兴趣在某种程度上相近”的假设前提下提供这样的推荐，此举也成为亚马逊网络书店为人所津津乐道的一项服务，各网络书店也跟进做这样的推荐服务如台湾的博客来网络书店。另外一个著名的例子是Facebook的广告，系统根据个人资料、周遭朋友感兴趣的广告等等对个人提供广告推销，也是一项协同过滤重要的里程碑，和前二者Tapestry、GroupLens不同的是在这里虽然商业气息浓厚同时还是带给使用者很大的方便。以上为三项协同过滤发展上重要的里程碑，从早期单一系统内的邮件、文件过滤，到跨系统的新闻、电影、音乐过滤，乃至于今日横行互联网的电子商务，虽然目的不太相同，但带给使用者的方便是大家都不能否定的。

❾ Python实现协同过滤推荐算法，用的大一些的数据集就报错MemoryError

python虽然易用，但是内存占用比较多；所以如果你有C/C++/Java基础，考虑用这些语专言来实现；
CF算法属需要计算大量的相似度，如果能把中间结果存起来，或者简化计算过程（如，你可能会重复计算一个item的均值）可以省下不少内存；（个人试过计算1w个用户Pearson是没问题的）
如果内存实在不够用，那就用时间换空间，把中间计算结果分成小文件存到磁盘上，用的时候再读取。
供参考。

导航:首页 > 净水问答 > 协同过滤推荐算法weka

协同过滤推荐算法weka

与协同过滤推荐算法weka相关的资料