协同过滤算法与als_如何使用Spark ALS实现协同过滤

『壹』基于聚类的协同过滤算法都有哪些

自邀自答，不用谢。这是两种完全不同的算法思想。以二维空间为例，聚类是各个样本版往若干权个共同中心聚合的过程，计算的是样本点到聚类中心的二维空间距离；而协同过滤是尽量在样本中构造平行相似性，以弥合缺失的样本信息维度。聚类和协同过滤是可以而且应当在解决实际问题中混合使用的。但应该是在解决问题的不同阶段。比如用户兴趣，首先使用聚类方法对人群进行若干大类的划分，然后在一类人群中进行协同过滤。

『贰』个性化推荐算法——协同过滤

有三种：协同过滤
用户历史行为
物品相似矩阵

『叁』如何使用Spark ALS实现协同过滤

1.背景
协同过滤（collaborative filtering）是推荐系统常用的一种方法。cf的主要思想就是找出物品相似度高的归为一类进行推荐。cf又分为icf和ucf。icf指的是item collaborative filtering，是将商品进行分析推荐。同理ucf的u指的是user，他是找出知趣相似的人，进行推荐。通常来讲icf的准确率可能会高一些，通过这次参加天猫大数据比赛，我觉得只有在数据量非常庞大的时候才适合用cf，如果数据量很小，cf的准确率会非常可怜。博主在比赛s1阶段，大概只有几万条数据的时候，尝试了icf，准确率不到百分之一。。。。。
2.常用方法
cf的常用方法有三种，分别是欧式距离法、皮尔逊相关系数法、余弦相似度法。
测试矩阵,行表示三名用户，列表示三个品牌，对品牌的喜爱度按照1~5增加。
（1）欧氏距离法
就是计算每两个点的距离，比如Nike和Sony的相似度。数值越小，表示相似的越高。
[python] view plain print?在CODE上查看代码片派生到我的代码片
def OsDistance(vector1, vector2):
sqDiffVector = vector1-vector2
sqDiffVector=sqDiffVector**2
sqDistances = sqDiffVector.sum()
distance = sqDistances**0.5
return distance
（2）皮尔逊相关系数
两个变量之间的相关系数越高，从一个变量去预测另一个变量的精确度就越高，这是因为相关系数越高，就意味着这两个变量的共变部分越多，所以从其中一个变量的变化就可越多地获知另一个变量的变化。如果两个变量之间的相关系数为1或-1，那么你完全可由变量X去获知变量Y的值。
· 当相关系数为0时，X和Y两变量无关系。
· 当X的值增大，Y也增大，正相关关系，相关系数在0.00与1.00之间
· 当X的值减小，Y也减小，正相关关系，相关系数在0.00与1.00之间
· 当X的值增大，Y减小，负相关关系，相关系数在-1.00与0.00之间
当X的值减小，Y增大，负相关关系，相关系数在-1.00与0.00之间
相关系数的绝对值越大，相关性越强，相关系数越接近于1和-1，相关度越强，相关系数越接近于0，相关度越弱。
clip_image003
在Python中用函数corrcoef实现，具体方法见http//infosec.pku.e.cn/~lz/doc/Numpy_Example_List.htm
（3）余弦相似度
通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1，而其他任何角度的
余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两
个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相
反的方向时，余弦相似度的值为-1。在比较过程中，向量的规模大小不予考虑，仅仅考虑到向量的指向方向。余弦相
似度通常用于两个向量的夹角小于90°之内，因此余弦相似度的值为0到1之间。
\mathbf{a}\cdot\mathbf{b}=\left\|\mathbf{a}\right\|\left\|\mathbf{b}\right\|\cos\theta
[python] view plain print?在CODE上查看代码片派生到我的代码片
def cosSim(inA,inB):
num = float(inA.T*inB)
denom = la.norm(inA)*la.norm(inB)
return 0.5+0.5*(num/denom)

『肆』协同过滤算法和聚类算法有什么区别

协同过滤多处理的是异构数据，数据差别大种类多；聚类多处理的是同构数据

『伍』 Spark 推荐算法-协同过滤-java的语句意思

协同过滤(Collaborative Filtering)的基本概念就是把这种方式变成自动化的流程

协同过滤主要是以属版性或兴趣相近权的用户经验与建议作为提供个性化的基础。透过协同过滤，有助于搜集具有类似偏好或属性的用户，并将其意见提供给同一集群中的用户作为参考，以满足人们通常在决策之前参考他人意见的心态。

本人认为，协同过滤技术应包括如下几方面:(1)一种比对和搜集每个用户兴趣偏好的过程;(2)它需要许多用户的信息去预测个人的兴趣偏好;(3)通过对用户之间兴趣偏好相关程度的统计去发展建议那些有相同兴趣偏好的用户。

『陆』协同过滤算法有哪些 slope

协同过滤算法是这一领域的主流。作为基于内容的算法执行方式内，协同过滤在准确性上具容有相当的优势，但无法冷启动、同质化和运算效率低使其依然存在很多不足。
协同过滤算法的名称来源于化学上的过滤操作。
原理
利用物质的溶解性差异，将液体和不溶于液体的固体分离开来的一种方法。如用过滤法除去粗食盐中少量的泥沙

过滤实验仪器
漏斗、烧杯、玻璃棒、铁架台（含铁圈）、滤纸。

过滤操作要领
要做到“一贴、二低、三靠”。
一贴
即使滤纸润湿，紧贴漏斗内壁，中间不要留下气泡。（防止气泡减慢过滤速度。）
二低
1．滤纸边缘略低于漏斗边缘。
2．液面低于滤纸边缘。（防止液体过滤不净。）
三靠
1．倾倒时烧杯杯口要紧靠玻璃棒上。
2．玻璃棒下端抵靠在三层滤纸处。
3．漏斗下端长的那侧管口紧靠烧杯内壁。

过滤注意事项
1．烧杯中的混合物在过滤前应用玻璃棒搅拌，然后进行过滤。
2．过滤后若溶液还显浑浊，应再过滤一次，直到溶液变得透明为止。
3.过滤器中的沉淀的洗涤方法：用烧瓶或滴管向过滤器中加蒸馏水，使水面盖没沉淀物，待溶液全部滤出后，重复2~3次。
希望我能帮助你解疑释惑。

『柒』协同过滤中als算法输出两个分解矩阵u*v什么意思

在本文中矩阵来用斜体大自写字母表示（如：R），标量用小写字母表示（如：i，j）。给定一个矩阵R，
Rij表示它的一个元素，Ri.表示矩阵R的第i行，R.j表示矩阵R的第j列，RT
表示矩阵R的转置。R-1
表示矩阵R的逆。在本文中给定的矩阵R表示具有m个用户、n个对象的评分矩阵，矩阵U、
V分别表示用户和推荐对象的特征矩阵

『捌』基于用户的的协同过滤算法怎样算准确率

协同过滤(Collaborative Filtering)的基本概念就是把这种推荐方式变成自动化的流程

协同过滤主要是以属性或内兴趣相近的用户经验容与建议作为提供个性化推荐的基础。透过协同过滤，有助于搜集具有类似偏好或属性的用户，并将其意见提供给同一集群中的用户作为参考，以满足人们通常在决策之前参考他人意见的心态。

本人认为，协同过滤技术应包括如下几方面:(1)一种比对和搜集每个用户兴趣偏好的过程;(2)它需要许多用户的信息去预测个人的兴趣偏好;(3)通过对用户之间兴趣偏好相关程度的统计去发展建议那些有相同兴趣偏好的用户。

『玖』协同过滤的算法简介

电子商务推荐系统的一种主要算法。
协同过滤推荐（Collaborative Filtering recommendation）是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同，协同过滤分析用户兴趣，在用户群中找到指定用户的相似（兴趣）用户，综合这些相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测。
与传统文本过滤相比，协同过滤有下列优点:
（1）能够过滤难以进行机器自动基于内容分析的信息。如艺术品、音乐;
（2）能够基于一些复杂的，难以表达的概念（信息质量、品位)进行过滤;
（3）推荐的新颖性。
正因为如此，协同过滤在商业应用上也取得了不错的成绩。Amazon，CDNow，MovieFinder，都采用了协同过滤的技术来提高服务质量。
缺点是:
（1）用户对商品的评价非常稀疏，这样基于用户的评价所得到的用户间的相似性可能不准确（即稀疏性问题）;
（2）随着用户和商品的增多，系统的性能会越来越低;
（3）如果从来没有用户对某一商品加以评价，则这个商品就不可能被推荐（即最初评价问题）。
因此，现在的电子商务推荐系统都采用了几种技术相结合的推荐技术。
案例: AMAZON个性化推荐系统先驱 (基于协同过滤)
AMAZON是一个虚拟的网上书店，它没有自己的店面，而是在网上进行在线销售。它提供了高质量的综合节目数据库和检索系统，用户可以在网上查询有关图书的信息。如果用户需要购买的话，可以把选择的书放在虚拟购书篮中，最后查看购书篮中的商品，选择合适的服务方式并且提交订单，这样读者所选购的书在几天后就可以送到家。
AMAZON书店还提供先进的个性化推荐功能，能为不同兴趣偏好的用户自动推荐尽量符合其兴趣需要的书籍。 AMAZON使用推荐软件对读者曾经购买过的书以及该读者对其他书的评价进行分析后，将向读者推荐他可能喜欢的新书，只要鼠标点一下，就可以买到该书；AMAZON能对顾客购买过的东西进行自动分析，然后因人而异的提出合适的建议。读者的信息将被再次保存，这样顾客下次来时就能更容易的买到想要的书。此外，完善的售后服务也是AMAZON的优势，读者可以在拿到书籍的30天内，将完好无损的书和音乐光盘退回AMAZON，AMAZON将原价退款。当然AMAZON的成功还不止于此，如果一位顾客在AMAZON购买一本书，下次他再次访问时，映入眼帘的首先是这位顾客的名字和欢迎的字样。

『拾』如何解释spark mllib中ALS算法的原理

整理一下自己的理解。
对于一个users-procts-rating的评分数据集，ALS会建立一个user*proct的m*n的矩阵
其中，m为users的数量，n为procts的数量
但是在这个数据集中，并不是每个用户都对每个产品进行过评分，所以这个矩阵往往是稀疏的，用户i对产品j的评分往往是空的
ALS所做的事情就是将这个稀疏矩阵通过一定的规律填满，这样就可以从矩阵中得到任意一个user对任意一个proct的评分，ALS填充的评分项也称为用户i对产品j的预测得分
所以说，ALS算法的核心就是通过什么样子的规律来填满（预测）这个稀疏矩阵
它是这么做的：
假设m*n的评分矩阵R，可以被近似分解成U*(V)T
U为m*d的用户特征向量矩阵
V为n*d的产品特征向量矩阵（(V)T代表V的转置，原谅我不会打转置这个符号。。）
d为user/proct的特征值的数量

关于d这个值的理解，大概可以是这样的
对于每个产品，可以从d个角度进行评价，以电影为例，可以从主演，导演，特效，剧情4个角度来评价一部电影，那么d就等于4
可以认为，每部电影在这4个角度上都有一个固定的基准评分值
例如《末日崩塌》这部电影是一个产品，它的特征向量是由d个特征值组成的
d=4，有4个特征值，分别是主演，导演，特效，剧情
每个特征值的基准评分值分别为（满分为1.0）：
主演：0.9（大光头还是那么霸气）
导演：0.7
特效：0.8
剧情：0.6
矩阵V由n个proct*d个特征值组成

对于矩阵U，假设对于任意的用户A，该用户对一部电影的综合评分和电影的特征值存在一定的线性关系，即电影的综合评分=(a1*d1+a2*d2+a3*d3+a4*d4)
其中a1-4为用户A的特征值，d1-4为之前所说的电影的特征值
参考：
协同过滤中的矩阵分解算法研究

那么对于之前ALS算法的这个假设
m*n的评分矩阵R，可以被近似分解成U*(V)T
就是成立的，某个用户对某个产品的评分可以通过矩阵U某行和矩阵V（转置）的某列相乘得到

那么现在的问题是，如何确定用户和产品的特征值？（之前仅仅是举例子，实际中这两个都是未知的变量）
采用的是交替的最小二乘法
在上面的公式中，a表示评分数据集中用户i对产品j的真实评分，另外一部分表示用户i的特征向量（转置）*产品j的特征向量（这里可以得到预测的i对j的评分）在上面的公式中，a表示评分数据集中用户i对产品j的真实评分，另外一部分表示用户i的特征向量（转置）*产品j的特征向量（这里可以得到预测的i对j的评分）
用真实评分减去预测评分然后求平方，对下一个用户，下一个产品进行相同的计算，将所有结果累加起来（其中，数据集构成的矩阵是存在大量的空打分，并没有实际的评分，解决的方法是就只看对已知打分的项）
参考：
ALS 在 Spark MLlib 中的实现
但是这里之前问题还是存在，就是用户和产品的特征向量都是未知的，这个式子存在两个未知变量

解决的办法是交替的最小二乘法
首先对于上面的公式，以下面的形式显示：
为了防止过度拟合，加上正则化参数为了防止过度拟合，加上正则化参数
首先用一个小于1的随机数初始化V首先用一个小于1的随机数初始化V
根据公式（4）求U
此时就可以得到初始的UV矩阵了，计算上面说过的差平方和
根据计算得到的U和公式（5），重新计算并覆盖V，计算差平方和
反复进行以上两步的计算，直到差平方和小于一个预设的数，或者迭代次数满足要求则停止
取得最新的UV矩阵
则原本的稀疏矩阵R就可以用R=U(V)T来表示了
以上公式内容截图来自：
基于矩阵分解的协同过滤算法

总结一下：
ALS算法的核心就是将稀疏评分矩阵分解为用户特征向量矩阵和产品特征向量矩阵的乘积
交替使用最小二乘法逐步计算用户/产品特征向量，使得差平方和最小
通过用户/产品特征向量的矩阵来预测某个用户对某个产品的评分

不知道是不是理解正确了
有几个问题想请教一下~
（1）在第一个公式中加入正则化参数是啥意思？为什么是那种形态的？
（2）固定一个矩阵U，求偏导数之后可以得到求解V的公式，为什么？

导航:首页 > 净水问答 > 协同过滤算法与als

协同过滤算法与als

与协同过滤算法与als相关的资料