協同過濾相關系數_如何使用Spark ALS實現協同過濾

『壹』 java,我有一個資料庫表userid,bookid,score,用這個表用協同過濾演算法找到愛好相似的用戶

//皮爾遜相關系數分析
//介於-1到1之間。相關系數越接近與1，說明兩個人越相似。
//你先參考下這個雖然裡面只有Python的代碼：

//我用java去做一下試試

importjava.util.*;

publicclassTest{

publicstaticvoidmain(String[]args){
Map<String,HashMap<String,Double>>cri=newHashMap<String,HashMap<String,Double>>();
//模擬資料庫中的數據，實際運用時請靈活變動
getData(cri);
System.out.println(cri.get("Gene").get("LadyintheWater"));
//獲得評價值
System.out.println(getSim(cri,"Gene","Lisa"));
}

//模擬資料庫中的數據
publicstaticvoidgetData(Map<String,HashMap<String,Double>>cri){
HashMap<String,Double>temp=newHashMap<String,Double>();
temp.put("LadyintheWater",2.5);
temp.put("SnakesonaPlane",3.5);
temp.put("JustMyLuck",3.0);
temp.put("SupermanReturns",3.5);
temp.put("You,MeandDupree",2.5);
temp.put("TheNightListener",3.0);
cri.put("Lisa",temp);
HashMap<String,Double>temp1=newHashMap<String,Double>();
temp1.put("LadyintheWater",3.0);
temp1.put("SnakesonaPlane",3.5);
temp1.put("JustMyLuck",1.5);
temp1.put("SupermanReturns",5.0);
temp1.put("You,MeandDupree",3.5);
temp1.put("TheNightListener",3.0);
cri.put("Gene",temp1);
}

publicstaticdoublegetSim(Map<String,HashMap<String,Double>>cri,Stringp1,Stringp2){
HashMap<String,Double>p1m=cri.get(p1);
HashMap<String,Double>p2m=cri.get(p2);

List<String>simBook=newArrayList<String>();
for(Map.Entry<String,Double>entry:p1m.entrySet()){
if(p2m.containsKey(entry.getKey())){
simBook.add(entry.getKey());
}
}
//判斷相同元素的個數
if(simBook.size()==0){
return1;
}
//對所有偏好求和
doublesum1=0d,sum2=0d;
//求平方和
doublesum1Sq=0d,sum2Sq=0d;
//求乘積和
doublepSum=0d;
for(Strings:simBook){
sum1+=p1m.get(s);
sum2+=p2m.get(s);

sum1Sq+=Math.pow(p1m.get(s),2);
sum2Sq+=Math.pow(p2m.get(s),2);

pSum+=p1m.get(s)*p2m.get(s);
}

//計算皮爾遜評價值
doublenum=pSum-(sum1*sum2/simBook.size());
doubleden=Math.sqrt((sum1Sq-Math.pow(sum1,2)/simBook.size())*(sum2Sq-Math.pow(sum2,2)/simBook.size()));

if(den==0){
return0;
}

returnnum/den;
}

}

『貳』數據分析有什麼思路

常見的分析方法有：分類分析，矩陣分析，漏斗分析，相關分析，邏輯樹分析，趨勢分析，行為軌跡分析，等等。我用HR的工作來舉例，說明上面這些分析要怎麼做，才能得出洞見。

01）分類分析
比如分成不同部門、不同崗位層級、不同年齡段，來分析人才流失率。比如發現某個部門流失率特別高，那麼就可以去分析。

02）矩陣分析
比如公司有價值觀和能力的考核，那麼可以把考核結果做出矩陣圖，能力強價值匹配的員工、能力強價值不匹配的員工、能力弱價值匹配的員工、能力弱價值不匹配的員工各佔多少比例，從而發現公司的人才健康度。

03）漏斗分析
比如記錄招聘數據，投遞簡歷、通過初篩、通過一面、通過二面、通過終面、接下Offer、成功入職、通過試用期，這就是一個完整的招聘漏斗，從數據中，可以看到哪個環節還可以優化。

04）相關分析
比如公司各個分店的人才流失率差異較大，那麼可以把各個分店的員工流失率，跟分店的一些特性（地理位置、薪酬水平、福利水平、員工年齡、管理人員年齡等）要素進行相關性分析，找到最能夠挽留員工的關鍵因素。

05）邏輯樹分析
比如近期發現員工的滿意度有所降低，那麼就進行拆解，滿意度跟薪酬、福利、職業發展、工作氛圍有關，然後薪酬分為基本薪資和獎金，這樣層層拆解，找出滿意度各個影響因素裡面的變化因素，從而得出洞見。

06）趨勢分析
比如人才流失率過去12個月的變化趨勢。

07）行為軌跡分析
比如跟蹤一個銷售人員的行為軌跡，從入職、到開始產生業績、到業績快速增長、到疲憊期、到逐漸穩定。

『叄』協同過濾

協同過濾（Collaborative Filtering，CF）——經典/老牌
只用戶行為數據得到。對於個用戶，個物品，則有共現矩陣 :
對於有正負反饋的情況，如「贊」是1和「踩」是-1，無操作是0：

對於只有顯示反饋，如點擊是1，無操作是0：

演算法步驟：
1）得到共現矩陣；
2）計算 任意兩行 用戶相似度，得到用戶相似度矩陣；
3）針對某個用戶選出與其最相似的個用戶，是超參數；——召回階段
4）基於這個用戶，計算對每個物品的得分；
5）按照用戶的物品得分進行排序，過濾已推薦的物品，推薦剩下得分最高的個。——排序階段

第2步中，怎麼計算用戶相似度？——使用共現矩陣的行
以餘弦相似度為標准，計算和之間的相似度：

第4步中，怎麼每個用戶對每個物品的得分？
假如和用戶最相似的2個為和 :

對物品的評分為1，用戶對物品的評分也為1，那麼用戶對的評分為：

也就是說：利用用戶相似度對用戶評分進行加權平均：

其中，為用戶和用戶之間的相似度，為用戶和物品之間的相似度。

UserCF的缺點
1、現實中用戶數遠遠大於物品數，所以維護用戶相似度矩陣代價很大；
2、共現矩陣是很稀疏的，那麼計算計算用戶相似度的准確度很低。

演算法步驟：
1）得到共現矩陣；
2）計算 任意兩列 物品相似度，得到物品相似度矩陣；
3）對於有正負反饋的，獲得用戶正反饋的物品；
4）找出用戶正反饋的物品最相似的個物品，組成相似物品集合；——召回階段
5）利用相似度分值對相似物品集合進行排序，生產推薦列表。——排序階段
最簡單情況下一個物品（用戶未接觸的）只出現在另一個物品（用戶已反饋的）的最相似集合中，那麼每個用戶對每個物品的得分就是相似度。如果一個物品和多個物品最相似怎麼辦？
如用戶正反饋的是和，對於物品其最相似的是，相似度為0.7，對於物品其最相似的也是，相似度為0.6，那麼相似度為：

也就是說：如果一個物品出現在多個物品的個最相似的物品集合中，那麼該物品的相似度為多個相似度乘以對應評分的累加。

其中，是物品p與物品h的相似度，是用戶u對物品p的評分。

第2步中，怎麼計算物品相似度？——使用共現矩陣的列
以餘弦相似度為標准，計算和之間的相似度：

餘弦相似度
皮爾遜相關系數
基於皮爾遜相關系數的改進

UserCF適用於用戶興趣比較分散變換較快的場景，如新聞推薦。
IteamCF適用於用戶情趣不叫穩定的場景，如電商推薦。

優點：直觀，可解釋性強。
缺點：

『肆』如何使用Spark ALS實現協同過濾

1.背景
協同過濾（collaborative filtering）是推薦系統常用的一種方法。cf的主要思想就是找出物品相似度高的歸為一類進行推薦。cf又分為icf和ucf。icf指的是item collaborative filtering，是將商品進行分析推薦。同理ucf的u指的是user，他是找出知趣相似的人，進行推薦。通常來講icf的准確率可能會高一些，通過這次參加天貓大數據比賽，我覺得只有在數據量非常龐大的時候才適合用cf，如果數據量很小，cf的准確率會非常可憐。博主在比賽s1階段，大概只有幾萬條數據的時候，嘗試了icf，准確率不到百分之一。。。。。
2.常用方法
cf的常用方法有三種，分別是歐式距離法、皮爾遜相關系數法、餘弦相似度法。
測試矩陣,行表示三名用戶，列表示三個品牌，對品牌的喜愛度按照1~5增加。
（1）歐氏距離法
就是計算每兩個點的距離，比如Nike和Sony的相似度。數值越小，表示相似的越高。
[python] view plain print?在CODE上查看代碼片派生到我的代碼片
def OsDistance(vector1, vector2):
sqDiffVector = vector1-vector2
sqDiffVector=sqDiffVector**2
sqDistances = sqDiffVector.sum()
distance = sqDistances**0.5
return distance
（2）皮爾遜相關系數
兩個變數之間的相關系數越高，從一個變數去預測另一個變數的精確度就越高，這是因為相關系數越高，就意味著這兩個變數的共變部分越多，所以從其中一個變數的變化就可越多地獲知另一個變數的變化。如果兩個變數之間的相關系數為1或-1，那麼你完全可由變數X去獲知變數Y的值。
· 當相關系數為0時，X和Y兩變數無關系。
· 當X的值增大，Y也增大，正相關關系，相關系數在0.00與1.00之間
· 當X的值減小，Y也減小，正相關關系，相關系數在0.00與1.00之間
· 當X的值增大，Y減小，負相關關系，相關系數在-1.00與0.00之間
當X的值減小，Y增大，負相關關系，相關系數在-1.00與0.00之間
相關系數的絕對值越大，相關性越強，相關系數越接近於1和-1，相關度越強，相關系數越接近於0，相關度越弱。
clip_image003
在Python中用函數corrcoef實現，具體方法見http//infosec.pku.e.cn/~lz/doc/Numpy_Example_List.htm
（3）餘弦相似度
通過測量兩個向量內積空間的夾角的餘弦值來度量它們之間的相似性。0度角的餘弦值是1，而其他任何角度的
餘弦值都不大於1;並且其最小值是-1。從而兩個向量之間的角度的餘弦值確定兩個向量是否大致指向相同的方向。兩
個向量有相同的指向時，餘弦相似度的值為1；兩個向量夾角為90°時，餘弦相似度的值為0；兩個向量指向完全相
反的方向時，餘弦相似度的值為-1。在比較過程中，向量的規模大小不予考慮，僅僅考慮到向量的指向方向。餘弦相
似度通常用於兩個向量的夾角小於90°之內，因此餘弦相似度的值為0到1之間。
\mathbf{a}\cdot\mathbf{b}=\left\|\mathbf{a}\right\|\left\|\mathbf{b}\right\|\cos\theta
[python] view plain print?在CODE上查看代碼片派生到我的代碼片
def cosSim(inA,inB):
num = float(inA.T*inB)
denom = la.norm(inA)*la.norm(inB)
return 0.5+0.5*(num/denom)

『伍』推薦演算法綜述

推薦系統的目的是通過推薦計算幫助用戶從海量的數據對象中選擇出用戶最有可能感興趣的對象。涉及三個基本內容:目標用戶、待推薦項目以及推薦演算法，基本流程為：描述為用戶模型構建、項目模型建立以及推薦演算法處理三個基本流程；

為了能夠為用戶提供准確的推薦服務，推薦系統需要為用戶構建用戶模型，該模型能夠反映用戶動態變化的多層次興趣偏好，有助於推薦系統更好的理解用戶的特徵和需求。構建用戶模型通常需要經歷三個流程:用戶數據收集，用戶模型表示以及用戶模型更新。

（1）用戶數據收集：用戶數據是用戶模型構建的基礎，用戶數據收集的方式一般有顯示方式獲取和隱式方式獲取兩種。
顯示方式獲取的數據是用戶特徵屬性和興趣偏好的直接反映，所獲得的信息數據是較為客觀全面的，比如用戶在注冊時包含的性別、年齡等信息可以直接表示出用戶的基本人口學信息和興趣信息，用戶對項目的評分可以反映出用戶的偏好。但顯示獲取的方式最大的缺陷是其實時性較差，並且具有很強的侵襲性。
隱式方式獲取用戶數據是在不幹擾用戶的前提下，採集用戶的操作行為數據，並從中挖掘出用戶的興趣偏好。用戶的很多操作行為都能反映出用戶的喜好，比如用戶瀏覽網頁的速度、用戶查詢的關鍵字等，推薦系統在不影響用戶使用系統的情況下，通過行為日誌挖掘出用戶的偏好。隱式獲取方式由於具有較好的實時性和靈活性和較弱的侵襲性，己經成為推薦系統中主要的用戶數據採集方式。

（2）用戶模型表示：用戶模型是從用戶數據中歸納出的推薦系統所理解的用戶興趣偏好的結構化形式。
a 基於內容關鍵詞表示；
b 基於評分矩陣表示；
（3）用戶模型更新：推薦系統面臨的問題之一是興趣漂移，興趣漂移的根本原因在於用戶的興趣會隨時間發生改變。為了使用戶模型夠准確的代表用戶的興趣，推薦系統需要根據最新的用戶數據對用戶模型進行更新。

目前項目模型主要通過基於內容和基於分類這兩類方式來建立。基於內容的方式是以項目本身內容為基礎，向量空間模型表示是目前御用最為廣泛的基於內容的方式。

基於分類的方式是根據項目的內容或者屬性，將項目劃分到一個或者幾個類別中，利用類別信息來表示項目，這種方法可以很方便地將項目推薦給對某一類別感興趣的用戶。常見的分類演算法有樸素貝葉斯演算法和KNN分類演算法等。

推薦系統實現的核心是其使用的推薦演算法。針對不同的使用環境及其系統的數據特徵，選取不同的推薦演算法，可以在本質上提高推薦系統的推薦效果。根據不同的分類標准，推薦演算法出現了有很多不同的分類方法，本文採用了比較普遍的分類方法。

推薦系統通常被分為基於內容的推薦演算法、協同過濾推薦演算法以及混合模型推薦演算法三大類。

基於內容的推薦演算法，其本質是對物品或用戶的內容進行分析建立屬性特徵。系統根據其屬性特徵，為用戶推薦與其感興趣的屬性特徵相似的信息。演算法的主要思想是將與用戶之前感興趣的項目的內容相似的其他項目推薦給用戶。

CBF（Content-based Filter Recommendations）演算法的主要思想是將與用戶之前感興趣的項目的內容相似的其他項目推薦給用戶，比如用戶喜歡Java開發的書籍，則基於內容過濾演算法將用戶尚未看過的其他Java開發方面的書籍推薦給用戶。因此，該推薦演算法的關鍵部分是計算用戶模型和項目模型之間的內容相似度，相似度的計算通常採用餘弦相似性度量。

基於內容的推薦過程一般分為以下三個模塊:
（1）特徵提取模塊:由於大多數物品信息是非結構化的，需要為每個物品(如產品、網頁、新聞、文檔等)抽取出一些特徵屬性，用某一恰當的格式表示，以便下一階段的處理。如將新聞信息表示成關鍵詞向量，此種表示形式將作為下一模塊(屬性特徵學習模塊)的輸入。

（2）特徵學習模塊:通過用戶的歷史行為數據特徵，機器學習出用戶的興趣特徵模型。本模塊負責收集代表用戶喜好的數據信息，並泛化這些數據，用於構建用戶特徵模型。通常使用機器學習的泛化策略，來將用戶喜好表示為興趣模型。

（3）推薦模塊:該模塊利用上一階段得到的用戶特徵模型，通過對比用戶興趣模型與帶推薦物品的特徵相似度，為用戶推薦與其興趣相似度較高的物品，從而達到個性化推薦的目的。該模塊一般採用計算用戶興趣向量與待推薦物品特徵向量的相似度來進行排序，將相似度較高的物品推薦給相應用戶。計算相似度有多種方法，如皮爾遜相關系數法、夾角餘弦法、Jaccard相關系數法等。

協同過濾演算法（Collaborative Filtering）是於內容無關的，即不需要額外獲取分析用戶或物品的內容屬性特徵。是基於用戶歷史行為數據進行推薦的演算法。其通過分析用戶與物品間的聯系來尋找新的用戶與物品間的相關性。

該演算法演算法通常有兩個過程，一個過程是預測，另一個過程是推薦。主流的協同過濾演算法包括三種:基於用戶的協同過濾(User-Based Collaborative Filtering,UBCF)、基於項目的協同過濾(Item-Based Collaborative Filtering, IBCF)和基於模型的協同過濾(Model-Based Collaborative Filtering, MBCF)

（1）基於用戶的協同過濾演算法
基於用戶的協同過濾推薦演算法，先通過用戶歷史行為數據找到和用戶u相似的用戶，將這些用戶感興趣的且u沒有點擊過的物品推薦給用戶。
演算法主要包括以下兩個步驟:
(1)找到與目標用戶喜好相似的鄰居用戶集合。
(2)在鄰居用戶集合中，為用戶推薦其感興趣的物品。

UBCF的基本思想是將與當前用戶有相同偏好的其他用戶所喜歡的項目推薦給當前用戶。一個最典型的例子就是電影推薦，當我們不知道哪一部電影是我們比較喜歡的時候，通常會詢問身邊的朋友是否有好的電影推薦，詢問的時候我們習慣於尋找和我們品味相同或相似的朋友。

（2）基於物品的協同過濾演算法
基於物品的協同過濾演算法(Item-based Collaborative Filtering)其主要思想是，為用戶推薦那些與他們之前喜歡或點擊過的物品相似的物品。不過基於物品的協同過濾演算法並不是利用物品的內容屬性特徵來計算物品之間的相似度的。該類演算法是利用用戶的歷史行為數據計算待推薦物品之間的相似度。在該類演算法中，如果喜歡物品A的用戶大都也喜歡物品B，那麼就可以認為物品A和物品B之間的相似度很高。
演算法分為以下兩個步驟:
(1)根據用戶歷史行為數據，計算物品間的相似度。
(2)利用用戶行為和物品間的相似度為用戶生成推薦列表。

IBCF演算法是亞馬遜在2003年發表的論文中首次提出，該演算法的基本思想是根據所有用戶的歷史偏好數據計算項目之間的相似性，然後把和用戶喜歡的項目相類似的並且用戶還未選擇的其他項目推薦給用戶，例如，假設用戶喜歡項目a，則用戶喜歡與項目a高度相似且還未被用戶選擇的項目b的可能性非常大，因此將項目b推薦給用戶。

UBCF和IBCF都屬於基於內存的協同過濾演算法，這類演算法由於充分發揮了用戶的評分數據，形成全局推薦，因此具有較高的推薦質量。但隨著用戶和項目的規模增長，這類演算法的計算時間大幅上升，使得系統的性能下降。針對該問題，研究人員提出將數據挖掘中的模型和CF演算法結合，提出了基於模型的協同過濾演算法(MBCF) 。

MBCF演算法利用用戶歷史評分數據建立模型，模型建立的演算法通常有奇異值分解、聚類演算法、貝葉斯網路、關聯規則挖掘等，且通常是離線完成。由於MBCF通常會對原始評分值做近似計算，通過犧牲一定的准確性來換取系統性能，因此MBCF的推薦質量略差於UBCF和IBCF。

由於基於內容的推薦演算法和協同過濾推薦演算法都有其各自的局限性，混合推薦演算法應運而生。混合推薦演算法根據不同的應用場景，有多
種不同的結合方式，如加權、分層和分區等。

目前使用的混合推薦演算法的思想主要可以分成以下幾類:
（1）多個推薦演算法獨立運行，獲取的多個推薦結果以一定的策略進行混合，例如為每一個推薦結果都賦予一個權值的加權型混合推薦演算法和將各個推薦結果取TOP-N的交叉混合推薦演算法。

（2）將前一個推薦方法產出的中間結果或者最終結果輸出給後一個推薦方法，層層遞進，推薦結果在此過程中會被逐步優選，最終得到一個精確度比較高的結果。

（3）使用多種推薦演算法，將每種推薦演算法計算過程中產生的相似度值通過權重相加，調整每個推薦演算法相似度值的權重，以該混合相似度值為基礎，選擇出鄰域集合，並結合鄰域集合中的評估信息，得出最優的推薦結果。

BP (Back Propagation)神經網路是目前應用最廣泛的神經網路模型之一，是一種按誤差逆傳播演算法訓練的多層前饋網路。

BP神經網路模型包括輸入層、隱藏層和輸出層，每一層由一個或多個神經元組成，其結構圖如圖2-3所示。BP神經網路擁有很強的非線性映射能力和自學習、自適應能力，網路本身結構的可變性，也使其十分靈活，一個三層的BP神經網路能夠實現對任意非線性函數進行逼近。

BP神經網路的訓練過程通常分為3個過程，依次分別為數據初始化過程、正向推演計算過程以及反向權重調整過程。數據初始化是BP神經網路能夠進行有效訓練的前提，該過程通常包括輸入數據進行歸一化處理和初始權重的設置；正向推演計算是數據沿著網路方向進行推演計算;反向權重調整則是將期望輸出和網路的實際輸出進行對比，從輸出層開始，向著輸入層的方向逐層計算各層中各神經元的校正差值，調整神經元的權重。正向推演計算和反向權重調整為對單個訓練樣本一次完整的網路訓練過程，經過不斷的訓練調整，網路的實際輸出越來越趨近於期望輸出，當網路輸出到達預期目標，整個訓練過程結束。

TF-IDF(Term Frequency-Inverse Document Frequency，詞頻一逆文檔)是文本處理中常用的加權技術，廣泛應用於信息檢索、搜索引擎等領域。
TF-IDF的主要思想是:如果一個關鍵詞在文檔中出現的頻率很高，而在其他文檔中出現次數較少，則該關鍵詞被認為具有較強的代表性，即該關鍵詞通過TF-IDF計算後有較高的權重。

TextRank演算法，是一種用於文本關鍵詞排序的演算法，頁排序演算法PageRank。
PageRank基本思想是將每個網頁看成一個節點，網頁中的鏈接指向看成一條有向邊，一個網頁節點的重要程度取決於鏈接指向該網頁節點的其他節點的數量和重要權值，該過程描述如下:讓每一個網頁對其所包含的鏈接指向的網頁進行迭代投票，每次迭代投票過程中票的權重取決於網頁當前擁有的票數，當投票結果收斂或者達到指定的迭代次數時，每個網頁所獲得票數即為網頁重要程度權值。

TextRank演算法相比於TF-IDF最大的優點是TextRank是一種無監督的學習，因此不會受限於文本的主題，並且無需大規模的訓練集，可以針對單一文本進行快速的關鍵詞的權重計算。

『陸』相似度的計算用哪個演算法協同過濾演算法

SIM = Structural SIMilarity（結構相似性），這是一種用來評測圖像質量的一種方法。由於人類視覺很容易從圖像中抽取出結構信息,因此計算兩幅圖像結構信息的相似性就可以用來作為一種檢測圖像質量的好壞.

首先結構信息不應該受到照明的影響,因此在計算結構信息時需要去掉亮度信息,即需要減掉圖像的均值;其次結構信息不應該受到圖像對比度的影響,因此計算結構信息時需要歸一化圖像的方差;最後我們就可以對圖像求取結構信息了,通常我們可以簡單地計算一下這兩幅處理後的圖像的相關系數.

然而圖像質量的好壞也受到亮度信息和對比度信息的制約,因此在計算圖像質量好壞時,在考慮結構信息的同時也需要考慮這兩者的影響.通常使用的計算方法如下,其中C1,C2,C3用來增加計算結果的穩定性:
2u(x)u(y) + C1
L(X,Y) = ------------------------ ,u(x), u(y)為圖像的均值
u(x)^2 + u(y)^2 + C1

2d(x)d(y) + C2
C(X,Y) = ------------------------,d(x),d(y)為圖像的方差
d(x)^2 + d(y)^2 + C2

d(x,y) + C3
S(X,Y) = ----------------------,d(x,y)為圖像x,y的協方差
d(x)d(y) + C3

而圖像質量Q = [L(X,Y)^a] x [C(X,Y)^b] x [S(X,Y)^c]，其中a，b，c分別用來控制三個要素的重要性，為了計算方便可以均選擇為1，C1，C2，C3為比較小的數值，通常C1=(K1 x L)^2, C2=(K2 xL)^2, C3 = C2/2, K1

『柒』基於協同過濾的推薦演算法

協同過濾推薦演算法是最經典的推薦演算法，它的演算法思想為 物以類聚，人以群分 ，基本的協同過濾演算法基於以下的假設：

實現協同過濾的步驟：
1). 找到相似的Top-N個人或者物品 ：計算兩兩的相似度並進行排序
2). 根據相似的人或物品產生推薦結果 ：利用Top-N生成初始推薦結果，然後過濾掉用戶已經有過記錄或者明確表示不喜歡的物品

那麼，如何計算相似度呢？

根據數據類型的不同，相似度的計算方式也不同，數據類型有：

一般的，相似度計算有 傑卡德相似度、餘弦相似度、皮爾遜相關系數

在協同過濾推薦演算法中，我們更多的是利用用戶對物品的評分數據集，預測用戶對沒有評分過的物品的評分結果。

用戶-物品的評分矩陣，根據評分矩陣的稀疏程度會有不同的解決方案。

目的：預測用戶1對於物品E的評分

步驟分析：

實現過程

用戶之間的兩兩相似度：

物品之間的兩兩相似度：

『捌』推薦演算法的基於協同過濾的推薦

基於協同過濾的推薦演算法理論上可以推薦世界上的任何一種東西。圖片、音樂、樣樣可以。協同過濾演算法主要是通過對未評分項進行評分預測來實現的。不同的協同過濾之間也有很大的不同。
基於用戶的協同過濾演算法: 基於一個這樣的假設「跟你喜好相似的人喜歡的東西你也很有可能喜歡。」所以基於用戶的協同過濾主要的任務就是找出用戶的最近鄰居，從而根據最近鄰居的喜好做出未知項的評分預測。這種演算法主要分為3個步驟：
一，用戶評分。可以分為顯性評分和隱形評分兩種。顯性評分就是直接給項目評分（例如給網路里的用戶評分），隱形評分就是通過評價或是購買的行為給項目評分（例如在有啊購買了什麼東西）。
二，尋找最近鄰居。這一步就是尋找與你距離最近的用戶，測算距離一般採用以下三種演算法：1.皮爾森相關系數。2.餘弦相似性。3調整餘弦相似性。調整餘弦相似性似乎效果會好一些。
三，推薦。產生了最近鄰居集合後，就根據這個集合對未知項進行評分預測。把評分最高的N個項推薦給用戶。這種演算法存在性能上的瓶頸，當用戶數越來越多的時候，尋找最近鄰居的復雜度也會大幅度的增長。
因而這種演算法無法滿足及時推薦的要求。基於項的協同過濾解決了這個問題。基於項的協同過濾演算法根基於用戶的演算法相似，只不過第二步改為計算項之間的相似度。由於項之間的相似度比較穩定可以在線下進行，所以解決了基於用戶的協同過濾演算法存在的性能瓶頸。

『玖』協同過濾與分類

[TOC]

本文是《寫給程序員的數據挖掘實踐指南》的一周性筆記總結。主要涵蓋了以下內容：

所謂推薦系統就是系統根據你的行為操作為你推薦你可能想要的其他物品。這在電商平台、音樂平台、資訊推送平台等多有見到。而協同過濾簡單來說是利用某興趣相投、擁有共同經驗之群體的喜好來推薦用戶感興趣的信息，個人通過合作的機制給予信息相當程度的回應（如評分）並記錄下來以達到過濾的目的進而幫助別人篩選信息。其推薦基礎是用戶評分。這里可以分為兩種用戶評分，即顯式評分與隱式評分。顯式評分即日常見到的為物品打分，如對喜好音樂評級等；隱式評分是通過對用戶行為的持續性觀察，進而發現用戶偏好的一種方法，如新聞網頁中的推送你經常閱讀過的相關內容等。兩種評分方法都有自己的問題。

總體來說，協同過濾其運作機制也可以分為兩種：

基於用戶的推薦是指通過用戶的行為偏好，劃分相似用戶。在相似用戶群體之間互相推送一方喜歡而另一方未有過的物品。核心在於相似用戶群體的劃分。這種推薦方法有自己的局限：

基於用戶的過濾其核心是用戶群體的劃分，其實也就是分類。

這里的距離函數包括三種：曼哈頓距離和歐氏距離。這里以二維舉例，更多維情況下類推即可。

兩距離函數可以一般化為：

其中，當r=1時，函數為曼哈頓距離；當r=2時，函數為歐氏距離。

演算法實現：

在算出距離函數後，通過比對目標用戶與所有用戶群體的偏好，找到最近鄰的用戶並給予推薦。

基於用戶距離的推薦有一個明顯的問題，就是用戶評分體系的差異。比如評分極端的用戶給喜歡的評最高分，給不喜歡的評最低分；而有些用戶傾向於不出現極端評分。即所謂「分數貶值」( Grade Inflation )問題。這種問題的存在可能讓基於距離的評分產生偏差。皮爾遜相關系數可以緩解這種問題。

原皮爾遜相關系數公式在實際運用的時候會出現多次迭代的問題，影響計算效率，這里給出了近似公式：

皮爾遜相關系數的用戶判斷依據不是單純的用戶距離，而是用戶的評分一致性：取值在[-1, 1]之間，越接近1則表示兩用戶的評分一致性越好；反之則反。
python實現：

基於用戶推薦的過程中，另一個存在的問題就是由於大部分人的喜愛物品集合的交集過少，存在大量計算值為0的feature的情況。即所謂 稀疏性 問題。一個較容易理解的例子是對書本內容的挖掘。餘弦相似度會忽略這種0-0匹配。
餘弦相似度：

python實現：

如此多的評估系數，如何進行抉擇呢？根據數據特徵：

另外值得考慮的一點是，目前為止的推薦都是基於單用戶的。即對一個用戶的推薦系統只是基於另一個用戶。這會存在一些問題。比如雖然雖然兩者相似度很高，但是另外一個人有一些怪癖，怪癖的推薦就是不合理的；又比如，在相似度極高的情況下，你不能確定統一賬戶下的操作是同一個人做出的或者說操作行為是為了用戶自身。比如用戶考慮購買某件商品作為禮物送給別人，這就是基於別人喜好的購買行為，這種推薦也是不合適的。
對這種問題的解決可以使用群體劃分的方法。原理與單用戶類似，但是用戶的匹配是k個。在這k位最優匹配的用戶之間，以相似度的大小為依據設定權重作為物品推薦的條件。此即協同過濾的k近鄰。

正如前面提到的基於用戶的推薦有復雜度、稀疏性的問題，而基於物品的過濾則可以緩解這些問題。所謂基於物品的過濾是指，我們事先找到最相似的物品，並結合用戶對物品的評級結果來生成推薦。前提是要對物品進行相似度匹配，找到一種演算法。

這里的調整是指為了減輕用戶評分體系的不一致情況（抵消分數貶值），從每個評級結果中減去該用戶所有物品的平均分的評級結果。

其中，U表示所有同時對i， j進行評級過的用戶的集合。表示用戶u給物品i的評分減去用戶u對所有物品的評分的平均值。

在得到所有物品的餘弦相似度後，我們就可以通過該指數預測用戶對某件物品的偏好程度。方法就是所有相似物品的相似度乘以得分的總和。

其中p（u, i）指的是用戶u對物品i評分的預測值。N是用戶u的所有評級物品中每個和i得分相似的物品。這里的相似指的是矩陣中存在N和i的一個相似度得分。是i和N之間的相似度得分。是u給N的評級結果。公式較好運行的條件是取值在（-1， 1）之間，這里就要使用歸一化概念。

另一種常用的基於物品過濾的演算法就是 slope one 演算法。它的大概原理是預測用戶u對產品j的評分時，預先計算包含所有物品的兩物品偏差表；根據u的已評價的所有物品評分與該物品和產品j的偏差（）之和並乘以所有對此兩類物品有過評分的用戶個數，一一加總，除以所有同時對產品i與u評價過的所有物品有過評分的用戶的人數，得到得分。公式如下：

其中，；是利用加權s1演算法給出的用戶u對物品j的預測值。指的是對所有除j之外u打過分的物品。

python實現：

在前面兩節中，基於物品和基於用戶的過濾其前提都是用戶需要對已有的item進行評分。而實際上，如果一個新的item出現，由於缺乏別人的偏好，他永遠不會被推薦。這就是推薦系統中所謂的—— 冷啟動 問題。基於用戶評價的系統就會出現這種問題。
冷啟動 問題的解決方案之一就是 基於物品屬性的過濾 來進行推薦：對物品自身的屬性進行歸納總結，並以此進行物品推薦。基於物品屬性的過濾存在一個問題同樣是量綱的不統一。如果量綱不統一極端值將會對推薦系統造成大麻煩。解決方法也很簡單：歸一化。此章使用的是z-評分。
使用z得分也存在問題，就是極易受到離群值的影響。這里可以使用 改進的標准分數 來緩解這個問題：

什麼時候可以進行歸一化呢？

這里用曼哈頓距離舉例基於物品屬性的過濾：

在上一章最後一節對於用戶是否喜歡某件item的判別中，實際上包含了分類器的思想：分類器就是利用對象屬性判定對象屬於哪個組或類別的程序。這里簡單用另一個小項目來說明。

簡單來說就是根據運動員的某些指標來判斷這位運動員屬於什麼類別的運動員。

准確率有0.8。

『拾』基於用戶、基於項目和SVD的協同過濾Python代碼

目前主要有三種度量用戶間相似性的方法，分別是:餘弦相似性、相關相專似性以及修正的屬餘弦相似性。①餘弦相似性(Cosine)：用戶一項目評分矩陣可以看作是n維空間上的向量，對於沒有評分的項目將評分值設為0，餘弦相似性度量方法是通過計算向量間的餘弦夾角來度量用戶間相似性的。設向量i和j分別表示用戶i和用戶j在n維空間上的評分，則用基於協同過濾的電子商務個性化推薦演算法研究戶i和用戶j之間的相似性為:②修正的餘弦相似性 (AdjustedCosine)：餘弦相似度未考慮到用戶評分尺度問題，如在評分區間[1一5]的情況下，對用戶甲來說評分3以上就是自己喜歡的，而對於用戶乙，評分4以上才是自己喜歡的。通過減去用戶對項的平均評分，修正的餘弦相似性度量方法改善了以上問題。用幾表示用戶i和用戶j共同評分過的項集合，Ii和壽分別表示用戶i和用戶j評分過的項集合，則用戶i和用戶j之間的相似性為：③相關相似性(Correlation)此方法是採用皮爾森(Pearson)相關系數來進行度量。設Iij表示用戶i和用戶j共同評分過的項目集合，則用戶i和用戶j之間相似性為:

導航:首頁 > 凈水問答 > 協同過濾相關系數

協同過濾相關系數

與協同過濾相關系數相關的資料