協同過濾預測打分計算_Python實現協同過濾推薦演算法用的大一些的數據集就報錯MemoryError

『壹』矩陣分解在協同過濾推薦演算法中的應用

矩陣分解在協同過濾推薦演算法中的應用
推薦系統是當下越來越熱的一個研究問題，無論在學術界還是在工業界都有很多優秀的人才參與其中。近幾年舉辦的推薦系統比賽更是一次又一次地把推薦系統的研究推向了高潮，比如幾年前的Neflix百萬大獎賽，KDD CUP 2011的音樂推薦比賽，去年的網路電影推薦競賽，還有最近的阿里巴巴大數據競賽。這些比賽對推薦系統的發展都起到了很大的推動作用，使我們有機會接觸到真實的工業界數據。我們利用這些數據可以更好地學習掌握推薦系統，這些數據網上很多，大家可以到網上下載。
推薦系統在工業領域中取得了巨大的成功，尤其是在電子商務中。很多電子商務網站利用推薦系統來提高銷售收入，推薦系統為Amazon網站每年帶來30%的銷售收入。推薦系統在不同網站上應用的方式不同，這個不是本文的重點，如果感興趣可以閱讀《推薦系統實踐》（人民郵電出版社，項亮）第一章內容。下面進入主題。
為了方便介紹，假設推薦系統中有用戶集合有6個用戶，即U={u1,u2,u3,u4,u5,u6}，項目（物品）集合有7個項目，即V={v1,v2,v3,v4,v5,v6,v7}，用戶對項目的評分結合為R，用戶對項目的評分范圍是[0, 5]。R具體表示如下：

推薦系統的目標就是預測出符號「？」對應位置的分值。推薦系統基於這樣一個假設：用戶對項目的打分越高，表明用戶越喜歡。因此，預測出用戶對未評分項目的評分後，根據分值大小排序，把分值高的項目推薦給用戶。怎麼預測這些評分呢，方法大體上可以分為基於內容的推薦、協同過濾推薦和混合推薦三類，協同過濾演算法進一步劃分又可分為基於基於內存的推薦（memory-based）和基於模型的推薦（model-based），本文介紹的矩陣分解演算法屬於基於模型的推薦。
矩陣分解演算法的數學理論基礎是矩陣的行列變換。在《線性代數》中，我們知道矩陣A進行行變換相當於A左乘一個矩陣，矩陣A進行列變換等價於矩陣A右乘一個矩陣，因此矩陣A可以表示為A=PEQ=PQ（E是標准陣）。
矩陣分解目標就是把用戶-項目評分矩陣R分解成用戶因子矩陣和項目因子矩陣乘的形式，即R=UV，這里R是n×m， n =6， m =7，U是n×k，V是k×m。直觀地表示如下：

高維的用戶-項目評分矩陣分解成為兩個低維的用戶因子矩陣和項目因子矩陣，因此矩陣分解和PCA不同，不是為了降維。用戶i對項目j的評分r_ij =innerproct(u_i, v_j)，更一般的情況是r_ij =f(U_i, V_j)，這里為了介紹方便就是用u_i和v_j內積的形式。下面介紹評估低維矩陣乘積擬合評分矩陣的方法。
首先假設，用戶對項目的真實評分和預測評分之間的差服從高斯分布，基於這一假設，可推導出目標函數如下：

最後得到矩陣分解的目標函數如下：

從最終得到得目標函數可以直觀地理解，預測的分值就是盡量逼近真實的已知評分值。有了目標函數之後，下面就開始談優化方法了，通常的優化方法分為兩種：交叉最小二乘法（alternative least squares）和隨機梯度下降法（stochastic gradient descent）。
首先介紹交叉最小二乘法，之所以交叉最小二乘法能夠應用到這個目標函數主要是因為L對U和V都是凸函數。首先分別對用戶因子向量和項目因子向量求偏導，令偏導等於0求駐點，具體解法如下：

上面就是用戶因子向量和項目因子向量的更新公式，迭代更新公式即可找到可接受的局部最優解。迭代終止的條件下面會講到。
接下來講解隨機梯度下降法，這個方法應用的最多。大致思想是讓變數沿著目標函數負梯度的方向移動，直到移動到極小值點。直觀的表示如下：

其實負梯度的負方向，當函數是凸函數時是函數值減小的方向走；當函數是凹函數時是往函數值增大的方向移動。而矩陣分解的目標函數L是凸函數，因此，通過梯度下降法我們能夠得到目標函數L的極小值（理想情況是最小值）。
言歸正傳，通過上面的講解，我們可以獲取梯度下降演算法的因子矩陣更新公式，具體如下：

（3）和（4）中的γ指的是步長，也即是學習速率，它是一個超參數，需要調參確定。對於梯度見（1）和（2）。
下面說下迭代終止的條件。迭代終止的條件有很多種，就目前我了解的主要有
1）設置一個閾值，當L函數值小於閾值時就停止迭代，不常用
2）設置一個閾值，當前後兩次函數值變化絕對值小於閾值時，停止迭代
3）設置固定迭代次數
另外還有一個問題，當用戶-項目評分矩陣R非常稀疏時，就會出現過擬合（overfitting）的問題，過擬合問題的解決方法就是正則化（regularization）。正則化其實就是在目標函數中加上用戶因子向量和項目因子向量的二范數，當然也可以加上一范數。至於加上一范數還是二范數要看具體情況，一范數會使很多因子為0，從而減小模型大小，而二范數則不會它只能使因子接近於0，而不能使其為0，關於這個的介紹可參考論文Regression Shrinkage and Selection via the Lasso。引入正則化項後目標函數變為：

（5）中λ_1和λ_2是指正則項的權重，這兩個值可以取一樣，具體取值也需要根據數據集調參得到。優化方法和前面一樣，只是梯度公式需要更新一下。
矩陣分解演算法目前在推薦系統中應用非常廣泛，對於使用RMSE作為評價指標的系統尤為明顯，因為矩陣分解的目標就是使RMSE取值最小。但矩陣分解有其弱點，就是解釋性差，不能很好為推薦結果做出解釋。
後面會繼續介紹矩陣分解演算法的擴展性問題，就是如何加入隱反饋信息，加入時間信息等。

『貳』 Python實現協同過濾推薦演算法，用的大一些的數據集就報錯MemoryError

python雖然易用，但是內存佔用比較多；所以如果你有C/C++/Java基礎，考慮用這些語專言來實現；
CF演算法屬需要計算大量的相似度，如果能把中間結果存起來，或者簡化計算過程（如，你可能會重復計算一個item的均值）可以省下不少內存；（個人試過計算1w個用戶Pearson是沒問題的）
如果內存實在不夠用，那就用時間換空間，把中間計算結果分成小文件存到磁碟上，用的時候再讀取。
供參考。

『叄』學IT的，寫了一個電影推薦系統，但是為什麼評分預測值大於五

全文以「預測電影評分」例子展開

r(i,j)=0則表明user_j沒有對movie_i 沒有評分，

推薦系統要做的就是通過預測user_j對這些movie {i|r(i,j)=0}的評分來給user_j 推薦其可能會喜歡的電影<預測評分較高的movie>

=======================================二、基於內容的推薦=======================================

對每個movie_i引入特徵x(i)=(x1, x2)，這種特徵可能表明user對movie類型的偏好：浪漫or動作等

對於每個user引入一個參數theta，然後對評分矩陣的每列(對應一個user)做線性回歸，數據是{ (x(i), y(i,j)) |r(i,j)=1，for some j all i}

像機器學習一樣，x(i)添加個1變數x(i)=(1, x1, x2)

那麼對於未評分的movie_t，我們可以使用線性回歸訓練的參數theta與對應特徵x(t)做內積來得到其預測評分

對每個用戶都訓練一個參數theta_j，優化模型如下：

優化演算法：注意正則項是不約束x(i)=(1, x1, x2)中1對應的參數theta的第一項theta0，所以k=0與k=1,2分別對待

=======================================三、協同過濾=======================================

現在換個角度：如果知道theta for all user j，如何來預測x(i) = (x1, x2) all i

仍然可以使用線性回歸，為訓練每個x(i)，需要評分矩陣的第i行數據{ (x(i), y(i,j)) |r(i,j)=1，for some i all j}

theta_j = (0, theta1, theta2) ；theta1=5說明user_j喜歡romance類movie， theta2=5說明user_j喜歡action類movie，只能有一個等於5哦，

我覺得也可以是：theta_j = (0, 4, 1) ；喜歡romance 4 action 1.

對應的優化：

協同過濾：交替優化theta與x

=========================================四、協同過濾演算法=======================================

優化：

優化：注意去掉了theta和x的添加項

=========================================五、實現細節補充=======================================

實現細節：

如果有user沒有對任何電影評分或者所有評分的電影都是0分，那麼所學習到的參數是零向量，

則預測都是0值，這是不合理的。通過將評分矩陣減去其行均值再進行線性回歸來「避免」這種情況

=========================================六、一點思考==========================================

協同過濾那塊，同時優化theta、x，這樣得到的theta、x還有特定的意義<比如：x是否還表徵對影視類型的喜愛與否>沒有？

回歸中，在x數據上不添加1-feature是不是因為後來引入的平均值化；如果不是，那會對結果有什麼影響？

用x-feature來表徵一個movie，x-feature的各分量的可解釋性；應該會有一部分user應為演員的緣故有一些"偏愛"。

這里，講的"基於內容的推薦"與"協同過濾"跟以前對這兩個詞的認識/所指內容不同，查清楚、搞明白。

這周還會再更一篇關於此節課的演算法實現，會對上述部分問題做出回答。

『肆』協同過濾預測評分分母為什麼加絕對值

基於協同過濾的演算法理論上可以世界上的任何一種東西。圖片、音樂、樣樣可以。協同過濾演算法主要是通過對未評分項進行評分預測來實現的

『伍』相似度的計算用哪個演算法協同過濾演算法

SIM = Structural SIMilarity（結構相似性），這是一種用來評測圖像質量的一種方法。由於人類視覺很容易從圖像中抽取出結構信息,因此計算兩幅圖像結構信息的相似性就可以用來作為一種檢測圖像質量的好壞.

首先結構信息不應該受到照明的影響,因此在計算結構信息時需要去掉亮度信息,即需要減掉圖像的均值;其次結構信息不應該受到圖像對比度的影響,因此計算結構信息時需要歸一化圖像的方差;最後我們就可以對圖像求取結構信息了,通常我們可以簡單地計算一下這兩幅處理後的圖像的相關系數.

然而圖像質量的好壞也受到亮度信息和對比度信息的制約,因此在計算圖像質量好壞時,在考慮結構信息的同時也需要考慮這兩者的影響.通常使用的計算方法如下,其中C1,C2,C3用來增加計算結果的穩定性:
2u(x)u(y) + C1
L(X,Y) = ------------------------ ,u(x), u(y)為圖像的均值
u(x)^2 + u(y)^2 + C1

2d(x)d(y) + C2
C(X,Y) = ------------------------,d(x),d(y)為圖像的方差
d(x)^2 + d(y)^2 + C2

d(x,y) + C3
S(X,Y) = ----------------------,d(x,y)為圖像x,y的協方差
d(x)d(y) + C3

而圖像質量Q = [L(X,Y)^a] x [C(X,Y)^b] x [S(X,Y)^c]，其中a，b，c分別用來控制三個要素的重要性，為了計算方便可以均選擇為1，C1，C2，C3為比較小的數值，通常C1=(K1 x L)^2, C2=(K2 xL)^2, C3 = C2/2, K1

『陸』協同過濾的演算法簡介

電子商務推薦系統的一種主要演算法。
協同過濾推薦（Collaborative Filtering recommendation）是在信息過濾和信息系統中正迅速成為一項很受歡迎的技術。與傳統的基於內容過濾直接分析內容進行推薦不同，協同過濾分析用戶興趣，在用戶群中找到指定用戶的相似（興趣）用戶，綜合這些相似用戶對某一信息的評價，形成系統對該指定用戶對此信息的喜好程度預測。
與傳統文本過濾相比，協同過濾有下列優點:
（1）能夠過濾難以進行機器自動基於內容分析的信息。如藝術品、音樂;
（2）能夠基於一些復雜的，難以表達的概念（信息質量、品位)進行過濾;
（3）推薦的新穎性。
正因為如此，協同過濾在商業應用上也取得了不錯的成績。Amazon，CDNow，MovieFinder，都採用了協同過濾的技術來提高服務質量。
缺點是:
（1）用戶對商品的評價非常稀疏，這樣基於用戶的評價所得到的用戶間的相似性可能不準確（即稀疏性問題）;
（2）隨著用戶和商品的增多，系統的性能會越來越低;
（3）如果從來沒有用戶對某一商品加以評價，則這個商品就不可能被推薦（即最初評價問題）。
因此，現在的電子商務推薦系統都採用了幾種技術相結合的推薦技術。
案例: AMAZON個性化推薦系統先驅 (基於協同過濾)
AMAZON是一個虛擬的網上書店，它沒有自己的店面，而是在網上進行在線銷售。它提供了高質量的綜合節目資料庫和檢索系統，用戶可以在網上查詢有關圖書的信息。如果用戶需要購買的話，可以把選擇的書放在虛擬購書籃中，最後查看購書籃中的商品，選擇合適的服務方式並且提交訂單，這樣讀者所選購的書在幾天後就可以送到家。
AMAZON書店還提供先進的個性化推薦功能，能為不同興趣偏好的用戶自動推薦盡量符合其興趣需要的書籍。 AMAZON使用推薦軟體對讀者曾經購買過的書以及該讀者對其他書的評價進行分析後，將向讀者推薦他可能喜歡的新書，只要滑鼠點一下，就可以買到該書；AMAZON能對顧客購買過的東西進行自動分析，然後因人而異的提出合適的建議。讀者的信息將被再次保存，這樣顧客下次來時就能更容易的買到想要的書。此外，完善的售後服務也是AMAZON的優勢，讀者可以在拿到書籍的30天內，將完好無損的書和音樂光碟退回AMAZON，AMAZON將原價退款。當然AMAZON的成功還不止於此，如果一位顧客在AMAZON購買一本書，下次他再次訪問時，映入眼簾的首先是這位顧客的名字和歡迎的字樣。

『柒』 itemCF演算法如果沒有用戶評分該怎麼計算評分矩陣

整理一下自己的理解。對於一個users-procts-rating的評分數據集，ALS會建立一個user*proct的m*n的矩陣其中，m為users的數量，n為procts的數量但是在這個數據集中，並不是每個用戶都對每個產品進行過評分，所以這個矩陣往往是稀疏的，用戶i對產品j的評分往往是空的ALS所做的事情就是將這個稀疏矩陣通過一定的規律填滿，這樣就可以從矩陣中得到任意一個user對任意一個proct的評分，ALS填充的評分項也稱為用戶i對產品j的預測得分所以說，ALS演算法的核心就是通過什麼樣子的規律來填滿（預測）這個稀疏矩陣它是這么做的：假設m*n的評分矩陣R，可以被近似分解成U*(V)TU為m*d的用戶特徵向量矩陣V為n*d的產品特徵向量矩陣（(V)T代表V的轉置，原諒我不會打轉置這個符號。。）d為user/proct的特徵值的數量關於d這個值的理解，大概可以是這樣的對於每個產品，可以從d個角度進行評價，以電影為例，可以從主演，導演，特效，劇情4個角度來評價一部電影，那麼d就等於4可以認為，每部電影在這4個角度上都有一個固定的基準評分值例如《末日崩塌》這部電影是一個產品，它的特徵向量是由d個特徵值組成的d=4，有4個特徵值，分別是主演，導演，特效，劇情每個特徵值的基準評分值分別為（滿分為1.0）：主演：0.9（大光頭還是那麼霸氣）導演：0.7特效：0.8劇情：0.6矩陣V由n個proct*d個特徵值組成對於矩陣U，假設對於任意的用戶A，該用戶對一部電影的綜合評分和電影的特徵值存在一定的線性關系，即電影的綜合評分=(a1*d1+a2*d2+a3*d3+a4*d4)其中a1-4為用戶A的特徵值，d1-4為之前所說的電影的特徵值參考：協同過濾中的矩陣分解演算法研究那麼對於之前ALS演算法的這個假設m*n的評分矩陣R，可以被近似分解成U*(V)T就是成立的，某個用戶對某個產品的評分可以通過矩陣U某行和矩陣V（轉置）的某列相乘得到那麼現在的問題是，如何確定用戶和產品的特徵值？（之前僅僅是舉例子，實際中這兩個都是未知的變數）採用的是交替的最小二乘法在上面的公式中，a表示評分數據集中用戶i對產品j的真實評分，另外一部分表示用戶i的特徵向量（轉置）*產品j的特徵向量（這里可以得到預測的i對j的評分）在上面的公式中，a表示評分數據集中用戶i對產品j的真實評分，另外一部分表示用戶i的特徵向量（轉置）*產品j的特徵向量（這里可以得到預測的i對j的評分）用真實評分減去預測評分然後求平方，對下一個用戶，下一個產品進行相同的計算，將所有結果累加起來（其中，數據集構成的矩陣是存在大量的空打分，並沒有實際的評分，解決的方法是就只看對已知打分的項）參考：ALS在SparkMLlib中的實現但是這里之前問題還是存在，就是用戶和產品的特徵向量都是未知的，這個式子存在兩個未知變數解決的法是交替的最小二乘法首先對於上面的公式，以下面的形式顯示：為了防止過度擬合，加上正則化參數為了防止過度擬合，加上正則化參數首先用一個小於1的隨機數初始化V首先用一個小於1的隨機數初始化V根據公式（4）求U此時就可以得到初始的UV矩陣了，計算上面說過的差平方和根據計算得到的U和公式（5），重新計算並覆蓋V，計算差平方和反復進行以上兩步的計算，直到差平方和小於一個預設的數，或者迭代次數滿足要求則停止取得最新的UV矩陣則原本的稀疏矩陣R就可以用R=U(V)T來表示了以上公式內容截圖來自：基於矩陣分解的協同過濾演算法總結一下：ALS演算法的核心就是將稀疏評分矩陣分解為用戶特徵向量矩陣和產品特徵向量矩陣的乘積交替使用最小二乘法逐步計算用戶/產品特徵向量，使得差平方和最小通過用戶/產品特徵向量的矩陣來預測某個用戶對某個產品的評分不知道是不是理解正確了有幾個問題想請教一下~（1）在第一個公式中加入正則化參數是啥意思？為什麼是那種形態的？（2）固定一個矩陣U，求偏導數之後可以得到求解V的公式，為什麼？

『捌』基於用戶的協同過濾推薦怎麼計算出響應時間

高手解答！著急幫你做.

『玖』個性化推薦演算法——協同過濾

有三種：協同過濾
用戶歷史行為
物品相似矩陣

『拾』協同過濾怎麼計算召回率准確率

協同過濾(Collaborative Filtering)的基本概念就是把這種推薦方式變成自動化的流程

協同過濾主要是以版屬性或興趣相近的用權戶經驗與建議作為提供個性化推薦的基礎。透過協同過濾，有助於搜集具有類似偏好或屬性的用戶，並將其意見提供給同一集群中的用戶作為參考，以滿足人們通常在決策之前參考他人意見的心態。

本人認為，協同過濾技術應包括如下幾方面:(1)一種比對和搜集每個用戶興趣偏好的過程;(2)它需要許多用戶的信息去預測個人的興趣偏好;(3)通過對用戶之間興趣偏好相關程度的統計去發展建議那些有相同興趣偏好的用戶。

導航:首頁 > 凈水問答 > 協同過濾預測打分計算

協同過濾預測打分計算

與協同過濾預測打分計算相關的資料