modelbased協同過濾_協同過濾基於內容推薦有什麼區別

『壹』 hi,你好，涉及到協同過濾演算法，想請教你moivelens數據集的使用。

我這向抄正在做User-Based CF，用的也是MovieLens的數據集襲。
數據集包含了三個部分：1M 100K 10M100K
一開始用的是1M的數據，具體三個文件存儲了哪些內容readme文件下面都有。
現在用的是100K的數據，他已經把用於訓練和用於測試的數據分割好了，直接用就行了。

『貳』如何構建協同過濾中的rating

基於內容(content-based)的推薦系統。

『叄』有哪些好用的開源推薦系統

因為有的人總會意外地發現在自身的地窖里。在跳躍的風里或某個做作的自作聰明的年輕人用適切的鑰匙進入其間

『肆』 Python實現協同過濾推薦演算法，用的大一些的數據集就報錯MemoryError

python雖然易用，但是內存佔用比較多；所以如果你有C/C++/Java基礎，考慮用這些語專言來實現；
CF演算法屬需要計算大量的相似度，如果能把中間結果存起來，或者簡化計算過程（如，你可能會重復計算一個item的均值）可以省下不少內存；（個人試過計算1w個用戶Pearson是沒問題的）
如果內存實在不夠用，那就用時間換空間，把中間計算結果分成小文件存到磁碟上，用的時候再讀取。
供參考。

『伍』 [英語高手進]高分求翻譯。不要用工具！

我是不會

『陸』協同過濾，基於內容推薦有什麼區別

舉個簡單的小例子，我們已知道
用戶u1喜歡的電影是A，B，C
用戶u2喜歡的電影是A, C, E, F
用戶u3喜歡的電影是B，D
我們需要解決的問題是：決定對u1是不是應該推薦F這部電影
基於內容的做法：要分析F的特徵和u1所喜歡的A、B、C的特徵，需要知道的信息是A（戰爭片），B（戰爭片），C（劇情片），如果F（戰爭片），那麼F很大程度上可以推薦給u1，這是基於內容的做法，你需要對item進行特徵建立和建模。
協同過濾的辦法：那麼你完全可以忽略item的建模，因為這種辦法的決策是依賴user和item之間的關系，也就是這里的用戶和電影之間的關系。我們不再需要知道ABCF哪些是戰爭片，哪些是劇情片，我們只需要知道用戶u1和u2按照item向量表示，他們的相似度比較高，那麼我們可以把u2所喜歡的F這部影片推薦給u1。
根據數據源的不同推薦引擎可以分為三類
1、基於人口的統計學推薦(Demographic-based Recommendation)
2、基於內容的推薦(Content-based Recommendation)
3、基於協同過濾的推薦(Collaborative Filtering-based Recommendation)
基於內容的推薦：
根據物品或內容的元數據，發現物品或內容的相關性，然後基於用戶以前的喜好記錄推薦給用戶相似的物品
基於內容推薦的一個典型的例子，電影推薦系統，首先我們需要對電影的元數據有一個建模，這里只簡單的描述了一下電影的類型；然後通過電影的元數據發現電影間的相似度，因為類型都是「愛情，浪漫」電影 A 和 C 被認為是相似的電影（當然，只根據類型是不夠的，要得到更好的推薦，我們還可以考慮電影的導演，演員等等）；最後實現推薦，對於用戶 A，他喜歡看電影 A，那麼系統就可以給他推薦類似的電影 C。

『柒』協同過濾推薦演算法產生推薦結果要多久

這種抄形式一般可以按襲推薦引擎的演算法分，主要有基於協同過濾、基於內容推薦等演算法。「買過此商品的人，百分之多少還買過其他啥啥商品」：協同過濾item-based filtering 「和你興趣相似的人，還買過其他啥啥商品」：協同過濾 user-based filtering 「相關商品推薦」：基於內容推薦content-based 「猜你喜歡」一般混合使用推薦演算法。

『捌』 Spark 推薦演算法-協同過濾-java的語句意思

協同過濾(Collaborative Filtering)的基本概念就是把這種方式變成自動化的流程

協同過濾主要是以屬版性或興趣相近權的用戶經驗與建議作為提供個性化的基礎。透過協同過濾，有助於搜集具有類似偏好或屬性的用戶，並將其意見提供給同一集群中的用戶作為參考，以滿足人們通常在決策之前參考他人意見的心態。

本人認為，協同過濾技術應包括如下幾方面:(1)一種比對和搜集每個用戶興趣偏好的過程;(2)它需要許多用戶的信息去預測個人的興趣偏好;(3)通過對用戶之間興趣偏好相關程度的統計去發展建議那些有相同興趣偏好的用戶。

『玖』在推薦系統中矩陣分解是協同過濾的一種嗎

解：∵y=√(x-1)與y=x/2的交點為(2,1)、且y=√(x-1)的定義域為x≥1，
∴原式=∫回(0,2)dx∫(0,x/2)ydy-∫(1,2)dx∫[0,√(x-1)]ydy=(1/2)∫(0,2)x^2dx-(1/2)∫(1,2)(x-1)dx=(1/6)x^3丨(x=0,2)-(1/2)[(1/2)x^2-x]丨(x=1,2)=13/12。答
供參考。

『拾』矩陣分解在協同過濾推薦演算法中的應用

矩陣分解在協同過濾推薦演算法中的應用
推薦系統是當下越來越熱的一個研究問題，無論在學術界還是在工業界都有很多優秀的人才參與其中。近幾年舉辦的推薦系統比賽更是一次又一次地把推薦系統的研究推向了高潮，比如幾年前的Neflix百萬大獎賽，KDD CUP 2011的音樂推薦比賽，去年的網路電影推薦競賽，還有最近的阿里巴巴大數據競賽。這些比賽對推薦系統的發展都起到了很大的推動作用，使我們有機會接觸到真實的工業界數據。我們利用這些數據可以更好地學習掌握推薦系統，這些數據網上很多，大家可以到網上下載。
推薦系統在工業領域中取得了巨大的成功，尤其是在電子商務中。很多電子商務網站利用推薦系統來提高銷售收入，推薦系統為Amazon網站每年帶來30%的銷售收入。推薦系統在不同網站上應用的方式不同，這個不是本文的重點，如果感興趣可以閱讀《推薦系統實踐》（人民郵電出版社，項亮）第一章內容。下面進入主題。
為了方便介紹，假設推薦系統中有用戶集合有6個用戶，即U={u1,u2,u3,u4,u5,u6}，項目（物品）集合有7個項目，即V={v1,v2,v3,v4,v5,v6,v7}，用戶對項目的評分結合為R，用戶對項目的評分范圍是[0, 5]。R具體表示如下：

推薦系統的目標就是預測出符號「？」對應位置的分值。推薦系統基於這樣一個假設：用戶對項目的打分越高，表明用戶越喜歡。因此，預測出用戶對未評分項目的評分後，根據分值大小排序，把分值高的項目推薦給用戶。怎麼預測這些評分呢，方法大體上可以分為基於內容的推薦、協同過濾推薦和混合推薦三類，協同過濾演算法進一步劃分又可分為基於基於內存的推薦（memory-based）和基於模型的推薦（model-based），本文介紹的矩陣分解演算法屬於基於模型的推薦。
矩陣分解演算法的數學理論基礎是矩陣的行列變換。在《線性代數》中，我們知道矩陣A進行行變換相當於A左乘一個矩陣，矩陣A進行列變換等價於矩陣A右乘一個矩陣，因此矩陣A可以表示為A=PEQ=PQ（E是標准陣）。
矩陣分解目標就是把用戶-項目評分矩陣R分解成用戶因子矩陣和項目因子矩陣乘的形式，即R=UV，這里R是n×m， n =6， m =7，U是n×k，V是k×m。直觀地表示如下：

高維的用戶-項目評分矩陣分解成為兩個低維的用戶因子矩陣和項目因子矩陣，因此矩陣分解和PCA不同，不是為了降維。用戶i對項目j的評分r_ij =innerproct(u_i, v_j)，更一般的情況是r_ij =f(U_i, V_j)，這里為了介紹方便就是用u_i和v_j內積的形式。下面介紹評估低維矩陣乘積擬合評分矩陣的方法。
首先假設，用戶對項目的真實評分和預測評分之間的差服從高斯分布，基於這一假設，可推導出目標函數如下：

最後得到矩陣分解的目標函數如下：

從最終得到得目標函數可以直觀地理解，預測的分值就是盡量逼近真實的已知評分值。有了目標函數之後，下面就開始談優化方法了，通常的優化方法分為兩種：交叉最小二乘法（alternative least squares）和隨機梯度下降法（stochastic gradient descent）。
首先介紹交叉最小二乘法，之所以交叉最小二乘法能夠應用到這個目標函數主要是因為L對U和V都是凸函數。首先分別對用戶因子向量和項目因子向量求偏導，令偏導等於0求駐點，具體解法如下：

上面就是用戶因子向量和項目因子向量的更新公式，迭代更新公式即可找到可接受的局部最優解。迭代終止的條件下面會講到。
接下來講解隨機梯度下降法，這個方法應用的最多。大致思想是讓變數沿著目標函數負梯度的方向移動，直到移動到極小值點。直觀的表示如下：

其實負梯度的負方向，當函數是凸函數時是函數值減小的方向走；當函數是凹函數時是往函數值增大的方向移動。而矩陣分解的目標函數L是凸函數，因此，通過梯度下降法我們能夠得到目標函數L的極小值（理想情況是最小值）。
言歸正傳，通過上面的講解，我們可以獲取梯度下降演算法的因子矩陣更新公式，具體如下：

（3）和（4）中的γ指的是步長，也即是學習速率，它是一個超參數，需要調參確定。對於梯度見（1）和（2）。
下面說下迭代終止的條件。迭代終止的條件有很多種，就目前我了解的主要有
1）設置一個閾值，當L函數值小於閾值時就停止迭代，不常用
2）設置一個閾值，當前後兩次函數值變化絕對值小於閾值時，停止迭代
3）設置固定迭代次數
另外還有一個問題，當用戶-項目評分矩陣R非常稀疏時，就會出現過擬合（overfitting）的問題，過擬合問題的解決方法就是正則化（regularization）。正則化其實就是在目標函數中加上用戶因子向量和項目因子向量的二范數，當然也可以加上一范數。至於加上一范數還是二范數要看具體情況，一范數會使很多因子為0，從而減小模型大小，而二范數則不會它只能使因子接近於0，而不能使其為0，關於這個的介紹可參考論文Regression Shrinkage and Selection via the Lasso。引入正則化項後目標函數變為：

（5）中λ_1和λ_2是指正則項的權重，這兩個值可以取一樣，具體取值也需要根據數據集調參得到。優化方法和前面一樣，只是梯度公式需要更新一下。
矩陣分解演算法目前在推薦系統中應用非常廣泛，對於使用RMSE作為評價指標的系統尤為明顯，因為矩陣分解的目標就是使RMSE取值最小。但矩陣分解有其弱點，就是解釋性差，不能很好為推薦結果做出解釋。
後面會繼續介紹矩陣分解演算法的擴展性問題，就是如何加入隱反饋信息，加入時間信息等。

導航:首頁 > 凈水問答 > modelbased協同過濾

modelbased協同過濾

與modelbased協同過濾相關的資料