java用戶協同過濾演算法_協同過濾java用什麼實現

⑴ Spark 推薦演算法-協同過濾-java的語句意思

協同過濾(Collaborative Filtering)的基本概念就是把這種方式變成自動化的流程

協同過濾主要是以屬版性或興趣相近權的用戶經驗與建議作為提供個性化的基礎。透過協同過濾，有助於搜集具有類似偏好或屬性的用戶，並將其意見提供給同一集群中的用戶作為參考，以滿足人們通常在決策之前參考他人意見的心態。

本人認為，協同過濾技術應包括如下幾方面:(1)一種比對和搜集每個用戶興趣偏好的過程;(2)它需要許多用戶的信息去預測個人的興趣偏好;(3)通過對用戶之間興趣偏好相關程度的統計去發展建議那些有相同興趣偏好的用戶。

⑵ 個性化推薦演算法——協同過濾

有三種：協同過濾
用戶歷史行為
物品相似矩陣

⑶ 協同過濾的演算法簡介

電子商務推薦系統的一種主要演算法。
協同過濾推薦（Collaborative Filtering recommendation）是在信息過濾和信息系統中正迅速成為一項很受歡迎的技術。與傳統的基於內容過濾直接分析內容進行推薦不同，協同過濾分析用戶興趣，在用戶群中找到指定用戶的相似（興趣）用戶，綜合這些相似用戶對某一信息的評價，形成系統對該指定用戶對此信息的喜好程度預測。
與傳統文本過濾相比，協同過濾有下列優點:
（1）能夠過濾難以進行機器自動基於內容分析的信息。如藝術品、音樂;
（2）能夠基於一些復雜的，難以表達的概念（信息質量、品位)進行過濾;
（3）推薦的新穎性。
正因為如此，協同過濾在商業應用上也取得了不錯的成績。Amazon，CDNow，MovieFinder，都採用了協同過濾的技術來提高服務質量。
缺點是:
（1）用戶對商品的評價非常稀疏，這樣基於用戶的評價所得到的用戶間的相似性可能不準確（即稀疏性問題）;
（2）隨著用戶和商品的增多，系統的性能會越來越低;
（3）如果從來沒有用戶對某一商品加以評價，則這個商品就不可能被推薦（即最初評價問題）。
因此，現在的電子商務推薦系統都採用了幾種技術相結合的推薦技術。
案例: AMAZON個性化推薦系統先驅 (基於協同過濾)
AMAZON是一個虛擬的網上書店，它沒有自己的店面，而是在網上進行在線銷售。它提供了高質量的綜合節目資料庫和檢索系統，用戶可以在網上查詢有關圖書的信息。如果用戶需要購買的話，可以把選擇的書放在虛擬購書籃中，最後查看購書籃中的商品，選擇合適的服務方式並且提交訂單，這樣讀者所選購的書在幾天後就可以送到家。
AMAZON書店還提供先進的個性化推薦功能，能為不同興趣偏好的用戶自動推薦盡量符合其興趣需要的書籍。 AMAZON使用推薦軟體對讀者曾經購買過的書以及該讀者對其他書的評價進行分析後，將向讀者推薦他可能喜歡的新書，只要滑鼠點一下，就可以買到該書；AMAZON能對顧客購買過的東西進行自動分析，然後因人而異的提出合適的建議。讀者的信息將被再次保存，這樣顧客下次來時就能更容易的買到想要的書。此外，完善的售後服務也是AMAZON的優勢，讀者可以在拿到書籍的30天內，將完好無損的書和音樂光碟退回AMAZON，AMAZON將原價退款。當然AMAZON的成功還不止於此，如果一位顧客在AMAZON購買一本書，下次他再次訪問時，映入眼簾的首先是這位顧客的名字和歡迎的字樣。

⑷ 誰有基於用戶的協同過濾 java代碼嗎謝謝

下載mahout源碼，裡面好像有協同過濾演算法

⑸ 猜你喜歡怎麼做javaweb

基於用戶的協同過濾演算法，或者基於商品的協同過濾演算法，簡單來說就是需要用大數據如hadoop，當然也可以自己寫推薦演算法。

⑹ 基於用戶的協同過濾演算法和基於物品的區別

協同過濾(Collaborative Filtering)的基本概念就是把這種推薦方式變成自動化的流程

⑺ java,我有一個資料庫表userid,bookid,score,用這個表用協同過濾演算法找到愛好相似的用戶

//皮爾遜相關系數分析
//介於-1到1之間。相關系數越接近與1，說明兩個人越相似。
//你先參考下這個雖然裡面只有Python的代碼：

//我用java去做一下試試

importjava.util.*;

publicclassTest{

publicstaticvoidmain(String[]args){
Map<String,HashMap<String,Double>>cri=newHashMap<String,HashMap<String,Double>>();
//模擬資料庫中的數據，實際運用時請靈活變動
getData(cri);
System.out.println(cri.get("Gene").get("LadyintheWater"));
//獲得評價值
System.out.println(getSim(cri,"Gene","Lisa"));
}

//模擬資料庫中的數據
publicstaticvoidgetData(Map<String,HashMap<String,Double>>cri){
HashMap<String,Double>temp=newHashMap<String,Double>();
temp.put("LadyintheWater",2.5);
temp.put("SnakesonaPlane",3.5);
temp.put("JustMyLuck",3.0);
temp.put("SupermanReturns",3.5);
temp.put("You,MeandDupree",2.5);
temp.put("TheNightListener",3.0);
cri.put("Lisa",temp);
HashMap<String,Double>temp1=newHashMap<String,Double>();
temp1.put("LadyintheWater",3.0);
temp1.put("SnakesonaPlane",3.5);
temp1.put("JustMyLuck",1.5);
temp1.put("SupermanReturns",5.0);
temp1.put("You,MeandDupree",3.5);
temp1.put("TheNightListener",3.0);
cri.put("Gene",temp1);
}

publicstaticdoublegetSim(Map<String,HashMap<String,Double>>cri,Stringp1,Stringp2){
HashMap<String,Double>p1m=cri.get(p1);
HashMap<String,Double>p2m=cri.get(p2);

List<String>simBook=newArrayList<String>();
for(Map.Entry<String,Double>entry:p1m.entrySet()){
if(p2m.containsKey(entry.getKey())){
simBook.add(entry.getKey());
}
}
//判斷相同元素的個數
if(simBook.size()==0){
return1;
}
//對所有偏好求和
doublesum1=0d,sum2=0d;
//求平方和
doublesum1Sq=0d,sum2Sq=0d;
//求乘積和
doublepSum=0d;
for(Strings:simBook){
sum1+=p1m.get(s);
sum2+=p2m.get(s);

sum1Sq+=Math.pow(p1m.get(s),2);
sum2Sq+=Math.pow(p2m.get(s),2);

pSum+=p1m.get(s)*p2m.get(s);
}

//計算皮爾遜評價值
doublenum=pSum-(sum1*sum2/simBook.size());
doubleden=Math.sqrt((sum1Sq-Math.pow(sum1,2)/simBook.size())*(sum2Sq-Math.pow(sum2,2)/simBook.size()));

if(den==0){
return0;
}

returnnum/den;
}

}

⑻ 協同過濾java用什麼實現

眾所周知，java在處理數據量比較大的時候，載入到內存必然會導致內存溢出，而在一些數據處理中我們不得不去處理海量數據，在做數據處理中，我們常見的手段是分解，壓縮，並行，臨時文件等方法;例如，我們要將資料庫(不論是什麼資料庫)的數據導出到一個文件，一般是Excel或文本格式的CSV;對於Excel來講，對於POI和JXL的介面，你很多時候沒有法去控制內存什麼時候向磁碟寫入，很惡心，而且這些API在內存構造的對象大小將比數據原有的大小要大很多倍數，所以你不得不去拆分Excel，還好，POI開始意識到這個問題，在3.8.4的版本後，開始提供cache的行數，提供了SXSSFWorkbook的介面，可以設置在內存中的行數，不過可惜的是，他當你超過這個行數，每添加一行，它就將相對行數前面的一行寫入磁碟(如你設置2000行的話，當你寫第20001行的時候，他會將第一行寫入磁碟)，其實這個時候他些的臨時文件，以至於不消耗內存，不過這樣你會發現，刷磁碟的頻率會非常高，我們的確不想這樣，因為我們想讓他達到一個范圍一次性將數據刷如磁碟，比如一次刷1M之類的做法，可惜現在還沒有這種API，很痛苦，我自己做過測試，通過寫小的Excel比使用目前提供刷磁碟的API來寫大文件，效率要高一些，而且這樣如果訪問的人稍微多一些磁碟IO可能會扛不住，因為IO資源是非常有限的，所以還是拆文件才是上策;而當我們寫CSV，也就是文本類型的文件，我們很多時候是可以自己控制的，不過你不要用CSV自己提供的API，也是不太可控的，CSV本身就是文本文件，你按照文本格式寫入即可被CSV識別出來;如何寫入呢？下面來說說。。。在處理數據層面，如從資料庫中讀取數據，生成本地文件，寫代碼為了方便，我們未必要1M怎麼來處理，這個交給底層的驅動程序去拆分，對於我們的程序來講我們認為它是連續寫即可;我們比如想將一個1000W數據的資料庫表，導出到文件;此時，你要麼進行分頁，oracle當然用三層包裝即可，mysql用limit，不過分頁每次都會新的查詢，而且隨著翻頁，會越來越慢，其實我們想拿到一個句柄，然後向下游動，編譯一部分數據(如10000行)將寫文件一次(寫文件細節不多說了，這個是最基本的)，需要注意的時候每次buffer的數據，在用outputstream寫入的時候，最好flush一下，將緩沖區清空下;接下來，執行一個沒有where條件的SQL，會不會將內存撐爆？是的，這個問題我們值得去思考下，通過API發現可以對SQL進行一些操作，例如，通過：PreparedStatementstatement=connection.prepareStatement(sql)，這是默認得到的預編譯，還可以通過設置：PreparedStatementstatement=connection.prepareStatement(sql，ResultSet.TYPE_FORWARD_ONLY，ResultSet.CONCUR_READ_ONLY);來設置游標的方式，以至於游標不是將數據直接cache到本地內存，然後通過設置statement.setFetchSize(200);設置游標每次遍歷的大小;OK，這個其實我用過，oracle用了和沒用沒區別，因為oracle的jdbcAPI默認就是不會將數據cache到java的內存中的，而mysql里頭設置根本無效，我上面說了一堆廢話，呵呵，我只是想說，java提供的標准API也未必有效，很多時候要看廠商的實現機制，還有這個設置是很多網上說有效的，但是這純屬抄襲;對於oracle上面說了不用關心，他本身就不是cache到內存，所以java內存不會導致什麼問題，如果是mysql，首先必須使用5以上的版本，然後在連接參數上加上useCursorFetch=true這個參數，至於游標大小可以通過連接參數上加上：defaultFetchSize=1000來設置，例如：jdbc：mysql：//xxx.xxx.xxx.xxx：3306/abc？zeroDateTimeconvertToNull&useCursorFetch=true&defaultFetchSize=1000上次被這個問題糾結了很久(mysql的數據老導致程序內存膨脹，並行2個直接系統就宕了)，還去看了很多源碼才發現奇跡竟然在這里，最後經過mysql文檔的確認，然後進行測試，並行多個，而且數據量都是500W以上的，都不會導致內存膨脹，GC一切正常，這個問題終於完結了。我們再聊聊其他的，數據拆分和合並，當數據文件多的時候我們想合並，當文件太大想要拆分，合並和拆分的過程也會遇到類似的問題，還好，這個在我們可控制的范圍內，如果文件中的數據最終是可以組織的，那麼在拆分和合並的時候，此時就不要按照數據邏輯行數來做了，因為行數最終你需要解釋數據本身來判定，但是只是做拆分是沒有必要的，你需要的是做二進制處理，在這個二進制處理過程，你要注意了，和平時read文件不要使用一樣的方式，平時大多對一個文件讀取只是用一次read操作，如果對於大文件內存肯定直接掛掉了，不用多說，你此時因該每次讀取一個可控范圍的數據，read方法提供了重載的offset和length的范圍，這個在循環過程中自己可以計算出來，寫入大文件和上面一樣，不要讀取到一定程序就要通過寫入流flush到磁碟;其實對於小數據量的處理在現代的NIO技術的中也有用到，例如多個終端同時請求一個大文件下載，例如視頻下載吧，在常規的情況下，如果用java的容器來處理，一般會發生兩種情況：其一為內存溢出，因為每個請求都要載入一個文件大小的內存甚至於，因為java包裝的時候會產生很多其他的內存開銷，如果使用二進制會產生得少一些，而且在經過輸入輸出流的過程中還會經歷幾次內存拷貝，當然如果有你類似nginx之類的中間件，那麼你可以通過send_file模式發送出去，但是如果你要用程序來處理的時候，內存除非你足夠大，但是java內存再大也會有GC的時候，如果你內存真的很大，GC的時候死定了，當然這個地方也可以考慮自己通過直接內存的調用和釋放來實現，不過要求剩餘的物理內存也足夠大才行，那麼足夠大是多大呢？這個不好說，要看文件本身的大小和訪問的頻率;其二為假如內存足夠大，無限制大，那麼此時的限制就是線程，傳統的IO模型是線程是一個請求一個線程，這個線程從主線程從線程池中分配後，就開始工作，經過你的Context包裝、Filter、攔截器、業務代碼各個層次和業務邏輯、訪問資料庫、訪問文件、渲染結果等等，其實整個過程線程都是被掛住的，所以這部分資源非常有限，而且如果是大文件操作是屬於IO密集型的操作，大量的CPU時間是空餘的，方法最直接當然是增加線程數來控制，當然內存足夠大也有足夠的空間來申請線程池，不過一般來講一個進程的線程池一般會受到限制也不建議太多的，而在有限的系統資源下，要提高性能，我們開始有了newIO技術，也就是NIO技術，新版的裡面又有了AIO技術，NIO只能算是非同步IO，但是在中間讀寫過程仍然是阻塞的(也就是在真正的讀寫過程，但是不會去關心中途的響應)，還未做到真正的非同步IO，在監聽connect的時候他是不需要很多線程參與的，有單獨的線程去處理，連接也又傳統的socket變成了selector，對於不需要進行數據處理的是無需分配線程處理的;而AIO通過了一種所謂的回調注冊來完成，當然還需要OS的支持，當會掉的時候會去分配線程，目前還不是很成熟，性能最多和NIO吃平，不過隨著技術發展，AIO必然會超越NIO，目前谷歌V8虛擬機引擎所驅動的node.js就是類似的模式，有關這種技術不是本文的說明重點;將上面兩者結合起來就是要解決大文件，還要並行度，最土的方法是將文件每次請求的大小降低到一定程度，如8K(這個大小是經過測試後網路傳輸較為適宜的大小，本地讀取文件並不需要這么小)，如果再做深入一些，可以做一定程度的cache，將多個請求的一樣的文件，cache在內存或分布式緩存中，你不用將整個文件cache在內存中，將近期使用的cache幾秒左右即可，或你可以採用一些熱點的演算法來配合;類似迅雷下載的斷點傳送中(不過迅雷的網路協議不太一樣)，它在處理下載數據的時候未必是連續的，只要最終能合並即可，在伺服器端可以反過來，誰正好需要這塊的數據，就給它就可以;才用NIO後，可以支持很大的連接和並發，本地通過NIO做socket連接測試，100個終端同時請求一個線程的伺服器，正常的WEB應用是第一個文件沒有發送完成，第二個請求要麼等待，要麼超時，要麼直接拒絕得不到連接，改成NIO後此時100個請求都能連接上伺服器端，服務端只需要1個線程來處理數據就可以，將很多數據傳遞給這些連接請求資源，每次讀取一部分數據傳遞出去，不過可以計算的是，在總體長連接傳輸過程中總體效率並不會提升，只是相對相應和所開銷的內存得到量化控制，這就是技術的魅力，也許不要太多的演算法，不過你得懂他。類似的數據處理還有很多，有些時候還會將就效率問題，比如在HBase的文件拆分和合並過程中，要不影響線上業務是比較難的事情，很多問題值得我們去研究場景，因為不同的場景有不同的方法去解決，但是大同小異，明白思想和方法，明白內存和體系架構，明白你所面臨的是沈陽的場景，只是細節上改變可以帶來驚人的效果。

⑼ 我想用協同過濾的演算法寫了一個java語言的圖書推薦系統.能跟我講一下大概要怎麼做嗎.有點沒頭緒

針對完全沒有編程經驗的初學者，java入門沒什麼特別好的書，找點視頻看看吧，跟著視頻敲代碼，慢慢就能看懂書了。

----------------------如果堅持要看書的話可以考慮以下----------------------
1. head first java
通俗易懂，重點突出的書，比較薄，適合初學者快速入門，缺點是編輯自以為幽默的加了很多不相乾的段子在裡面，廢話太多。

2. Java A beginner's guide by Herbert Schildt
相比head first java，沒有廢話，語言精煉。

3. 官方的tutorial
免費的，在線閱讀的，也不錯。

4. 瘋狂java講義
如果英文不夠好的話，可以考慮用這本書入門，中文世界裡寫的比較好的

5. Introction to java programming by Y. Daniel Liang
梁勇這本書比較厚，講演算法比較多，如果你時間充足的話可以用這本書入門。

----------------------！！一定要避開這兩個大坑！！----------------------
很多人推薦的core java 和 Thinking in java 其實並不適合初學者(沒有編程經驗的)。
1. core java內容太多太雜，沒有突出重點，並且結構組織的像本字典，適合入門了以後用來系統復習。
2. Thinking in java 沒有編程經驗根本看不懂，過幾年再看吧，不看也沒關系。

導航:首頁 > 凈水問答 > java用戶協同過濾演算法

java用戶協同過濾演算法

與java用戶協同過濾演算法相關的資料