㈠ 基於規則和基於統計的人工智慧演算法的區別
很多,主要說下監督學習這塊的演算法哈。歡迎討論。
svm,支撐向量機,通過找到樣本空間中的一個超平面,實現樣本的分類,也可以作回歸,主要用在文本分類,圖像識別等領域,詳見:;
lr,邏輯回歸,本質也是線性回歸,通過擬合擬合樣本的某個曲線,然後使用邏輯函數進行區間縮放,但是一般用來分類,主要用在ctr預估、推薦等;
nn,神經網路,通過找到某種非線性模型擬合數據,主要用在圖像等;
nb,樸素貝葉斯,通過找到樣本所屬於的聯合分步,然後通過貝葉斯公式,計算樣本的後驗概率,從而進行分類,主要用來文本分類;
dt,決策樹,構建一棵樹,在節點按照某種規則(一般使用信息熵)來進行樣本劃分,實質是在樣本空間進行塊狀的劃分,主要用來分類,也有做回歸,但更多的是作為弱分類器,用在model embedding中;
rf,隨進森林,是由許多決策樹構成的森林,每個森林中訓練的樣本是從整體樣本中抽樣得到,每個節點需要進行劃分的特徵也是抽樣得到,這樣子就使得每棵樹都具有獨特領域的知識,從而有更好的泛化能力;
gbdt,梯度提升決策樹,實際上也是由多棵樹構成,和rf不同的是,每棵樹訓練樣本是上一棵樹的殘差,這體現了梯度的思想,同時最後的結構是用這所有的樹進行組合或者投票得出,主要用在推薦、相關性等;
knn,k最近鄰,應該是最簡單的ml方法了,對於未知標簽的樣本,看與它最近的k個樣本(使用某種距離公式,馬氏距離或者歐式距離)中哪種標簽最多,它就屬於這類;
㈡ 單一決策樹 隨機森林和梯度提升演算法的區別
不了解什麼是隨機森林。感覺應該是一種演算法。如果做計算機視覺建議你用OpenCV,R語言主要用在版統計分析、權機器學習領域。你找幾篇這方面的文獻看看別人跟你做類似課題時是用C++還是R。根據下列演算法而建造每棵樹:
1. 用 N 來表示訓練例子的個數,M表示變數的數目。
2. 我們會被告知一個數 m ,被用來決定當在一個節點上做決定時,會使用到多少個變數。m應小於M
3. 從N個訓練案例中以可重復取樣的方式,取樣N次,形成一組訓練集(即bootstrap取樣)。並使用這棵樹來對剩餘預測其類別,並評估其誤差。
4. 對於每一個節點,隨機選擇m個基於此點上的變數。根據這 m 個變數,計算其最佳的分割方式。
5. 每棵樹都會完整成長而不會剪枝(Pruning)(這有可能在建完一棵正常樹狀分類器後會被採用)
㈢ 基於統計和機器學習的演算法有哪些
很多,主要說下監督學習這塊的演算法哈。歡迎討論。
svm,支撐向量機,通過找到樣本空間中的一個超平面,實現樣本的分類,也可以作回歸,主要用在文本分類,圖像識別等領域,詳見:;
lr,邏輯回歸,本質也是線性回歸,通過擬合擬合樣本的某個曲線,然後使用邏輯函數進行區間縮放,但是一般用來分類,主要用在ctr預估、推薦等;
nn,神經網路,通過找到某種非線性模型擬合數據,主要用在圖像等;
nb,樸素貝葉斯,通過找到樣本所屬於的聯合分步,然後通過貝葉斯公式,計算樣本的後驗概率,從而進行分類,主要用來文本分類;
dt,決策樹,構建一棵樹,在節點按照某種規則(一般使用信息熵)來進行樣本劃分,實質是在樣本空間進行塊狀的劃分,主要用來分類,也有做回歸,但更多的是作為弱分類器,用在model embedding中;
rf,隨進森林,是由許多決策樹構成的森林,每個森林中訓練的樣本是從整體樣本中抽樣得到,每個節點需要進行劃分的特徵也是抽樣得到,這樣子就使得每棵樹都具有獨特領域的知識,從而有更好的泛化能力;
gbdt,梯度提升決策樹,實際上也是由多棵樹構成,和rf不同的是,每棵樹訓練樣本是上一棵樹的殘差,這體現了梯度的思想,同時最後的結構是用這所有的樹進行組合或者投票得出,主要用在推薦、相關性等;
knn,k最近鄰,應該是最簡單的ml方法了,對於未知標簽的樣本,看與它最近的k個樣本(使用某種距離公式,馬氏距離或者歐式距離)中哪種標簽最多,它就屬於這類;
㈣ xgboost是梯度上升還是梯度下降
很多,主要說下監督學習這塊的演算法哈。歡迎討論。
svm,支撐向量機,通過找到樣本空間中的一個超平面,實現樣本的分類,也可以作回歸,主要用在文本分類,圖像識別等領域,詳見:;
lr,邏輯回歸,本質也是線性回歸,通過擬合擬合樣本的某個曲線,然後使用邏輯函數進行區間縮放,但是一般用來分類,主要用在ctr預估、等;
nn,神經網路,通過找到某種非線性模型擬合數據,主要用在圖像等;
nb,樸素貝葉斯,通過找到樣本所屬於的聯合分步,然後通過貝葉斯公式,計算樣本的後驗概率,從而進行分類,主要用來文本分類;
dt,決策樹,構建一棵樹,在節點按照某種規則(一般使用信息熵)來進行樣本劃分,實質是在樣本空間進行塊狀的劃分,主要用來分類,也有做回歸,但更多的是作為弱分類器,用在model embedding中;
rf,隨進森林,是由許多決策樹構成的森林,每個森林中訓練的樣本是從整體樣本中抽樣得到,每個節點需要進行劃分的特徵也是抽樣得到,這樣子就使得每棵樹都具有獨特領域的知識,從而有更好的泛化能力;
gbdt,梯度提升決策樹,實際上也是由多棵樹構成,和rf不同的是,每棵樹訓練樣本是上一棵樹的殘差,這體現了梯度的思想,同時最後的結構是用這所有的樹進行組合或者投票得出,主要用在、相關性等;
knn,k最近鄰,應該是最簡單的ml方法了,對於未知標簽的樣本,看與它最近的k個樣本(使用某種距離公式,馬氏距離或者歐式距離)中哪種標簽最多,它就屬於這類;
㈤ FLDA 是人工智慧演算法么全名中英文是啥啊
應該不是。
監督學習 Supervised learning
Fisher的線性判別 Fisher』s linear discriminant
線性回歸 Linear regression
Logistic回歸 Logistic regression
多項Logistic回歸 Multinomial logistic regression
樸素貝葉斯分類器 Naive Bayes classifier
感知 Perceptron
支持向量機 Support vector machine
分類和回歸樹(CART) Classification and regression tree (CART)
迭代Dichotomiser 3(ID3) Iterative Dichotomiser 3(ID3)
C4.5演算法 C4.5 algorithm
C5.0演算法 C5.0 algorithm
卡方自動交互檢測(CHAID) Chi-squared Automatic Interaction Detection(CHAID)
決策殘端 Decision stump
ID3演算法 ID3 algorithm
隨機森林 Random forest
SLIQ
樸素貝葉斯 Naive Bayes
高斯貝葉斯 Gaussian Naive Bayes
多項樸素貝葉斯 Multinomial Naive Bayes
平均一依賴性評估(AODE) Averaged One-Dependence Estimators(AODE)
貝葉斯信念網路(BNN) Bayesian Belief Network(BBN)
貝葉斯網路(BN) Bayesian Network(BN)
自動編碼器 Autoencoder
反向傳播 Backpropagation
玻爾茲曼機 Boltzmann machine
卷積神經網路 Convolutional neural network
Hopfield網路 Hopfield network
多層感知器 Multilayer perceptron
徑向基函數網路(RBFN) Radial basis function network(RBFN)
受限玻爾茲曼機 Restricted Boltzmann machine
回歸神經網路(RNN) Recurrent neural network(RNN)
自組織映射(SOM) Self-organizing map(SOM)
尖峰神經網路 Spiking neural network
人工神經網路 Artificial neural network
貝葉斯 Bayesian
決策樹 Decision Tree
線性分類 Linear classifier
無監督學習 Unsupervised learning
k-最近鄰演算法(K-NN) k-nearest neighbors classification(K-NN)
局部異常因子 Local outlier factor
BIRCH
DBSCAN
期望最大化(EM) Expectation-maximization(EM)
模糊聚類 Fuzzy clustering
K-means演算法 K-means algorithm
k-均值聚類 K-means clustering
k-位數 K-medians
平均移 Mean-shift
OPTICS演算法 OPTICS algorithm
單連鎖聚類 Single-linkage clustering
概念聚類 Conceptual clustering
先驗演算法 Apriori algorithm
Eclat演算法 Eclat algorithm
FP-growth演算法 FP-growth algorithm
對抗生成網路
前饋神經網路 Feedforward neurral network
邏輯學習機 Logic learning machine
自組織映射 Self-organizing map
極端學習機 Extreme learning machine
人工神經網路 Artificial neural network
關聯規則學習 Association rule learning
分層聚類 Hierarchical clustering
聚類分析 Cluster analysis
異常檢測 Anomaly detection
半監督學習 Semi-supervised learning
生成模型 Generative models
低密度分離 Low-density separation
基於圖形的方法 Graph-based methods
聯合訓練 Co-training
強化學習 Reinforcement learning
時間差分學習 Temporal difference learning
Q學習 Q-learning
學習自動 Learning Automata
狀態-行動-回饋-狀態-行動(SARSA) State-Action-Reward-State-Action(SARSA)
深度學習 Deep learning
深度信念網路 Deep belief machines
深度卷積神經網路 Deep Convolutional neural networks
深度遞歸神經網路 Deep Recurrent neural networks
分層時間記憶 Hierarchical temporal memory
深度玻爾茲曼機(DBM) Deep Boltzmann Machine(DBM)
堆疊自動編碼器 Stacked Boltzmann Machine
生成式對抗網路 Generative adversarial networks
遷移學習 Transfer learning
傳遞式遷移學習 Transitive Transfer Learning
其他
主成分分析(PCA) Principal component analysis(PCA)
主成分回歸(PCR) Principal component regression(PCR)
因子分析 Factor analysis
Bootstrap aggregating (Bagging)
AdaBoost
梯度提升機(GBM) Gradient boosting machine(GBM)
梯度提升決策樹(GBRT) Gradient boosted decision tree(GBRT)
集成學習演算法
降維
㈥ 機器學習一般常用的演算法有哪些
機器學習是人工智慧的核心技術,是學習人工智慧必不可少的環節。機器學習中有很多演算法,能夠解決很多以前難以企的問題,機器學習中涉及到的演算法有不少,下面小編就給大家普及一下這些演算法。
一、線性回歸
一般來說,線性回歸是統計學和機器學習中最知名和最易理解的演算法之一。這一演算法中我們可以用來預測建模,而預測建模主要關注最小化模型誤差或者盡可能作出最准確的預測,以可解釋性為代價。我們將借用、重用包括統計學在內的很多不同領域的演算法,並將其用於這些目的。當然我們可以使用不同的技術從數據中學習線性回歸模型,例如用於普通最小二乘法和梯度下降優化的線性代數解。就目前而言,線性回歸已經存在了200多年,並得到了廣泛研究。使用這種技術的一些經驗是盡可能去除非常相似(相關)的變數,並去除噪音。這是一種快速、簡單的技術。
二、Logistic 回歸
它是解決二分類問題的首選方法。Logistic 回歸與線性回歸相似,目標都是找到每個輸入變數的權重,即系數值。與線性回歸不同的是,Logistic 回歸對輸出的預測使用被稱為 logistic 函數的非線性函數進行變換。logistic 函數看起來像一個大的S,並且可以將任何值轉換到0到1的區間內。這非常實用,因為我們可以規定logistic函數的輸出值是0和1並預測類別值。像線性回歸一樣,Logistic 回歸在刪除與輸出變數無關的屬性以及非常相似的屬性時效果更好。它是一個快速的學習模型,並且對於二分類問題非常有效。
三、線性判別分析(LDA)
在前面我們介紹的Logistic 回歸是一種分類演算法,傳統上,它僅限於只有兩類的分類問題。而LDA的表示非常簡單直接。它由數據的統計屬性構成,對每個類別進行計算。單個輸入變數的 LDA包括兩個,第一就是每個類別的平均值,第二就是所有類別的方差。而在線性判別分析,進行預測的方法是計算每個類別的判別值並對具備最大值的類別進行預測。該技術假設數據呈高斯分布,因此最好預先從數據中刪除異常值。這是處理分類預測建模問題的一種簡單而強大的方法。
四、決策樹
決策樹是預測建模機器學習的一種重要演算法。決策樹模型的表示是一個二叉樹。這是演算法和數據結構中的二叉樹,沒什麼特別的。每個節點代表一個單獨的輸入變數x和該變數上的一個分割點。而決策樹的葉節點包含一個用於預測的輸出變數y。通過遍歷該樹的分割點,直到到達一個葉節點並輸出該節點的類別值就可以作出預測。當然決策樹的有點就是決策樹學習速度和預測速度都很快。它們還可以解決大量問題,並且不需要對數據做特別准備。
五、樸素貝葉斯
其實樸素貝葉斯是一個簡單但是很強大的預測建模演算法。而這個模型由兩種概率組成,這兩種概率都可以直接從訓練數據中計算出來。第一種就是每個類別的概率,第二種就是給定每個 x 的值,每個類別的條件概率。一旦計算出來,概率模型可用於使用貝葉斯定理對新數據進行預測。當我們的數據是實值時,通常假設一個高斯分布,這樣我們可以簡單的估計這些概率。而樸素貝葉斯之所以是樸素的,是因為它假設每個輸入變數是獨立的。這是一個強大的假設,真實的數據並非如此,但是,該技術在大量復雜問題上非常有用。所以說,樸素貝葉斯是一個十分實用的功能。
六、K近鄰演算法
K近鄰演算法簡稱KNN演算法,KNN 演算法非常簡單且有效。KNN的模型表示是整個訓練數據集。KNN演算法在整個訓練集中搜索K個最相似實例(近鄰)並匯總這K個實例的輸出變數,以預測新數據點。對於回歸問題,這可能是平均輸出變數,對於分類問題,這可能是眾數類別值。而其中的訣竅在於如何確定數據實例間的相似性。如果屬性的度量單位相同,那麼最簡單的技術是使用歐幾里得距離,我們可以根據每個輸入變數之間的差值直接計算出來其數值。當然,KNN需要大量內存或空間來存儲所有數據,但是只有在需要預測時才執行計算。我們還可以隨時更新和管理訓練實例,以保持預測的准確性。
七、Boosting 和 AdaBoost
首先,Boosting 是一種集成技術,它試圖集成一些弱分類器來創建一個強分類器。這通過從訓練數據中構建一個模型,然後創建第二個模型來嘗試糾正第一個模型的錯誤來完成。一直添加模型直到能夠完美預測訓練集,或添加的模型數量已經達到最大數量。而AdaBoost 是第一個為二分類開發的真正成功的 boosting 演算法。這是理解 boosting 的最佳起點。現代 boosting 方法建立在 AdaBoost 之上,最顯著的是隨機梯度提升。當然,AdaBoost 與短決策樹一起使用。在第一個決策樹創建之後,利用每個訓練實例上樹的性能來衡量下一個決策樹應該對每個訓練實例付出多少注意力。難以預測的訓練數據被分配更多權重,而容易預測的數據分配的權重較少。依次創建模型,每一個模型在訓練實例上更新權重,影響序列中下一個決策樹的學習。在所有決策樹建立之後,對新數據進行預測,並且通過每個決策樹在訓練數據上的精確度評估其性能。所以說,由於在糾正演算法錯誤上投入了太多注意力,所以具備已刪除異常值的干凈數據十分重要。
八、學習向量量化演算法(簡稱 LVQ)
學習向量量化也是機器學習其中的一個演算法。可能大家不知道的是,K近鄰演算法的一個缺點是我們需要遍歷整個訓練數據集。學習向量量化演算法(簡稱 LVQ)是一種人工神經網路演算法,它允許你選擇訓練實例的數量,並精確地學習這些實例應該是什麼樣的。而學習向量量化的表示是碼本向量的集合。這些是在開始時隨機選擇的,並逐漸調整以在學習演算法的多次迭代中最好地總結訓練數據集。在學習之後,碼本向量可用於預測。最相似的近鄰通過計算每個碼本向量和新數據實例之間的距離找到。然後返回最佳匹配單元的類別值或作為預測。如果大家重新調整數據,使其具有相同的范圍,就可以獲得最佳結果。當然,如果大家發現KNN在大家數據集上達到很好的結果,請嘗試用LVQ減少存儲整個訓練數據集的內存要求
㈦ 如何選擇機器學習分類器
如果訓練集很小,那麼高偏差/低方差分類器(如樸素貝葉斯分類器)要優於低偏差/高方差分類器(如k近鄰分類器),因為後者容易過擬合。然而,隨著訓練集的增大,低偏差/高方差分類器將開始勝出(它們具有較低的漸近誤差),因為高偏差分類器不足以提供准確的模型。
你也可以認為這是生成模型與判別模型的區別。
一些特定演算法的優點
樸素貝葉斯的優點:超級簡單,你只是在做一串計算。如果樸素貝葉斯(NB)條件獨立性假設成立,相比於邏輯回歸這類的判別模型,樸素貝葉斯分類器將收斂得更快,所以你只需要較小的訓練集。而且,即使NB假設不成立,樸素貝葉斯分類器在實踐方面仍然表現很好。如果想得到簡單快捷的執行效果,這將是個好的選擇。它的主要缺點是,不能學習特徵之間的相互作用(比如,它不能學習出:雖然你喜歡布拉德·皮特和湯姆·克魯斯的電影,但卻不喜歡他們一起合作的電影)。
邏輯回歸的優點:有許多正則化模型的方法,你不需要像在樸素貝葉斯分類器中那樣擔心特徵間的相互關聯性。與決策樹和支撐向量機不同,你還可以有一個很好的概率解釋,並能容易地更新模型來吸收新數據(使用一個在線梯度下降方法)。如果你想要一個概率框架(比如,簡單地調整分類閾值,說出什麼時候是不太確定的,或者獲得置信區間),或你期望未來接收更多想要快速並入模型中的訓練數據,就選擇邏輯回歸。
決策樹的優點:易於說明和解釋(對某些人來說—我不確定自己是否屬於這個陣營)。它們可以很容易地處理特徵間的相互作用,並且是非參數化的,所以你不用擔心異常值或者數據是否線性可分(比如,決策樹可以很容易地某特徵x的低端是類A,中間是類B,然後高端又是類A的情況)。一個缺點是,不支持在線學習,所以當有新樣本時,你將不得不重建決策樹。另一個缺點是,容易過擬合,但這也正是諸如隨機森林(或提高樹)之類的集成方法的切入點。另外,隨機森林往往是很多分類問題的贏家(我相信通常略優於支持向量機),它們快速並且可擴展,同時你不須擔心要像支持向量機那樣調一堆參數,所以它們最近似乎相當受歡迎。
SVMs的優點:高准確率,為過擬合提供了好的理論保證,並且即使你的數據在基礎特徵空間線性不可分,只要選定一個恰當的核函數,它們仍然能夠取得很好的分類效果。它們在超高維空間是常態的文本分類問題中尤其受歡迎。然而,它們內存消耗大,難於解釋,運行和調參也有些煩人,因此,我認為隨機森林正漸漸開始偷走它的「王冠」。
然而…
盡管如此,回憶一下,更好的數據往往打敗更好的演算法,設計好的特徵大有裨益。並且,如果你有一個龐大數據集,這時你使用哪種分類演算法在分類性能方面可能並不要緊(所以,要基於速度和易用性選擇演算法)。
重申我上面說的,如果你真的關心准確率,一定要嘗試各種各樣的分類器,並通過交叉驗證選擇最好的一個。或者,從Netflix Prize(和Middle Earth)中吸取教訓,只使用了一個集成方法進行選擇。
㈧ 下面哪些演算法不可以用來做回歸 boosting
嘗試回抄答一下 首先xgboost是Gradient Boosting的一種高效系統襲實現,並不是一種單一演算法。xgboost裡面的基學習器除了用tree(gbtree),也可用線性分類器(gblinear)。而GBDT則特指梯度提升決策樹演算法。 xgboost相對於普通gbm的實