過濾負值求最小值pandas_python pandas 過濾某列特殊字元求助

1. 如何對XGBoost模型進行參數調優

XGBoost參數調優完全指南（附Python代碼）

譯註：文內提供的代碼和運行結果有一定差異，可以從這里下載完整代碼對照參考。另外，我自己跟著教程做的時候，發現我的庫無法解析字元串類型的特徵，所以只用其中一部分特徵做的，具體數值跟文章中不一樣，反而可以幫助理解文章。所以大家其實也可以小小修改一下代碼，不一定要完全跟著教程做~ ^0^
需要提前安裝好的庫：

簡介

如果你的預測模型表現得有些不盡如人意，那就用XGBoost吧。XGBoost演算法現在已經成為很多數據工程師的重要武器。它是一種十分精緻的演算法，可以處理各種不規則的數據。
構造一個使用XGBoost的模型十分簡單。但是，提高這個模型的表現就有些困難(至少我覺得十分糾結)。這個演算法使用了好幾個參數。所以為了提高模型的表現，參數的調整十分必要。在解決實際問題的時候，有些問題是很難回答的——你需要調整哪些參數？這些參數要調到什麼值，才能達到理想的輸出？
這篇文章最適合剛剛接觸XGBoost的人閱讀。在這篇文章中，我們會學到參數調優的技巧，以及XGboost相關的一些有用的知識。以及，我們會用Python在一個數據集上實踐一下這個演算法。

你需要知道的

XGBoost(eXtreme Gradient Boosting)是Gradient Boosting演算法的一個優化的版本。

特別鳴謝：我個人十分感謝Mr Sudalai Rajkumar (aka SRK)大神的支持，目前他在AV Rank中位列第二。如果沒有他的幫助，就沒有這篇文章。在他的幫助下，我們才能給無數的數據科學家指點迷津。給他一個大大的贊！

內容列表

1、XGBoost的優勢
2、理解XGBoost的參數
3、調整參數(含示例)

1、XGBoost的優勢

XGBoost演算法可以給預測模型帶來能力的提升。當我對它的表現有更多了解的時候，當我對它的高准確率背後的原理有更多了解的時候，我發現它具有很多優勢：

1、正則化

標准GBM的實現沒有像XGBoost這樣的正則化步驟。正則化對減少過擬合也是有幫助的。實際上，XGBoost以「正則化提升(regularized boosting)」技術而聞名。

2、並行處理

XGBoost可以實現並行處理，相比GBM有了速度的飛躍。不過，眾所周知，Boosting演算法是順序處理的，它怎麼可能並行呢？每一課樹的構造都依賴於前一棵樹，那具體是什麼讓我們能用多核處理器去構造一個樹呢？我希望你理解了這句話的意思。XGBoost 也支持Hadoop實現。

3、高度的靈活性

XGBoost 允許用戶定義自定義優化目標和評價標准它對模型增加了一個全新的維度，所以我們的處理不會受到任何限制。

4、缺失值處理

XGBoost內置處理缺失值的規則。用戶需要提供一個和其它樣本不同的值，然後把它作為一個參數傳進去，以此來作為缺失值的取值。XGBoost在不同節點遇到缺失值時採用不同的處理方法，並且會學習未來遇到缺失值時的處理方法。

5、剪枝

當分裂時遇到一個負損失時，GBM會停止分裂。因此GBM實際上是一個貪心演算法。 XGBoost會一直分裂到指定的最大深度(max_depth)，然後回過頭來剪枝。如果某個節點之後不再有正值，它會去除這個分裂。這種做法的優點，當一個負損失（如-2）後面有個正損失（如+10）的時候，就顯現出來了。GBM會在-2處停下來，因為它遇到了一個負值。但是XGBoost會繼續分裂，然後發現這兩個分裂綜合起來會得到+8，因此會保留這兩個分裂。

6、內置交叉驗證

XGBoost允許在每一輪boosting迭代中使用交叉驗證。因此，可以方便地獲得最優boosting迭代次數。而GBM使用網格搜索，只能檢測有限個值。

7、在已有的模型基礎上繼續

XGBoost可以在上一輪的結果上繼續訓練。這個特性在某些特定的應用上是一個巨大的優勢。 sklearn中的GBM的實現也有這個功能，兩種演算法在這一點上是一致的。

相信你已經對XGBoost強大的功能有了點概念。注意這是我自己總結出來的幾點，你如果有更多的想法，盡管在下面評論指出，我會更新這個列表的！

2、XGBoost的參數

XGBoost的作者把所有的參數分成了三類：
1、通用參數：宏觀函數控制。
2、Booster參數：控制每一步的booster(tree/regression)。
3、學習目標參數：控制訓練目標的表現。
在這里我會類比GBM來講解，所以作為一種基礎知識。

通用參數

這些參數用來控制XGBoost的宏觀功能。

1、booster[默認gbtree]

選擇每次迭代的模型，有兩種選擇：
gbtree：基於樹的模型
gbliner：線性模型

2、silent[默認0]

當這個參數值為1時，靜默模式開啟，不會輸出任何信息。一般這個參數就保持默認的0，因為這樣能幫我們更好地理解模型。

3、nthread[默認值為最大可能的線程數]

這個參數用來進行多線程式控制制，應當輸入系統的核數。如果你希望使用CPU全部的核，那就不要輸入這個參數，演算法會自動檢測它。
還有兩個參數，XGBoost會自動設置，目前你不用管它。接下來咱們一起看booster參數。

booster參數

盡管有兩種booster可供選擇，我這里只介紹tree booster，因為它的表現遠遠勝過linear booster，所以linear booster很少用到。

1、eta[默認0.3]

和GBM中的 learning rate 參數類似。通過減少每一步的權重，可以提高模型的魯棒性。典型值為0.01-0.2。

2、min_child_weight[默認1]

決定最小葉子節點樣本權重和。和GBM的 min_child_leaf 參數類似，但不完全一樣。XGBoost的這個參數是最小樣本權重的和，而GBM參數是最小樣本總數。這個參數用於避免過擬合。當它的值較大時，可以避免模型學習到局部的特殊樣本。但是如果這個值過高，會導致欠擬合。這個參數需要使用CV來調整。

3、max_depth[默認6]

和GBM中的參數相同，這個值為樹的最大深度。這個值也是用來避免過擬合的。max_depth越大，模型會學到更具體更局部的樣本。需要使用CV函數來進行調優。典型值：3-10

4、max_leaf_nodes

樹上最大的節點或葉子的數量。可以替代max_depth的作用。因為如果生成的是二叉樹，一個深度為n的樹最多生成

個葉子。如果定義了這個參數，GBM會忽略max_depth參數。

5、gamma[默認0]

在節點分裂時，只有分裂後損失函數的值下降了，才會分裂這個節點。Gamma指定了節點分裂所需的最小損失函數下降值。這個參數的值越大，演算法越保守。這個參數的值和損失函數息息相關，所以是需要調整的。

6、max_delta_step[默認0]

這參數限制每棵樹權重改變的最大步長。如果這個參數的值為0，那就意味著沒有約束。如果它被賦予了某個正值，那麼它會讓這個演算法更加保守。通常，這個參數不需要設置。但是當各類別的樣本十分不平衡時，它對邏輯回歸是很有幫助的。這個參數一般用不到，但是你可以挖掘出來它更多的用處。

7、subsample[默認1]

和GBM中的subsample參數一模一樣。這個參數控制對於每棵樹，隨機采樣的比例。減小這個參數的值，演算法會更加保守，避免過擬合。但是，如果這個值設置得過小，它可能會導致欠擬合。典型值：0.5-1

8、colsample_bytree[默認1]

和GBM裡面的max_features參數類似。用來控制每棵隨機采樣的列數的佔比(每一列是一個特徵)。典型值：0.5-1

9、colsample_bylevel[默認1]

用來控制樹的每一級的每一次分裂，對列數的采樣的佔比。我個人一般不太用這個參數，因為subsample參數和colsample_bytree參數可以起到相同的作用。但是如果感興趣，可以挖掘這個參數更多的用處。

10、lambda[默認1]

權重的L2正則化項。(和Ridge regression類似)。這個參數是用來控制XGBoost的正則化部分的。雖然大部分數據科學家很少用到這個參數，但是這個參數在減少過擬合上還是可以挖掘出更多用處的。

11、alpha[默認1]

權重的L1正則化項。(和Lasso regression類似)。可以應用在很高維度的情況下，使得演算法的速度更快。

12、scale_pos_weight[默認1]

在各類別樣本十分不平衡時，把這個參數設定為一個正值，可以使演算法更快收斂。

學習目標參數

這個參數用來控制理想的優化目標和每一步結果的度量方法。

1、objective[默認reg:linear]

這個參數定義需要被最小化的損失函數。最常用的值有：
binary:logistic 二分類的邏輯回歸，返回預測的概率(不是類別)。 multi:softmax 使用softmax的多分類器，返回預測的類別(不是概率)。
在這種情況下，你還需要多設一個參數：num_class(類別數目)。 multi:softprob 和multi:softmax參數一樣，但是返回的是每個數據屬於各個類別的概率。

2、eval_metric[默認值取決於objective參數的取值]

對於有效數據的度量方法。對於回歸問題，默認值是rmse，對於分類問題，默認值是error。典型值有：
rmse 均方根誤差(

∑Ni=1?2N??????√

) mae 平均絕對誤差(

∑Ni=1|?|N

) logloss 負對數似然函數值 error 二分類錯誤率(閾值為0.5) merror 多分類錯誤率 mlogloss 多分類logloss損失函數 auc 曲線下面積

3、seed(默認0)

隨機數的種子設置它可以復現隨機數據的結果，也可以用於調整參數

如果你之前用的是Scikit-learn,你可能不太熟悉這些參數。但是有個好消息，python的XGBoost模塊有一個sklearn包，XGBClassifier。這個包中的參數是按sklearn風格命名的。會改變的函數名是：
1、eta ->learning_rate
2、lambda->reg_lambda
3、alpha->reg_alpha
你肯定在疑惑為啥咱們沒有介紹和GBM中的』n_estimators』類似的參數。XGBClassifier中確實有一個類似的參數，但是，是在標准XGBoost實現中調用擬合函數時，把它作為』num_boosting_rounds』參數傳入。

調整參數(含示例)

我已經對這些數據進行了一些處理：

City變數，因為類別太多，所以刪掉了一些類別。 DOB變數換算成年齡，並刪除了一些數據。增加了 EMI_Loan_Submitted_Missing 變數。如果EMI_Loan_Submitted變數的數據缺失，則這個參數的值為1。否則為0。刪除了原先的EMI_Loan_Submitted變數。 EmployerName變數，因為類別太多，所以刪掉了一些類別。因為Existing_EMI變數只有111個值缺失，所以缺失值補充為中位數0。增加了 Interest_Rate_Missing 變數。如果Interest_Rate變數的數據缺失，則這個參數的值為1。否則為0。刪除了原先的Interest_Rate變數。刪除了Lead_Creation_Date，從直覺上這個特徵就對最終結果沒什麼幫助。 Loan_Amount_Applied, Loan_Tenure_Applied 兩個變數的缺項用中位數補足。增加了 Loan_Amount_Submitted_Missing 變數。如果Loan_Amount_Submitted變數的數據缺失，則這個參數的值為1。否則為0。刪除了原先的Loan_Amount_Submitted變數。增加了 Loan_Tenure_Submitted_Missing 變數。如果 Loan_Tenure_Submitted 變數的數據缺失，則這個參數的值為1。否則為0。刪除了原先的 Loan_Tenure_Submitted 變數。刪除了LoggedIn, Salary_Account 兩個變數增加了 Processing_Fee_Missing 變數。如果 Processing_Fee 變數的數據缺失，則這個參數的值為1。否則為0。刪除了原先的 Processing_Fee 變數。 Source前兩位不變，其它分成不同的類別。進行了量化和獨熱編碼(一位有效編碼)。

如果你有原始數據，可以從資源庫裡面下載data_preparation的Ipython notebook 文件，然後自己過一遍這些步驟。

首先，import必要的庫，然後載入數據。

#Import libraries:
import pandas as pd
import numpy as np
import xgboost as xgb
from xgboost.sklearn import XGBClassifier
from sklearn import cross_validation, metrics #Additional scklearn functions
from sklearn.grid_search import GridSearchCV #Perforing grid search

import matplotlib.pylab as plt
%matplotlib inline
from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 12, 4

train = pd.read_csv('train_modified.csv')
target = 'Disbursed'
IDcol = 'ID'

注意我import了兩種XGBoost：

xgb - 直接引用xgboost。接下來會用到其中的「cv」函數。 XGBClassifier - 是xgboost的sklearn包。這個包允許我們像GBM一樣使用Grid Search 和並行處理。

在向下進行之前，我們先定義一個函數，它可以幫助我們建立XGBoost models 並進行交叉驗證。好消息是你可以直接用下面的函數，以後再自己的models中也可以使用它。

def modelfit(alg, dtrain, predictors,useTrainCV=True, cv_folds=5, early_stopping_rounds=50):
if useTrainCV:
xgb_param = alg.get_xgb_params()
xgtrain = xgb.DMatrix(dtrain[predictors].values, label=dtrain[target].values)
cvresult = xgb.cv(xgb_param, xgtrain, num_boost_round=alg.get_params()['n_estimators'], nfold=cv_folds,
metrics='auc', early_stopping_rounds=early_stopping_rounds, show_progress=False)
alg.set_params(n_estimators=cvresult.shape[0])

#Fit the algorithm on the data
alg.fit(dtrain[predictors], dtrain['Disbursed'],eval_metric='auc')

#Predict training set:
dtrain_predictions = alg.predict(dtrain[predictors])
dtrain_predprob = alg.predict_proba(dtrain[predictors])[:,1]

#Print model report:
print " Model Report"
print "Accuracy : %.4g" % metrics.accuracy_score(dtrain['Disbursed'].values, dtrain_predictions)
print "AUC Score (Train): %f" % metrics.roc_auc_score(dtrain['Disbursed'], dtrain_predprob)

feat_imp = pd.Series(alg.booster().get_fscore()).sort_values(ascending=False)
feat_imp.plot(kind='bar', title='Feature Importances')
plt.ylabel('Feature Importance Score')

這個函數和GBM中使用的有些許不同。不過本文章的重點是講解重要的概念，而不是寫代碼。如果哪裡有不理解的地方，請在下面評論，不要有壓力。注意xgboost的sklearn包沒有「feature_importance」這個量度，但是get_fscore()函數有相同的功能。

參數調優的一般方法。

我們會使用和GBM中相似的方法。需要進行如下步驟：
1. 選擇較高的學習速率(learning rate)。一般情況下，學習速率的值為0.1。但是，對於不同的問題，理想的學習速率有時候會在0.05到0.3之間波動。選擇對應於此學習速率的理想決策樹數量。XGBoost有一個很有用的函數「cv」，這個函數可以在每一次迭代中使用交叉驗證，並返回理想的決策樹數量。
2. 對於給定的學習速率和決策樹數量，進行決策樹特定參數調優(max_depth, min_child_weight, gamma, subsample, colsample_bytree)。在確定一棵樹的過程中，我們可以選擇不同的參數，待會兒我會舉例說明。
3. xgboost的正則化參數的調優。(lambda, alpha)。這些參數可以降低模型的復雜度，從而提高模型的表現。
4. 降低學習速率，確定理想參數。

咱們一起詳細地一步步進行這些操作。

第一步：確定學習速率和tree_based 參數調優的估計器數目。

為了確定boosting 參數，我們要先給其它參數一個初始值。咱們先按如下方法取值：
1、max_depth = 5 :這個參數的取值最好在3-10之間。我選的起始值為5，但是你也可以選擇其它的值。起始值在4-6之間都是不錯的選擇。
2、min_child_weight = 1:在這里選了一個比較小的值，因為這是一個極不平衡的分類問題。因此，某些葉子節點下的值會比較小。
3、gamma = 0: 起始值也可以選其它比較小的值，在0.1到0.2之間就可以。這個參數後繼也是要調整的。
4、subsample,colsample_bytree = 0.8: 這個是最常見的初始值了。典型值的范圍在0.5-0.9之間。
5、scale_pos_weight = 1: 這個值是因為類別十分不平衡。
注意哦，上面這些參數的值只是一個初始的估計值，後繼需要調優。這里把學習速率就設成默認的0.1。然後用xgboost中的cv函數來確定最佳的決策樹數量。前文中的函數可以完成這個工作。

#Choose all predictors except target & IDcols
predictors = [x for x in train.columns if x not in [target,IDcol]]
xgb1 = XGBClassifier(
learning_rate =0.1,
n_estimators=1000,
max_depth=5,
min_child_weight=1,
gamma=0,
subsample=0.8,
colsample_bytree=0.8,
objective= 'binary:logistic',
nthread=4,
scale_pos_weight=1,
seed=27)
modelfit(xgb1, train, predictors)

從輸出結果可以看出，在學習速率為0.1時，理想的決策樹數目是140。這個數字對你而言可能比較高，當然這也取決於你的系統的性能。

注意：在AUC(test)這里你可以看到測試集的AUC值。但是如果你在自己的系統上運行這些命令，並不會出現這個值。因為數據並不公開。這里提供的值僅供參考。生成這個值的代碼部分已經被刪掉了。<喎�"/kf/ware/vc/" target="_blank" class="keylink">="第二步-maxdepth-和-minweight-參數調優">第二步： max_depth 和 min_weight 參數調優

我們先對這兩個參數調優，是因為它們對最終結果有很大的影響。首先，我們先大范圍地粗調參數，然後再小范圍地微調。
注意：在這一節我會進行高負荷的柵格搜索(grid search)，這個過程大約需要15-30分鍾甚至更久，具體取決於你系統的性能。你也可以根據自己系統的性能選擇不同的值。

param_test1 = {
'max_depth':range(3,10,2),
'min_child_weight':range(1,6,2)
}
gsearch1 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=140, max_depth=5,
min_child_weight=1, gamma=0, subsample=0.8, colsample_bytree=0.8,
objective= 'binary:logistic', nthread=4, scale_pos_weight=1, seed=27),
param_grid = param_test1, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch1.fit(train[predictors],train[target])
gsearch1.grid_scores_, gsearch1.best_params_, gsearch1.best_score_

2. python pandas中describe()各項含義及求值

1、在pandas中，我們採用了R語言中的慣用法，即將缺失值表示為NA，它表示不可用not available。

3. 怎樣用xgboost做時間序列預測

XGBoost參數調優完全指南（附Python代碼）

譯註：文內提供的代碼和運行結果有一定差異，可以從這里完整代碼對照參考。另外，我自己跟著教程做的時候，發現我的庫無法解析字元串類型的特徵，所以只用其中一部分特徵做的，具體數值跟文章中不一樣，反而可以幫助理解文章。所以大家其實也可以小小修改一下代碼，不一定要完全跟著教程做~ ^0^

需要提前安裝好的庫：簡介如果你的預測模型表現得有些不盡如人意，那就用XGBoost吧。XGBoost演算法現在已經成為很多數據工程師的重要武器。它是一種十分精緻的演算法，可以處理各種不規則的數據。

構造一個使用XGBoost的模型十分簡單。但是，提高這個模型的表現就有些困難(至少我覺得十分糾結)。這個演算法使用了好幾個參數。所以為了提高模型的表現，參數的調整十分必要。在解決實際問題的時候，有些問題是很難回答的——你需要調整哪些參數？這些參數要調到什麼值，才能達到理想的輸出？

這篇文章最適合剛剛接觸XGBoost的人閱讀。在這篇文章中，我們會學到參數調優的技巧，以及XGboost相關的一些有用的知識。以及，我們會用Python在一個數據集上實踐一下這個演算法。你需要知道的XGBoost(eXtreme Gradient Boosting)是Gradient Boosting演算法的一個優化的版本。特別鳴謝：我個人十分感謝Mr Sudalai Rajkumar (aka SRK)大神的支持，目前他在AV Rank中位列第二。如果沒有他的幫助，就沒有這篇文章。在他的幫助下，我們才能給無數的數據科學家指點迷津。給他一個大大的贊！內容列表1、XGBoost的優勢

2、理解XGBoost的參數

3、調整參數(含示例)1、XGBoost的優勢XGBoost演算法可以給預測模型帶來能力的提升。當我對它的表現有更多了解的時候，當我對它的高准確率背後的原理有更多了解的時候，我發現它具有很多優勢：1、正則化標准GBM的實現沒有像XGBoost這樣的正則化步驟。正則化對減少過擬合也是有幫助的。實際上，XGBoost以「正則化提升(regularized boosting)」技術而聞名。2、並行處理XGBoost可以實現並行處理，相比GBM有了速度的飛躍。不過，眾所周知，Boosting演算法是順序處理的，它怎麼可能並行呢？每一課樹的構造都依賴於前一棵樹，那具體是什麼讓我們能用多核處理器去構造一個樹呢？我希望你理解了這句話的意思。 XGBoost 也支持Hadoop實現。3、高度的靈活性XGBoost 允許用戶定義自定義優化目標和評價標准它對模型增加了一個全新的維度，所以我們的處理不會受到任何限制。4、缺失值處理XGBoost內置處理缺失值的規則。用戶需要提供一個和其它樣本不同的值，然後把它作為一個參數傳進去，以此來作為缺失值的取值。XGBoost在不同節點遇到缺失值時採用不同的處理方法，並且會學習未來遇到缺失值時的處理方法。5、剪枝當分裂時遇到一個負損失時，GBM會停止分裂。因此GBM實際上是一個貪心演算法。 XGBoost會一直分裂到指定的最大深度(max_depth)，然後回過頭來剪枝。如果某個節點之後不再有正值，它會去除這個分裂。這種做法的優點，當一個負損失（如-2）後面有個正損失（如+10）的時候，就顯現出來了。GBM會在-2處停下來，因為它遇到了一個負值。但是XGBoost會繼續分裂，然後發現這兩個分裂綜合起來會得到+8，因此會保留這兩個分裂。6、內置交叉驗證XGBoost允許在每一輪boosting迭代中使用交叉驗證。因此，可以方便地獲得最優boosting迭代次數。而GBM使用網格搜索，只能檢測有限個值。7、在已有的模型基礎上繼續XGBoost可以在上一輪的結果上繼續訓練。這個特性在某些特定的應用上是一個巨大的優勢。 sklearn中的GBM的實現也有這個功能，兩種演算法在這一點上是一致的。相信你已經對XGBoost強大的功能有了點概念。注意這是我自己總結出來的幾點，你如果有更多的想法，盡管在下面評論指出，我會更新這個列表的！2、XGBoost的參數XGBoost的作者把所有的參數分成了三類：

1、通用參數：宏觀函數控制。

2、Booster參數：控制每一步的booster(tree/regression)。

3、學習目標參數：控制訓練目標的表現。

在這里我會類比GBM來講解，所以作為一種基礎知識。通用參數這些參數用來控制XGBoost的宏觀功能。1、booster[默認gbtree]選擇每次迭代的模型，有兩種選擇：

gbtree：基於樹的模型

gbliner：線性模型2、silent[默認0]當這個參數值為1時，靜默模式開啟，不會輸出任何信息。一般這個參數就保持默認的0，因為這樣能幫我們更好地理解模型。3、nthread[默認值為最大可能的線程數]這個參數用來進行多線程式控制制，應當輸入系統的核數。如果你希望使用CPU全部的核，那就不要輸入這個參數，演算法會自動檢測它。

還有兩個參數，XGBoost會自動設置，目前你不用管它。接下來咱們一起看booster參數。booster參數盡管有兩種booster可供選擇，我這里只介紹tree booster，因為它的表現遠遠勝過linear booster，所以linear booster很少用到。1、eta[默認0.3]和GBM中的 learning rate 參數類似。通過減少每一步的權重，可以提高模型的魯棒性。典型值為0.01-0.2。2、min_child_weight[默認1]決定最小葉子節點樣本權重和。和GBM的 min_child_leaf 參數類似，但不完全一樣。XGBoost的這個參數是最小樣本權重的和，而GBM參數是最小樣本總數。這個參數用於避免過擬合。當它的值較大時，可以避免模型學習到局部的特殊樣本。但是如果這個值過高，會導致欠擬合。這個參數需要使用CV來調整。3、max_depth[默認6]和GBM中的參數相同，這個值為樹的最大深度。這個值也是用來避免過擬合的。max_depth越大，模型會學到更具體更局部的樣本。需要使用CV函數來進行調優。典型值：3-104、max_leaf_nodes樹上最大的節點或葉子的數量。可以替代max_depth的作用。因為如果生成的是二叉樹，一個深度為n的樹最多生成n2個葉子。如果定義了這個參數，GBM會忽略max_depth參數。5、gamma[默認0]在節點分裂時，只有分裂後損失函數的值下降了，才會分裂這個節點。Gamma指定了節點分裂所需的最小損失函數下降值。這個參數的值越大，演算法越保守。這個參數的值和損失函數息息相關，所以是需要調整的。6、max_delta_step[默認0]這參數限制每棵樹權重改變的最大步長。如果這個參數的值為0，那就意味著沒有約束。如果它被賦予了某個正值，那麼它會讓這個演算法更加保守。通常，這個參數不需要設置。但是當各類別的樣本十分不平衡時，它對邏輯回歸是很有幫助的。這個參數一般用不到，但是你可以挖掘出來它更多的用處。7、subsample[默認1]和GBM中的subsample參數一模一樣。這個參數控制對於每棵樹，隨機采樣的比例。減小這個參數的值，演算法會更加保守，避免過擬合。但是，如果這個值設置得過小，它可能會導致欠擬合。典型值：0.5-18、colsample_bytree[默認1]和GBM裡面的max_features參數類似。用來控制每棵隨機采樣的列數的佔比(每一列是一個特徵)。典型值：0.5-19、colsample_bylevel[默認1]用來控制樹的每一級的每一次分裂，對列數的采樣的佔比。我個人一般不太用這個參數，因為subsample參數和colsample_bytree參數可以起到相同的作用。但是如果感興趣，可以挖掘這個參數更多的用處。10、lambda[默認1]權重的L2正則化項。(和Ridge regression類似)。這個參數是用來控制XGBoost的正則化部分的。雖然大部分數據科學家很少用到這個參數，但是這個參數在減少過擬合上還是可以挖掘出更多用處的。11、alpha[默認1]權重的L1正則化項。(和Lasso regression類似)。可以應用在很高維度的情況下，使得演算法的速度更快。12、scale_pos_weight[默認1]在各類別樣本十分不平衡時，把這個參數設定為一個正值，可以使演算法更快收斂。學習目標參數這個參數用來控制理想的優化目標和每一步結果的度量方法。1、objective[默認reg:linear]這個參數定義需要被最小化的損失函數。最常用的值有：

binary:logistic 二分類的邏輯回歸，返回預測的概率(不是類別)。 multi:softmax 使用softmax的多分類器，返回預測的類別(不是概率)。

在這種情況下，你還需要多設一個參數：num_class(類別數目)。 multi:softprob 和multi:softmax參數一樣，但是返回的是每個數據屬於各個類別的概率。2、eval_metric[默認值取決於objective參數的取值]對於有效數據的度量方法。對於回歸問題，默認值是rmse，對於分類問題，默認值是error。典型值有：

rmse 均方根誤差(∑Ni=1?2N??????√) mae 平均絕對誤差(∑Ni=1|?|N) logloss 負對數似然函數值 error 二分類錯誤率(閾值為0.5) merror 多分類錯誤率 mlogloss 多分類logloss損失函數 auc 曲線下面積3、seed(默認0)隨機數的種子設置它可以復現隨機數據的結果，也可以用於調整參數如果你之前用的是Scikit-learn,你可能不太熟悉這些參數。但是有個好消息，python的XGBoost模塊有一個sklearn包，XGBClassifier。這個包中的參數是按sklearn風格命名的。會改變的函數名是：

1、eta ->learning_rate

2、lambda->reg_lambda

3、alpha->reg_alpha

你肯定在疑惑為啥咱們沒有介紹和GBM中的』n_estimators』類似的參數。XGBClassifier中確實有一個類似的參數，但是，是在標准XGBoost實現中調用擬合函數時，把它作為』num_boosting_rounds』參數傳入。調整參數(含示例)我已經對這些數據進行了一些處理：City變數，因為類別太多，所以刪掉了一些類別。 DOB變數換算成年齡，並刪除了一些數據。增加了 EMI_Loan_Submitted_Missing 變數。如果EMI_Loan_Submitted變數的數據缺失，則這個參數的值為1。否則為0。刪除了原先的EMI_Loan_Submitted變數。 EmployerName變數，因為類別太多，所以刪掉了一些類別。因為Existing_EMI變數只有111個值缺失，所以缺失值補充為中位數0。增加了 Interest_Rate_Missing 變數。如果Interest_Rate變數的數據缺失，則這個參數的值為1。否則為0。刪除了原先的Interest_Rate變數。刪除了Lead_Creation_Date，從直覺上這個特徵就對最終結果沒什麼幫助。 Loan_Amount_Applied, Loan_Tenure_Applied 兩個變數的缺項用中位數補足。增加了 Loan_Amount_Submitted_Missing 變數。如果Loan_Amount_Submitted變數的數據缺失，則這個參數的值為1。否則為0。刪除了原先的Loan_Amount_Submitted變數。增加了 Loan_Tenure_Submitted_Missing 變數。如果 Loan_Tenure_Submitted 變數的數據缺失，則這個參數的值為1。否則為0。刪除了原先的 Loan_Tenure_Submitted 變數。刪除了LoggedIn, Salary_Account 兩個變數增加了 Processing_Fee_Missing 變數。如果 Processing_Fee 變數的數據缺失，則這個參數的值為1。否則為0。刪除了原先的 Processing_Fee 變數。 Source前兩位不變，其它分成不同的類別。進行了量化和獨熱編碼(一位有效編碼)。如果你有原始數據，可以從資源庫裡面data_preparation的Ipython notebook 文件，然後自己過一遍這些步驟。首先，import必要的庫，然後載入數據。#Import libraries:

import pandas as pd

import numpy as np

import xgboost as xgb

from xgboost.sklearn import XGBClassifier

from sklearn import cross_validation, metrics #Additional scklearn functions

from sklearn.grid_search import GridSearchCV #Perforing grid search

import matplotlib.pylab as plt

%matplotlib inline

from matplotlib.pylab import rcParams

rcParams['figure.figsize'] = 12, 4

train = pd.read_csv('train_modified.csv')

target = 'Disbursed'

IDcol = 'ID'

注意我import了兩種XGBoost：xgb - 直接引用xgboost。接下來會用到其中的「cv」函數。 XGBClassifier - 是xgboost的sklearn包。這個包允許我們像GBM一樣使用Grid Search 和並行處理。在向下進行之前，我們先定義一個函數，它可以幫助我們建立XGBoost models 並進行交叉驗證。好消息是你可以直接用下面的函數，以後再自己的models中也可以使用它。def modelfit(alg, dtrain, predictors,useTrainCV=True, cv_folds=5, early_stopping_rounds=50):

if useTrainCV:

xgb_param = alg.get_xgb_params()

xgtrain = xgb.DMatrix(dtrain[predictors].values, label=dtrain[target].values)

cvresult = xgb.cv(xgb_param, xgtrain, num_boost_round=alg.get_params()['n_estimators'], nfold=cv_folds,

metrics='auc', early_stopping_rounds=early_stopping_rounds, show_progress=False)

alg.set_params(n_estimators=cvresult.shape[0])

#Fit the algorithm on the data

alg.fit(dtrain[predictors], dtrain['Disbursed'],eval_metric='auc')

#Predict training set:

dtrain_predictions = alg.predict(dtrain[predictors])

dtrain_predprob = alg.predict_proba(dtrain[predictors])[:,1]

#Print model report:

print " Model Report"

print "Accuracy : %.4g" % metrics.accuracy_score(dtrain['Disbursed'].values, dtrain_predictions)

print "AUC Score (Train): %f" % metrics.roc_auc_score(dtrain['Disbursed'], dtrain_predprob)

feat_imp = pd.Series(alg.booster().get_fscore()).sort_values(ascending=False)

feat_imp.plot(kind='bar', title='Feature Importances')

plt.ylabel('Feature Importance Score')

這個函數和GBM中使用的有些許不同。不過本文章的重點是講解重要的概念，而不是寫代碼。如果哪裡有不理解的地方，請在下面評論，不要有壓力。注意xgboost的sklearn包沒有「feature_importance」這個量度，但是get_fscore()函數有相同的功能。參數調優的一般方法。我們會使用和GBM中相似的方法。需要進行如下步驟：

選擇較高的學習速率(learning rate)。一般情況下，學習速率的值為0.1。但是，對於不同的問題，理想的學習速率有時候會在0.05到0.3之間波動。選擇對應於此學習速率的理想決策樹數量。XGBoost有一個很有用的函數「cv」，這個函數可以在每一次迭代中使用交叉驗證，並返回理想的決策樹數量。
2. 對於給定的學習速率和決策樹數量，進行決策樹特定參數調優(max_depth, min_child_weight, gamma, subsample, colsample_bytree)。在確定一棵樹的過程中，我們可以選擇不同的參數，待會兒我會舉例說明。
3. xgboost的正則化參數的調優。(lambda, alpha)。這些參數可以降低模型的復雜度，從而提高模型的表現。
4. 降低學習速率，確定理想參數。咱們一起詳細地一步步進行這些操作。第一步：確定學習速率和tree_based 參數調優的估計器數目。為了確定boosting 參數，我們要先給其它參數一個初始值。咱們先按如下方法取值：
1、max_depth = 5 :這個參數的取值最好在3-10之間。我選的起始值為5，但是你也可以選擇其它的值。起始值在4-6之間都是不錯的選擇。
2、min_child_weight = 1:在這里選了一個比較小的值，因為這是一個極不平衡的分類問題。因此，某些葉子節點下的值會比較小。
3、gamma = 0: 起始值也可以選其它比較小的值，在0.1到0.2之間就可以。這個參數後繼也是要調整的。
4、subsample,colsample_bytree = 0.8: 這個是最常見的初始值了。典型值的范圍在0.5-0.9之間。
5、scale_pos_weight = 1: 這個值是因為類別十分不平衡。
注意哦，上面這些參數的值只是一個初始的估計值，後繼需要調優。這里把學習速率就設成默認的0.1。然後用xgboost中的cv函數來確定最佳的決策樹數量。前文中的函數可以完成這個工作。#Choose all predictors except target IDcols
predictors = [x for x in train.columns if x not in [target,IDcol]]
xgb1 = XGBClassifier(
learning_rate =0.1,
n_estimators=1000,
max_depth=5,
min_child_weight=1,
gamma=0,
subsample=0.8,
colsample_bytree=0.8,
objective= 'binary:logistic',
nthread=4,
scale_pos_weight=1,
seed=27)
modelfit(xgb1, train, predictors)

從輸出結果可以看出，在學習速率為0.1時，理想的決策樹數目是140。這個數字對你而言可能比較高，當然這也取決於你的系統的性能。注意：在AUC(test)這里你可以看到測試集的AUC值。但是如果你在自己的系統上運行這些命令，並不會出現這個值。因為數據並不公開。這里提供的值僅供參考。生成這個值的代碼部分已經被刪掉了。<喎?"/kf/ware/vc/" target="_blank" class="keylink">="第二步-maxdepth-和-minweight-參數調優">第二步： max_depth 和 min_weight 參數調優我們先對這兩個參數調優，是因為它們對最終結果有很大的影響。首先，我們先大范圍地粗調參數，然後再小范圍地微調。

注意：在這一節我會進行高負荷的柵格搜索(grid search)，這個過程大約需要15-30分鍾甚至更久，具體取決於你系統的性能。你也可以根據自己系統的性能選擇不同的值。param_test1 = {

'max_depth':range(3,10,2),

'min_child_weight':range(1,6,2)

}

gsearch1 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=140, max_depth=5,

min_child_weight=1, gamma=0, subsample=0.8, colsample_bytree=0.8,

objective= 'binary:logistic', nthread=4, scale_pos_weight=1, seed=27),

param_grid = param_test1, scoring='roc_auc',n_jobs=4,iid=False, cv=5)

gsearch1.fit(train[predictors],train[target])

gsearch1.grid_scores_, gsearch1.best_params_, gsearch1.best_score_

4. -What's your favorite animal -Pandas 為什麼問題的謂語動詞是is，而回答時用了負數

你好！
因為問句中的animal使用的是單數。
在提問的時候，針對的種類，而且針對的是一種。因此animal用單數，謂語用is.
而回答的時候，針對一種動物，可以使用其單數回答，也可以使用其復數回答。
pandas
基本翻譯
n.
熊貓（panda復數形式）
網路釋義
Pandas:熊貓
僅代表個人觀點，不喜勿噴，謝謝。

5. python pandas 過濾某列特殊字元求助

改成r="\W"試試

6. 怎麼使用Python中Pandas庫Resample，實現重采樣，完成線性插值

#python中的pandas庫主要有DataFrame和Series類(面向對象的的語言更願意叫類) DataFrame也就是
#數據框(主要是借鑒R裡面的data.frame)，Series也就是序列，pandas底層是c寫的性能很棒，有大神
#做過測試處理億級別的數據沒問題，起性能可以跟同等配置的sas媲美
#DataFrame索引 df.loc是標簽選取操作，df.iloc是位置切片操作
print(df[['row_names','Rape']])
df['行標簽']
df.loc[行標簽,列標簽]
print(df.loc[0:2,['Rape','Murder']])
df.iloc[行位置,列位置]
df.iloc[1,1]#選取第二行，第二列的值，返回的為單個值
df.iloc[0,2],:]#選取第一行及第三行的數據
df.iloc[0:2,:]#選取第一行到第三行（不包含）的數據
df.iloc[:,1]#選取所有記錄的第一列的值，返回的為一個Series
df.iloc[1,:]#選取第一行數據，返回的為一個Series
print(df.ix[1,1]) # 更廣義的切片方式是使用.ix，它自動根據你給到的索引類型判斷是使用位置還是標簽進行切片
print(df.ix[0:2])
#DataFrame根據條件選取子集類似於sas裡面if、where ,R裡面的subset之類的函數
df[df.Murder>13]
df[(df.Murder>10)&(df.Rape>30)]
df[df.sex==u'男']
#重命名相當於sas裡面的rename R軟體中reshape包的中的rename
df.rename(columns={'A':'A_rename'})
df.rename(index={1:'other'})
#刪除列相當於sas中的drop R軟體中的test['col']<-null
df.drop(['a','b'],axis=1) or del df[['a','b']]
#排序相當於sas裡面的sort R軟體裡面的df[order(x),]
df.sort(columns='C') #行排序 y軸上
df.sort(axis=1) #各個列之間位置排序 x軸上
#數據描述相當於sas中proc menas R軟體裡面的summary
df.describe()
#生成新的一列跟R裡面有點類似
df['new_columns']=df['columns']
df.insert(1,'new_columns',df['B']) #效率最高
df.join(Series(df['columns'],name='new_columns'))
#列上面的追加相當於sas中的append R裡面cbind()
df.append(df1,ignore_index=True)
pd.concat([df,df1],ignore_index=True)
#最經典的join 跟sas和R裡面的merge類似跟sql裡面的各種join對照
merge()
#刪除重行跟sas裡面nokey R裡面的which(!plicated(df[])類似
df.drop_plicated()
#獲取最大值最小值的位置有點類似矩陣裡面的方法
df.idxmin(axis=0 ) df.idxmax(axis=1) 0和1有什麼不同自己摸索去
#讀取外部數據跟sas的proc import R裡面的read.csv等類似
read_excel() read_csv() read_hdf5() 等
與之相反的是df.to_excel() df.to_ecv()
#缺失值處理個人覺得pandas中缺失值處理比sas和R方便多了
df.fillna(9999) #用9999填充
#鏈接資料庫不多說 pandas裡面主要用 MySQLdb
import MySQLdb
conn=MySQLdb.connect(host="localhost",user="root",passwd="",db="mysql",use_unicode=True,charset="utf8")
read_sql() #很經典
#寫數據進資料庫
df.to_sql('hbase_visit',con, flavor="mysql", if_exists='replace', index=False)
#groupby 跟sas裡面的中的by R軟體中dplyr包中的group_by sql裡面的group by功能是一樣的這里不多說
#求啞變數
miper=pd.get_mmies(df['key'])
df['key'].join(mpier)
#透視表和交叉表跟sas裡面的proc freq步類似 R裡面的aggrate和cast函數類似
pd.pivot_table()
pd.crosstab()
#聚合函數經常跟group by一起組合用
df.groupby('sex').agg({'height':['mean','sum'],'weight':['count','min']})

#數據查詢過濾

test.query("0.2
將STK_ID中的值過濾出來
stk_list = ['600809','600141','600329']中的全部記錄過濾出來，命令是：rpt[rpt['STK_ID'].isin(stk_list)].
將dataframe中，某列進行清洗的命令
刪除換行符：misc['proct_desc'] = misc['proct_desc'].str.replace('\n', '')
刪除字元串前後空格：df["Make"] = df["Make"].map(str.strip)
如果用模糊匹配的話，命令是：
rpt[rpt['STK_ID'].str.contains(r'^600[0-9]{3}$')]

對dataframe中元素，進行類型轉換

df['2nd'] = df['2nd'].str.replace(',','').astype(int) df['CTR'] = df['CTR'].str.replace('%','').astype(np.float64)

#時間變換主要依賴於datemie 和time兩個包
http://www.2cto.com/kf/201401/276088.html
#其他的一些技巧
df2[df2['A'].map(lambda x:x.startswith('61'))] #篩選出以61開頭的數據
df2["Author"].str.replace("<.+>", "").head() #replace("<.+>", "")表示將字元串中以」<」開頭;以」>」結束的任意子串替換為空字元串
commits = df2["Name"].head(15)
print commits.unique(), len(commits.unique()) #獲的NAME的不同個數，類似於sql裡面count(distinct name)
#pandas中最核心最經典的函數apply map applymap

7. pandas怎麼過濾超過某一范圍的數據

應該是vlookup的典型使用, 用來檢索現有列表信息, 通過客戶名稱檢索該客戶的其他信息.假如A-C列是原始信息, 在E列進行查詢然後在F列顯示相應的信息E1輸入三元 F1輸入函數: =vlookup(E1,A:C,2) 得到的就是對應三元的B列的信息

8. python pandas 過濾某列特殊字元求助

漢字也被替換掉了:utf-8
import numpy as np
import pandas as pd
import re
df=pd。
#coding;cidnum'.keyword = df,';)
發現結果把所有的非數字及字母全部替換掉了;;keyword')
df;/, '.str,';'[^a-zA-Z0-9_\]
#將雙引號過濾掉
#將NA的替換掉g
df=df.keyword = df;;path'
df,'name'home/.keyword, '.replace(r;0'file_20150625'.fillna(')
r=u',header=None;cid'.str.lower()
i = 0
df, sep='.keyword，字母意外的所有特殊符號，數字;;u9fa5]'u4e00-\t'想過濾掉除文字。原因是什麼啊.read_csv('.columns=['，具體解決方案如下：

解決方案1：
改成r="\W"試試

解決方案2：
=u'u4e00-\[^a-zA-Z0-9_\u9fa5]'
解決方案3：
你自己先要確定「亂碼」的定義，例如韓文(unicode)，如果你裝了韓文字體，那是可以顯示的，不是亂碼，但沒裝的話就是問號一堆，如果是韓文
(euc-kr)，在漢字系統那隻是一堆無語義的漢字……可能這個舉例扯遠了，你覺得不會有這種情況，但我只是提醒一下會有意料之外的情況

所以，你需要一個白名單，把你允許的字元unicode范圍都列出來，因為肯定不止漢字，像你列出的文件名中就有空格
另外，沒必要逐個字元檢查，直接用re.sub去除白名單外的字元就可以了

9. -What's your favorite animal -Pandas 為什麼問題的謂語動詞是is，而回答時用了負數

前面是因為最喜歡的動物只有一種所以用is 後面是因為熊貓不止一隻你不可能只喜歡一隻熊貓吧是喜歡全部熊貓所以用復數

10. pandas怎麼根據一個數據框中的值過濾另一個數據框

選中A表的C6到C23 復制選中B表的C6 點擊選擇性粘貼中的粘貼鏈接(粘貼按鈕旁邊的小三角形)

導航:首頁 > 凈水問答 > 過濾負值求最小值pandas

過濾負值求最小值pandas

XGBoost參數調優完全指南（附Python代碼）

與過濾負值求最小值pandas相關的資料