日日夜夜天天久久,影音先锋男人天堂,国产一区二区精品久久岳

GBDT與XGBOOST串講

InfoRich >《機(jī)器學(xué)習(xí)》

2022.04.11

關(guān)注

重磅干貨，第一時(shí)間送達(dá)

最近，一直被GBDT和XGBOOST煩惱，產(chǎn)生了如下的問題，由此產(chǎn)生了這篇文章。

XGBOOST怎么生成一棵樹？
GBDT算法是什么？
GBDT與BT(提升樹)是一回事嗎？

本篇文章結(jié)構(gòu):

Boosting Tree(提升樹)

提升樹是采用加法模型與前向分布算法進(jìn)行提升的，是基于殘差進(jìn)行訓(xùn)練的。提升樹分為回歸樹和二叉分類樹，對(duì)于分類問題就是分類樹(可以參考AdaBoost算法),對(duì)于回歸問題就是回歸樹。至于為什么叫“提升”樹？我的理解是因?yàn)槭?strong>加法模型，相加進(jìn)而為提升。

具體算法如下:

其中2.a步是計(jì)算殘差，2.b步通過把2.a的殘差當(dāng)作標(biāo)簽,可以使用線性回歸的方法進(jìn)行擬合殘差。通過M次循環(huán)一共得到M+1顆樹，每個(gè)輸入數(shù)據(jù)X的結(jié)果，是M+1棵樹預(yù)測(cè)的結(jié)果之和。

GB算法

當(dāng)提升樹的損失函數(shù)是平方損失和指數(shù)損失時(shí)，每一步優(yōu)化很簡(jiǎn)單；但是對(duì)于一般函數(shù)，優(yōu)化不是非常簡(jiǎn)單，因此采用梯度下降法進(jìn)行優(yōu)化。至于為什么是“梯度提升”，我的理解是首先基于當(dāng)前模型損失函數(shù)的負(fù)梯度信息進(jìn)行擬合形成新的弱分類器,然后根據(jù)殘差進(jìn)行尋找該新分類器的權(quán)重!由此，即為梯度提升!

具體算法如下:

第4步，使用梯度作為標(biāo)簽進(jìn)行擬合新的一棵樹；第5步是基于殘差進(jìn)行得到新的一顆樹的權(quán)重，其中殘差來自于第i個(gè)數(shù)據(jù)的標(biāo)簽y與前m-1棵樹的差得到的。其中F(x)表示前幾棵樹的總的函數(shù)。

GBDT算法

有了上面的GB算法介紹，那么使用決策樹作為弱分類器的GB算法被稱為GBDT(Gradient Boosting Decision Tree)。一般采用CART得到?jīng)Q策樹，CART是采用基尼指數(shù)作為決策樹的損失增益函數(shù)。基尼指數(shù)反應(yīng)了數(shù)據(jù)集D中任意兩個(gè)樣本不一致的概率。其基尼指數(shù)越高則數(shù)據(jù)集D的純度越高；純度越高正是決策樹每個(gè)葉子節(jié)點(diǎn)的類別越一致。信息熵和基尼指數(shù)都是《信息論》中的內(nèi)容。