最近看西瓜書機(jī)器學(xué)習(xí)的決策樹一章,覺得還蠻有意思的。R語言里面rpart包的rpart和prune函數(shù)都可以畫出決策樹。但是為了更好地理解這個(gè)過程,我參考了網(wǎng)上的文章,嘗試寫了一個(gè)特別特別簡(jiǎn)陋的code。
ID3算法是基于信息熵。信息熵是度量樣本集合純度最常用的指標(biāo)。假定當(dāng)前樣本集合S第k類樣本所占比例為pk,則S的信息熵定義為:
假定不同分支結(jié)點(diǎn)所包含樣本數(shù)不同,給分支結(jié)點(diǎn)賦予權(quán)重,即樣本數(shù)越多的分支結(jié)點(diǎn)的影響越大,可計(jì)算出屬性A對(duì)樣本集D進(jìn)行劃分獲得的“信息增益”:
機(jī)器學(xué)習(xí)還蠻有意思的。強(qiáng)推周志華大佬的機(jī)器學(xué)習(xí)。
聯(lián)系客服