先學(xué)習(xí)基礎(chǔ)知識,這部分主要參考阿里大學(xué)的在線課程《機(jī)器學(xué)習(xí)算法詳解》。
機(jī)器學(xué)習(xí)的一般過程為:
①從輸入數(shù)據(jù)中進(jìn)行特征工程,提取特征。輸入數(shù)據(jù)與特征之間可能不是一一對應(yīng),比如將連續(xù)型數(shù)值數(shù)據(jù)轉(zhuǎn)化為分類數(shù)據(jù)或等級數(shù)據(jù)。
②對于特征數(shù)據(jù)運用各種方法建模。
③檢驗?zāi)P偷恼_性。
④將模型運用于新的數(shù)據(jù),預(yù)測其輸出值。
⑤改進(jìn)模型。
輸入數(shù)據(jù)的集合稱為輸入空間,輸出的集合稱為輸出空間。整個機(jī)器學(xué)習(xí)的過程就是尋找一個由輸入空間到輸出空間的映射的過程。
機(jī)器學(xué)習(xí)的三要素是:模型、策略和算法。
模型是從輸入空間到輸入空間的映射。
策略是從假設(shè)空間中找到最適合輸入數(shù)據(jù)的模型的規(guī)則或?qū)W習(xí)標(biāo)準(zhǔn)。
算法是學(xué)習(xí)模型的具體計算方法。
要確定解決的問題,屬于哪種類型,在找相應(yīng)的模型。
策略要解決的問題:評估模型對單個樣本數(shù)據(jù),整個訓(xùn)練集以及包含二者的所有數(shù)據(jù)的預(yù)測效果。
指標(biāo):損失函數(shù),風(fēng)險函數(shù)。
基本策略:經(jīng)驗風(fēng)險最小,結(jié)構(gòu)風(fēng)險最小。
損失函數(shù):預(yù)測結(jié)果與真實結(jié)果的差值。為非負(fù)實值函數(shù)。記為L(Y, f(x))
①0-1函數(shù),若預(yù)測值與實際值相同,沒有損失,記為0。否則為有損失,記為1。
這要求過于嚴(yán)格,可采用差值小于某一閾值則為無損失。
絕對值損失函數(shù),預(yù)測值與實際值差的絕對值,簡單易懂,計算不變。
平方損失函數(shù),預(yù)測值與實際值差的平方。非負(fù),對于大誤差的懲罰大于小誤差。計算方便,導(dǎo)數(shù)為一次函數(shù)。
對數(shù)損失函數(shù),可以將乘法轉(zhuǎn)換為加法,簡化計算。
指數(shù)損失函數(shù),越接近正確結(jié)果損失越小。
折葉損失函數(shù)(鉸鏈損失),對于判定邊界附近的點的懲罰力度較大,常用于SVM。
不同的損失函數(shù)適用于不同的模型和場景。
經(jīng)驗風(fēng)險:衡量整個訓(xùn)練集的預(yù)測值與真實值的差異,整個訓(xùn)練集所有損失函數(shù)值之和。越小說明模型對訓(xùn)練集擬合程度越好。
風(fēng)險函數(shù)又稱期望風(fēng)險、期望損失,為所有數(shù)據(jù)集(包括訓(xùn)練集和預(yù)測集)的損失函數(shù)的期望值。
后者是對全局?jǐn)?shù)據(jù),前者是對局部數(shù)據(jù)。后者常無法計算,前者可以計算。訓(xùn)練集足夠大時,前者可以代替后者。樣本過小時,只關(guān)注經(jīng)驗風(fēng)險有過擬合的風(fēng)險。
結(jié)構(gòu)風(fēng)險:在經(jīng)驗風(fēng)險的基礎(chǔ)上增加一個正則項或懲罰項,該項等于一個大于0的系數(shù)乘以算法的復(fù)雜度。
經(jīng)驗風(fēng)險越小,越容易產(chǎn)生過擬合現(xiàn)象。為防止過擬合,要降低模型的復(fù)雜度。需要同時保證風(fēng)險函數(shù)與模型決策函數(shù)的復(fù)雜度都最小化。將二者結(jié)合為結(jié)構(gòu)風(fēng)險函數(shù)并使其最小。
懲罰項常用模型的參數(shù)向量的范數(shù)。
L0范數(shù),非零元素個數(shù)。
L1范數(shù),各個元素絕對值之和。
L2范數(shù),各元素平方和求平方根。
模型的誤差指模型預(yù)測值與真實值的差距。主要有過擬合與欠擬合兩種情況。過擬合指過度擬合訓(xùn)練集,而在真實數(shù)據(jù)上表現(xiàn)較差。欠擬合指在訓(xùn)練集上表現(xiàn)較差。通過訓(xùn)練集得到模型的過程稱為訓(xùn)練或?qū)W習(xí)。將模型應(yīng)用于訓(xùn)練集以外的數(shù)據(jù)中。由于往往無法獲得數(shù)據(jù)全集,常使用測試集來檢測模型的誤差。留取測試集有各種方法,原則是保證訓(xùn)練集與測試集無交叉,且二者分布相同。
不同的模型有不同的評價指標(biāo)。
常用假設(shè)檢驗來檢驗?zāi)P汀?/p>
偏差指根據(jù)樣本得到的模型的預(yù)測值與樣本真實值的差異。
方差指模型每次輸出值與模型輸出期望值之間的誤差,即模型的穩(wěn)定性。
模型越復(fù)雜,偏差越小,容易過擬合。模型越簡單,方差越小,欠擬合。
聯(lián)系客服