點(diǎn)擊上方關(guān)注,All in AI中國
在這篇文章中,您將了解可用于為您的機(jī)器學(xué)習(xí)問題選擇正確的機(jī)器學(xué)習(xí)算法的技巧和技巧。這些對于數(shù)據(jù)科學(xué)家或ML研究人員開始學(xué)習(xí)數(shù)據(jù)科學(xué)/機(jī)器學(xué)習(xí)主題非常有用。
基于以下內(nèi)容,可以選擇不同類別的機(jī)器學(xué)習(xí)算法來訓(xùn)練模型。
這篇文章講述了在以下不同的場景,同時解釋了機(jī)器學(xué)習(xí)算法,可以用來解決相關(guān)問題:
對于具有大量特征但數(shù)據(jù)量較少的情況,可以使用以下某些機(jī)器學(xué)習(xí)算法:
大量的特征通常會導(dǎo)致模型過度擬合。因此,在這種情況下的關(guān)鍵練習(xí)之一是執(zhí)行以下一項(xiàng)或兩項(xiàng):
您可以找到大量特征但數(shù)據(jù)量較少的示例之一是蛋白質(zhì)與蛋白質(zhì)的相互作用。在蛋白質(zhì)與蛋白質(zhì)的相互作用中,特征的數(shù)量可以是數(shù)百萬,但樣本大小可以是數(shù)千。
少量特征,大量數(shù)據(jù)
對于特征數(shù)量較少但數(shù)據(jù)量較大的場景,可以選擇以下某些機(jī)器學(xué)習(xí)算法:
大數(shù)據(jù)的例子可以包括微陣列(基因表達(dá)數(shù)據(jù))、蛋白質(zhì)組學(xué)、腦圖像、視頻、特征數(shù)據(jù)、縱向數(shù)據(jù)、高頻金融數(shù)據(jù)、倉庫銷售等。
大量特征,大量數(shù)據(jù)
對于具有大量特征和大量數(shù)據(jù)的場景,主要關(guān)注點(diǎn)是數(shù)據(jù)處理和訓(xùn)練/測試模型的計(jì)算成本。以下代表了在構(gòu)建模型時可用于處理大量功能和相關(guān)數(shù)據(jù)集的一些技術(shù):
一旦處理了與大量特征或大量數(shù)據(jù)集相關(guān)的方面,就可以適當(dāng)?shù)厥褂萌缟纤龅牟煌惴ā?/p>
總結(jié)
在這篇文章中,您了解了不同機(jī)器學(xué)習(xí)算法的選擇標(biāo)準(zhǔn)以及基于許多特征和數(shù)據(jù)量的適當(dāng)數(shù)據(jù)處理技術(shù)。對于大量的特征和較小的數(shù)據(jù)量,可以選擇SVM、套索回歸方法、逐步方法等算法。對于較少數(shù)量的特征和較大量的數(shù)據(jù),可以選擇GLM、深度學(xué)習(xí)算法、集合方法等。對于更大量的特征和數(shù)據(jù),首先,建議將特征數(shù)量減少到最重要的特征,其次,使用子采樣技術(shù)來節(jié)省計(jì)算成本。然后可以應(yīng)用本文中描述的適當(dāng)?shù)腗L算法。
聯(lián)系客服