九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
初學(xué)者該如何選擇合適的機(jī)器學(xué)習(xí)算法?
點(diǎn)擊上方關(guān)注,All in AI中國

在這篇文章中,您將了解可用于為您的機(jī)器學(xué)習(xí)問題選擇正確的機(jī)器學(xué)習(xí)算法的技巧和技巧。這些對于數(shù)據(jù)科學(xué)家或ML研究人員開始學(xué)習(xí)數(shù)據(jù)科學(xué)/機(jī)器學(xué)習(xí)主題非常有用。

基于以下內(nèi)容,可以選擇不同類別的機(jī)器學(xué)習(xí)算法來訓(xùn)練模型。

  • 數(shù)據(jù)的可用性
  • 特征數(shù)量

這篇文章講述了在以下不同的場景,同時解釋了機(jī)器學(xué)習(xí)算法,可以用來解決相關(guān)問題:

  • 特征數(shù)量多,數(shù)據(jù)量少
  • 特征數(shù)量少,數(shù)據(jù)量大
  • 特征數(shù)量眾多,數(shù)據(jù)量大
  • 大量特征,更少的數(shù)據(jù)量

對于具有大量特征但數(shù)據(jù)量較少的情況,可以使用以下某些機(jī)器學(xué)習(xí)算法:

  • 逐步的方法
  • 套索回歸分析
  • 支持向量機(jī)(SVM)

大量的特征通常會導(dǎo)致模型過度擬合。因此,在這種情況下的關(guān)鍵練習(xí)之一是執(zhí)行以下一項(xiàng)或兩項(xiàng):

  • 刪除較不重要的特征;可以使用特征選擇技術(shù)來實(shí)現(xiàn)相同的功能。
  • 應(yīng)用L1或L2正則化方法來懲罰與每個特征相關(guān)的權(quán)重。

您可以找到大量特征但數(shù)據(jù)量較少的示例之一是蛋白質(zhì)與蛋白質(zhì)的相互作用。在蛋白質(zhì)與蛋白質(zhì)的相互作用中,特征的數(shù)量可以是數(shù)百萬,但樣本大小可以是數(shù)千。

少量特征,大量數(shù)據(jù)

對于特征數(shù)量較少但數(shù)據(jù)量較大的場景,可以選擇以下某些機(jī)器學(xué)習(xí)算法:

  • 廣義線性模型(GLM)
  • 集成方法,例如裝袋、提升、AdaBoost
  • 深度學(xué)習(xí)

大數(shù)據(jù)的例子可以包括微陣列(基因表達(dá)數(shù)據(jù))、蛋白質(zhì)組學(xué)、腦圖像、視頻、特征數(shù)據(jù)、縱向數(shù)據(jù)、高頻金融數(shù)據(jù)、倉庫銷售等。

大量特征,大量數(shù)據(jù)

對于具有大量特征和大量數(shù)據(jù)的場景,主要關(guān)注點(diǎn)是數(shù)據(jù)處理和訓(xùn)練/測試模型的計(jì)算成本。以下代表了在構(gòu)建模型時可用于處理大量功能和相關(guān)數(shù)據(jù)集的一些技術(shù):

  • 隨機(jī)投影:一種用于減少位于歐幾里得空間中的一組點(diǎn)的維數(shù)的技術(shù);該技術(shù)用于將特征減少到最重要的特征。
  • 可變篩選:可變篩選方法用于選擇最重要的特征。
  • 子采樣:使用大型數(shù)據(jù)集,通過對數(shù)據(jù)集進(jìn)行二次采樣來節(jié)省計(jì)算成本。子采樣背后的想法是使模型適合子樣本并進(jìn)行同樣簡單的校正以獲得原始數(shù)據(jù)集的估計(jì)。然而,當(dāng)子采樣未能考慮具有類不平衡的不平衡數(shù)據(jù)集時,問題就出現(xiàn)了。如果小心,它可以幫助實(shí)現(xiàn)顯著的計(jì)算成本節(jié)省。以下代表不同類型的不平衡類數(shù)據(jù)集:
  • 邊際不平衡:表示一個或多個類的數(shù)據(jù)的數(shù)量非常少。舉個例子,假設(shè)每1000個正面例子,就有幾個負(fù)面例子。
  • 條件不平衡:對于特征集的最大值,預(yù)測比其他輸入特征集更容易和準(zhǔn)確。為了處理不平衡類問題,所使用的技術(shù)稱為病例對照采樣。
  • 病例對照采樣:病例對照采樣技術(shù)用于為每個類收集均勻樣本,同時調(diào)整類的混合。該技術(shù)用于降低訓(xùn)練邏輯回歸分類器的復(fù)雜性。該算法通過選擇原始數(shù)據(jù)集的小子樣本進(jìn)行訓(xùn)練來降低訓(xùn)練復(fù)雜度。通過對截距的簡單調(diào)整,可以將子樣本上擬合的邏輯回歸模型轉(zhuǎn)換為原始種群的有效模型。標(biāo)準(zhǔn)病例對照采樣仍然可能無法最有效地使用數(shù)據(jù)。它無法有效地利用略微平衡的數(shù)據(jù)集中的條件不平衡。
  • MapReduce
  • 分而治之

一旦處理了與大量特征或大量數(shù)據(jù)集相關(guān)的方面,就可以適當(dāng)?shù)厥褂萌缟纤龅牟煌惴ā?/p>

總結(jié)

在這篇文章中,您了解了不同機(jī)器學(xué)習(xí)算法的選擇標(biāo)準(zhǔn)以及基于許多特征和數(shù)據(jù)量的適當(dāng)數(shù)據(jù)處理技術(shù)。對于大量的特征和較小的數(shù)據(jù)量,可以選擇SVM、套索回歸方法、逐步方法等算法。對于較少數(shù)量的特征和較大量的數(shù)據(jù),可以選擇GLM、深度學(xué)習(xí)算法、集合方法等。對于更大量的特征和數(shù)據(jù),首先,建議將特征數(shù)量減少到最重要的特征,其次,使用子采樣技術(shù)來節(jié)省計(jì)算成本。然后可以應(yīng)用本文中描述的適當(dāng)?shù)腗L算法。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
機(jī)器學(xué)習(xí)項(xiàng)目的完整工作流程
常見的人工智能機(jī)器學(xué)習(xí)算法優(yōu)缺點(diǎn)
深度學(xué)習(xí)研究綜述
機(jī)器學(xué)習(xí):入門方法與學(xué)習(xí)路徑 (附資料)
透過現(xiàn)象看機(jī)器學(xué)習(xí):奧卡姆剃刀,沒有免費(fèi)的午餐,丑小鴨定理等
【華泰金工林曉明團(tuán)隊(duì)】人工智能選股框架及經(jīng)典算法簡介——華泰人工智能系列之一
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服