九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
推薦 :計(jì)算學(xué)習(xí)理論簡(jiǎn)介
作者:Jason Brownlee  翻譯:陳超   校對(duì):王琦

本文長(zhǎng)度為3600字,建議閱讀10+分鐘
本文為大家介紹了如何使用計(jì)算學(xué)習(xí)理論研究機(jī)器學(xué)習(xí)任務(wù)和方法,并對(duì)其中比較重要的子領(lǐng)域PAC學(xué)習(xí)以及VC維進(jìn)行了簡(jiǎn)要介紹。

計(jì)算學(xué)習(xí)理論,或者說(shuō)統(tǒng)計(jì)學(xué)習(xí)理論,指的是量化學(xué)習(xí)任務(wù)和算法的數(shù)學(xué)框架。
 
對(duì)于機(jī)器學(xué)習(xí)領(lǐng)域的實(shí)踐者來(lái)說(shuō),想找到大多數(shù)問(wèn)題的優(yōu)質(zhì)解決方案,并不需要深度了解這些機(jī)器學(xué)習(xí)的子領(lǐng)域。盡管如此,在子領(lǐng)域中,對(duì)一些更重要的方法有一個(gè)較高水平的理解可能為數(shù)據(jù)中學(xué)習(xí)的更廣泛的任務(wù)中提供洞見。
 
在本文中,你將會(huì)發(fā)現(xiàn)一個(gè)對(duì)機(jī)器學(xué)習(xí)的計(jì)算學(xué)習(xí)理論的簡(jiǎn)要介紹。
 
在讀完本文之后,你將會(huì)了解到:

  • 計(jì)算學(xué)習(xí)理論使用形式化的方法研究學(xué)習(xí)任務(wù)和學(xué)習(xí)算法
  • PAC 學(xué)習(xí)提供了一個(gè)可以量化機(jī)器學(xué)習(xí)任務(wù)計(jì)算難度的方法
  • VC維提供了一種可以量化機(jī)器學(xué)習(xí)算法計(jì)算能力的方法
 
讓我們開始吧!

照片來(lái)自 someone10x,保留部分權(quán)利

教程概覽

本教程共分為三個(gè)部分,它們是:

  • 計(jì)算學(xué)習(xí)理論
  • PAC學(xué)習(xí)(學(xué)習(xí)問(wèn)題的理論)
  • VC維(學(xué)習(xí)算法的理論)

計(jì)算學(xué)習(xí)理論

計(jì)算學(xué)習(xí)理論(https://en.wikipedia.org/wiki/Computational_learning_theory),或者簡(jiǎn)稱CoLT,是與應(yīng)用于學(xué)習(xí)系統(tǒng)的形式化的數(shù)學(xué)方法的使用有關(guān)的研究領(lǐng)域。
 
它致力于尋找理論計(jì)算機(jī)科學(xué)工具來(lái)量化學(xué)習(xí)問(wèn)題,包括刻畫學(xué)習(xí)特定任務(wù)的難度。

計(jì)算學(xué)習(xí)理論可能被認(rèn)為是統(tǒng)計(jì)學(xué)習(xí)理論(或者簡(jiǎn)稱SLT,https://en.wikipedia.org/wiki/Statistical_learning_theory)的延伸或者說(shuō)是兄弟,兩者都是使用形式化的方法來(lái)量化學(xué)習(xí)算法。

  • 計(jì)算學(xué)習(xí)理論(CoLT):學(xué)習(xí)任務(wù)的形式化研究
  • 統(tǒng)計(jì)學(xué)習(xí)理論(SLT):學(xué)習(xí)算法的形式化研究
 
學(xué)習(xí)任務(wù)和學(xué)習(xí)算法之間的區(qū)分是十分武斷的,并且在實(shí)踐中,這兩個(gè)領(lǐng)域有很多重疊之處。
 
“當(dāng)你考慮到學(xué)習(xí)器的計(jì)算復(fù)雜度之后,就可以對(duì)統(tǒng)計(jì)學(xué)習(xí)理論進(jìn)行擴(kuò)展,從而得到一個(gè)新領(lǐng)域。這個(gè)領(lǐng)域被叫做計(jì)算學(xué)習(xí)理論或COLT?!?/span>
——第210頁(yè),《機(jī)器學(xué)習(xí):概率視角》,2012
 
它們可能在現(xiàn)代用法中被認(rèn)為是同義詞。
 
“……一個(gè)叫做計(jì)算學(xué)習(xí)理論的理論框架,有時(shí)也被叫做統(tǒng)計(jì)學(xué)習(xí)理論?!?/span>
——第344頁(yè),《模式識(shí)別與機(jī)器學(xué)習(xí)》,2006
 
計(jì)算學(xué)習(xí)理論主要關(guān)注于監(jiān)督學(xué)習(xí)任務(wù)。實(shí)際問(wèn)題和實(shí)際算法的形式化分析非常具有挑戰(zhàn)性。因此,通常通過(guò)關(guān)注二分類任務(wù)甚至簡(jiǎn)單的基于規(guī)則的二分類系統(tǒng)來(lái)降低分析的復(fù)雜度。因而對(duì)于實(shí)際問(wèn)題或算法的解釋,公理的應(yīng)用可能是有限且具有挑戰(zhàn)性的。
 
“在學(xué)習(xí)中,未被解決的主要問(wèn)題是:我們?nèi)绾未_定我們的學(xué)習(xí)算法已經(jīng)有一個(gè)會(huì)預(yù)測(cè)之前前未知輸入的正確值的假設(shè)呢?”
——第713頁(yè),《人工智能:一種現(xiàn)代方法》,第三版,2009
 
計(jì)算學(xué)習(xí)理論的問(wèn)題可能包括:

  • 如何得知模型對(duì)目標(biāo)函數(shù)有一個(gè)好的估計(jì)?
  • 應(yīng)該使用怎樣的假設(shè)空間?
  • 如何知道我們得到的是局部最優(yōu)解還是全局最優(yōu)解?
  • 如何避免過(guò)擬合?
  • 需要多少數(shù)據(jù)樣本?
 
作為一個(gè)機(jī)器學(xué)習(xí)的實(shí)踐者,知道計(jì)算學(xué)習(xí)理論以及一些主要的研究領(lǐng)域是非常有用的。這個(gè)領(lǐng)域?yàn)槲覀冊(cè)跀?shù)據(jù)上擬合模型時(shí)試圖實(shí)現(xiàn)的目標(biāo)提供了有用的基礎(chǔ),也可以提供對(duì)方法的洞見。
 
該研究有很多子領(lǐng)域,雖然計(jì)算學(xué)習(xí)理論研究中最常討論的兩個(gè)領(lǐng)域是:

  • PAC學(xué)習(xí)
  • VC維
 
簡(jiǎn)單來(lái)說(shuō),我們可以將PAC學(xué)習(xí)叫做機(jī)器學(xué)習(xí)問(wèn)題的理論,將VC維叫做機(jī)器學(xué)習(xí)算法的理論。
 
作為一個(gè)實(shí)踐者來(lái)說(shuō),以上提到的話題你可能都會(huì)遇到,那么對(duì)它們進(jìn)行初步的了解則是非常有必要的。讓我們仔細(xì)看一下。
 
如果你可以更加深入計(jì)算學(xué)習(xí)理論的領(lǐng)域,我推薦你看這本書。

  • 《計(jì)算學(xué)習(xí)理論導(dǎo)論》,1994
 
PAC學(xué)習(xí)(學(xué)習(xí)問(wèn)題的理論)

概率近似正確學(xué)習(xí)(Probably approximatelycorrect learning)或者叫做PAC學(xué)習(xí),指的是由Leslie Valiant提出的理論性的機(jī)器學(xué)習(xí)框架。
 
PAC學(xué)旨在把學(xué)習(xí)任務(wù)的難度量化,可以被認(rèn)為是計(jì)算學(xué)習(xí)理論的首要子領(lǐng)域。
考慮到在監(jiān)督學(xué)習(xí)中,我們?cè)噲D去近似一個(gè)未知的從輸入到輸出的潛在映射函數(shù)。我們不知道這個(gè)映射函數(shù)是什么樣的,但是我們假設(shè)它存在,并且我們具備一些由此函數(shù)生成的數(shù)據(jù)樣本。
 
PAC學(xué)習(xí)與查找未知目標(biāo)函數(shù)接近的假設(shè)(擬合模型)所需的計(jì)算量有關(guān)。
 
更多關(guān)于在機(jī)器學(xué)習(xí)中使用“假設(shè)”適用于擬合模型的內(nèi)容,請(qǐng)參考這個(gè)教程:

  • 什么是機(jī)器學(xué)習(xí)中的“假設(shè)”(https://machinelearningmastery.com/what-is-a-hypothesis-in-machine-learning/)?
 
我們的想法是一個(gè)差的假設(shè)會(huì)通過(guò)它在新的數(shù)據(jù)集上預(yù)測(cè)的結(jié)果表現(xiàn)出來(lái),例如,基于它的泛化誤差。
 
當(dāng)一個(gè)假設(shè)可以使得大部分或者大量的預(yù)測(cè)結(jié)果正確時(shí),例如,一個(gè)小的泛化誤差就很可能是對(duì)目標(biāo)函數(shù)好的近似。
 
“計(jì)算學(xué)習(xí)理論奠基的原理是,在輸入少量樣本后,任何嚴(yán)重錯(cuò)誤的假設(shè)幾乎一定會(huì)以較高的概率被“找出來(lái)”,因?yàn)樗赡軙?huì)做出不正確的預(yù)測(cè)。因此,任何與足夠大的訓(xùn)練數(shù)據(jù)集一致的假設(shè)不可能錯(cuò)很多:也就是說(shuō),它必定是概率近似正確的。”
——第714頁(yè),《人工智能:一種現(xiàn)代方法》,第三版,2009
 
這種概率性的語(yǔ)言給了這個(gè)定理起了名字:“概率近似正確”。也就是說(shuō),一個(gè)假設(shè)試圖“近似”一個(gè)目標(biāo)函數(shù),并且如果它的泛化誤差較低,該假設(shè)“很可能”是非常不錯(cuò)的。
 
PAC學(xué)習(xí)算法是指返回的假設(shè)是PAC的算法。
 
使用形式化的方法,可以確定一個(gè)監(jiān)督學(xué)習(xí)任務(wù)的最小泛化誤差。然后,該定理可用于從問(wèn)題領(lǐng)域中估計(jì)期望樣本的數(shù)量,這會(huì)被用來(lái)確定一個(gè)假設(shè)是否為PAC。也就是說(shuō),它為尋找PAC假設(shè)而估計(jì)樣本的數(shù)量提供了一種方法。
 
“PAC框架的目標(biāo)是了解要想獲得良好的泛化結(jié)果需要多大的數(shù)據(jù)集。它也為學(xué)習(xí)的計(jì)算成本提供了邊界……”
——第344頁(yè),《模式識(shí)別與機(jī)器學(xué)習(xí)》,2006
 
除此之外,如果一個(gè)算法可以在多項(xiàng)式時(shí)間(polynomial time)內(nèi)找到一個(gè)PAC假設(shè),那么該假設(shè)空間(機(jī)器學(xué)習(xí)算法)在PAC框架下是高效的。
 
“如果有一個(gè)多項(xiàng)式時(shí)間算法能夠識(shí)別出一個(gè)函數(shù)是 PAC的,那么我們就說(shuō)這個(gè)假設(shè)空間是高效的PAC可學(xué)習(xí)?!?/span>
——第210頁(yè),《機(jī)器學(xué)習(xí):概率視角》,2012
 
關(guān)于PAC學(xué)習(xí)更多的知識(shí),可以參考這個(gè)話題的開創(chuàng)性書籍:

  • 《大概近似正確:在復(fù)雜世界中學(xué)習(xí)和繁榮的自然算法》(ProbablyApproximately Correct: Nature’s Algorithms for Learning and Prospering in aComplex World), 2013


VC 維度(學(xué)習(xí)算法的理論)

Vapnik–Chervonenkis理論,簡(jiǎn)稱VC理論,指的是由 Vladimir Vapnik 和 AlexeyChervonenkis提出的理論的機(jī)器學(xué)習(xí)框架。
 
VC理論試圖將學(xué)習(xí)算法的能力進(jìn)行量化,并被認(rèn)為是統(tǒng)計(jì)學(xué)習(xí)理論首要的子領(lǐng)域。
 
VC理論涉及到很多內(nèi)容,最引人注目的是VC維。VC維將假設(shè)空間的復(fù)雜度量化,例如,給定一個(gè)表征和學(xué)習(xí)算法,模型可被擬合。

一種考量假設(shè)空間(可被擬合的模型空間)復(fù)雜度的方法是基于它所包含的不同假設(shè)的數(shù)量以及也許是操作空間的方式。VC維是一種非常巧妙的方法,它替代了目標(biāo)問(wèn)題的樣本數(shù)量,這些樣本可以通過(guò)空間假設(shè)來(lái)區(qū)分。
 
“VC維通過(guò)使用H完全區(qū)分X不同實(shí)例的數(shù)量來(lái)衡量假設(shè)空間的復(fù)雜度[……]”
——第214頁(yè),《機(jī)器學(xué)習(xí)》,1997
 
VC維估計(jì)了對(duì)特定數(shù)據(jù)集的分類機(jī)器學(xué)習(xí)算法的能力或容量(樣本的數(shù)量和維數(shù))。
 
形式化地說(shuō),VC維是來(lái)自算法可以“打散”的假設(shè)空間中訓(xùn)練集的最大樣本數(shù) 。
 
“定義在實(shí)例空間X上的假設(shè)空間H的Vapnik-Chervonenkis維度, 也就是VC(H),,是可被H打散的X的最大有限子集的大小”。
——第215頁(yè),《機(jī)器學(xué)習(xí)》,1997
 
無(wú)論是打散還是被打散的集合,在數(shù)據(jù)集當(dāng)中,都意味著特征空間中的點(diǎn)可以通過(guò)空間中的假設(shè)被選擇或彼此分離,從而使各個(gè)組的樣本的標(biāo)簽是正確的(無(wú)論它們是什么)。
 
一組點(diǎn)是否可以被一個(gè)算法打散取決于假設(shè)空間和點(diǎn)的數(shù)量。例如,一條線(假設(shè)空間)可被用于打散三個(gè)點(diǎn),但是卻不能用于四個(gè)點(diǎn)。

在帶有類標(biāo)簽0或1的二維平面上,任何放置的三個(gè)點(diǎn)都可以被標(biāo)簽用一條線“正確”分割,例如,打散。但是,平面上帶有二分類標(biāo)簽的放置的4個(gè)點(diǎn)則不能通過(guò)一條線進(jìn)行正確劃分,例如,不能被打散。取而代之的是另一種算法,例如橢圓。

下圖對(duì)此進(jìn)行了清晰的解釋。

線假設(shè)打散三個(gè)點(diǎn)以及橢圓打散四個(gè)點(diǎn)的例子
摘自《統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)》第81頁(yè),1999
 
因此,機(jī)器學(xué)習(xí)算法的VC維是算法的特定配置(超參數(shù))或特定的擬合模型可以打散的數(shù)據(jù)集中最多點(diǎn)的數(shù)量。
 
在所有情況下,預(yù)測(cè)相同值的分類器將會(huì)有一個(gè)值為0的VC維,也就是沒有點(diǎn)。較大的VC維表明算法非常靈活,盡管靈活性可能會(huì)以過(guò)擬合的額外風(fēng)險(xiǎn)作為代價(jià)。
VC維用于PAC學(xué)習(xí)框架的一部分。

PAC學(xué)習(xí)中的一個(gè)關(guān)鍵量是Vapnik-Chervonenkis 維,即VC維,它可以衡量函數(shù)空間的復(fù)雜度,并且可以將PAC框架擴(kuò)展到包含無(wú)數(shù)函數(shù)的空間。
——第344頁(yè),《模式識(shí)別與機(jī)器學(xué)習(xí)》,2006

了解更多關(guān)于PAC學(xué)習(xí)的知識(shí),可參這個(gè)主題的開創(chuàng)性書籍:

  • 《統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)》,1999


版權(quán)聲明:本號(hào)內(nèi)容部分來(lái)自互聯(lián)網(wǎng),轉(zhuǎn)載請(qǐng)注明原文鏈接和作者,如有侵權(quán)或出處有誤請(qǐng)和我們聯(lián)系。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
透過(guò)現(xiàn)象看機(jī)器學(xué)習(xí):奧卡姆剃刀,沒有免費(fèi)的午餐,丑小鴨定理等
什么是支持向量機(jī)--目前的研究熱點(diǎn)
學(xué)了統(tǒng)計(jì)、算法,如何正確應(yīng)用機(jī)器學(xué)習(xí)?
統(tǒng)計(jì)機(jī)器學(xué)習(xí)理論(轉(zhuǎn)自果殼科技)
【機(jī)器學(xué)習(xí)】學(xué)習(xí)能力不可被決定?
SVM入門(一)SVM的八股簡(jiǎn)介 - Jasper's Java Jacal - Blog...
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服