九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
推薦|關(guān)于機(jī)器學(xué)習(xí)算法 你必須了解的幾點(diǎn)內(nèi)容!

“全球人工智能”擁有十多萬AI產(chǎn)業(yè)用戶,10000多名AI技術(shù)專家+2000多名AI創(chuàng)業(yè)企業(yè)高管+1000多名AI產(chǎn)業(yè)投資者核心用戶來自:北大,清華,中科院,麻省理工,卡內(nèi)基梅隆,斯坦福,哈佛,牛津,劍橋......以及谷歌,騰訊,百度,臉譜,微軟,阿里,??低?,英偉達(dá)......等全球名校和名企。


數(shù)百位AI投資者喊你來融資>>

加入AI企業(yè)高管群>>

加入AI技術(shù)專家群>>

來源:wired 作者:Yael Gavish

摘要: 對(duì)學(xué)習(xí)算法進(jìn)行分類是基于構(gòu)建模型時(shí)所需的數(shù)據(jù):數(shù)據(jù)是否需要包括輸入和輸出或僅僅是輸入,需要多少個(gè)數(shù)據(jù)點(diǎn)以及何時(shí)收集數(shù)據(jù)。根據(jù)上述分類原則,可以分為4個(gè)主要的類別:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

我們上次已經(jīng)討論了機(jī)器學(xué)習(xí)能夠影響的業(yè)務(wù)類型?,F(xiàn)在,讓我們來回顧一下你需要了解的技術(shù)術(shù)語(yǔ),這樣你才能高效地與數(shù)據(jù)科學(xué)團(tuán)隊(duì)進(jìn)行合作,并協(xié)助他們,讓他們的工作成果可以對(duì)你的業(yè)務(wù)產(chǎn)生盡可能大的影響(或至少讓你知道他們?cè)谡f什么)。

第一、算法、模型和數(shù)據(jù)

從概念層面上來講,我們正在構(gòu)建一個(gè)機(jī)器,給這個(gè)機(jī)器一組輸入數(shù)據(jù),然后通過找到數(shù)據(jù)中的模式并從中學(xué)習(xí),能夠產(chǎn)生某種預(yù)期的輸出。

一種非常常見的情況就是讓機(jī)器在一組輸入數(shù)據(jù)中查找,然后產(chǎn)生相對(duì)應(yīng)的輸出數(shù)據(jù)。機(jī)器在輸入數(shù)據(jù)中識(shí)別出模式,并創(chuàng)建一組復(fù)雜的規(guī)則,然后將其應(yīng)用于以前從未見過的輸入并產(chǎn)生所需的輸出。例如,給定房屋的面積、地址和房間數(shù)(輸入),我們來預(yù)測(cè)房屋的銷售價(jià)格(輸出)。假設(shè)我們有10000組這樣的數(shù)據(jù),包括房屋的面積、地址、房間數(shù)量,以及銷售價(jià)格。則機(jī)器會(huì)基于這些數(shù)據(jù)“訓(xùn)練”自己,即識(shí)別出房間面積、地址、房間數(shù)影響房屋價(jià)格的模式,這樣,只要我們給出一個(gè)從未見過的房子的3個(gè)輸入項(xiàng),就可以預(yù)測(cè)出房子的價(jià)格了。

數(shù)據(jù)科學(xué)家的作用是找到給定輸入并能夠獲得預(yù)期輸出的最佳機(jī)器。她有多個(gè)模板,對(duì)于機(jī)器來說,稱之為**算法**。從這些模板中生成的解決具體問題的機(jī)器被稱為**模型**。模板有各種不同的選項(xiàng)和設(shè)置,可以通過調(diào)整這些選擇和設(shè)置來從同一模板生成不同的模型。還可以使用不同的模板或調(diào)整相同模板的設(shè)置來生成多個(gè)模型,以便測(cè)試出哪個(gè)模型能提供最佳結(jié)果。

請(qǐng)注意,模型輸出只是在一定概率上對(duì)決策是正確的或者有用的。模型并不是100%正確的,而是根據(jù)模型所看到的大量數(shù)據(jù)而進(jìn)行的“最佳猜測(cè)”。模型看到的數(shù)據(jù)越多,提供有用輸出的可能性就越大。

數(shù)據(jù)科學(xué)家用來“訓(xùn)練”機(jī)器的已知輸入和輸出集合(即讓模型識(shí)別數(shù)據(jù)中的模式并創(chuàng)建規(guī)則)叫做“**訓(xùn)練集**”。該數(shù)據(jù)用于與一個(gè)或多個(gè)“模板”一起創(chuàng)建用于解決問題的一個(gè)或多個(gè)模型。記住,即使只使用了一個(gè)“模板”(算法),也可以通過調(diào)整某些選項(xiàng)來從同一模板生成多個(gè)模型。

在得到了幾個(gè)“訓(xùn)練過”的模型之后,就必須對(duì)它們進(jìn)行檢查,看看它們是否能正常工作,哪一個(gè)最有效。用來檢查的一組新的數(shù)據(jù)稱為“**驗(yàn)證集**”。將驗(yàn)證集作為輸入,然后運(yùn)行模型,查看哪一個(gè)模型輸出的結(jié)果最接近驗(yàn)證集的輸出。在我們上面的例子中,就是看哪一種模型預(yù)測(cè)出來的房屋的價(jià)格與實(shí)際售價(jià)最接近。在這個(gè)階段中,需要有一組新的數(shù)據(jù)來作為驗(yàn)證集,因?yàn)檫@些模型是根據(jù)訓(xùn)練集創(chuàng)建的,所以它們?cè)谟?xùn)練集上能夠工作得很好,不會(huì)給出真實(shí)的結(jié)果。

一旦驗(yàn)證了哪種模型性能最佳并選擇了最優(yōu)者,我們的數(shù)據(jù)科學(xué)家就需要確定該模型的實(shí)際性能,也就是說,這個(gè)最好的模型在解決問題方面到底好到什么程度。再一次,我們需要另外一個(gè)新的數(shù)據(jù)集,因?yàn)槟P驮谟?xùn)練集和驗(yàn)證集上都能表現(xiàn)良好!這最后一個(gè)數(shù)據(jù)集稱為“**測(cè)試集**”。在我們的例子中,系統(tǒng)會(huì)檢查對(duì)于用測(cè)試集作為輸入預(yù)測(cè)出來的房?jī)r(jià)有多接近測(cè)試集的實(shí)際價(jià)格。

第二、“學(xué)習(xí)”的類型

應(yīng)用于解決機(jī)器學(xué)習(xí)問題的算法類型取決于你所擁有的數(shù)據(jù)。對(duì)學(xué)習(xí)算法進(jìn)行分類是基于構(gòu)建模型時(shí)所需的數(shù)據(jù):數(shù)據(jù)是否需要包括輸入和輸出或僅僅是輸入,需要多少個(gè)數(shù)據(jù)點(diǎn)以及何時(shí)收集數(shù)據(jù)。根據(jù)上述分類原則,可以分為4個(gè)主要的類別:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

1、監(jiān)督學(xué)習(xí)

我們?cè)谏弦还?jié)中詳細(xì)討論的案例描述了我們所說的“監(jiān)督學(xué)習(xí)”。這種學(xué)習(xí)類型需要有大量**標(biāo)記數(shù)據(jù)**示例,即由輸入和相應(yīng)的輸出組成的數(shù)據(jù)。在我們的房屋價(jià)格示例中,“標(biāo)記”是指用模型預(yù)測(cè)的結(jié)果來對(duì)輸入進(jìn)行標(biāo)記。

在監(jiān)督學(xué)習(xí)算法中可以看到標(biāo)記數(shù)據(jù)(也稱為“**參考標(biāo)準(zhǔn)**”數(shù)據(jù)),從這些數(shù)據(jù)中學(xué)習(xí)并根據(jù)這些實(shí)例進(jìn)行預(yù)測(cè)。他們需要大量的標(biāo)記數(shù)據(jù):雖然數(shù)據(jù)的數(shù)量取決于用例,但幾百個(gè)數(shù)據(jù)點(diǎn)是最起碼的。

使用監(jiān)督學(xué)習(xí)解決的兩個(gè)經(jīng)典問題是:

  • 回歸。根據(jù)其他明顯的數(shù)據(jù)集對(duì)變量產(chǎn)生的影響來推斷未知變量的值。在時(shí)間預(yù)測(cè)中有兩個(gè)常見用途。例如,我們之前的那個(gè)根據(jù)位置和面積等變量來預(yù)測(cè)住宅價(jià)格的例子,以及預(yù)測(cè)未來價(jià)格,例如,根據(jù)歷史和目前的價(jià)格數(shù)據(jù),預(yù)測(cè)房屋從現(xiàn)在到一年以后的價(jià)格。回歸是一種統(tǒng)計(jì)方法,它用于確定自變量(你已擁有的數(shù)據(jù))與其所需預(yù)測(cè)值的因變量之間的關(guān)系。

  • 分類。確定實(shí)體屬于多個(gè)類別中的哪一個(gè)類別。這可以是一個(gè)二元分類,例如,確定某個(gè)帖子是否會(huì)像病毒一樣傳播(是/否);也可以是多標(biāo)簽分類,例如,在產(chǎn)品照片上標(biāo)記合適的類別(可能有數(shù)百個(gè)類別)。

2、無監(jiān)督學(xué)習(xí)

在無監(jiān)督學(xué)習(xí)中,算法在試圖識(shí)別數(shù)據(jù)中模式的時(shí)候,無需使用預(yù)期結(jié)果來標(biāo)記數(shù)據(jù)集。數(shù)據(jù)是“未標(biāo)記的”,即沒有附加任何有意義的標(biāo)記。通過無監(jiān)督學(xué)習(xí)方法可以解決一些經(jīng)典問題:

  • 聚類給定某個(gè)相似性標(biāo)準(zhǔn),找出哪些與其他另外一個(gè)更相似。使用聚類的一個(gè)領(lǐng)域是文本搜索,例如,返回的搜索結(jié)果包含了很多非常相似的文檔。聚類可用來將它們進(jìn)行分組,讓用戶更方便地識(shí)別出差異較大的文檔。

  • 關(guān)聯(lián)。根據(jù)某種關(guān)系將對(duì)象分類到不同的桶中,這樣,桶中某個(gè)物體的存在預(yù)示著另一個(gè)物體也存在。比如類似于“買了xxx的人也買了yyy”這樣的推薦問題:如果對(duì)大量的購(gòu)物車進(jìn)行分析,則可以看出,購(gòu)物車中商品xxx的存在很有可能暗示著產(chǎn)品yyy也在購(gòu)物車中,那么,你可以立即向?qū)a(chǎn)品xxx放入購(gòu)物車的人推薦產(chǎn)品yyy。

  • 異常檢測(cè)在需要標(biāo)記和處理的數(shù)據(jù)中識(shí)別意外模式。標(biāo)準(zhǔn)的應(yīng)用范圍包括了對(duì)復(fù)雜系統(tǒng)的欺詐檢測(cè)和健康監(jiān)測(cè)。

3、半監(jiān)督學(xué)習(xí)

這是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)混合的結(jié)果,在這種“學(xué)習(xí)”中,算法需要一些訓(xùn)練數(shù)據(jù),但是比監(jiān)督學(xué)習(xí)的要少很多(可能要差一個(gè)數(shù)量級(jí))。其算法可以是在監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)中使用的方法的擴(kuò)展:分類、回歸、聚類、異常檢測(cè)等等。

4、強(qiáng)化學(xué)習(xí)

算法以有限的數(shù)據(jù)集開始,在學(xué)習(xí)的同時(shí),還可以獲得更多關(guān)于其預(yù)測(cè)的反饋信息,以進(jìn)一步改善學(xué)習(xí)效果。

正如你所看到的,除了要解決的問題類型外,你所擁有的數(shù)據(jù)量也會(huì)影響到你所能使用的學(xué)習(xí)方法。這也適用于另一種方式:你需要使用的學(xué)習(xí)方法可能需要比你現(xiàn)在擁有的更多的數(shù)據(jù),這樣才能有效地解決你的問題。我們稍后再討論這個(gè)。

第三、其他常見的“流行語(yǔ)”

在你的工作中,還會(huì)遇到其他一些術(shù)語(yǔ)。了解他們與我們今天談?wù)摰降念悇e之間的關(guān)系很重要。

1、深度學(xué)習(xí)與上面的那些定義并沒有什么關(guān)系。它只是應(yīng)用特定類型的系統(tǒng)來解決學(xué)習(xí)問題,其解決方案可以是監(jiān)督的,也可以是無監(jiān)督的,等等。

人工神經(jīng)網(wǎng)絡(luò)(ANN)是一種學(xué)習(xí)系統(tǒng),它試圖通過不同層上的“神經(jīng)”網(wǎng)絡(luò)來模擬我們大腦的工作方式。神經(jīng)網(wǎng)絡(luò)至少有一個(gè)輸入層(即數(shù)據(jù)被攝入網(wǎng)絡(luò)的一組神經(jīng)元),一個(gè)輸出層(將結(jié)果傳遞出來的神經(jīng)元)以及兩者之間的一個(gè)或多個(gè)層,稱為“隱藏層”(真正做計(jì)算工作的層)。深度學(xué)習(xí)只是使用具有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)來完成學(xué)習(xí)任務(wù)。如果你曾經(jīng)使用過這樣的網(wǎng)絡(luò),恭喜你,你也可以合理地扔掉這個(gè)時(shí)髦術(shù)語(yǔ)了!

2、集合方法或**綜合學(xué)習(xí)**是使用多個(gè)模型來獲得結(jié)果,這樣比利用單個(gè)模型獲得的結(jié)果要更好。這些模型可以采用不同的算法,或是使用不同參數(shù)的相同算法。比如,對(duì)于某種類型的預(yù)測(cè),你有一組模型,每一個(gè)模型都能產(chǎn)生一個(gè)預(yù)測(cè),有一些處理方法能夠平衡不同的預(yù)測(cè)結(jié)果,并決定應(yīng)該輸出什么樣的組合。集合方法通常用于監(jiān)督學(xué)習(xí)(它們?cè)陬A(yù)測(cè)問題中非常有用),但也可以用于無監(jiān)督學(xué)習(xí)。你的數(shù)據(jù)科學(xué)團(tuán)隊(duì)可能會(huì)測(cè)試這些方法,并在適當(dāng)?shù)臅r(shí)候使用它們。

3、自然語(yǔ)言處理(NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域的一門研究機(jī)器理解語(yǔ)言的學(xué)科。不是所有類型的NLP都使用機(jī)器學(xué)習(xí)。例如,如果我們生成一個(gè)“標(biāo)簽云”(一個(gè)詞出現(xiàn)在文本中的次數(shù)的視覺表示法),這就不涉及學(xué)習(xí)。對(duì)語(yǔ)言和文字的更加復(fù)雜的分析和理解往往需要機(jī)器學(xué)習(xí)。這里有一些例子:

  • 關(guān)鍵字生成。理解正文的主題并自動(dòng)為其創(chuàng)建關(guān)鍵字。

  • 語(yǔ)言歧義。從一個(gè)詞或一句句子的多種可能的解釋中確定相關(guān)的含義。

  • 情緒分析理解在文字中表達(dá)出來的情緒的積極或者消極的程度。

  • 命名實(shí)體提取在文本中識(shí)別公司、人員、地點(diǎn)、品牌等等;當(dāng)這些名稱并不特殊時(shí),要提取出來就會(huì)特別困難(例如,公司“微軟”比公司“目標(biāo)”更容易識(shí)別,因?yàn)椤澳繕?biāo)”是英文中的一個(gè)單字)。

NLP不僅用于機(jī)器學(xué)習(xí)領(lǐng)域里面向語(yǔ)言的應(yīng)用,例如chatbots,它也被廣泛用于準(zhǔn)備和預(yù)處理數(shù)據(jù),這樣,這些數(shù)據(jù)才能成為許多機(jī)器學(xué)習(xí)模型的有用輸入。我們稍后在討論這個(gè)。

請(qǐng)注意:上面的定義是為了表達(dá)其主要思想,讓大家更易理解;對(duì)于詳細(xì)的科學(xué)定義,請(qǐng)參考其他來源。

第四、如何針對(duì)問題選擇解決方案

用機(jī)器學(xué)習(xí)來實(shí)現(xiàn)的戰(zhàn)略目標(biāo)將決定許多下游決策。為了確保你的數(shù)據(jù)科學(xué)團(tuán)隊(duì)能為業(yè)務(wù)生成正確的解決方案,了解一些基本的機(jī)器學(xué)習(xí)概念及其對(duì)業(yè)務(wù)目標(biāo)的影響是非常重要的。

1、算法的選擇

在問題定義上的一個(gè)小變動(dòng)可能需要有一個(gè)完全不同的算法來解決,或者至少要使用不同的數(shù)據(jù)輸入來構(gòu)建不同的模型。一個(gè)能夠?yàn)橛脩糇R(shí)別照片類型的約會(huì)網(wǎng)站可以使用無監(jiān)督學(xué)習(xí)技術(shù)(比如聚類)來識(shí)別常見的主題。而如果要向特定的某個(gè)人推薦潛在的約會(huì)對(duì)象,則網(wǎng)站可能要使用基于輸入的監(jiān)督學(xué)習(xí),輸入數(shù)據(jù)需具體到個(gè)人,例如他們已經(jīng)看過的照片。

2、特征的選擇

機(jī)器學(xué)習(xí)模型識(shí)別數(shù)據(jù)中的模式。輸入到模型中的數(shù)據(jù)被組織成特征(也稱為變量或?qū)傩裕哼@些特征都是相關(guān)的、大部分獨(dú)立的數(shù)據(jù)片段,描述了你想要預(yù)測(cè)或識(shí)別的現(xiàn)象的某些方面。

以前文提到的那家希望優(yōu)先考慮貸款申請(qǐng)人外展服務(wù)的公司為例。如果我們將問題定義為“根據(jù)客戶轉(zhuǎn)換的可能性優(yōu)先考慮”,我們將會(huì)得到包括類似客戶對(duì)公司各種外展活動(dòng)的響應(yīng)率等特征。如果我們將問題定義為“優(yōu)先考慮最可能償還貸款的客戶”,我們就不會(huì)得到這些特征,因?yàn)樗鼈兣c評(píng)估客戶的可能性無關(guān)。

3、目標(biāo)函數(shù)的選擇

目標(biāo)函數(shù)是你要優(yōu)化的目標(biāo),或者是模型試圖預(yù)測(cè)的結(jié)果。例如,如果你向用戶推薦他們可能感興趣的商品,則模型的輸出可能是用戶在看到商品時(shí)點(diǎn)擊該商品的概率,也可能是用戶購(gòu)買商品的概率。目標(biāo)函數(shù)的選擇主要取決于業(yè)務(wù)目標(biāo),在這個(gè)例子中,你對(duì)用戶的參與感興趣(目標(biāo)函數(shù)可能是點(diǎn)擊或停留的時(shí)間)還是對(duì)營(yíng)業(yè)收入感興趣(目標(biāo)函數(shù)是購(gòu)買)?另一個(gè)要考慮的關(guān)鍵因素是數(shù)據(jù)的可用性:對(duì)于要學(xué)習(xí)的算法,你必須提供大量“標(biāo)記”為正(用戶看到并點(diǎn)擊的產(chǎn)品)或負(fù)(用戶看到的產(chǎn)品,但沒有點(diǎn)擊)的數(shù)據(jù)點(diǎn)。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
機(jī)器學(xué)習(xí)中的有標(biāo)注數(shù)據(jù)集和無標(biāo)注數(shù)據(jù)集
機(jī)器學(xué)習(xí)算法的四種分類及應(yīng)用
機(jī)器如何學(xué)習(xí)?5分鐘弄懂監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)
有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別
產(chǎn)品經(jīng)理,如何入門機(jī)器學(xué)習(xí)
從產(chǎn)品經(jīng)理向人工智能產(chǎn)品經(jīng)理進(jìn)階 | 機(jī)器學(xué)習(xí)必備知識(shí)
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服