九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
40道題檢測(cè)你的機(jī)器學(xué)習(xí)掌握程度



引言


人類對(duì)于自動(dòng)化和智能化的追求一直推動(dòng)著技術(shù)的進(jìn)步,而機(jī)器學(xué)習(xí)這類型的技術(shù)對(duì)各個(gè)領(lǐng)域都起到了巨大的作用。隨著時(shí)間的推移,我們將看到機(jī)器學(xué)習(xí)無處不在,從移動(dòng)個(gè)人助理到電子商務(wù)網(wǎng)站的推薦系統(tǒng)。即使作為一個(gè)外行,你也不能忽視機(jī)器學(xué)習(xí)對(duì)你生活的影響。


本次測(cè)試是面向?qū)C(jī)器學(xué)習(xí)有一定了解的人。參加測(cè)試之后,參與者會(huì)對(duì)自己的機(jī)器學(xué)習(xí)方面知識(shí)有更深刻的認(rèn)知。


目前,總共有1793 個(gè)參與者參與到了測(cè)試中。一個(gè)專門為機(jī)器學(xué)習(xí)做的測(cè)試是很有挑戰(zhàn)性的,我相信你們都已經(jīng)躍躍欲試,所以,請(qǐng)繼續(xù)讀下去。


那些錯(cuò)過測(cè)試的人,你們錯(cuò)過了一個(gè)極好的檢驗(yàn)自己的機(jī)會(huì)。但是,你也可以閱讀本文,看看能否解答下面問題的答案,這樣你也能收獲不少。


總體結(jié)果

下圖表示的是參與測(cè)試人的成績(jī)分布,這也許會(huì)幫助你評(píng)估你的測(cè)試成績(jī)。



你可以點(diǎn)擊這里來獲取所有得分。我們有超過600人參與到了技能測(cè)試中,最高分是28分,這里還有一些其他統(tǒng)計(jì)量。

平均數(shù) 14.42

中位數(shù) 16

眾數(shù) 17

另外,您的得分可能和通告欄上的不一樣,因?yàn)槲覀円瞥擞绣e(cuò)誤的問題,并且對(duì)每個(gè)人都重新打分了。

機(jī)器學(xué)習(xí)參考文獻(xiàn)

  1. Machine Learning basics for a newbie

  2. 16 New Must Watch Tutorials, Courses on Machine Learning

  3. Essentials of Machine Learning Algorithms


問題1:

在n維空間中,以下哪一個(gè)方法最適用于異常點(diǎn)檢測(cè)?

A.正態(tài)概率圖

B.盒圖

C.Mahalonobis 距離

D.散點(diǎn)圖

答案:C

Mahalonobis 距離是基于卡方分布的多變量異常的程度的統(tǒng)計(jì)量。更多內(nèi)容點(diǎn)擊此處。

問題2

線性回歸在以下哪些方面和多元回歸不一樣?

A. 它是專門用來預(yù)測(cè)一個(gè)事件的概率

B. 擬合優(yōu)度指數(shù)

C. 在回歸系數(shù)的估計(jì)方面

D. 以上所有

答案:D

A:線性回歸用來解決分類問題,我們可以計(jì)算出事件發(fā)生的概率

B:總體來說,擬合優(yōu)度測(cè)試是用來測(cè)量數(shù)據(jù)與模型的一致性,我們用邏輯回歸來檢驗(yàn)?zāi)P蛿M合程度。

C:擬合邏輯回歸模型之后,我們可以以他們的系數(shù)為目標(biāo),觀察獨(dú)立特征之間的關(guān)系(正相關(guān)或負(fù)相關(guān))。

問題3:

引導(dǎo)數(shù)據(jù)的意義是什么?

A.從M個(gè)總體中有放回的抽樣出m個(gè)特征

B.從M個(gè)總體中無放回的抽樣出m個(gè)特征

C.從N個(gè)總體中有放回的抽取n個(gè)樣本

D.從N個(gè)總體中無有放回的抽取n個(gè)樣本

答案:C

如果我們沒有足夠的數(shù)據(jù)來訓(xùn)練我們的算法,我們就可以從訓(xùn)練集中有放回的隨機(jī)重復(fù)一些數(shù)據(jù)項(xiàng)。

問題4

“過擬合只是監(jiān)督學(xué)習(xí)中的問題,對(duì)于無監(jiān)督學(xué)習(xí)影響不大”這句話是正確還是錯(cuò)誤

A.正確

B.錯(cuò)誤

答案:B

我們可以使用無監(jiān)督矩陣來評(píng)估一個(gè)無監(jiān)督機(jī)器學(xué)習(xí)算法。舉個(gè)例子,我們可以用“調(diào)整蘭德系數(shù)”來評(píng)估聚類模型。

問題5:

關(guān)于選擇k層交叉檢驗(yàn)中“k”的值,以下說法正確的是?

A.k并不是越大越好,更大的k會(huì)減慢檢驗(yàn)結(jié)果的過程

B.選擇更大的k會(huì)導(dǎo)致降低向真實(shí)期望錯(cuò)誤的傾斜

C.選擇總是能最小化交叉驗(yàn)證中的方差的k

D.以上所有

答案:D

更大的k會(huì)減少過高估計(jì)了真正的預(yù)期誤差的情況(因?yàn)橛?xùn)練層更接近總體數(shù)據(jù)集),但是會(huì)帶來更長(zhǎng)的運(yùn)行時(shí)間(因?yàn)檫@樣會(huì)接近留一交叉的極限情況),當(dāng)選擇k的時(shí)候,我們也要考慮k層精度之間的方差。

問題6:

回歸模型具有多重共線性效應(yīng),在不損失太多信息的情況下如何應(yīng)對(duì)這種情況?

  1. 去除所有共線變量1.去除所有共線變量

  2. 去除一個(gè)變量而不是都去掉

  3. 我們可以計(jì)算VIF(方差膨脹因子)來檢驗(yàn)多重共線性效應(yīng),然后根據(jù)情況處理

  4. 去除相關(guān)的變量可能會(huì)導(dǎo)致信息的丟失。為了保證數(shù)據(jù)的完整性,我們應(yīng)該選取比如嶺回歸和套索回歸等懲罰回歸模型。

以上那些是正確的?

A. 1

B. 2

C. 2 和3

D. 2,3 和 4

答案:D

為了檢查多重共線性,我們可以創(chuàng)建一個(gè)相關(guān)矩陣來識(shí)別和刪除具有75%相關(guān)性的變量(閾值的選擇是主觀的)。此外,我們使用VIF(方差膨脹因子)來檢查多重共線性,如果VIF小于4表示沒有多重共線性,如果大于10則表示嚴(yán)重的多重共線性。我們也可以使用一個(gè)寬容量作為多重共線性的指數(shù)。

但是,移除相關(guān)變量會(huì)導(dǎo)致信息的損失。為了保證數(shù)據(jù)的完整性,我們應(yīng)該選取比如嶺回歸和套索回歸等懲罰回歸模型。我們也可以在變量中增加隨機(jī)噪聲,這樣數(shù)據(jù)會(huì)變得不一樣。但是這種方法會(huì)降低預(yù)測(cè)的準(zhǔn)確性,所以要慎用。

問題7:

評(píng)估完模型后,我們發(fā)現(xiàn)模型中有很高的偏差。我們?cè)鯓觼頊p少這個(gè)偏差?

A.減少模型中特征的數(shù)量

B.增加模型中特征的數(shù)量

C.增加模型中的數(shù)據(jù)點(diǎn)

D.B和C

E.以上所有

答案:B

如果模型偏差大,說明模型相對(duì)過于簡(jiǎn)單。我們可以在特征空間中增加更多的特征來提高模型的魯棒性。增加數(shù)據(jù)點(diǎn)也會(huì)減少方差。

問題8:

當(dāng)我們建立基于決策樹的模型時(shí),我們將有最高信息增益的節(jié)點(diǎn)分離出來作為屬性, 在下圖中,哪一個(gè)屬性有最高的信息增益?



A. Outlook

B. Humidity

C. Windy

D. Temperature

答案:A

信息增益隨子集平均純度的增加而增加。要了解信息增益的計(jì)算,點(diǎn)這里閱讀。你也可以查看這張幻燈片。

問題9:在決策樹中,當(dāng)一個(gè)節(jié)點(diǎn)分叉的時(shí)候,以下關(guān)于“信息增益”正確的是?

  1. 不純的節(jié)點(diǎn)越少,越需要更多的信息來描述種群

  2. 信息增益可以用熵作為“1-Entropy”來推導(dǎo)

  3. 信息增益偏向于數(shù)值大的屬性

A. 1

B. 2

C. 2 和3

D. 都正確

答案:C

想了解詳情,請(qǐng)閱讀這篇文章和這個(gè)幻燈片。

問題10:使用SVM模型遇到了欠擬合的問題,以下哪個(gè)選項(xiàng)能提高模型性能?

A.增加懲罰參數(shù)“C”

B.減少懲罰參數(shù)

C.減少核系數(shù)(gamma的值)

答案:A

如果是欠擬合情況,我們需要增加模型的復(fù)雜性,如果我們?cè)龃驝,則意味著決策邊界變復(fù)雜,所以A是正確答案。

問題11:

假如我們已經(jīng)畫出SVM算法中的不同點(diǎn)的gamma值(Kernel coefficient)。但由于一些原因,我們沒有在可視化界面中顯示出來。在這種情況下,以下哪個(gè)選項(xiàng)最好的解釋了三張圖的gamma值關(guān)系(圖中從左向右分別是圖1,、圖2、圖3,對(duì)應(yīng)的gamma值分別是g1,、g2、g3)。



A. g1 > g2 > g3

B. g1 = g2 = g3

C. g1 < g2=""><>

D. g1 >= g2 >= g3

E. g1 <= g2=""><=>

答案:C

如果gamma值高,則會(huì)盡全力去擬合數(shù)據(jù)集中的每一條數(shù)據(jù),會(huì)帶來過擬合問題。所以最合適的選項(xiàng)是C。

問題12:

我們?cè)诮鉀Q一個(gè)分類問題(二值分類預(yù)測(cè))。然而,我們并不是要得到0或1的真實(shí)結(jié)果,而是要獲取每一個(gè)類的概率?,F(xiàn)在假設(shè)我有一個(gè)概率模型,并且使用一個(gè)0.5的閾值來預(yù)測(cè)結(jié)果,如果概率大于等于0.5,則認(rèn)為是1,如果小于0.5,我們則認(rèn)為是0。如果我們使用一個(gè)比0.5高的閾值,一下哪條最合適?

  1. 增加閾值那么分類器會(huì)有相同或者更低的查對(duì)率

  2. 增加閾值分類器會(huì)有更高的查對(duì)率

  3. 增加閾值會(huì)有相同或者更高的準(zhǔn)確率

  4. 增加閾值會(huì)有更低的準(zhǔn)確率

A. 1

B. 2

C. 1和 3

D. 2和 4

E. 無

答案:C

想了解調(diào)整閾值對(duì)查對(duì)率和準(zhǔn)確率的影響,請(qǐng)參考這篇文章。

問題13:

當(dāng)使用比例失調(diào)的數(shù)據(jù)(數(shù)據(jù)集中99%的negative class和1%的positive class)進(jìn)行“點(diǎn)擊率”預(yù)測(cè)的時(shí)候,假如我們的準(zhǔn)確率是99%,那么我們的結(jié)論是?

準(zhǔn)確率很高,我們不用再做任何工作。

B.準(zhǔn)確率不夠好,我們需要嘗試構(gòu)建一個(gè)更好的模型

C.無法判斷這個(gè)模型

D.以上都不正確

答案:B

當(dāng)使用不平衡數(shù)據(jù)集的時(shí)候,準(zhǔn)確率不能作為性能的指標(biāo),因?yàn)?9%(正如上文提到的)可能只是預(yù)測(cè)多數(shù)類別正確,但是往往重要的是少數(shù)的類(1%)。因此,對(duì)于這樣的模型,我們應(yīng)該使用敏感性和特異性來描述分類器的性能。如果占少數(shù)的類別預(yù)測(cè)不準(zhǔn)的話,我們需要采取一些必要的措施。更多不平衡分類問題,可以參考這篇文章。

問題14:

比方說,我們使用KNN訓(xùn)練觀測(cè)數(shù)據(jù)較少的模型(以下是訓(xùn)練數(shù)據(jù)的快照,x和y分別表示兩個(gè)屬性,“+”“o”分別表示兩種標(biāo)簽)。已知k=1,leave one out 交叉驗(yàn)證的錯(cuò)誤率會(huì)是多少。



A. 0%

B. 100%

C. 從0 到 100%

D. 以上沒有

答案:B

在Leave-One-Out交叉驗(yàn)證中,我們選取n-1條觀測(cè)量作為訓(xùn)練集,1條觀測(cè)量用來驗(yàn)證。如果把每個(gè)點(diǎn)作為交叉驗(yàn)證點(diǎn)并找到最近的點(diǎn)總會(huì)得到相反的類別。所以錯(cuò)誤率是100%。

問題15:

當(dāng)我們使用大數(shù)據(jù)集進(jìn)行決策樹訓(xùn)練的時(shí)候,一下哪個(gè)選項(xiàng)可以用來減少訓(xùn)練時(shí)間?

  1. 增加樹的深度

  2. 增加學(xué)習(xí)率

  3. 減少樹的深度

  4. 減少樹的數(shù)量

A. 2

B. 1 and 2

C. 3

D. 3 和 4

E. 2 和 3

F. 2, 3 和 4

答案:C

如果決策樹的參數(shù)是固定的話,我們可以考慮以下的選項(xiàng)。

增加深度會(huì)導(dǎo)致所有節(jié)點(diǎn)擴(kuò)張,因此增加深度會(huì)導(dǎo)致時(shí)間變長(zhǎng)。

在單一決策樹種,學(xué)習(xí)率是不能作為一個(gè)可調(diào)整的參數(shù)的。

使用決策樹時(shí),我們只會(huì)建一顆樹。

問題16:

關(guān)于神經(jīng)網(wǎng)絡(luò),一下那種說法是正確的?

  1. 在測(cè)試數(shù)據(jù)中增加層數(shù)可能會(huì)增加分類錯(cuò)誤

  2. 在測(cè)試數(shù)據(jù)中減少層數(shù)總會(huì)減少分類錯(cuò)誤

  3. 在測(cè)試數(shù)據(jù)中增加層數(shù)總會(huì)減少分類錯(cuò)誤

A.1

B.1和3

C.1 和2

D. 2

答案:A

通常來說,增加層數(shù)會(huì)讓模型更加一般化,所以它將會(huì)在訓(xùn)練集和測(cè)試集上都表現(xiàn)更優(yōu)異。但這個(gè)不是真理,在這篇文章中,筆者發(fā)現(xiàn)深層的網(wǎng)絡(luò)比淺層的網(wǎng)絡(luò)有更高的錯(cuò)誤率。所以選項(xiàng)2和3都是錯(cuò)誤的,因?yàn)檫@個(gè)假設(shè)不總是正確的,而1只是說可能是正確的。

問題17:

假設(shè)我們使用原始的非線性可分離SVM最優(yōu)化目標(biāo)函數(shù),我們做什么可以保證結(jié)果是線性可分的?

A. C = 1

B. C = 0

C. C = 無窮大

D.以上沒有正確答案

答案C:

如果我們使用原始的非線性可分離SVM最優(yōu)化目標(biāo)函數(shù),我們需要將C設(shè)置成無窮大來保證結(jié)果是線性可分的。因此C是正確答案。

問題18:

訓(xùn)練完SVM之后,我們可以丟掉所以不支持向量的樣本而不影響對(duì)新的樣本進(jìn)行分類。

A.正確

B.錯(cuò)誤

答案:A

這是正確的,因?yàn)橹挥兄С窒蛄繒?huì)影響邊界。

問題19:

以下哪些算法可以借助神經(jīng)網(wǎng)絡(luò)來構(gòu)建?

  1. K-NN

  2. 線性回歸

  3. 邏輯回歸

A.1 和2

B.2 和 3

C.1, 2 和 3

D.無

答案:B

  1. KNN是一個(gè)機(jī)遇實(shí)例的學(xué)習(xí)方法,它沒有用來訓(xùn)練的參數(shù),所以它不能用神經(jīng)網(wǎng)絡(luò)來構(gòu)建

  2. 神經(jīng)網(wǎng)絡(luò)的最簡(jiǎn)單形式就是最小二乘回歸。

  3. 神經(jīng)網(wǎng)絡(luò)和邏輯回歸有關(guān)。主要在于,我們可以把邏輯回歸看成一層神經(jīng)網(wǎng)絡(luò)。

問題20:

請(qǐng)選擇可以用來實(shí)施隱馬爾可夫模型的數(shù)據(jù)集。

A.基因序列數(shù)據(jù)集

B.電影評(píng)論數(shù)據(jù)集

C.股票價(jià)格數(shù)據(jù)集

D.以上所有

答案D:

以上所有的數(shù)據(jù)集都可以用隱馬爾可夫模型。

問題21:

我們想在在一個(gè)百萬級(jí)的數(shù)據(jù)集上構(gòu)建機(jī)器學(xué)習(xí)模型,每條數(shù)據(jù)有5000個(gè)特征??墒怯?xùn)練這么大量的數(shù)據(jù)集會(huì)有很多困難,一下哪些步驟可以有效地訓(xùn)練模型?

A.我們可以從數(shù)據(jù)集中隨機(jī)選取一些樣本,在樣本上構(gòu)建模型

B.我們可以嘗試聯(lián)機(jī)機(jī)器學(xué)習(xí)算法

C.我們可以用主成分分析來減少特征

D.B和C

E.A和B

F.以上所有

答案:F

在一個(gè)內(nèi)存有限的機(jī)器上處理高維數(shù)據(jù)是一項(xiàng)非常費(fèi)力的工作。以下的方法可以用來應(yīng)對(duì)這樣的情況。

我們可以采取隨機(jī)采樣的方式,這意味著我們創(chuàng)建一個(gè)更小的數(shù)據(jù)集。舉個(gè)例子來說,我們可以抽取300000條數(shù)據(jù),每條有1000個(gè)特征然后再進(jìn)行計(jì)算。

我們可以使用展示在Vowpal Wabbit中的聯(lián)機(jī)學(xué)習(xí)算法

我們可以使用主成分析來選取能反映最大方差的部分。

因此所有的都是正確的。

問題22:

我們想減少數(shù)據(jù)的特征,以下哪些做法是合適的?

  1. 使用預(yù)選的方式

  2. 使用向后消除的方式

  3. 首先使用所有特征來計(jì)算模型的準(zhǔn)確度。我們選擇一個(gè)特征,然后將測(cè)試集的該特征的數(shù)值都打亂,然后對(duì)打亂過的數(shù)據(jù)集進(jìn)行預(yù)測(cè)。經(jīng)過對(duì)預(yù)測(cè)模型的分析,如果模型準(zhǔn)確率提高,則刪掉這個(gè)屬性

  4. 查找關(guān)聯(lián)性表,關(guān)聯(lián)性高的特征就可以去掉

A. 1和2

B. 2, 3和 4

C. 1, 2 和4

D. 以上所有

答案:D

l預(yù)選和向后消除是特征選擇的兩個(gè)常用的主要方法。

l如果不用上面的兩種方法,我們也可以選擇3中所說的方法,這種方法應(yīng)對(duì)大數(shù)據(jù)量時(shí)非常有效。

l我們也可以使用基于特征選擇的關(guān)聯(lián)分析,然后去除共線性特征。

問題23:

關(guān)于隨機(jī)森林和梯度提升樹,請(qǐng)選擇正確的選項(xiàng)。

  1. 在隨機(jī)森林中,中間樹互相不獨(dú)立,而在梯度回歸樹中,中間樹相互獨(dú)立。

  2. 他們都使用隨機(jī)特征子集來構(gòu)建中間樹。

  3. 在梯度提升樹的情況下我們可以生成并行樹,因?yàn)闃浠ハ嗒?dú)立。

  4. 梯度提升樹在任何數(shù)據(jù)集上都比隨機(jī)森林要好。

A. 2

B. 1 和 2

C. 1, 3 和 4

D. 2 和 4

答案 A:

  1. 隨機(jī)森林是基于bagging而梯度提升是基于boosting

  2. 這兩種算法都使用隨機(jī)特征子集來構(gòu)建中間樹

  3. 由于隨機(jī)森林的中間樹互相獨(dú)立,因此算法可以并行,而梯度提升樹則不可能。

  4. 這個(gè)不是絕對(duì)的,不同數(shù)據(jù)結(jié)果不同。

問題24:

對(duì)于主成分析轉(zhuǎn)換的特征,樸素貝葉斯的基本假設(shè)是成立的,因?yàn)橹鞒啥际钦坏?,因此是無關(guān)的。這句話正確么?

A.正確

B.錯(cuò)誤

答案:B

這句話是錯(cuò)誤的。首先,不相關(guān)不等同于獨(dú)立。第二,轉(zhuǎn)換過的特征也不一定是不相關(guān)的。

問題25:

以下關(guān)于主成分析哪些是正確的?

  1. 在PCA前必須將數(shù)據(jù)標(biāo)準(zhǔn)化

  2. 我們應(yīng)該選擇說明最高方差的主成分

  3. 我們應(yīng)該選擇說明最低方差的主成分

  4. 我們可以用PCA來可視化低維數(shù)據(jù)

A. 1, 2 和4

B. 2 和 4

C. 3 和 4

D. 1 和 3

E. 1, 3 和 4

答案:A

lPCA 對(duì)數(shù)據(jù)中變量的大小是敏感的,所以在PCA之前必須要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。舉個(gè)例子,如果我們將一個(gè)變量的單位從km改成cm,該變量可能會(huì)從影響很小一躍成為主成分。

l第二條是正確的,因?yàn)槲覀兛偸沁x擇最大方差的主成分。

l有時(shí)候用低維來畫出數(shù)據(jù)是十分有效地。我們可以選擇前二的主成分,然后用散點(diǎn)圖來描繪數(shù)據(jù)。

問題26:

在下圖中的主成分的最佳數(shù)目是多少?



A. 7

B. 30

C. 35

D.不確定

答案:B

在上圖中,成分?jǐn)?shù)為30時(shí)候就達(dá)到了最大的方差,所以選擇B

問題27:

數(shù)據(jù)科學(xué)家經(jīng)常使用混合算法來做預(yù)測(cè),然后將混合算法的結(jié)果合并(也叫集成學(xué)習(xí))。這些混合算法的輸出更加健壯且具有一般性,而且比任何一種單一模型都要準(zhǔn)確。以下哪些選項(xiàng)是正確的?

A. 基礎(chǔ)模型有更高的相關(guān)性

B. 基礎(chǔ)模型有更低的相關(guān)性

C. 使用平均加權(quán)而不是投票的方式來集成

D. 基礎(chǔ)模型源自相同的算法

答案B:

請(qǐng)參閱下面的集成指南來了解細(xì)節(jié)

Basics of Ensemble Learning Explained in Simple English

Kaggle Ensemble Guide

Easy questions on Ensemble Modeling everyone should know

問題28:

我們?nèi)绾卧诒O(jiān)督的機(jī)器學(xué)習(xí)挑戰(zhàn)使用聚類方法?

  1. 我們可以先創(chuàng)建簇,然后在不同簇中分別使用監(jiān)督機(jī)器學(xué)習(xí)算法。

  2. 我們?cè)谑褂帽O(jiān)督機(jī)器學(xué)習(xí)算法之前可以把簇的id作為特征空間中額外的特征。

  3. 我們無法在使用監(jiān)督機(jī)器學(xué)習(xí)算法之前創(chuàng)建簇。

  4. 我們?cè)谑褂帽O(jiān)督機(jī)器學(xué)習(xí)算法之前不能把簇的id作為特征空間中額外的特征。

A. 2和4

B. 1和2

C. 3和4

D. 1和3

答案:B

l我們可以在不同的簇中使用不同的機(jī)器學(xué)習(xí)模型,這樣一來,預(yù)測(cè)的準(zhǔn)確性可能會(huì)提高。

l增加簇的id可以提高預(yù)測(cè)的準(zhǔn)確性,因?yàn)閕d是對(duì)數(shù)據(jù)很好的概括。

因此B是正確的。

問題29

以下的說法哪些是正確的?

  1. 一個(gè)機(jī)器學(xué)習(xí)模型如果能得到很高的 準(zhǔn)確率,則說明這是個(gè)好的分類器。

  2. 如果增加一個(gè)模型的復(fù)雜度,測(cè)試錯(cuò)誤總會(huì)增加。

  3. 如果增加一個(gè)模型的復(fù)雜度,訓(xùn)練錯(cuò)誤總會(huì)增加。

A. 1

B. 2

C. 3

D. 1和3

答案C:

當(dāng)類不平衡的時(shí)候,準(zhǔn)確率不是一個(gè)很好的評(píng)價(jià)指標(biāo)。而 precision 和recall是最好的評(píng)價(jià)方式。

增加一個(gè)模型的復(fù)雜度可能會(huì)導(dǎo)致過擬合。而過擬合會(huì)引起訓(xùn)練錯(cuò)誤的減少和測(cè)試錯(cuò)誤的增加。

問題30:

以下有關(guān)于梯度回歸樹算法的說法正確的是?

當(dāng)我們?cè)黾佑糜诜指畹淖钚颖緮?shù)時(shí),我們總是試圖得到不會(huì)過擬合數(shù)據(jù)的算法。

當(dāng)我們?cè)黾佑糜诜指畹淖钚颖緮?shù)時(shí), 數(shù)據(jù)會(huì)過擬合。

當(dāng)我們減少用于擬合各個(gè)基本學(xué)習(xí)者的樣本的分?jǐn)?shù)時(shí),我們總是希望減少方差。

當(dāng)我們減少用于擬合各個(gè)基本學(xué)習(xí)者的樣本的分?jǐn)?shù)時(shí),我們總是希望減少偏差。

A. 2和4

B. 2和3

C. 1和3

D. 1和4

答案: C

最小化樣本的數(shù)量,在分裂節(jié)點(diǎn)的地方用于控制過擬合, 太高的數(shù)值會(huì)導(dǎo)致欠擬合因此應(yīng)該用CV來進(jìn)行調(diào)整.

每棵樹選擇觀測(cè)值的分?jǐn)?shù)是通過隨機(jī)采樣的方式來做的。如果數(shù)值比1小一點(diǎn)點(diǎn)則會(huì)使模型健壯,而且方差也會(huì)減小。典型的數(shù)值是0.8,當(dāng)然,也要根據(jù)實(shí)際情況微調(diào)。

問題31:

以下哪個(gè)是KNN算法的決策邊界?(下圖從左到右分別是A,B,C,D)



A) B

B) A

C) D

D) C

E) 不確定

答案:B

KNN算法的原理是為觀測(cè)變量尋找K個(gè)最近鄰居,將鄰居中的多數(shù)的標(biāo)簽賦給觀測(cè)變量。所以決策邊界不會(huì)是線性的。因此,選擇B。

問題32:

如果一個(gè)機(jī)器學(xué)習(xí)模型在測(cè)試集上獲得的100%的準(zhǔn)確性,是否意味著在新的測(cè)試集上也能獲得100%的準(zhǔn)確性。

A.是的,因?yàn)檫@個(gè)模型足夠一般,可以適用于所有類型的數(shù)據(jù)

B.不是,仍然有模型不能控制的因素,比如噪聲。

答案:B

答案選擇B,因?yàn)閷?shí)際數(shù)據(jù)不可能沒有噪聲,所以不可能得到100%的準(zhǔn)確性。

問題33:

以下是交叉驗(yàn)證的常見方法:

i. Bootstrap with replacement.

ii. Leave one out cross validation.

iii. 5 Fold cross validation.

iv. 2 repeats of 5 Fold cross validation

如果樣本的數(shù)量是1000,那么這這四種方法執(zhí)行時(shí)間的排序是?

A. i > ii > iii > iv

B. ii > iv > iii > i

C. iv > i > ii > iii

D. ii > iii > iv > i

答案:B

Bootstrapping是一個(gè)統(tǒng)計(jì)的技術(shù),屬于廣泛的重采樣的范疇,所以只有1個(gè)驗(yàn)證集使用了隨機(jī)采樣。

Leave-One-Out cross validation的時(shí)間最長(zhǎng),因?yàn)槲覀円猲次訓(xùn)練模型(n是觀測(cè)值的數(shù)量)

5 Fold cross validation 會(huì)訓(xùn)練五個(gè)模型,而訓(xùn)練時(shí)間和觀測(cè)值數(shù)量無關(guān)。

2 repeats of 5 Fold cross validation則是訓(xùn)練10個(gè)模型。

因此答案選擇B。

問題34:已取消

問題35:

變量選擇旨在選擇預(yù)測(cè)變量的“最佳”子集。當(dāng)我們選擇變量的時(shí)候,考慮到系統(tǒng)的性能,我們需要注意些什么?

  1. 類似的多個(gè)變量

  2. 模型的可解釋性

  3. 特征信息

  4. 交叉檢驗(yàn)

A. 1和4

B. 1, 2和3

C. 1,3和4

D. 以上所有

答案:C

如果幾個(gè)變量具有很高的xiang s,則會(huì)展現(xiàn)出共線性。

相對(duì)于模型的性能,我們不需要關(guān)注模型的可解釋性。

如果特征有很高的信息,則會(huì)為模型帶來價(jià)值。

我們需要使用交叉檢驗(yàn)來驗(yàn)證模型的普遍性。

因此C是正確答案。

問題36:

線性回歸模型中的其他變量下列哪些語句是正確的關(guān)于?

  1. R-Squared和Adjusted R-squared 都會(huì)增長(zhǎng)

  2. R-Squared 是常數(shù),Adjusted R-squared 會(huì)增長(zhǎng)

  3. R-Squared 和Adjusted R-squared 都會(huì)減少 4.R-Squared 減少而 Adjusted R-squared 增長(zhǎng)

A. 1和2

B. 1和3

C. 2和4

D.以上沒有正確的

答案: D

R-squared 不能確定系數(shù)估計(jì)和預(yù)測(cè)是否有偏差,這就是為什么我們要評(píng)估殘差圖。 Adjusted R-squared 是R-squared的增強(qiáng)版,該方法調(diào)整了模型中預(yù)測(cè)器的數(shù)量. 如果有新方法將模型改進(jìn)的幾率大于預(yù)期時(shí),Adjusted R-squared 會(huì)增加。 當(dāng)預(yù)測(cè)變量將模型改進(jìn)的幾率小于預(yù)期時(shí),它減少。

但是 R-squared 比adjusted R-squared 有更多的問題,因此predicted R-squared被提出。

如果為模型增加一個(gè)預(yù)測(cè)器,則R-squared會(huì)保持不變或者增加。

想討論更多,請(qǐng)點(diǎn)擊這里。

問題37:

下圖我們畫出了在同一個(gè)數(shù)據(jù)集上解決回歸問題的三種不同模型,從下圖中我們可以總結(jié)出什么?



  1. 和其他的相比,第一張圖的訓(xùn)練錯(cuò)誤最大。

  2. 最后一個(gè)是最好的模型,因?yàn)樵诘谌龔垐D有最小的訓(xùn)練錯(cuò)誤。

  3. 第二個(gè)模型比第一個(gè)和第三個(gè)更健壯,因?yàn)樗芨玫奶幚聿豢深A(yù)見的數(shù)據(jù)。

  4. 第三個(gè)模型和前兩個(gè)相比屬于過擬合。

  5. 所有模型的性能都一樣,因?yàn)槲覀冞€沒有看到測(cè)試集。

A. 1和3

B. 1和4

C. 1, 3和4

D. 5

答案:C

對(duì)于自變量X來說,圖中數(shù)據(jù)的趨勢(shì)像一個(gè)多項(xiàng)式函數(shù)。最右邊圖中的多項(xiàng)式形式更復(fù)雜,準(zhǔn)確率也最高,但是對(duì)于測(cè)試集則會(huì)表現(xiàn)不佳。而最左邊的圖很明顯屬于欠擬合的情況。

問題38:

在應(yīng)用線性回歸時(shí)我們需要遵循哪些假設(shè)?

  1. 由于線性回歸對(duì)于異常值很敏感,所以檢查異常值是十分重要的。

  2. 線性回歸要求所有變量都遵循正態(tài)分布。

  3. 線性回歸假設(shè)數(shù)據(jù)中很少或不存在多重共線性。

A. 1和2

B. 2和3

C. 1,2和3

D. 以上所有

答案:D

l異常值是數(shù)據(jù)中對(duì)最終回歸線的斜率影響最高的點(diǎn)。所以在回歸分析中去除離群值總是很重要的。

l了解自變量的分布是非常必要的。自變量的正負(fù)偏態(tài)分布可以影響模型的性能,并將高度偏態(tài)的自變量轉(zhuǎn)換正態(tài)將改進(jìn)模型性能

l當(dāng)模型包含彼此相關(guān)的多個(gè)要素時(shí),會(huì)出現(xiàn)多重共線性。換句話說就是有多余因素線性回歸假設(shè)在數(shù)據(jù)中應(yīng)該有很少冗余或者盡可能沒有。

問題39:

當(dāng)建立線性模型的時(shí)候,我們會(huì)關(guān)注數(shù)據(jù)之間的關(guān)聯(lián)。假如我們?cè)陉P(guān)聯(lián)矩陣中找到了三對(duì)數(shù)據(jù)(Var1和Var2 , Var2和Var3 , Var3和Var1) 的關(guān)聯(lián)分別是 -0.98, 0.45 and 1.23。那么從這些信息中我們可以推斷出什么?

  1. Var1和Var2具有很高的關(guān)聯(lián)性。

  2. Var1和Var2有很高的關(guān)聯(lián)度,所以它們具有多重共線性。所以我們要將Var1或者Var2移除出我們的模型。

  3. Var3和Var1之間的關(guān)聯(lián)值是1.23是不可能的。

A. 1和3

B. 1和2

C. 1,2和3

D. 1

答案: C

lVar1和Var2的關(guān)聯(lián)值很高,所以是具有多重共線性的,因此我們可以從中去除一個(gè)。

l一般來說,關(guān)聯(lián)系數(shù)高于0.7的說明數(shù)據(jù)具有多重共線性。

l第3個(gè)是不可能的,關(guān)聯(lián)系數(shù)一定會(huì)在-1和1之間。

問題40:

如果獨(dú)立和不獨(dú)立的變量之間有很高的非線性且復(fù)雜的關(guān)系,那么一個(gè)樹模型將會(huì)比一般的經(jīng)典回歸有更好的效果。這個(gè)說法正確么?

A.正確

B.錯(cuò)誤 

答案:A

如果數(shù)據(jù)是非線性的,回歸模型就很難處理。而樹模型則會(huì)展現(xiàn)出很好的效果。

結(jié)束語

我希望您能喜歡本次測(cè)驗(yàn),您也會(huì)發(fā)現(xiàn)答案的解釋很有用。這次測(cè)試主要是集中了人們?cè)谌粘J褂脵C(jī)器學(xué)習(xí)過程中遇到的困難。


我們努力減少文章中的錯(cuò)誤,但是由于筆者水平有限,可能文章中會(huì)有問題,所以如果您發(fā)現(xiàn)了,請(qǐng)?jiān)谙旅媪粞?。?dāng)然,如果您有改進(jìn)意見,也歡迎在下面留言。


私募工場(chǎng)ID:Funds-Works所載信息和資料均來源于公開渠道,對(duì)其真實(shí)性、準(zhǔn)確性、充足性、完整性及其使用的適當(dāng)性等不作任何擔(dān)保。在任何情況下,私募工場(chǎng)ID:Funds-Works所推送文章的信息、觀點(diǎn)等均不構(gòu)成對(duì)任何人的投資建議,也不作為任何法律文件。一切與產(chǎn)品條款有關(guān)的信息均以產(chǎn)品合同為準(zhǔn)。私募工場(chǎng)ID:Funds-Works不對(duì)任何人因使用私募工場(chǎng)ID:Funds-Works所推送文章/報(bào)告中的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
終章 | 機(jī)器學(xué)習(xí)筆試題精選
實(shí)踐中提升風(fēng)控模型效能,降低共線性的實(shí)例操作
為什么特征相關(guān)性非常的重要?
機(jī)器學(xué)習(xí)算法介紹(附上R和Python程序)
統(tǒng)計(jì)建模:概念與陷阱
卷積神經(jīng)網(wǎng)絡(luò)在個(gè)人信貸風(fēng)險(xiǎn)管理中的應(yīng)用
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服