人類對(duì)于自動(dòng)化和智能化的追求一直推動(dòng)著技術(shù)的進(jìn)步,而機(jī)器學(xué)習(xí)這類型的技術(shù)對(duì)各個(gè)領(lǐng)域都起到了巨大的作用。隨著時(shí)間的推移,我們將看到機(jī)器學(xué)習(xí)無處不在,從移動(dòng)個(gè)人助理到電子商務(wù)網(wǎng)站的推薦系統(tǒng)。即使作為一個(gè)外行,你也不能忽視機(jī)器學(xué)習(xí)對(duì)你生活的影響。
本次測(cè)試是面向?qū)C(jī)器學(xué)習(xí)有一定了解的人。參加測(cè)試之后,參與者會(huì)對(duì)自己的機(jī)器學(xué)習(xí)方面知識(shí)有更深刻的認(rèn)知。
目前,總共有1793 個(gè)參與者參與到了測(cè)試中。一個(gè)專門為機(jī)器學(xué)習(xí)做的測(cè)試是很有挑戰(zhàn)性的,我相信你們都已經(jīng)躍躍欲試,所以,請(qǐng)繼續(xù)讀下去。
那些錯(cuò)過測(cè)試的人,你們錯(cuò)過了一個(gè)極好的檢驗(yàn)自己的機(jī)會(huì)。但是,你也可以閱讀本文,看看能否解答下面問題的答案,這樣你也能收獲不少。
下圖表示的是參與測(cè)試人的成績(jī)分布,這也許會(huì)幫助你評(píng)估你的測(cè)試成績(jī)。
你可以點(diǎn)擊這里來獲取所有得分。我們有超過600人參與到了技能測(cè)試中,最高分是28分,這里還有一些其他統(tǒng)計(jì)量。
平均數(shù) 14.42
中位數(shù) 16
眾數(shù) 17
另外,您的得分可能和通告欄上的不一樣,因?yàn)槲覀円瞥擞绣e(cuò)誤的問題,并且對(duì)每個(gè)人都重新打分了。
機(jī)器學(xué)習(xí)參考文獻(xiàn)
Machine Learning basics for a newbie
16 New Must Watch Tutorials, Courses on Machine Learning
Essentials of Machine Learning Algorithms
問題1:
在n維空間中,以下哪一個(gè)方法最適用于異常點(diǎn)檢測(cè)?
A.正態(tài)概率圖
B.盒圖
C.Mahalonobis 距離
D.散點(diǎn)圖
答案:C
Mahalonobis 距離是基于卡方分布的多變量異常的程度的統(tǒng)計(jì)量。更多內(nèi)容點(diǎn)擊此處。
問題2
線性回歸在以下哪些方面和多元回歸不一樣?
A. 它是專門用來預(yù)測(cè)一個(gè)事件的概率
B. 擬合優(yōu)度指數(shù)
C. 在回歸系數(shù)的估計(jì)方面
D. 以上所有
答案:D
A:線性回歸用來解決分類問題,我們可以計(jì)算出事件發(fā)生的概率
B:總體來說,擬合優(yōu)度測(cè)試是用來測(cè)量數(shù)據(jù)與模型的一致性,我們用邏輯回歸來檢驗(yàn)?zāi)P蛿M合程度。
C:擬合邏輯回歸模型之后,我們可以以他們的系數(shù)為目標(biāo),觀察獨(dú)立特征之間的關(guān)系(正相關(guān)或負(fù)相關(guān))。
問題3:
引導(dǎo)數(shù)據(jù)的意義是什么?
A.從M個(gè)總體中有放回的抽樣出m個(gè)特征
B.從M個(gè)總體中無放回的抽樣出m個(gè)特征
C.從N個(gè)總體中有放回的抽取n個(gè)樣本
D.從N個(gè)總體中無有放回的抽取n個(gè)樣本
答案:C
如果我們沒有足夠的數(shù)據(jù)來訓(xùn)練我們的算法,我們就可以從訓(xùn)練集中有放回的隨機(jī)重復(fù)一些數(shù)據(jù)項(xiàng)。
問題4
“過擬合只是監(jiān)督學(xué)習(xí)中的問題,對(duì)于無監(jiān)督學(xué)習(xí)影響不大”這句話是正確還是錯(cuò)誤
A.正確
B.錯(cuò)誤
答案:B
我們可以使用無監(jiān)督矩陣來評(píng)估一個(gè)無監(jiān)督機(jī)器學(xué)習(xí)算法。舉個(gè)例子,我們可以用“調(diào)整蘭德系數(shù)”來評(píng)估聚類模型。
問題5:
關(guān)于選擇k層交叉檢驗(yàn)中“k”的值,以下說法正確的是?
A.k并不是越大越好,更大的k會(huì)減慢檢驗(yàn)結(jié)果的過程
B.選擇更大的k會(huì)導(dǎo)致降低向真實(shí)期望錯(cuò)誤的傾斜
C.選擇總是能最小化交叉驗(yàn)證中的方差的k
D.以上所有
答案:D
更大的k會(huì)減少過高估計(jì)了真正的預(yù)期誤差的情況(因?yàn)橛?xùn)練層更接近總體數(shù)據(jù)集),但是會(huì)帶來更長(zhǎng)的運(yùn)行時(shí)間(因?yàn)檫@樣會(huì)接近留一交叉的極限情況),當(dāng)選擇k的時(shí)候,我們也要考慮k層精度之間的方差。
問題6:
回歸模型具有多重共線性效應(yīng),在不損失太多信息的情況下如何應(yīng)對(duì)這種情況?
去除所有共線變量1.去除所有共線變量
去除一個(gè)變量而不是都去掉
我們可以計(jì)算VIF(方差膨脹因子)來檢驗(yàn)多重共線性效應(yīng),然后根據(jù)情況處理
去除相關(guān)的變量可能會(huì)導(dǎo)致信息的丟失。為了保證數(shù)據(jù)的完整性,我們應(yīng)該選取比如嶺回歸和套索回歸等懲罰回歸模型。
以上那些是正確的?
A. 1
B. 2
C. 2 和3
D. 2,3 和 4
答案:D
為了檢查多重共線性,我們可以創(chuàng)建一個(gè)相關(guān)矩陣來識(shí)別和刪除具有75%相關(guān)性的變量(閾值的選擇是主觀的)。此外,我們使用VIF(方差膨脹因子)來檢查多重共線性,如果VIF小于4表示沒有多重共線性,如果大于10則表示嚴(yán)重的多重共線性。我們也可以使用一個(gè)寬容量作為多重共線性的指數(shù)。
但是,移除相關(guān)變量會(huì)導(dǎo)致信息的損失。為了保證數(shù)據(jù)的完整性,我們應(yīng)該選取比如嶺回歸和套索回歸等懲罰回歸模型。我們也可以在變量中增加隨機(jī)噪聲,這樣數(shù)據(jù)會(huì)變得不一樣。但是這種方法會(huì)降低預(yù)測(cè)的準(zhǔn)確性,所以要慎用。
問題7:
評(píng)估完模型后,我們發(fā)現(xiàn)模型中有很高的偏差。我們?cè)鯓觼頊p少這個(gè)偏差?
A.減少模型中特征的數(shù)量
B.增加模型中特征的數(shù)量
C.增加模型中的數(shù)據(jù)點(diǎn)
D.B和C
E.以上所有
答案:B
如果模型偏差大,說明模型相對(duì)過于簡(jiǎn)單。我們可以在特征空間中增加更多的特征來提高模型的魯棒性。增加數(shù)據(jù)點(diǎn)也會(huì)減少方差。
問題8:
當(dāng)我們建立基于決策樹的模型時(shí),我們將有最高信息增益的節(jié)點(diǎn)分離出來作為屬性, 在下圖中,哪一個(gè)屬性有最高的信息增益?
A. Outlook
B. Humidity
C. Windy
D. Temperature
答案:A
信息增益隨子集平均純度的增加而增加。要了解信息增益的計(jì)算,點(diǎn)這里閱讀。你也可以查看這張幻燈片。
問題9:在決策樹中,當(dāng)一個(gè)節(jié)點(diǎn)分叉的時(shí)候,以下關(guān)于“信息增益”正確的是?
不純的節(jié)點(diǎn)越少,越需要更多的信息來描述種群
信息增益可以用熵作為“1-Entropy”來推導(dǎo)
信息增益偏向于數(shù)值大的屬性
A. 1
B. 2
C. 2 和3
D. 都正確
答案:C
想了解詳情,請(qǐng)閱讀這篇文章和這個(gè)幻燈片。
問題10:使用SVM模型遇到了欠擬合的問題,以下哪個(gè)選項(xiàng)能提高模型性能?
A.增加懲罰參數(shù)“C”
B.減少懲罰參數(shù)
C.減少核系數(shù)(gamma的值)
答案:A
如果是欠擬合情況,我們需要增加模型的復(fù)雜性,如果我們?cè)龃驝,則意味著決策邊界變復(fù)雜,所以A是正確答案。
問題11:
假如我們已經(jīng)畫出SVM算法中的不同點(diǎn)的gamma值(Kernel coefficient)。但由于一些原因,我們沒有在可視化界面中顯示出來。在這種情況下,以下哪個(gè)選項(xiàng)最好的解釋了三張圖的gamma值關(guān)系(圖中從左向右分別是圖1,、圖2、圖3,對(duì)應(yīng)的gamma值分別是g1,、g2、g3)。
A. g1 > g2 > g3
B. g1 = g2 = g3
C. g1 < g2=""><>
D. g1 >= g2 >= g3
E. g1 <= g2=""><=>
答案:C
如果gamma值高,則會(huì)盡全力去擬合數(shù)據(jù)集中的每一條數(shù)據(jù),會(huì)帶來過擬合問題。所以最合適的選項(xiàng)是C。
問題12:
我們?cè)诮鉀Q一個(gè)分類問題(二值分類預(yù)測(cè))。然而,我們并不是要得到0或1的真實(shí)結(jié)果,而是要獲取每一個(gè)類的概率?,F(xiàn)在假設(shè)我有一個(gè)概率模型,并且使用一個(gè)0.5的閾值來預(yù)測(cè)結(jié)果,如果概率大于等于0.5,則認(rèn)為是1,如果小于0.5,我們則認(rèn)為是0。如果我們使用一個(gè)比0.5高的閾值,一下哪條最合適?
增加閾值那么分類器會(huì)有相同或者更低的查對(duì)率
增加閾值分類器會(huì)有更高的查對(duì)率
增加閾值會(huì)有相同或者更高的準(zhǔn)確率
增加閾值會(huì)有更低的準(zhǔn)確率
A. 1
B. 2
C. 1和 3
D. 2和 4
E. 無
答案:C
想了解調(diào)整閾值對(duì)查對(duì)率和準(zhǔn)確率的影響,請(qǐng)參考這篇文章。
問題13:
當(dāng)使用比例失調(diào)的數(shù)據(jù)(數(shù)據(jù)集中99%的negative class和1%的positive class)進(jìn)行“點(diǎn)擊率”預(yù)測(cè)的時(shí)候,假如我們的準(zhǔn)確率是99%,那么我們的結(jié)論是?
準(zhǔn)確率很高,我們不用再做任何工作。
B.準(zhǔn)確率不夠好,我們需要嘗試構(gòu)建一個(gè)更好的模型
C.無法判斷這個(gè)模型
D.以上都不正確
答案:B
當(dāng)使用不平衡數(shù)據(jù)集的時(shí)候,準(zhǔn)確率不能作為性能的指標(biāo),因?yàn)?9%(正如上文提到的)可能只是預(yù)測(cè)多數(shù)類別正確,但是往往重要的是少數(shù)的類(1%)。因此,對(duì)于這樣的模型,我們應(yīng)該使用敏感性和特異性來描述分類器的性能。如果占少數(shù)的類別預(yù)測(cè)不準(zhǔn)的話,我們需要采取一些必要的措施。更多不平衡分類問題,可以參考這篇文章。
問題14:
比方說,我們使用KNN訓(xùn)練觀測(cè)數(shù)據(jù)較少的模型(以下是訓(xùn)練數(shù)據(jù)的快照,x和y分別表示兩個(gè)屬性,“+”“o”分別表示兩種標(biāo)簽)。已知k=1,leave one out 交叉驗(yàn)證的錯(cuò)誤率會(huì)是多少。
A. 0%
B. 100%
C. 從0 到 100%
D. 以上沒有
答案:B
在Leave-One-Out交叉驗(yàn)證中,我們選取n-1條觀測(cè)量作為訓(xùn)練集,1條觀測(cè)量用來驗(yàn)證。如果把每個(gè)點(diǎn)作為交叉驗(yàn)證點(diǎn)并找到最近的點(diǎn)總會(huì)得到相反的類別。所以錯(cuò)誤率是100%。
問題15:
當(dāng)我們使用大數(shù)據(jù)集進(jìn)行決策樹訓(xùn)練的時(shí)候,一下哪個(gè)選項(xiàng)可以用來減少訓(xùn)練時(shí)間?
增加樹的深度
增加學(xué)習(xí)率
減少樹的深度
減少樹的數(shù)量
A. 2
B. 1 and 2
C. 3
D. 3 和 4
E. 2 和 3
F. 2, 3 和 4
答案:C
如果決策樹的參數(shù)是固定的話,我們可以考慮以下的選項(xiàng)。
增加深度會(huì)導(dǎo)致所有節(jié)點(diǎn)擴(kuò)張,因此增加深度會(huì)導(dǎo)致時(shí)間變長(zhǎng)。
在單一決策樹種,學(xué)習(xí)率是不能作為一個(gè)可調(diào)整的參數(shù)的。
使用決策樹時(shí),我們只會(huì)建一顆樹。
問題16:
關(guān)于神經(jīng)網(wǎng)絡(luò),一下那種說法是正確的?
在測(cè)試數(shù)據(jù)中增加層數(shù)可能會(huì)增加分類錯(cuò)誤
在測(cè)試數(shù)據(jù)中減少層數(shù)總會(huì)減少分類錯(cuò)誤
在測(cè)試數(shù)據(jù)中增加層數(shù)總會(huì)減少分類錯(cuò)誤
A.1
B.1和3
C.1 和2
D. 2
答案:A
通常來說,增加層數(shù)會(huì)讓模型更加一般化,所以它將會(huì)在訓(xùn)練集和測(cè)試集上都表現(xiàn)更優(yōu)異。但這個(gè)不是真理,在這篇文章中,筆者發(fā)現(xiàn)深層的網(wǎng)絡(luò)比淺層的網(wǎng)絡(luò)有更高的錯(cuò)誤率。所以選項(xiàng)2和3都是錯(cuò)誤的,因?yàn)檫@個(gè)假設(shè)不總是正確的,而1只是說可能是正確的。
問題17:
假設(shè)我們使用原始的非線性可分離SVM最優(yōu)化目標(biāo)函數(shù),我們做什么可以保證結(jié)果是線性可分的?
A. C = 1
B. C = 0
C. C = 無窮大
D.以上沒有正確答案
答案C:
如果我們使用原始的非線性可分離SVM最優(yōu)化目標(biāo)函數(shù),我們需要將C設(shè)置成無窮大來保證結(jié)果是線性可分的。因此C是正確答案。
問題18:
訓(xùn)練完SVM之后,我們可以丟掉所以不支持向量的樣本而不影響對(duì)新的樣本進(jìn)行分類。
A.正確
B.錯(cuò)誤
答案:A
這是正確的,因?yàn)橹挥兄С窒蛄繒?huì)影響邊界。
問題19:
以下哪些算法可以借助神經(jīng)網(wǎng)絡(luò)來構(gòu)建?
K-NN
線性回歸
邏輯回歸
A.1 和2
B.2 和 3
C.1, 2 和 3
D.無
答案:B
KNN是一個(gè)機(jī)遇實(shí)例的學(xué)習(xí)方法,它沒有用來訓(xùn)練的參數(shù),所以它不能用神經(jīng)網(wǎng)絡(luò)來構(gòu)建
神經(jīng)網(wǎng)絡(luò)的最簡(jiǎn)單形式就是最小二乘回歸。
神經(jīng)網(wǎng)絡(luò)和邏輯回歸有關(guān)。主要在于,我們可以把邏輯回歸看成一層神經(jīng)網(wǎng)絡(luò)。
問題20:
請(qǐng)選擇可以用來實(shí)施隱馬爾可夫模型的數(shù)據(jù)集。
A.基因序列數(shù)據(jù)集
B.電影評(píng)論數(shù)據(jù)集
C.股票價(jià)格數(shù)據(jù)集
D.以上所有
答案D:
以上所有的數(shù)據(jù)集都可以用隱馬爾可夫模型。
問題21:
我們想在在一個(gè)百萬級(jí)的數(shù)據(jù)集上構(gòu)建機(jī)器學(xué)習(xí)模型,每條數(shù)據(jù)有5000個(gè)特征??墒怯?xùn)練這么大量的數(shù)據(jù)集會(huì)有很多困難,一下哪些步驟可以有效地訓(xùn)練模型?
A.我們可以從數(shù)據(jù)集中隨機(jī)選取一些樣本,在樣本上構(gòu)建模型
B.我們可以嘗試聯(lián)機(jī)機(jī)器學(xué)習(xí)算法
C.我們可以用主成分分析來減少特征
D.B和C
E.A和B
F.以上所有
答案:F
在一個(gè)內(nèi)存有限的機(jī)器上處理高維數(shù)據(jù)是一項(xiàng)非常費(fèi)力的工作。以下的方法可以用來應(yīng)對(duì)這樣的情況。
我們可以采取隨機(jī)采樣的方式,這意味著我們創(chuàng)建一個(gè)更小的數(shù)據(jù)集。舉個(gè)例子來說,我們可以抽取300000條數(shù)據(jù),每條有1000個(gè)特征然后再進(jìn)行計(jì)算。
我們可以使用展示在Vowpal Wabbit中的聯(lián)機(jī)學(xué)習(xí)算法
我們可以使用主成分析來選取能反映最大方差的部分。
因此所有的都是正確的。
問題22:
我們想減少數(shù)據(jù)的特征,以下哪些做法是合適的?
使用預(yù)選的方式
使用向后消除的方式
首先使用所有特征來計(jì)算模型的準(zhǔn)確度。我們選擇一個(gè)特征,然后將測(cè)試集的該特征的數(shù)值都打亂,然后對(duì)打亂過的數(shù)據(jù)集進(jìn)行預(yù)測(cè)。經(jīng)過對(duì)預(yù)測(cè)模型的分析,如果模型準(zhǔn)確率提高,則刪掉這個(gè)屬性
查找關(guān)聯(lián)性表,關(guān)聯(lián)性高的特征就可以去掉
A. 1和2
B. 2, 3和 4
C. 1, 2 和4
D. 以上所有
答案:D
l預(yù)選和向后消除是特征選擇的兩個(gè)常用的主要方法。
l如果不用上面的兩種方法,我們也可以選擇3中所說的方法,這種方法應(yīng)對(duì)大數(shù)據(jù)量時(shí)非常有效。
l我們也可以使用基于特征選擇的關(guān)聯(lián)分析,然后去除共線性特征。
問題23:
關(guān)于隨機(jī)森林和梯度提升樹,請(qǐng)選擇正確的選項(xiàng)。
在隨機(jī)森林中,中間樹互相不獨(dú)立,而在梯度回歸樹中,中間樹相互獨(dú)立。
他們都使用隨機(jī)特征子集來構(gòu)建中間樹。
在梯度提升樹的情況下我們可以生成并行樹,因?yàn)闃浠ハ嗒?dú)立。
梯度提升樹在任何數(shù)據(jù)集上都比隨機(jī)森林要好。
A. 2
B. 1 和 2
C. 1, 3 和 4
D. 2 和 4
答案 A:
隨機(jī)森林是基于bagging而梯度提升是基于boosting
這兩種算法都使用隨機(jī)特征子集來構(gòu)建中間樹
由于隨機(jī)森林的中間樹互相獨(dú)立,因此算法可以并行,而梯度提升樹則不可能。
這個(gè)不是絕對(duì)的,不同數(shù)據(jù)結(jié)果不同。
問題24:
對(duì)于主成分析轉(zhuǎn)換的特征,樸素貝葉斯的基本假設(shè)是成立的,因?yàn)橹鞒啥际钦坏?,因此是無關(guān)的。這句話正確么?
A.正確
B.錯(cuò)誤
答案:B
這句話是錯(cuò)誤的。首先,不相關(guān)不等同于獨(dú)立。第二,轉(zhuǎn)換過的特征也不一定是不相關(guān)的。
問題25:
以下關(guān)于主成分析哪些是正確的?
在PCA前必須將數(shù)據(jù)標(biāo)準(zhǔn)化
我們應(yīng)該選擇說明最高方差的主成分
我們應(yīng)該選擇說明最低方差的主成分
我們可以用PCA來可視化低維數(shù)據(jù)
A. 1, 2 和4
B. 2 和 4
C. 3 和 4
D. 1 和 3
E. 1, 3 和 4
答案:A
lPCA 對(duì)數(shù)據(jù)中變量的大小是敏感的,所以在PCA之前必須要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。舉個(gè)例子,如果我們將一個(gè)變量的單位從km改成cm,該變量可能會(huì)從影響很小一躍成為主成分。
l第二條是正確的,因?yàn)槲覀兛偸沁x擇最大方差的主成分。
l有時(shí)候用低維來畫出數(shù)據(jù)是十分有效地。我們可以選擇前二的主成分,然后用散點(diǎn)圖來描繪數(shù)據(jù)。
問題26:
在下圖中的主成分的最佳數(shù)目是多少?
A. 7
B. 30
C. 35
D.不確定
答案:B
在上圖中,成分?jǐn)?shù)為30時(shí)候就達(dá)到了最大的方差,所以選擇B
問題27:
數(shù)據(jù)科學(xué)家經(jīng)常使用混合算法來做預(yù)測(cè),然后將混合算法的結(jié)果合并(也叫集成學(xué)習(xí))。這些混合算法的輸出更加健壯且具有一般性,而且比任何一種單一模型都要準(zhǔn)確。以下哪些選項(xiàng)是正確的?
A. 基礎(chǔ)模型有更高的相關(guān)性
B. 基礎(chǔ)模型有更低的相關(guān)性
C. 使用平均加權(quán)而不是投票的方式來集成
D. 基礎(chǔ)模型源自相同的算法
答案B:
請(qǐng)參閱下面的集成指南來了解細(xì)節(jié)
Basics of Ensemble Learning Explained in Simple English
Kaggle Ensemble Guide
Easy questions on Ensemble Modeling everyone should know
問題28:
我們?nèi)绾卧诒O(jiān)督的機(jī)器學(xué)習(xí)挑戰(zhàn)使用聚類方法?
我們可以先創(chuàng)建簇,然后在不同簇中分別使用監(jiān)督機(jī)器學(xué)習(xí)算法。
我們?cè)谑褂帽O(jiān)督機(jī)器學(xué)習(xí)算法之前可以把簇的id作為特征空間中額外的特征。
我們無法在使用監(jiān)督機(jī)器學(xué)習(xí)算法之前創(chuàng)建簇。
我們?cè)谑褂帽O(jiān)督機(jī)器學(xué)習(xí)算法之前不能把簇的id作為特征空間中額外的特征。
A. 2和4
B. 1和2
C. 3和4
D. 1和3
答案:B
l我們可以在不同的簇中使用不同的機(jī)器學(xué)習(xí)模型,這樣一來,預(yù)測(cè)的準(zhǔn)確性可能會(huì)提高。
l增加簇的id可以提高預(yù)測(cè)的準(zhǔn)確性,因?yàn)閕d是對(duì)數(shù)據(jù)很好的概括。
因此B是正確的。
問題29
以下的說法哪些是正確的?
一個(gè)機(jī)器學(xué)習(xí)模型如果能得到很高的 準(zhǔn)確率,則說明這是個(gè)好的分類器。
如果增加一個(gè)模型的復(fù)雜度,測(cè)試錯(cuò)誤總會(huì)增加。
如果增加一個(gè)模型的復(fù)雜度,訓(xùn)練錯(cuò)誤總會(huì)增加。
A. 1
B. 2
C. 3
D. 1和3
答案C:
當(dāng)類不平衡的時(shí)候,準(zhǔn)確率不是一個(gè)很好的評(píng)價(jià)指標(biāo)。而 precision 和recall是最好的評(píng)價(jià)方式。
增加一個(gè)模型的復(fù)雜度可能會(huì)導(dǎo)致過擬合。而過擬合會(huì)引起訓(xùn)練錯(cuò)誤的減少和測(cè)試錯(cuò)誤的增加。
問題30:
以下有關(guān)于梯度回歸樹算法的說法正確的是?
當(dāng)我們?cè)黾佑糜诜指畹淖钚颖緮?shù)時(shí),我們總是試圖得到不會(huì)過擬合數(shù)據(jù)的算法。
當(dāng)我們?cè)黾佑糜诜指畹淖钚颖緮?shù)時(shí), 數(shù)據(jù)會(huì)過擬合。
當(dāng)我們減少用于擬合各個(gè)基本學(xué)習(xí)者的樣本的分?jǐn)?shù)時(shí),我們總是希望減少方差。
當(dāng)我們減少用于擬合各個(gè)基本學(xué)習(xí)者的樣本的分?jǐn)?shù)時(shí),我們總是希望減少偏差。
A. 2和4
B. 2和3
C. 1和3
D. 1和4
答案: C
最小化樣本的數(shù)量,在分裂節(jié)點(diǎn)的地方用于控制過擬合, 太高的數(shù)值會(huì)導(dǎo)致欠擬合因此應(yīng)該用CV來進(jìn)行調(diào)整.
每棵樹選擇觀測(cè)值的分?jǐn)?shù)是通過隨機(jī)采樣的方式來做的。如果數(shù)值比1小一點(diǎn)點(diǎn)則會(huì)使模型健壯,而且方差也會(huì)減小。典型的數(shù)值是0.8,當(dāng)然,也要根據(jù)實(shí)際情況微調(diào)。
問題31:
以下哪個(gè)是KNN算法的決策邊界?(下圖從左到右分別是A,B,C,D)
A) B
B) A
C) D
D) C
E) 不確定
答案:B
KNN算法的原理是為觀測(cè)變量尋找K個(gè)最近鄰居,將鄰居中的多數(shù)的標(biāo)簽賦給觀測(cè)變量。所以決策邊界不會(huì)是線性的。因此,選擇B。
問題32:
如果一個(gè)機(jī)器學(xué)習(xí)模型在測(cè)試集上獲得的100%的準(zhǔn)確性,是否意味著在新的測(cè)試集上也能獲得100%的準(zhǔn)確性。
A.是的,因?yàn)檫@個(gè)模型足夠一般,可以適用于所有類型的數(shù)據(jù)
B.不是,仍然有模型不能控制的因素,比如噪聲。
答案:B
答案選擇B,因?yàn)閷?shí)際數(shù)據(jù)不可能沒有噪聲,所以不可能得到100%的準(zhǔn)確性。
問題33:
以下是交叉驗(yàn)證的常見方法:
i. Bootstrap with replacement.
ii. Leave one out cross validation.
iii. 5 Fold cross validation.
iv. 2 repeats of 5 Fold cross validation
如果樣本的數(shù)量是1000,那么這這四種方法執(zhí)行時(shí)間的排序是?
A. i > ii > iii > iv
B. ii > iv > iii > i
C. iv > i > ii > iii
D. ii > iii > iv > i
答案:B
Bootstrapping是一個(gè)統(tǒng)計(jì)的技術(shù),屬于廣泛的重采樣的范疇,所以只有1個(gè)驗(yàn)證集使用了隨機(jī)采樣。
Leave-One-Out cross validation的時(shí)間最長(zhǎng),因?yàn)槲覀円猲次訓(xùn)練模型(n是觀測(cè)值的數(shù)量)
5 Fold cross validation 會(huì)訓(xùn)練五個(gè)模型,而訓(xùn)練時(shí)間和觀測(cè)值數(shù)量無關(guān)。
2 repeats of 5 Fold cross validation則是訓(xùn)練10個(gè)模型。
因此答案選擇B。
問題34:已取消
問題35:
變量選擇旨在選擇預(yù)測(cè)變量的“最佳”子集。當(dāng)我們選擇變量的時(shí)候,考慮到系統(tǒng)的性能,我們需要注意些什么?
類似的多個(gè)變量
模型的可解釋性
特征信息
交叉檢驗(yàn)
A. 1和4
B. 1, 2和3
C. 1,3和4
D. 以上所有
答案:C
如果幾個(gè)變量具有很高的xiang s,則會(huì)展現(xiàn)出共線性。
相對(duì)于模型的性能,我們不需要關(guān)注模型的可解釋性。
如果特征有很高的信息,則會(huì)為模型帶來價(jià)值。
我們需要使用交叉檢驗(yàn)來驗(yàn)證模型的普遍性。
因此C是正確答案。
問題36:
線性回歸模型中的其他變量下列哪些語句是正確的關(guān)于?
R-Squared和Adjusted R-squared 都會(huì)增長(zhǎng)
R-Squared 是常數(shù),Adjusted R-squared 會(huì)增長(zhǎng)
R-Squared 和Adjusted R-squared 都會(huì)減少 4.R-Squared 減少而 Adjusted R-squared 增長(zhǎng)
A. 1和2
B. 1和3
C. 2和4
D.以上沒有正確的
答案: D
R-squared 不能確定系數(shù)估計(jì)和預(yù)測(cè)是否有偏差,這就是為什么我們要評(píng)估殘差圖。 Adjusted R-squared 是R-squared的增強(qiáng)版,該方法調(diào)整了模型中預(yù)測(cè)器的數(shù)量. 如果有新方法將模型改進(jìn)的幾率大于預(yù)期時(shí),Adjusted R-squared 會(huì)增加。 當(dāng)預(yù)測(cè)變量將模型改進(jìn)的幾率小于預(yù)期時(shí),它減少。
但是 R-squared 比adjusted R-squared 有更多的問題,因此predicted R-squared被提出。
如果為模型增加一個(gè)預(yù)測(cè)器,則R-squared會(huì)保持不變或者增加。
想討論更多,請(qǐng)點(diǎn)擊這里。
問題37:
下圖我們畫出了在同一個(gè)數(shù)據(jù)集上解決回歸問題的三種不同模型,從下圖中我們可以總結(jié)出什么?
和其他的相比,第一張圖的訓(xùn)練錯(cuò)誤最大。
最后一個(gè)是最好的模型,因?yàn)樵诘谌龔垐D有最小的訓(xùn)練錯(cuò)誤。
第二個(gè)模型比第一個(gè)和第三個(gè)更健壯,因?yàn)樗芨玫奶幚聿豢深A(yù)見的數(shù)據(jù)。
第三個(gè)模型和前兩個(gè)相比屬于過擬合。
所有模型的性能都一樣,因?yàn)槲覀冞€沒有看到測(cè)試集。
A. 1和3
B. 1和4
C. 1, 3和4
D. 5
答案:C
對(duì)于自變量X來說,圖中數(shù)據(jù)的趨勢(shì)像一個(gè)多項(xiàng)式函數(shù)。最右邊圖中的多項(xiàng)式形式更復(fù)雜,準(zhǔn)確率也最高,但是對(duì)于測(cè)試集則會(huì)表現(xiàn)不佳。而最左邊的圖很明顯屬于欠擬合的情況。
問題38:
在應(yīng)用線性回歸時(shí)我們需要遵循哪些假設(shè)?
由于線性回歸對(duì)于異常值很敏感,所以檢查異常值是十分重要的。
線性回歸要求所有變量都遵循正態(tài)分布。
線性回歸假設(shè)數(shù)據(jù)中很少或不存在多重共線性。
A. 1和2
B. 2和3
C. 1,2和3
D. 以上所有
答案:D
l異常值是數(shù)據(jù)中對(duì)最終回歸線的斜率影響最高的點(diǎn)。所以在回歸分析中去除離群值總是很重要的。
l了解自變量的分布是非常必要的。自變量的正負(fù)偏態(tài)分布可以影響模型的性能,并將高度偏態(tài)的自變量轉(zhuǎn)換正態(tài)將改進(jìn)模型性能
l當(dāng)模型包含彼此相關(guān)的多個(gè)要素時(shí),會(huì)出現(xiàn)多重共線性。換句話說就是有多余因素線性回歸假設(shè)在數(shù)據(jù)中應(yīng)該有很少冗余或者盡可能沒有。
問題39:
當(dāng)建立線性模型的時(shí)候,我們會(huì)關(guān)注數(shù)據(jù)之間的關(guān)聯(lián)。假如我們?cè)陉P(guān)聯(lián)矩陣中找到了三對(duì)數(shù)據(jù)(Var1和Var2 , Var2和Var3 , Var3和Var1) 的關(guān)聯(lián)分別是 -0.98, 0.45 and 1.23。那么從這些信息中我們可以推斷出什么?
Var1和Var2具有很高的關(guān)聯(lián)性。
Var1和Var2有很高的關(guān)聯(lián)度,所以它們具有多重共線性。所以我們要將Var1或者Var2移除出我們的模型。
Var3和Var1之間的關(guān)聯(lián)值是1.23是不可能的。
A. 1和3
B. 1和2
C. 1,2和3
D. 1
答案: C
lVar1和Var2的關(guān)聯(lián)值很高,所以是具有多重共線性的,因此我們可以從中去除一個(gè)。
l一般來說,關(guān)聯(lián)系數(shù)高于0.7的說明數(shù)據(jù)具有多重共線性。
l第3個(gè)是不可能的,關(guān)聯(lián)系數(shù)一定會(huì)在-1和1之間。
問題40:
如果獨(dú)立和不獨(dú)立的變量之間有很高的非線性且復(fù)雜的關(guān)系,那么一個(gè)樹模型將會(huì)比一般的經(jīng)典回歸有更好的效果。這個(gè)說法正確么?
A.正確
B.錯(cuò)誤
答案:A
如果數(shù)據(jù)是非線性的,回歸模型就很難處理。而樹模型則會(huì)展現(xiàn)出很好的效果。
我希望您能喜歡本次測(cè)驗(yàn),您也會(huì)發(fā)現(xiàn)答案的解釋很有用。這次測(cè)試主要是集中了人們?cè)谌粘J褂脵C(jī)器學(xué)習(xí)過程中遇到的困難。
我們努力減少文章中的錯(cuò)誤,但是由于筆者水平有限,可能文章中會(huì)有問題,所以如果您發(fā)現(xiàn)了,請(qǐng)?jiān)谙旅媪粞?。?dāng)然,如果您有改進(jìn)意見,也歡迎在下面留言。
私募工場(chǎng)ID:Funds-Works所載信息和資料均來源于公開渠道,對(duì)其真實(shí)性、準(zhǔn)確性、充足性、完整性及其使用的適當(dāng)性等不作任何擔(dān)保。在任何情況下,私募工場(chǎng)ID:Funds-Works所推送文章的信息、觀點(diǎn)等均不構(gòu)成對(duì)任何人的投資建議,也不作為任何法律文件。一切與產(chǎn)品條款有關(guān)的信息均以產(chǎn)品合同為準(zhǔn)。私募工場(chǎng)ID:Funds-Works不對(duì)任何人因使用私募工場(chǎng)ID:Funds-Works所推送文章/報(bào)告中的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。
聯(lián)系客服