盡可能簡單地解釋ML模型的工作方式
如果您是數(shù)據(jù)科學(xué)的新手,那么這個標(biāo)題并不是要侮辱您。 這是我的第二篇帖子,主題是一個受歡迎的面試問題,內(nèi)容類似于:'像我五歲那樣向我解釋[插入技術(shù)主題]。'
事實(shí)證明,達(dá)到5歲的理解水平相當(dāng)困難。 因此,盡管這篇文章可能對幼稚園學(xué)習(xí)者來說不是很清楚,但對于沒有或幾乎沒有數(shù)據(jù)科學(xué)背景的人來說,它應(yīng)該是清楚的(如果不是最后,請?jiān)谠u論中讓我知道)。
我將首先解釋什么是機(jī)器學(xué)習(xí)以及不同類型的機(jī)器學(xué)習(xí),然后再介紹常見的模型。 我不會進(jìn)行任何數(shù)學(xué)運(yùn)算,但是將來我會在另一篇文章中考慮這樣做。 請享用!
監(jiān)督學(xué)習(xí)是一種機(jī)器學(xué)習(xí),其中您放入模型中的數(shù)據(jù)被'標(biāo)記'。 標(biāo)記只是簡單地表示觀測結(jié)果(也就是數(shù)據(jù)行)是已知的。 例如,如果您的模型試圖預(yù)測您的朋友是否會打高爾夫球,那么您可能會有諸如溫度,星期幾等變量。如果您的數(shù)據(jù)帶有標(biāo)簽,那么您的變量也將包含 如果您的朋友實(shí)際打高爾夫球,則值為1;否則,則為0。
您可能已經(jīng)猜到了,在涉及標(biāo)簽數(shù)據(jù)時,無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)相反。 在無監(jiān)督學(xué)習(xí)的情況下,您不知道朋友是否打高爾夫球,這取決于計(jì)算機(jī)通過模型找到模式來猜測發(fā)生的事情或預(yù)測發(fā)生的事情。
[需要成人監(jiān)督]
遇到分類問題時,將使用邏輯回歸。 這意味著您的目標(biāo)變量(也就是您要預(yù)測的變量)由類別組成。 這些類別可以是'是/否',也可以是代表客戶滿意度的介于1到10之間的數(shù)字。
邏輯回歸模型使用方程式創(chuàng)建包含數(shù)據(jù)的曲線,然后使用該曲線預(yù)測新觀測的結(jié)果。
> Illustration of Logistic Regression
在上圖中,新觀測值的預(yù)測值為0,因?yàn)樗挥谇€的左側(cè)。 如果查看此曲線所基于的數(shù)據(jù),這是有道理的,因?yàn)樵趫D形的'預(yù)測值為0'區(qū)域中,大多數(shù)數(shù)據(jù)點(diǎn)的y值為0。
線性回歸通常是人們學(xué)習(xí)的最早的機(jī)器學(xué)習(xí)模型之一。 這是因?yàn)閮H使用一個x變量時,它的算法(即幕后方程式)相對容易理解-它只是畫出一條最合適的線,這是在小學(xué)階段教授的一種概念。 然后,該最佳擬合線用于做出有關(guān)新數(shù)據(jù)點(diǎn)的預(yù)測(參見插圖)。
> Illustration of Linear Regression
線性回歸與邏輯回歸相似,但是當(dāng)目標(biāo)變量是連續(xù)的時使用線性回歸,這意味著它可以采用任何數(shù)值。 實(shí)際上,任何具有連續(xù)目標(biāo)變量的模型都可以歸類為'回歸'。 連續(xù)變量的一個例子是房屋的售價。
線性回歸也很容易解釋。 模型方程式包含每個變量的系數(shù),并且這些系數(shù)指示目標(biāo)變量針對自變量(x變量)中的每個小變化而變化了多少。 以房價為例,這意味著您可以看一下回歸方程,并說'哦,這告訴我,每增加1平方英尺的房屋大?。▁變量),便要賣出價格(目標(biāo)變量) 增加25美元。'
該模型可用于分類或回歸! 名稱' K最近的鄰居'并不旨在造成混淆。 該模型首先繪制出所有數(shù)據(jù)。 標(biāo)題的' K'部分是指模型為了確定預(yù)測值應(yīng)使用的最鄰近數(shù)據(jù)點(diǎn)的數(shù)量(請參見下圖)。 您作為未來的數(shù)據(jù)科學(xué)家,可以選擇K,然后您可以使用這些值來查看哪個值提供最佳預(yù)測。
> Illustration of K Nearest Neighbors
K = __圈中的所有數(shù)據(jù)點(diǎn)都會對此新數(shù)據(jù)點(diǎn)的目標(biāo)變量值進(jìn)行'投票'。 得票最多的那個值是KNN為新數(shù)據(jù)點(diǎn)預(yù)測的值。 在上圖中,最近的鄰居中有2個是1類,而鄰居中的1個是2類。因此,模型將為此數(shù)據(jù)點(diǎn)預(yù)測1類。 如果模型試圖預(yù)測數(shù)值而不是類別,則所有'投票'都是對數(shù)值進(jìn)行平均以獲得預(yù)測。
支持向量機(jī)通過在數(shù)據(jù)點(diǎn)之間建立邊界來工作,其中一類的大多數(shù)位于邊界的一側(cè)(在2D情況下也稱為線),而另一類的大多數(shù)位于另一側(cè)。
> Illustration of Support Vector Machines
它的工作方式是機(jī)器尋求找到最大邊距的邊界。 邊距定義為每個類的最近點(diǎn)與邊界之間的距離(請參見插圖)。 然后繪制新的數(shù)據(jù)點(diǎn),并根據(jù)它們落在邊界的哪一側(cè)將其分類。
我對此模型的解釋是針對分類情況的,但是您也可以使用SVM進(jìn)行回歸!
> Illustration of Machine Learning
機(jī)器學(xué)習(xí)是指將大量數(shù)據(jù)加載到計(jì)算機(jī)程序中并選擇一種模型以'擬合'數(shù)據(jù)時,這將使計(jì)算機(jī)(無需您的幫助)可以得出預(yù)測。 計(jì)算機(jī)制作模型的方式是通過算法進(jìn)行的,算法的范圍從簡單的方程式(如直線方程式)到非常復(fù)雜的邏輯/數(shù)學(xué)系統(tǒng),可以使計(jì)算機(jī)獲得最佳預(yù)測。
[謹(jǐn)慎使用]
現(xiàn)在,我們正在嘗試無監(jiān)督的學(xué)習(xí)(又稱'雙關(guān)')。 提醒一下,這意味著我們的數(shù)據(jù)集未標(biāo)記,因此我們不知道觀察結(jié)果。
當(dāng)使用K表示聚類時,必須首先假設(shè)數(shù)據(jù)集中有K個聚類。 由于您不知道數(shù)據(jù)中實(shí)際上有多少個組,因此必須嘗試不同的K值,并使用可視化和度量標(biāo)準(zhǔn)來查看哪個K值有意義。 K表示最適合圓形和相似大小的簇。
K Means算法首先選擇最佳的K個數(shù)據(jù)點(diǎn),以形成K個聚類中每個聚類的中心。 然后,它對每個點(diǎn)重復(fù)以下兩個步驟:
· 將數(shù)據(jù)點(diǎn)分配到最近的集群中心
· 通過獲取此集群中所有數(shù)據(jù)點(diǎn)的平均值來創(chuàng)建一個新中心
> Illustration of K Means Clustering
DBSCAN集群模型與K的不同之處在于,它不需要您輸入K的值,并且它還可以找到任何形狀的集群(請參見下圖)。 您無需輸入簇的數(shù)量,而是輸入簇中所需的最小數(shù)據(jù)點(diǎn)數(shù)以及搜索簇的數(shù)據(jù)點(diǎn)周圍的半徑。 DBSCAN將為您找到集群! 然后,您可以更改用于制作模型的值,直到獲得對數(shù)據(jù)集有意義的聚類為止。
此外,DBSCAN模型會為您分類'噪聲'點(diǎn)(即,遠(yuǎn)離所有其他觀測值的點(diǎn))。 當(dāng)數(shù)據(jù)點(diǎn)非??拷鼤r,此模型比K表示的效果更好。
在我看來,神經(jīng)網(wǎng)絡(luò)是最酷,最神秘的模型。 它們之所以稱為神經(jīng)網(wǎng)絡(luò),是因?yàn)樗鼈兪前凑瘴覀兇竽X中神經(jīng)元的工作方式建模的。 這些模型用于在數(shù)據(jù)集中查找模式。 有時他們發(fā)現(xiàn)人類可能永遠(yuǎn)無法識別的模式。
神經(jīng)網(wǎng)絡(luò)可以很好地處理圖像和音頻等復(fù)雜數(shù)據(jù)。 它們是當(dāng)今我們一直看到的許多軟件功能的背后,從面部識別(不再令人毛骨悚然,F(xiàn)acebook)到文本分類。
對于本文而言,即使只是觸及神經(jīng)網(wǎng)絡(luò)的運(yùn)行方式,也可能過于復(fù)雜。 如果您想了解更多信息,請參閱'初學(xué)者'指南:https://pathmind.com/wiki/neural-network。
希望本文不僅增加了您對這些模型的理解,還使您意識到它們是多么的酷和有用! 當(dāng)我們讓計(jì)算機(jī)進(jìn)行工作/學(xué)習(xí)時,我們可以坐下來看看它能找到什么模式。 有時可能會造成混淆,因?yàn)榧词箤<乙矡o法理解計(jì)算機(jī)得出其結(jié)論的確切邏輯,但是在某些情況下,我們關(guān)心的只是它擅長預(yù)測!
但是,有時候我們確實(shí)會關(guān)心計(jì)算機(jī)如何達(dá)到其預(yù)測,例如是否正在使用模型來確定哪些求職者將獲得第一輪面試。 有關(guān)此的更多信息,以下是TED的精彩演講,您不必成為數(shù)據(jù)科學(xué)家即可理解或欣賞:
與往常一樣,非常感謝您的閱讀,如果發(fā)現(xiàn)有用,請分享這篇文章! :)
所有圖形都是我在www.canva.com上制作的(充滿愛意)。 如果您希望使用它們,請與我聯(lián)系。
還要向Sean Davern,Scott Kroeger,Dotun Opasina和Bhanu Yerra表示感謝,以幫助他們通過我們的數(shù)據(jù)科學(xué)訪談實(shí)踐課程更好地理解這些模型。
(本文翻譯自Megan Dibble的文章《Machine Learning Models Explained to a Five-year-old》,參考:https://towardsdatascience.com/machine-learning-models-explained-to-a-five-year-old-f2f540d9dcea)
聯(lián)系客服