小朋友也能看懂的機(jī)器學(xué)習(xí)

2020.04.14

盡可能簡單地解釋ML模型的工作方式

如果您是數(shù)據(jù)科學(xué)的新手，那么這個標(biāo)題并不是要侮辱您。這是我的第二篇帖子，主題是一個受歡迎的面試問題，內(nèi)容類似于：'像我五歲那樣向我解釋[插入技術(shù)主題]。'

事實(shí)證明，達(dá)到5歲的理解水平相當(dāng)困難。因此，盡管這篇文章可能對幼稚園學(xué)習(xí)者來說不是很清楚，但對于沒有或幾乎沒有數(shù)據(jù)科學(xué)背景的人來說，它應(yīng)該是清楚的（如果不是最后，請?jiān)谠u論中讓我知道）。

我將首先解釋什么是機(jī)器學(xué)習(xí)以及不同類型的機(jī)器學(xué)習(xí)，然后再介紹常見的模型。我不會進(jìn)行任何數(shù)學(xué)運(yùn)算，但是將來我會在另一篇文章中考慮這樣做。請享用！

監(jiān)督機(jī)器學(xué)習(xí)的定義

監(jiān)督學(xué)習(xí)是一種機(jī)器學(xué)習(xí)，其中您放入模型中的數(shù)據(jù)被'標(biāo)記'。標(biāo)記只是簡單地表示觀測結(jié)果（也就是數(shù)據(jù)行）是已知的。例如，如果您的模型試圖預(yù)測您的朋友是否會打高爾夫球，那么您可能會有諸如溫度，星期幾等變量。如果您的數(shù)據(jù)帶有標(biāo)簽，那么您的變量也將包含如果您的朋友實(shí)際打高爾夫球，則值為1；否則，則為0。

無監(jiān)督機(jī)器學(xué)習(xí)的定義

您可能已經(jīng)猜到了，在涉及標(biāo)簽數(shù)據(jù)時，無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)相反。在無監(jiān)督學(xué)習(xí)的情況下，您不知道朋友是否打高爾夫球，這取決于計(jì)算機(jī)通過模型找到模式來猜測發(fā)生的事情或預(yù)測發(fā)生的事情。

監(jiān)督機(jī)器學(xué)習(xí)模型

[需要成人監(jiān)督]

邏輯回歸

遇到分類問題時，將使用邏輯回歸。這意味著您的目標(biāo)變量（也就是您要預(yù)測的變量）由類別組成。這些類別可以是'是/否'，也可以是代表客戶滿意度的介于1到10之間的數(shù)字。

邏輯回歸模型使用方程式創(chuàng)建包含數(shù)據(jù)的曲線，然后使用該曲線預(yù)測新觀測的結(jié)果。

> Illustration of Logistic Regression

在上圖中，新觀測值的預(yù)測值為0，因?yàn)樗挥谇€的左側(cè)。如果查看此曲線所基于的數(shù)據(jù)，這是有道理的，因?yàn)樵趫D形的'預(yù)測值為0'區(qū)域中，大多數(shù)數(shù)據(jù)點(diǎn)的y值為0。

線性回歸

線性回歸通常是人們學(xué)習(xí)的最早的機(jī)器學(xué)習(xí)模型之一。這是因?yàn)閮H使用一個x變量時，它的算法（即幕后方程式）相對容易理解-它只是畫出一條最合適的線，這是在小學(xué)階段教授的一種概念。然后，該最佳擬合線用于做出有關(guān)新數(shù)據(jù)點(diǎn)的預(yù)測（參見插圖）。

> Illustration of Linear Regression

線性回歸與邏輯回歸相似，但是當(dāng)目標(biāo)變量是連續(xù)的時使用線性回歸，這意味著它可以采用任何數(shù)值。實(shí)際上，任何具有連續(xù)目標(biāo)變量的模型都可以歸類為'回歸'。連續(xù)變量的一個例子是房屋的售價。

線性回歸也很容易解釋。模型方程式包含每個變量的系數(shù)，并且這些系數(shù)指示目標(biāo)變量針對自變量（x變量）中的每個小變化而變化了多少。以房價為例，這意味著您可以看一下回歸方程，并說'哦，這告訴我，每增加1平方英尺的房屋大?。▁變量），便要賣出價格（目標(biāo)變量）增加25美元。'

K最近鄰居（KNN）

該模型可用于分類或回歸！名稱' K最近的鄰居'并不旨在造成混淆。該模型首先繪制出所有數(shù)據(jù)。標(biāo)題的' K'部分是指模型為了確定預(yù)測值應(yīng)使用的最鄰近數(shù)據(jù)點(diǎn)的數(shù)量（請參見下圖）。您作為未來的數(shù)據(jù)科學(xué)家，可以選擇K，然后您可以使用這些值來查看哪個值提供最佳預(yù)測。

> Illustration of K Nearest Neighbors

K = __圈中的所有數(shù)據(jù)點(diǎn)都會對此新數(shù)據(jù)點(diǎn)的目標(biāo)變量值進(jìn)行'投票'。得票最多的那個值是KNN為新數(shù)據(jù)點(diǎn)預(yù)測的值。在上圖中，最近的鄰居中有2個是1類，而鄰居中的1個是2類。因此，模型將為此數(shù)據(jù)點(diǎn)預(yù)測1類。如果模型試圖預(yù)測數(shù)值而不是類別，則所有'投票'都是對數(shù)值進(jìn)行平均以獲得預(yù)測。

支持向量機(jī)（SVM）

支持向量機(jī)通過在數(shù)據(jù)點(diǎn)之間建立邊界來工作，其中一類的大多數(shù)位于邊界的一側(cè)（在2D情況下也稱為線），而另一類的大多數(shù)位于另一側(cè)。

> Illustration of Support Vector Machines

它的工作方式是機(jī)器尋求找到最大邊距的邊界。邊距定義為每個類的最近點(diǎn)與邊界之間的距離（請參見插圖）。然后繪制新的數(shù)據(jù)點(diǎn)，并根據(jù)它們落在邊界的哪一側(cè)將其分類。

我對此模型的解釋是針對分類情況的，但是您也可以使用SVM進(jìn)行回歸！

決策樹和隨機(jī)森林

> Illustration of Machine Learning

機(jī)器學(xué)習(xí)是指將大量數(shù)據(jù)加載到計(jì)算機(jī)程序中并選擇一種模型以'擬合'數(shù)據(jù)時，這將使計(jì)算機(jī)（無需您的幫助）可以得出預(yù)測。計(jì)算機(jī)制作模型的方式是通過算法進(jìn)行的，算法的范圍從簡單的方程式（如直線方程式）到非常復(fù)雜的邏輯/數(shù)學(xué)系統(tǒng)，可以使計(jì)算機(jī)獲得最佳預(yù)測。

無監(jiān)督機(jī)器學(xué)習(xí)模型

[謹(jǐn)慎使用]

現(xiàn)在，我們正在嘗試無監(jiān)督的學(xué)習(xí)（又稱'雙關(guān)'）。提醒一下，這意味著我們的數(shù)據(jù)集未標(biāo)記，因此我們不知道觀察結(jié)果。

K均值聚類

當(dāng)使用K表示聚類時，必須首先假設(shè)數(shù)據(jù)集中有K個聚類。由于您不知道數(shù)據(jù)中實(shí)際上有多少個組，因此必須嘗試不同的K值，并使用可視化和度量標(biāo)準(zhǔn)來查看哪個K值有意義。 K表示最適合圓形和相似大小的簇。

K Means算法首先選擇最佳的K個數(shù)據(jù)點(diǎn)，以形成K個聚類中每個聚類的中心。然后，它對每個點(diǎn)重復(fù)以下兩個步驟：

· 將數(shù)據(jù)點(diǎn)分配到最近的集群中心

· 通過獲取此集群中所有數(shù)據(jù)點(diǎn)的平均值來創(chuàng)建一個新中心

> Illustration of K Means Clustering

DBSCAN集群

DBSCAN集群模型與K的不同之處在于，它不需要您輸入K的值，并且它還可以找到任何形狀的集群（請參見下圖）。您無需輸入簇的數(shù)量，而是輸入簇中所需的最小數(shù)據(jù)點(diǎn)數(shù)以及搜索簇的數(shù)據(jù)點(diǎn)周圍的半徑。 DBSCAN將為您找到集群！然后，您可以更改用于制作模型的值，直到獲得對數(shù)據(jù)集有意義的聚類為止。

此外，DBSCAN模型會為您分類'噪聲'點(diǎn)（即，遠(yuǎn)離所有其他觀測值的點(diǎn)）。當(dāng)數(shù)據(jù)點(diǎn)非?？拷鼤r，此模型比K表示的效果更好。

神經(jīng)網(wǎng)絡(luò)

在我看來，神經(jīng)網(wǎng)絡(luò)是最酷，最神秘的模型。它們之所以稱為神經(jīng)網(wǎng)絡(luò)，是因?yàn)樗鼈兪前凑瘴覀兇竽X中神經(jīng)元的工作方式建模的。這些模型用于在數(shù)據(jù)集中查找模式。有時他們發(fā)現(xiàn)人類可能永遠(yuǎn)無法識別的模式。

神經(jīng)網(wǎng)絡(luò)可以很好地處理圖像和音頻等復(fù)雜數(shù)據(jù)。它們是當(dāng)今我們一直看到的許多軟件功能的背后，從面部識別（不再令人毛骨悚然，F(xiàn)acebook）到文本分類。

對于本文而言，即使只是觸及神經(jīng)網(wǎng)絡(luò)的運(yùn)行方式，也可能過于復(fù)雜。如果您想了解更多信息，請參閱'初學(xué)者'指南：https：//pathmind.com/wiki/neural-network。

結(jié)論

希望本文不僅增加了您對這些模型的理解，還使您意識到它們是多么的酷和有用！當(dāng)我們讓計(jì)算機(jī)進(jìn)行工作/學(xué)習(xí)時，我們可以坐下來看看它能找到什么模式。有時可能會造成混淆，因?yàn)榧词箤＜乙矡o法理解計(jì)算機(jī)得出其結(jié)論的確切邏輯，但是在某些情況下，我們關(guān)心的只是它擅長預(yù)測！

但是，有時候我們確實(shí)會關(guān)心計(jì)算機(jī)如何達(dá)到其預(yù)測，例如是否正在使用模型來確定哪些求職者將獲得第一輪面試。有關(guān)此的更多信息，以下是TED的精彩演講，您不必成為數(shù)據(jù)科學(xué)家即可理解或欣賞：

與往常一樣，非常感謝您的閱讀，如果發(fā)現(xiàn)有用，請分享這篇文章！ :)

所有圖形都是我在www.canva.com上制作的（充滿愛意）。如果您希望使用它們，請與我聯(lián)系。

還要向Sean Davern，Scott Kroeger，Dotun Opasina和Bhanu Yerra表示感謝，以幫助他們通過我們的數(shù)據(jù)科學(xué)訪談實(shí)踐課程更好地理解這些模型。

(本文翻譯自Megan Dibble的文章《Machine Learning Models Explained to a Five-year-old》，參考：https://towardsdatascience.com/machine-learning-models-explained-to-a-five-year-old-f2f540d9dcea)

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

每個人都應(yīng)該知道的3種機(jī)器學(xué)習(xí)算法

快速選擇合適的機(jī)器學(xué)習(xí)算法

機(jī)器學(xué)習(xí)算法備忘單！

終于有人把監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和無監(jiān)督學(xué)習(xí)講明白了

腦成像研究中的機(jī)器學(xué)習(xí)

流行的機(jī)器學(xué)習(xí)算法總結(jié)，幫助你開啟機(jī)器學(xué)習(xí)算法學(xué)習(xí)之旅

更多類似文章 >>