David Robinson 的推文:
當(dāng)你把相同的代碼寫了三遍時,請寫一個函數(shù)。當(dāng)你面對面的給過了 3 次完全相同的建議時,請寫一篇博文。
這些領(lǐng)域之間的確有很大程度上的重合。并且,這其中的每一個領(lǐng)域都存在大量的炒作,以至于選擇使用哪一個詞這件事好像是一個跟營銷有關(guān)的問題。但是,它們并不是可以隨意互換的。 即使很難用語言表達出來,大多數(shù)這些領(lǐng)域里的專家都能憑直覺地理解哪些工作屬于數(shù)據(jù)科學(xué),哪些工作屬于機器學(xué)習(xí)或者人工智能。
因此,在這篇文章中,我提出了一個非常簡單的關(guān)于這三個領(lǐng)域之間區(qū)別的定義:
數(shù)據(jù)科學(xué)產(chǎn)生洞見
機器學(xué)習(xí)產(chǎn)生預(yù)測
人工智能產(chǎn)生行動
要澄清的是,這不是一個充分條件:不是所有符合某個定義的東西就屬于這個領(lǐng)域。(算命先生也產(chǎn)生預(yù)測,但我們絕不會認(rèn)為它們在做機器學(xué)習(xí)!)這些定義也不是很好的確定一個人的角色和工作的方式(“我是一個數(shù)據(jù)科學(xué)家嗎?”),這樣的問題是與個人關(guān)注的方向和經(jīng)歷有關(guān)的。(這對于任何一個關(guān)于工作的描述都是對的:我的工作的一部分是寫作但我不是一個專業(yè)的作家)。
但是,我認(rèn)為這些定義在用于區(qū)分這三種類型的工作時是非常有用的。并且當(dāng)你談起這些知識時,這些定義可以讓你避免自己聽起來很蠢。值得注意的是,我采取的是描述主義而不是規(guī)定主義的方法:我感興趣的并不是這些術(shù)語“應(yīng)該是什么意思”,而是這個領(lǐng)域的人通常是如何使用它們的。
數(shù)據(jù)科學(xué)與其他兩個領(lǐng)域的區(qū)別在于它的目標(biāo)其實是人的目標(biāo):獲得洞見和理解。Jeff Leek 對數(shù)據(jù)科學(xué)能達到的哪些類型的洞見有一個非常好的定義 ,包括描述性(“普通客戶有 70%的可能去續(xù)費”),探索性(“不同的銷售人員有不同的續(xù)費率”)和因果關(guān)系(“隨機化的實驗表明分配給 Alice 的客戶比分配給 Bob 的客戶更有可能續(xù)費”)。
再次強調(diào),并非所有產(chǎn)生洞見的都被認(rèn)為是數(shù)據(jù)科學(xué)(數(shù)據(jù)科學(xué)的經(jīng)典定義是,它是統(tǒng)計學(xué)、軟件工程和領(lǐng)域?qū)I(yè)知識的組合)。但是我們可以用這個定義把它與機器學(xué)習(xí)和 AI 區(qū)分開來。主要的區(qū)別在于,在數(shù)據(jù)科學(xué)的工作流程中,總是存在一個人:這個人正在理解這些洞見,觀察圖表,或者從結(jié)論中受益。所以,我們不能說“我們的象棋算法使用數(shù)據(jù)科學(xué)來選擇下一步怎么走”或“Google 地圖使用數(shù)據(jù)科學(xué)來推薦行車路線”。
因此,這個關(guān)于數(shù)據(jù)科學(xué)的定義強調(diào):
統(tǒng)計推斷
數(shù)據(jù)可視化
實驗設(shè)計
領(lǐng)域知識
溝通
數(shù)據(jù)科學(xué)家可能會使用簡單的工具:他們可以報告百分比,并根據(jù) SQL 查詢制作線圖。他們還可以使用非常復(fù)雜的方法:他們可能會使用分布式數(shù)據(jù)存儲來分析數(shù)以萬億計的記錄,開發(fā)尖端的統(tǒng)計技術(shù),并構(gòu)建交互式可視化。無論他們使用什么,他們的目標(biāo)是更好地了解他們的數(shù)據(jù)。
我認(rèn)為機器學(xué)習(xí)是一個關(guān)于預(yù)測的領(lǐng)域:“給定某個具有特定特征的實例 X,預(yù)測 Y”。這些預(yù)測可能是關(guān)于未來(“預(yù)測這個病人是否會患敗血癥”),但是它們也可能是一些計算機不容易理解的特質(zhì)(“預(yù)測這個圖像是否有鳥 ”)。幾乎所有的 Kaggle 比賽都是機器學(xué)習(xí)問題:他們提供一些訓(xùn)練數(shù)據(jù),然后看看參賽選手是否能夠?qū)π碌睦幼龀鰷?zhǔn)確的預(yù)測。
數(shù)據(jù)科學(xué)和機器學(xué)習(xí)之間有很多重疊。例如,邏輯回歸可以用來獲取有關(guān)關(guān)系的洞見(“用戶越有錢,他們購買我們的產(chǎn)品的可能性越大,所以我們應(yīng)該改變我們的營銷策略”),并做出預(yù)測(“這個用戶有 53%的可能性購買我們的產(chǎn)品,所以我們應(yīng)該把這個產(chǎn)品推薦給他“)。
像隨機森林這樣的模型可解釋性稍差。因此,它更像是屬于機器學(xué)習(xí)和深度學(xué)習(xí)等難以解釋的方法。如果你的目標(biāo)是提取洞見而不是做出預(yù)測,這些方法可能會阻礙你的工作。因此,我們可以想象一個包含數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的“光譜”,在其之上,易于解釋的模型偏向于數(shù)據(jù)科學(xué)這邊,而“黑盒”的模型在機器學(xué)習(xí)那一邊。
大多數(shù)從業(yè)者能夠非常舒適地在兩個任務(wù)之間來回切換。我在工作中同時使用了機器學(xué)習(xí)和數(shù)據(jù)科學(xué):我可能會使用 Stack Overflow 的流量數(shù)據(jù)訓(xùn)練出來的模型來確定哪些用戶可能正在尋找工作(這是機器學(xué)習(xí)),但是也會構(gòu)建概括性描述和可視化來檢查為什么模型能夠正確工作(這是數(shù)據(jù)科學(xué))。這項工作是發(fā)現(xiàn)你的模型中的缺陷,并與算法偏差作斗爭的一個重要途徑。這是為什么數(shù)據(jù)科學(xué)家經(jīng)常負(fù)責(zé)開發(fā)產(chǎn)品的機器學(xué)習(xí)組件。
人工智能是迄今為止這三個領(lǐng)域中最古老也是最廣為人知的,因此定義它是最具挑戰(zhàn)性的。這個詞語被大量的炒作所包圍,這要緣于研究人員,記者以及尋求金錢或關(guān)注的創(chuàng)業(yè)公司。
Baron Schwartz 的推文:
當(dāng)你在融資時,它是 AI;當(dāng)你在招聘時,它是機器學(xué)習(xí);當(dāng)你在寫代碼時,它是線性回歸;當(dāng)你在調(diào) bug 時,它是 printf()
這讓我內(nèi)心產(chǎn)生了很不幸的抗拒情緒。因為這意味著一些應(yīng)該被稱為 AI 的工作沒有被當(dāng)作 AI。一些研究人員甚至抱怨 AI 的效應(yīng):“AI 是我們現(xiàn)在還無法做到的”【腳注 1】。那么我們可以把什么工作稱作 AI?
“人工智能”定義中的一個共同點是自主行動主體執(zhí)行或推薦行動(例如 Poole,Mackworth 和 Goebel 1998,Russell and Norvig 2003)。一些我認(rèn)為應(yīng)該描述為 AI 的系統(tǒng)包括:
游戲算法(深藍,AlphaGo)
機器人和控制理論(運動規(guī)劃,行走雙足機器人)
優(yōu)化算法(Google 地圖選擇路線)
自然語言處理(機器人【腳注 2】)
強化學(xué)習(xí)
同時,我們可以看到人工智能有很多與其他領(lǐng)域重疊的部分。深度學(xué)習(xí)在實現(xiàn)機器學(xué)習(xí)到 AI 的跨越這一方面特別引人注意。典型的用例是對數(shù)據(jù)進行訓(xùn)練,然后進行預(yù)測,但它卻在 AlphaGo 等游戲算法中獲得了巨大的成功。(這與之前的游戲系統(tǒng)形成了鮮明的對比,比如深藍,它更專注于探索和優(yōu)化后續(xù)的解空間)。
但他們之間也有區(qū)別。如果我分析一些銷售數(shù)據(jù),發(fā)現(xiàn)某一行業(yè)的客戶比其他行業(yè)的客戶續(xù)費的更多(提取洞見),我的輸出是一些數(shù)字和圖表,而不是一個特定的行動。(主管人員可能會用這些結(jié)論來改變我們的銷售策略,但這種行動不是自主的)這意味著我將會把我的工作形容為數(shù)據(jù)科學(xué)。如果我說:我正在“使用 AI 來改善我們的銷售情況”,那將是非常尷尬的。
Dave Gershgorn 的推文:
請不要看到一個只是訓(xùn)練過模型的人就說他掌握了 AI 的力量。
人工智能和機器學(xué)習(xí)之間的區(qū)別有點微妙,歷史上機器學(xué)習(xí)經(jīng)常被認(rèn)為是 AI 的一個子領(lǐng)域(尤其是計算機視覺被視作一個經(jīng)典的 AI 問題)。但是我認(rèn)為機器學(xué)習(xí)領(lǐng)域在很大程度上已經(jīng)從 AI 脫離開來了,部分原因在于上面所說的抗拒情緒:大多數(shù)從事預(yù)測問題的人不喜歡把自己形容為 AI 研究人員。(有助于實現(xiàn)許多重要的機器學(xué)習(xí)領(lǐng)域突破的知識,大都來自統(tǒng)計學(xué)。而統(tǒng)計學(xué)在 AI 領(lǐng)域的其他部分的出現(xiàn)則很少)。這意味著,如果你可以把一個問題描述為“從 Y 預(yù)測 X”,我建議避免使用 AI 這個術(shù)語。
Amy Hoy 的推文:
按照現(xiàn)在的定義,y=mx+b 是一個可以告訴你一條直線該往哪兒延伸的 AI 機器人。
假設(shè)我們正在建造一輛自動駕駛汽車,并且我們正在研究如何停在標(biāo)志停車旁這樣一個具體的問題。我們需要分別在這三個領(lǐng)域中使用以下技能。
機器學(xué)習(xí):汽車必須使用攝像頭識別停車標(biāo)志。我們構(gòu)建了包含數(shù)百萬個街邊物體照片的數(shù)據(jù)集,并且訓(xùn)練一個算法來預(yù)測其中哪一個有停車標(biāo)志。
人工智能:一旦我們的車能識別停車標(biāo)志,就需要決定何時采取剎車的動作。過早或過晚地剎車都是很危險的,我們需要算法能夠處理不同的道路條件(例如,在一條光滑的道路上,它能認(rèn)識到它現(xiàn)在不能足夠快地減速),這是一個控制理論問題。
數(shù)據(jù)科學(xué):在街頭測試中,我們發(fā)現(xiàn)汽車的性能不夠好,出現(xiàn)了一些本應(yīng)該正確地停在停車標(biāo)志旁的假陰性結(jié)果。分析街上的測試數(shù)據(jù)后,我們獲得的洞見是假陰性所占的比率取決于測試在一天的什么時間進行:自動駕駛車很可能在日出前或日落后錯過停止標(biāo)志。我們意識到,我們的大部分訓(xùn)練數(shù)據(jù)僅包含日光充足環(huán)境下的對象。因此我們構(gòu)建了包含夜間圖像的數(shù)據(jù)集并再次從機器學(xué)習(xí)那一步開始做起。
腳注:
不可否認(rèn)現(xiàn)在很多人把人工智能通常與能夠跨越多個不同領(lǐng)域執(zhí)行任務(wù)的通用人工智能相混淆,甚至與超越人類智能的超人工智能相混淆。這對任何現(xiàn)在稱為“AI”的系統(tǒng)都提出了不切實際的期望。
這里所說的“機器人”是指一個能夠解釋自然語言,然后以某種方式回應(yīng)的系統(tǒng)。它不同于文本挖掘,其目標(biāo)是從中獲取洞見(數(shù)據(jù)科學(xué)),也不同于文本分類,其目標(biāo)是對文檔進行分類(機器學(xué)習(xí))。
查看英文原文:
http://varianceexplained.org/r/ds-ml-ai/
聯(lián)系客服