AI、機(jī)器學(xué)習(xí)、監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、分類、決策樹、聚類、深度學(xué)習(xí)和算法。深度學(xué)習(xí)、機(jī)器學(xué)習(xí),人工智能——這些時(shí)下流行語代表著對(duì)未來技術(shù)的分析。
在這篇文章中,我們將通過現(xiàn)實(shí)世界中成熟的例子來解釋什么是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。這樣做并不是讓你成為數(shù)據(jù)科學(xué)家,而是讓你能夠更清楚的理解你可以用機(jī)器學(xué)習(xí)做些什么。開發(fā)人員越來越容易的使用機(jī)器學(xué)習(xí),在互聯(lián)網(wǎng)時(shí)代,公司產(chǎn)生的每一條信息都有增值的潛力。
在整個(gè)人工智能的歷史長(zhǎng)河中,它一直在不斷的被重定義。AI是一個(gè)總稱(這個(gè)想法始于50年代);機(jī)器學(xué)習(xí)是AI的一個(gè)子集,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的子集。
在1985年,當(dāng)我作為學(xué)生在國(guó)家安全局實(shí)習(xí)的時(shí)候,人工智能也是一個(gè)非常熱門的話題。在美國(guó)國(guó)家安全局,我甚至在AI上觀看了關(guān)于專家系統(tǒng)的MIT視頻課程。專家系統(tǒng)在規(guī)則引擎的指引下獲取專家的知識(shí)。規(guī)則引擎在金融、醫(yī)療保健等行業(yè)中廣泛使用,最近多用于事件處理,但是當(dāng)數(shù)據(jù)發(fā)生變化時(shí),規(guī)則可能變得難以更新和維護(hù)。機(jī)器學(xué)習(xí)的優(yōu)點(diǎn)在于,它是從數(shù)據(jù)中學(xué)習(xí),并且可以提供數(shù)據(jù)驅(qū)動(dòng)的概率預(yù)測(cè)。
根據(jù)Ted Dunning的說法,最好使用精確的術(shù)語如機(jī)器學(xué)習(xí)或深度學(xué)習(xí),而不是術(shù)語“AI”,因?yàn)樵谖覀儼咽虑樽龊弥?,我們稱它為AI;之后,我們總是稱之為其他。AI最好作為下一個(gè)邊界詞。
分析在過去十年中的變化情況如何?
根據(jù)HBR的Thomas Davenport的說法,分析技術(shù)在過去十年中發(fā)生巨大的變化,通過商用服務(wù)器,流分析和改進(jìn)的機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)更強(qiáng)大更便宜的分布式計(jì)算,使公司能夠存儲(chǔ)和分析更多不同類型的數(shù)據(jù)。
傳統(tǒng)上,數(shù)據(jù)存儲(chǔ)在RAID系統(tǒng)中,發(fā)送到多核服務(wù)器進(jìn)行處理,然后再發(fā)送回存儲(chǔ)器,這樣導(dǎo)致數(shù)據(jù)傳輸瓶頸,并且價(jià)格昂貴。通過MapR-XD和MapR-DB等文件和表存儲(chǔ),數(shù)據(jù)分布在集群中,而MapReduce、Pig和Hive等Hadoop技術(shù)將計(jì)算任務(wù)發(fā)送到數(shù)據(jù)所在的位置。
像Apache Spark這樣的技術(shù)通過迭代算法加速分布式數(shù)據(jù)的并行處理,迭代算法通過內(nèi)存緩存數(shù)據(jù),并使用輕量級(jí)的線程。
MapR Event Streams是一種用于大規(guī)模流式傳輸事件數(shù)據(jù)的新型分布式消息傳遞系統(tǒng),它與流式處理(如:Apache Spark流式傳輸或Apache Flink)相結(jié)合,可加快與機(jī)器學(xué)習(xí)模型并行處理實(shí)時(shí)事件的速度。
圖像處理單元(GPU)加快了多核處理器的并行處理。GPU具有大規(guī)模并行架構(gòu),由數(shù)千個(gè)更小、更高效的內(nèi)核組成,設(shè)計(jì)用于同時(shí)處理多個(gè)任務(wù),而CPU由幾個(gè)針對(duì)順序串行處理優(yōu)化的內(nèi)核組成。就潛在性能而言,從Cray-1到今天擁有大量GPU的集群的發(fā)展,大約是地球史上速度最快的計(jì)算機(jī)的一百萬倍,成本只是其中的非常小的一部分。
機(jī)器學(xué)習(xí)使用算法查找數(shù)據(jù)中的模式,然后使用識(shí)別這些模式的模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)。
通常,機(jī)器學(xué)習(xí)分解為以下類型:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)以及半監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)算法使用標(biāo)記數(shù)據(jù),無監(jiān)督學(xué)習(xí)算法是在未標(biāo)記數(shù)據(jù)中找到模式。半監(jiān)督學(xué)習(xí)使用有標(biāo)記和無標(biāo)記數(shù)據(jù)的混合。強(qiáng)化學(xué)習(xí)訓(xùn)練算法基于反饋?zhàn)畲蠡?jiǎng)勵(lì)。
監(jiān)督算法使用有標(biāo)記的數(shù)據(jù),其中輸入和目標(biāo)結(jié)果或標(biāo)簽都提供給算法。
監(jiān)督學(xué)習(xí)也被稱作預(yù)測(cè)建?;蝾A(yù)測(cè)分析,因?yàn)槟銟?gòu)建了一個(gè)能夠進(jìn)行預(yù)測(cè)的模型。預(yù)測(cè)建模的一些示例有分類和回歸。分類基于已知項(xiàng)目的標(biāo)記示例(例如,已知是欺詐的交易)來識(shí)別項(xiàng)目屬于哪個(gè)類別(例如,交易是否為欺詐)。邏輯回歸預(yù)測(cè)概率 - 例如,欺詐的概率。線性回歸預(yù)測(cè)數(shù)值——例如,欺詐數(shù)量。
分類的一些示例包括:
信用卡欺詐檢測(cè)(欺詐,非欺詐)
信用卡申請(qǐng)(信譽(yù)良好,信用不良)
電子郵件垃圾郵件檢測(cè)(垃圾郵件,非垃圾郵件)
文本情緒分析(開心,不開心)
預(yù)測(cè)患者風(fēng)險(xiǎn)(高風(fēng)險(xiǎn)患者,低風(fēng)險(xiǎn)患者)
將腫瘤分類為惡性或非惡性
邏輯回歸(或其他算法)的一些示例包括:
鑒于歷史汽車保險(xiǎn)欺詐性索賠和索賠的特征,如索賠人的年齡,索賠金額和事故的嚴(yán)重程度,預(yù)測(cè)欺詐的可能性。
根據(jù)患者特征,預(yù)測(cè)充血性心力衰竭的可能性。
線性回歸的一些例子包括:
鑒于歷史汽車保險(xiǎn)欺詐性索賠和索賠的特征,如索賠人的年齡,索賠金額和事故的嚴(yán)重程度,預(yù)測(cè)欺詐金額。
鑒于歷史房地產(chǎn)銷售價(jià)格和房屋特征(即平方英尺,臥室數(shù)量,位置),預(yù)測(cè)房屋的價(jià)格。
根據(jù)歷史街區(qū)犯罪統(tǒng)計(jì)數(shù)據(jù),預(yù)測(cè)犯罪率。
下面顯示了其他有監(jiān)督和無監(jiān)督的學(xué)習(xí)算法,我們不會(huì)對(duì)此進(jìn)行討論,但我們將更詳細(xì)地查看每個(gè)算法的一個(gè)示例。
分類示例:借記卡詐騙
分類采用具有已知標(biāo)簽和預(yù)定特征的一組數(shù)據(jù),并學(xué)習(xí)如何基于該信息標(biāo)記新記錄。功能是你提出的“如果”問題,標(biāo)簽是這些問題的答案。
我們來看一下借記卡詐騙的例子。
我們想要預(yù)測(cè)什么?
借記卡交易是否為欺詐。
欺詐是標(biāo)簽(真或假)。
您可以使用哪些“如果”問題或?qū)傩赃M(jìn)行預(yù)測(cè)?
今天花費(fèi)的金額是否大于歷史平均值嗎?
今天在多個(gè)國(guó)家都有交易嗎?
今天的交易數(shù)量是否大于歷史平均值?
今天新商家類型的數(shù)量是否與過去三個(gè)月相比較高?
今天是否有來自具有風(fēng)險(xiǎn)類別代碼的商家的多次購(gòu)買?
與歷史上使用PIN相比,今天是否有不尋常的簽名活動(dòng)?
與過去三個(gè)月相比,是否有新的州購(gòu)買?
與過去三個(gè)月相比,今天是否有外國(guó)購(gòu)買?
要構(gòu)建分類器模型,您需要提取最有助于分類的感興趣的特征。
決策樹創(chuàng)建一個(gè)模型,根據(jù)多個(gè)輸入特征預(yù)測(cè)類或標(biāo)簽。決策樹的工作原理是評(píng)估包含每個(gè)節(jié)點(diǎn)的特征的問題,并根據(jù)答案選擇到下一個(gè)節(jié)點(diǎn)的分支。下面顯示了用于預(yù)測(cè)借記卡欺詐的可能決策樹。特征問題是節(jié)點(diǎn),答案“是”或“否”是樹節(jié)點(diǎn)到子節(jié)點(diǎn)的分支。(請(qǐng)注意,真正的樹會(huì)有更多節(jié)點(diǎn)。)
Q1:24小時(shí)內(nèi)的花費(fèi)是否大于平均水平?
是
Q2:今天有風(fēng)險(xiǎn)的商家有多次購(gòu)買?
是欺詐= 90%
不欺詐= 50%
決策樹很受歡迎,因?yàn)樗鼈円子诳梢暬徒忉尅Mㄟ^將算法與集合相結(jié)合的方法,可以提高模型的準(zhǔn)確性。集合示例是隨機(jī)森林,形成了決策樹的多個(gè)隨機(jī)子集。
無監(jiān)督學(xué)習(xí)(有時(shí)也稱為描述性分析)沒有提前提供標(biāo)記數(shù)據(jù)。這些算法發(fā)現(xiàn)輸入數(shù)據(jù)中的相似性或規(guī)律性。無監(jiān)督學(xué)習(xí)的一個(gè)例子是根據(jù)購(gòu)買數(shù)據(jù)對(duì)類似客戶進(jìn)行分組。
在聚類中,算法通過分析輸入示例之間的相似性將輸入分類。一些聚類的示例包括:
搜索結(jié)果分組
對(duì)類似客戶進(jìn)行分組
對(duì)類似患者進(jìn)行分組
文本分類
網(wǎng)絡(luò)安全異常檢測(cè)(發(fā)現(xiàn)非相似的東西,來自群集的異常值)
K-means算法將觀測(cè)值分組為K個(gè)集群,其中每個(gè)觀測(cè)值屬于具有距其集群中心最近平均值的集群。
聚類的一個(gè)例子是希望對(duì)其客戶進(jìn)行細(xì)分以便更好地定制產(chǎn)品和產(chǎn)品的公司。客戶可以按人口統(tǒng)計(jì)和購(gòu)買歷史等功能進(jìn)行分組。無監(jiān)督學(xué)習(xí)的聚類通常與監(jiān)督學(xué)習(xí)相結(jié)合,以獲得更有價(jià)值的結(jié)果。例如,在該banking customer 360的用例中,首先根據(jù)調(diào)查的答案對(duì)客戶進(jìn)行分段。對(duì)客戶組進(jìn)行分析并標(biāo)記客戶角色。然后,這些標(biāo)簽通過客戶ID與賬戶類型和購(gòu)買等功能相關(guān)聯(lián)。最后,有監(jiān)督的機(jī)器學(xué)習(xí)應(yīng)用于標(biāo)記的客戶并進(jìn)行測(cè)試,允許將調(diào)查客戶角色與他們的銀行行為聯(lián)系起來并提供見解。
深度學(xué)習(xí)是多層神經(jīng)網(wǎng)絡(luò)的名稱,多層神經(jīng)網(wǎng)絡(luò)是由輸入和輸出之間的幾個(gè)節(jié)點(diǎn)“隱藏層”組成的網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)有很多變種,你可以在這個(gè)神經(jīng)網(wǎng)絡(luò)備忘單上學(xué)到更多。改進(jìn)的算法,GPU和大規(guī)模并行處理(MPP)已經(jīng)產(chǎn)生了具有數(shù)千層的網(wǎng)絡(luò)。每個(gè)節(jié)點(diǎn)獲取輸入數(shù)據(jù)和權(quán)重,并將置信度分?jǐn)?shù)輸出到下一層中的節(jié)點(diǎn),直到到達(dá)輸出層,其中計(jì)算得分的誤差。在一個(gè)稱為梯度下降的過程中進(jìn)行反向傳播,錯(cuò)誤再次通過網(wǎng)絡(luò)發(fā)回,并調(diào)整權(quán)重,改善模型。該過程重復(fù)數(shù)千次,根據(jù)其產(chǎn)生的誤差調(diào)整模型的權(quán)重,直到不再減少誤差為止。
在此過程中,層學(xué)習(xí)模型的最佳特征,其優(yōu)點(diǎn)是不需要預(yù)先確定特征。但是,這樣做的缺點(diǎn)是模型的決策無法解釋。因?yàn)榻忉寷Q策很重要,研究人員正在開發(fā)新方法來理解深度學(xué)習(xí)的黑盒子。
深度學(xué)習(xí)算法有不同的變體,可以與MapR的分布式深度學(xué)習(xí)快速入門解決方案一起使用,以構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用程序,如下所示:
用于改進(jìn)傳統(tǒng)算法的深度神經(jīng)網(wǎng)絡(luò)
財(cái)務(wù):通過識(shí)別更復(fù)雜的模式來增強(qiáng)欺詐檢測(cè)
制造:基于更深的異常檢測(cè),增強(qiáng)缺陷識(shí)別
用于圖像的卷積神經(jīng)網(wǎng)絡(luò)
零售:用于衡量流量的視頻的店內(nèi)活動(dòng)分析
衛(wèi)星圖像:標(biāo)記地形和分類對(duì)象
汽車:識(shí)別道路和障礙物
醫(yī)療保健:X射線,掃描等的診斷機(jī)會(huì)
保險(xiǎn):根據(jù)照片估算索賠嚴(yán)重程度
用于測(cè)序數(shù)據(jù)的遞歸神經(jīng)網(wǎng)絡(luò)
客戶滿意度:將語音數(shù)據(jù)轉(zhuǎn)錄為文本以進(jìn)行NLP分析
社交媒體:社交和產(chǎn)品論壇帖子的實(shí)時(shí)翻譯
照片字幕:搜索圖像檔案以獲得新的見解
財(cái)務(wù):通過時(shí)間序列分析(也是增強(qiáng)的推薦系統(tǒng))預(yù)測(cè)行為
這些互聯(lián)網(wǎng)原生企業(yè)的共同特征是:對(duì)新技術(shù)的充分應(yīng)用:
競(jìng)爭(zhēng)對(duì)手以一種完全不同的業(yè)務(wù)模式闖入行業(yè),你發(fā)現(xiàn)自己完全沒有招架之力!不管是個(gè)人,還是所在行業(yè),都應(yīng)該積極擁抱人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等新技術(shù)的到來!
聯(lián)系客服