九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
【書摘】數(shù)據(jù)挖掘中的算法

今天給大家推薦《數(shù)據(jù)挖掘:你必須知道的32個經(jīng)典案例》,并摘取書中的一些數(shù)據(jù)清洗和數(shù)據(jù)分析算法推送給大家。

1.數(shù)據(jù)清洗的作用:填充空缺值、平滑噪點、識別顯著離群點。在個別空缺值處理中通常采用人工規(guī)則、平均值、中位數(shù)、拉格郎日插值、牛頓插值、線性規(guī)則求解等方法。

2.噪聲平滑:其中箱形技術(shù)用得比較多,平滑方法有滑動窗口法、按箱平均值/中值平滑法等。

3.離群點檢測:其經(jīng)典算法是K近鄰算法(KNN,還有一元/多元回歸分析來擬合光滑數(shù)據(jù),從而使噪聲點暴露出來。

4.數(shù)據(jù)規(guī)約:用于降低數(shù)據(jù)量、提取核心信息。其中屬性/特征維度規(guī)約是刪除不相關(guān)/不重要的屬性來減少數(shù)據(jù)量,通常方法是子集選擇和樹形合并,即通過決策樹歸納、前向選擇、向后刪除等完成集合篩選。

5.數(shù)據(jù)壓縮:小波變換是數(shù)據(jù)壓縮領(lǐng)域的典型算法,對于有稀疏、傾斜等情況出現(xiàn)的數(shù)據(jù)集,基于小波變換的有損壓縮方法往往可以得到很好的結(jié)果。主成分分析方法(PCA)將原有的多維特征根據(jù)重要性排序,只提取重點關(guān)注的特征,它和它的擴(kuò)展算法在實際中應(yīng)用非常廣泛。

6.數(shù)值規(guī)約:小到將整型數(shù)據(jù)屬性類型從long變?yōu)?/span>int,大到使用對數(shù)線性模型等方法將數(shù)據(jù)劃分為多維空間并進(jìn)行相應(yīng)規(guī)約。

7.數(shù)據(jù)離散:用于解決特征中連續(xù)特征比例過高的問題,其主要思路是基于分箱或直方圖分析的方法將連續(xù)特征變?yōu)殡x散特征,從而達(dá)到減少連續(xù)特征的目的。這種方法對于處理連續(xù)特征比較困難的ID3決策樹算法,有非常大的幫助。

8.異常值:遠(yuǎn)離大部分樣本數(shù)據(jù)的數(shù)據(jù)值。

9.對比分析:常見的數(shù)據(jù)分析方法,通常局限于數(shù)值型數(shù)據(jù)中。它將兩個以上的相似數(shù)據(jù)進(jìn)行比較和分析。最重要的是選擇合適的對比標(biāo)準(zhǔn)。

10.相關(guān)性分析:對存在關(guān)聯(lián)關(guān)系的變量進(jìn)行分析,進(jìn)而用量化的方式判斷變量的相關(guān)性程度的分析方法。缺點:對數(shù)值型數(shù)據(jù)分析效果較好,對其他數(shù)據(jù)則可能出現(xiàn)偏差。同時還受數(shù)據(jù)樣本量影響較大,較小的樣本相關(guān)系數(shù)常常較高。

11.相關(guān)系數(shù):經(jīng)典方法有皮爾遜相關(guān)系數(shù)、肯德爾相關(guān)系數(shù)、斯皮爾曼相關(guān)系數(shù)、等級相關(guān)系數(shù)、偏相關(guān)系數(shù)。

12.回歸分析法:是經(jīng)典的因果分析法。根據(jù)自變量個數(shù)的不同,將回歸分析分為一元回歸和多元回歸分析?;貧w分析通過擬合線或面乃至高維結(jié)構(gòu),使得數(shù)據(jù)點到線、面和高維結(jié)構(gòu)的距離最小。

13.皮爾遜相關(guān)系數(shù):也叫簡單相關(guān)系數(shù),是一種用途最廣泛的相關(guān)系數(shù)。對絕大多數(shù)數(shù)值型變量都適用。皮爾遜相關(guān)系數(shù)總是在-1~1之間,系數(shù)為正表示兩個變量正相關(guān),即一個變量增大時另外一個變量也增大。系數(shù)為負(fù)表示兩個變量為負(fù)相關(guān),即一個變量增大時另外一個變量則會減小。系數(shù)大于0.6表示兩個變量為強(qiáng)關(guān)聯(lián),系數(shù)小于0.4表示兩個變量為弱關(guān)聯(lián)。

14.時間序列分析:根據(jù)過去的變化趨勢預(yù)測未來的發(fā)展,通常用于研究一定時間內(nèi)的社會事務(wù)問題或金融經(jīng)濟(jì)問題。在時間序列分析中,歷史數(shù)據(jù)需要滿足三條前提假設(shè):過去的數(shù)據(jù)規(guī)律會延續(xù)到未來;數(shù)據(jù)呈現(xiàn)明顯的周期性;在某一周期內(nèi),數(shù)據(jù)的變化趨勢符合某種規(guī)律。根據(jù)所平均的數(shù)據(jù)是全部數(shù)據(jù)還是部分?jǐn)?shù)據(jù),時間序列模型可分為序時平均數(shù)法和移動平均法;根據(jù)不加權(quán)還是令時間較近的數(shù)據(jù)權(quán)重更大,時間序列模型可以分為簡單平均法和加權(quán)平均法。

缺點:對于周期性和趨勢性的變化不敏感,只有周期性和趨勢性都符合固定規(guī)律的數(shù)據(jù)才能夠得到可信的時間序列模型。

15.線性回歸分析:一種研究自變量和因變量之間因果關(guān)系的分析方法。當(dāng)自變量只有一個時,稱為一元線性回歸分析,自變量有多個時,稱為多元線性回歸分析。線性回歸分析使用最小二乘法度量散點到回歸線的距離,并尋找使得直線到所有散點的距離之和達(dá)到最小的解,以此為依據(jù)寫出距離所有散點最近的回歸線的方程。

缺點:只能用于分析線性關(guān)系。每個自變量和因變量所成的散點圖都應(yīng)當(dāng)圍繞一條直線波動。對于非線性分布,如指數(shù)分布或二次分布,就應(yīng)當(dāng)將其轉(zhuǎn)化為線性分布后再精選分析。線性回歸分析要求所有的自變量相互獨立。若自變量之間有相關(guān)性,就需要使用因子分析等方法消除自變量相關(guān)帶來的影響。

16.Logistic回歸分析:適用于因變量為分類變量的情況。使用一個對數(shù)轉(zhuǎn)換,將事件發(fā)生的概率轉(zhuǎn)換為成因變量,是一種非線性回歸。具有靈活多變可擬合復(fù)雜的曲線的特點。能夠比較不同自變量對因變量影響的強(qiáng)弱。也能比較不同自變量組合有什么差別。

缺點:適用范圍不廣泛,通常用于流行病學(xué)研究。也用于研究社會科學(xué)問題。

17.降維算法:提取數(shù)據(jù)中重要特征并摒棄無用特征,以加快計算速度并為后序分析提供類似數(shù)據(jù)清洗的工作。

18.線性降維算法:是降維算法中最早被使用的算法。從子集選擇(屬性選擇)開始,慢慢演變發(fā)展出因子分析、主成分分析等可解釋性強(qiáng)且效果不錯的算法。

缺點:忽略了特征之間的非線性關(guān)系。

19.因子分析:基本思想是根據(jù)特征相關(guān)性將原始特征分組,使得同組內(nèi)的特征相關(guān)性盡可能高,不同組內(nèi)的特征相關(guān)性盡可能低。此算法在心理學(xué)領(lǐng)域得到廣泛應(yīng)用。由于因子分析需要預(yù)先做好的假設(shè),對誤差有特殊要求等原因,它的計算需要很多輪迭代,非常復(fù)雜。因子分析也是降維算法明星。因子分析可以提前將多個相關(guān)的自變量映射成較少的不相關(guān)的自變量,從而提高回歸分析的準(zhǔn)確性。

缺點:構(gòu)建因子模型需要非常大的計算量,因此因子分析局限于小樣本數(shù)據(jù)分析;因子分析十分依賴數(shù)據(jù)真實性;因子分析依賴數(shù)據(jù)分析師經(jīng)驗,若將不該放在一起的變量放到一個因子中,結(jié)論就會大錯特錯。

20.主成分分析法:是目前典型降維算法,擴(kuò)展得到奇異值分解法以及判別分析法。在減少數(shù)據(jù)集特征維度的同時,盡可能保持?jǐn)?shù)據(jù)集對方差貢獻(xiàn)最大的特征。其基本步驟:(1)數(shù)據(jù)去中心化;(2)構(gòu)建協(xié)方差矩陣;(3)做特征值分解,得到特征值和對應(yīng)的特征向量;(4)將特征值從大到小排序,特征值大的維度即對應(yīng)數(shù)據(jù)集中的重要特征,特征值小的維度即對應(yīng)數(shù)據(jù)集中的次要特征,對數(shù)據(jù)集特征進(jìn)行篩除。

21.非線性降維算法:典型的非線性降維算法有“核方法+線性降維算法”、“流形學(xué)習(xí)”等。

22.核方法+線性降維算法:通過利用核函數(shù)的性質(zhì)將低維輸入空間(歐式空間或離散集合)映射到高維特征空間(希爾伯特空間),在新的特征空間中數(shù)據(jù)即從線性不可分變成了線性可分了。

23.流形學(xué)習(xí):等距離映射是流形學(xué)習(xí)代表算法,它的作用是將流形上的位置映射到歐式空間中(如將一個三維足球的每塊格子映射到二維平面中),它是多維尺度分析方法的改進(jìn)算法,用測地線距離代替歐式距離作為空間距離的表示。

缺點:由于流形方法是基于數(shù)據(jù)分布在一個流形上的假設(shè),而實際情況并不能確定這個假設(shè)的存在。

24.粗糙集算法:可以同時研究多個自變量和多個因變量之間的關(guān)系。使用粗糙集算法的前提是將原始數(shù)據(jù)離散化為算法可以識別的數(shù)據(jù)。粗糙集可以完成屬性簡約、測度屬性重要性、提取決策規(guī)則工作。該算法具有計算速度快、準(zhǔn)確度高、結(jié)果易于理解等優(yōu)點。

缺點:決策過程十分簡單,決策規(guī)則不夠穩(wěn)定,不同的數(shù)據(jù)集會導(dǎo)致不同的決策規(guī)則;當(dāng)訓(xùn)練數(shù)據(jù)增多時,粗糙集的精確度會得到提高,這意味著粗糙集需要大量有效的訓(xùn)練數(shù)據(jù);粗糙集只能處理離散數(shù)據(jù),如果不能較合理地將連續(xù)數(shù)據(jù)離散化,將極大影響粗糙集的結(jié)果;當(dāng)條件屬性過多時,屬性組合會無限多,簡約屬性將變得十分困難。

25.最優(yōu)尺度分析:通過主成分分析法來描述多個分類變量不同水平之間的相關(guān)性,它用圖形反應(yīng)變量之間的關(guān)系,兼具理論基礎(chǔ)堅實和結(jié)果易解讀兩方面優(yōu)點,在市場細(xì)分、產(chǎn)品定位、品牌形象、顧客滿意度研究方面都有深遠(yuǎn)影響。

缺點:不能和其他分析方法產(chǎn)生協(xié)作關(guān)系,也不能像因子分析那樣為其他分析方法進(jìn)行數(shù)據(jù)處理工作;能分析的變量數(shù)有限;不能回答定量問題,也不能回答兩個變量的相關(guān)程度有多高。

26.遺傳算法:是一種梯度上升的最優(yōu)化算法,每次繁衍都會得到比上一次繁衍更好的結(jié)果,適合解決各類復(fù)雜的非線性問題。遺傳算法不作用于單獨的解,而是從一組解迭代到另一組解;遺傳算法不需要過多的先驗知識,只需設(shè)定號適應(yīng)度函數(shù)即可完成求解過程;遺傳算法不會陷入局部最優(yōu)解,而是直接得出全局最優(yōu)解;遺傳算法能提供的解不是唯一的。傳算法具有高度并行性,因此可以在分布式系統(tǒng)上實現(xiàn)遺傳算法,可以處理更龐大的數(shù)據(jù)量。

缺點:傳算法的數(shù)學(xué)基礎(chǔ)不完善,它主要使用概率知識來求得最優(yōu)解;傳算法過度依賴二進(jìn)制表達(dá),不使用二進(jìn)制表達(dá)時如何推廣遺傳算法仍是一個難題。工程師嘗試使用格雷編碼和實數(shù)編碼表示染色體。

27.決策樹分析:決策樹是一種電信的分類方法,是最著名的模式識別算法之一。它能夠從數(shù)據(jù)集中抽取有價值的規(guī)則,并廣泛用于各類決策問題。與粗糙集和遺傳算法不同,決策樹在判斷決策條件時,是按照順序進(jìn)行判斷的。即,決策樹的最終結(jié)果和決策樹的條件羅列順序有關(guān)。即便數(shù)據(jù)集和決策變量都完全相同,但改變決策條件的順序,就有可能改變決策結(jié)果。為了得到最優(yōu)的決策結(jié)果,需要引入熵和信息增益的概念。在二分類決策熵中,某個變量所包含的變量越單一,其熵就越低;某個變量所包含的變量越混雜,其熵就越高。只有熵還不足以確定決策樹中變量的排序,而信息增益算法則可計算每個變量的數(shù)值。在安排決策樹時可按照信息增益大到小的順序?qū)Q策變量加以排序,并從信息增益較大的變量開始進(jìn)行決策,即可保證決策樹的結(jié)果最優(yōu)化。決策樹是一種非常實用的逼近離散函數(shù)值的方法。本質(zhì)上是一種映射關(guān)系,將對象的一組屬性和對象的值映射到一起,就是一組映射關(guān)系。決策樹能夠解決分類問題、預(yù)測問題和回歸問題。決策樹具有適合處理多類變量、對異常值不敏感、準(zhǔn)確度高等優(yōu)點。

缺點:一個決策樹僅能輸出一個結(jié)果,需要輸出多個結(jié)果時,需要構(gòu)建多個決策樹。決策樹在訓(xùn)練時需要大量的數(shù)據(jù)和計算空間。為了得到最好的決策變量排序順序,決策樹需要反復(fù)計算變量的熵和信息增益。決策樹的剪枝技術(shù)幫助決策樹使用最少的節(jié)點完成分類的任務(wù),但錯誤的剪枝會使得決策樹的結(jié)果準(zhǔn)確性大幅度下降,同時剪枝過程需要大量的計算。

28.K均值聚類分析:最簡單的一種聚類方法,在二維平面或者三維平面上,聚類結(jié)果最直觀易理解。K均值聚類中聚類的個數(shù)由數(shù)據(jù)分析師手動指定,一般是根據(jù)原始數(shù)據(jù)的形成散點圖觀察得到。有的很容易得到,有的需要反復(fù)嘗試。K均值聚類是一種迭代算法,需多次調(diào)整各個類別的中心和所屬的散點。K均值聚類原理簡單,實現(xiàn)程序簡潔,能處理大多數(shù)的分類問題。優(yōu)點是計算速度快、易解釋性強(qiáng)、能夠處理多種數(shù)據(jù)類型。

缺點:只對圓形或橢圓形的散點分布敏感,若三代分布式不規(guī)則的月牙形或者環(huán)形,K均值聚類就會犯錯,此時適合使用密度聚類方法;K均值聚類要求每個類別中的散點數(shù)量都差不多。如果有一小部分點單獨聚成一類,K均值聚類就會把它們打散并和其他類別合并;K均值聚類需要手動設(shè)定聚類個數(shù),當(dāng)處于二維或者三維時,問題不大,但處于更高維數(shù)時,人眼就不能直觀判斷聚類結(jié)果是否合理;K均值聚類對噪聲點和離群值較為敏感,以及要求一定數(shù)據(jù)量,否則聚類結(jié)果就不理想。

29.順序分析:是關(guān)聯(lián)分析的一種,能夠在大量數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)的關(guān)聯(lián)性或相關(guān)性。順序分析關(guān)心數(shù)據(jù)的縱向排列,即一件事情發(fā)生后緊接著會發(fā)生什么事情。順序分析所使用的頻繁模式算法是一種實用且簡單的算法,比如輸入法利用順序分析挖掘用戶固有的輸入習(xí)慣。

缺點:結(jié)果準(zhǔn)確度和計算效率是順序分析中一個不可調(diào)和的矛盾;順序分析僅能發(fā)現(xiàn)事件和事件之間的相關(guān)性,而不能發(fā)現(xiàn)一個事件引發(fā)另外一個事件的原因;順序分析只有在樣本積累足夠多時才能起到作用。

30.文本分析:是一系列算法的合稱,需要完成分詞、清洗、信息提取等工作。這些可以通過K均值算法、支持向量機(jī)或樸素貝葉斯算法完成。

31.協(xié)同過濾:是利用集體智慧編程的一種典型算法,但它保留了一定的個體特征,因此可以用于預(yù)測每個人的品味偏好。優(yōu)點在于能夠基于抽象概念和信息來過濾某些難以分析的內(nèi)容。為用戶瀏覽到更多感興趣的品牌提供了可能。

32.支持向量機(jī):能夠同時最小化經(jīng)驗誤差并最大化幾何誤差,在保證分類效果的同時,讓兩個類別的樣本盡可能遠(yuǎn)離。和線性分類器相比,它具有較高的精度和靈敏度,因此常常應(yīng)用于對分類結(jié)果要求較高的地方。在信息生物學(xué)、工業(yè)勘探和文本分析領(lǐng)域都有重要應(yīng)用。

33.感知器神經(jīng)網(wǎng)絡(luò):一種基礎(chǔ)神經(jīng)網(wǎng)絡(luò),使用BP算法優(yōu)化后,感知器神經(jīng)網(wǎng)絡(luò)將具有更好的非線性映射能力、泛化能力和容錯能力,這是由于BP算法利用了誤差的反向傳播思想,將誤差平攤給隱含層。

缺點:不能準(zhǔn)確預(yù)測較長時間內(nèi)的函數(shù);神經(jīng)網(wǎng)絡(luò)訓(xùn)練時間較長,當(dāng)數(shù)據(jù)較少且隱含層和神經(jīng)元都較少時,神經(jīng)網(wǎng)絡(luò)能夠在幾分鐘內(nèi)訓(xùn)練好,并且能夠很好解決問題;當(dāng)數(shù)據(jù)很多、隱含層很多、神經(jīng)元很多,即啟動典型的深度學(xué)習(xí)模式時,神經(jīng)網(wǎng)絡(luò)就需要訓(xùn)練很長時間;另外神經(jīng)網(wǎng)絡(luò)的好壞依賴于初始值的設(shè)定,這是因為誤差曲面會將神經(jīng)網(wǎng)絡(luò)引入局部最優(yōu)值。

34.自主神經(jīng)網(wǎng)絡(luò):將網(wǎng)絡(luò)切割為一個一個小的部分,每部分對應(yīng)一種模式,這種結(jié)構(gòu)使自組織神經(jīng)網(wǎng)絡(luò)在分析比較、尋找規(guī)律和正確歸類等方面具有特殊的優(yōu)勢。其最重要的部分在于設(shè)計神經(jīng)元個數(shù)和神經(jīng)元排列方式。
35.RBM算法:全稱是受限玻爾茲曼機(jī)算法,其一個重要用途就是為神經(jīng)網(wǎng)絡(luò)做預(yù)處理,替神經(jīng)網(wǎng)絡(luò)找出最佳的初始值。RBM算法利用了統(tǒng)計熱力學(xué)的思想。它將可視層的數(shù)據(jù)轉(zhuǎn)化為隱含層的數(shù)據(jù),通過監(jiān)督學(xué)習(xí)的方法進(jìn)行分類或回歸。由于隱含層的節(jié)點數(shù)一般少于可視層,因此RBM算法就完成了降維工作;通過能量函數(shù)的最優(yōu)化,RBM算法可以求出自變量和因變量之間的權(quán)重矩陣和偏移量,用兩者作為神經(jīng)網(wǎng)絡(luò)的初始值,可以是神經(jīng)網(wǎng)絡(luò)進(jìn)入全局最優(yōu)值點,而不會陷入局部最優(yōu)值點處。RBM算法能夠計算自變量和因變量的聯(lián)合概率,以及兩者構(gòu)成的條件概率。有了這些概率,RBM算法可以像貝葉斯網(wǎng)絡(luò)或者隱馬爾可夫鏈那樣計算每種狀態(tài)出現(xiàn)的概率,即作為一個生成模型或分類模型來使用。最大優(yōu)點是能求得全局最優(yōu)值

36.判別分析:是一種典型的以統(tǒng)計理論為基礎(chǔ)的分類方法,它所使用的降維方法和主成分分析十分類似,但主成分分析的目標(biāo)是將不同維度的信息整合為一個維度,而判別分析的目標(biāo)是將不同類別的數(shù)據(jù)盡量分離。和回歸分析類似,判別分析有十分嚴(yán)苛的假設(shè)條件。判別分析假設(shè)分組類型在兩種以上,且每個類別都具有一定的樣本數(shù)量;各組樣本的協(xié)方差矩陣相等,且各組樣本服從正態(tài)分布;判別分析中涉及的各個變量不能相關(guān)。判別分析擅長處理那些樣本數(shù)據(jù)量介于多和少之間、自變量個數(shù)較多問題。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
一文了解機(jī)器學(xué)習(xí)知識點及其算法(附python代碼)
機(jī)器學(xué)習(xí)算法集錦:從貝葉斯到深度學(xué)習(xí)及各自優(yōu)缺點
數(shù)據(jù)科學(xué)家必會10個統(tǒng)計分析方法
學(xué)會數(shù)據(jù)分析背后的挖掘思維,分析就完成了一半!
干貨 | 數(shù)據(jù)挖掘中的十大實用方法
機(jī)器學(xué)習(xí)10大經(jīng)典算法詳解
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服