在大數(shù)據(jù)的知識體系中,有很多是需要我們學(xué)習(xí)的知識,同時涉及到了不少的技術(shù)以及很多的理論。在這些知識中,有兩個知識點十分重要,那就是辛普森悖論和樸素貝葉斯。在這篇文章中我們給大家介紹一下關(guān)于辛普森悖論和樸素貝葉斯的相關(guān)知識,希望這篇文章能夠更好地幫助大家認(rèn)識和認(rèn)知大數(shù)據(jù)。
1.辛普森悖論
辛普森悖論辛普森悖論亦有人譯為辛普森詭論,為英國統(tǒng)計學(xué)家E.H.辛普森提出的悖論,即在某個條件下的兩組數(shù)據(jù),分別討論時都會滿足某種性質(zhì),可是一旦合并考慮,卻可能導(dǎo)致相反的結(jié)論,當(dāng)人們嘗試探究兩種變量是否具有相關(guān)性的時候,會分別對之進(jìn)行分組研究。辛普森悖論是在這種研究中,在某些前提下有時會產(chǎn)生的一種現(xiàn)象。即在分組比較中都占優(yōu)勢的一方,會在總評中反而是失勢的一方。這種現(xiàn)象聽起來不可思議,但是確實存在。該現(xiàn)象于20世紀(jì)初就有人討論,但一直到1951年E.H.辛普森在他發(fā)表的論文中,該現(xiàn)象才算正式被描述解釋。后來就以他的名字命名該悖論。為了避免辛普森悖論的出現(xiàn),就需要斟酌各分組的權(quán)重,并乘以一定的系數(shù)去消除以分組數(shù)據(jù)基數(shù)差異而造成的影響。同時必需了解清楚情況,是否存在潛在因素,綜合考慮。而在數(shù)據(jù)分析中我們必須要考慮到這個現(xiàn)象,這樣我們才能夠做好大數(shù)據(jù)的工作。
2.樸素貝葉斯
樸素貝葉斯模型的英文就是Naive Bayesian Model,簡稱NBM。貝葉斯分類是一系列分類算法的總稱,這類算法均以貝葉斯定理為基礎(chǔ),故統(tǒng)稱為貝葉斯分類。樸素貝葉斯算法是其中應(yīng)用最為廣泛的分類算法之一。樸素貝葉斯分類器基于一個簡單的假定:給定目標(biāo)值時屬性之間相互條件獨立。而樸素貝葉斯是大數(shù)據(jù)和數(shù)據(jù)分析中經(jīng)常使用的模型,在大數(shù)據(jù)和數(shù)據(jù)分析中起到十分重要的作用。
在這篇文章中通過為大家介紹樸素貝葉斯模型和辛普森悖論的知識,相信大家對這兩個知識點有了一定的了解,同時這兩個知識在數(shù)據(jù)分析和大數(shù)據(jù)中經(jīng)常被人們提到,由此可見這兩個知識點的重要性,所以建議大家學(xué)習(xí)大數(shù)據(jù)的時候一定不要錯過這些知識的掌握。
聯(lián)系客服