作為數(shù)據(jù)分析師,具有編程能力很重要。曾經(jīng)很多次你使用過非編程工具,如Excel,但是最好和最常用的一些工具,如Pandas、Numpy,以及其他一些庫,都是基于編程的。使用這些基于編程的工具,你能夠做更深入、更高效的分析。由于流行度高,Python和R都是很好的入門編程語言。
統(tǒng)計學(xué)
最低要求,你應(yīng)該能理解基本的統(tǒng)計描述和統(tǒng)計推斷。你應(yīng)該理解分布的不同類型,哪種統(tǒng)計檢驗適用于哪種文本,還要能夠在面試中解釋線性回歸的基礎(chǔ)知識。
機器學(xué)習(xí)
如果你有大量數(shù)據(jù),機器學(xué)習(xí)中的技術(shù)是難以置信的強大。你需要用這些數(shù)據(jù)去預(yù)測未來,或者給出合適的建議。你應(yīng)該懂得一些最常用的監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的算法(他們是兩種不同類別的機器學(xué)習(xí)算法),比如k最近鄰算法、支持向量機和k均值聚類。你可能不必懂得這些算法背后的理論和實現(xiàn)細節(jié),但知道什么時候使用這些算法很重要。
數(shù)據(jù)清理
在理想的世界里,你面對的數(shù)據(jù)集是干凈的、準備好進行分析的。然而,現(xiàn)實世界中,絕少是這樣的。你的數(shù)據(jù)集很可能缺失數(shù)值、格式錯誤、或者輸入錯誤。例如,讓我們討論一些日期,一些系統(tǒng)表示2014年9月1日為9.1.2014,其他一些系統(tǒng)會表示為09/01/2014。像這樣的情況,你的數(shù)據(jù)清理技能會派上用場。
溝通和數(shù)據(jù)可視化
作為數(shù)據(jù)分析師,你的工作不僅要解釋數(shù)據(jù),還要同其他利益相關(guān)者高效交流你的發(fā)現(xiàn),這樣你就能幫他們做出數(shù)據(jù)提供的決策。許多利益相關(guān)者不會對你的分析背后的技術(shù)細節(jié)感興趣,這就是為什么你能通過易于理解的途徑交流和展示你的發(fā)現(xiàn)很重要。
工具
這里使你入門的是你要熟知的一些最流行的編程語言和工具。
Python或R:不僅僅是這些編程語言易于學(xué)習(xí)(相對于C來說),一些最流行的數(shù)據(jù)科學(xué)庫,從數(shù)據(jù)分析到數(shù)據(jù)可視化,都是在這兩種編程語言之上建立的。
Pandas/Numpy/Scipy:Python數(shù)據(jù)科學(xué)庫中的三駕馬車一起工作真的很好。Pandas有助于結(jié)構(gòu)化數(shù)值或時間系列數(shù)據(jù),這樣數(shù)據(jù)就容易用于分析和處理。Numpy有助于實現(xiàn)許多常用的科學(xué)和數(shù)學(xué)運算,如矩陣乘法,所以你不必重復(fù)發(fā)明輪子。Scipy在Numpy基礎(chǔ)上拓展,包含很多比你能在Numpy找到的數(shù)學(xué)運算功能更完備的版本。
Scikit-Learn:機器學(xué)習(xí)算法難以高效且正確地實現(xiàn)。Scikit-Learn是一個經(jīng)過實戰(zhàn)測試的工具,它是一個已經(jīng)為你實現(xiàn)了常用機器學(xué)習(xí)算法的Python庫,從組合方法到k均值到SVM,它都有。
當(dāng)你準備創(chuàng)建一個指數(shù)尺度的散點圖和成千上萬的數(shù)據(jù)點,Mattplotib和Ggplot2應(yīng)該是你要找的庫。他們分別是Python和R的實質(zhì)上的繪圖可視化標(biāo)準庫。
這是列表中僅有的JavaScript庫。如果你想創(chuàng)建靜態(tài)可視化或圖形,Mattplotib和Ggplot2很棒。然而,如果你想創(chuàng)建交互式可視化,例如當(dāng)你的鼠標(biāo)停在圖形上,一些東西彈出,或改變形狀,D3.js是你要的庫。不過,你要使用一些HTML、CSS和JavaScript,所以在嘗試D3.js之前,確保復(fù)習(xí)一下你的前端web開發(fā)技能。
聯(lián)系客服