“初入數(shù)據(jù)領(lǐng)域,需要學(xué)哪些工具?需要掌握到什么程度?本文闡述了所有數(shù)據(jù)崗位所需的工具。”
數(shù)據(jù)分析,橫向來看,屬于計(jì)算機(jī)與統(tǒng)計(jì)學(xué)的結(jié)合;縱向來看,始于數(shù)據(jù)、終于業(yè)務(wù)。因此需要掌握的工具/技能跨度還是比較大的,從數(shù)據(jù)流轉(zhuǎn)角度來看,涵蓋從「數(shù)據(jù)倉庫→數(shù)據(jù)提取→數(shù)據(jù)分析→數(shù)據(jù)展示→數(shù)據(jù)匯報(bào)」幾個(gè)模塊,小火龍為大家梳理了各模塊涉及的工具內(nèi)容,并標(biāo)注重要性,供大家參考。
數(shù)據(jù)分析崗位,一般不會(huì)涉及數(shù)據(jù)倉庫的搭建及維護(hù),但對(duì)數(shù)據(jù)倉庫的了解,有助于下游數(shù)據(jù)提取,以及做一些ADS層的數(shù)倉建設(shè),有益于自身成長。其中涉及到的工具主要涵蓋:SQL、Python、Java、Flink等。
其中SQL是最為重要的,會(huì)在下文詳細(xì)展開;Python、Java在數(shù)據(jù)處理層會(huì)應(yīng)用到,Python會(huì)在下文展開,Java的優(yōu)先級(jí)不高,大家了解即可;Flink在處理實(shí)時(shí)流時(shí)會(huì)應(yīng)用到,優(yōu)先級(jí)同樣不高,了解即可。
數(shù)據(jù)提取是數(shù)據(jù)分析的首個(gè)環(huán)節(jié),將數(shù)據(jù)從數(shù)據(jù)庫中,按照指定的格式輸出出來。在這個(gè)過程中,SQL是必備工具。
非常重要!非常重要!非常重要!建議掌握程度如下。
熟練掌握增、刪、查、改等基礎(chǔ)語句。
熟練掌握基礎(chǔ)函數(shù),在遇到問題時(shí),能夠快速檢索出用什么類型函數(shù)來解決問題。
熟練掌握語法結(jié)構(gòu),能夠?qū)懗鱿鄬?duì)復(fù)雜的嵌套語句。
有清晰的代碼邏輯,在遇到不同類型需求時(shí),能夠快速在腦海中形成輸出結(jié)構(gòu)。
之前也有分享過SQL相關(guān)的文章:
數(shù)據(jù)提取后,分析是日常工作的核心環(huán)節(jié),將數(shù)據(jù)加工處理,探索其中的業(yè)務(wù)價(jià)值。這里涉及的工具比較多,包含但不限于:Excel、Python、R、Spss、Eviews、Sas等。
雖然不高端,但仍然是數(shù)據(jù)分析最好用、最常用的工具。建議掌握程度如下。
熟練掌握常用函數(shù)。例如:sum、average、vlookup等??蓞⒖嘉恼?a target="_blank" >「Excel函數(shù)匯總」。
熟練掌握常用操作技巧。例如:行列轉(zhuǎn)置、選擇性粘貼等。可參考文章「Excel應(yīng)用技巧」。
熟練掌握常用快捷鍵。例如:快速刪除行列、快速篩選內(nèi)容等。
了解VBA,能夠簡(jiǎn)單實(shí)現(xiàn)Excel自動(dòng)化。這一點(diǎn)不是必須,但對(duì)提高工作效率會(huì)有幫助。
Python并不是數(shù)據(jù)分析必備工具,但卻能夠決定你的發(fā)展上限。
主要應(yīng)用場(chǎng)景涵蓋:創(chuàng)建SQL中應(yīng)用的UDF函數(shù)、通過腳本快速產(chǎn)出分析報(bào)告、通過數(shù)據(jù)挖掘產(chǎn)出模型。建議掌握程度如下。
熟練掌握Python基礎(chǔ)語法、函數(shù),能夠看懂別人寫的代碼。
熟練掌握分析及挖掘常用工具包。例如:numpy、pandas、matplotlib、sklearn等。
熟悉通用的Python項(xiàng)目目錄結(jié)構(gòu)。
從功能角度來說,R與Python很多功能是交叉的。R更加偏向于統(tǒng)計(jì)分析與繪圖,一般在學(xué)術(shù)研究中應(yīng)用較多。對(duì)于數(shù)據(jù)分析同學(xué),Python與R二選一即可,個(gè)人推薦前者,應(yīng)用方向更廣一些。
Spss是一款數(shù)據(jù)統(tǒng)計(jì)與應(yīng)用軟件,在處理「離線+中小數(shù)據(jù)量」的統(tǒng)計(jì)分析時(shí)比較好用。
通過「可視化界面+點(diǎn)選方式」選擇不同類型的統(tǒng)計(jì)分析,例如:概率統(tǒng)計(jì)、相關(guān)分析、回歸分析等,甚至還包含了機(jī)器學(xué)習(xí)算法與文本分析等,應(yīng)用方向較廣。建議掌握程度如下:
熟練掌握常用的統(tǒng)計(jì)學(xué)原理,并了解各原理中的參數(shù)含義??蓞⒖嘉恼?a target="_blank" >「數(shù)據(jù)分析中常用的統(tǒng)計(jì)學(xué)方法」。
了解工具能解決哪些問題,至于具體的操作細(xì)節(jié),可在用到的時(shí)候查詢。
Eviews和Sas在非經(jīng)濟(jì)學(xué)領(lǐng)域出現(xiàn)頻次不太高。Eviews主要在時(shí)間序列分析中有較多應(yīng)用;而Sas主要在銀行及金融業(yè)應(yīng)用較多,屬于付費(fèi)軟件。這兩個(gè)工具,大家了解就好,用到的時(shí)候再深入研究。
產(chǎn)出數(shù)據(jù)結(jié)論后,往往需要配合圖表進(jìn)行展示,簡(jiǎn)單的圖表,Excel、Python Matplotlib基本上就可滿足需求了。
但如果希望配置成例行圖表,則需要通過商業(yè)BI軟件來完成。目前應(yīng)用較為廣泛的軟件有FineBI,PowerBI和Tableau,F(xiàn)ineBI是國產(chǎn)軟件,后兩者則是國外的軟件。具體要掌握哪個(gè)軟件主要看你的公司使用哪個(gè)軟件。
BI平臺(tái)操作相對(duì)比較簡(jiǎn)單,如果之前沒有應(yīng)用過,建議下載FineBI用一用,了解一下BI平臺(tái)的一般功能,并能夠?qū)崿F(xiàn)一些簡(jiǎn)單的看板搭建(FineBI個(gè)人版是永久免費(fèi)的)。
數(shù)據(jù)對(duì)于業(yè)務(wù)的價(jià)值,需要通過匯報(bào)讓更多人知曉。這一階段,PPT是最常用的工具。
聯(lián)系客服