手把手教你做第一份數(shù)據(jù)報告
本文源自知乎專欄:陳丹奕(一個數(shù)據(jù)分析師的自我修養(yǎng)),經(jīng)作者授權(quán)發(fā)布,轉(zhuǎn)載請聯(lián)系作者
一、為什么要做數(shù)據(jù)報告
如果你是一個在校學(xué)生,恰好你學(xué)了統(tǒng)計學(xué),迎著大數(shù)據(jù)蓬勃發(fā)展的東風(fēng),想要在大數(shù)據(jù)時代意氣風(fēng)發(fā)一把,然后你搞來了一堆參考學(xué)習(xí)資料,學(xué)習(xí)完之后信心滿滿的投簡歷,然而你發(fā)現(xiàn)故事的發(fā)展偏離了軌道,你不清楚各種工具和模型的適用范圍、不知道數(shù)據(jù)報告要做哪些內(nèi)容、對于面試的問題,能聽懂但就是不會回答……第一次你有了離數(shù)據(jù)分析師“這么近,那么遠(yuǎn)~”的感覺。
如果你是一個初入職場的白領(lǐng),你發(fā)現(xiàn)現(xiàn)在的工作很平常,沒有挑戰(zhàn)性,沒有壓力,這時你逛逛論壇,看看網(wǎng)頁,看到很多人都在討論大數(shù)據(jù),數(shù)據(jù)分析師是未來十大最性感的職業(yè)之一……哎呦,好像成為數(shù)據(jù)分析師也不錯哦!然后你放下花千骨、瑯琊榜、LOL,利用業(yè)余時間潛心學(xué)習(xí)統(tǒng)計知識,練習(xí)統(tǒng)計分析軟件,然而,你又發(fā)現(xiàn)現(xiàn)在的工作和數(shù)據(jù)分析師八竿子打不到,人家憑什么聘你這個門外漢?
其實,這些問題的根源來自于:你沒辦法在短時間內(nèi)向招聘者展示你能夠勝任這份工作!
磨刀不誤砍柴工,事先學(xué)習(xí)做一份完整的數(shù)據(jù)報告,可以讓你在找工作時事半功倍。好處很明顯:
檢驗?zāi)愕膶W(xué)習(xí)效果:數(shù)據(jù)分析比較講究實戰(zhàn)性,能夠在實際中運用并得到好的結(jié)果比什么考試都來的直接;
檢驗?zāi)闶欠裾娴乃伎己昧耸聵I(yè)規(guī)劃:數(shù)據(jù)分析師確實是一個很性感的職業(yè),有魅力又多金,然而你真的合適嗎,你真的是出于喜歡才去從事的嗎?與其用半年一年的時間來驗證你的真實心理,不如先做一份數(shù)據(jù)報告來探究你的內(nèi)心;
展示你的能力:在程序猿的世界流行一句話,“No more talk,show me the code”,作為數(shù)據(jù)分析師,你同樣可以“show me the report”,一份完整的數(shù)據(jù)報告擺在那,能夠幫你在面試官那里省下很多評估、糾結(jié)的時間,給你帶來更多的機(jī)會。
說了這么多,那么究竟該如何以一個初學(xué)者的水平做出一份完整的數(shù)據(jù)報告呢?
二、數(shù)據(jù)報告的制作
首先放一張根據(jù)需求導(dǎo)出的數(shù)據(jù)報告的制作流程圖:
以初學(xué)者的水平,做一份普通難度的數(shù)據(jù)報告即可:藍(lán)→橙→綠→紅。
七步訣之一:確定目標(biāo)
在實際工作中,數(shù)據(jù)報告的目標(biāo)往往是上級或者客戶來確定,此時需要你自己去假想一個目標(biāo)。在設(shè)定目標(biāo)時,需要注意三點:
選擇你比較熟悉或者很感興趣的領(lǐng)域——數(shù)據(jù)分析并不只是單單的分析一串串?dāng)?shù)字,同時還要找出數(shù)據(jù)背后的意義,選擇你喜歡的領(lǐng)域進(jìn)行分析,往往能夠保證你接觸到事物的本質(zhì);
選擇一個較小范圍的細(xì)分領(lǐng)域——畢竟初學(xué)者對于市場的了解還不足,小范圍的領(lǐng)域能夠保證你在分析過程中始終保持著清晰的思想路線;
確定這個領(lǐng)域有公開發(fā)表的數(shù)據(jù)——這個不用多解釋了,數(shù)據(jù)分析首先得有數(shù)據(jù)。
一切準(zhǔn)備工作就緒,向第二階段進(jìn)軍吧!
七步訣之二:獲取數(shù)據(jù)
在不依賴公司資源,不花錢買數(shù)據(jù)的情況下,獲取目標(biāo)數(shù)據(jù)的三類方法:
一是從一些有公開數(shù)據(jù)的網(wǎng)站上復(fù)制/下載,比如統(tǒng)計局網(wǎng)站,各類行業(yè)網(wǎng)站等,通過搜索引擎可以很容易找到這些網(wǎng)站。
二是通過一些專門做數(shù)據(jù)整理打包的網(wǎng)站/api來下載,如果你要找金融類的數(shù)據(jù),這種方法比較實用。其他類型的數(shù)據(jù)也有人做,但通常要收費。
三是自行收集所需數(shù)據(jù),比如用爬蟲工具爬取點評網(wǎng)站的商家評分、評價內(nèi)容等,或是直接自己人肉收集(手工復(fù)制下來),亦或是找一個免費問卷網(wǎng)站做一份問卷然后散發(fā)給你身邊的人,都是可以的。這種方式受限制較少,但工作量和實現(xiàn)難度相對較大。
在這里要切記一點:保證數(shù)據(jù)的安全性,不對外泄露公司的任何非公開數(shù)據(jù)(如果你是公司在職人員或者實習(xí)生),是數(shù)據(jù)分析師的基本職業(yè)道德。
七步訣之三:數(shù)據(jù)清洗
在工作中,90%以上的情況下,你拿到的數(shù)據(jù)都需要先做清洗工作,排除異常值、空白值、無效值、重復(fù)值等等,這項工作經(jīng)常會占到整個數(shù)據(jù)分析過程將近一半的時間。
七步訣之四:數(shù)據(jù)整理
數(shù)據(jù)清洗過后,需要進(jìn)行整理,即將數(shù)據(jù)整理成能夠進(jìn)行下一步分析的格式,對于初學(xué)者,用Excel來完成這一工作就OK。
如果你的數(shù)據(jù)已經(jīng)是表格形式,那么計算一些二級指標(biāo)就好,比如用今年銷量和去年銷量算出同比增長率。鑒于你是第一次做數(shù)據(jù)報告,建議你不要計算太多復(fù)雜的二級指標(biāo),基本的同比、環(huán)比、占比分布這些就足夠。
如果你收集的是一些非數(shù)字的數(shù)據(jù),比如對商家的點評,那么你進(jìn)行下一步統(tǒng)計之前,需要通過“關(guān)鍵詞-標(biāo)簽”方式,將句子轉(zhuǎn)化為標(biāo)簽,再對標(biāo)簽進(jìn)行統(tǒng)計。
七步訣之五:數(shù)據(jù)描述和指標(biāo)統(tǒng)計
數(shù)據(jù)描述:用來對數(shù)據(jù)進(jìn)行基本情況的刻畫,包括:數(shù)據(jù)總數(shù)、時間跨度、時間粒度、空間范圍、空間粒度、數(shù)據(jù)來源等。如果是建模,那么還要看數(shù)據(jù)的極值、分布、離散度等內(nèi)容。
指標(biāo)統(tǒng)計:用來作報告,分析實際情況的數(shù)據(jù)指標(biāo),可粗略分為四大類:變化、分布、對比、預(yù)測。
七步訣之六:洞察結(jié)論
這一步是數(shù)據(jù)報告的核心,也是最能看出數(shù)據(jù)分析師水平的部分。一個年輕的分析師和一個有經(jīng)驗的分析師拿到同樣的結(jié)果,完全有可能解讀出不同的內(nèi)容。
例子一:
對于這個圖表,年輕的分析師得出的結(jié)論可能是:2013年1月銷售額同比上升60%,迎來開門紅,2月銷售額有所下降,3月大幅回升,4月持續(xù)增長。
有經(jīng)驗的分析師得出的結(jié)論:2013年1月、2月銷售額去除春節(jié)因素后,1月實際同比上升20%,2月實際同比上升14%,3月、4月銷售額持續(xù)增長。
這就是兩者的區(qū)別,有經(jīng)驗的分析師會留意到2013年春節(jié)期間銷售暫停的因素,再去探討數(shù)據(jù)背后的意義,如果不考慮這一因素,那么后續(xù)得出的所有結(jié)論都是錯的。挖掘數(shù)字變化背后的真正影響因素,才是洞察的目標(biāo)。
例子二:
這一張圖是根據(jù)用戶行為進(jìn)行人群聚類分析,前三類用戶都可以很好的區(qū)分:他們是某一游戲主機(jī)的用戶,那么對于第四類人群怎么定義呢?
年輕的分析師可能會得到這樣的結(jié)論:第四類人群是游戲主機(jī)的狂熱愛好者,他們交易頻率遠(yuǎn)高于一般用戶。
有經(jīng)驗的分析師的想法則是:第四類人群是二手販子,否則誰沒事一年內(nèi)會搞將近7臺索尼主機(jī)放家里。
很明顯,有經(jīng)驗的分析師由于具備豐富的行業(yè)經(jīng)驗,能迅速看穿數(shù)據(jù)背后的真實情況,得出正確的洞察結(jié)論,這也是為什么在第一步里一再強調(diào)要找你熟悉或感興趣的領(lǐng)域,缺乏業(yè)務(wù)經(jīng)驗,很可能你的洞察結(jié)果是完全錯誤的。
所謂洞察,就是要越過數(shù)據(jù),去推測和理解真實情況。單純描述數(shù)據(jù),誰都會做,根據(jù)數(shù)據(jù)得出有價值的結(jié)論,報告才有意義。
七步訣之七:撰寫報告
都到這一步了,相信各位對數(shù)據(jù)報告也不再陌生了。這一步中,需要保證的是數(shù)據(jù)報告內(nèi)容的完整性。
一個完整的數(shù)據(jù)報告,應(yīng)至少包含以下六塊內(nèi)容:
報告背景
報告目的
數(shù)據(jù)來源、數(shù)量等基本情況
分頁、圖表、內(nèi)容及本頁結(jié)論
各部分小結(jié)及最終總結(jié)
下一步策略或?qū)厔莸念A(yù)測
關(guān)于數(shù)據(jù)報告的撰寫,也可以從論文撰寫的角度來理解:立論(背景)——破題(目的)——列舉論據(jù)(圖表+結(jié)論)——論證論點(小結(jié)及總結(jié))——結(jié)題(策略或預(yù)測)。
聯(lián)系客服