歡迎到早讀課投稿,投稿郵箱:mm@zaodula.com
不少人后臺問我,如何轉(zhuǎn)行做數(shù)據(jù)分析師,或畢業(yè)生怎樣入行。我之前的文章都是圍繞硬技能來寫,這次以我知乎上的一篇答案為基礎(chǔ)談一下軟技能。權(quán)當(dāng)做雜談。
我進(jìn)入互聯(lián)網(wǎng)行業(yè)完全是零基礎(chǔ),不是數(shù)據(jù)分析零基礎(chǔ),是樣樣能力零基礎(chǔ)。
零基礎(chǔ)到什么樣子?我找工作花了三到四個(gè)月時(shí)間,最后以運(yùn)營身份入職。
我從來不是數(shù)理強(qiáng)人,大學(xué)雖學(xué)習(xí)過高數(shù)、統(tǒng)計(jì)學(xué)、SQL和C語言,均是低空略過,考試還借助了小伙伴的力量?,F(xiàn)在回頭看,當(dāng)時(shí)應(yīng)該多學(xué)些。
最開始我不會vlookup,也沒人教我,Excel只能做基礎(chǔ)的操作。那時(shí)要關(guān)聯(lián)多張報(bào)表,我仗著手速快,一個(gè)個(gè)搜索復(fù)制黏貼的…數(shù)據(jù)量一多肯定哭。后來我想這可不是辦法啊。于是借助萬能的百度:
“Excel怎么匹配多張表的數(shù)據(jù)?!?/p>
然后第一次看到vlookup函數(shù)。我也沒有一次學(xué)會,每次用都要先看一遍網(wǎng)上的樣例。后續(xù)我教組員的時(shí)候,他們學(xué)得比我快多了。
Excel一步一個(gè)腳印,學(xué)習(xí)都是依賴搜索和琢磨,抽空用工作中的內(nèi)容練習(xí)分析:比如什么樣的用戶愿意用我們APP,用戶哪些指標(biāo)特別好。
即使在此期間,我也不會數(shù)據(jù)透視表。
記得15年初,老板給了我一個(gè)任務(wù):網(wǎng)上收集數(shù)據(jù),大約需要幾萬條,我不可能全部復(fù)制黏貼下來啊,便繼續(xù)查詢:
如何快速下載網(wǎng)頁上的數(shù)據(jù)。
于是知道了爬蟲,知道了Python,但我并不會。最后靠第三方爬蟲工具,按照教程學(xué)習(xí)。早期已經(jīng)學(xué)習(xí)過HTML+CSS,然后再了解網(wǎng)頁結(jié)構(gòu),學(xué)習(xí)Get/Post,學(xué)習(xí)正則?;艘恢軙r(shí)間加班,才下載下來。
可沒有結(jié)束,數(shù)據(jù)是臟數(shù)據(jù),我還需要清洗。再花一周時(shí)間學(xué)習(xí)Excel的find,right,mid,replace,trim等文本處理函數(shù)。那時(shí)候不知道這叫數(shù)據(jù)清洗,但是學(xué)會了很多技巧,即使我盡可能快速省力,還是花費(fèi)數(shù)天。
當(dāng)我現(xiàn)在寫Python爬蟲的時(shí)候,效率快速很多。包括文本清洗,用Levenshtein速度杠杠的。加起來一晚上就搞定。
任何學(xué)習(xí)都不是無用的,很多知識相通。我因?yàn)榕老x學(xué)習(xí)了HTML+CSS,后續(xù)便觸理旁通地了解了網(wǎng)站結(jié)構(gòu)和網(wǎng)站分析。
后續(xù)知道布置百度統(tǒng)計(jì),知道JS,學(xué)習(xí)網(wǎng)頁端的各類指標(biāo),了解訪問路徑、漏斗轉(zhuǎn)化、跳出率退出率等。這些知識不止能用在網(wǎng)站上。也能用在APP分析、用戶行為上。
我們把學(xué)習(xí)當(dāng)成一個(gè)點(diǎn),學(xué)完這本書就看下本書,其實(shí)這樣發(fā)揮不出學(xué)習(xí)的效率。任何知識都具有關(guān)聯(lián)性,A知識可以應(yīng)用在B知識上,知識技能樹應(yīng)該是呈網(wǎng)狀發(fā)散的。
HTML+CSS—— 網(wǎng)頁結(jié)構(gòu) ——網(wǎng)站分析——用戶分析
HTML+CSS—— 爬蟲工具——Python爬蟲
HTML+CSS—— JS ——可視化JS
HTML+CSS——SEO——SEM
上面鏈條是我基于前置知識掌握新知識的關(guān)系譜。
數(shù)據(jù)分析涉及的領(lǐng)域很寬廣,除了本身扎實(shí)的業(yè)務(wù)背景,還需要瑞士軍刀般的技能樹,屬于T型能力(一專多才)。
比如你看到某個(gè)頁面跳出率較高。除了常規(guī)的分析外,還要檢查網(wǎng)絡(luò)速度,用戶弱網(wǎng)環(huán)境,是不是HTML頁面加載過多,是否使用了緩存,網(wǎng)絡(luò)DNS如何等。這些知識不會有人教你,但它左右業(yè)務(wù)結(jié)果。
看到這里別怕,雖然要學(xué)的多,但是隨著學(xué)習(xí)的加深,很多知識是共通的。就像轉(zhuǎn)化率來源于網(wǎng)站分析,卻能用于產(chǎn)品路徑,既能升華為?;鶊D,又能做用戶分層。越學(xué)到后面,越容易一法通萬法通。
其實(shí)零基礎(chǔ)學(xué)習(xí)數(shù)據(jù)分析,最難的門檻不是技能,而是學(xué)習(xí)動力。我從零培養(yǎng)過數(shù)據(jù)分析師,從零教過Excel、從零教過SQL、從零教過分析思維、從零教過Python。難點(diǎn)從不在于這些知識,而是你真的想不想學(xué)。
不是下載了十幾G的資料就是學(xué)習(xí),不是關(guān)注了很多公眾號就是學(xué)習(xí)。因?yàn)槭畮譍的資料最終不會打開,很多公眾號最后都是未讀。這能說明想學(xué)習(xí)?零基礎(chǔ)太容易無從下手,難以堅(jiān)持,淺嘗則止了。
無從下手,這是不知道學(xué)什么,我說過數(shù)據(jù)分析是一門比較寬廣的學(xué)科。它既有傳統(tǒng)商業(yè)分析的方法論,也有數(shù)據(jù)時(shí)代的統(tǒng)計(jì)和編程??伤制侨魏螎徫蝗魏温殬I(yè)都能用到的技能,繞不過。
學(xué)習(xí)是很主觀的事情,我們從小學(xué)開始讀到大學(xué),數(shù)十年的學(xué)生生涯,最缺漏的能力是主動學(xué)習(xí)。
中考高考打磨那么多年,很大情況是環(huán)境因素逼迫人去學(xué)習(xí),本身沒有任何學(xué)習(xí)的驅(qū)動力和習(xí)慣。大學(xué)四年再一度過,可能學(xué)習(xí)性就消磨殆盡了。
之所以說我們習(xí)慣被動學(xué)習(xí),是大家都有一道題目做一道題目,只知道公式應(yīng)用,不需要知曉原理。教材輔導(dǎo)題海戰(zhàn)術(shù),內(nèi)容也不會超綱。整個(gè)大的學(xué)習(xí)環(huán)境都是為被動打造。
現(xiàn)在學(xué)習(xí)數(shù)據(jù)分析,拿起書籍、打開PDF資料、關(guān)注公眾號。不會有老師糾正你輔導(dǎo)你,不會有作業(yè)鞭策你訓(xùn)練你。也不知道工作中哪個(gè)會經(jīng)常用到,沒有練手的數(shù)據(jù)題目,甚至連網(wǎng)絡(luò)上的知識質(zhì)量都難以辨別。
無從下手,對吧,可這才是主動學(xué)習(xí)。
心態(tài)要轉(zhuǎn)變。
零基礎(chǔ)學(xué)習(xí)數(shù)據(jù)分析,最大的老師只能是自己,不會有任何一篇文章一夜教人成為數(shù)據(jù)分析師。我?guī)н^愿意學(xué)習(xí)并且成長很快的實(shí)習(xí)生,也教導(dǎo)過有興趣但依舊帶不出節(jié)奏的同事。前者是主動學(xué)習(xí),后者是止于興趣的被動學(xué)習(xí)。
因?yàn)槭橇慊A(chǔ),所以才更需要主動性。數(shù)據(jù)分析本事是發(fā)展很快的行業(yè),幾年前會SQL就行,現(xiàn)在得了解些MR和HIVE,過幾年SparkSQL也許就是必備,如果想在這一行做的好一些。
持續(xù)的學(xué)習(xí)是必須的能力。或者基礎(chǔ)不如其他人,至少學(xué)習(xí)性別輸吧。
我也給出我的建議,學(xué)習(xí)應(yīng)該是具體為解決某一個(gè)問題而設(shè)立目標(biāo),說透徹點(diǎn),實(shí)戰(zhàn)為王。不論是何種職業(yè),一定或多或少能接觸數(shù)據(jù)。先別去分析,而是想,能用這些數(shù)據(jù)干什么,做一個(gè)簡單的假設(shè)。
我是HR,我的假設(shè)就是最近招人越來越困難啦,
我是市場,我的假設(shè)就是現(xiàn)在營銷成本太高,又沒有什么效果。
我是運(yùn)營或者產(chǎn)品,更好辦了,假設(shè)某指標(biāo)的數(shù)據(jù)因?yàn)锳BC等原因而無法提升。
哪怕是學(xué)生,也能假設(shè)在學(xué)校商圈賺錢是容易還是困難。
數(shù)據(jù)圍繞假設(shè)去收集、生成、組合、利用、論證和分析。
這是麥肯錫式的思維方法,也可以作為學(xué)數(shù)據(jù)的方法。新人容易陷入數(shù)據(jù)的迷途:我沒有數(shù)據(jù),有了數(shù)據(jù)也不知道干啥,知道干啥又不知道方法。想的太多,遠(yuǎn)不如有方向好用。
基于假設(shè)的好處是,我首先有了一個(gè)方向,別管它對不對,至少能按照方向做分析。
HR認(rèn)為招人越來越困難,則可以拿出歷史數(shù)據(jù),以前我招人需要下載幾份簡歷,打幾個(gè)電話,發(fā)出幾個(gè)Offer最終入職?,F(xiàn)在呢?我還可以拿各個(gè)環(huán)節(jié)的數(shù)據(jù)觀察,這不就是轉(zhuǎn)化率嘛?時(shí)間維度放得寬一點(diǎn),看看去年這時(shí)候招人困難不,是不是年底都難招,這樣就了解折線圖概念。
市場專員做分析,可以拿更多的數(shù)據(jù)作參考,假設(shè)營銷成本太高,現(xiàn)在高到什么地步了,什么時(shí)候開始高的,找出時(shí)間點(diǎn)分析一下。效果不好,是什么時(shí)候效果不好,那時(shí)市場環(huán)境有什么變化嗎?我假設(shè)市場環(huán)境有了變化,這又是一個(gè)新的假設(shè),可以繼續(xù)拎出一堆深入研究。
雖然各人分析效率和成果肯定不同,但是思路都能以這樣訓(xùn)練出來。不是有了數(shù)據(jù)才有了分析,而是有了分析的方向才能收集分析數(shù)據(jù)。我的學(xué)習(xí)從來都是以解決問題為主,不是突然靈光一閃就會了。
如果把數(shù)據(jù)分析的學(xué)習(xí)旅程想成一條很長道路的話,我們不是一路開到終點(diǎn),這沒人能行。而是把這條道路分割成一段段,每段上面擺一個(gè)旗幟作目標(biāo),以旗幟為前行方向,不是以幾十公里外的終點(diǎn)站作為目標(biāo)。
除了學(xué)習(xí)驅(qū)動力外,想成為數(shù)據(jù)分析師,還需要一顆好奇心。
好奇心就是問問題,想問題,琢磨問題,解決問題。如果你是一個(gè)天生八卦的人,那么將它用在數(shù)據(jù)分析上絕對是天選分析師,良材美玉。
很多人喜歡追求數(shù)據(jù)分析的工具、知識、要點(diǎn)、竅門。但是從來很少提到好奇心。
好奇心是解決問題的核心能力,編程可以鍛煉,統(tǒng)計(jì)可以學(xué)習(xí),這些最終都不是瓶頸。你學(xué)全了十八般武藝,臨敵對戰(zhàn),最終需要的什么?是求勝心。數(shù)據(jù)的求勝心就是好奇。
知識決定解決問題的下限,好奇心決定解決問題的上限。好的數(shù)據(jù)分析師一定會有好奇心,會提問,會想問題,也能去解決問題。
我們最早期推的所有活動,都沒有監(jiān)控體系,整個(gè)運(yùn)營也缺乏數(shù)據(jù)指導(dǎo)。對當(dāng)時(shí)的我來說,很多運(yùn)營的運(yùn)作是黑箱。我不知道發(fā)什么了什么,怎么發(fā)生,只有一個(gè)結(jié)果輸出。
別人若問我問什么,我只能做出假設(shè),有可能一二三點(diǎn)。是否是這樣,我也不知道。
運(yùn)營活躍數(shù)上升,原因是什么?不知道。
短信推送后效果怎么樣?不知道。
新注冊用戶來源有哪些?不知道。
那時(shí)隨著公司業(yè)務(wù)線的拓展、用戶數(shù)量提升。我用Excel做關(guān)聯(lián)越來越吃力。我再一次向研發(fā)提數(shù)據(jù)需求時(shí),CTO對我說:要不給你開個(gè)數(shù)據(jù)庫權(quán)限,你自己查吧。
我告別了Excel,學(xué)習(xí)和了解數(shù)據(jù)庫。從幾張表的接觸擴(kuò)展到幾百張表。
知道left join 和 inner join的區(qū)別。知道group by,知道數(shù)據(jù)結(jié)構(gòu),知道index。
那時(shí)期需要建立用戶數(shù)據(jù)體系,包括留存、活躍、回流、分層等指標(biāo)。我網(wǎng)上一邊查運(yùn)營指標(biāo)的應(yīng)用和解釋,一邊查SQL的實(shí)現(xiàn)。
和研發(fā)解釋、溝通,因?yàn)榱私鈹?shù)據(jù)庫,很多需求以更合理的要求實(shí)現(xiàn)。這是我第一次開始接觸、了解和建立以業(yè)務(wù)為核心的數(shù)據(jù)體系。
舉一個(gè)例子:用戶用過APP很長一段時(shí)間,我們管他叫忠誠用戶,后來突然他連續(xù)幾周不用,那么我們會通過SQL找出這類用戶,分析他行為,電話訪談為什么不用,嘗試喚回他。其他運(yùn)營都是同理。
這時(shí)候,我才可以說我了解了活躍數(shù),知道它為什么上升,為什么下降。
我們給不同用戶推短信,借助SQL我能查詢到數(shù)據(jù)的好壞,但是有沒有更明確的指標(biāo)?比如多少用戶因?yàn)槎绦糯蜷_APP,短信打開率是多少?
當(dāng)時(shí)短鏈用了url scheme,可以自動跳轉(zhuǎn)到app,為了監(jiān)控,我們也在短鏈中埋了參數(shù)。通過推送數(shù)據(jù),觀察這條短信會有多少人打開。
這是衡量一個(gè)文案的標(biāo)準(zhǔn),好文案一定能觸動用戶打開。我們經(jīng)常拿文案作為AB測試。舉一個(gè)例子,我們會用短信營銷,運(yùn)營是和禮品掛鉤的,當(dāng)時(shí)有不少用戶線上注冊完并不下載APP,我們有那么一條針對此類的短信文案:
我們已經(jīng)為您準(zhǔn)備好了專屬心意,XXXXX,請打開APP領(lǐng)取。
這條短信的打開率約在10%左右。但是還有優(yōu)化空間,于是我不斷修改文案,后續(xù)修改為:
既然您已經(jīng)注冊,為什么不來領(lǐng)取屬于您的專屬心意呢,XXXXX,請打開APP領(lǐng)?。ㄖ虚g內(nèi)容不變)。
打開率被優(yōu)化到18%。因?yàn)樗昧藸I銷心理,已經(jīng)注冊,契合了沉默成本的暗示:我做都做了,為什么不繼續(xù),不然白注冊了。這種心理常見于旅游景點(diǎn),景點(diǎn)很坑爹,但絕大多數(shù)人還是會說:既然來都來了,就是一種共通的心理。
后續(xù)短信又采取個(gè)性化方案,最終優(yōu)化到25%。比最早期的文案效果好三倍左右。如果不好奇短信效果,如果不收集數(shù)據(jù)監(jiān)控指標(biāo),那么優(yōu)化無從談起。我們可能憑感覺寫出好文案,但你不知道具體效果,而數(shù)據(jù)能。
再來個(gè)例子,最開始我們借助微信朋友圈進(jìn)行用戶拉新,起初有多個(gè)渠道,但是我不知道哪個(gè)渠道效果好。然后我的好奇癥又犯了,哪個(gè)渠道效果好?邀請轉(zhuǎn)化率還能不能優(yōu)化?渠道拉新成本是多少?
依舊是推動和落地?cái)?shù)據(jù)分析的執(zhí)行,因?yàn)槲⑿诺木W(wǎng)頁分享,會自動帶from=timeline等參數(shù),通過參數(shù)我能過濾出微信端瀏覽和訪問的數(shù)據(jù)。后來又拜托研發(fā)針對不同渠道設(shè)置參數(shù)。通過參數(shù)統(tǒng)計(jì)轉(zhuǎn)化率,并且給新用戶打渠道來源標(biāo)簽。
期間發(fā)現(xiàn)一個(gè)渠道的轉(zhuǎn)化率過低。我們大概分兩類渠道,一個(gè)是落地頁直接邀請用戶注冊,附加有禮品信息。一個(gè)是讓用戶先挑選禮品樣式,最后領(lǐng)取步驟中跳到注冊。通過轉(zhuǎn)化率分析,后者的流失較為嚴(yán)重。因?yàn)椴襟E太冗余了,還有快遞地址要填寫,選取禮品的吸引力不足以支持用戶走完流程。
于是便更改第二個(gè)渠道流程。不同注冊渠道的用戶來源,因?yàn)橛袠?biāo)簽,所以在后續(xù)新用戶的運(yùn)營中,可以有針對性地做措施。這也是短信通過個(gè)性化達(dá)到25%打開率的原因之一。
好奇是為了解決問題而服務(wù)的。通過不斷的想問題,解決問題,數(shù)據(jù)分析相關(guān)的能力自然會提升。
幸運(yùn)的是,好奇心能夠后天鍛煉,就是多問問題多想問題,鍛煉難度不高。
零基礎(chǔ)學(xué)習(xí)還會有另外一個(gè)問題,就是輕視業(yè)務(wù)的重要性。
實(shí)際上,想成為數(shù)據(jù)分析師,難點(diǎn)不在于Excel、SQL、統(tǒng)計(jì)等知識欠缺。而是業(yè)務(wù)知識的匱乏。
一個(gè)人懂業(yè)務(wù)不懂?dāng)?shù)據(jù),另一個(gè)懂?dāng)?shù)據(jù)不懂業(yè)務(wù),前者更有可能解決實(shí)際的問題。因?yàn)閿?shù)據(jù)分析師始終是為業(yè)務(wù)而服務(wù)。
我曾向產(chǎn)品提出(沒請吃飯)布置APP和Web埋點(diǎn),通過用戶的路徑了解用戶,也彌補(bǔ)百度統(tǒng)計(jì)的缺點(diǎn)。
當(dāng)時(shí)通過Hadoop存儲數(shù)據(jù),使用Hive建立離線的腳本清洗、分區(qū)、加工。用戶瀏覽產(chǎn)品的頁面、使用的功能、停留的時(shí)間都能構(gòu)成用戶畫像的基礎(chǔ)。
我曾經(jīng)很好奇什么是用戶畫像,因?yàn)榫W(wǎng)絡(luò)上說用戶的性別、地域、年齡、婚姻、財(cái)務(wù)、興趣、偏好是構(gòu)成用戶畫像的基礎(chǔ)。
但是我們的業(yè)務(wù)獲取不到那么多數(shù)據(jù)。而我認(rèn)為,用戶畫像是為了業(yè)務(wù)服務(wù)的,它不該有嚴(yán)格統(tǒng)一的標(biāo)準(zhǔn)。只要在業(yè)務(wù)上好用,就是好的用戶畫像。
就像在線視頻的用戶畫像會收集電影的演員、上映時(shí)間、產(chǎn)地、語言、類型。還會細(xì)分到用戶是否快進(jìn),是否拖拽。
這些都是以業(yè)務(wù)為導(dǎo)向。甚至視頻網(wǎng)站的分析師們本身就得閱片無數(shù),才能根據(jù)業(yè)務(wù)分析。
不然那么多電影類目和類型,如何細(xì)分各類指標(biāo)?能通過拖拽快進(jìn)去判斷用戶是否有興趣,自身也得用過類似行為才能理解。
零基礎(chǔ)怎么學(xué)習(xí)行業(yè)和業(yè)務(wù)知識?如果本身和業(yè)務(wù)接觸,只是想做數(shù)據(jù)分析,難度小不少。如果像當(dāng)初的我一樣,既沒有義務(wù)知識又不懂?dāng)?shù)據(jù),也是可以的。
數(shù)據(jù)如果是假設(shè)性思維學(xué)習(xí)的話,那么業(yè)務(wù)應(yīng)該是系統(tǒng)性思維學(xué)習(xí)。業(yè)務(wù)知識也需要一個(gè)目的和方向,但是和數(shù)據(jù)分析不同。業(yè)務(wù)注重的是系統(tǒng)性,系統(tǒng)性不是大而全,而是上而下的結(jié)構(gòu)知識。先瞄準(zhǔn)一個(gè)方向鉆取深度,廣度會隨著深度的挖掘逐漸拓展。
比如你是一個(gè)外行,想學(xué)用戶運(yùn)營體系的分析,不要先考慮啥是用戶運(yùn)營,這問題太大。而是瞄準(zhǔn)一個(gè)方向,例如活躍度,了解它的定義和含義,再想怎么應(yīng)用。線下商場的活躍度如何定義,醫(yī)院患者的活躍度如何定義,某個(gè)學(xué)校社團(tuán)的活躍度如何?拿身邊例子去思考活躍度。商場的活躍,可以是走來走去的人流,可以是進(jìn)行消費(fèi)購物的客流,可以是大包小包的土豪。什么因素會影響活躍?促銷還是打折,節(jié)假日還是地理。等這些問題想通了,上手用戶運(yùn)營會很快。
再通過同樣的思維去想留存、去想拉新。就會知道,如果商場的人流下次繼續(xù)來消費(fèi),就是留存,有新客人來,就是拉新。這又有哪些因素互相影響?最后的知識思維一定是金字塔結(jié)構(gòu)的。上層是用戶運(yùn)營,中間是拉新、活躍、留存。下層是各個(gè)要點(diǎn)和要素。
數(shù)據(jù)分析的學(xué)習(xí)注重演繹和推理,業(yè)務(wù)的學(xué)習(xí)注重關(guān)聯(lián)和適用,學(xué)以致用就是說的這種情況。期間也會用到好奇心和假設(shè),這兩點(diǎn)都是加速學(xué)習(xí)的途徑之一。
實(shí)際上說了這么多,對于零基礎(chǔ)想當(dāng)數(shù)據(jù)分析師的同學(xué)來說,可能仍舊有一些云山霧罩吧。
這些軟技能也不會助人一步登天的,其實(shí)的七周成為數(shù)據(jù)分析師,從最開始我也說過是入門的大綱。重要的是自己是否真的想學(xué)和學(xué)好,師傅領(lǐng)進(jìn)門,修行靠個(gè)人,其他一切都是虛的。
想起很久以前看的一句雞湯話,當(dāng)你想要前行時(shí),一切都會為你讓路。我想這比我說的一切都更有力。
所以你問我零基礎(chǔ)能成為數(shù)據(jù)分析師嗎?我的回答是能。
文章其實(shí)有一些趕,最后祝大家圣誕快樂。
聯(lián)系客服