大數(shù)據(jù)文摘翻譯作品
編譯:姚佳靈,康欣
歡迎個(gè)人轉(zhuǎn)發(fā)朋友圈;其他機(jī)構(gòu)或自媒體轉(zhuǎn)載,務(wù)必后臺(tái)留言,申請(qǐng)授權(quán)
如果你想做一個(gè)數(shù)據(jù)科學(xué)家,或者作為一個(gè)數(shù)據(jù)科學(xué)家你想擴(kuò)展自己的工具和知識(shí)庫(kù),那么,你來(lái)對(duì)地方了。
這篇文章的目的,是給剛開始使用Python進(jìn)行數(shù)據(jù)分析的人,指明一條全面的Python學(xué)習(xí)路徑。這條路徑提供了用Python進(jìn)行數(shù)據(jù)分析的必要步驟的一個(gè)全面概述。如果你已經(jīng)有了一些基礎(chǔ),或者不需要所有的內(nèi)容,可以隨意調(diào)整學(xué)習(xí)路徑以適合自己,并讓我們知道你是怎么改動(dòng)的。
在開始學(xué)習(xí)之前,第一個(gè)需要回答的問(wèn)題是
既然你已經(jīng)下定了決心,是時(shí)候設(shè)置你的計(jì)算機(jī)了。最簡(jiǎn)單的方法是直接從Continuum.io下載Anaconda,它含有你Python生涯中需要的絕大多數(shù)好東東 。
這樣做的主要缺點(diǎn)是,即便有一些底層包已經(jīng)有更新版本的時(shí)候,你還是需要等待Continuum更新Anaconda中的包。如果你只是剛剛開始,那這一點(diǎn)就不算是個(gè)問(wèn)題。如果在安裝時(shí)遇到任何困難,你可以在下面這個(gè)網(wǎng)站找到在不同操作系統(tǒng)下安裝的詳細(xì)指引。
http://www.datarobot.com/blog/getting-up-and-running-with-python/
你應(yīng)該從了解Python語(yǔ)言、庫(kù)和數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)知識(shí)開始,這個(gè)來(lái)自Codecademy的教程是你開始學(xué)習(xí)的最佳選擇之一。
http://www.codecademy.com/tracks/python
在學(xué)完這個(gè)教程后,你應(yīng)該可以輕松地用Python寫些小程序,并且對(duì)類和對(duì)象的含義也有了理解。
特別學(xué)習(xí):Lists(列表),Tuples(元組),Dictionaries(字典),列表的內(nèi)涵和字典的內(nèi)涵。
完成作業(yè):完成在HackerRank上的教程習(xí)題。這些作業(yè)應(yīng)該能讓你的大腦因Python而“燃燒”。
備用資源:如果交互式編程學(xué)習(xí)不適合你,你也可以看看這個(gè)Google上的Python課程。這個(gè)兩天的課程,內(nèi)容覆蓋了隨后會(huì)提到的一些內(nèi)容。
https://developers.google.com/edu/python/。
你將會(huì)大量使用它來(lái)進(jìn)行數(shù)據(jù)清洗,特別是在處理文本數(shù)據(jù)。學(xué)習(xí)正則表達(dá)式的最好方法是完成這個(gè)課程
https://developers.google.com/edu/python/regular-expressions
并把這個(gè)“夾帶”(當(dāng)然不是考試的小抄,是速查表)放在隨手可得的地方。
小編注:請(qǐng)上網(wǎng)站查看完整內(nèi)容。
www.debuggex.com/cheatsheet/regex/python
完成“嬰兒取名”練習(xí)
如果想(gou)要(dan)更多的練習(xí),請(qǐng)學(xué)習(xí)這個(gè)文本清理的課程。該課程將會(huì)在數(shù)據(jù)清理的不同步驟給你挑戰(zhàn)。
有趣之事,始于此處!這里,簡(jiǎn)要介紹不同的Python科學(xué)庫(kù)——NumPy, SciPy, Matplotlib和Pandas。那么,讓我們開始練習(xí)常用操作吧!
http://wiki.scipy.org/Tentative_NumPy_Tutorial
http://docs.scipy.org/doc/scipy/reference/tutorial/
然后,再看更詳細(xì)的課程
你還可以看看“用Pandas進(jìn)行探索性數(shù)據(jù)分析”(http://www.analyticsvidhya.com/blog/2014/09/data-munging-python-using-pandas-baby-steps-python/)以及“用Pandas進(jìn)行數(shù)據(jù)整合”(http://www.analyticsvidhya.com/blog/2014/08/baby-steps-python-performing-exploratory-analysis-python/)兩篇文章。
其它資源:
完成來(lái)自哈佛大學(xué)CS109課程的作業(yè)。
小編注:回復(fù) 可視化 查看【數(shù)據(jù)科學(xué)之5個(gè)最佳Python庫(kù)】,了解關(guān)于這些科學(xué)庫(kù)的更多介紹和學(xué)習(xí)資源。
學(xué)完這個(gè)來(lái)自CS109的課程,你可以跳過(guò)前面的兩分鐘,接來(lái)下的內(nèi)容非常精彩!
跟著課程完成下面課程作業(yè)
現(xiàn)在,我們來(lái)到了整個(gè)過(guò)程的實(shí)質(zhì)部分。Scikit-learn是在Python中對(duì)機(jī)器學(xué)習(xí)最有用的庫(kù)。
學(xué)完來(lái)自哈佛大學(xué)2014年的CS109課程中第10講到第18講。你會(huì)全面了解機(jī)器學(xué)習(xí),監(jiān)督式學(xué)習(xí)算法(如回歸、決策樹、整體建模等)和非監(jiān)督式學(xué)習(xí)算法(如聚類等)。切記,跟隨每一講,完成作業(yè)。
其它資源:
試著完成Kaggle上的這個(gè)挑戰(zhàn)
http://www.kaggle.com/c/data-science-london-scikit-learn
祝賀你,你做到了!現(xiàn)在,你已經(jīng)擁有所需要的全部技能,只差練習(xí)了。哪里會(huì)有比在Kaggle上練習(xí)更好呢?上Kaggle與跟你一樣的數(shù)據(jù)科學(xué)家一較高下。去吧,參加一個(gè)在Kaggle上正在舉辦的實(shí)時(shí)比賽吧!試試你所學(xué)到的全部知識(shí)!
終于看到這個(gè),興奮吧?!現(xiàn)在,你已經(jīng)學(xué)到了絕大多數(shù)關(guān)于機(jī)器學(xué)習(xí)的技術(shù),是時(shí)候試試深度學(xué)習(xí)了。很有可能你已然知道什么是深度學(xué)習(xí),萬(wàn)一仍然需要一個(gè)簡(jiǎn)要介紹,可以看看這個(gè)。
對(duì)于深度學(xué)習(xí),我也是個(gè)新手,就請(qǐng)把這些建議當(dāng)作參考吧。最全面的資源在deeplearning.net上,在那里,你會(huì)找到所有的東西——講座、數(shù)據(jù)集、挑戰(zhàn)和教程。
如果想要了解神經(jīng)網(wǎng)絡(luò)的基本知識(shí),試著學(xué)習(xí)Geoff Hinton(這個(gè)大牛,你應(yīng)該也是知道的吧)的課程
篇外話:假如你需要面向大數(shù)據(jù)的Python庫(kù),請(qǐng)?jiān)囋嘝ydoop和PyMongo。由于“大數(shù)據(jù)的學(xué)習(xí)路徑”本身就是一個(gè)完整的話題,因此,本文并未涉及。
小編注:回復(fù) 可視化 查看【天龍八步:8步讓你成為數(shù)據(jù)科學(xué)家】
來(lái)源:
1. http://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-data-science-python/
2. https://www.youtube.com/watch?v=CoxjADZHUQA
【譯者簡(jiǎn)介】
有意聯(lián)系譯者,請(qǐng)給“大數(shù)據(jù)文摘”后臺(tái)留言,附自我介紹及微信ID,謝謝!
姚佳靈:家庭主婦,對(duì)數(shù)據(jù)處理和數(shù)據(jù)分析很感興趣,正在學(xué)習(xí)Python,希望能和大家多交流。
康欣:博士,多年從事圖像及數(shù)據(jù)處理和分析、計(jì)算機(jī)視覺、模式識(shí)別、機(jī)器學(xué)習(xí)、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域的技術(shù)研究和創(chuàng)新應(yīng)用,現(xiàn)為西門子中國(guó)研究院高級(jí)研究員。希望借此平臺(tái),與大數(shù)據(jù)分析愛好者以及專家學(xué)者交流、合作。
聯(lián)系客服