2017年,全球估計(jì)有7.5億人使用Excel。2017年,世界人口約為76億。這意味著大約有10%的人使用Excel,我猜大部分是用于數(shù)據(jù)分析。
毫無疑問,Excel是一個(gè)非常重要的工具,公司和仍在每個(gè)數(shù)據(jù)分析師的工具包和科學(xué)家,但是對(duì)于你的工作,你需要停止使用Excel和升級(jí)到Python。我會(huì)告訴你們?yōu)槭裁础?/p>
所以,如果你還沒有邁出學(xué)習(xí)Python的步伐,并將你的數(shù)據(jù)分析和可視化技能提升到一個(gè)新的水平,那么我將給出你現(xiàn)在需要學(xué)習(xí)Python的5個(gè)理由。到最后,我相信您會(huì)期待用Python替換大部分Excel工作。
Excel是方便的,當(dāng)你想做快速的,特別小的數(shù)據(jù)分析,但是一旦你想搬到一個(gè)更大的規(guī)模,它就不行了。Excel最多支持1,048,576行、16,384列的數(shù)據(jù)。而Python可以擴(kuò)展到您的內(nèi)存大小,并且還有許多支持內(nèi)存不足計(jì)算的工具。
例如,Dask庫允許您將計(jì)算擴(kuò)展到在計(jì)算機(jī)集群上運(yùn)行,而不僅僅是在您的筆記本電腦上運(yùn)行。實(shí)際上,如果你熟悉pandas,在CSV中讀取的代碼幾乎是一樣的:
import dask.dataframe as dd # Load the data with Dask instead of Pandas. df = dd.read_csv(<file_path>)
只需一行代碼,就可以讀取比計(jì)算機(jī)內(nèi)存還大的數(shù)據(jù)。對(duì)于Excel,這根本不可能。
此外,當(dāng)涉及到多個(gè)數(shù)據(jù)源時(shí),Python可以伸縮。Excel是數(shù)據(jù)存儲(chǔ)和計(jì)算引擎,而Python是完全數(shù)據(jù)無關(guān)的。如果您能找到將數(shù)據(jù)讀入Python的方法,那么就可以使用它。而且由于Python有這么多優(yōu)秀的庫,從許多來源(如CSV、Excel、JSON和SQL數(shù)據(jù)庫)讀入數(shù)據(jù)是很簡(jiǎn)單的。
最后,在自動(dòng)化方面,Python是一種令人驚嘆的編程語言。由于您可以將Python直接連接到任何數(shù)據(jù)源,因此可以很容易地調(diào)度一個(gè)作業(yè),該作業(yè)將通過任何更新重新拉取數(shù)據(jù),運(yùn)行計(jì)算,甚至創(chuàng)建一個(gè)報(bào)告或動(dòng)態(tài)儀表板,從而節(jié)省大量時(shí)間。另一方面,Excel需要太多的手工勞動(dòng),不能自動(dòng)更新。
再現(xiàn)性是任何分析或您創(chuàng)建可視化的概念應(yīng)該是簡(jiǎn)單和直接的復(fù)制為別人。不僅需要有人能夠重新運(yùn)行您的流程并以相同的結(jié)果結(jié)束,而且還應(yīng)該能夠遍歷您的步驟以確保準(zhǔn)確性。當(dāng)您開始依賴自動(dòng)化時(shí),這個(gè)概念是非常重要的。當(dāng)工作正確時(shí),自動(dòng)化是令人驚奇的,但是當(dāng)工作不正確時(shí),自動(dòng)化報(bào)告可能是一場(chǎng)噩夢(mèng)。
Excel的重現(xiàn)性非常具有挑戰(zhàn)性。Excel在單元格中的計(jì)算幾乎不可能在任何規(guī)模下進(jìn)行檢查。數(shù)據(jù)類型非常令人困惑,因?yàn)槟吹降牟⒉豢偸窃谠紨?shù)據(jù)中所表示的,而VBA使再現(xiàn)性稍微好一些,在這一點(diǎn)上,您最好投資于學(xué)習(xí)Python。
看看這個(gè)Excel文檔:
你知道和列應(yīng)該是a和b的和,但是你怎么確定呢?你可以檢查其中一個(gè)公式,看它實(shí)際上是和,但由于每個(gè)單元格都可以是自己的公式,如果它們都不正確呢?如果你沒有注意,你可能會(huì)錯(cuò)過x行是錯(cuò)的。
但是在Python語言中,你的和是這樣的
a = [1,2,3,4]b = [5,6,7,8]sum = []for i in range(a): sum.append(a[i] b[i])
此代碼清晰且易于確認(rèn)總計(jì)算正確。
使用Python,您可以開發(fā)出所有的工具,以便為軟件工程師提供更好的重現(xiàn)性和協(xié)作。最重要的是,Python在數(shù)據(jù)連接方面更優(yōu)越,允許我們分析云中的數(shù)據(jù)并立即重復(fù)一個(gè)過程。Git、單元測(cè)試、文檔和代碼格式標(biāo)準(zhǔn)Python社區(qū)都是普遍的。在Python 3中,您甚至可以添加靜態(tài)類型來使代碼更加清晰。所有這些工具都使確保代碼編寫良好和正確變得更加容易。這樣,下次您查看您的代碼或其他人挑選它時(shí),它就很容易復(fù)制和理解。
如果你知道Excel,你就僅僅知道Excel。雖然你學(xué)到的技能是有用的,但它們不能轉(zhuǎn)移到其他任何地方。我最喜歡Python的一點(diǎn)是,它不僅是一個(gè)了不起的數(shù)據(jù)分析和可視化工具,而且是一種可以用于許多其他事情的堅(jiān)實(shí)的編程語言。
想要做機(jī)器學(xué)習(xí)甚至是深度學(xué)習(xí)嗎?你可以用Python來做。想要建立一個(gè)網(wǎng)站?Python可以做到這一點(diǎn)。想讓你的智能家居自動(dòng)化嗎?Python也可以做到這一點(diǎn)。
而且,Python比Excel更接近于其他編程語言。這使得學(xué)習(xí)過程中可能遇到的其他語言變得更加容易。學(xué)習(xí)Python比Excel打開了更多的大門。
最后,對(duì)Python的需求非常高。根據(jù)StackOverflow的數(shù)據(jù),在2019年,它是世界上第四大最受專業(yè)軟件開發(fā)者歡迎的編程語言,同時(shí)也是最受歡迎的編程語言。
Excel有許多內(nèi)置公式,但與Python的功能相比,它就相形見絀了。Python不僅提供了數(shù)百個(gè)庫來簡(jiǎn)化高級(jí)統(tǒng)計(jì)和分析,而且還可以將可視化提升到另一個(gè)層次。使用Matplotlib、Plotly、Streamlit和Seaborn等工具,您可以創(chuàng)建漂亮的數(shù)據(jù)可視化以及交互式指示板和圖形。
Numpy和scipy對(duì)科學(xué)計(jì)算、線性代數(shù)和向量化計(jì)算有著驚人的支持。scikit-learn讓你訓(xùn)練從決策樹到梯度增強(qiáng)機(jī)器的機(jī)器學(xué)習(xí)算法。
英文原文:
https://towardsdatascience.com/stop-using-excel-for-data-analytics-upgrade-to-python-46b5963fb036
聯(lián)系客服