現(xiàn)在很多廣告都吹捧做數(shù)據(jù)分析都要用Python。其實(shí)都是為了割韭菜的,我和我身邊哪些數(shù)據(jù)分析師起步做這行的時(shí)候基本上用的都是Excel。
這個(gè)問(wèn)題咱么從頭說(shuō)起。
Excel 基本上是微軟為 Windows、macOS、Android 和 iOS 等不同操作系統(tǒng)開(kāi)發(fā)的電子表格,配備了多種功能,例如計(jì)算、繪圖工具、數(shù)據(jù)透視表和稱為 Visual Basic for Applications 的宏編程語(yǔ)言(未來(lái)要融入Python)構(gòu)成了 Microsoft Office 的每一部分。
在實(shí)際應(yīng)用中,商業(yè)世界已經(jīng)接受了 Excel,因?yàn)槭褂梅绞搅鲿?、有效和靈活,幾乎所有主要企業(yè)都以一種或另一種方式使用 Excel。適用于任何類型的業(yè)務(wù)流程,無(wú)論是銷售、營(yíng)銷還是其他,是整體業(yè)務(wù)不可或缺的一部分。
由于大多數(shù)數(shù)據(jù)可以導(dǎo)入 Excel,因此 Excel 本身如何用于進(jìn)行數(shù)據(jù)分析是很有趣的。
數(shù)據(jù)至關(guān)重要,而且當(dāng)下流行的業(yè)務(wù)模式都已經(jīng)成為數(shù)據(jù)驅(qū)動(dòng),但原始形式的數(shù)據(jù)并不是很有用。為了使用數(shù)據(jù)來(lái)獲得可操作的信息,需要對(duì)其進(jìn)行檢查、清理和轉(zhuǎn)換。這種過(guò)程就是所謂的數(shù)據(jù)分析。
有多種方法可以進(jìn)行數(shù)據(jù)分析。這些不同的數(shù)據(jù)分析方式被用于商業(yè)、科學(xué)甚至社會(huì)科學(xué)等不同領(lǐng)域。事實(shí)上數(shù)據(jù)分析是當(dāng)代商業(yè)世界蓬勃發(fā)展的東西。利用數(shù)據(jù)分析來(lái)收集商業(yè)智能以推動(dòng)業(yè)務(wù)增長(zhǎng)。
數(shù)據(jù)挖掘也是一種數(shù)據(jù)分析練習(xí),但它側(cè)重于發(fā)現(xiàn)新知識(shí)以用于預(yù)測(cè)而非描述目的。就統(tǒng)計(jì)應(yīng)用而言,數(shù)據(jù)分析可以分為描述性統(tǒng)計(jì)、探索性數(shù)據(jù)分析(EDA)和驗(yàn)證性數(shù)據(jù)分析(CDA)。
雖然 EDA 旨在識(shí)別數(shù)據(jù)中的新特征,但是 CDA 努力確認(rèn)或證明現(xiàn)有假設(shè)是錯(cuò)誤的。
預(yù)測(cè)分析是應(yīng)用統(tǒng)計(jì)模型進(jìn)行預(yù)測(cè)預(yù)測(cè)或分類的練習(xí)。另一方面為了從文本來(lái)源中提取和分類信息,文本分析利用統(tǒng)計(jì)、語(yǔ)言和結(jié)構(gòu)技術(shù)。
這些都是數(shù)據(jù)分析的變體。數(shù)據(jù)集成是數(shù)據(jù)分析之前需要的東西。數(shù)據(jù)分析還與數(shù)據(jù)可視化和數(shù)據(jù)傳播有關(guān)。有時(shí)人們可以互換使用術(shù)語(yǔ)進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)建模。
瀏覽數(shù)據(jù)本身可能是一場(chǎng)噩夢(mèng)。
當(dāng)查閱大量數(shù)據(jù)時(shí),探索和處理數(shù)據(jù)非常棘手。分析它很可能是一個(gè)獨(dú)特的挑戰(zhàn),但是并不是必須需要 Python,使用 Excel 也是可以的。
Excel 包含可以非常有效和高效地處理大量數(shù)據(jù)的函數(shù)。雖然數(shù)據(jù)分析的不同任務(wù)可能很棘手,但 Excel 函數(shù)非常簡(jiǎn)單,任何人都可以使用它們來(lái)分析數(shù)據(jù)。
也沒(méi)有必要記住所有功能??梢院?jiǎn)單地百度它并找出數(shù)據(jù)分析任務(wù)所需的功能。
就其速度、簡(jiǎn)單性和準(zhǔn)確性而言,Excel 不僅對(duì)數(shù)據(jù)分析有用而且必不可少??梢怨?jié)省寶貴的時(shí)間并有效地進(jìn)行數(shù)據(jù)分析。
以下是數(shù)據(jù)分析逐步過(guò)程的概述
在使用 Excel 進(jìn)行數(shù)據(jù)分析時(shí),可以這樣做:數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)探索(使用數(shù)據(jù)透視表)、數(shù)據(jù)可視化。
從網(wǎng)頁(yè)中提取數(shù)據(jù)
網(wǎng)站上刷新的數(shù)據(jù),可以有效地使用不同的功能 Excel 功能。
網(wǎng)頁(yè)中提取數(shù)據(jù)的分步過(guò)程
第 1 步:在 Excel 中打開(kāi)一個(gè)帶有空白工作表的工作簿。點(diǎn)擊數(shù)據(jù) -> 自網(wǎng)站 -> 從Web 。
第 2 步:在地址旁邊的框中輸入要從中導(dǎo)入數(shù)據(jù)的網(wǎng)站的 URL,然后單擊執(zhí)行。其中使用的數(shù)據(jù)2018 NBA Playoffs Summary | Basketball-Reference.com網(wǎng)址是這個(gè)。自己點(diǎn)擊打開(kāi)后復(fù)制。
這里可能會(huì)出現(xiàn)無(wú)法訪問(wèn)連接的情況,根據(jù)系統(tǒng)不同自己的情況自行百度處理。
第 3 步:選擇加載數(shù)據(jù)自動(dòng)的進(jìn)行轉(zhuǎn)化處理,不過(guò)這個(gè)加載的過(guò)程比較緩慢。
第 4 步:單擊導(dǎo)入數(shù)據(jù)指定要放置數(shù)據(jù)的位置,然后單擊確定。等待一會(huì)出現(xiàn)下面的界面即加載成功,可以根據(jù)需要加載不同的的頁(yè)面數(shù)據(jù),有點(diǎn)類似爬蟲(chóng)吧。
還可以從其他來(lái)源收集數(shù)據(jù),例如:
1.刪除重復(fù)行
按照以下步驟刪除重復(fù)值:選擇數(shù)據(jù) -> 轉(zhuǎn)到數(shù)據(jù)功能區(qū) -> 刪除重復(fù)值。
2.刪除空格
步驟 1:在相鄰單元格 C1 中輸入公式 =TRIM (A1),然后按 Enter 鍵。
第 2 步:選擇單元格 C1 并將填充手柄向下拖動(dòng)到要?jiǎng)h除前導(dǎo)空格的范圍單元格。然后你可以看到所有單元格內(nèi)容都被提取了,所有前導(dǎo)空格都被刪除了。請(qǐng)看截圖:
3.合并和拆分列
第 1 步:轉(zhuǎn)到數(shù)據(jù)選項(xiàng)卡,在排序和過(guò)濾組中。單擊文本到列。然后選擇數(shù)據(jù) -> 分列。
第 2 步:單擊并在“空格”復(fù)選框上打勾,數(shù)據(jù)分隔符是“空格”。當(dāng)點(diǎn)擊它時(shí)將能夠在數(shù)據(jù)預(yù)覽框中看到正在分離的數(shù)據(jù)。然后單擊下一步按鈕。
第 3 步:單擊目標(biāo)以選擇要拆分文本的位置,然后單擊“完成”按鈕。
第 4 步:可以看到列中一個(gè)單元格的文本已拆分。
還可以將此功能用于可能需要合并到一列或拆分為多列的其他常見(jiàn)值,包括產(chǎn)品代碼、文件路徑和 Internet 協(xié)議 (IP) 地址。
4.通過(guò)join或match對(duì)表數(shù)據(jù)進(jìn)行對(duì)賬
Excel 還可用于在連接兩個(gè)或多個(gè)表時(shí)查找和更正匹配錯(cuò)誤。這可能需要協(xié)調(diào)來(lái)自不同工作表的兩個(gè)表,例如可以使用它來(lái)查看兩個(gè)表中的所有記錄或比較表并查找不匹配的行。
函數(shù) vlookup() 將有助于執(zhí)行此任務(wù),它在表數(shù)組的第一列中搜索一個(gè)值,并從表數(shù)組的另一列中返回同一行中的值。
讓我們看看下表(訂單和客戶)。在訂單表中,我們希望根據(jù)公共鍵“客戶 ID”從客戶表中映射城市名稱。
在這里,函數(shù) vlookup() 將使我們能夠執(zhí)行此任務(wù)。轉(zhuǎn)到公式選項(xiàng)卡-> 在函數(shù)庫(kù)中單擊查找和參考-> 單擊 Vlookup?,F(xiàn)在我們將使用 VLOOKUP 函數(shù)并將這個(gè)公式輸入 E3。
Vlookup 語(yǔ)法:
這將返回所有客戶 ID 1 的城市名稱,并發(fā)布為所有客戶 ID 復(fù)制此公式的內(nèi)容。請(qǐng)看下面給出的截圖:
Excel 的數(shù)據(jù)透視表是一個(gè)匯總表,可讓根據(jù)選擇的參考功能進(jìn)行計(jì)數(shù)、平均、求和和執(zhí)行其他計(jì)算。
第 1 步:創(chuàng)建一個(gè)如下所示的數(shù)據(jù)透視表:選擇表格 -> 轉(zhuǎn)到插入選項(xiàng)卡,在表格組中,單擊數(shù)據(jù)透視表,然后選擇想要數(shù)據(jù)透視表的現(xiàn)有工作表位置。
第 2 步:可以看到“數(shù)據(jù)透視表字段列表”面板,其中包含列表中的字段。需要做的就是將它們排列在面板底部的盒子中。完成此操作后,左側(cè)的圖表將成為數(shù)據(jù)透視表。
1.圖表:Excel 中的一個(gè)簡(jiǎn)單圖表可以比一張滿是數(shù)字的表格說(shuō)明更多。如所見(jiàn),創(chuàng)建圖表非常簡(jiǎn)單。
創(chuàng)建簡(jiǎn)單折線圖:
第 1 步: 在“插入”選項(xiàng)卡的“圖表”組中,單擊“線”符號(hào)。
第 2 步:現(xiàn)在要?jiǎng)?chuàng)建折線圖,請(qǐng)單擊帶有標(biāo)記的線。
2.數(shù)據(jù)透視圖
數(shù)據(jù)透視圖是 Excel 中數(shù)據(jù)透視表的直觀表示。數(shù)據(jù)透視圖和數(shù)據(jù)透視表是相互連接的。返回?cái)?shù)據(jù)透視表以了解如何創(chuàng)建此數(shù)據(jù)透視表。
步驟 1:單擊數(shù)據(jù)透視表內(nèi)的任何單元格 -> 在插入選項(xiàng)卡上的圖表組中,單擊數(shù)據(jù)透視圖。然后出現(xiàn)插入圖表對(duì)話框。單擊確定以創(chuàng)建數(shù)據(jù)透視圖。
創(chuàng)建數(shù)據(jù)透視圖后,可以根據(jù)特定需求對(duì)其進(jìn)行自定義,通過(guò)過(guò)濾圖表屬性和更改圖表類型來(lái)傳達(dá)想要的消息。
Excel 有 1048576 行的限制,這意味著不能分析超過(guò) 1048576 行的數(shù)據(jù)。
Power Pivot 是 Excel 2010 中首次引入的 Excel 加載項(xiàng),它讓有機(jī)會(huì)同時(shí)導(dǎo)入、合并和準(zhǔn)備來(lái)自更多數(shù)據(jù)源的數(shù)據(jù)。
可以將來(lái)自許多不同來(lái)源(SQL、Azure、Oracle、Excel、Access 等)的許多表導(dǎo)入 Power Pivot,然后可以將所有這些數(shù)據(jù)相互關(guān)聯(lián)。
這意味著可以構(gòu)建一個(gè)包含來(lái)自多個(gè)不同來(lái)源的多個(gè)數(shù)據(jù)集的數(shù)據(jù)模型,并通過(guò)連接它們獲得在一個(gè)數(shù)據(jù)透視表中分析它們的能力。
在開(kāi)發(fā)復(fù)雜的統(tǒng)計(jì)或工程分析時(shí),可以使用分析工具庫(kù)來(lái)節(jié)省步驟和時(shí)間。
需要做的就是為每次分析提供數(shù)據(jù)和參數(shù),該工具使用適當(dāng)?shù)慕y(tǒng)計(jì)或工程宏功能來(lái)計(jì)算并在輸出表中顯示結(jié)果。除了輸出表之外,一些工具還會(huì)生成圖表。
ToolPak 為數(shù)據(jù)分析提供了 19 種不同的特征(如相關(guān)、協(xié)方差、直方圖、回歸等等……)。
聯(lián)系客服