新智元報(bào)道
編輯:元子
今天,新智元要為大家推薦一個(gè)超實(shí)用、顏值超高的神經(jīng)網(wǎng)絡(luò)+機(jī)器學(xué)習(xí)+數(shù)據(jù)科學(xué)和Python的完全圖解,文末附有高清PDF版鏈接,支持下載、打印,推薦大家可以做成鼠標(biāo)墊、桌布,或者印成手冊(cè)等隨手?jǐn)y帶,隨時(shí)翻看。
這是一份非常詳實(shí)的備忘單,涉及具體內(nèi)容包括:
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)知識(shí)
神經(jīng)網(wǎng)絡(luò)圖譜
機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí)
著名Python庫(kù)Scikit-Learn
Scikit-Learn算法
機(jī)器學(xué)習(xí)算法選擇指南
TensorFlow
Python基礎(chǔ)
PySpark基礎(chǔ)
Numpy基礎(chǔ)
Bokeh
Keras
Pandas
使用Pandas進(jìn)行Data Wrangling
使用dplyr和tidyr進(jìn)行Data Wrangling
SciPi
MatPlotLib
使用ggplot進(jìn)行數(shù)據(jù)可視化
Big-O
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)知識(shí)
人工神經(jīng)網(wǎng)絡(luò)(ANN),俗稱神經(jīng)網(wǎng)絡(luò),是一種基于生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能的計(jì)算模型。 它就像一個(gè)人工神經(jīng)系統(tǒng),用于接收,處理和傳輸計(jì)算機(jī)科學(xué)方面的信息。
基本上,神經(jīng)網(wǎng)絡(luò)中有3個(gè)不同的層:
輸入層(所有輸入都通過該層輸入模型)
隱藏層(可以有多個(gè)隱藏層用于處理從輸入層接收的輸入)
輸出層(處理后的數(shù)據(jù)在輸出層可用)
神經(jīng)網(wǎng)絡(luò)圖譜
圖形數(shù)據(jù)可以與很多學(xué)習(xí)任務(wù)一起使用,在元素之間包含很多豐富的關(guān)聯(lián)數(shù)據(jù)。例如,物理系統(tǒng)建模、預(yù)測(cè)蛋白質(zhì)界面,以及疾病分類,都需要模型從圖形輸入中學(xué)習(xí)。圖形推理模型還可用于學(xué)習(xí)非結(jié)構(gòu)性數(shù)據(jù),如文本和圖像,以及對(duì)提取結(jié)構(gòu)的推理。
用Emoji解釋機(jī)器學(xué)習(xí)
Scikit-Learn基礎(chǔ)
Scikit-learn是由Python第三方提供的非常強(qiáng)大的機(jī)器學(xué)習(xí)庫(kù),它包含了從數(shù)據(jù)預(yù)處理到訓(xùn)練模型的各個(gè)方面,回歸和聚類算法,包括支持向量機(jī),是一種簡(jiǎn)單有效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具。在實(shí)戰(zhàn)使用scikit-learn中可以極大的節(jié)省代碼時(shí)間和代碼量。它基于NumPy,SciPy和matplotlib之上,采用BSD許可證。
Scikit-Learn算法
這張流程圖非常清晰直觀的給出了Scikit-Learn算法的使用指南。
針對(duì)Azure Machine Learning Studios的Scikit-Learn算法
TensorFlow
Python基礎(chǔ)
溫馨提示,本圖配合《100天從Python萌新到王者》食用,效果更佳。
PySpark RDD基礎(chǔ)
Apache Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎,通過Scala語(yǔ)言實(shí)現(xiàn),擁有Hadoop MapReduce所具有的優(yōu)點(diǎn),不同的是Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。PySpark是Spark 為 Python開發(fā)者提供的 API。
NumPy基礎(chǔ)
NumPy是Python語(yǔ)言的一個(gè)擴(kuò)展程序庫(kù)。支持高端大量的維度數(shù)組與矩陣運(yùn)算,此外也針對(duì)數(shù)組運(yùn)算提供大量的數(shù)學(xué)函數(shù)庫(kù),前身Numeric,主要用于數(shù)組計(jì)算。它實(shí)現(xiàn)了在Python中使用向量和數(shù)學(xué)矩陣、以及許多用C語(yǔ)言實(shí)現(xiàn)的底層函數(shù),并且速度得到了極大提升。
Bokeh
Bokeh是一個(gè)交互式可視化庫(kù),面向現(xiàn)代Web瀏覽器。目標(biāo)是提供優(yōu)雅、簡(jiǎn)潔的多功能圖形構(gòu)造,并通過非常大或流數(shù)據(jù)集的高性能交互來(lái)擴(kuò)展此功能。Bokeh可以實(shí)現(xiàn)快速輕松地創(chuàng)建交互式圖表、儀表板和數(shù)據(jù)應(yīng)用程序。
Keras
Keras 是一個(gè)用 Python 編寫的高級(jí)神經(jīng)網(wǎng)絡(luò) API,它能夠以 TensorFlow, CNTK, 或者 Theano 作為后端運(yùn)行。Keras 的開發(fā)重點(diǎn)是支持快速的實(shí)驗(yàn)。能夠以最小的時(shí)延把你的想法轉(zhuǎn)換為實(shí)驗(yàn)結(jié)果,是做好研究的關(guān)鍵。
Pandas
pandas是一個(gè)為Python編程語(yǔ)言編寫的軟件庫(kù),用于數(shù)據(jù)操作和分析,基于NumPy,納入了大量庫(kù)和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效地操作大型數(shù)據(jù)集所需的工具。Pandas提供了大量快速便捷地處理數(shù)據(jù)的函數(shù)和方法。
使用Pandas進(jìn)行Data Wrangling
Data Wrangling通常被翻譯成數(shù)據(jù)整理,這個(gè)詞最開始火起來(lái)是因?yàn)?017年的電影《金剛·骷髏島》,演員馬克·埃文·杰克遜扮演的角色之一被介紹為“我們的Data Wrangler史蒂夫伍德沃德”。
使用ddyr和tidyr進(jìn)行Data Wrangling
為什么使用tidyr和dplyr呢?因?yàn)殡m然R中存在許多基本數(shù)據(jù)處理功能,但都有點(diǎn)復(fù)雜并且缺乏一致的編碼,導(dǎo)致可讀性很差的嵌套功能以及臃腫的代碼。使用ddyr和tidyr可以獲得:
更高效的代碼
更容易記住的語(yǔ)法
更好的語(yǔ)法可讀性
Scipy線性代數(shù)
SciPy是一個(gè)開源的Python算法庫(kù)和數(shù)學(xué)工具包。 SciPy包含的模塊有最優(yōu)化、線性代數(shù)、積分、插值、特殊函數(shù)、快速傅里葉變換、信號(hào)處理和圖像處理、常微分方程求解和其他科學(xué)與工程中常用的計(jì)算。 與其功能相類似的軟件還有MATLAB、GNU Octave和Scilab。
Matplotlib
Matplotlib是Python編程語(yǔ)言及其數(shù)值數(shù)學(xué)擴(kuò)展包NumPy的可視化操作界面。 它為利用通用的圖形用戶界面工具包,如Tkinter, wxPython, Qt或GTK+向應(yīng)用程序嵌入式繪圖提供了應(yīng)用程序接口(API)。
使用ggplot2進(jìn)行數(shù)據(jù)可視化
Big-O
大O符號(hào)(英語(yǔ):Big O notation),又稱為漸進(jìn)符號(hào),是用于描述函數(shù)漸近行為的數(shù)學(xué)符號(hào)。 更確切地說,它是用另一個(gè)(通常更簡(jiǎn)單的)函數(shù)來(lái)描述一個(gè)函數(shù)數(shù)量級(jí)的漸近上界。 ... 階)的大O,最初是一個(gè)大寫希臘字母“Ο”(omicron),現(xiàn)今用的是大寫拉丁字母“O”。
聯(lián)系客服