從感知器到人工神經(jīng)網(wǎng)絡(luò)在第8章,感知器里,我們介紹了感知器,一種線性模型用來(lái)做二元分類。感知器不是一個(gè)通用函數(shù)近似器;它的決策邊界必須是一個(gè)超平面。上一章里面介紹的支持向量機(jī),用核函數(shù)修正了感知器的不足,將特征向量有效的映射到更高維的空間使得樣本成為線性可分的數(shù)據(jù)集。本章,我們將介紹人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN),一...
從感知器到支持向量機(jī)上一章我們介紹了感知器。作為一種二元分類器,感知器不能有效的解決線性不可分問(wèn)題。其實(shí)在第二章,線性回歸里面已經(jīng)遇到過(guò)類似的問(wèn)題,當(dāng)時(shí)需要解決一個(gè)解釋變量與響應(yīng)變量存在非線性關(guān)系的問(wèn)題。為了提高模型的準(zhǔn)確率,我們引入了一種特殊的多元線性回歸模型,多項(xiàng)式回歸。通過(guò)對(duì)特征進(jìn)行合理的組合,我們建立了高維特征空間的解釋變量與響應(yīng)變量的線性關(guān)系模型。...
感知器前面,我們介紹了廣義線性模型,用聯(lián)接方程描述解釋變量、超參數(shù)和響應(yīng)變量的線性關(guān)系。這一章,我們將介紹另一種線性模型,稱為感知器(perceptron)。感知器是一種研究單個(gè)訓(xùn)練樣本的二元分類器,訓(xùn)練較大的數(shù)據(jù)集很有用。而且,感知器和它的不足激發(fā)了我們后面兩種將介紹的模型。感知器是Frank Rosenblatt在1957...
用PCA降維本章我們將介紹一種降維方法,PCA(Principal Component Analysis,主成分分析)。降維致力于解決三類問(wèn)題。第一,降維可以緩解維度災(zāi)難問(wèn)題。第二,降維可以在壓縮數(shù)據(jù)的同時(shí)讓信息損失最小化。第三,理解幾百個(gè)維度的數(shù)據(jù)結(jié)構(gòu)很困難,兩三個(gè)維度的數(shù)據(jù)通過(guò)可視化更容易理解。下面,我們用PCA將一個(gè)高維數(shù)據(jù)降成二維,方便可視化,之后,我們...
K-Means聚類前面幾章我們介紹了監(jiān)督學(xué)習(xí),包括從帶標(biāo)簽的數(shù)據(jù)中學(xué)習(xí)的回歸和分類算法。本章,我們討論無(wú)監(jiān)督學(xué)習(xí)算法,聚類(clustering)。聚類是用于找出不帶標(biāo)簽數(shù)據(jù)的相似性的算法。我們將介紹K-Means聚類思想,解決一個(gè)圖像壓縮問(wèn)題,然后對(duì)算法的效果進(jìn)行評(píng)估。最后,我們把聚類和分類算法組合起來(lái),解決一個(gè)半監(jiān)督學(xué)習(xí)問(wèn)題。在第一章,機(jī)...
決策樹(shù)——非線性回歸與分類前面幾章,我們介紹的模型都是廣義線性模型,基本方法都是通過(guò)聯(lián)接方程構(gòu)建解釋變量與若干響應(yīng)變量的關(guān)聯(lián)關(guān)系。我們用多元線性回歸解決回歸問(wèn)題,邏輯回歸解決分類問(wèn)題。本章我們要討論一種簡(jiǎn)單的非線性模型,用來(lái)解決回歸與分類問(wèn)題,稱為決策樹(shù)(decision tree)。首先,我們將用決策樹(shù)做一個(gè)廣告屏蔽器,可以將網(wǎng)頁(yè)中的廣告內(nèi)容屏蔽掉。之后,我們...
從線性回歸到邏輯回歸在第2章,線性回歸里面,我們介紹了一元線性回歸,多元線性回歸和多項(xiàng)式回歸。這些模型都是廣義線性回歸模型的具體形式,廣義線性回歸是一種靈活的框架,比普通線性回歸要求更少的假設(shè)。這一章,我們討論廣義線性回歸模型的具體形式的另一種形式,邏輯回歸(logistic regression)。和前面討論的模型不同,邏輯回歸是用來(lái)做分類任務(wù)的。分類任務(wù)...
特征提取與處理上一章案例中的解釋變量都是數(shù)值,比如匹薩的直接。而很多機(jī)器學(xué)習(xí)問(wèn)題需要研究的對(duì)象可能是分類變量、文字甚至圖像。本章,我們介紹提取這些變量特征的方法。這些技術(shù)是數(shù)據(jù)處理的前提——序列化,更是機(jī)器學(xué)習(xí)的基礎(chǔ),影響到本書(shū)的所有章節(jié)。分類變量特征提取許多機(jī)器學(xué)習(xí)問(wèn)題都有分類的、標(biāo)記的變量,不是連續(xù)的。例如...
線性回歸本章介紹用線性模型處理回歸問(wèn)題。從簡(jiǎn)單問(wèn)題開(kāi)始,先處理一個(gè)響應(yīng)變量和一個(gè)解釋變量的一元問(wèn)題。然后,我們介紹多元線性回歸問(wèn)題(multiple linear regression),線性約束由多個(gè)解釋變量構(gòu)成。緊接著,我們介紹多項(xiàng)式回歸分析(polynomial regression問(wèn)題),一種具有非線性關(guān)系的多元線性回歸問(wèn)題。最后,我們介紹如果訓(xùn)練模型獲取目標(biāo)函...
本章我們簡(jiǎn)要介紹下機(jī)器學(xué)習(xí)(Machine Learning)的基本概念。主要介紹機(jī)器學(xué)習(xí)算法的應(yīng)用,監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)(supervised-unsupervised learning)的應(yīng)用場(chǎng)景,訓(xùn)練和測(cè)試數(shù)據(jù)的用法,學(xué)習(xí)效果評(píng)估方式。最后,對(duì)scikit-learn進(jìn)行一些簡(jiǎn)單的介紹。自計(jì)算機(jī)問(wèn)世以來(lái),計(jì)算機(jī)可以學(xué)習(xí)和模仿人類智慧的觀點(diǎn),可謂“引無(wú)數(shù)英雄競(jìng)折腰”...