垃圾郵件過(guò)濾、人臉識(shí)別、推薦引擎——當(dāng)你有一個(gè)大數(shù)據(jù)集并且希望利用它們執(zhí)行預(yù)測(cè)分析和模式識(shí)別,機(jī)器學(xué)習(xí)是必經(jīng)之路。這門(mén)科學(xué),計(jì)算機(jī)可以在沒(méi)有事先規(guī)劃的前提下自主學(xué)習(xí)、分析和操作數(shù)據(jù),現(xiàn)在越來(lái)越多的開(kāi)發(fā)人員關(guān)注機(jī)器學(xué)習(xí)。
機(jī)器學(xué)習(xí)技術(shù)的興起不僅是因?yàn)橛布杀驹絹?lái)越便宜以及性能越來(lái)越強(qiáng)大,促使機(jī)器學(xué)習(xí)在單機(jī)或大規(guī)模集群上輕松部署的免費(fèi)軟件激增也是重要因素。機(jī)器學(xué)習(xí)庫(kù)的多樣性意味著無(wú)論你喜歡什么語(yǔ)言或環(huán)境,都有可能是獲得你喜歡的。
Python由于其易用性以及豐富的函數(shù)庫(kù),已經(jīng)成為數(shù)學(xué)、自然科學(xué)和統(tǒng)計(jì)學(xué)的首選編程語(yǔ)言。Scikit-learn通過(guò)在現(xiàn)有Python包上構(gòu)建——NumPy SciPy和matplotlib——服務(wù)于數(shù)學(xué)和自然科學(xué)。生成的庫(kù)要么可以使用交互式“工作臺(tái)”應(yīng)用程序,要么被嵌入到其他軟件和重用。工具箱可以在BSD許可下獲取,所以它是完全開(kāi)放和可重用的。
Project: scikit-learn
GitHub: https://github.com/scikit-learn/scikit-learn
在最古老、最值得尊敬的機(jī)器學(xué)習(xí)庫(kù)中,Shogun創(chuàng)建于1999年,用C++編寫(xiě),但并不限于在C++工作。由于SWIG庫(kù),Shogun可以輕松在Java、Python、C#、Ruby、R、Lua、Octave、Matlab語(yǔ)言和環(huán)境下使用。
雖然德高望重,Shogun也有其他的競(jìng)爭(zhēng)者。另一個(gè)基于C++的機(jī)器學(xué)習(xí)庫(kù)Mlpack在2011年出現(xiàn),它宣稱(chēng)比其他競(jìng)爭(zhēng)者速度更快并且更容易使用(一個(gè)更完整的API集)。
Project: Shogun
GitHub: https://github.com/shogun-toolbox/shogun
Accord,一個(gè).Net的機(jī)器學(xué)習(xí)和信號(hào)處理框架,是早前類(lèi)似一個(gè)項(xiàng)目AForge.net的擴(kuò)展。順便說(shuō)一下,“信號(hào)處理”這里是指一系列對(duì)圖像和音頻的機(jī)器學(xué)習(xí)算法,如圖片無(wú)縫縫合或執(zhí)行人臉檢測(cè)。包含一組視覺(jué)處理算法;它作用于圖像流(如視頻),并且可用于實(shí)現(xiàn)移動(dòng)對(duì)象的跟蹤等功能。Accord還提供一個(gè)從神經(jīng)網(wǎng)絡(luò)到?jīng)Q策樹(shù)系統(tǒng)的機(jī)器學(xué)習(xí)常見(jiàn)庫(kù)。
Project: Accord Framework/AForge.net
GitHub: https://github.com/accord-net/framework/
Mahout框架一直與Hadoop相關(guān)聯(lián),但旗下很多算法還可以脫離Hadoop運(yùn)行。他們對(duì)那些可能最終遷移到Hadoop上的應(yīng)用程序或從Hadoop上剝離成為獨(dú)立應(yīng)用程序的項(xiàng)目非常有用。
Mahout缺點(diǎn)之一:目前幾乎沒(méi)有算法支持高性能的Spark框架,反而使用日益過(guò)時(shí)的MapReduce框架。該項(xiàng)目目前不接受基于MapReduce的算法,那些想要獲得更高性能的開(kāi)發(fā)者轉(zhuǎn)而用MLlib 替代。
Project: Mahout
Apache自己的Spark和Hadoop機(jī)器學(xué)習(xí)庫(kù),旨在為大規(guī)模和高速度而設(shè)計(jì)的MLlib自稱(chēng)擁有所有常見(jiàn)的算法和有用數(shù)據(jù)類(lèi)型。與任何Hadoop項(xiàng)目一樣,Java是MLlib上的基本語(yǔ)言,但是Python用戶(hù)可以用MLlib NumPy庫(kù)連接(也用于scikit-learn),并且Scala用戶(hù)可以針對(duì)MLlib編寫(xiě)代碼。如果不能設(shè)置一個(gè)Hadoop集群,MLlib可以在沒(méi)有Hadoop的情況下部署在Spark上——以及在EC2或Mesos上。
Project:MLlib
全國(guó)大數(shù)據(jù)創(chuàng)新項(xiàng)目評(píng)選活動(dòng)目前正在如火如荼進(jìn)行中,詳情點(diǎn)擊這里。
2014中國(guó)大數(shù)據(jù)技術(shù)大會(huì)(Big Data Technology Conference 2014,BDTC 2014)將于2014年12月12日-14日在北京新云南皇冠假日酒店召開(kāi)。傳承自2008年,歷經(jīng)七屆沉淀,“中國(guó)大數(shù)據(jù)技術(shù)大會(huì)”是目前國(guó)內(nèi)最具影響、規(guī)模最大的大數(shù)據(jù)領(lǐng)域技術(shù)盛會(huì)。本屆會(huì)議,你不僅可以了解到Apache Hadoop提交者Uma Maheswara Rao G(兼項(xiàng)目管理委員會(huì)成員)、Yi Liu,以及Apache Hadoop和Tez項(xiàng)目管理委員會(huì)成員Bikas Saha等分享的通用大數(shù)據(jù)開(kāi)源項(xiàng)目的最新成果和發(fā)展趨勢(shì),還將斬獲來(lái)自騰訊、阿里、Cloudera、LinkedIn、網(wǎng)易等機(jī)構(gòu)的數(shù)十場(chǎng)干貨分享。 當(dāng)下門(mén)票團(tuán)購(gòu)還有些許優(yōu)惠, 預(yù)購(gòu)從速。
免費(fèi)訂閱“CSDN大數(shù)據(jù)”微信公眾號(hào),實(shí)時(shí)了解最新的大數(shù)據(jù)進(jìn)展!
CSDN大數(shù)據(jù),專(zhuān)注大數(shù)據(jù)資訊、技術(shù)和經(jīng)驗(yàn)的分享和討論,提供Hadoop、Spark、Impala、Storm、HBase、MongoDB、Solr、機(jī)器學(xué)習(xí)、智能算法等相關(guān)大數(shù)據(jù)觀點(diǎn),大數(shù)據(jù)技術(shù),大數(shù)據(jù)平臺(tái),大數(shù)據(jù)實(shí)踐,大數(shù)據(jù)產(chǎn)業(yè)資訊等服務(wù)。
聯(lián)系客服