【董飛的回答(100票)】:
Hadoop Spark學(xué)習(xí)小結(jié)[2014版]Hadoop
Hadoop社區(qū)依然發(fā)展迅速,2014年推出了2.3,2.4, 2.5 的社區(qū)版本,比如增強(qiáng) Resource Manager HA, YARN Rest API, ACL on HDFS, 改進(jìn) HDFS 的 Web UI…
Hadoop Roadmap 根據(jù)我的觀察,主要更新在Yarn,HDFS,而Mapreduce幾乎停滯了,還有一些feature 屬于安全,穩(wěn)定可靠性一方面是比較穩(wěn)定了,但也可以說是瓶頸了。
這個(gè)是Hadoop project member and committee, 里面好多來自Hortonworks,也有不少國(guó)人上榜。SparkSpark 介紹
Spark今年大放溢彩,Spark簡(jiǎn)單說就是內(nèi)存計(jì)算(包含迭代式計(jì)算,DAG計(jì)算,流式計(jì)算 )框架,之前MapReduce因效率低下大家經(jīng)常嘲笑,而Spark的出現(xiàn)讓大家很清新。
Reynod 作為Spark核心開發(fā)者, 介紹Spark性能超Hadoop百倍,算法實(shí)現(xiàn)僅有其1/10或1/100
Spark: Open Source Superstar Rewrites Future of Big Data
Spark is a really big deal for big data, and Cloudera gets it
其實(shí)起名字也很重要,Spark就占了先機(jī),CTO說Where There’s Spark There’s Fire: The State of Apache Spark in 2014Spark 起源
2010年Berkeley AMPLab,發(fā)表在hotcloud 是一個(gè)從學(xué)術(shù)界到工業(yè)界的成功典范,也吸引了頂級(jí)VC:Andreessen Horowitz的 注資
AMPLab這個(gè)實(shí)驗(yàn)室非常厲害,做大數(shù)據(jù),云計(jì)算,跟工業(yè)界結(jié)合很緊密,之前就是他們做mesos,hadoop online, crowddb, Twitter,Linkedin等很多知名公司都喜歡從Berkeley找人,比如Twitter也專門開了門課程 Analyzing Big Data with Twitter 還有個(gè)BDAS (Bad Ass)引以為傲: The lab that created Spark wants to speed up everything, including cures for cancer
在2013年,這些大牛從Berkeley AMPLab出去成立了Databricks,半年就做了2次summit參會(huì)1000人,引無數(shù)Hadoop大佬盡折腰,大家看一下Summit的sponsor ,所有hadoop廠商全來了,并且各個(gè)技術(shù)公司也在巴結(jié),cloudrea, hortonworks, mapr, datastax, yahoo, ooyala, 根據(jù)CTO說 Spark新增代碼量活躍度今年遠(yuǎn)遠(yuǎn)超過了Hadoop本身,要推出商業(yè)化產(chǎn)品Cloud。Spark人物
目前還有一些子項(xiàng)目,比如 Spark SQL, Spark Streaming, MLLib, Graphx 工業(yè)界也引起廣泛興趣,國(guó)內(nèi)Taobao, baidu也開始使用:Powered by Spark
Apache Spark支持4種分布式部署方式,分別是Amazon EC2, standalone、spark on mesos和 spark on YARN 比如AWSSpark Summit
Databricks Cloud Demo 今年最叫好的demo是Dtabricks Cloud, 把Twitter上面實(shí)時(shí)收集的數(shù)據(jù)做作為machine learning素材,用類似IPython notebook,可視化呈現(xiàn)驚艷,而搭建整個(gè)sampling系統(tǒng)就花了20分鐘!
10月份還有個(gè)培訓(xùn)在灣區(qū)的培訓(xùn),只不過3天就要1500刀,看來做個(gè)講師也不錯(cuò):)第三方項(xiàng)目
Isn’t Cloudera Impala doing the same job as Apache Drill incubator project?
Shark, Spark SQL, Hive on Spark, and the future of SQL on Spark
Cloudera: Impala’s it for interactive SQL on Hadoop; everything else will move to Spark
Databricks – an interesting plan for Spark, Shark, and Spark SQL
【sleepdeep的回答(4票)】:
如果你還不了解Spark,不知道什么是RDD,那么我覺得從Spark的論文開始看。概念及為什么這樣子設(shè)計(jì)的等問題,論文里都說得很清楚。我自己之前也網(wǎng)上搜了好多資料,但都看得云里霧里的;只有看到論文的時(shí)候才理清楚。
論文題目及連接如下:
Resilient Distributed Datasets: A Fault-Tolerant Abstraction forIn-Memory Cluster Computing
https://www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdf
P.S. 如果你也想了解HDFS, MapReduce, HBase等,那么,Google一下它們的論文吧。這些論文都寫得挺通熟易懂的。
【zhangcasa的回答(9票)】:
回答中已經(jīng)有書的推薦,確實(shí)還沒有什么好書。
如果是使用,本人推薦看spark各個(gè)版本的doc:Documentation更加合適,還有多看微博上國(guó)內(nèi)的幾個(gè)contributor在微博上關(guān)于spark的討論。
如果要了解源碼,可以跟進(jìn)github上spark的repo:apache/spark · GitHub,從配置sbt,編譯源碼,嘗試修改源碼開始,多看PR:Pull Requests · apache/spark · GitHub。
由于spark正在發(fā)展,你可以找你感興趣的緊跟其中一方面spark sql(包括sql parser,查詢優(yōu)化catalyst和邏輯和物理執(zhí)行計(jì)劃的表示,各個(gè)物理算子的實(shí)現(xiàn)),mlbase(各種機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn))或者graphx,集中了解某一方面的原理和詳細(xì)的實(shí)現(xiàn)過程,我想這個(gè)是學(xué)習(xí)spark最大的價(jià)值。
【黃輝煌的回答(4票)】:
一本Holden Karau著作的《Fast Data Processing With Spark》,市場(chǎng)上也有了中文版《Spark快速數(shù)據(jù)處理》。
基本的Spark使用介紹的挺詳細(xì),缺點(diǎn)是Spark新版本不斷發(fā)布,導(dǎo)致書里的部分內(nèi)容或鏈接無效了,自己去克服克服看!
-----------------------------
其實(shí),不建議使用這本書。這是一本缺少內(nèi)容,又容易讓你因?yàn)閮?nèi)容過期暈頭轉(zhuǎn)向的書。還是去閱讀相關(guān)論文和Spark網(wǎng)頁吧
【Jkeda的回答(2票)】:
四級(jí)真題集,六級(jí)真題,四級(jí)全真模擬,六級(jí)全真模擬
【張包峰的回答(1票)】:
謝邀,不過我的回答可能會(huì)讓你失望。
據(jù)我所知,Google的一位女程序員寫了一本Spark的書;某本Spark的介紹性書籍在翻譯階段;Spark那伙人貌似也在寫本書。
以上幾點(diǎn)我都沒有上網(wǎng)去考證,甚至懶得搜書名,因?yàn)榭上攵?,這些書都沒啥干貨,基本沒有用。書真沒啥好看的。:(
【白喬的回答(0票)】:
人家的doc寫得很好的吧?
【江建東的回答(0票)】:
最近在學(xué)習(xí)spark…看的是王家林的視頻…
【張三的回答(0票)】:
可以看看
《大數(shù)據(jù)Spark企業(yè)級(jí)實(shí)戰(zhàn)》http://item.jd.com/1443682720.html
本書共包括14章,每章的主要內(nèi)容如下。
第1章回答了Spark為何是大數(shù)據(jù)處理平臺(tái)的必然選擇?Spark速度如此之快的原因是什么?Spark的理論基石是什么?Spark具體是如何僅僅使用一個(gè)技術(shù)堆棧解決多元化的大數(shù)據(jù)處理的需求的?
第2章回答了如何從零起步構(gòu)建Hadoop集群?如何在Hadoop集群的基礎(chǔ)上構(gòu)建Spark集群?如何測(cè)試Spark集群?
第3章回答了如何在IDEA集成開發(fā)環(huán)境中開發(fā)并運(yùn)行Spark程序?如何在IDA中開發(fā)Spark代碼并進(jìn)行測(cè)試?
第4章在細(xì)致解析RDD的基礎(chǔ)上會(huì)動(dòng)手實(shí)戰(zhàn)RDD中的Transformation類型的RDD、Action類型的RDD,并伴有Spark API的綜合實(shí)戰(zhàn)案例。
第5章詳細(xì)分析了Spark Standalone模式、Spark Yarn-Cluster模式、Spark-Client模式的設(shè)計(jì)和實(shí)現(xiàn)。
第6章首先介紹Spark內(nèi)核,接著分享通過源碼分析Spark內(nèi)核及源碼,細(xì)致解析Spark作業(yè)的全生命周期,最后分享Spark性能優(yōu)化的內(nèi)容。
. 第7章通過大約30個(gè)動(dòng)手實(shí)踐的案例循序漸進(jìn)地展示Spark GraphX框架方方面面的功能和使用方法,并對(duì)Spark GraphX的源碼進(jìn)行解析。
第8章基于Spark SQL動(dòng)手編程實(shí)踐章節(jié),從零起步,細(xì)致而深入地介紹了Spark SQL方方面面的內(nèi)容。
第9章從快速入門機(jī)器學(xué)習(xí)開始,詳細(xì)解析MLlib框架,通過對(duì)線性回歸、聚類、協(xié)同過濾的算法解析、源碼解析和案例實(shí)戰(zhàn),循序漸進(jìn)地揭秘MLLib,最后通過對(duì)MLlib中Basic Statics、樸素貝葉斯算法、決策樹的解析和實(shí)戰(zhàn),進(jìn)一步提升掌握Spark機(jī)器學(xué)習(xí)的技能。
第10章細(xì)致解析了Tachyon這個(gè)分布式內(nèi)存文件系統(tǒng)的架構(gòu)設(shè)計(jì)、具體實(shí)現(xiàn)、部署以及Spark對(duì)Tachyon的使用等內(nèi)容。
第11章循序漸進(jìn)地介紹Spark Streaming的原理、源碼和實(shí)戰(zhàn)案例等內(nèi)容。
第12章介紹了Spark多語言編程的特點(diǎn),并通過代碼實(shí)例循序漸進(jìn)地介紹Spark多語言編程,最后通過一個(gè)綜合實(shí)例來實(shí)踐Spark多語言編程。
第13章從R語言的基礎(chǔ)介紹和動(dòng)手實(shí)戰(zhàn)入手,介紹SparkR的使用和代碼實(shí)戰(zhàn),助您快速上手R語言和Spark兩大大數(shù)據(jù)處理的利器。
第14章循序漸進(jìn)地介紹了Spark常見的問題及其調(diào)優(yōu)方式。首先介紹Spark性能優(yōu)化的14大問題及其解決方法,然后從內(nèi)存優(yōu)化、RDD分區(qū)、Spark對(duì)象和操作的性能調(diào)優(yōu)等角度解決常見的性能調(diào)優(yōu)問題,最后講解Spark最佳實(shí)踐方案。
第15章聚焦于Spark源碼中的BlockManager、Cache和Checkpoint等核心源碼解析,BlockManager、Cache和Checkpoint是每個(gè)Spark學(xué)習(xí)者都必須掌握的核心內(nèi)容。本章循序漸進(jìn)地解析了這三部分的源碼,包括通過源碼說明其用途、實(shí)現(xiàn)機(jī)制、內(nèi)部細(xì)節(jié)和實(shí)際Spark生產(chǎn)環(huán)境下的最佳實(shí)踐等,通過本章即可輕松駕馭BlockManager、Cache和Checkpoint,從而對(duì)Spark精髓的領(lǐng)悟也必將更上層樓!
附錄主要是從Spark的角度來講解Scala,以動(dòng)手實(shí)戰(zhàn)為核心,從零開始,循序漸進(jìn)地講解Scala函數(shù)式編程和面向?qū)ο缶幊獭?/p>
聯(lián)系客服