九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
有什么關(guān)于 Spark 的書推薦?

【董飛的回答(100票)】:

Fei Dong | LinkedIn

Hadoop Spark學(xué)習(xí)小結(jié)[2014版]Hadoop

Hadoop社區(qū)依然發(fā)展迅速,2014年推出了2.3,2.4, 2.5 的社區(qū)版本,比如增強(qiáng) Resource Manager HA, YARN Rest API, ACL on HDFS, 改進(jìn) HDFS 的 Web UI…

Hadoop Roadmap 根據(jù)我的觀察,主要更新在Yarn,HDFS,而Mapreduce幾乎停滯了,還有一些feature 屬于安全,穩(wěn)定可靠性一方面是比較穩(wěn)定了,但也可以說是瓶頸了。

Apache Hadoop Project Members

這個(gè)是Hadoop project member and committee, 里面好多來自Hortonworks,也有不少國(guó)人上榜。SparkSpark 介紹

Spark今年大放溢彩,Spark簡(jiǎn)單說就是內(nèi)存計(jì)算(包含迭代式計(jì)算,DAG計(jì)算,流式計(jì)算 )框架,之前MapReduce因效率低下大家經(jīng)常嘲笑,而Spark的出現(xiàn)讓大家很清新。

其實(shí)起名字也很重要,Spark就占了先機(jī),CTO說Where There’s Spark There’s Fire: The State of Apache Spark in 2014Spark 起源

2010年Berkeley AMPLab,發(fā)表在hotcloud 是一個(gè)從學(xué)術(shù)界到工業(yè)界的成功典范,也吸引了頂級(jí)VC:Andreessen Horowitz的 注資

AMPLab這個(gè)實(shí)驗(yàn)室非常厲害,做大數(shù)據(jù),云計(jì)算,跟工業(yè)界結(jié)合很緊密,之前就是他們做mesos,hadoop online, crowddb, Twitter,Linkedin等很多知名公司都喜歡從Berkeley找人,比如Twitter也專門開了門課程 Analyzing Big Data with Twitter 還有個(gè)BDAS (Bad Ass)引以為傲: The lab that created Spark wants to speed up everything, including cures for cancer

在2013年,這些大牛從Berkeley AMPLab出去成立了Databricks,半年就做了2次summit參會(huì)1000人,引無數(shù)Hadoop大佬盡折腰,大家看一下Summit的sponsor ,所有hadoop廠商全來了,并且各個(gè)技術(shù)公司也在巴結(jié),cloudrea, hortonworks, mapr, datastax, yahoo, ooyala, 根據(jù)CTO說 Spark新增代碼量活躍度今年遠(yuǎn)遠(yuǎn)超過了Hadoop本身,要推出商業(yè)化產(chǎn)品Cloud。Spark人物

Spark基本概念
  1. RDD——Resillient Distributed Dataset A Fault-Tolerant Abstraction for In-Memory Cluster Computing彈性分布式數(shù)據(jù)集。
  2. Operation——作用于RDD的各種操作分為transformation和action。
  3. Job——作業(yè),一個(gè)JOB包含多個(gè)RDD及作用于相應(yīng)RDD上的各種operation。
  4. Stage——一個(gè)作業(yè)分為多個(gè)階段。
  5. Partition——數(shù)據(jù)分區(qū), 一個(gè)RDD中的數(shù)據(jù)可以分成多個(gè)不同的區(qū)。
  6. DAG——Directed Acycle graph,有向無環(huán)圖,反應(yīng)RDD之間的依賴關(guān)系。
  7. Narrow dependency——窄依賴,子RDD依賴于父RDD中固定的data partition。
  8. Wide Dependency——寬依賴,子RDD對(duì)父RDD中的所有data partition都有依賴。
  9. Caching Managenment——緩存管理,對(duì)RDD的中間計(jì)算結(jié)果進(jìn)行緩存管理以加快整 體的處理速度。

目前還有一些子項(xiàng)目,比如 Spark SQL, Spark Streaming, MLLib, Graphx 工業(yè)界也引起廣泛興趣,國(guó)內(nèi)Taobao, baidu也開始使用:Powered by Spark

Apache Spark支持4種分布式部署方式,分別是Amazon EC2, standalone、spark on mesos和 spark on YARN 比如AWSSpark Summit

培訓(xùn)資料和視頻

10月份還有個(gè)培訓(xùn)在灣區(qū)的培訓(xùn),只不過3天就要1500刀,看來做個(gè)講師也不錯(cuò):)第三方項(xiàng)目

  • Web interactive UI on Hadoop/Spark
  • Spark on cassandra
  • Spark Cassandra Connector
  • Calliope
  • H2O + Spark
  • Shark - Hive and SQL on top of Spark
  • MLbase - Machine Learning research project on top of Spark
  • BlinkDB - a massively parallel, approximate query engine built on top of Shark and Spark
  • GraphX - a graph processing & analytics framework on top of Spark (GraphX has been merged into Spark 0.9)
  • Apache Mesos - Cluster management system that supports running Spark
  • Tachyon - In memory storage system that supports running Spark
  • Apache MRQL - A query processing and optimization system for large-scale, distributed data analysis, built on top of Apache Hadoop, Hama, and Spark
  • OpenDL - A deep learning algorithm library based on Spark framework. Just kick off.
  • SparkR - R frontend for Spark
  • Spark Job Server - REST interface for managing and submitting Spark jobs on the same cluster.
相關(guān)參考資料

【sleepdeep的回答(4票)】:

如果你還不了解Spark,不知道什么是RDD,那么我覺得從Spark的論文開始看。概念及為什么這樣子設(shè)計(jì)的等問題,論文里都說得很清楚。我自己之前也網(wǎng)上搜了好多資料,但都看得云里霧里的;只有看到論文的時(shí)候才理清楚。

論文題目及連接如下:

Resilient Distributed Datasets: A Fault-Tolerant Abstraction forIn-Memory Cluster Computing

https://www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdf

P.S. 如果你也想了解HDFS, MapReduce, HBase等,那么,Google一下它們的論文吧。這些論文都寫得挺通熟易懂的。

【zhangcasa的回答(9票)】:

回答中已經(jīng)有書的推薦,確實(shí)還沒有什么好書。

如果是使用,本人推薦看spark各個(gè)版本的doc:Documentation更加合適,還有多看微博上國(guó)內(nèi)的幾個(gè)contributor在微博上關(guān)于spark的討論。

如果要了解源碼,可以跟進(jìn)github上spark的repo:apache/spark · GitHub,從配置sbt,編譯源碼,嘗試修改源碼開始,多看PR:Pull Requests · apache/spark · GitHub。

由于spark正在發(fā)展,你可以找你感興趣的緊跟其中一方面spark sql(包括sql parser,查詢優(yōu)化catalyst和邏輯和物理執(zhí)行計(jì)劃的表示,各個(gè)物理算子的實(shí)現(xiàn)),mlbase(各種機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn))或者graphx,集中了解某一方面的原理和詳細(xì)的實(shí)現(xiàn)過程,我想這個(gè)是學(xué)習(xí)spark最大的價(jià)值。

【黃輝煌的回答(4票)】:

一本Holden Karau著作的《Fast Data Processing With Spark》,市場(chǎng)上也有了中文版《Spark快速數(shù)據(jù)處理》。

基本的Spark使用介紹的挺詳細(xì),缺點(diǎn)是Spark新版本不斷發(fā)布,導(dǎo)致書里的部分內(nèi)容或鏈接無效了,自己去克服克服看!

-----------------------------

其實(shí),不建議使用這本書。這是一本缺少內(nèi)容,又容易讓你因?yàn)閮?nèi)容過期暈頭轉(zhuǎn)向的書。還是去閱讀相關(guān)論文和Spark網(wǎng)頁吧

【Jkeda的回答(2票)】:

四級(jí)真題集,六級(jí)真題,四級(jí)全真模擬,六級(jí)全真模擬

【張包峰的回答(1票)】:

謝邀,不過我的回答可能會(huì)讓你失望。

據(jù)我所知,Google的一位女程序員寫了一本Spark的書;某本Spark的介紹性書籍在翻譯階段;Spark那伙人貌似也在寫本書。

以上幾點(diǎn)我都沒有上網(wǎng)去考證,甚至懶得搜書名,因?yàn)榭上攵?,這些書都沒啥干貨,基本沒有用。書真沒啥好看的。:(

【白喬的回答(0票)】:

人家的doc寫得很好的吧?

【江建東的回答(0票)】:

最近在學(xué)習(xí)spark…看的是王家林的視頻…

【張三的回答(0票)】:

可以看看

《大數(shù)據(jù)Spark企業(yè)級(jí)實(shí)戰(zhàn)》http://item.jd.com/1443682720.html

本書共包括14章,每章的主要內(nèi)容如下。

第1章回答了Spark為何是大數(shù)據(jù)處理平臺(tái)的必然選擇?Spark速度如此之快的原因是什么?Spark的理論基石是什么?Spark具體是如何僅僅使用一個(gè)技術(shù)堆棧解決多元化的大數(shù)據(jù)處理的需求的?

第2章回答了如何從零起步構(gòu)建Hadoop集群?如何在Hadoop集群的基礎(chǔ)上構(gòu)建Spark集群?如何測(cè)試Spark集群?

第3章回答了如何在IDEA集成開發(fā)環(huán)境中開發(fā)并運(yùn)行Spark程序?如何在IDA中開發(fā)Spark代碼并進(jìn)行測(cè)試?

第4章在細(xì)致解析RDD的基礎(chǔ)上會(huì)動(dòng)手實(shí)戰(zhàn)RDD中的Transformation類型的RDD、Action類型的RDD,并伴有Spark API的綜合實(shí)戰(zhàn)案例。

第5章詳細(xì)分析了Spark Standalone模式、Spark Yarn-Cluster模式、Spark-Client模式的設(shè)計(jì)和實(shí)現(xiàn)。

第6章首先介紹Spark內(nèi)核,接著分享通過源碼分析Spark內(nèi)核及源碼,細(xì)致解析Spark作業(yè)的全生命周期,最后分享Spark性能優(yōu)化的內(nèi)容。

. 第7章通過大約30個(gè)動(dòng)手實(shí)踐的案例循序漸進(jìn)地展示Spark GraphX框架方方面面的功能和使用方法,并對(duì)Spark GraphX的源碼進(jìn)行解析。

第8章基于Spark SQL動(dòng)手編程實(shí)踐章節(jié),從零起步,細(xì)致而深入地介紹了Spark SQL方方面面的內(nèi)容。

第9章從快速入門機(jī)器學(xué)習(xí)開始,詳細(xì)解析MLlib框架,通過對(duì)線性回歸、聚類、協(xié)同過濾的算法解析、源碼解析和案例實(shí)戰(zhàn),循序漸進(jìn)地揭秘MLLib,最后通過對(duì)MLlib中Basic Statics、樸素貝葉斯算法、決策樹的解析和實(shí)戰(zhàn),進(jìn)一步提升掌握Spark機(jī)器學(xué)習(xí)的技能。

第10章細(xì)致解析了Tachyon這個(gè)分布式內(nèi)存文件系統(tǒng)的架構(gòu)設(shè)計(jì)、具體實(shí)現(xiàn)、部署以及Spark對(duì)Tachyon的使用等內(nèi)容。

第11章循序漸進(jìn)地介紹Spark Streaming的原理、源碼和實(shí)戰(zhàn)案例等內(nèi)容。

第12章介紹了Spark多語言編程的特點(diǎn),并通過代碼實(shí)例循序漸進(jìn)地介紹Spark多語言編程,最后通過一個(gè)綜合實(shí)例來實(shí)踐Spark多語言編程。

第13章從R語言的基礎(chǔ)介紹和動(dòng)手實(shí)戰(zhàn)入手,介紹SparkR的使用和代碼實(shí)戰(zhàn),助您快速上手R語言和Spark兩大大數(shù)據(jù)處理的利器。

第14章循序漸進(jìn)地介紹了Spark常見的問題及其調(diào)優(yōu)方式。首先介紹Spark性能優(yōu)化的14大問題及其解決方法,然后從內(nèi)存優(yōu)化、RDD分區(qū)、Spark對(duì)象和操作的性能調(diào)優(yōu)等角度解決常見的性能調(diào)優(yōu)問題,最后講解Spark最佳實(shí)踐方案。

第15章聚焦于Spark源碼中的BlockManager、Cache和Checkpoint等核心源碼解析,BlockManager、Cache和Checkpoint是每個(gè)Spark學(xué)習(xí)者都必須掌握的核心內(nèi)容。本章循序漸進(jìn)地解析了這三部分的源碼,包括通過源碼說明其用途、實(shí)現(xiàn)機(jī)制、內(nèi)部細(xì)節(jié)和實(shí)際Spark生產(chǎn)環(huán)境下的最佳實(shí)踐等,通過本章即可輕松駕馭BlockManager、Cache和Checkpoint,從而對(duì)Spark精髓的領(lǐng)悟也必將更上層樓!

附錄主要是從Spark的角度來講解Scala,以動(dòng)手實(shí)戰(zhàn)為核心,從零開始,循序漸進(jìn)地講解Scala函數(shù)式編程和面向?qū)ο缶幊獭?/p>

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
誰在用Spark,如何用Spark進(jìn)行數(shù)據(jù)分析
Apache Spark源碼走讀之1
Spark及其生態(tài)圈簡(jiǎn)介
陳超:Spark這一年,從開源到火爆
共筑Spark大數(shù)據(jù)引擎的七大工具
精準(zhǔn)出擊,一篇文章教你如何在企業(yè)應(yīng)用中使用Spark GraphX處理圖數(shù)據(jù)
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服