課程是2017年錄制,還比較新,還是有學(xué)習(xí)的價(jià)值的
課程簡(jiǎn)介:
Spark屬于新起的基于內(nèi)存處理海量數(shù)據(jù)的框架,由于其快速被眾公司所青睞。Spark 生態(tài)棧框架,非常的強(qiáng)大,可以對(duì)數(shù)據(jù)進(jìn)行批處理、流式處理、SQL 交互式處理及機(jī)器學(xué)習(xí)和Graphx 圖像計(jì)算。目前絕大數(shù)公司都使用,主要在于 Spark SQL 結(jié)構(gòu)化數(shù)據(jù)的處理,非常的快速,高性能。
基于Spark Core之上的流式處理和結(jié)構(gòu)化數(shù)據(jù)查詢,已被眾多公司青睞,在企業(yè)中使用最廣泛,很多大數(shù)據(jù)公司都在將以往RDBMS和 Hive中的數(shù)據(jù)處理,遷移使用Spark SQL。
課程目錄:
第1章:SCALA編程(一)
1.大數(shù)據(jù)分析框架概要、Spark課程學(xué)習(xí)計(jì)劃及建議
2.為什么學(xué)習(xí)SCALA語言及SCALA語言介紹和學(xué)習(xí)提綱
3.SCALA環(huán)境搭建及IDEA安裝配置(JAVA安裝、SCALA安裝及IDEA安裝))
4.SCALA語言HelloWorld及安裝總結(jié)(作業(yè)LINUX系統(tǒng)安裝)
5.SCALA中變量的聲明(兩種方式)
6.SCALA中數(shù)據(jù)類型及操作符
7.IF語句及WHILE循環(huán)、循環(huán)表達(dá)式及FOR基本使用
8.FOR循環(huán)深入講解及yield功能
9.SCALA中的Breaks使用
10.函數(shù)的定義(如何確定一個(gè)函數(shù))
11.函數(shù)的定義(各種情況下函數(shù)定義與使用)
12.函數(shù)的作用域、默認(rèn)參數(shù)函數(shù)和名稱參數(shù)函數(shù)使用詳解
13.變長(zhǎng)參數(shù)函數(shù)和內(nèi)部函數(shù)使用詳解
14.匿名函數(shù)定義與使用
15.高階函數(shù)定義與使用
16.深入高階函數(shù)的使用
第2章:SCALA編程(二)
17.數(shù)組Array和ArrayBuffer
18.SCALA中集合類Collections概要講解
19.集合類之List和ListBuffer創(chuàng)建與基本操作
20.集合List中常見高階函數(shù)使用詳解(一)
21.集合List中常見高階函數(shù)使用詳解(二)
22.SCALA中元組創(chuàng)建與使用
23.集合類之Set及常見函數(shù)使用
24.集合類之Map創(chuàng)建與遍歷
25.集合類綜合應(yīng)用:實(shí)現(xiàn)WordCount詞頻統(tǒng)計(jì)
26.類Class的定義與創(chuàng)建對(duì)象
27.對(duì)象object及apply方法
28.類class的構(gòu)造方法(主構(gòu)造方法和附屬構(gòu)造方法)
29.SCALA中的Trait初步使用
30.SCALA中異常的處理及模式匹配初步使用
31.模式匹配之匹配類型、元組
32. CaseClass及在模式匹配中使用
33.Option(Some、Node)及模式匹配使用
34.SCALA中隱式轉(zhuǎn)換詳解(結(jié)合案例)
35.SCALA中隱式參數(shù)詳解(結(jié)合案例)
36.綜合回顧復(fù)習(xí)SCALA的所有知識(shí)要點(diǎn)
第3章:Spark Core(一)
37.SPARK框架學(xué)習(xí)的基礎(chǔ)及與Spark初步認(rèn)識(shí)
38.Spark Feature詳解及處理數(shù)據(jù)三步走策略
39.Spark 學(xué)習(xí)資源、源碼下載及編譯詳解
40.SPARK 安裝目錄及使用的方便優(yōu)點(diǎn)
41.Local Mode配置、啟動(dòng)spark-shell及運(yùn)行程序測(cè)試
42.編程實(shí)現(xiàn)WordCount程序(類比MapReduce實(shí)現(xiàn)思路)
43.Spark Local Mode深入剖析詳解
44.使用IDEA創(chuàng)建MAVEN工程及配置依賴
45.編寫Spark Application開發(fā)模板
46.深入WordCount程序分析(sortByKey和top函數(shù)使用)
47.如何導(dǎo)入Spark源碼至IDEA中(Windows下)
48.Spark Standalone 集群架構(gòu)、配置、啟動(dòng)深入詳解及運(yùn)行spark-shell測(cè)試
49.淺析Spark Application運(yùn)行Cluster組成及spark-submit提交應(yīng)用
50.深入剖析Spark Application中Job、Stage和Task關(guān)系
51.案例:對(duì)原始數(shù)據(jù)進(jìn)行清洗過濾及實(shí)現(xiàn)每日瀏覽量統(tǒng)計(jì)
52.案例:實(shí)現(xiàn)每日訪客數(shù)統(tǒng)計(jì)及使用HiveQL進(jìn)行結(jié)果驗(yàn)證、打包運(yùn)行SparkStandalone集群
第4章:Spark Core(二)
53.Spark Application運(yùn)行的Deploy Mode詳解(結(jié)合案例演示)
54.使用spark-submit提交應(yīng)用運(yùn)行Standalone集群及性能調(diào)優(yōu)
55.Spark Application運(yùn)行的EventLog啟用
56.Spark HistoryServer配置及使用
57.RDD是什么及創(chuàng)建方式
58.RDD操作類型及持久化詳解
59.RDD中常用的Transformation和Action詳解(一)
60.RDD中常用的Transformation和Action詳解(二)
61.案例:分組排序TopKey實(shí)現(xiàn)及如何處理數(shù)據(jù)傾斜(分階段聚合)
62.SparkOnYarn:運(yùn)行SparkApplication在YARN上(編寫腳本)
63.配置HIstoryServer及運(yùn)行在YARN的兩種Deploy Mode架構(gòu)
64.官方案例:讀取日志數(shù)據(jù)及正則解析(CASE CLASS)
65.官方案例:依據(jù)業(yè)務(wù)編碼實(shí)現(xiàn)及熟悉RDD API
66.官方案例:其他業(yè)務(wù)編碼實(shí)現(xiàn)測(cè)試及過濾數(shù)據(jù)
67.官方案例:RDD#top函數(shù)使用(自定義排序規(guī)則)及提交運(yùn)行YARN集群
68.內(nèi)核調(diào)度:Spark Job Scheduler詳解(一)
69.內(nèi)核調(diào)度:Spark Job Scheduler詳解(二)
第5章:Spark SQL
70.SparkSQL的重要性及Spark2.x的生態(tài)圈
71.SparkSQL前世今生(Hive、Shark、SparkSQL)及初步使用說明
72.案例分析:基于DataFrame和SQL分析數(shù)據(jù)(一)
73.案例分析:基于DataFrame和SQL分析數(shù)據(jù)(二)
74.SparkSQL Introduction及處理數(shù)據(jù)的方式
75.SparkSQL與Hive集成配置詳解
76.基于SQL和DSL方式分析處理Hive表的數(shù)據(jù)
77.SparkSQL中提供的spark-sql命令行的使用
78.SparkSQL中ThriftServer配置使用詳解
79.SparkSQL性能優(yōu)化及DataFrame是什么
80.SparkSQL讀取多種數(shù)據(jù)數(shù)據(jù)實(shí)例
81.DataFrame實(shí)現(xiàn)多數(shù)據(jù)源數(shù)據(jù)的關(guān)聯(lián)分析
82.SparkSQL讀取AVRO格式數(shù)據(jù)詳解
83.SparkSQL讀取CSV或TSV格式數(shù)據(jù)詳解
84.自定義schema的方式轉(zhuǎn)換RDD為DataFrame及直接運(yùn)行SQL在數(shù)據(jù)文件上
85.SparkSQL中自帶函數(shù)的使用及如何自定義UDF、注冊(cè)和使用
86.Spark 2.x中SparkSQL基本使用(一)
87.Spark 2.x中SparkSQL基本使用(二)
第6章:Spark Streaming及Kafka
88.大數(shù)據(jù)處理的類型、流式計(jì)算的框架及Streaming內(nèi)容概要
89.SparkStreaming是什么、使用案例及數(shù)據(jù)處理流程
90.官方Example案例:詞頻統(tǒng)計(jì)運(yùn)行詳解
91.SparkStreaming編程實(shí)現(xiàn)從Socket讀取數(shù)據(jù)實(shí)時(shí)統(tǒng)計(jì)分析
92.深入SparkStreaming運(yùn)行的工作原理
93.深度剖析batch interval和block interval及性能優(yōu)化
94.編程模型:從源碼深入剖析DStream(StreamingContext、DStream操作)
95.深入詳解DStream#foreachRDD使用
96.Apache Kafka介紹及架構(gòu)詳解
97.Apache Kafka安裝、部署、啟動(dòng)
98.創(chuàng)建Topic、發(fā)送和消費(fèi)數(shù)據(jù)及深入理解KAFKA數(shù)據(jù)的存儲(chǔ)
99.剖析分享Kafka企業(yè)技術(shù)架構(gòu)及使用(結(jié)合Kafka Meetup分享)
100.SparkStreaming與Flume和Kafka兩種集成方式詳解
101.采用Pull方式與Kafka集成進(jìn)行數(shù)據(jù)分析處理
102.狀態(tài)Stateful實(shí)時(shí)統(tǒng)計(jì)updataStateByKey使用
103.SparkStreaming實(shí)時(shí)分析應(yīng)用的高可用性
104.實(shí)時(shí)窗口Window統(tǒng)計(jì)詳解(reduceByKeyAndWindow使用)
第7章:基于Java和Python的Spark編程
105.基于Java和Python語言的Spark開發(fā)的提綱及學(xué)習(xí)方式
106.基于JAVA語言編寫Spark Application編程模板、讀取數(shù)據(jù)及測(cè)試監(jiān)控
107.案例WordCount:結(jié)合源碼編碼實(shí)現(xiàn)JAVA語言編程
108.案例WordCount:對(duì)統(tǒng)計(jì)的詞頻進(jìn)行降序排序(涉及TopKey)及作業(yè)說明
109.案例分析:基于JAVA實(shí)現(xiàn)如何將RDD轉(zhuǎn)換為DataFrame
110.案例分析:使用SQL進(jìn)行數(shù)據(jù)分析
111.案例分析:使用DSL進(jìn)行數(shù)據(jù)分析及自定義UDF注冊(cè)使用
112.SparkStreaming基于JAVA實(shí)現(xiàn)從Socket讀取數(shù)據(jù)WordCount統(tǒng)計(jì)及測(cè)試
113.結(jié)合案例實(shí)現(xiàn)JAVA編程DStream#foreachRDD和從KAFKA讀取數(shù)據(jù)
114結(jié)合案例講解基于JAVA的updateState和window編程及作業(yè)
115.Python介紹、Windows下2.7的安裝及測(cè)試
116.PyCharm安裝、設(shè)置及創(chuàng)建工程和測(cè)試
117.PySpark第三方包的安裝配置
118.基于Python的SparkCore編程模板
119.并行化本地集合創(chuàng)建RDD及RDD初步使用
120.Python中函數(shù)的定義及匿名函數(shù)lambda使用
121.PySpark實(shí)現(xiàn)WordCount程序及測(cè)試
122.PySpark實(shí)現(xiàn)從HDFS讀取數(shù)據(jù)實(shí)現(xiàn)WordCount(屬性配置)
123.深入WordCount程序之SortByKey
124.深入WordCount程序之TopKey
125.Anaconda2版本、安裝、配置、使用及測(cè)試(針對(duì)pyspark編程)
126.Spark自帶交互式pyspark命令的使用
127.pyspark底層架構(gòu)及如何提交pyspark程序運(yùn)行
第8章、SparkCore項(xiàng)目實(shí)戰(zhàn) (2017.8.24新增,加量不加價(jià))
128.項(xiàng)目實(shí)戰(zhàn):離線數(shù)據(jù)分析平臺(tái)架構(gòu)及處理處理流程
129.項(xiàng)目實(shí)戰(zhàn):如何將RDD數(shù)據(jù)保存到HBase表中
130:項(xiàng)目實(shí)戰(zhàn):如何從HBase表中讀取數(shù)據(jù)
131:項(xiàng)目實(shí)戰(zhàn):日志數(shù)據(jù)ETL保存到HBase表(一)
132:項(xiàng)目實(shí)戰(zhàn):日志數(shù)據(jù)ETL保存到HBase表(二)
133:項(xiàng)目實(shí)戰(zhàn):日志數(shù)據(jù)ETL保存到HBase表(三)
134:項(xiàng)目實(shí)戰(zhàn):日志數(shù)據(jù)ETL保存到HBase表(四)
135:項(xiàng)目實(shí)戰(zhàn):從HBase表讀取數(shù)據(jù)進(jìn)行新增用戶統(tǒng)計(jì)分析(一)
136:項(xiàng)目實(shí)戰(zhàn):從HBase表讀取數(shù)據(jù)進(jìn)行新增用戶統(tǒng)計(jì)分析(二)
137:項(xiàng)目實(shí)戰(zhàn):從HBase表讀取數(shù)據(jù)進(jìn)行新增用戶統(tǒng)計(jì)分析(三)
138:項(xiàng)目實(shí)戰(zhàn):從HBase表讀取數(shù)據(jù)進(jìn)行新增用戶統(tǒng)計(jì)分析(四)
139:項(xiàng)目實(shí)戰(zhàn):部署運(yùn)行(CLASSPATH設(shè)置)及Executor內(nèi)存使用優(yōu)化