九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
大數(shù)據(jù)技術(shù)介紹

為了方便大家梳理清楚大數(shù)據(jù)學(xué)習(xí)路線,本文從以下四個方面來介紹大數(shù)據(jù)技術(shù):
大數(shù)據(jù)技術(shù)棧
大數(shù)據(jù)發(fā)展史
大數(shù)據(jù)應(yīng)用
大數(shù)據(jù)開發(fā)崗位

一、大數(shù)據(jù)技術(shù)棧

之前有同事問我怎么轉(zhuǎn)大數(shù)據(jù)開發(fā),他在網(wǎng)上搜了一堆大數(shù)據(jù)相關(guān)的技術(shù),但是不知道從哪里開始入門,也不知道要學(xué)習(xí)哪些技術(shù),這些技術(shù)棧之間的關(guān)系是什么。我一開始轉(zhuǎn)大數(shù)據(jù)的時候也有點懵逼,整體接觸了一遍之后才把大數(shù)據(jù)技術(shù)棧給弄明白了。

做大數(shù)據(jù)開發(fā),無非要干四件事情,采集、存儲、查詢、計算。此外,一些開發(fā)必備的基礎(chǔ)語言能力是需要的。我按照這幾個維度,對大數(shù)據(jù)常見技術(shù)棧做了下劃分。


基礎(chǔ)能力
java不用說,當今世界使用最廣泛的語言,做程序員基本必會的,而且大數(shù)據(jù)生態(tài)很多組建都是通過java開發(fā)的。python通常用在爬蟲,數(shù)據(jù)分析,機器學(xué)習(xí)上,部分大數(shù)據(jù)組件是python開發(fā)的,例如airflow。scala底層還是java,由于spark是scala開發(fā)的,且scala也集成了很多spark的算子,所以scala一般用在spark開發(fā)上。

數(shù)據(jù)采集
一般通過filebeat,logstash,kafka,flume做日志采集。一些應(yīng)用系統(tǒng)的數(shù)據(jù),也會通過kafka或者binlog的方式同步到大數(shù)據(jù)組件做存儲。

數(shù)據(jù)存儲
這里的數(shù)據(jù)存儲引擎和傳統(tǒng)的關(guān)系型數(shù)據(jù)庫有很大的區(qū)別。常見分布式存儲文件系統(tǒng)有hdfs。此外,對于一些非結(jié)構(gòu)化的數(shù)據(jù)會通過nosql的方式做存儲,常見的nosql存儲組件有hbase,redis。

數(shù)據(jù)查詢
常見的有hive、spark sql、presto、kylin、impala、durid、clickhouse、greeplum,每個組件都有自己的查詢特性和使用場景。這里不展開篇幅詳細介紹了,后面慢慢聊。

數(shù)據(jù)計算
常見的計算方式有流計算和批處理,按實效性又分離線計算和實時計算。對應(yīng)的計算組件有storm,spark stream,flink。

其它
分布式協(xié)調(diào)器:大數(shù)據(jù)組件為了提高可靠性通常是分布式存儲的,這樣就涉及到各個組件之間的協(xié)調(diào)同步。最常見的協(xié)調(diào)器就是zookeeper。
資源管理器:為了提高計算能力,會對計算資源(CPU,內(nèi)存,磁盤)做分配,常見的組件有yarn,mesos。
調(diào)度管理器:調(diào)度管理器管理任務(wù)何時執(zhí)行,周期執(zhí)行,是否重試等。常見的有airflow,dalphine schduler,oozie,azkaban。

二、大數(shù)據(jù)技術(shù)發(fā)展史

學(xué)習(xí)一門技術(shù),知道會用已經(jīng)夠了,至少能解決問題。但是要想走得更遠,還是需要知道一門技術(shù)的發(fā)展歷史,通過發(fā)展史可以更深刻的理解為何會產(chǎn)生這門技術(shù),它背后這樣設(shè)計的原有,它的使用場景。

大數(shù)據(jù)技術(shù)的起源
大數(shù)據(jù)最早是起源于google。大家都知道google主要是提供網(wǎng)頁檢索服務(wù),而這項服務(wù)依賴兩個能力:網(wǎng)頁的收集,索引的構(gòu)建。有了這兩個能力,我們才能通過檢索服務(wù)搜索到互聯(lián)網(wǎng)上的網(wǎng)頁。這些網(wǎng)頁和索引都需要大量的存儲和計算能力。為了提高這兩個能力,谷歌發(fā)表了三篇重要的論文。
2003年,分布式文件系統(tǒng)GFS。
2004年,大數(shù)據(jù)分布式計算框架MapReduce。
2006年,NoSql數(shù)據(jù)庫系統(tǒng)。
這三篇論文奠定了大數(shù)據(jù)技術(shù)的基礎(chǔ)。

Hadoop技術(shù)
受谷歌論文啟發(fā),2004年7月Doug和Mike Cafarella在Nutch(Nutch的設(shè)計目標是構(gòu)建一個大型的全網(wǎng)搜索引擎,包括網(wǎng)頁抓取、索引、查詢等功能)中實現(xiàn)了類似于GFS的功能,也就是HDFS的前身。2005年2月,Mike Cafarella在Nutch中實現(xiàn)了MapReduce的最初版本。GFS和MapReduce作為hadoop前身,2006年hadoop從Nutch項目中分離出來,貢獻給了Apache,至此成為Apache頂級項目。

Yahoo的Pig
2006年,為了讓MapReduce技術(shù)更好使用,雅虎對MapReduce技術(shù)做了封裝,開發(fā)了一套通過類似于SQL腳本查詢的工具Pig,使用Pig寫SQL會自動轉(zhuǎn)換成MapReduce來執(zhí)行,大大優(yōu)化了MapReduce的使用難度。

Facebook的Hive
2007年,facebook對查詢方式做了進一步優(yōu)化,開發(fā)出了一套可以直接使用SQL的工具做大數(shù)據(jù)查詢-HIVE,只要懂得SQL的開發(fā)人員都能使用這個組件。

Powerset的HBASE
2007年P(guān)owerset的工作人員,通過google的論文開發(fā)出了BigTable的java版本,即HBASE。2008年HBASE貢獻給了Apache。

Spark的產(chǎn)生
2009年,UC伯克利里面的研究員在使用MapReduce做實驗項目時,性能無法滿足需求。于是著手開始設(shè)計spark,基于內(nèi)存計算的spark性能要遠遠高于spark


三、大數(shù)據(jù)應(yīng)用


推薦領(lǐng)域:電商購物,猜你喜歡。信息流方面,像頭條文章推薦,抖音視頻推薦。

風控:仿電信詐騙,黃賭毒識別,反洗錢等等。

醫(yī)療:通過用戶一些醫(yī)療信息做疾病的識別。

智慧城市:自動駕駛,智慧物流,城市交通管理等等。


四、大數(shù)據(jù)開發(fā)崗位

基礎(chǔ)組件開發(fā):需要扎實的java或者C 語言能力,對大數(shù)據(jù)組件有獨到認知,能對大數(shù)據(jù)組件結(jié)合公司業(yè)務(wù)場景做二次封裝。

大數(shù)據(jù)應(yīng)用開發(fā):開發(fā)一些大數(shù)據(jù)工具,比如標簽管理系統(tǒng),元數(shù)據(jù)管理系統(tǒng),埋點系統(tǒng),爬蟲系統(tǒng)等。需要具備扎實的java或者python能力,能熟練使用大數(shù)據(jù)相關(guān)組件。

數(shù)倉工程師:一般都是做一些BI報表的開發(fā),數(shù)據(jù)治理。精通SQL,精通常見的數(shù)倉模型。

算法工程師:精通常見機器學(xué)習(xí)算法,能熟練使用大數(shù)據(jù)組件。結(jié)合公司的業(yè)務(wù)場景靈活的使用算法能力賦能。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
開源大數(shù)據(jù)的過去、現(xiàn)在及未來
一篇文看懂Hadoop:風雨十年,未來何去何從
如何構(gòu)建一個企業(yè)的大數(shù)據(jù)分析平臺
大數(shù)據(jù)開發(fā)之Hadoop生態(tài)6 大核心組件
新手大數(shù)據(jù)學(xué)習(xí)路線規(guī)劃
大數(shù)據(jù)技術(shù)入門——Hadoop Spark│教與學(xué)(教學(xué)大綱)
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服