九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
如何建立完整可用的安全大數(shù)據(jù)平臺
要建立一個(gè)大數(shù)據(jù)系統(tǒng),我們需要從數(shù)據(jù)流的源頭跟蹤到最后有價(jià)值的輸出,并在現(xiàn)有的Hadoop和大數(shù)據(jù)生態(tài)圈內(nèi)根據(jù)實(shí)際需求挑選并整合各部分合適的組件來構(gòu)建一個(gè)能夠支撐多種查詢和分析功能的系統(tǒng)平臺。這其中既包括了對數(shù)據(jù)存儲(chǔ)的選擇,也涵蓋了數(shù)據(jù)線上和線下處理分離等方面的思考和權(quán)衡。此外,沒有任何一個(gè)引入大數(shù)據(jù)解決方案的商業(yè)應(yīng)用在生產(chǎn)環(huán)境上承擔(dān)的起安全隱患。


1
計(jì)算框架篇

大數(shù)據(jù)的價(jià)值

只有在能指導(dǎo)人們做出有價(jià)值的決定時(shí),數(shù)據(jù)才能體現(xiàn)其自身的價(jià)值。因此,大數(shù)據(jù)技術(shù)要服務(wù)于實(shí)際的用途,才是有意義的。一般來說,大數(shù)據(jù)可以從以下三個(gè)方面指導(dǎo)人們做出有價(jià)值的決定:

  1. 報(bào)表生成(比如根據(jù)用戶歷史點(diǎn)擊行為的跟蹤和綜合分析、 應(yīng)用程序活躍程度和用戶粘性計(jì)算等);

  2. 診斷分析(例如分析為何用戶粘性下降、根據(jù)日志分析系統(tǒng)為何性能下降、垃圾郵件以及病毒的特征檢測等);

  3. 決策(例如個(gè)性化新聞閱讀或歌曲推薦、預(yù)測增加哪些功能能增加用戶粘性、幫助廣告主進(jìn)行廣告精準(zhǔn)投放、設(shè)定垃圾郵件和病毒攔截策略等)。

圖 1

進(jìn)一步來看,大數(shù)據(jù)技術(shù)從以下三個(gè)方面解決了傳統(tǒng)技術(shù)難以達(dá)成的目標(biāo)(如圖1):

  1. 在歷史數(shù)據(jù)上的低延遲(交互式)查詢,目標(biāo)是加快決策過程和時(shí)間, 例如分析一個(gè)站點(diǎn)為何變緩慢并嘗試修復(fù)它; 

  2. 在實(shí)時(shí)數(shù)據(jù)上的低延遲查詢,目的是幫助用戶和應(yīng)用程序在實(shí)時(shí)數(shù)據(jù)上做出決策, 例如實(shí)時(shí)檢測并阻攔病毒蠕蟲(一個(gè)病毒蠕蟲可以在1.3秒內(nèi)攻擊1百萬臺主機(jī));

  3. 更加精細(xì)高級的數(shù)據(jù)處理算法,這可以幫助用戶做出“更好”的決策, 例如圖數(shù)據(jù)處理、異常點(diǎn)檢測、趨勢分析及其他機(jī)器學(xué)習(xí)算法。

蛋糕模式

從將數(shù)據(jù)轉(zhuǎn)換成價(jià)值的角度來說,在Hadoop生態(tài)圈十年蓬勃成長的過程中,YARN和Spark這二者可以算得上是里程碑事件。Yarn的出現(xiàn)使得集群資源管理和數(shù)據(jù)處理流水線分離,大大革新并推動(dòng)了大數(shù)據(jù)應(yīng)用層面各種框架的發(fā)展(SQL on Hadoop框架, 流數(shù)據(jù),圖數(shù)據(jù),機(jī)器學(xué)習(xí))。

它使得用戶不再受到MapReduce開發(fā)模式的約束,而是可以創(chuàng)建種類更為豐富的分布式應(yīng)用程序,并讓各類應(yīng)用程序運(yùn)行在統(tǒng)一的架構(gòu)上,消除了為其他框架維護(hù)獨(dú)有資源的開銷。就好比一個(gè)多層蛋糕,下面兩層是HDFS和Yarn, 而MapReduce就只是蛋糕上層的一根蠟燭而已,在蛋糕上還能插各式各樣的蠟燭。

在這一架構(gòu)體系中,總體數(shù)據(jù)處理分析作業(yè)分三塊(圖2),在HBase上做交互式查詢(Apache Phoenix, Cloudera Impala等), 在歷史數(shù)據(jù)集上編寫MapReduce程序抑或利用Hive等做批處理業(yè)務(wù), 另外對于實(shí)時(shí)流數(shù)據(jù)分析Apache Storm則會(huì)是一種標(biāo)準(zhǔn)選擇方案。

雖然Yarn的出現(xiàn)極大地豐富了Hadoop生態(tài)圈的應(yīng)用場景,但仍存有兩個(gè)顯而易見的挑戰(zhàn):一是在一個(gè)平臺上需要維護(hù)三個(gè)開發(fā)堆棧;二是在不同框架內(nèi)很難共享數(shù)據(jù),比如很難在一個(gè)框架內(nèi)對流數(shù)據(jù)做交互式查詢。這也意味著我們需要一個(gè)更為統(tǒng)一和支持更好抽象的計(jì)算框架的出現(xiàn)。

圖 2

一統(tǒng)江湖

Spark的出現(xiàn)使得批處理任務(wù),交互式查詢,實(shí)時(shí)流數(shù)據(jù)處理被整合到一個(gè)統(tǒng)一的框架內(nèi)(圖3),同時(shí)Spark和現(xiàn)有的開源生態(tài)系統(tǒng)也能夠很好地兼容(Hadoop, HDFS, Yarn, Hive, Flume)。 通過啟用內(nèi)存分布數(shù)據(jù)集,優(yōu)化迭代工作負(fù)載, 用戶能夠更簡單地操作數(shù)據(jù),并在此基礎(chǔ)上開發(fā)更為精細(xì)的算法,如機(jī)器學(xué)習(xí)和圖算法等。

有三個(gè)最主要的原因促使Spark目前成為了時(shí)下最火的大數(shù)據(jù)開源社區(qū)(擁有超過來自200多個(gè)公司的800多個(gè)contributors):

  1. Spark可以擴(kuò)展部署到超過8000節(jié)點(diǎn)并處理PB級別的數(shù)據(jù),同時(shí)也提供了很多不錯(cuò)的工具供應(yīng)用開發(fā)者進(jìn)行管理和部署;

  2. Spark提供了一個(gè)交互式shell供開發(fā)者可以用Scala或者Python即時(shí)性試驗(yàn)不同的功能;

  3. Spark提供了很多內(nèi)置函數(shù)使得開發(fā)者能夠比較容易地寫出低耦合的并且能夠并發(fā)執(zhí)行的代碼,這樣開發(fā)人員就更能集中精力地為用戶提供更多的業(yè)務(wù)功能而不是花費(fèi)時(shí)間在優(yōu)化并行化代碼之上。

當(dāng)然Spark也和當(dāng)年的MapReduce一樣不是萬靈藥,比如對實(shí)時(shí)性要求很高的流數(shù)據(jù)處理上Apache Storm還是被作為主流選擇, 因?yàn)镾park Streaming實(shí)際上是microbatch(將一個(gè)流數(shù)據(jù)按時(shí)間片切成batch,每個(gè)batch提交一個(gè)job)而不是事件觸發(fā)實(shí)時(shí)系統(tǒng),所以雖然支持者們認(rèn)為microbatch在系統(tǒng)延時(shí)性上貢獻(xiàn)并不多,但在生產(chǎn)環(huán)境中和Apache Storm相比還不是特別能滿足對低延時(shí)要求很高的應(yīng)用場景。

比如在實(shí)踐過程中, 如果統(tǒng)計(jì)每條消息的平均處理時(shí)間,很容易達(dá)到毫秒級別,但一旦統(tǒng)計(jì)類似service assurance(確保某條消息在毫秒基本能被處理完成)的指標(biāo), 系統(tǒng)的瓶頸有時(shí)還是不能避免。

但同時(shí)我們不能不注意到,在許多用例當(dāng)中,與流數(shù)據(jù)的交互以及和靜態(tài)數(shù)據(jù)集的結(jié)合是很有必要的, 例如我們需要在靜態(tài)數(shù)據(jù)集上進(jìn)行分類器的模型計(jì)算,并在已有分類器模型的基礎(chǔ)上,對實(shí)時(shí)進(jìn)入系統(tǒng)的流數(shù)據(jù)進(jìn)行交互計(jì)算來判定類別。

由于Spark的系統(tǒng)設(shè)計(jì)對各類工作(批處理、流處理以及交互式工作)進(jìn)行了一個(gè)共有抽象,并且生態(tài)圈內(nèi)延伸出了許多豐富的庫(MLlib機(jī)器學(xué)習(xí)庫、SQL語言API、GraphX),  使得用戶可以在每一批流數(shù)據(jù)上進(jìn)行靈活的Spark相關(guān)操作,在開發(fā)上提供了許多便利。 

Spark的成熟使得Hadoop生態(tài)圈在短短一年之間發(fā)生了翻天覆地的變化, Cloudera和Hortonworks紛紛加入了Spark陣營,而Hadoop項(xiàng)目群中除了Yarn之外已經(jīng)沒有項(xiàng)目是必須的了(雖然Mesos已在一些場合替代了Yarn), 因?yàn)榫瓦BHDFS,Spark都可以不依賴。但很多時(shí)候我們?nèi)匀恍枰馡mpala這樣的依賴分布式文件系統(tǒng)的MPP解決方案并利用Hive管理文件到表的映射,因此Hadoop傳統(tǒng)生態(tài)圈依然有很強(qiáng)的生命力。

另外在這里簡要對比一下交互式分析任務(wù)中各類SQL on Hadoop框架,因?yàn)檫@也是我們在實(shí)際項(xiàng)目實(shí)施中經(jīng)常遇到的問題。我們主要將注意力集中在Spark SQL, Impala和Hive on Tez上, 其中Spark SQL是三者之中歷史最短的,論文發(fā)表在15年的SIGMOD會(huì)議上, 原文對比了數(shù)據(jù)倉庫上不同類型的查詢在Shark(Spark最早對SQL接口提供的支持)、Spark SQL和Impala上的性能比較。

也就是說, 雖然Spark SQL在Shark的基礎(chǔ)上利用Catalyst optimizer在代碼生成上做了很多優(yōu)化,但總體性能還是比不上Impala, 尤其是當(dāng)做join操作的時(shí)候, Impala可以利用“predicate pushdown”更早對表進(jìn)行選擇操作從而提高性能。

不過Spark SQL的Catalyst optimizer一直在持續(xù)優(yōu)化中,相信未來會(huì)有更多更好的進(jìn)展。Cloudera的Benchmark評測中Impala一直比其他SQL on Hadoop框架性能更加優(yōu)越,但同時(shí)Hortonworks評測則指出雖然單個(gè)數(shù)據(jù)倉庫查詢Impala可以在很短的時(shí)間內(nèi)完成,但是一旦并發(fā)多個(gè)查詢Hive on Tez的優(yōu)勢就展示出來。另外Hive on Tez在SQL表達(dá)能力也要比Impala更強(qiáng)(主要是因?yàn)镮mpala的嵌套存儲(chǔ)模型導(dǎo)致的), 因此根據(jù)不同的場景選取不同的解決方案是很有必要的。

圖 3

各領(lǐng)風(fēng)騷抑或代有才人出?

近一年比較吸引人眼球的Apache Flink(與Spark一樣已有5年歷史,前身已經(jīng)是柏林理工大學(xué)一個(gè)研究性項(xiàng)目,被其擁躉推崇為繼MapReduce, Yarn,Spark之后第四代大數(shù)據(jù)分析處理框架)。 與Spark相反,Flink是一個(gè)真正的實(shí)時(shí)流數(shù)據(jù)處理系統(tǒng),它將批處理看作是流數(shù)據(jù)的特例,同Spark一樣它也在嘗試建立一個(gè)統(tǒng)一的平臺運(yùn)行批量,流數(shù)據(jù),交互式作業(yè)以及機(jī)器學(xué)習(xí),圖算法等應(yīng)用。

Flink有一些設(shè)計(jì)思路是明顯區(qū)別于Spark的,一個(gè)典型的例子是內(nèi)存管理,F(xiàn)link從一開始就堅(jiān)持自己精確的控制內(nèi)存使用并且直接操作二進(jìn)制數(shù)據(jù),而Spark一直到1.5版本都還是試用java的內(nèi)存管理來做數(shù)據(jù)緩存,這也導(dǎo)致了Spark很容易遭受OOM以及JVM GC帶來的性能損失。

但是從另外一個(gè)角度來說, Spark中的RDD在運(yùn)行時(shí)被存成java objects的設(shè)計(jì)模式也大大降低了用戶編程設(shè)計(jì)門檻, 同時(shí)隨著Tungsten項(xiàng)目的引入,Spark現(xiàn)在也逐漸轉(zhuǎn)向自身的內(nèi)存管理, 具體表現(xiàn)為Spark生態(tài)圈內(nèi)從傳統(tǒng)的圍繞RDD(分布式j(luò)ava對象集合)為核心的開發(fā)逐漸轉(zhuǎn)向以DataFrame(分布式行對象集合)為核心。

總的來說,這兩個(gè)生態(tài)圈目前都在互相學(xué)習(xí),F(xiàn)link的設(shè)計(jì)基因更為超前一些,但Spark社區(qū)活躍度大很多,發(fā)展到目前毫無疑問是更為成熟的選擇,比如對數(shù)據(jù)源的支持(HBase, Cassandra, Parquet, JSON, ORC)更為豐富以及更為統(tǒng)一簡潔的計(jì)算表示。另一方面,Apache Flink作為一個(gè)由歐洲大陸發(fā)起的項(xiàng)目,目前已經(jīng)擁有來自北美、歐洲以及亞洲的許多貢獻(xiàn)者,這是否能夠一改歐洲在開源世界中一貫的被動(dòng)角色,我們將在未來拭目以待。

2
NoSQL數(shù)據(jù)庫篇

NoSQL數(shù)據(jù)庫在主流選擇上依舊集中在MongoDB, HBase和Cassandra這三者之間。在所有的NoSQL選擇中,用C 編寫的MongoDB幾乎應(yīng)該是開發(fā)者最快也最易部署的選擇。MongoDB是一個(gè)面向文檔的數(shù)據(jù)庫,每個(gè)文檔/記錄/數(shù)據(jù)(包括爬取的網(wǎng)頁數(shù)據(jù)及其他大型對象如視頻等)是以一種BSON(Binary JSON)的二進(jìn)制數(shù)據(jù)格式存儲(chǔ), 這使得MongoDB并不需要事先定義任何模式, 也就是模式自由(可以把完全不同結(jié)構(gòu)的記錄放在同一個(gè)數(shù)據(jù)庫里)。

MongoDB對于完全索引的支持在應(yīng)用上是很方便的,同時(shí)也具備一般NoSQL分布式數(shù)據(jù)庫中可擴(kuò)展,支持復(fù)制和故障恢復(fù)等功能。 MongoDB一般應(yīng)用于高度伸縮性的緩存及大尺寸的JSON數(shù)據(jù)存儲(chǔ)業(yè)務(wù)中,但不能執(zhí)行“JOIN”操作,而且數(shù)據(jù)占用空間也比較大,最被用戶詬病的就是由于MongoDB提供的是數(shù)據(jù)庫級鎖粒度導(dǎo)致在一些情況下建索引操作會(huì)引發(fā)整個(gè)數(shù)據(jù)庫阻塞。一般來說,MongoDB完全可以滿足一些快速迭代的中小型項(xiàng)目的需求。

下面來主要談?wù)凜assandra和HBase之間的比較選擇。Cassandra和HBase有著截然不同的基因血統(tǒng)。HBase和其底層依賴的系統(tǒng)架構(gòu)源自于著名的Google FileSystem(發(fā)表于2003年)和Google BigTable設(shè)計(jì)(發(fā)表于2006年), 其克服了HDFS注重吞吐量卻犧牲I/O的缺點(diǎn),提供了一個(gè)存儲(chǔ)中間層使得用戶或者應(yīng)用程序可以隨機(jī)讀寫數(shù)據(jù)。

具體來說,HBase的更新和刪除操作實(shí)際上是先發(fā)生在內(nèi)存MemStore中, 當(dāng)MemStore滿了以后會(huì)Flush到StoreFile, 之后當(dāng)StoreFile文件數(shù)量增長到一定閾值后會(huì)觸發(fā)Compact合并操作,因此HBase的更新操作其實(shí)是不斷追加的操作,而最終所有更新和刪除數(shù)據(jù)的持久化操作都是在之后Compact過程中進(jìn)行的。

這使得應(yīng)用程序在向內(nèi)存MemStore寫入數(shù)據(jù)后,所做的修改馬上就能得到反映,用戶讀到的數(shù)據(jù)絕不會(huì)是陳舊的數(shù)據(jù),保證了I/O高性能和數(shù)據(jù)完全一致性; 另一方面來說, HBase基于Hadoop生態(tài)系統(tǒng)的基因就已經(jīng)決定了他自身的高度可擴(kuò)展性、容錯(cuò)性。 

在數(shù)據(jù)模型上,Cassandra和HBase類似實(shí)現(xiàn)了一個(gè)key-value提供面向列式存儲(chǔ)服務(wù),其系統(tǒng)設(shè)計(jì)參考了 Amazon Dynamo (發(fā)表于2007年) 分布式哈希(DHT)的P2P結(jié)構(gòu)(實(shí)際上大部分Cassandra的初始工作都是由兩位從Amazon的Dynamo組跳槽到Facebook的工程師完成),同樣具有很高的可擴(kuò)展性和容錯(cuò)性等特點(diǎn)。

除此之外, 相對HBase的主從結(jié)構(gòu),Cassandra去中心化的P2P結(jié)構(gòu)能夠更簡單地部署和維護(hù),比如增加一臺機(jī)器只需告知Cassandra系統(tǒng)新節(jié)點(diǎn)在哪,剩下的交給系統(tǒng)完成就行了。同時(shí),Cassandra對多數(shù)據(jù)中心的支持也更好,如果需要在多個(gè)數(shù)據(jù)中心進(jìn)行數(shù)據(jù)遷移Cassandra會(huì)是一個(gè)更優(yōu)的選擇。

Eric Brewer教授提出的經(jīng)典CAP理論認(rèn)為任何基于網(wǎng)絡(luò)的數(shù)據(jù)共享系統(tǒng),最多只能滿足數(shù)據(jù)一致性、可用性、分區(qū)容忍性三要素中的兩個(gè)要素。實(shí)際分布式系統(tǒng)的設(shè)計(jì)過程往往都是在一致性與可用性上進(jìn)行取舍,相比于HBase數(shù)據(jù)完全一致性的系統(tǒng)設(shè)計(jì),Cassandra選擇了在優(yōu)先考慮數(shù)據(jù)可用性的基礎(chǔ)上讓用戶自己根據(jù)應(yīng)用程序需求決定系統(tǒng)一致性級別。

比如:用戶可以配置QUONUM參數(shù)來決定系統(tǒng)需要幾個(gè)節(jié)點(diǎn)返回?cái)?shù)據(jù)才能向客戶端做出響應(yīng),ONE指只要有一個(gè)節(jié)點(diǎn)返回?cái)?shù)據(jù)就可以對客戶端做出響應(yīng),ALL指等于數(shù)據(jù)復(fù)制份數(shù)的所有節(jié)點(diǎn)都返回結(jié)果才能向客戶端做出響應(yīng),對于數(shù)據(jù)一致性要求不是特別高的可以選擇ONE,它是最快的一種方式。

從基因和發(fā)展歷史上來說,HBase更適合用做數(shù)據(jù)倉庫和大規(guī)模數(shù)據(jù)處理與分析(比如對網(wǎng)頁數(shù)據(jù)建立索引), 而Cassandra則更適合用作實(shí)時(shí)事務(wù)和交互式查詢服務(wù)。Cassandra在國外市場占有比例和發(fā)展要遠(yuǎn)比國內(nèi)紅火, 在不少權(quán)威測評網(wǎng)站上排名都已經(jīng)超過了HBase。目前Apache Cassandra的商業(yè)化版本主要由軟件公司DataStax進(jìn)行開發(fā)和銷售推廣。另外還有一些NoSQL分布式數(shù)據(jù)庫如Riak, CouchDB也都在各自支持的廠商推動(dòng)下取得了不錯(cuò)的發(fā)展。 

雖然我們也考慮到了HBase在實(shí)際應(yīng)用中的不便之處比如對二級索引的支持程度不夠(只支持通過單個(gè)行鍵訪問,通過行鍵的范圍查詢,全表掃描),不過在明略的大數(shù)據(jù)基礎(chǔ)平臺上,目前整合的是依然是HBase。

理由也很簡單,HBase出身就與Hadoop的生態(tài)系統(tǒng)緊密集成,其能夠很容易與其他SQL on Hadoop框架(Cloudera Impala, Apache Phoenix, or Hive on Tez)進(jìn)行整合,而不需要重新部署一套分布式數(shù)據(jù)庫系統(tǒng),而且可以很方便地將同樣的數(shù)據(jù)內(nèi)容在同一個(gè)生態(tài)系統(tǒng)中根據(jù)不同框架需要來變換存儲(chǔ)格式(比如存儲(chǔ)成Hive表或者Parquet格式)。

我們在很多項(xiàng)目中都有需要用到多種SQL on Hadoop框架,來應(yīng)對不同應(yīng)用場景的情況,也體會(huì)到了在同一生態(tài)系統(tǒng)下部署多種框架的簡便性。 但同時(shí)我們也遇到了一些問題, 因?yàn)镠Base項(xiàng)目本身與HDFS和Zookeeper系統(tǒng)分別是由不同開源團(tuán)隊(duì)進(jìn)行維護(hù)的,所以在系統(tǒng)整合時(shí)我們需要先對HBase所依賴的其他模塊進(jìn)行設(shè)置再對HBase進(jìn)行配置,在一定程度上降低了系統(tǒng)維護(hù)的友好性。

目前我們也已經(jīng)在考慮將Cassandra應(yīng)用到一些新的客戶項(xiàng)目中,因?yàn)楹芏嗥髽I(yè)級的應(yīng)用都需要將線上線下數(shù)據(jù)庫進(jìn)行分離,HBase更適合存儲(chǔ)離線處理的結(jié)果和數(shù)據(jù)倉庫,而更適合用作實(shí)時(shí)事務(wù)和并發(fā)交互性能更好的Cassandra作為線上服務(wù)數(shù)據(jù)庫會(huì)是一種很好的選擇。

3
大數(shù)據(jù)安全篇

隨著越來越多各式各樣的數(shù)據(jù)被存儲(chǔ)在大數(shù)據(jù)系統(tǒng)中,任何對企業(yè)級數(shù)據(jù)的破壞都是災(zāi)難性的,從侵犯隱私到監(jiān)管違規(guī),甚至?xí)斐晒酒放频钠茐牟⒆罱K影響到股東收益。給大數(shù)據(jù)系統(tǒng)提供全面且有效的安全解決方案的需求已經(jīng)十分迫切:

  • 大數(shù)據(jù)系統(tǒng)存儲(chǔ)著許多重要且敏感的數(shù)據(jù),這些數(shù)據(jù)是企業(yè)長久以來的財(cái)富

  • 與大數(shù)據(jù)系統(tǒng)互動(dòng)的外部系統(tǒng)是動(dòng)態(tài)變化的,這會(huì)給系統(tǒng)引入新的安全隱患

  • 在一個(gè)企業(yè)的內(nèi)部,不同Business Units會(huì)用不同的方式與大數(shù)據(jù)系統(tǒng)進(jìn)行交互,比如線上的系統(tǒng)會(huì)實(shí)時(shí)給集群推送數(shù)據(jù)、數(shù)據(jù)科學(xué)家團(tuán)隊(duì)則需要分析存儲(chǔ)在數(shù)據(jù)倉庫內(nèi)的歷史數(shù)據(jù)、運(yùn)維團(tuán)隊(duì)則會(huì)需要對大數(shù)據(jù)系統(tǒng)擁有管理權(quán)限。

因此為了保護(hù)公司業(yè)務(wù)、客戶、財(cái)務(wù)和名譽(yù)免于被侵害,大數(shù)據(jù)系統(tǒng)運(yùn)維團(tuán)隊(duì)必須將系統(tǒng)安全高度提高到和其他遺留系統(tǒng)一樣的級別。同時(shí)大數(shù)據(jù)系統(tǒng)并不意味著引入大的安全隱患,通過精細(xì)完整的設(shè)計(jì),仍然能夠把一些傳統(tǒng)的系統(tǒng)安全解決方案對接到最新的大數(shù)據(jù)集群系統(tǒng)中。 

一般來說,一個(gè)完整的企業(yè)級安全框架包括五個(gè)部分:

  • Administration: 大數(shù)據(jù)集群系統(tǒng)的集中式管理,設(shè)定全局一致的安全策略

  • Authentication: 對用戶和系統(tǒng)的認(rèn)證

  • Authorization:授權(quán)個(gè)人用戶和組對數(shù)據(jù)的訪問權(quán)限

  • Audit:維護(hù)數(shù)據(jù)訪問的日志記錄

  • Data Protection:數(shù)據(jù)脫敏和加密以達(dá)到保護(hù)數(shù)據(jù)的目的

系統(tǒng)管理員要能夠提供覆蓋以上五個(gè)部分的企業(yè)級安全基礎(chǔ)設(shè)施,否則任何一環(huán)的缺失都可能給整個(gè)系統(tǒng)引入安全性風(fēng)險(xiǎn)。

在大數(shù)據(jù)系統(tǒng)安全集中式管理平臺這塊,由Hortonworks推出的開源項(xiàng)目Apache Ranger就可以十分全面地為用戶提供Hadoop生態(tài)圈的集中安全策略的管理,并解決授權(quán)(Authorization)和審計(jì)(Audit)。例如,運(yùn)維管理員可以輕松地為個(gè)人用戶和組對文件、數(shù)據(jù)等的訪問策略,然后審計(jì)對數(shù)據(jù)源的訪問。

與Ranger提供相似功能的還有Cloudera推出的Apache Sentry項(xiàng)目,相比較而言Ranger的功能會(huì)更全面一些。

而在認(rèn)證(Authentication)方面, 一種普遍采用的解決方案是將基于Kerberos的認(rèn)證方案對接到企業(yè)內(nèi)部的LDAP環(huán)境中, Kerberos也是唯一為Hadoop全面實(shí)施的驗(yàn)證技術(shù)。

另外值得一提的是Apache Knox Gateway項(xiàng)目,與Ranger提高集群內(nèi)部組件以及用戶互相訪問的安全不同,Knox提供的是Hadoop集群與外界的唯一交互接口,也就是說所有與集群交互的REST API都通過Knox處理。這樣,Knox就給大數(shù)據(jù)系統(tǒng)提供了一個(gè)很好的基于邊緣的安全(perimeter-based security)。

基于以上提到的五個(gè)安全指標(biāo)和Hadoop生態(tài)圈安全相關(guān)的開源項(xiàng)目, 已經(jīng)足已證明基于Hadoop的大數(shù)據(jù)平臺我們是能夠構(gòu)建一個(gè)集中、一致、全面且有效的安全解決方案。

4
總結(jié)

本文主要介紹了如何將Hadoop和大數(shù)據(jù)生態(tài)圈的各部分重要組件有機(jī)地聯(lián)系在一起去創(chuàng)建一個(gè)能夠支撐批處理、交互式和實(shí)時(shí)分析工作的大數(shù)據(jù)平臺系統(tǒng)。其中,我們重點(diǎn)嘗試從計(jì)算框架、 NoSQL 數(shù)據(jù)庫以及大數(shù)據(jù)平臺安全這三方面分析了在不同的應(yīng)用場景中相應(yīng)的技術(shù)選型以及需要考慮到的權(quán)衡點(diǎn),希望讓大家對如何建立一個(gè)完整可用的安全大數(shù)據(jù)平臺能有一個(gè)直觀的認(rèn)識。

作者簡介
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
盤點(diǎn)Hadoop生態(tài)圈:13個(gè)讓大象飛起來的開源工具
深入淺出Spark(1)----什么是Spark
Hadoop平臺架構(gòu)
有哪些大數(shù)據(jù)處理工具?
數(shù)據(jù)中臺系列(二):淺談數(shù)據(jù)引擎及其應(yīng)用場景
大數(shù)據(jù)系列之Hadoop框架
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服