CDH集成開(kāi)發(fā)項(xiàng)目
該系統(tǒng)將Hadoop與其他關(guān)鍵開(kāi)源項(xiàng)目集成,以創(chuàng)建一個(gè)功能先進(jìn)的系統(tǒng),幫助企業(yè)執(zhí)行端到端的大數(shù)據(jù)工作流程。
CDH是Cloudera的100%開(kāi)源平臺(tái)發(fā)行版,包括Apache Hadoop,專為滿足企業(yè)需求而構(gòu)建。CDH提供開(kāi)箱即用的企業(yè)使用所需的一切。通過(guò)將Hadoop與十幾個(gè)其他關(guān)鍵的開(kāi)源項(xiàng)目集成,Cloudera創(chuàng)建了一個(gè)功能先進(jìn)的系統(tǒng),可幫助您執(zhí)行端到端的大數(shù)據(jù)工作流程。
擁有集群自動(dòng)化安裝、中心化管理、集群監(jiān)控、報(bào)警功能的一個(gè)工具(軟件),使得集群的安裝可以從幾天的時(shí)間縮短為幾個(gè)小時(shí),運(yùn)維人數(shù)也會(huì)從數(shù)十人降低到幾個(gè)人,極大的提高了集群管理的效率。
系統(tǒng)特色
CDH基于穩(wěn)定版Apache Hadoop,并應(yīng)用最新Bug修復(fù)或者Feature的Patch
Cloudera官網(wǎng)上安裝、升級(jí)文檔十分詳細(xì)
CDH支持Yum包、tar包、RPM包,Cloudera Manager四種安裝方式。推薦使用Yum、Apt方式安裝
Cloudera Manager的功能
管理:對(duì)集群進(jìn)行管理,例如添加、刪除節(jié)點(diǎn)等操作
監(jiān)控:監(jiān)控集群的健康情況,對(duì)設(shè)置的各種指標(biāo)和系統(tǒng)的具體運(yùn)行情況進(jìn)行全面的監(jiān)控
診斷:對(duì)集群出現(xiàn)的各種問(wèn)題進(jìn)行診斷,并且給出建議和解決方案
集成:多組件可以進(jìn)行版本兼容間的整合
統(tǒng)合管理平臺(tái)
綜合管理平臺(tái),以定制開(kāi)發(fā)為主,主要功能包括用戶組織結(jié)構(gòu)導(dǎo)入,角色權(quán)限分配,計(jì)算資源分配與生命周期的管理。
自動(dòng)化運(yùn)維
基于開(kāi)源技術(shù)框架的實(shí)施與二次開(kāi)發(fā),用于部署遠(yuǎn)程主機(jī),SSH協(xié)議實(shí)現(xiàn)遠(yuǎn)程節(jié)點(diǎn)和管理節(jié)點(diǎn)之間的通信。
集群監(jiān)控
用于對(duì)基礎(chǔ)設(shè)施的監(jiān)控包括三個(gè)方面:狀態(tài),性能和可用性。監(jiān)控集群的性能指標(biāo),如cpu 、mem、硬盤(pán)利用率, I/O負(fù)載、網(wǎng)絡(luò)流量情況等, 同時(shí)支持監(jiān)控自定義的性能指標(biāo)。 每個(gè)被檢測(cè)的節(jié)點(diǎn)或集群運(yùn)行一個(gè)gmond進(jìn)程,進(jìn)行監(jiān)控?cái)?shù)據(jù)的收集、匯總和發(fā)送。gmond即可以作為發(fā)送者(收集本機(jī)數(shù)據(jù)),也可以作為接收者(匯總多個(gè)節(jié)點(diǎn)的數(shù)據(jù))。
通常在整個(gè)監(jiān)控體系中只有一個(gè)gmetad進(jìn)程。該進(jìn)程定期檢查所有的gmonds,主動(dòng)收集數(shù)據(jù),并存儲(chǔ)在RRD存儲(chǔ)引擎中。
可以以圖表的方式展現(xiàn)存儲(chǔ)在RRD中的數(shù)據(jù)。通常與gmetad進(jìn)程運(yùn)行在一起。
可視化操作
可視化操作包括如下核心功能:
HDFS訪問(wèn)
Hive編輯器
Solr搜索應(yīng)用。
Impala數(shù)據(jù)交互查詢
集成Spark編輯器和DashBoard
Pig編輯器
Oozie調(diào)度器
HBase數(shù)據(jù)查詢、修改、可視化
Metastore的瀏覽。
Job的支持,Sqoop,ZooKeeper以及DB(MySQL,SQLite,Oracle等)
