Hadoop文件系統(tǒng)是使用分布式文件系統(tǒng)設(shè)計(jì)開發(fā)的。它運(yùn)行在商用硬件上。與其他分布式系統(tǒng)不同,HDFS是高度容錯(cuò)的,并且使用低成本硬件設(shè)計(jì)。
HDFS擁有大量的數(shù)據(jù)并提供更容易的訪問。為了存儲(chǔ)這樣巨大的數(shù)據(jù),文件存儲(chǔ)在多個(gè)機(jī)器。這些文件以冗余方式存儲(chǔ),以在發(fā)生故障時(shí)避免系統(tǒng)可能的數(shù)據(jù)丟失。 HDFS還使應(yīng)用程序可用于并行處理。
下面給出了Hadoop文件系統(tǒng)的體系結(jié)構(gòu)。
HDFS遵循主從架構(gòu),并具有以下元素。
namenode是包含GNU / Linux操作系統(tǒng)和namenode軟件的商用硬件。它是一個(gè)可以在商用硬件上運(yùn)行的軟件。具有namenode的系統(tǒng)充當(dāng)主服務(wù)器,它執(zhí)行以下任務(wù):
datanode是具有GNU / Linux操作系統(tǒng)和datanode軟件的商用硬件。對(duì)于集群中的每個(gè)節(jié)點(diǎn)(商品硬件/系統(tǒng)),都會(huì)有一個(gè)datanode。這些節(jié)點(diǎn)管理其系統(tǒng)的數(shù)據(jù)存儲(chǔ)。
一般用戶數(shù)據(jù)存儲(chǔ)在HDFS的文件中。文件系統(tǒng)中的文件將被分成一個(gè)或多個(gè)段和/或存儲(chǔ)在各個(gè)數(shù)據(jù)節(jié)點(diǎn)中。這些文件段稱為塊。換句話說,HDFS可以讀取或?qū)懭氲淖钚?shù)據(jù)量稱為塊。默認(rèn)塊大小為64MB,但可以根據(jù)需要更改HDFS配置來增加。
故障檢測(cè)和恢復(fù) :由于HDFS包括大量的商品硬件,組件的故障頻繁。因此,HDFS應(yīng)該具有快速和自動(dòng)故障檢測(cè)和恢復(fù)的機(jī)制。
巨大的數(shù)據(jù)集 :HDFS應(yīng)該每個(gè)集群有數(shù)百個(gè)節(jié)點(diǎn)來管理具有巨大數(shù)據(jù)集的應(yīng)用程序。
硬件數(shù)據(jù) :當(dāng)在數(shù)據(jù)附近進(jìn)行計(jì)算時(shí),可以有效地完成所請(qǐng)求的任務(wù)。特別是在涉及巨大數(shù)據(jù)集的情況下,它減少了網(wǎng)絡(luò)流量并增加了吞吐量。
更多建議: