Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)能夠讓用戶輕松架構(gòu)和使用的大規(guī)模數(shù)據(jù)處理平臺(tái),是處理、存儲(chǔ)和分析海量的分布式、非結(jié)構(gòu)化數(shù)據(jù)的開源框架。Hadoop的分布式架構(gòu),將大數(shù)據(jù)處理引擎盡可能的靠近存儲(chǔ),并且它的MapReduce功能實(shí)現(xiàn)了將單個(gè)任務(wù)打碎,并將碎片任務(wù)(Map)發(fā)送到多個(gè)節(jié)點(diǎn)上,之后再以單個(gè)數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉庫里。Hadoop 是一種分析和處理大數(shù)據(jù)的軟件平臺(tái),是一個(gè)用 Java 語言實(shí)現(xiàn)的 Apache 的開源軟件框架,在大量計(jì)算機(jī)組成的集群中實(shí)現(xiàn)了對(duì)海量數(shù)據(jù)的分布式計(jì)算。Hadoop具備可靠、高效、可伸縮等特點(diǎn),用戶可以輕松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。有需要使用Hadoop的朋友快通過kkx分享的地址來獲取吧!
Hadoop優(yōu)點(diǎn)
1. 高可靠性。
Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。
2. 高擴(kuò)展性。
Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。
3. 高效性。
Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非常快。
4. 高容錯(cuò)性。
Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。
5. 低成本。
與一體機(jī)、商用數(shù)據(jù)倉庫以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開源的,項(xiàng)目的軟件成本因此會(huì)大大降低。
Hadoop安裝教程
Hadoop2.7.1的部署
機(jī)器環(huán)境:
操作系統(tǒng):CentOS 6.4 64位系統(tǒng)
Hadoop版本:hadoop-2.7.1,在CentOS下自行編譯后的64位版本。
Hadoop安裝步驟
1、首先下載安裝包tar zxvf hadoop-2.7.1.tar.gz
2.在虛擬機(jī)中解壓安裝包

3.安裝目錄下創(chuàng)建數(shù)據(jù)存放的文件夾,tmp、hdfs、hdfs/data、hdfs/name

4、修改/home/yy/hadoop-2.7.1/etc/hadoop下的配置文件
修改core-site.xml,加上
fs.defaultFS
hdfs://s204:9000
hadoop.tmp.dir
file:/home/yy/hadoop-2.7.1/tmp
io.file.buffer.size
131702


5.修改hdfs-site.xml,加上
dfs.namenode.name.dir
file:/home/yy/hadoop-2.7.1/dfs/name
dfs.datanode.data.dir
file:/home/yy/hadoop-2.7.1/dfs/data
dfs.replication
2
dfs.namenode.secondary.http-address
s204:9001
dfs.webhdfs.enabled
true

6.修改mapred-site.xml,加上
mapreduce.framework.name
yarn
mapreduce.jobhistory.address
s204:10020
mapreduce.jobhistory.webapp.address
s204:19888

7.修改yarn-site.xml,加上
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.auxservices.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
yarn.resourcemanager.address
s204:8032
yarn.resourcemanager.scheduler.address
s204:8030
yarn.resourcemanager.resource-tracker.address
s204:8031
yarn.resourcemanager.admin.address
s204:8033
yarn.resourcemanager.webapp.address
s204:8088
yarn.nodemanager.resource.memory-mb
768

8、配置/home/yy/hadoop-2.7.1/etc/hadoop目錄下hadoop-env.sh、yarn-env.sh的JAVA_HOME,否則啟動(dòng)時(shí)會(huì)報(bào)error
export JAVA_HOME=/home/yy/jdk1.8


9.配置/home/yy/hadoop-2.7.1/etc/hadoop目錄下slaves
加上你的從服務(wù)器,我這里只有一個(gè)s205
配置成功后,將hadhoop復(fù)制到各個(gè)從服務(wù)器上
scp -r /home/yy/hadoop-2.7.1 root@s205:/home/yy/

10.主服務(wù)器上執(zhí)行bin/hdfs namenode -format
進(jìn)行初始化
sbin目錄下執(zhí)行 ./start-all.sh
可以使用jps查看信息
停止的話,輸入命令,sbin/stop-all.sh

11.這時(shí)可以瀏覽器打開s204:8088查看集群信息啦
到此配置完成,如圖:

優(yōu)勢
Hadoop是一個(gè)基本框架,容許用簡單的編程實(shí)體模型在計(jì)算機(jī)中集群中對(duì)大中型數(shù)據(jù)開展分布式解決。它設(shè)計(jì)規(guī)模從單一網(wǎng)絡(luò)服務(wù)器到數(shù)千臺(tái)設(shè)備,每一個(gè)網(wǎng)絡(luò)服務(wù)器都可以提供當(dāng)?shù)剡\(yùn)算存放作用,框架自身提供是指電子計(jì)算機(jī)集群高可用性服務(wù),不依賴硬件配置來提供可擴(kuò)展性。
用戶可在不太了解分布式最底層關(guān)鍵點(diǎn)的情形下,快速地在Hadoop上開發(fā)與運(yùn)作解決大數(shù)據(jù)的應(yīng)用軟件。降低成本、高可靠、高拓展、高合理、高容錯(cuò)機(jī)制等特點(diǎn)讓hadoop變成最流行大數(shù)據(jù)分析平臺(tái)。
Hadoop的生態(tài)系統(tǒng),主要是由HDFS、MapReduce,HBase,Zookeeper,Pig、Hive等關(guān)鍵部件組成,同時(shí)還包含Sqoop、Flume等框架,用于與其他公司系統(tǒng)融合。與此同時(shí),Hadoop生態(tài)系統(tǒng)還在不斷增加,它增加了Mdhout、Ambari等相關(guān)信息,以提供升級(jí)作用。