Hadoop

Hadoop 2.X 설치

2014. 6. 10. 17:53

1. 사전 준비 (both Master and Slaves)

  • Install openssh-server
$ sudo apt-get install openssh-server

  • Install java
$ sudo add-apt-repository ppa:webupd8team/java
$ sudo apt-get update
$ sudo apt-get install oracle-java7-installer
$ cd /usr/lib/jvm
$ ln -s java-7-oracle jdk

  • Add hadoop group and user
$ sudo addgroup hadoop
$ usermod -a -G hadoop hduser

  • Configure SSH
$ ssh-keygen -t rsa -P ""
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hduser@[slave_ip]

  • Disable IPv6    -    it creates problems in Hadoop
$ sudo gedit /etc/sysctl.conf
add the following lines to the end of the file
# disable ipv6
net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
net.ipv6.conf.lo.disable_ipv6 = 1

  • Download and extract Hadoop
download Hadoop (http://apache.tt.co.kr/hadoop/common/)
$ cd ~/Downloads
$ sudo tar xvzf hadoop-2.2.0.tar.gz -C /usr/local
$ cd /usr/local
$ sudo mv hadoop-2.2.0 hadoop
$ sudo chown -R hduser:hadoop hadoop  


2. Hadoop 설정 (both Master and Slaves)
  • Configure .bashrc
$ sudo gedit ~/.bashrc
add the following lines to the end of the file
#Hadoop variables
export JAVA_HOME=/usr/lib/jvm/jdk/
export HADOOP_INSTALL=/usr/local/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
#end of paste

  • Modify hadoop-env.sh
$ gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh
modify the JAVA_HOME
export JAVA_HOME=/usr/lib/jvm/jdk/
save and restart the system
$ hadoop version

  • Create folder for tmp
$ mkdir -p $HADOOP_INSTALL/tmp

  • core-site.xml
$ gedit /usr/local/hadoop/etc/hadoop/core-site.xml
add the following lines between <configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>

  • hdfs-site.xml
$ cd ~
$ mkdir -p mydata/hdfs/namenode
$ mkdir -p mydata/hdfs/datanode
$ gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml
add the following lines between <configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/hduser/mydata/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/hduser/mydata/hdfs/datanode</value>
</property>

  • mapred-site.xml
$ gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml
add the following lines between <configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

  • yarn-site.xml
$ gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml
add the following lines between <configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource- tracker.address</name>
<value>master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>

  • format the namenode (master only)
$ hadoop namenode -format
or
$ hdfs namenode -format




3. Hadoop 실행 및 중지 (only at Master)
  • start-dfs.sh
    • to start namenode and data node
    • $ start-dfs.sh
    • $ jps - master
      • Jps
      • SecondaryNameNode
      • NameNode
    • $ jps - slave
      • Jps
      • DataNode

  • start-yarn.sh
    • to start resourcemanager and nodemanager
    • $ start-yarn.sh
    • $ jps - master
      • Jps
      • ResourceManager
    • $ jps - slave
      • Jps
      • NodeManager

  • stop-dfs.sh
  • stop-yarn.sh
  • start-all.sh (deprecated)
  • stop-all.sh (deprecated)


4. Hadoop 동작 (only at Master)

$ hadoop jar hadoop-examples.jar randomwriter out




















반응형
'Hadoop' 카테고리의 다른 글
  • Web UI
삿뿐삿뿐
삿뿐삿뿐
자바, 파이썬 등 개발 관련 정보와 블록체인, OpenAI 등 기술에 관한 정보를 남기는 블로그입니다.
정보 남기기자바, 파이썬 등 개발 관련 정보와 블록체인, OpenAI 등 기술에 관한 정보를 남기는 블로그입니다.
삿뿐삿뿐
정보 남기기
삿뿐삿뿐
전체
오늘
어제
  • 전체보기 (32)
    • Android (1)
    • Blockchain (1)
    • Development (21)
    • Hadoop (2)
    • Linux (4)
    • Blog (2)
      • Wordpress (2)
    • ETC (1)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • Python 긴 단어 찾기
  • oracleDB
  • wordpress 여러개
  • OpenAI
  • 파이썬 비밀번호
  • python pattern
  • Python 문자열 뒤집기
  • docker-compose wordpress
  • 파이썬
  • json API
  • python
  • jsontest
  • Python csv
  • python 비밀번호
  • multi wordpress
  • 파이썬 패턴
  • 파이썬 데이터 검증
  • Autonomous Database
  • 파이썬 입력값 검증
  • Google OAuth
  • wordpress 에러
  • 파이썬 시간
  • ChatGPT
  • 파이썬 긴 단어찾기
  • oracle db
  • python 시간
  • blogger
  • Linux
  • wordpress stripos
  • ubuntu

최근 댓글

최근 글

hELLO · Designed By 정상우.
삿뿐삿뿐
Hadoop 2.X 설치
상단으로

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.