본문 바로가기

데이터 사이언스

[Hadoop] MapReduce 2.0 등장 배경, 특징

1. MapReduce 1.0의 한계

  • 일괄처리(batch processing)만 지원 
    • 일괄처리 : 컴퓨터의 프로그램의 흐름에 따라 자료를 순차적으로 처리
    • 데이터끼리 상호작용 하지 않는다. (Not interactive)
  • MapReduce Job을 코딩하는게 복잡하다.
    • 개발자 인력의 부족
    • Job이 사업 모델에 적합하지 않은 부분이 많음
  • 기업에서 필요로 하는 특징들이 부족함
    • 낮은 보안성 (security) 
    • 높은 가용성(high availability) 부족

 

 

2. MapReduce 2.0의 등장

  • JobTracker의 역할을 분할함
    • JobTracker : Apache Hadoop의 MapReduce 엔진에서 실행되는 데몬이다.
    • JobTracker는 MapReduce Job을 관리
    • 자원관리 (Resource management)
    • Job 생명주기 관리 (Job life-cycle management)
  • 많은 이점
    • 분산 Job 생명주기 관리 (Distributed job life-cycle management)
    • 클러스터에 여러 개의 MapReduce Api를 지원한다.
  • 일괄처리와 실시간 처리 가능
  • 많은 프레임워크를 지원한다. (YARN) 
    • YARN : HDFS에 저장된 데이터를 실행, 처리를 위해 그래프 처리, 대화형 처리, 스트림 처리, 일괄처리 등 데이터 처리 엔진을 허용한다.
    • MapReduce 코딩 필요로 하지 않음
    • 더 많은 사업 모델에 적합
  • 기업들이 필요로 하는 특징 추가 (보안성, 높은 가용성)
  • 분산 캐시 개선

 

 

참고자료

linkedin / Learning Hadoop / Lynn Langit