1. MapReduce 1.0의 한계
- 일괄처리(batch processing)만 지원
- 일괄처리 : 컴퓨터의 프로그램의 흐름에 따라 자료를 순차적으로 처리
- 데이터끼리 상호작용 하지 않는다. (Not interactive)
- MapReduce Job을 코딩하는게 복잡하다.
- 개발자 인력의 부족
- Job이 사업 모델에 적합하지 않은 부분이 많음
- 기업에서 필요로 하는 특징들이 부족함
- 낮은 보안성 (security)
- 높은 가용성(high availability) 부족
2. MapReduce 2.0의 등장
- JobTracker의 역할을 분할함
- JobTracker : Apache Hadoop의 MapReduce 엔진에서 실행되는 데몬이다.
- JobTracker는 MapReduce Job을 관리
- 자원관리 (Resource management)
- Job 생명주기 관리 (Job life-cycle management)
- 많은 이점
- 분산 Job 생명주기 관리 (Distributed job life-cycle management)
- 클러스터에 여러 개의 MapReduce Api를 지원한다.
- 일괄처리와 실시간 처리 가능
- 많은 프레임워크를 지원한다. (YARN)
- YARN : HDFS에 저장된 데이터를 실행, 처리를 위해 그래프 처리, 대화형 처리, 스트림 처리, 일괄처리 등 데이터 처리 엔진을 허용한다.
- MapReduce 코딩 필요로 하지 않음
- 더 많은 사업 모델에 적합
- 기업들이 필요로 하는 특징 추가 (보안성, 높은 가용성)
- 분산 캐시 개선
참고자료
linkedin / Learning Hadoop / Lynn Langit
'데이터 사이언스' 카테고리의 다른 글
[Hadoop] Hive 정의, 특징, 이해하기 (0) | 2023.03.30 |
---|---|
[Google][Dataproc] Hive 이용해보기 (0) | 2023.03.29 |
[Hadoop] MapReduce 최적화하기, 튜닝하기 (0) | 2023.03.28 |
[Hadoop] MapReduce 기본개념, 정의, 특징, MapReduce 1.0 (0) | 2023.03.27 |
[Google Cloud][Dataproc] VM 설정, Hadoop 파일 시스템 이용하기 (0) | 2023.03.21 |