본문 바로가기

데이터 사이언스

[Hadoop] MapReduce 최적화하기, 튜닝하기 1. MapReduce 최적화하기 Job이 실행되기 전에 최적화하기 데이터 전처리하기 (데이터를 변형하여 원하는 형태로 사용) ex) 특수문자 제거하기, 영어가 아닌 문자 제거하기 데이터를 로드할 때 최적화하기 압축비율 바꾸기 Job 부분의 map 부분 최적화하기 코드를 어떻게 잘 짜는지 Job 부분의 shuffle 최적화하기 Job 부분의 reduce 최적화하기 Job이 끝나고 난 뒤에 최적화 하기 2. 실행전에 고려해볼만한 최적화 파일 사이즈(File size) 압축(Compression) 암호화(Encryption) 3. 물리적 MapReduce 최적화 cluster configuration paremeter를 확인하여 다음을 확인한다. 사용되지 않는 자원이 있는가? 과도하게 사용되는 자원이 있는가.. 더보기
[Hadoop] MapReduce 기본개념, 정의, 특징, MapReduce 1.0 1. MapReduce 프로그래밍 패러다임 하나의 문제를 풀기 위해 설계되었다. 구글이 만들었다. 두 개의 부분으로 나뉨. (Map part, Reduce part) 2. Map 파트 데이터에 Map() 함수를 실행시킨다. 각 노드를 실행시킨다. (each node) 각 노드에 쌍의 결과가 나온다. 3. Reduce 파트 데이터에 Reduce() 함수를 실행시킨다. 어떤 노드에 실행시킨다. (some node) 어떤 노드에 쌍을 종합한다. 결과 : 합쳐진 리스트 4. 간단히 그림으로 이해하기 간단설명 예를 들어 3개의 서로 다른 Map Machine에 서른 다른 크기의 데이터가 들어간 모습이다. 데이터들이 Shuffle 되고, 같은 크기의 데이터로 Sort 되고, Reduce에서 데이터들이 합쳐진다. (.. 더보기
[Google Cloud][Dataproc] VM 설정, Hadoop 파일 시스템 이용하기 1. 시작하기 전 클러스터를 만드는 설정이 필요함 그건 아래 링크를 참조하면 클러스터를 만들 수 있음 2023.03.20 - [데이터 사이언스] - Google Dataproc 설정하기 (클러스터 생성하기) 2. 시작화면 클러스터를 만들었다면 아래와 같은 화면일 것이다 그리고 화살표를 따라 demo를 클릭하면 클러스터 설정이 보일 것이다. 3. 클러스터 이름(demo) 클릭한 후 클러스터(demo)에 대한 설정이다. 여기서 작업하기 위해 VM 인스턴스에 들어간다. 4. VM 인스턴스 클릭 후 VM 인스턴스를 클릭한 후에 SSH에 들어가면 VM에 들어가게 된다. 그리고 SSH를 클릭하게 되면 아래와 같이 나온다. 5. Hadoop FileSystem 이용하기 간단한 예제 shakespeare.raw이용하기.. 더보기
Google Dataproc 설정하기 (클러스터 생성하기) 1. google cloud console에 접속한다. 처음 입장하면 90일동안 크레딧 300$가량을 무료 사용이 가능하다고 뜨는데 그건 절차에 따라 하면된다. 그 후에 밑에 사진처럼 뜨고 빨간색 화살표에 dataproc이라고 검색을 한다. 2. dataproc 검색 후 처음 dataproc을 검색했다면 api를 추가할 것이냐고 물어보는데 이는 추가해주면 된다. 대략 1~2분 걸린다. 그리고 create cluster를 눌런다. (클러스터를 생선한다는 뜻이다.) 누른 후에는 사용할려는 목적에 맞게 클러스터를 만들어주면 된다. 나는 Compute Engine 클러스터를 골랐다. 3. Compute Engine 클러스터를 만든 이후 아래와 같은 화면이 뜬다. 클러스터 유형은 사용자의 목적에 맞게 설정하면 된.. 더보기