[Google Cloud][Dataproc] VM 설정, Hadoop 파일 시스템 이용하기
1. 시작하기 전 클러스터를 만드는 설정이 필요함
그건 아래 링크를 참조하면 클러스터를 만들 수 있음
2023.03.20 - [데이터 사이언스] - Google Dataproc 설정하기 (클러스터 생성하기)
2. 시작화면
클러스터를 만들었다면 아래와 같은 화면일 것이다
그리고 화살표를 따라 demo를 클릭하면 클러스터 설정이 보일 것이다.
3. 클러스터 이름(demo) 클릭한 후
클러스터(demo)에 대한 설정이다.
여기서 작업하기 위해 VM 인스턴스에 들어간다.
4. VM 인스턴스 클릭 후
VM 인스턴스를 클릭한 후에 SSH에 들어가면 VM에 들어가게 된다.
그리고 SSH를 클릭하게 되면 아래와 같이 나온다.
5. Hadoop FileSystem 이용하기
간단한 예제 shakespeare.raw이용하기
google에 Hadoop shakespeare.raw를 치면 나온다.
shakespeare.raw 파일을 받았다면 아래 사진과 같이 진행하면 결과를 얻을 수 있다.
하얗게 지운부분은 쓰다가 오류 난 부분으로 신경 쓰지 않아도 된다.
1. 파일 업로드를 이용해 다운받은 shakespeare.raw파일을 넣어준다.
2. Hadoop FileSystem을 이용한 디렉토리를 만든다. mkdir 이용
3. shakespeare.raw파일을 넣었다면 기본 Home에 있을 텐데, put를 이용해 2번에서 만든디렉토리에 복사한다.
4. 복사한 후에 2번에서 만든 디렉토리에 있는지 확인한다. ls 이용
5. 디렉토리에 shakespeare.raw가 잘 들어간 모습이다.
6. cat을 이용해 shakespeare.raw의 텍스트를 출력한다. (tail -n50을 이용해 마지막 50줄만 출력)
참고자료
linkedIn Learning Hadoop / Lynn Langit