본문 바로가기

데이터 사이언스

[Google][Dataproc] Hive 이용해보기

1. 초기설정

 

클러스터 초기설정법을 모른다면 아래글을 참고하자

2023.03.20 - [데이터 사이언스] - Google Dataproc 설정하기 (클러스터 생성하기)

demo라는 이름의 클러스터를 클릭하여 들어간다.

 

그림1. 클러스터 초기설정

 


2. Demo를 클릭한 이후 

 

이제 클러스터에 Job를 실행하라고 양식을 작성하게 된다.

작업 제출에 들어간다.

 

그림2. 작업제출 하기


3. 작업 제출 클릭 후 세부설정

 

작업 ID : Job의 이름이다. 알맞게 이름을 지어주자.

작업유형 : Hive를 이용함으로 Hive로 설정해 주자.

쿼리 소스 유형 : 파일이 있다면 쿼리파일을 이용해도 되고, 코드를 복사 붙이기 한다면 쿼리 텍스트

그리고 밑에 제출을 누르면 작업 제출이 완료된다.

 

코드는 아래를 이용했다. 1_create-table.hql이다.

https://github.com/lynnlangit/learning-hadoop-and-spark/tree/master/3-Use-Hive

 

그림3. Job 세부설정

 


4. 작업 제출 완료 후

 

작업에 들어가면 hive-job이 완료된 것을 볼 수 있다.

위에 코드는 Persons이라는 테이블을 생성하고

LastName, FirstName, Adress, City의 컬럼을 추가했다.

그리고 INSERT를 통해 3개의 데이터를 추가했다.

 


5. 만든 테이블에 쿼리 이용해 보기

아까 만든 테이블에 데이터를 이용하여 쿼리를 작성해 본다.

그러기 위해서는 아까 했던 작업제출을 다시 한다. 

 

쿼리 텍스트 설명

Persons 테이블에서 LastName, FirstName을 가져오고

'Bergen'인 City에 사는 사람 중에 LastName을 내림차순으로 정렬한다.

 


6. 결과

 

그리고 Hive-Job2가 실행이 완료됐다면 들어가서

출력 부분을 밑으로 내려오면 아래와 같이 실행 결과가 나온 것을 볼 수 있다.

테이블에 데이터를 넣을 때 3번째 데이터가 조건에 부합하여 출력된 것을 볼 수 있다.

 

 

 

 

참고자료(reference)

LinkedIn / Learning Hadoop / Lynn Langit