'데이터 사이언스' 카테고리의 글 목록 (2 Page)

본문 바로가기

데이터 사이언스

[Virtualbox] 우분투 화면 크기에 따라 자동 조절하기 (여러 해결책) 1. 초기설정 처음에 우분투 작은 화면이라 불편함이 있어서 크기에 따라 자동조절을 설정하는 글이다. 단순히 간단히 해상도만 바꿔서 크기를 바꾸고 싶다면 아래 글을 참고해 주세요. 2023.04.18 - [데이터 사이언스] - [VirtualBox] 10초안에 우분투, 리눅스 화면 크기 조절, 크게하기 설치에 필요한 패키지들 설치하기 sudo apt update sudo apt -y upgrade sudo apt -y install build-essential 설치 완료 후 VM창에서 장치 -> 게스트 확장 CD 이미지 삽입을 눌러주자. 게스트 확장 이미지 CD 삽입을 눌렀으나 반응이 없을 때의 해결책도 아래 적어놓겠습니다. 누르고 나서 실행하시겠습니까?가 뜨면 실행시킨다. 혹은 실수로 닫았다면 파일을 열.. 더보기

[VirtualBox] 10초안에 우분투, 리눅스 화면 크기 조절, 크게하기 1. 글을 쓰게 된 이유 Ubuntu 22.04 LTS를 쓰는데 작은 화면을 자동 조절할려고 여러자료를 찾아봤는데 이상하게 안되더라구요.. 게스트 확장 CD 삽입을 클릭해도 무반응이고.. terminal로 파일을 받아서, CD에 attach되도 실행이 안되더라구요 서론이 길었고 간단히 화면 조절하는법 알려드리겠습니다. 이 방법은 자동조절이 아닌, 사용자에 맞는 해상도를 설정하는 수동적인 방법입니다. 자동조절은 게스트 확장 CD로 설정하셔야 합니다. 2. 우분투, 리눅스 화면 크게 하기 간단히 그림으로 표현하겠습니다. 번호 순서대로 따라가시면 되겠습니다. Settings에 들어가셨다면 아래와 같은 화면이 보입니다. Resolution = 해상도를 클릭하셔서 컴퓨터에 맞는 해상도로 바꿔주세요. 4번을 하시면.. 더보기

[VirtualBox] Ubuntu에서 터미널 안 열릴 때 해결방법 1. 이러한 현상이 발생한 이유 보통 virtualBox에서 가상 머신을 만들기 시작할 때 빨간색 화살표가 가르키는 방향이 체크되어 있지 않다. 체크하면 자동으로 설치할껀지 체크하지 않으면 수동으로 자기가 설정하며 설치할지 묻는 옵션이다. 이걸 체크하지 않으면 일어나는 일인것 같다. (자세한 원인은 모름) 체크하지 않고 자동설치를 진행했다면 2번으로 가자. 2. Skip Unattended Installation를 체크하지 않은 경우 자동설치를 진행하고 터미널이 잘 실행된다면 문제 없지만, 실행되지 않는 경우이다. Terminal의 단축키 alt+crl+t를 해도 반응이 없고, 앱을 눌렀을 때도 반응이 없었다. 이러한 경우 아래와 같은 화면으로 들어간다. Setting에 들어가서 언어에서 다른 언어로 아.. 더보기

[Hadoop] Spark 소개, 특징, 이해하기 1. Spark 소개 Apache Spark은 오픈소스 컴퓨팅 시스템으로 데이터 분석을 빠르게 하는 것을 목표로 한다. 프로그램을 빠르게 실행시키기 위해서 Spark는 RDD data abstraction을 기반으로 한 실행 모델로 임의의 긴 수식 그래프를 최적화하는데 도움을 주거나, in-memory 컴퓨팅을 지원한다. 이것은 디스크 기반 엔진들보다 쿼리를 빠르게 한다. 2. Spark 특징 In-memory 분산 데이터 분석 in-memory computing : 운영을 위한 데이터를 하드디스크가 아닌 메인 메모리에 올려 실행하는 것 목표는 job의 실행속도를 빠르게 하는 것이다. 예시 : 일괄처리(Batches), Machine Learning, Interactive query 기존 MapReduc.. 더보기

[Hadoop] Pig 소개, 특징, 이해하기 1. Apache Pig 소개 Apache Pig는 큰 데이터 셋을 분석하는 플랫폼이다.Pig의 대표적인 속성은 구조가 실질적 병렬화에 적합하여 매우 큰 데이터 셋을 처리할 수 있다. Hadoop의 ETL 라이브러리다. ETL : Extract, transform, load MapReduce jobs을 만든다. Yahoo에서 만들어졌다. Pig Latin 언어를 사용한다. Oink, Grunt 2. Pig 특징 프로그램의 용이성 상호 관련된 여러 데이터 변환으로 구성된 복잡한 작업은 데이터 흐름 시퀀스로 인코딩되므로 쉽게 작성, 이해, 유지 관리할 수 있다. 최적화 기회 인코딩되는 방식을 통해 시스템은 자동으로 실행을 최적화한다. 확장성 사용자는 자신의 목적에 따라 자신의 함수를 만들 수 있다. 3. P.. 더보기

[Hadoop] Hive 정의, 특징, 이해하기 1. Apache Hive 소개 Apache Hive은 Hadoop위에 구축된 데이터베이스로 쉬운 데이터 요약, ad-hoc 쿼리, 큰 데이터셋의 분석이 가능하다. 이러한 데이터는 Hadoop의 호환되는 분산 파일 시스템에 저장되어 있다. 2. Hive 특징 SQL 같은 쿼리 언어로 MapReduce 코드를 만든다. Facebook에서 개발되었다. H-SQL이라는 언어를 사용한다. 일괄처리(Batch)이다. Not interactive. HBase와 함께 쓰인다. 3. Hive가 제공하는 기능 데이터 요약(ETL)을 편하게 하는 도구들이 있다. HDFS에 Ad-hoc 쿼리와 큰 데이터셋의 분석들이 저장된다. 데이터에 구조화를 하는 기법(A mechanism to put structure on this d.. 더보기

[Google][Dataproc] Hive 이용해보기 1. 초기설정 클러스터 초기설정법을 모른다면 아래글을 참고하자 2023.03.20 - [데이터 사이언스] - Google Dataproc 설정하기 (클러스터 생성하기) demo라는 이름의 클러스터를 클릭하여 들어간다. 2. Demo를 클릭한 이후 이제 클러스터에 Job를 실행하라고 양식을 작성하게 된다. 작업 제출에 들어간다. 3. 작업 제출 클릭 후 세부설정 작업 ID : Job의 이름이다. 알맞게 이름을 지어주자. 작업유형 : Hive를 이용함으로 Hive로 설정해 주자. 쿼리 소스 유형 : 파일이 있다면 쿼리파일을 이용해도 되고, 코드를 복사 붙이기 한다면 쿼리 텍스트 그리고 밑에 제출을 누르면 작업 제출이 완료된다. 코드는 아래를 이용했다. 1_create-table.hql이다. https://g.. 더보기

[Hadoop] MapReduce 2.0 등장 배경, 특징 1. MapReduce 1.0의 한계 일괄처리(batch processing)만 지원 일괄처리 : 컴퓨터의 프로그램의 흐름에 따라 자료를 순차적으로 처리 데이터끼리 상호작용 하지 않는다. (Not interactive) MapReduce Job을 코딩하는게 복잡하다. 개발자 인력의 부족 Job이 사업 모델에 적합하지 않은 부분이 많음 기업에서 필요로 하는 특징들이 부족함 낮은 보안성 (security) 높은 가용성(high availability) 부족 2. MapReduce 2.0의 등장 JobTracker의 역할을 분할함 JobTracker : Apache Hadoop의 MapReduce 엔진에서 실행되는 데몬이다. JobTracker는 MapReduce Job을 관리 자원관리 (Resource ma.. 더보기

이전 1 2 3 다음

티스토리툴바