Developers Haven

(DH)블로그는 개발자들이 기술 정보를 찾아볼 수 있는 안식처가 되고 싶음을 희망하여 시작하게 되었습니다. 공부한 내용과 성장 과정을 기록해두었으니 편히 둘러보시길 바랍니다.

Welcome to DH's Blog
반응형

HIVE 5

Hive(하이브)에 대하여

Hive(하이브)란 무엇일까? 하이브는 Hadoop ecosystem의 하나로 데이터를 모델링하고 프로세싱하는 '데이터 웨어하우징 솔루션'으로, HDFS와 분산 대용량 데이터에 대해 (SQL과 유사한) hiveQL 언어로 쿼리 질의를 실행할 수 있는 도구이다. 더 쉽게 생각하면 HDFS 안의 파일을 SQL 언어를 통해 조회할 수 있게 해주는 기능이라 이해할 수 있다. 하둡에 대한 정보는 아래 페이지를 참고하도록 하자. Hadoop(하둡)에 대하여 하둡이란 무엇일까? 빅데이터 환경에서 일을 하다보면 Hadoop(하둡)에 대해서 한번쯤은 들어보거나 실제 하둡 환경에서 작업해봤을 것이다. 하둡에 대한 가장 보편적인 정의는 프로그래밍을 통해 developers-haven.tistory.com 하둡 에코시스템이라..

Hive MetaStore(메타스토어) 활용방법 - (2)

앞 장에서 하이브 메타스토어(MetaStore)를 활용하는 방법에 대해서 설명했고, 이번에도 이어서 설명해보려 한다. 앞 장에서 설명한 쿼리는 아래 링크(https://developers-haven.tistory.com/45)를 참고하면 된다. Hive MetaStore(메타스토어) 활용방법 - (1) 하이브 메타스토어(MetaStore)에 대한 정보는 아래 링크(https://developers-haven.tistory.com/44)를 참고하길 바라며, 이번에는 메타스토어를 활용하기 위한 SQL 쿼리에 대해 알아보도록 하자. Hive MetaStore(메 developers-haven.tistory.com 1. 테이블 데이터 건수 조회 (참고) HIVE 통계 정보가 생성되지 않은 테이블은 메타 반영이 ..

Hive MetaStore(메타스토어) 활용방법 - (1)

하이브 메타스토어(MetaStore)에 대한 정보는 아래 링크(https://developers-haven.tistory.com/44)를 참고하길 바라며, 이번에는 메타스토어를 활용하기 위한 SQL 쿼리에 대해 알아보도록 하자. Hive MetaStore(메타스토어)에 대하여 메타스토어(MetaStore)란? 테이블과 데이터, 파티션에 대한 모든 정보를 메타스토어에 저장하여 관리하며, 사용자의 요청에 따라 관련된 메타 정보를 제공해준다. ex) Hive 테이블은 schema on read 특성 developers-haven.tistory.com 1. 스키마별 테이블 조회 아래 두개의 JOIN 방식은 동일한 결과를 가져오며, 본인이 편한 식으로 JOIN 쿼리를 작성하면 된다. 참고로 나는 첫번째 방식이 더..

Hive MetaStore(메타스토어)에 대하여

메타스토어(MetaStore)란? 테이블과 데이터, 파티션에 대한 모든 정보를 메타스토어에 저장하여 관리하며, 사용자의 요청에 따라 관련된 메타 정보를 제공해준다. ex) Hive 테이블은 schema on read 특성에 따라 데이터가 저장된 후에 스키마에 맞는 형태로 데이터를 읽어주는데, 이때 메타스토어에서 스키마 정보를 가져온다. schema on read에 대한 개념은 아래 링크(https://developers-haven.tistory.com/43) 참고 schema on read vs schema on write 빅데이터 환경에서는 실시간으로 다양한 형태(정형/비정형 등)의 데이터를 수집함에 따라 Hive의 schema-on-read 특성을 이용하게 되는데, 이에 대해서 더 자세히 알아보도록 ..

schema on read vs schema on write

빅데이터 환경에서는 실시간으로 다양한 형태(정형/비정형 등)의 데이터를 수집함에 따라 Hive의 schema-on-read 특성을 이용하게 되는데, 이에 대해서 더 자세히 알아보도록 하자. 데이터를 읽는 방법에 따라 [schema-on-read] 방식과 [schema-on-write] 방식으로 나눠지게 되는데, 이 두가지 방법의 차이점은 무엇일까? schema-on-read 방식이란? (사전적 의미) 데이터를 읽는 시점에 스키마를 정의(=확인)하는 방식 풀어서 설명하자면 데이터를 저장(Insert)하는 시점에서는 스키마(=테이블 구조)를 확인하지 않고 데이터를 읽는(Read with query) 시점에 테이블 형상대로 읽어준다. 이런 특성 덕분에 우선적으로 데이터를 HDFS에 저장해두고 이후에 스키마를 ..

반응형