Developers Haven

(DH)블로그는 개발자들이 기술 정보를 찾아볼 수 있는 안식처가 되고 싶음을 희망하여 시작하게 되었습니다. 공부한 내용과 성장 과정을 기록해두었으니 편히 둘러보시길 바랍니다.

Welcome to DH's Blog
반응형

hadoop 6

스토리지-컴퓨팅 분리 아키텍처에 대하여

기존 Hadoop 빅데이터 클러스터 아키텍처에서 스토리지-컴퓨팅 분리 아키텍처로 바뀌게 된 이유에 대해서 알아보자. 기존 Hadoop 빅데이터 클러스터 아키텍처 구조 Cnode(컴퓨팅 노드), Snode(스토리지 노드)가 하나로 구성된 구조 Hadoop의 데이터 지역성 활용 가능 → 최대한 데이터가 저장된 노드에서 데이터를 처리하게 함으로써 데이터의 이동(move)을 줄이고, 네트워크를 통해 전달하지 않게 하여 처리 성능 향상 하지만 시스템 확장에 비용이 많이 들며 비효율적이라는 문제가 존재 → Why? 컴퓨팅 파워와 스토리지 용량을 함께 늘려야하므로 스토리지-컴퓨팅 분리 아키텍처 구조 스토리지와 컴퓨팅의 독립적 확장이 가능하여 비교적 저렴 마이크로 서비스(s/w 기능을 작고 독립적으로 쪼개서 서비스를 ..

[기술공부]/Data 2024.04.18

Ubuntu에서 Hadoop 설치하기

데이터 분야에서 업무를 진행하면서, 평소 리눅스 운영체제에 대해 배워보고 싶다는 생각을 갖고 있었다. 현재 재직중인 회사에서는 DA(데이터 아키텍트)가 운영팀 & 엔지니어링팀(개발팀)으로 나뉘며 나는 개발팀에 소속되어 있다. 하지만 개발팀 특성상 실제 서버단의 데이터 수집은 TA(테크니컬 아키텍트)가 담당하고, DA는 수집된 데이터를 처리하고 가공해주는 부분을 담당하고 있다. 업무를 하면서 서버단에 직접 접근해서 작업해보고 싶다는 생각이 있었고 이번 기회에 시작하게 되었다. 익숙하지 않은 부분이어서 어려움은 있으나 하나씩 천천히 배워보고자 한다. Ubuntu는 Linux 커널을 기반으로 하는 운영 체제 시스템으로 이번 시간에는 Ubuntu에서 하둡을 설치하는 과정을 알아보겠다. 1. Java 설치하기 먼..

Hadoop(하둡)에 대하여

하둡이란 무엇일까? 빅데이터 환경에서 일을 하다보면 Hadoop(하둡)에 대해서 한번쯤은 들어보거나 실제 하둡 환경에서 작업해봤을 것이다. 하둡에 대한 가장 보편적인 정의는 프로그래밍을 통해 컴퓨터 클러스터에서 대규모 데이터를 분산 저장 및 처리할 수 있는 프레임워크이다. 데이터를 분산 처리하면서 데이터 분석을 위한 비용과 시간을 단축시킬 수 있었고, 하둡의 등장으로 빅데이터 분석이 본격적으로 시작되었다. 시간이 지나면서 데이터를 더 효율적으로 처리하기 위해 하둡 버전도 기능을 업그레이드했고, 22년 말 기준으로 버전3(v3)까지 공개되었다. 하둡의 가장 큰 특징은 '분산 저장과 처리'라고 할 수 있는데 처음 접하는 사람에겐 조금 생소한 표현일 수 있다. 이를 좀 더 자세히 이해하기 위해서 하둡의 버전별..

HDFS(Hadoop Distributed File System/하둡분산파일시스템)에 대하여

1. HDFS(Hadoop Distributed File System) HDFS(하둡분산파일시스템)란? 데이터를 블록(block) 단위로 나뉘어 분산 저장하는 파일 시스템을 의미한다. 버전에 따라 기본적인 블록 사이즈는 64MB~256MB이며 원하는 블록 사이즈로 설정할 수 있다.(아래 예시에서는 블록 사이즈가 128MB이라고 가정하고 설명하겠다) 블록 사이즈 보다 작은 파일은 그대로 저장하며, 블록 사이즈 보다 큰 파일은 블록 단위로 나누어 저장하게 된다.(아래 예시 참고) 블록에 대해서 조금 생소할 수 있지만 아래 그림을 한번 참고해보자. 356MB 크기의 파일이 저장될 때 블록 사이즈가 128MB라면 해당 파일은 3개의 블록(128MB + 128MB + 100MB)으로 나뉘어 저장된다. 조금 더 풀..

[하둡 완벽 가이드] 하둡 기술의 등장

현재 우리가 빅데이터 시대에 살고 있다는 것은 자명한 사실이며 데이터 아키텍처에게는 빅데이터에 대한 지식은 필수적인 역량이 되어 가고 있다.이 페이지를 시작으로 빅데이터 처리 프레임워크인 Hadoop에 대해서 알아갈 예정이다. 우선, 모두 한 번쯤은 들어 보았을 빅데이터에 대한 정의를 간단하게 알아보자. 빅데이터란? 💡 빅데이터란 기존의 데이터베이스의 능력을 넘어서는 대량의 데이터를 의미하며, 이러한 데이터를 처리하고 분석하는 기술을 포함하고 있다. 쉽게 생각하면 디지털 시대의 사람들은 일상의 대부분을 PC, 모바일 기기 등을 사용하면서 로그인 데이터, 웹 사이트 접속 데이터와 같은 다량의 데이터를 매일 생성한다. 그리고 이러한 데이터의 양이 급증하게 되면서 빅데이터란 개념이 등장했다고 생각하면 된다. ..

[하둡 완벽 가이드] 맵리듀스에 대하여

우선, 맵리듀스에 대하여 알아보기 전에 간단히 하둡의 아키텍처를 복습해보고 가자. 하둡의 아키텍처: 분산 파일 시스템(HDFS) + 맵리듀스(Map Reduce) HDFS: 데이터를 중복시켜 저장하여 데이터를 안전하게 보호하는 분산 파일 시스템 Map Reduce: 데이터를 병렬 처리해주는 분산 처리 프레임워크 맵리듀스(Map Reduce)란? 💡 대용량의 데이터를 병렬 처리해주는 분산 처리 프레임워크로, 데이터 처리를 위한 프로그래밍 모델이다. 맵리듀스만의 장단점 1. 장점 일괄 질의 처리기 비정형 쿼리 수행 2. 단점 (일반적으로) 질의 처리에 1분 이상 소요 대화형 분석에 부적합 그럼, 하둡은 왜 전통적인 RDBMS를 두고 맵리듀스를 사용하게 되었을까? 기존의 RDBMS(관계형 데이터베이스 관리 시..

반응형