Developers Haven

(DH)블로그는 개발자들이 기술 정보를 찾아볼 수 있는 안식처가 되고 싶음을 희망하여 시작하게 되었습니다. 공부한 내용과 성장 과정을 기록해두었으니 편히 둘러보시길 바랍니다.

Welcome to DH's Blog

[기술공부]/BigData

[하둡 완벽 가이드] 맵리듀스에 대하여

DH’s Blog 2023. 6. 1. 20:16
반응형

 

우선, 맵리듀스에 대하여 알아보기 전에 간단히 하둡의 아키텍처를 복습해보고 가자.

 

하둡의 아키텍처: 분산 파일 시스템(HDFS) + 맵리듀스(Map Reduce)

  • HDFS: 데이터를 중복시켜 저장하여 데이터를 안전하게 보호하는 분산 파일 시스템
  • Map Reduce: 데이터를 병렬 처리해주는 분산 처리 프레임워크

 

맵리듀스(Map Reduce)란?

💡 대용량의 데이터를 병렬 처리해주는 분산 처리 프레임워크로, 데이터 처리를 위한 프로그래밍 모델이다.

 

맵리듀스만의 장단점

1. 장점

  • 일괄 질의 처리기
  • 비정형 쿼리 수행

 

2. 단점

  • (일반적으로) 질의 처리에 1분 이상 소요
  • 대화형 분석에 부적합

 

그럼, 하둡은 왜 전통적인 RDBMS를 두고 맵리듀스를 사용하게 되었을까?

 

기존의 RDBMS(관계형 데이터베이스 관리 시스템)와 맵리듀스의 비교

  전통적인 RDBMS 맵리듀스
데이터 크기 기가바이트(GB) 페타바이트(PB)
접근 방식 대화형과 일괄 처리 방식 일괄 처리 방식
변경 여러번 읽고 쓰기 한 번 쓰고 여러번 읽기
트랜잭션 ACID 없음
구조 쓰기 기준 스키마 읽기 기준 스키마
무결성 높음 낮음
확장성 비선형 선형

 

※ 빅데이터 분석 기법의 3가지

  • 대화형 분석: 사용자 입력 쿼리를 받아서 결과를 바로 반환해주는 분석 방법
  • 배치 분석: 저장된 데이터를 일정한 주기로 분석하는 방법
  • 실시간 분석: 사용자 입력이 실시간으로 저장되어 분석하는 방법

 

 

*위 내용은 [하둡 완벽 가이드] 저자: 톰 화이트 의 내용을 기반으로 작성되었습니다.

 

반응형