반응형
우선, 맵리듀스에 대하여 알아보기 전에 간단히 하둡의 아키텍처를 복습해보고 가자.
하둡의 아키텍처: 분산 파일 시스템(HDFS) + 맵리듀스(Map Reduce)
- HDFS: 데이터를 중복시켜 저장하여 데이터를 안전하게 보호하는 분산 파일 시스템
- Map Reduce: 데이터를 병렬 처리해주는 분산 처리 프레임워크
맵리듀스(Map Reduce)란?
💡 대용량의 데이터를 병렬 처리해주는 분산 처리 프레임워크로, 데이터 처리를 위한 프로그래밍 모델이다.
맵리듀스만의 장단점
1. 장점
- 일괄 질의 처리기
- 비정형 쿼리 수행
2. 단점
- (일반적으로) 질의 처리에 1분 이상 소요
- 대화형 분석에 부적합
그럼, 하둡은 왜 전통적인 RDBMS를 두고 맵리듀스를 사용하게 되었을까?
기존의 RDBMS(관계형 데이터베이스 관리 시스템)와 맵리듀스의 비교
전통적인 RDBMS | 맵리듀스 | |
데이터 크기 | 기가바이트(GB) | 페타바이트(PB) |
접근 방식 | 대화형과 일괄 처리 방식 | 일괄 처리 방식 |
변경 | 여러번 읽고 쓰기 | 한 번 쓰고 여러번 읽기 |
트랜잭션 | ACID | 없음 |
구조 | 쓰기 기준 스키마 | 읽기 기준 스키마 |
무결성 | 높음 | 낮음 |
확장성 | 비선형 | 선형 |
※ 빅데이터 분석 기법의 3가지
- 대화형 분석: 사용자 입력 쿼리를 받아서 결과를 바로 반환해주는 분석 방법
- 배치 분석: 저장된 데이터를 일정한 주기로 분석하는 방법
- 실시간 분석: 사용자 입력이 실시간으로 저장되어 분석하는 방법
*위 내용은 [하둡 완벽 가이드] 저자: 톰 화이트 의 내용을 기반으로 작성되었습니다.
반응형
'[기술공부] > BigData' 카테고리의 다른 글
Hive MetaStore(메타스토어) 활용방법 - (2) (1) | 2023.08.03 |
---|---|
Hive MetaStore(메타스토어) 활용방법 - (1) (2) | 2023.08.03 |
Hive MetaStore(메타스토어)에 대하여 (0) | 2023.08.03 |
schema on read vs schema on write (0) | 2023.08.03 |
[하둡 완벽 가이드] 하둡 기술의 등장 (0) | 2023.06.01 |