반응형

1. 비구조화 데이터의 분산 스토리지
우선, 지금까지 빅데이터의 분산 스토리지에서 객체 스토리지(Object Storage)의 특징에 대해 알아보았는데 객체 스토리지의 단점에 대해서 먼저 알아보자.
1-1. 객체 스토리지의 단점
- 객체 스토리지 상의 파일 교체가 어렵다.
- read한 파일을 통째로 교체해야하기 때문에 수시로 파일을 변경하는 작업에는 적합하지 않다.
- 객체 스토리지의 데이터를 집계하는 시간이 오래 걸린다.
- 데이터 집계에 필요한 열 지향 스토리지를 만드는 과정에 시간이 소요된다.
이러한 점으로 인해 데이터를 기록하고 곧바로 활용하기 위해서 (메시지 배송 방식 대신) 실시간 집계와 검색에 적합한 ‘NoSQL 데이터베이스’를 사용하기도 한다. 그럼 NoSQL 데이터베이스의 대표적인 3가지와 각각의 특징에 대해 알아보자.
1-2. 분산 KVS(distributed Key-Value Store)
- 모든 데이터를 키값(key-value) 쌍으로 저장하도록 설계된 데이터 저장소
- 분산 KVS 구조
- 데이터마다 고유의 키(key) 지정 → 해당 키 값을 클러스터 내의 어느 노드에 배치할지 결정
- 분산 KVS 특징
- 키 값을 기준으로 노드 배치를 진행하기 때문에 노드 간의 부하를 균등하게 분산할 수 있다.
- 하나의 키에 하나의 값 할당 / 하나의 키에 여러 값 할당 / 여러 키의 조합에 값 할당 등 다양한 키값 구현이 가능하다.
1-3. 와이드 칼럼 스토어(wide-column store)
- 2개 이상의 임의의 키에 데이터를 저장할 수 있도록 설계된 저장소

- 와이드 칼럼 스토어의 특징
- 행 키(key)와 컬럼 이름의 조합에 대해 값(value)을 저장한다.
- 행과 칼럼을 계속 추가할 수 있는 구조이다.
1-4. 도큐먼트 스토어(document store)
- 스키마리스 데이터 그대로 저장하고 쿼리를 실행할 수 있도록 설계된 저장소
- 도큐먼트 스토어의 특징
- 스키마를 정하지 않고 데이터를 처리할 수 있다.
- 일반적으로 참고 시스템의 데이터 및 로그 저장에 사용된다.
1-5. 검색 엔진(search engine)
- 인덱스를 이용한 키워드 검색 방식으로 데이터를 검색하는 시스템
- 검색 엔진의 특징
- 인덱스로 인해 데이터를 기록하는 시스템 부하 및 디스크 소비량은 많지만 키워드 검색이 훨씬 빠르다.
- 데이터 집계에 적합하며 최근 데이터를 빠르게 조회해야 하는 경우에 사용된다.
이번 내용에서는 데이터를 수집하고 저장하기 위한 ‘분산 스토리지’에 관한 개념들을 배울 수 있었다. 그리고 스토리지에 데이터를 저장하는 과정에서의 데이터 중복, 누락이 발생하는 이유와 해결 방법에 대해서도 알아볼 수 있는 시간이었다. 위 내용을 통해 데이터를 수집하고 저장하는 과정 에서도 Data Architect는 많은 점을 고려해야 한다는 것을 한번 더 느낄 수 있는 시간을 가질 수 있었다.
📘참고 서적: [빅데이터를 지탱하는 기술]
니시다 케이스케 지음 / 정인식 옮김
반응형
'[기술서적]' 카테고리의 다른 글
| [빅데이터를 지탱하는 기술] Chapter5.빅데이터의 파이프라인 - (2) (0) | 2023.06.02 |
|---|---|
| [빅데이터를 지탱하는 기술] Chapter5.빅데이터의 파이프라인 - (1) (0) | 2023.06.02 |
| [빅데이터를 지탱하는 기술] Chapter4.빅데이터의 축적 - (2) (0) | 2023.06.01 |
| [빅데이터를 지탱하는 기술] Chapter4.빅데이터의 축적 - (1) (0) | 2023.06.01 |
| [빅데이터를 지탱하는 기술] Chapter3.빅데이터의 분산 처리 - (2) (0) | 2023.06.01 |