반응형
기존 Hadoop 빅데이터 클러스터 아키텍처에서 스토리지-컴퓨팅 분리 아키텍처로 바뀌게 된 이유에 대해서 알아보자.
기존 Hadoop 빅데이터 클러스터 아키텍처 구조
- Cnode(컴퓨팅 노드), Snode(스토리지 노드)가 하나로 구성된 구조
- Hadoop의 데이터 지역성 활용 가능 → 최대한 데이터가 저장된 노드에서 데이터를 처리하게 함으로써 데이터의 이동(move)을 줄이고, 네트워크를 통해 전달하지 않게 하여 처리 성능 향상
- 하지만 시스템 확장에 비용이 많이 들며 비효율적이라는 문제가 존재 → Why? 컴퓨팅 파워와 스토리지 용량을 함께 늘려야하므로
스토리지-컴퓨팅 분리 아키텍처 구조
- 스토리지와 컴퓨팅의 독립적 확장이 가능하여 비교적 저렴
- 마이크로 서비스(s/w 기능을 작고 독립적으로 쪼개서 서비스를 제공) 아키텍처에 적합
- Spark의 경우, 메모리에 데이터를 올려서 처리하는 방식으로 스토리지-컴퓨팅 분리 아키텍처에 적합
- 하지만 데이터를 읽기 위해서 네트워크 대역폭을 소모하는 것을 피할 수 없음
Q. 스토리지 종류(DAS, NAS, SAN)의 차이점은?
1. DAS(Direct Attached Storage)
- 스토리지가 개별 호스트(ex. 컴퓨터, 서버)에 다이렉트로 연결되는 방식 → 네트워크 연결 없음
- 각 호스트에서 스토리지까지 물리적으로 근접한 곳에서 접근 가능
- 하지만 호스트에 장애가 발생할 경우 스토리지에도 같이 접근이 제한되는 문제 존재
2. NAS(Network Attached Storage)
- 스토리지와 호스트 사이에 네트워크를 두는 방식
- 스토리지는 직접 네트워크에 연결하여 데이터 공유 가능
- 블록의 상위 개념인 파일(file)을 저장 단위로 사용
- 하지만 네트워크 병목 현상에 취약하며 대역폭에 제한이 있는 문제 존재
3. SAN(Storage Area Network)
- 여러 스토리지의 단일 네트워크에 연결시켜서 스토리지 전용 네트워크(SAN)를 구성하는 방식
- 호스트는 SAN 전용 네트워크를 통해 접근 가능
- 블록을 저장 단위로 사용
- 하지만 네트워크 복잡도가 높아지면서 상대적으로 비용이 높다는 문제 존재
참고 페이지
https://www.stevenjlee.net/2020/05/24/%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0-%EC%8A%A4%ED%86%A0%EB%A6%AC%EC%A7%80storyage-%EC%9D%98-%EC%A2%85%EB%A5%98das-nas-san-%EC%99%80-%EA%B0%9C%EB%85%90/
반응형
'[기술공부] > Data' 카테고리의 다른 글
Apache Iceberg vs Apache Hive 차이점 - (2) (0) | 2023.11.03 |
---|---|
Apache Iceberg vs Apache Hive 차이점 - (1) (1) | 2023.11.03 |
Apache Iceberg : Copy-on-Write(cow) vs Merge-on-Read(mor) (0) | 2023.10.30 |
Apache Iceberg DML, 메타데이터 사용법 (0) | 2023.10.30 |
SQL튜닝 - 인덱스의 종류에 대하여 (클러스터/비클러스터 인덱스) (1) | 2023.10.27 |