반응형

인터넷의 확산으로 기존 RDB(관계형데이터베이스)로 취급할 수 없는 대량의 데이터가 발생하게 되었고, 이러한 데이터를 처리하기 위해서 Hadoop과 NoSQL 기술이 등장하게 되었다.
1. 빅데이터의 정착
1-1. Hadoop의 등장
- 분산된 컴퓨터에서 방대한 데이터를 처리할 수 있도록 도와주는 시스템
- Hadoop 시스템에서 SQL 쿼리 언어를 사용할 수 있도록 만들어준 소프트웨어가 Hive(하이브)이다.
- Hive의 등장으로 인해 기존의 자바 프로그래밍 없이 Hadoop 시스템의 데이터를 쉽게 활용할 수 있게 되었다.
1-2. NoSQL의 등장
- 기존의 RDB의 한계를 극복하기 위해 등장하게 된 데이터베이스의 총칭
- RDB에 비해 더 빠른 데이터 읽기, 쓰기가 가능하며 분산 처리에 특화되어 있다.
- 결국, Hadoop과 NoSQL의 등장으로 대량의 데이터를 기록(NoSQL)하고 분산 처리(Hadoop) 할 수 있게 되었다.
1-3. Data Warehouse
- DW의 장단점장점) Hadoop과 같이 대량의 데이터 처리가 가능하다.단점) 데이터 용량 증가에 따른 확장이 어렵다.
- 이러한 점으로 인해 중요하고 용량이 적은 데이터는 DW에, 가속도적으로 증가하는 데이터 처리는 Hadoop이 맡게 되었다.
- DW의 데이터를 시각화하여 의미있는 정보를 찾아내는 프로세스를 Data Discovery(데이터 디스커버리)라고 한다.
2. 빅데이터 시대의 데이터 분석 기반
2-1. 데이터 파이프라인
- 데이터 수집에서 워크플로 관리까지 이루어지는 시스템을 의미한다.
- 데이터 수집 → 데이터 적재 → 데이터 처리 → 워크플로 관리 → 분석 및 응용
2-2. 데이터 파이프라인의 과정
(1) 데이터 수집
- 벌크 형 : 스토리지에 저장된 데이터를 정리하여 수집하는 방식 (대량의 데이터를 일정 기간 마다 수집)
- 스트리밍 형 : 실시간으로 생성되는 데이터 수집
(2) 데이터 적재
- 데이터를 하나의 객체 단위로 분산 스토리지에 적재하는 과정
(3) 데이터 처리
- 배치 처리(Batch Processing) : 분산 스토리지에 정리된 데이터를 처리하는 방식(시간, 일, 월 수준의 주기적 일괄 처리 방식)
- 실시간 처리(Real-Time Processing) : 스트리밍 형으로 받은 데이터를 실시간으로 처리하는 방식(스트림 처리와 동일)
- 대화형 처리(Interactive Processing) : 원하는 질의에 대해 수 초 내에 결과를 얻는 방식(명령어를 실행하고 출력하는 방식)
(4) 워크플로 관리
- 데이터 파이프라인의 동작을 관리하는 기술정해진 스케줄에 맞춰 배치 처리를 하고, 오류가 발생하는 경우 관리자에게 전송
(5) 분석 및 응용
- 저장된 데이터를 이용하여 시각화 및 분석
2-3. 데이터 레이크(Data Lake)
- 다양한 타입의 데이터를 저장할 수 있는 스토리지
- 데이터 레이크에 모든 raw 데이터가 수집되고, 가공된 후에 데이터 웨어하우스와 데이터 마트에 적재된다.
2-4.데이터 웨어하우스(Data Warehouse)와 데이터 마트(Data Mart)
- 데이터 웨어하우스(DW) : 장기 보존의 목적으로 데이터를 저장하는 테이블
- 데이터 마트(DM) : DW로 부터 데이터 분석을 목적으로 추출한 테이블
- 데이터 웨어하우스에서 필요에 따라 데이터를 계속 추출하는 것을 과부하를 만들 수 있다.
- 이를 방지하기 위해서 데이터 웨어하우스에서 필요한 데이터만을 추출 하여 데이터 마트를 구축하게 된다.
2-5. 기간계와 정보계 시스템
- 데이터 아키텍처(DA)는 기간계 시스템에서 데이터를 끌고와서 정보계 시스템에 데이터를 넣는 업무를 수행하게 된다.
- 기간계 시스템비즈니스에 이용되고 있는 시스템기존 RDB와 동일한 OLTP성 데이터
- 정보계 시스템사내 데이터 기반 의사 결정을 위해 DA가 개발하는 시스템OLTP에 비해 대규모의 데이터인 OLAP성 데이터
2-6. OLTP, OLAP의 구분

3. BI 도구와 모니터링
3-1. 모니터링
- 데이터의 변화를 추적해나가는 과정을 의미
- ex) 일정 주기마다 데이터를 집계하여 변화 추이를 확인하는 과정
3-2. KPI 모니터링(Key Performance Indicator)
- 현재 비즈니스 또는 조직의 상황을 파악하기 위한 지표를 의미하며, 각 산업별로 서로 다른 KPI 지표를 모니터링 하고 있다.
- KPI를 구성하기 위한 SMART 기준
- Specific(구체성) : 목표와 기대치의 구체적 정립
- Measurable(측정 가능) : 수치적으로 측정할 수 있는 지표
- Attainable(달성 가능) : 현실 가능한 목표
- Relevant(관련성) : 전체 비즈니스 목표와 관련있는 목표
- Time-bound(기간 설정) : 목표 달성을 위한 기간 설정
📘참고 서적: [빅데이터를 지탱하는 기술]
니시다 케이스케 지음 / 정인식 옮김
반응형
'[기술서적]' 카테고리의 다른 글
| [빅데이터를 지탱하는 기술] Chapter4.빅데이터의 축적 - (1) (0) | 2023.06.01 |
|---|---|
| [빅데이터를 지탱하는 기술] Chapter3.빅데이터의 분산 처리 - (2) (0) | 2023.06.01 |
| [빅데이터를 지탱하는 기술] Chapter3.빅데이터의 분산 처리 - (1) (0) | 2023.06.01 |
| [빅데이터를 지탱하는 기술] Chapter2.빅데이터의 탐색 - (2) (0) | 2023.06.01 |
| [빅데이터를 지탱하는 기술] Chapter2.빅데이터의 탐색 - (1) (0) | 2023.06.01 |