Developers Haven

(DH)블로그는 개발자들이 기술 정보를 찾아볼 수 있는 안식처가 되고 싶음을 희망하여 시작하게 되었습니다. 공부한 내용과 성장 과정을 기록해두었으니 편히 둘러보시길 바랍니다.

Welcome to DH's Blog

[기술서적]

[빅데이터를 지탱하는 기술] Chapter1.빅데이터의 기초 지식

DH’s Blog 2023. 6. 1. 20:31
반응형

 

 

인터넷의 확산으로 기존 RDB(관계형데이터베이스)로 취급할 수 없는 대량의 데이터가 발생하게 되었고, 이러한 데이터를 처리하기 위해서 Hadoop과 NoSQL 기술이 등장하게 되었다.

 

1. 빅데이터의 정착

1-1. Hadoop의 등장

  • 분산된 컴퓨터에서 방대한 데이터를 처리할 수 있도록 도와주는 시스템
  • Hadoop 시스템에서 SQL 쿼리 언어를 사용할 수 있도록 만들어준 소프트웨어가 Hive(하이브)이다.
  • Hive의 등장으로 인해 기존의 자바 프로그래밍 없이 Hadoop 시스템의 데이터를 쉽게 활용할 수 있게 되었다.

 

1-2. NoSQL의 등장

  • 기존의 RDB의 한계를 극복하기 위해 등장하게 된 데이터베이스의 총칭
  • RDB에 비해 더 빠른 데이터 읽기, 쓰기가 가능하며 분산 처리에 특화되어 있다.
  • 결국, Hadoop과 NoSQL의 등장으로 대량의 데이터를 기록(NoSQL)하고 분산 처리(Hadoop) 할 수 있게 되었다.

 

1-3. Data Warehouse

  • DW의 장단점장점) Hadoop과 같이 대량의 데이터 처리가 가능하다.단점) 데이터 용량 증가에 따른 확장이 어렵다.
  • 이러한 점으로 인해 중요하고 용량이 적은 데이터는 DW에, 가속도적으로 증가하는 데이터 처리는 Hadoop이 맡게 되었다.
  • DW의 데이터를 시각화하여 의미있는 정보를 찾아내는 프로세스를 Data Discovery(데이터 디스커버리)라고 한다.

 

 

2. 빅데이터 시대의 데이터 분석 기반

2-1. 데이터 파이프라인

  • 데이터 수집에서 워크플로 관리까지 이루어지는 시스템을 의미한다.
  • 데이터 수집 → 데이터 적재 → 데이터 처리 → 워크플로 관리 → 분석 및 응용

 

2-2. 데이터 파이프라인의 과정

(1) 데이터 수집

  • 벌크 형 : 스토리지에 저장된 데이터를 정리하여 수집하는 방식 (대량의 데이터를 일정 기간 마다 수집)
  • 스트리밍 형 : 실시간으로 생성되는 데이터 수집

 

(2) 데이터 적재

  • 데이터를 하나의 객체 단위로 분산 스토리지에 적재하는 과정

 

(3) 데이터 처리

  • 배치 처리(Batch Processing) : 분산 스토리지에 정리된 데이터를 처리하는 방식(시간, 일, 월 수준의 주기적 일괄 처리 방식)
  • 실시간 처리(Real-Time Processing) : 스트리밍 형으로 받은 데이터를 실시간으로 처리하는 방식(스트림 처리와 동일)
  • 대화형 처리(Interactive Processing) : 원하는 질의에 대해 수 초 내에 결과를 얻는 방식(명령어를 실행하고 출력하는 방식)

 

(4) 워크플로 관리

  • 데이터 파이프라인의 동작을 관리하는 기술정해진 스케줄에 맞춰 배치 처리를 하고, 오류가 발생하는 경우 관리자에게 전송

 

(5) 분석 및 응용

  • 저장된 데이터를 이용하여 시각화 및 분석

 

2-3. 데이터 레이크(Data Lake)

  • 다양한 타입의 데이터를 저장할 수 있는 스토리지
  • 데이터 레이크에 모든 raw 데이터가 수집되고, 가공된 후에 데이터 웨어하우스와 데이터 마트에 적재된다.

 

2-4.데이터 웨어하우스(Data Warehouse)와 데이터 마트(Data Mart)

  • 데이터 웨어하우스(DW) : 장기 보존의 목적으로 데이터를 저장하는 테이블
  • 데이터 마트(DM) : DW로 부터 데이터 분석을 목적으로 추출한 테이블
  • 데이터 웨어하우스에서 필요에 따라 데이터를 계속 추출하는 것을 과부하를 만들 수 있다.
  • 이를 방지하기 위해서 데이터 웨어하우스에서 필요한 데이터만을 추출 하여 데이터 마트를 구축하게 된다.

 

2-5. 기간계와 정보계 시스템

  • 데이터 아키텍처(DA)는 기간계 시스템에서 데이터를 끌고와서 정보계 시스템에 데이터를 넣는 업무를 수행하게 된다.
  • 기간계 시스템비즈니스에 이용되고 있는 시스템기존 RDB와 동일한 OLTP성 데이터
  • 정보계 시스템사내 데이터 기반 의사 결정을 위해 DA가 개발하는 시스템OLTP에 비해 대규모의 데이터인 OLAP성 데이터

 

2-6. OLTP, OLAP의 구분

 

 

3. BI 도구와 모니터링

3-1. 모니터링

  • 데이터의 변화를 추적해나가는 과정을 의미
  • ex) 일정 주기마다 데이터를 집계하여 변화 추이를 확인하는 과정

 

3-2. KPI 모니터링(Key Performance Indicator)

  • 현재 비즈니스 또는 조직의 상황을 파악하기 위한 지표를 의미하며, 각 산업별로 서로 다른 KPI 지표를 모니터링 하고 있다.
  • KPI를 구성하기 위한 SMART 기준
    • Specific(구체성) : 목표와 기대치의 구체적 정립
    • Measurable(측정 가능) : 수치적으로 측정할 수 있는 지표
    • Attainable(달성 가능) : 현실 가능한 목표
    • Relevant(관련성) : 전체 비즈니스 목표와 관련있는 목표
    • Time-bound(기간 설정) : 목표 달성을 위한 기간 설정

 

 

 

📘참고 서적: [빅데이터를 지탱하는 기술]
니시다 케이스케 지음 / 정인식 옮김

 

반응형